diff --git a/.job_config.json b/.job_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..e10d3ad1b372652e7752a64591eb8728f860973e
--- /dev/null
+++ b/.job_config.json
@@ -0,0 +1,135 @@
+{
+  "job": "extension",
+  "config": {
+    "name": "strawbyte_v1",
+    "process": [
+      {
+        "type": "diffusion_trainer",
+        "training_folder": "/app/ai-toolkit/output",
+        "sqlite_db_path": "/app/ai-toolkit/aitk_db.db",
+        "device": "cuda",
+        "trigger_word": null,
+        "performance_log_every": 10,
+        "network": {
+          "type": "lora",
+          "linear": 32,
+          "linear_alpha": 32,
+          "conv": 16,
+          "conv_alpha": 16,
+          "lokr_full_rank": true,
+          "lokr_factor": -1,
+          "network_kwargs": {
+            "ignore_if_contains": []
+          }
+        },
+        "save": {
+          "dtype": "bf16",
+          "save_every": 250,
+          "max_step_saves_to_keep": 4,
+          "save_format": "diffusers",
+          "push_to_hub": false
+        },
+        "datasets": [
+          {
+            "folder_path": "/app/ai-toolkit/datasets/strawbyte",
+            "mask_path": null,
+            "mask_min_value": 0.1,
+            "default_caption": "",
+            "caption_ext": "txt",
+            "caption_dropout_rate": 0.05,
+            "cache_latents_to_disk": false,
+            "is_reg": false,
+            "network_weight": 1,
+            "resolution": [
+              512,
+              768,
+              1024
+            ],
+            "controls": [],
+            "shrink_video_to_frames": true,
+            "num_frames": 1,
+            "do_i2v": true,
+            "flip_x": false,
+            "flip_y": false
+          }
+        ],
+        "train": {
+          "batch_size": 1,
+          "bypass_guidance_embedding": false,
+          "steps": 3000,
+          "gradient_accumulation": 1,
+          "train_unet": true,
+          "train_text_encoder": false,
+          "gradient_checkpointing": true,
+          "noise_scheduler": "flowmatch",
+          "optimizer": "adamw8bit",
+          "timestep_type": "weighted",
+          "content_or_style": "balanced",
+          "optimizer_params": {
+            "weight_decay": 0.0001
+          },
+          "unload_text_encoder": false,
+          "cache_text_embeddings": false,
+          "lr": 0.0001,
+          "ema_config": {
+            "use_ema": false,
+            "ema_decay": 0.99
+          },
+          "skip_first_sample": false,
+          "force_first_sample": false,
+          "disable_sampling": false,
+          "dtype": "bf16",
+          "diff_output_preservation": false,
+          "diff_output_preservation_multiplier": 1,
+          "diff_output_preservation_class": "person",
+          "switch_boundary_every": 1,
+          "loss_type": "mse"
+        },
+        "model": {
+          "name_or_path": "Qwen/Qwen-Image",
+          "quantize": true,
+          "qtype": "qfloat8",
+          "quantize_te": true,
+          "qtype_te": "qfloat8",
+          "arch": "qwen_image",
+          "low_vram": true,
+          "model_kwargs": {},
+          "layer_offloading": false,
+          "layer_offloading_text_encoder_percent": 1,
+          "layer_offloading_transformer_percent": 1
+        },
+        "sample": {
+          "sampler": "flowmatch",
+          "sample_every": 250,
+          "width": 1024,
+          "height": 1024,
+          "samples": [
+            {
+              "prompt": "ultra-realistic portrait of a young white male with short silver hair, pale skin, light stubble, and calm expression, wearing a dark modern shirt in a neutral soft-lit studio, clean background, natural shadows, very clear facial details, no props, no accessories, centered composition"
+            },
+            {
+              "prompt": "realistic image of a young white male with short silver hair and pale skin passed out in a simple living room, slumped sideways on a couch, head drooped, one arm hanging down, dim warm lighting, empty drink cans on the floor, messy table nearby, soft shadows, cinematic realism"
+            },
+            {
+              "prompt": "clean black-and-white line-art drawing of a young white male with short silver hair, medium shot from the waist up, minimalistic sketch style, plain white background, clean outlines, no shading, no color, consistent proportions, manga-influenced but realistic structure"
+            },
+            {
+              "prompt": "full-body shot of a young white male with short silver hair standing in a minimal futuristic room, relaxed posture with arms at his sides, soft diffused lighting, clean bright background, simple clothing, no props, high clarity, neutral expression, realistic modern photography"
+            }
+          ],
+          "neg": "",
+          "seed": 42,
+          "walk_seed": true,
+          "guidance_scale": 4,
+          "sample_steps": 25,
+          "num_frames": 1,
+          "fps": 1
+        }
+      }
+    ]
+  },
+  "meta": {
+    "name": "[name]",
+    "version": "1.0"
+  }
+}
\ No newline at end of file
diff --git a/config.yaml b/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..037e6ef11bc20483931e78f233bc24bcee0e945c
--- /dev/null
+++ b/config.yaml
@@ -0,0 +1,119 @@
+job: extension
+config:
+  name: strawbyte_v1
+  process:
+  - type: diffusion_trainer
+    training_folder: /app/ai-toolkit/output
+    sqlite_db_path: /app/ai-toolkit/aitk_db.db
+    device: cuda
+    trigger_word: null
+    performance_log_every: 10
+    network:
+      type: lora
+      linear: 32
+      linear_alpha: 32
+      conv: 16
+      conv_alpha: 16
+      lokr_full_rank: true
+      lokr_factor: -1
+      network_kwargs:
+        ignore_if_contains: []
+    save:
+      dtype: bf16
+      save_every: 250
+      max_step_saves_to_keep: 4
+      save_format: diffusers
+      push_to_hub: false
+    datasets:
+    - folder_path: /app/ai-toolkit/datasets/strawbyte
+      mask_path: null
+      mask_min_value: 0.1
+      default_caption: ''
+      caption_ext: txt
+      caption_dropout_rate: 0.05
+      cache_latents_to_disk: false
+      is_reg: false
+      network_weight: 1
+      resolution:
+      - 512
+      - 768
+      - 1024
+      controls: []
+      shrink_video_to_frames: true
+      num_frames: 1
+      do_i2v: true
+      flip_x: false
+      flip_y: false
+    train:
+      batch_size: 1
+      bypass_guidance_embedding: false
+      steps: 3000
+      gradient_accumulation: 1
+      train_unet: true
+      train_text_encoder: false
+      gradient_checkpointing: true
+      noise_scheduler: flowmatch
+      optimizer: adamw8bit
+      timestep_type: weighted
+      content_or_style: balanced
+      optimizer_params:
+        weight_decay: 0.0001
+      unload_text_encoder: false
+      cache_text_embeddings: false
+      lr: 0.0001
+      ema_config:
+        use_ema: false
+        ema_decay: 0.99
+      skip_first_sample: false
+      force_first_sample: false
+      disable_sampling: false
+      dtype: bf16
+      diff_output_preservation: false
+      diff_output_preservation_multiplier: 1
+      diff_output_preservation_class: person
+      switch_boundary_every: 1
+      loss_type: mse
+    model:
+      name_or_path: Qwen/Qwen-Image
+      quantize: true
+      qtype: qfloat8
+      quantize_te: true
+      qtype_te: qfloat8
+      arch: qwen_image
+      low_vram: true
+      model_kwargs: {}
+      layer_offloading: false
+      layer_offloading_text_encoder_percent: 1
+      layer_offloading_transformer_percent: 1
+    sample:
+      sampler: flowmatch
+      sample_every: 250
+      width: 1024
+      height: 1024
+      samples:
+      - prompt: ultra-realistic portrait of a young white male with short silver hair,
+          pale skin, light stubble, and calm expression, wearing a dark modern shirt
+          in a neutral soft-lit studio, clean background, natural shadows, very clear
+          facial details, no props, no accessories, centered composition
+      - prompt: realistic image of a young white male with short silver hair and pale
+          skin passed out in a simple living room, slumped sideways on a couch, head
+          drooped, one arm hanging down, dim warm lighting, empty drink cans on the
+          floor, messy table nearby, soft shadows, cinematic realism
+      - prompt: clean black-and-white line-art drawing of a young white male with
+          short silver hair, medium shot from the waist up, minimalistic sketch style,
+          plain white background, clean outlines, no shading, no color, consistent
+          proportions, manga-influenced but realistic structure
+      - prompt: full-body shot of a young white male with short silver hair standing
+          in a minimal futuristic room, relaxed posture with arms at his sides, soft
+          diffused lighting, clean bright background, simple clothing, no props, high
+          clarity, neutral expression, realistic modern photography
+      neg: ''
+      seed: 42
+      walk_seed: true
+      guidance_scale: 4
+      sample_steps: 25
+      num_frames: 1
+      fps: 1
+meta:
+  name: strawbyte_v1
+  version: '1.0'
diff --git a/log.txt b/log.txt
new file mode 100644
index 0000000000000000000000000000000000000000..a8a8cd6b6a9e11553aa4736822f0cc07bb053f59
--- /dev/null
+++ b/log.txt
@@ -0,0 +1,370 @@
+Running 1 job
+{
+    "type": "diffusion_trainer",
+    "training_folder": "/app/ai-toolkit/output",
+    "sqlite_db_path": "/app/ai-toolkit/aitk_db.db",
+    "device": "cuda",
+    "trigger_word": null,
+    "performance_log_every": 10,
+    "network": {
+        "type": "lora",
+        "linear": 32,
+        "linear_alpha": 32,
+        "conv": 16,
+        "conv_alpha": 16,
+        "lokr_full_rank": true,
+        "lokr_factor": -1,
+        "network_kwargs": {
+            "ignore_if_contains": []
+        }
+    },
+    "save": {
+        "dtype": "bf16",
+        "save_every": 250,
+        "max_step_saves_to_keep": 4,
+        "save_format": "diffusers",
+        "push_to_hub": false
+    },
+    "datasets": [
+        {
+            "folder_path": "/app/ai-toolkit/datasets/strawbyte",
+            "mask_path": null,
+            "mask_min_value": 0.1,
+            "default_caption": "",
+            "caption_ext": "txt",
+            "caption_dropout_rate": 0.05,
+            "cache_latents_to_disk": false,
+            "is_reg": false,
+            "network_weight": 1,
+            "resolution": [
+                512,
+                768,
+                1024
+            ],
+            "controls": [],
+            "shrink_video_to_frames": true,
+            "num_frames": 1,
+            "do_i2v": true,
+            "flip_x": false,
+            "flip_y": false
+        }
+    ],
+    "train": {
+        "batch_size": 1,
+        "bypass_guidance_embedding": false,
+        "steps": 3000,
+        "gradient_accumulation": 1,
+        "train_unet": true,
+        "train_text_encoder": false,
+        "gradient_checkpointing": true,
+        "noise_scheduler": "flowmatch",
+        "optimizer": "adamw8bit",
+        "timestep_type": "weighted",
+        "content_or_style": "balanced",
+        "optimizer_params": {
+            "weight_decay": 0.0001
+        },
+        "unload_text_encoder": false,
+        "cache_text_embeddings": false,
+        "lr": 0.0001,
+        "ema_config": {
+            "use_ema": false,
+            "ema_decay": 0.99
+        },
+        "skip_first_sample": false,
+        "force_first_sample": false,
+        "disable_sampling": false,
+        "dtype": "bf16",
+        "diff_output_preservation": false,
+        "diff_output_preservation_multiplier": 1,
+        "diff_output_preservation_class": "person",
+        "switch_boundary_every": 1,
+        "loss_type": "mse"
+    },
+    "model": {
+        "name_or_path": "Qwen/Qwen-Image",
+        "quantize": true,
+        "qtype": "qfloat8",
+        "quantize_te": true,
+        "qtype_te": "qfloat8",
+        "arch": "qwen_image",
+        "low_vram": true,
+        "model_kwargs": {},
+        "layer_offloading": false,
+        "layer_offloading_text_encoder_percent": 1,
+        "layer_offloading_transformer_percent": 1
+    },
+    "sample": {
+        "sampler": "flowmatch",
+        "sample_every": 250,
+        "width": 1024,
+        "height": 1024,
+        "samples": [
+            {
+                "prompt": "ultra-realistic portrait of a young white male with short silver hair, pale skin, light stubble, and calm expression, wearing a dark modern shirt in a neutral soft-lit studio, clean background, natural shadows, very clear facial details, no props, no accessories, centered composition"
+            },
+            {
+                "prompt": "realistic image of a young white male with short silver hair and pale skin passed out in a simple living room, slumped sideways on a couch, head drooped, one arm hanging down, dim warm lighting, empty drink cans on the floor, messy table nearby, soft shadows, cinematic realism"
+            },
+            {
+                "prompt": "clean black-and-white line-art drawing of a young white male with short silver hair, medium shot from the waist up, minimalistic sketch style, plain white background, clean outlines, no shading, no color, consistent proportions, manga-influenced but realistic structure"
+            },
+            {
+                "prompt": "full-body shot of a young white male with short silver hair standing in a minimal futuristic room, relaxed posture with arms at his sides, soft diffused lighting, clean bright background, simple clothing, no props, high clarity, neutral expression, realistic modern photography"
+            }
+        ],
+        "neg": "",
+        "seed": 42,
+        "walk_seed": true,
+        "guidance_scale": 4,
+        "sample_steps": 25,
+        "num_frames": 1,
+        "fps": 1
+    }
+}
+Using SQLite database at /app/ai-toolkit/aitk_db.db
+Job ID: "e7a6ee7f-694e-41eb-9f9a-c0153e406f89"
+
+#############################################
+# Running job: strawbyte_v1
+#############################################
+
+
+Running  1 process
+Loading Qwen Image model
+Loading transformer
+Loading checkpoint shards:   0%|          | 0/9 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/9 [00:00<?, ?it/s]Loading checkpoint shards:  44%|####4     | 4/9 [00:00<00:00, 38.79it/s]Loading checkpoint shards:  44%|####4     | 4/9 [00:00<00:00, 38.79it/s]Loading checkpoint shards: 100%|##########| 9/9 [00:00<00:00, 42.84it/s]Loading checkpoint shards: 100%|##########| 9/9 [00:00<00:00, 42.84it/s]Loading checkpoint shards: 100%|##########| 9/9 [00:00<00:00, 42.21it/s]Loading checkpoint shards: 100%|##########| 9/9 [00:00<00:00, 42.21it/s]
+
+Quantizing Transformer
+ - quantizing 60 transformer blocks
+  0%|          | 0/60 [00:00<?, ?it/s]  0%|          | 0/60 [00:00<?, ?it/s]  2%|1         | 1/60 [00:00<00:48,  1.21it/s]  2%|1         | 1/60 [00:00<00:48,  1.21it/s]  3%|3         | 2/60 [00:01<00:38,  1.49it/s]  3%|3         | 2/60 [00:01<00:38,  1.49it/s]  5%|5         | 3/60 [00:01<00:35,  1.62it/s]  5%|5         | 3/60 [00:01<00:35,  1.62it/s]  7%|6         | 4/60 [00:02<00:33,  1.69it/s]  7%|6         | 4/60 [00:02<00:33,  1.69it/s]  8%|8         | 5/60 [00:03<00:31,  1.73it/s]  8%|8         | 5/60 [00:03<00:31,  1.73it/s] 10%|#         | 6/60 [00:03<00:30,  1.77it/s] 10%|#         | 6/60 [00:03<00:30,  1.77it/s] 12%|#1        | 7/60 [00:04<00:29,  1.80it/s] 12%|#1        | 7/60 [00:04<00:29,  1.80it/s] 13%|#3        | 8/60 [00:04<00:28,  1.82it/s] 13%|#3        | 8/60 [00:04<00:28,  1.82it/s] 15%|#5        | 9/60 [00:05<00:28,  1.82it/s] 15%|#5        | 9/60 [00:05<00:28,  1.82it/s] 17%|#6        | 10/60 [00:05<00:27,  1.83it/s] 17%|#6        | 10/60 [00:05<00:27,  1.83it/s] 18%|#8        | 11/60 [00:06<00:26,  1.83it/s] 18%|#8        | 11/60 [00:06<00:26,  1.83it/s] 20%|##        | 12/60 [00:06<00:26,  1.84it/s] 20%|##        | 12/60 [00:06<00:26,  1.84it/s] 22%|##1       | 13/60 [00:07<00:25,  1.84it/s] 22%|##1       | 13/60 [00:07<00:25,  1.84it/s] 23%|##3       | 14/60 [00:07<00:24,  1.85it/s] 23%|##3       | 14/60 [00:07<00:24,  1.85it/s] 25%|##5       | 15/60 [00:08<00:27,  1.64it/s] 25%|##5       | 15/60 [00:08<00:27,  1.64it/s] 27%|##6       | 16/60 [00:09<00:25,  1.70it/s] 27%|##6       | 16/60 [00:09<00:25,  1.70it/s] 28%|##8       | 17/60 [00:09<00:24,  1.74it/s] 28%|##8       | 17/60 [00:09<00:24,  1.74it/s] 30%|###       | 18/60 [00:10<00:23,  1.77it/s] 30%|###       | 18/60 [00:10<00:23,  1.77it/s] 32%|###1      | 19/60 [00:10<00:23,  1.78it/s] 32%|###1      | 19/60 [00:10<00:23,  1.78it/s] 33%|###3      | 20/60 [00:11<00:22,  1.79it/s] 33%|###3      | 20/60 [00:11<00:22,  1.79it/s] 35%|###5      | 21/60 [00:11<00:21,  1.81it/s] 35%|###5      | 21/60 [00:11<00:21,  1.81it/s] 37%|###6      | 22/60 [00:12<00:23,  1.62it/s] 37%|###6      | 22/60 [00:12<00:23,  1.62it/s] 38%|###8      | 23/60 [00:13<00:21,  1.68it/s] 38%|###8      | 23/60 [00:13<00:21,  1.68it/s] 40%|####      | 24/60 [00:13<00:20,  1.72it/s] 40%|####      | 24/60 [00:13<00:20,  1.72it/s] 42%|####1     | 25/60 [00:14<00:19,  1.76it/s] 42%|####1     | 25/60 [00:14<00:19,  1.76it/s] 43%|####3     | 26/60 [00:14<00:19,  1.78it/s] 43%|####3     | 26/60 [00:14<00:19,  1.78it/s] 45%|####5     | 27/60 [00:15<00:18,  1.80it/s] 45%|####5     | 27/60 [00:15<00:18,  1.80it/s] 47%|####6     | 28/60 [00:15<00:17,  1.81it/s] 47%|####6     | 28/60 [00:15<00:17,  1.81it/s] 48%|####8     | 29/60 [00:16<00:17,  1.82it/s] 48%|####8     | 29/60 [00:16<00:17,  1.82it/s] 50%|#####     | 30/60 [00:17<00:18,  1.62it/s] 50%|#####     | 30/60 [00:17<00:18,  1.62it/s] 52%|#####1    | 31/60 [00:17<00:17,  1.69it/s] 52%|#####1    | 31/60 [00:17<00:17,  1.69it/s] 53%|#####3    | 32/60 [00:18<00:16,  1.73it/s] 53%|#####3    | 32/60 [00:18<00:16,  1.73it/s] 55%|#####5    | 33/60 [00:18<00:15,  1.76it/s] 55%|#####5    | 33/60 [00:18<00:15,  1.76it/s] 57%|#####6    | 34/60 [00:19<00:14,  1.76it/s] 57%|#####6    | 34/60 [00:19<00:14,  1.76it/s] 58%|#####8    | 35/60 [00:20<00:13,  1.79it/s] 58%|#####8    | 35/60 [00:20<00:13,  1.79it/s] 60%|######    | 36/60 [00:20<00:13,  1.79it/s] 60%|######    | 36/60 [00:20<00:13,  1.79it/s] 62%|######1   | 37/60 [00:21<00:14,  1.61it/s] 62%|######1   | 37/60 [00:21<00:14,  1.61it/s] 63%|######3   | 38/60 [00:21<00:13,  1.67it/s] 63%|######3   | 38/60 [00:21<00:13,  1.67it/s] 65%|######5   | 39/60 [00:22<00:12,  1.72it/s] 65%|######5   | 39/60 [00:22<00:12,  1.72it/s] 67%|######6   | 40/60 [00:22<00:11,  1.75it/s] 67%|######6   | 40/60 [00:22<00:11,  1.75it/s] 68%|######8   | 41/60 [00:23<00:10,  1.78it/s] 68%|######8   | 41/60 [00:23<00:10,  1.78it/s] 70%|#######   | 42/60 [00:24<00:10,  1.80it/s] 70%|#######   | 42/60 [00:24<00:10,  1.80it/s] 72%|#######1  | 43/60 [00:24<00:09,  1.81it/s] 72%|#######1  | 43/60 [00:24<00:09,  1.81it/s] 73%|#######3  | 44/60 [00:25<00:09,  1.63it/s] 73%|#######3  | 44/60 [00:25<00:09,  1.63it/s] 75%|#######5  | 45/60 [00:25<00:08,  1.69it/s] 75%|#######5  | 45/60 [00:25<00:08,  1.69it/s] 77%|#######6  | 46/60 [00:26<00:08,  1.74it/s] 77%|#######6  | 46/60 [00:26<00:08,  1.74it/s] 78%|#######8  | 47/60 [00:26<00:07,  1.77it/s] 78%|#######8  | 47/60 [00:26<00:07,  1.77it/s] 80%|########  | 48/60 [00:27<00:06,  1.79it/s] 80%|########  | 48/60 [00:27<00:06,  1.79it/s] 82%|########1 | 49/60 [00:28<00:06,  1.81it/s] 82%|########1 | 49/60 [00:28<00:06,  1.81it/s] 83%|########3 | 50/60 [00:28<00:05,  1.82it/s] 83%|########3 | 50/60 [00:28<00:05,  1.82it/s] 85%|########5 | 51/60 [00:29<00:05,  1.63it/s] 85%|########5 | 51/60 [00:29<00:05,  1.63it/s] 87%|########6 | 52/60 [00:29<00:04,  1.69it/s] 87%|########6 | 52/60 [00:29<00:04,  1.69it/s] 88%|########8 | 53/60 [00:30<00:04,  1.73it/s] 88%|########8 | 53/60 [00:30<00:04,  1.73it/s] 90%|######### | 54/60 [00:31<00:03,  1.76it/s] 90%|######### | 54/60 [00:31<00:03,  1.76it/s] 92%|#########1| 55/60 [00:31<00:02,  1.79it/s] 92%|#########1| 55/60 [00:31<00:02,  1.79it/s] 93%|#########3| 56/60 [00:32<00:02,  1.81it/s] 93%|#########3| 56/60 [00:32<00:02,  1.81it/s] 95%|#########5| 57/60 [00:32<00:01,  1.77it/s] 95%|#########5| 57/60 [00:32<00:01,  1.77it/s] 97%|#########6| 58/60 [00:33<00:01,  1.67it/s] 97%|#########6| 58/60 [00:33<00:01,  1.67it/s] 98%|#########8| 59/60 [00:34<00:00,  1.40it/s] 98%|#########8| 59/60 [00:34<00:00,  1.40it/s]100%|##########| 60/60 [00:35<00:00,  1.41it/s]100%|##########| 60/60 [00:35<00:00,  1.41it/s]100%|##########| 60/60 [00:35<00:00,  1.71it/s]100%|##########| 60/60 [00:35<00:00,  1.71it/s]
+
+ - quantizing extras
+Moving transformer to CPU
+Text Encoder
+Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:  25%|##5       | 1/4 [00:00<00:00,  7.66it/s]Loading checkpoint shards:  25%|##5       | 1/4 [00:00<00:00,  7.66it/s]Loading checkpoint shards: 100%|##########| 4/4 [00:00<00:00, 21.94it/s]Loading checkpoint shards: 100%|##########| 4/4 [00:00<00:00, 21.94it/s]
+
+Quantizing Text Encoder
+Loading VAE
+Making pipe
+Preparing Model
+Model Loaded
+create LoRA network. base dim (rank): 32, alpha: 32
+neuron dropout: p=None, rank dropout: p=None, module dropout: p=None
+apply LoRA to Conv2d with kernel size (3,3). dim (rank): 16, alpha: 16
+create LoRA for Text Encoder: 0 modules.
+create LoRA for U-Net: 840 modules.
+enable LoRA for U-Net
+Dataset: /app/ai-toolkit/datasets/strawbyte
+  -  Preprocessing image dimensions
+  0%|          | 0/33 [00:00<?, ?it/s]  0%|          | 0/33 [00:00<?, ?it/s]  9%|9         | 3/33 [00:00<00:01, 24.35it/s]  9%|9         | 3/33 [00:00<00:01, 24.35it/s] 18%|#8        | 6/33 [00:00<00:01, 25.55it/s] 18%|#8        | 6/33 [00:00<00:01, 25.55it/s] 27%|##7       | 9/33 [00:00<00:00, 26.16it/s] 27%|##7       | 9/33 [00:00<00:00, 26.16it/s] 36%|###6      | 12/33 [00:00<00:00, 26.38it/s] 36%|###6      | 12/33 [00:00<00:00, 26.38it/s] 45%|####5     | 15/33 [00:00<00:00, 26.54it/s] 45%|####5     | 15/33 [00:00<00:00, 26.54it/s] 55%|#####4    | 18/33 [00:00<00:00, 26.65it/s] 55%|#####4    | 18/33 [00:00<00:00, 26.65it/s] 64%|######3   | 21/33 [00:00<00:00, 26.74it/s] 64%|######3   | 21/33 [00:00<00:00, 26.74it/s] 73%|#######2  | 24/33 [00:00<00:00, 26.69it/s] 73%|#######2  | 24/33 [00:00<00:00, 26.69it/s] 82%|########1 | 27/33 [00:01<00:00, 26.79it/s] 82%|########1 | 27/33 [00:01<00:00, 26.79it/s] 91%|######### | 30/33 [00:01<00:00, 26.77it/s] 91%|######### | 30/33 [00:01<00:00, 26.77it/s]100%|##########| 33/33 [00:01<00:00, 26.78it/s]100%|##########| 33/33 [00:01<00:00, 26.78it/s]100%|##########| 33/33 [00:01<00:00, 26.54it/s]100%|##########| 33/33 [00:01<00:00, 26.54it/s]
+
+  -  Found 33 images
+Bucket sizes for /app/ai-toolkit/datasets/strawbyte:
+672x384: 33 files
+1 buckets made
+Dataset: /app/ai-toolkit/datasets/strawbyte
+  -  Preprocessing image dimensions
+  0%|          | 0/33 [00:00<?, ?it/s]  0%|          | 0/33 [00:00<?, ?it/s]100%|##########| 33/33 [00:00<00:00, 30313.63it/s]100%|##########| 33/33 [00:00<00:00, 30313.63it/s]
+
+  -  Found 33 images
+Bucket sizes for /app/ai-toolkit/datasets/strawbyte:
+992x576: 33 files
+1 buckets made
+Dataset: /app/ai-toolkit/datasets/strawbyte
+  -  Preprocessing image dimensions
+  0%|          | 0/33 [00:00<?, ?it/s]  0%|          | 0/33 [00:00<?, ?it/s]100%|##########| 33/33 [00:00<00:00, 25551.42it/s]100%|##########| 33/33 [00:00<00:00, 25551.42it/s]
+
+  -  Found 33 images
+Bucket sizes for /app/ai-toolkit/datasets/strawbyte:
+1312x736: 33 files
+1 buckets made
+Generating baseline samples before training
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:  25%|##5       | 1/4 [01:09<03:29, 69.84s/it]Generating Images:  25%|##5       | 1/4 [01:09<03:29, 69.84s/it]Generating Images:  50%|#####     | 2/4 [02:20<02:20, 70.20s/it]Generating Images:  50%|#####     | 2/4 [02:20<02:20, 70.20s/it]Generating Images:  75%|#######5  | 3/4 [03:31<01:10, 70.64s/it]Generating Images:  75%|#######5  | 3/4 [03:31<01:10, 70.64s/it]Generating Images: 100%|##########| 4/4 [04:42<00:00, 70.78s/it]Generating Images: 100%|##########| 4/4 [04:42<00:00, 70.78s/it]                                                                                                                                strawbyte_v1:   0%|          | 0/3000 [00:00<?, ?it/s]strawbyte_v1:   0%|          | 0/3000 [00:00<?, ?it/s]strawbyte_v1:   0%|          | 0/3000 [00:04<?, ?it/s, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:   0%|          | 0/3000 [00:04<?, ?it/s, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:   0%|          | 0/3000 [00:04<?, ?it/s, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:   0%|          | 0/3000 [00:04<?, ?it/s, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:   0%|          | 0/3000 [00:06<?, ?it/s, lr: 1.0e-04 loss: 2.682e-01]strawbyte_v1:   0%|          | 0/3000 [00:06<?, ?it/s, lr: 1.0e-04 loss: 2.682e-01]strawbyte_v1:   0%|          | 1/3000 [00:06<1:46:26,  2.13s/it, lr: 1.0e-04 loss: 2.682e-01]strawbyte_v1:   0%|          | 1/3000 [00:06<1:46:26,  2.13s/it, lr: 1.0e-04 loss: 2.682e-01]strawbyte_v1:   0%|          | 1/3000 [00:11<1:46:26,  2.13s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:   0%|          | 1/3000 [00:11<1:46:26,  2.13s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:   0%|          | 2/3000 [00:11<2:52:33,  3.45s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:   0%|          | 2/3000 [00:11<2:52:33,  3.45s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:   0%|          | 2/3000 [00:15<2:52:33,  3.45s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:   0%|          | 2/3000 [00:15<2:52:33,  3.45s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:   0%|          | 3/3000 [00:15<3:14:17,  3.89s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:   0%|          | 3/3000 [00:15<3:14:17,  3.89s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:   0%|          | 3/3000 [00:18<3:14:17,  3.89s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:   0%|          | 3/3000 [00:18<3:14:17,  3.89s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:   0%|          | 4/3000 [00:18<2:55:12,  3.51s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:   0%|          | 4/3000 [00:18<2:55:12,  3.51s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:   0%|          | 4/3000 [00:23<2:55:12,  3.51s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:   0%|          | 4/3000 [00:23<2:55:12,  3.51s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:   0%|          | 5/3000 [00:23<3:13:14,  3.87s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:   0%|          | 5/3000 [00:23<3:13:14,  3.87s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:   0%|          | 5/3000 [00:25<3:13:14,  3.87s/it, lr: 1.0e-04 loss: 2.911e-01]strawbyte_v1:   0%|          | 5/3000 [00:25<3:13:14,  3.87s/it, lr: 1.0e-04 loss: 2.911e-01]strawbyte_v1:   0%|          | 6/3000 [00:25<2:52:38,  3.46s/it, lr: 1.0e-04 loss: 2.911e-01]strawbyte_v1:   0%|          | 6/3000 [00:25<2:52:38,  3.46s/it, lr: 1.0e-04 loss: 2.911e-01]strawbyte_v1:   0%|          | 6/3000 [00:30<2:52:38,  3.46s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   0%|          | 6/3000 [00:30<2:52:38,  3.46s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   0%|          | 7/3000 [00:30<3:09:18,  3.80s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   0%|          | 7/3000 [00:30<3:09:18,  3.80s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   0%|          | 7/3000 [00:34<3:09:18,  3.80s/it, lr: 1.0e-04 loss: 1.233e-02]strawbyte_v1:   0%|          | 7/3000 [00:34<3:09:18,  3.80s/it, lr: 1.0e-04 loss: 1.233e-02]strawbyte_v1:   0%|          | 8/3000 [00:34<3:19:25,  4.00s/it, lr: 1.0e-04 loss: 1.233e-02]strawbyte_v1:   0%|          | 8/3000 [00:34<3:19:25,  4.00s/it, lr: 1.0e-04 loss: 1.233e-02]strawbyte_v1:   0%|          | 8/3000 [00:37<3:19:25,  4.00s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:   0%|          | 8/3000 [00:37<3:19:25,  4.00s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:   0%|          | 9/3000 [00:37<2:58:05,  3.57s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:   0%|          | 9/3000 [00:37<2:58:05,  3.57s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:   0%|          | 9/3000 [00:41<2:58:05,  3.57s/it, lr: 1.0e-04 loss: 1.168e-01]strawbyte_v1:   0%|          | 9/3000 [00:41<2:58:05,  3.57s/it, lr: 1.0e-04 loss: 1.168e-01]strawbyte_v1:   0%|          | 10/3000 [00:45<2:58:01,  3.57s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:   0%|          | 10/3000 [00:45<2:58:01,  3.57s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:   0%|          | 11/3000 [00:45<2:12:18,  2.66s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:   0%|          | 11/3000 [00:45<2:12:18,  2.66s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:   0%|          | 11/3000 [00:49<2:12:18,  2.66s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:   0%|          | 11/3000 [00:49<2:12:18,  2.66s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:   0%|          | 12/3000 [00:49<2:34:52,  3.11s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:   0%|          | 12/3000 [00:49<2:34:52,  3.11s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:   0%|          | 12/3000 [00:52<2:34:52,  3.11s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:   0%|          | 12/3000 [00:52<2:34:52,  3.11s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:   0%|          | 13/3000 [00:52<2:33:39,  3.09s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:   0%|          | 13/3000 [00:52<2:33:39,  3.09s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:   0%|          | 13/3000 [00:55<2:33:39,  3.09s/it, lr: 1.0e-04 loss: 5.937e-02]strawbyte_v1:   0%|          | 13/3000 [00:55<2:33:39,  3.09s/it, lr: 1.0e-04 loss: 5.937e-02]strawbyte_v1:   0%|          | 14/3000 [00:55<2:31:46,  3.05s/it, lr: 1.0e-04 loss: 5.937e-02]strawbyte_v1:   0%|          | 14/3000 [00:55<2:31:46,  3.05s/it, lr: 1.0e-04 loss: 5.937e-02]strawbyte_v1:   0%|          | 14/3000 [00:59<2:31:46,  3.05s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:   0%|          | 14/3000 [00:59<2:31:46,  3.05s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:   0%|          | 15/3000 [00:59<2:50:31,  3.43s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:   0%|          | 15/3000 [00:59<2:50:31,  3.43s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:   0%|          | 15/3000 [01:02<2:50:31,  3.43s/it, lr: 1.0e-04 loss: 1.807e-01]strawbyte_v1:   0%|          | 15/3000 [01:02<2:50:31,  3.43s/it, lr: 1.0e-04 loss: 1.807e-01]strawbyte_v1:   1%|          | 16/3000 [01:02<2:43:28,  3.29s/it, lr: 1.0e-04 loss: 1.807e-01]strawbyte_v1:   1%|          | 16/3000 [01:02<2:43:28,  3.29s/it, lr: 1.0e-04 loss: 1.807e-01]strawbyte_v1:   1%|          | 16/3000 [01:04<2:43:28,  3.29s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:   1%|          | 16/3000 [01:04<2:43:28,  3.29s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:   1%|          | 17/3000 [01:04<2:25:53,  2.93s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:   1%|          | 17/3000 [01:04<2:25:53,  2.93s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:   1%|          | 17/3000 [01:09<2:25:53,  2.93s/it, lr: 1.0e-04 loss: 9.325e-02]strawbyte_v1:   1%|          | 17/3000 [01:09<2:25:53,  2.93s/it, lr: 1.0e-04 loss: 9.325e-02]strawbyte_v1:   1%|          | 18/3000 [01:09<2:48:16,  3.39s/it, lr: 1.0e-04 loss: 9.325e-02]strawbyte_v1:   1%|          | 18/3000 [01:09<2:48:16,  3.39s/it, lr: 1.0e-04 loss: 9.325e-02]strawbyte_v1:   1%|          | 18/3000 [01:12<2:48:16,  3.39s/it, lr: 1.0e-04 loss: 2.263e-01]strawbyte_v1:   1%|          | 18/3000 [01:12<2:48:16,  3.39s/it, lr: 1.0e-04 loss: 2.263e-01]strawbyte_v1:   1%|          | 19/3000 [01:12<2:40:36,  3.23s/it, lr: 1.0e-04 loss: 2.263e-01]strawbyte_v1:   1%|          | 19/3000 [01:12<2:40:36,  3.23s/it, lr: 1.0e-04 loss: 2.263e-01]strawbyte_v1:   1%|          | 19/3000 [01:16<2:40:36,  3.23s/it, lr: 1.0e-04 loss: 3.665e-02]strawbyte_v1:   1%|          | 19/3000 [01:16<2:40:36,  3.23s/it, lr: 1.0e-04 loss: 3.665e-02]strawbyte_v1:   1%|          | 20/3000 [01:18<2:40:33,  3.23s/it, lr: 1.0e-04 loss: 2.685e-01]strawbyte_v1:   1%|          | 20/3000 [01:18<2:40:33,  3.23s/it, lr: 1.0e-04 loss: 2.685e-01]strawbyte_v1:   1%|          | 21/3000 [01:18<1:53:16,  2.28s/it, lr: 1.0e-04 loss: 2.685e-01]strawbyte_v1:   1%|          | 21/3000 [01:18<1:53:16,  2.28s/it, lr: 1.0e-04 loss: 2.685e-01]strawbyte_v1:   1%|          | 21/3000 [01:21<1:53:16,  2.28s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:   1%|          | 21/3000 [01:21<1:53:16,  2.28s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:   1%|          | 22/3000 [01:21<2:01:26,  2.45s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:   1%|          | 22/3000 [01:21<2:01:26,  2.45s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:   1%|          | 22/3000 [01:23<2:01:26,  2.45s/it, lr: 1.0e-04 loss: 2.185e-01]strawbyte_v1:   1%|          | 22/3000 [01:23<2:01:26,  2.45s/it, lr: 1.0e-04 loss: 2.185e-01]strawbyte_v1:   1%|          | 23/3000 [01:23<1:56:36,  2.35s/it, lr: 1.0e-04 loss: 2.185e-01]strawbyte_v1:   1%|          | 23/3000 [01:23<1:56:36,  2.35s/it, lr: 1.0e-04 loss: 2.185e-01]strawbyte_v1:   1%|          | 23/3000 [01:26<1:56:36,  2.35s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:   1%|          | 23/3000 [01:26<1:56:36,  2.35s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:   1%|          | 24/3000 [01:26<2:04:48,  2.52s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:   1%|          | 24/3000 [01:26<2:04:48,  2.52s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:   1%|          | 24/3000 [01:30<2:04:48,  2.52s/it, lr: 1.0e-04 loss: 1.410e-01]strawbyte_v1:   1%|          | 24/3000 [01:30<2:04:48,  2.52s/it, lr: 1.0e-04 loss: 1.410e-01]strawbyte_v1:   1%|          | 25/3000 [01:30<2:13:19,  2.69s/it, lr: 1.0e-04 loss: 1.410e-01]strawbyte_v1:   1%|          | 25/3000 [01:30<2:13:19,  2.69s/it, lr: 1.0e-04 loss: 1.410e-01]strawbyte_v1:   1%|          | 25/3000 [01:33<2:13:19,  2.69s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:   1%|          | 25/3000 [01:33<2:13:19,  2.69s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:   1%|          | 26/3000 [01:33<2:18:39,  2.80s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:   1%|          | 26/3000 [01:33<2:18:39,  2.80s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:   1%|          | 26/3000 [01:36<2:18:39,  2.80s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:   1%|          | 26/3000 [01:36<2:18:39,  2.80s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:   1%|          | 27/3000 [01:36<2:21:22,  2.85s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:   1%|          | 27/3000 [01:36<2:21:22,  2.85s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:   1%|          | 27/3000 [01:39<2:21:22,  2.85s/it, lr: 1.0e-04 loss: 2.680e-01]strawbyte_v1:   1%|          | 27/3000 [01:39<2:21:22,  2.85s/it, lr: 1.0e-04 loss: 2.680e-01]strawbyte_v1:   1%|          | 28/3000 [01:39<2:26:58,  2.97s/it, lr: 1.0e-04 loss: 2.680e-01]strawbyte_v1:   1%|          | 28/3000 [01:39<2:26:58,  2.97s/it, lr: 1.0e-04 loss: 2.680e-01]strawbyte_v1:   1%|          | 28/3000 [01:41<2:26:58,  2.97s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:   1%|          | 28/3000 [01:41<2:26:58,  2.97s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:   1%|          | 29/3000 [01:41<2:22:25,  2.88s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:   1%|          | 29/3000 [01:41<2:22:25,  2.88s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:   1%|          | 29/3000 [01:46<2:22:25,  2.88s/it, lr: 1.0e-04 loss: 1.311e-01]strawbyte_v1:   1%|          | 29/3000 [01:46<2:22:25,  2.88s/it, lr: 1.0e-04 loss: 1.311e-01]strawbyte_v1:   1%|1         | 30/3000 [01:49<2:22:22,  2.88s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   1%|1         | 30/3000 [01:49<2:22:22,  2.88s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   1%|1         | 31/3000 [01:49<1:50:48,  2.24s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   1%|1         | 31/3000 [01:49<1:50:48,  2.24s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   1%|1         | 31/3000 [01:52<1:50:48,  2.24s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   1%|1         | 31/3000 [01:52<1:50:48,  2.24s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   1%|1         | 32/3000 [01:52<1:59:33,  2.42s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   1%|1         | 32/3000 [01:52<1:59:33,  2.42s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:   1%|1         | 32/3000 [01:54<1:59:33,  2.42s/it, lr: 1.0e-04 loss: 2.670e-01]strawbyte_v1:   1%|1         | 32/3000 [01:54<1:59:33,  2.42s/it, lr: 1.0e-04 loss: 2.670e-01]strawbyte_v1:   1%|1         | 33/3000 [01:54<2:02:24,  2.48s/it, lr: 1.0e-04 loss: 2.670e-01]strawbyte_v1:   1%|1         | 33/3000 [01:54<2:02:24,  2.48s/it, lr: 1.0e-04 loss: 2.670e-01]strawbyte_v1:   1%|1         | 33/3000 [01:57<2:02:24,  2.48s/it, lr: 1.0e-04 loss: 1.967e-01]strawbyte_v1:   1%|1         | 33/3000 [01:57<2:02:24,  2.48s/it, lr: 1.0e-04 loss: 1.967e-01]strawbyte_v1:   1%|1         | 34/3000 [01:57<2:09:07,  2.61s/it, lr: 1.0e-04 loss: 1.967e-01]strawbyte_v1:   1%|1         | 34/3000 [01:57<2:09:07,  2.61s/it, lr: 1.0e-04 loss: 1.967e-01]strawbyte_v1:   1%|1         | 34/3000 [02:00<2:09:07,  2.61s/it, lr: 1.0e-04 loss: 1.897e-01]strawbyte_v1:   1%|1         | 34/3000 [02:00<2:09:07,  2.61s/it, lr: 1.0e-04 loss: 1.897e-01]strawbyte_v1:   1%|1         | 35/3000 [02:00<2:15:02,  2.73s/it, lr: 1.0e-04 loss: 1.897e-01]strawbyte_v1:   1%|1         | 35/3000 [02:00<2:15:02,  2.73s/it, lr: 1.0e-04 loss: 1.897e-01]strawbyte_v1:   1%|1         | 35/3000 [02:03<2:15:02,  2.73s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:   1%|1         | 35/3000 [02:03<2:15:02,  2.73s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:   1%|1         | 36/3000 [02:03<2:14:14,  2.72s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:   1%|1         | 36/3000 [02:03<2:14:14,  2.72s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:   1%|1         | 36/3000 [02:08<2:14:14,  2.72s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   1%|1         | 36/3000 [02:08<2:14:14,  2.72s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   1%|1         | 37/3000 [02:08<2:38:55,  3.22s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   1%|1         | 37/3000 [02:08<2:38:55,  3.22s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   1%|1         | 37/3000 [02:11<2:38:55,  3.22s/it, lr: 1.0e-04 loss: 2.218e-01]strawbyte_v1:   1%|1         | 37/3000 [02:11<2:38:55,  3.22s/it, lr: 1.0e-04 loss: 2.218e-01]strawbyte_v1:   1%|1         | 38/3000 [02:11<2:35:17,  3.15s/it, lr: 1.0e-04 loss: 2.218e-01]strawbyte_v1:   1%|1         | 38/3000 [02:11<2:35:17,  3.15s/it, lr: 1.0e-04 loss: 2.218e-01]strawbyte_v1:   1%|1         | 38/3000 [02:13<2:35:17,  3.15s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:   1%|1         | 38/3000 [02:13<2:35:17,  3.15s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:   1%|1         | 39/3000 [02:14<2:32:05,  3.08s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:   1%|1         | 39/3000 [02:14<2:32:05,  3.08s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:   1%|1         | 39/3000 [02:18<2:32:05,  3.08s/it, lr: 1.0e-04 loss: 2.363e-02]strawbyte_v1:   1%|1         | 39/3000 [02:18<2:32:05,  3.08s/it, lr: 1.0e-04 loss: 2.363e-02]strawbyte_v1:   1%|1         | 40/3000 [02:20<2:32:02,  3.08s/it, lr: 1.0e-04 loss: 1.736e-01]strawbyte_v1:   1%|1         | 40/3000 [02:20<2:32:02,  3.08s/it, lr: 1.0e-04 loss: 1.736e-01]strawbyte_v1:   1%|1         | 41/3000 [02:20<1:46:00,  2.15s/it, lr: 1.0e-04 loss: 1.736e-01]strawbyte_v1:   1%|1         | 41/3000 [02:20<1:46:00,  2.15s/it, lr: 1.0e-04 loss: 1.736e-01]strawbyte_v1:   1%|1         | 41/3000 [02:22<1:46:00,  2.15s/it, lr: 1.0e-04 loss: 2.429e-01]strawbyte_v1:   1%|1         | 41/3000 [02:22<1:46:00,  2.15s/it, lr: 1.0e-04 loss: 2.429e-01]strawbyte_v1:   1%|1         | 42/3000 [02:22<1:47:48,  2.19s/it, lr: 1.0e-04 loss: 2.429e-01]strawbyte_v1:   1%|1         | 42/3000 [02:22<1:47:48,  2.19s/it, lr: 1.0e-04 loss: 2.429e-01]strawbyte_v1:   1%|1         | 42/3000 [02:27<1:47:48,  2.19s/it, lr: 1.0e-04 loss: 8.809e-02]strawbyte_v1:   1%|1         | 42/3000 [02:27<1:47:48,  2.19s/it, lr: 1.0e-04 loss: 8.809e-02]strawbyte_v1:   1%|1         | 43/3000 [02:27<2:15:30,  2.75s/it, lr: 1.0e-04 loss: 8.809e-02]strawbyte_v1:   1%|1         | 43/3000 [02:27<2:15:30,  2.75s/it, lr: 1.0e-04 loss: 8.809e-02]strawbyte_v1:   1%|1         | 43/3000 [02:31<2:15:30,  2.75s/it, lr: 1.0e-04 loss: 6.656e-03]strawbyte_v1:   1%|1         | 43/3000 [02:31<2:15:30,  2.75s/it, lr: 1.0e-04 loss: 6.656e-03]strawbyte_v1:   1%|1         | 44/3000 [02:31<2:36:52,  3.18s/it, lr: 1.0e-04 loss: 6.656e-03]strawbyte_v1:   1%|1         | 44/3000 [02:31<2:36:52,  3.18s/it, lr: 1.0e-04 loss: 6.656e-03]strawbyte_v1:   1%|1         | 44/3000 [02:33<2:36:52,  3.18s/it, lr: 1.0e-04 loss: 2.984e-01]strawbyte_v1:   1%|1         | 44/3000 [02:33<2:36:52,  3.18s/it, lr: 1.0e-04 loss: 2.984e-01]strawbyte_v1:   2%|1         | 45/3000 [02:33<2:21:36,  2.88s/it, lr: 1.0e-04 loss: 2.984e-01]strawbyte_v1:   2%|1         | 45/3000 [02:33<2:21:36,  2.88s/it, lr: 1.0e-04 loss: 2.984e-01]strawbyte_v1:   2%|1         | 45/3000 [02:35<2:21:36,  2.88s/it, lr: 1.0e-04 loss: 2.214e-01]strawbyte_v1:   2%|1         | 45/3000 [02:35<2:21:36,  2.88s/it, lr: 1.0e-04 loss: 2.214e-01]strawbyte_v1:   2%|1         | 46/3000 [02:35<2:13:37,  2.71s/it, lr: 1.0e-04 loss: 2.214e-01]strawbyte_v1:   2%|1         | 46/3000 [02:35<2:13:37,  2.71s/it, lr: 1.0e-04 loss: 2.214e-01]strawbyte_v1:   2%|1         | 46/3000 [02:40<2:13:37,  2.71s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:   2%|1         | 46/3000 [02:40<2:13:37,  2.71s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:   2%|1         | 47/3000 [02:40<2:34:32,  3.14s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:   2%|1         | 47/3000 [02:40<2:34:32,  3.14s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:   2%|1         | 47/3000 [02:42<2:34:32,  3.14s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   2%|1         | 47/3000 [02:42<2:34:32,  3.14s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   2%|1         | 48/3000 [02:42<2:30:51,  3.07s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   2%|1         | 48/3000 [02:42<2:30:51,  3.07s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   2%|1         | 48/3000 [02:46<2:30:51,  3.07s/it, lr: 1.0e-04 loss: 9.118e-02]strawbyte_v1:   2%|1         | 48/3000 [02:46<2:30:51,  3.07s/it, lr: 1.0e-04 loss: 9.118e-02]strawbyte_v1:   2%|1         | 49/3000 [02:46<2:30:24,  3.06s/it, lr: 1.0e-04 loss: 9.118e-02]strawbyte_v1:   2%|1         | 49/3000 [02:46<2:30:24,  3.06s/it, lr: 1.0e-04 loss: 9.118e-02]strawbyte_v1:   2%|1         | 49/3000 [02:48<2:30:24,  3.06s/it, lr: 1.0e-04 loss: 2.111e-01]strawbyte_v1:   2%|1         | 49/3000 [02:48<2:30:24,  3.06s/it, lr: 1.0e-04 loss: 2.111e-01]strawbyte_v1:   2%|1         | 50/3000 [02:52<2:30:21,  3.06s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:   2%|1         | 50/3000 [02:52<2:30:21,  3.06s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:   2%|1         | 51/3000 [02:52<2:11:49,  2.68s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:   2%|1         | 51/3000 [02:52<2:11:49,  2.68s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:   2%|1         | 51/3000 [02:55<2:11:49,  2.68s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:   2%|1         | 51/3000 [02:55<2:11:49,  2.68s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:   2%|1         | 52/3000 [02:55<2:16:03,  2.77s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:   2%|1         | 52/3000 [02:55<2:16:03,  2.77s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:   2%|1         | 52/3000 [03:00<2:16:03,  2.77s/it, lr: 1.0e-04 loss: 1.770e-01]strawbyte_v1:   2%|1         | 52/3000 [03:00<2:16:03,  2.77s/it, lr: 1.0e-04 loss: 1.770e-01]strawbyte_v1:   2%|1         | 53/3000 [03:00<2:39:49,  3.25s/it, lr: 1.0e-04 loss: 1.770e-01]strawbyte_v1:   2%|1         | 53/3000 [03:00<2:39:49,  3.25s/it, lr: 1.0e-04 loss: 1.770e-01]strawbyte_v1:   2%|1         | 53/3000 [03:02<2:39:49,  3.25s/it, lr: 1.0e-04 loss: 2.284e-01]strawbyte_v1:   2%|1         | 53/3000 [03:02<2:39:49,  3.25s/it, lr: 1.0e-04 loss: 2.284e-01]strawbyte_v1:   2%|1         | 54/3000 [03:02<2:31:56,  3.09s/it, lr: 1.0e-04 loss: 2.284e-01]strawbyte_v1:   2%|1         | 54/3000 [03:02<2:31:56,  3.09s/it, lr: 1.0e-04 loss: 2.284e-01]strawbyte_v1:   2%|1         | 54/3000 [03:05<2:31:56,  3.09s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   2%|1         | 54/3000 [03:05<2:31:56,  3.09s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   2%|1         | 55/3000 [03:05<2:30:21,  3.06s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   2%|1         | 55/3000 [03:05<2:30:21,  3.06s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   2%|1         | 55/3000 [03:10<2:30:21,  3.06s/it, lr: 1.0e-04 loss: 7.822e-02]strawbyte_v1:   2%|1         | 55/3000 [03:10<2:30:21,  3.06s/it, lr: 1.0e-04 loss: 7.822e-02]strawbyte_v1:   2%|1         | 56/3000 [03:10<2:52:45,  3.52s/it, lr: 1.0e-04 loss: 7.822e-02]strawbyte_v1:   2%|1         | 56/3000 [03:10<2:52:45,  3.52s/it, lr: 1.0e-04 loss: 7.822e-02]strawbyte_v1:   2%|1         | 56/3000 [03:15<2:52:45,  3.52s/it, lr: 1.0e-04 loss: 1.820e-01]strawbyte_v1:   2%|1         | 56/3000 [03:15<2:52:45,  3.52s/it, lr: 1.0e-04 loss: 1.820e-01]strawbyte_v1:   2%|1         | 57/3000 [03:15<3:06:08,  3.79s/it, lr: 1.0e-04 loss: 1.820e-01]strawbyte_v1:   2%|1         | 57/3000 [03:15<3:06:08,  3.79s/it, lr: 1.0e-04 loss: 1.820e-01]strawbyte_v1:   2%|1         | 57/3000 [03:17<3:06:08,  3.79s/it, lr: 1.0e-04 loss: 8.050e-02]strawbyte_v1:   2%|1         | 57/3000 [03:17<3:06:08,  3.79s/it, lr: 1.0e-04 loss: 8.050e-02]strawbyte_v1:   2%|1         | 58/3000 [03:17<2:49:54,  3.47s/it, lr: 1.0e-04 loss: 8.050e-02]strawbyte_v1:   2%|1         | 58/3000 [03:17<2:49:54,  3.47s/it, lr: 1.0e-04 loss: 8.050e-02]strawbyte_v1:   2%|1         | 58/3000 [03:22<2:49:54,  3.47s/it, lr: 1.0e-04 loss: 1.289e-01]strawbyte_v1:   2%|1         | 58/3000 [03:22<2:49:54,  3.47s/it, lr: 1.0e-04 loss: 1.289e-01]strawbyte_v1:   2%|1         | 59/3000 [03:22<3:04:32,  3.76s/it, lr: 1.0e-04 loss: 1.289e-01]strawbyte_v1:   2%|1         | 59/3000 [03:22<3:04:32,  3.76s/it, lr: 1.0e-04 loss: 1.289e-01]strawbyte_v1:   2%|1         | 59/3000 [03:25<3:04:32,  3.76s/it, lr: 1.0e-04 loss: 1.842e-01]strawbyte_v1:   2%|1         | 59/3000 [03:25<3:04:32,  3.76s/it, lr: 1.0e-04 loss: 1.842e-01]strawbyte_v1:   2%|2         | 60/3000 [03:28<3:04:28,  3.76s/it, lr: 1.0e-04 loss: 1.699e-01]strawbyte_v1:   2%|2         | 60/3000 [03:28<3:04:28,  3.76s/it, lr: 1.0e-04 loss: 1.699e-01]strawbyte_v1:   2%|2         | 61/3000 [03:28<2:10:27,  2.66s/it, lr: 1.0e-04 loss: 1.699e-01]strawbyte_v1:   2%|2         | 61/3000 [03:28<2:10:27,  2.66s/it, lr: 1.0e-04 loss: 1.699e-01]strawbyte_v1:   2%|2         | 61/3000 [03:30<2:10:27,  2.66s/it, lr: 1.0e-04 loss: 1.297e-01]strawbyte_v1:   2%|2         | 61/3000 [03:30<2:10:27,  2.66s/it, lr: 1.0e-04 loss: 1.297e-01]strawbyte_v1:   2%|2         | 62/3000 [03:30<2:10:57,  2.67s/it, lr: 1.0e-04 loss: 1.297e-01]strawbyte_v1:   2%|2         | 62/3000 [03:30<2:10:57,  2.67s/it, lr: 1.0e-04 loss: 1.297e-01]strawbyte_v1:   2%|2         | 62/3000 [03:35<2:10:57,  2.67s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:   2%|2         | 62/3000 [03:35<2:10:57,  2.67s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:   2%|2         | 63/3000 [03:35<2:36:30,  3.20s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:   2%|2         | 63/3000 [03:35<2:36:30,  3.20s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:   2%|2         | 63/3000 [03:39<2:36:30,  3.20s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:   2%|2         | 63/3000 [03:39<2:36:30,  3.20s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:   2%|2         | 64/3000 [03:39<2:52:22,  3.52s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:   2%|2         | 64/3000 [03:39<2:52:22,  3.52s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:   2%|2         | 64/3000 [03:42<2:52:22,  3.52s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:   2%|2         | 64/3000 [03:42<2:52:22,  3.52s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:   2%|2         | 65/3000 [03:42<2:44:07,  3.36s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:   2%|2         | 65/3000 [03:42<2:44:07,  3.36s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:   2%|2         | 65/3000 [03:47<2:44:07,  3.36s/it, lr: 1.0e-04 loss: 1.432e-01]strawbyte_v1:   2%|2         | 65/3000 [03:47<2:44:07,  3.36s/it, lr: 1.0e-04 loss: 1.432e-01]strawbyte_v1:   2%|2         | 66/3000 [03:47<2:57:27,  3.63s/it, lr: 1.0e-04 loss: 1.432e-01]strawbyte_v1:   2%|2         | 66/3000 [03:47<2:57:27,  3.63s/it, lr: 1.0e-04 loss: 1.432e-01]strawbyte_v1:   2%|2         | 66/3000 [03:50<2:57:27,  3.63s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:   2%|2         | 66/3000 [03:50<2:57:27,  3.63s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:   2%|2         | 67/3000 [03:50<2:49:54,  3.48s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:   2%|2         | 67/3000 [03:50<2:49:54,  3.48s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:   2%|2         | 67/3000 [03:52<2:49:54,  3.48s/it, lr: 1.0e-04 loss: 2.656e-01]strawbyte_v1:   2%|2         | 67/3000 [03:52<2:49:54,  3.48s/it, lr: 1.0e-04 loss: 2.656e-01]strawbyte_v1:   2%|2         | 68/3000 [03:52<2:30:11,  3.07s/it, lr: 1.0e-04 loss: 2.656e-01]strawbyte_v1:   2%|2         | 68/3000 [03:52<2:30:11,  3.07s/it, lr: 1.0e-04 loss: 2.656e-01]strawbyte_v1:   2%|2         | 68/3000 [03:56<2:30:11,  3.07s/it, lr: 1.0e-04 loss: 9.864e-02]strawbyte_v1:   2%|2         | 68/3000 [03:56<2:30:11,  3.07s/it, lr: 1.0e-04 loss: 9.864e-02]strawbyte_v1:   2%|2         | 69/3000 [03:56<2:48:34,  3.45s/it, lr: 1.0e-04 loss: 9.864e-02]strawbyte_v1:   2%|2         | 69/3000 [03:56<2:48:34,  3.45s/it, lr: 1.0e-04 loss: 9.864e-02]strawbyte_v1:   2%|2         | 69/3000 [03:59<2:48:34,  3.45s/it, lr: 1.0e-04 loss: 2.067e-01]strawbyte_v1:   2%|2         | 69/3000 [03:59<2:48:34,  3.45s/it, lr: 1.0e-04 loss: 2.067e-01]strawbyte_v1:   2%|2         | 70/3000 [04:01<2:48:31,  3.45s/it, lr: 1.0e-04 loss: 2.194e-01]strawbyte_v1:   2%|2         | 70/3000 [04:01<2:48:31,  3.45s/it, lr: 1.0e-04 loss: 2.194e-01]strawbyte_v1:   2%|2         | 71/3000 [04:01<2:04:00,  2.54s/it, lr: 1.0e-04 loss: 2.194e-01]strawbyte_v1:   2%|2         | 71/3000 [04:01<2:04:00,  2.54s/it, lr: 1.0e-04 loss: 2.194e-01]strawbyte_v1:   2%|2         | 71/3000 [04:04<2:04:00,  2.54s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   2%|2         | 71/3000 [04:04<2:04:00,  2.54s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   2%|2         | 72/3000 [04:04<2:08:44,  2.64s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   2%|2         | 72/3000 [04:04<2:08:44,  2.64s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   2%|2         | 72/3000 [04:09<2:08:44,  2.64s/it, lr: 1.0e-04 loss: 1.345e-01]strawbyte_v1:   2%|2         | 72/3000 [04:09<2:08:44,  2.64s/it, lr: 1.0e-04 loss: 1.345e-01]strawbyte_v1:   2%|2         | 73/3000 [04:09<2:30:43,  3.09s/it, lr: 1.0e-04 loss: 1.345e-01]strawbyte_v1:   2%|2         | 73/3000 [04:09<2:30:43,  3.09s/it, lr: 1.0e-04 loss: 1.345e-01]strawbyte_v1:   2%|2         | 73/3000 [04:13<2:30:43,  3.09s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   2%|2         | 73/3000 [04:13<2:30:43,  3.09s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   2%|2         | 74/3000 [04:13<2:51:24,  3.51s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   2%|2         | 74/3000 [04:13<2:51:24,  3.51s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   2%|2         | 74/3000 [04:16<2:51:24,  3.51s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:   2%|2         | 74/3000 [04:16<2:51:24,  3.51s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:   2%|2         | 75/3000 [04:16<2:40:32,  3.29s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:   2%|2         | 75/3000 [04:16<2:40:32,  3.29s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:   2%|2         | 75/3000 [04:19<2:40:32,  3.29s/it, lr: 1.0e-04 loss: 2.207e-01]strawbyte_v1:   2%|2         | 75/3000 [04:19<2:40:32,  3.29s/it, lr: 1.0e-04 loss: 2.207e-01]strawbyte_v1:   3%|2         | 76/3000 [04:19<2:37:00,  3.22s/it, lr: 1.0e-04 loss: 2.207e-01]strawbyte_v1:   3%|2         | 76/3000 [04:19<2:37:00,  3.22s/it, lr: 1.0e-04 loss: 2.207e-01]strawbyte_v1:   3%|2         | 76/3000 [04:24<2:37:00,  3.22s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:   3%|2         | 76/3000 [04:24<2:37:00,  3.22s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:   3%|2         | 77/3000 [04:24<2:54:56,  3.59s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:   3%|2         | 77/3000 [04:24<2:54:56,  3.59s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:   3%|2         | 77/3000 [04:27<2:54:56,  3.59s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   3%|2         | 77/3000 [04:27<2:54:56,  3.59s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   3%|2         | 78/3000 [04:27<2:50:25,  3.50s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   3%|2         | 78/3000 [04:27<2:50:25,  3.50s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   3%|2         | 78/3000 [04:30<2:50:25,  3.50s/it, lr: 1.0e-04 loss: 9.140e-02]strawbyte_v1:   3%|2         | 78/3000 [04:30<2:50:25,  3.50s/it, lr: 1.0e-04 loss: 9.140e-02]strawbyte_v1:   3%|2         | 79/3000 [04:30<2:43:03,  3.35s/it, lr: 1.0e-04 loss: 9.140e-02]strawbyte_v1:   3%|2         | 79/3000 [04:30<2:43:03,  3.35s/it, lr: 1.0e-04 loss: 9.140e-02]strawbyte_v1:   3%|2         | 79/3000 [04:33<2:43:03,  3.35s/it, lr: 1.0e-04 loss: 1.593e-01]strawbyte_v1:   3%|2         | 79/3000 [04:33<2:43:03,  3.35s/it, lr: 1.0e-04 loss: 1.593e-01]strawbyte_v1:   3%|2         | 80/3000 [04:38<2:43:00,  3.35s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:   3%|2         | 80/3000 [04:38<2:43:00,  3.35s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:   3%|2         | 81/3000 [04:38<2:21:23,  2.91s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:   3%|2         | 81/3000 [04:38<2:21:23,  2.91s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:   3%|2         | 81/3000 [04:41<2:21:23,  2.91s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:   3%|2         | 81/3000 [04:41<2:21:23,  2.91s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:   3%|2         | 82/3000 [04:41<2:22:25,  2.93s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:   3%|2         | 82/3000 [04:41<2:22:25,  2.93s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:   3%|2         | 82/3000 [04:44<2:22:25,  2.93s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   3%|2         | 82/3000 [04:44<2:22:25,  2.93s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   3%|2         | 83/3000 [04:44<2:23:11,  2.95s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   3%|2         | 83/3000 [04:44<2:23:11,  2.95s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   3%|2         | 83/3000 [04:46<2:23:11,  2.95s/it, lr: 1.0e-04 loss: 2.861e-01]strawbyte_v1:   3%|2         | 83/3000 [04:46<2:23:11,  2.95s/it, lr: 1.0e-04 loss: 2.861e-01]strawbyte_v1:   3%|2         | 84/3000 [04:46<2:20:09,  2.88s/it, lr: 1.0e-04 loss: 2.861e-01]strawbyte_v1:   3%|2         | 84/3000 [04:46<2:20:09,  2.88s/it, lr: 1.0e-04 loss: 2.861e-01]strawbyte_v1:   3%|2         | 84/3000 [04:50<2:20:09,  2.88s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:   3%|2         | 84/3000 [04:50<2:20:09,  2.88s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:   3%|2         | 85/3000 [04:50<2:27:39,  3.04s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:   3%|2         | 85/3000 [04:50<2:27:39,  3.04s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:   3%|2         | 85/3000 [04:54<2:27:39,  3.04s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:   3%|2         | 85/3000 [04:54<2:27:39,  3.04s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:   3%|2         | 86/3000 [04:54<2:47:00,  3.44s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:   3%|2         | 86/3000 [04:54<2:47:00,  3.44s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:   3%|2         | 86/3000 [04:57<2:47:00,  3.44s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:   3%|2         | 86/3000 [04:57<2:47:00,  3.44s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:   3%|2         | 87/3000 [04:57<2:32:47,  3.15s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:   3%|2         | 87/3000 [04:57<2:32:47,  3.15s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:   3%|2         | 87/3000 [05:00<2:32:47,  3.15s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:   3%|2         | 87/3000 [05:00<2:32:47,  3.15s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:   3%|2         | 88/3000 [05:00<2:32:46,  3.15s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:   3%|2         | 88/3000 [05:00<2:32:46,  3.15s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:   3%|2         | 88/3000 [05:03<2:32:46,  3.15s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:   3%|2         | 88/3000 [05:03<2:32:46,  3.15s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:   3%|2         | 89/3000 [05:03<2:29:08,  3.07s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:   3%|2         | 89/3000 [05:03<2:29:08,  3.07s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:   3%|2         | 89/3000 [05:06<2:29:08,  3.07s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:   3%|2         | 89/3000 [05:06<2:29:08,  3.07s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:   3%|3         | 90/3000 [05:08<2:29:05,  3.07s/it, lr: 1.0e-04 loss: 1.566e-01]strawbyte_v1:   3%|3         | 90/3000 [05:08<2:29:05,  3.07s/it, lr: 1.0e-04 loss: 1.566e-01]strawbyte_v1:   3%|3         | 91/3000 [05:08<1:44:23,  2.15s/it, lr: 1.0e-04 loss: 1.566e-01]strawbyte_v1:   3%|3         | 91/3000 [05:08<1:44:23,  2.15s/it, lr: 1.0e-04 loss: 1.566e-01]strawbyte_v1:   3%|3         | 91/3000 [05:10<1:44:23,  2.15s/it, lr: 1.0e-04 loss: 2.954e-01]strawbyte_v1:   3%|3         | 91/3000 [05:10<1:44:23,  2.15s/it, lr: 1.0e-04 loss: 2.954e-01]strawbyte_v1:   3%|3         | 92/3000 [05:10<1:47:37,  2.22s/it, lr: 1.0e-04 loss: 2.954e-01]strawbyte_v1:   3%|3         | 92/3000 [05:10<1:47:37,  2.22s/it, lr: 1.0e-04 loss: 2.954e-01]strawbyte_v1:   3%|3         | 92/3000 [05:12<1:47:37,  2.22s/it, lr: 1.0e-04 loss: 1.860e-01]strawbyte_v1:   3%|3         | 92/3000 [05:12<1:47:37,  2.22s/it, lr: 1.0e-04 loss: 1.860e-01]strawbyte_v1:   3%|3         | 93/3000 [05:12<1:46:02,  2.19s/it, lr: 1.0e-04 loss: 1.860e-01]strawbyte_v1:   3%|3         | 93/3000 [05:12<1:46:02,  2.19s/it, lr: 1.0e-04 loss: 1.860e-01]strawbyte_v1:   3%|3         | 93/3000 [05:17<1:46:02,  2.19s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:   3%|3         | 93/3000 [05:17<1:46:02,  2.19s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:   3%|3         | 94/3000 [05:17<2:14:38,  2.78s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:   3%|3         | 94/3000 [05:17<2:14:38,  2.78s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:   3%|3         | 94/3000 [05:19<2:14:38,  2.78s/it, lr: 1.0e-04 loss: 2.283e-01]strawbyte_v1:   3%|3         | 94/3000 [05:19<2:14:38,  2.78s/it, lr: 1.0e-04 loss: 2.283e-01]strawbyte_v1:   3%|3         | 95/3000 [05:19<2:10:00,  2.69s/it, lr: 1.0e-04 loss: 2.283e-01]strawbyte_v1:   3%|3         | 95/3000 [05:19<2:10:00,  2.69s/it, lr: 1.0e-04 loss: 2.283e-01]strawbyte_v1:   3%|3         | 95/3000 [05:22<2:10:00,  2.69s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:   3%|3         | 95/3000 [05:22<2:10:00,  2.69s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:   3%|3         | 96/3000 [05:22<2:12:39,  2.74s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:   3%|3         | 96/3000 [05:22<2:12:39,  2.74s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:   3%|3         | 96/3000 [05:24<2:12:39,  2.74s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   3%|3         | 96/3000 [05:24<2:12:39,  2.74s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   3%|3         | 97/3000 [05:24<2:03:28,  2.55s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   3%|3         | 97/3000 [05:24<2:03:28,  2.55s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   3%|3         | 97/3000 [05:28<2:03:28,  2.55s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:   3%|3         | 97/3000 [05:28<2:03:28,  2.55s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:   3%|3         | 98/3000 [05:28<2:28:36,  3.07s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:   3%|3         | 98/3000 [05:28<2:28:36,  3.07s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:   3%|3         | 98/3000 [05:32<2:28:36,  3.07s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   3%|3         | 98/3000 [05:32<2:28:36,  3.07s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   3%|3         | 99/3000 [05:32<2:33:31,  3.18s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   3%|3         | 99/3000 [05:32<2:33:31,  3.18s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   3%|3         | 99/3000 [05:37<2:33:31,  3.18s/it, lr: 1.0e-04 loss: 1.019e-01]strawbyte_v1:   3%|3         | 99/3000 [05:37<2:33:31,  3.18s/it, lr: 1.0e-04 loss: 1.019e-01]strawbyte_v1:   3%|3         | 100/3000 [05:41<2:33:27,  3.18s/it, lr: 1.0e-04 loss: 1.266e-02]strawbyte_v1:   3%|3         | 100/3000 [05:41<2:33:27,  3.18s/it, lr: 1.0e-04 loss: 1.266e-02]strawbyte_v1:   3%|3         | 101/3000 [05:41<2:12:28,  2.74s/it, lr: 1.0e-04 loss: 1.266e-02]strawbyte_v1:   3%|3         | 101/3000 [05:41<2:12:28,  2.74s/it, lr: 1.0e-04 loss: 1.266e-02]strawbyte_v1:   3%|3         | 101/3000 [05:46<2:12:28,  2.74s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:   3%|3         | 101/3000 [05:46<2:12:28,  2.74s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:   3%|3         | 102/3000 [05:46<2:36:22,  3.24s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:   3%|3         | 102/3000 [05:46<2:36:22,  3.24s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:   3%|3         | 102/3000 [05:50<2:36:22,  3.24s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:   3%|3         | 102/3000 [05:50<2:36:22,  3.24s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:   3%|3         | 103/3000 [05:50<2:51:19,  3.55s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:   3%|3         | 103/3000 [05:50<2:51:19,  3.55s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:   3%|3         | 103/3000 [05:53<2:51:19,  3.55s/it, lr: 1.0e-04 loss: 2.212e-01]strawbyte_v1:   3%|3         | 103/3000 [05:53<2:51:19,  3.55s/it, lr: 1.0e-04 loss: 2.212e-01]strawbyte_v1:   3%|3         | 104/3000 [05:53<2:40:12,  3.32s/it, lr: 1.0e-04 loss: 2.212e-01]strawbyte_v1:   3%|3         | 104/3000 [05:53<2:40:12,  3.32s/it, lr: 1.0e-04 loss: 2.212e-01]strawbyte_v1:   3%|3         | 104/3000 [05:56<2:40:12,  3.32s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   3%|3         | 104/3000 [05:56<2:40:12,  3.32s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   4%|3         | 105/3000 [05:56<2:36:15,  3.24s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   4%|3         | 105/3000 [05:56<2:36:15,  3.24s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   4%|3         | 105/3000 [05:59<2:36:15,  3.24s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:   4%|3         | 105/3000 [05:59<2:36:15,  3.24s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:   4%|3         | 106/3000 [05:59<2:37:56,  3.27s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:   4%|3         | 106/3000 [05:59<2:37:56,  3.27s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:   4%|3         | 106/3000 [06:04<2:37:56,  3.27s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   4%|3         | 106/3000 [06:04<2:37:56,  3.27s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   4%|3         | 107/3000 [06:04<2:53:43,  3.60s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   4%|3         | 107/3000 [06:04<2:53:43,  3.60s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   4%|3         | 107/3000 [06:08<2:53:43,  3.60s/it, lr: 1.0e-04 loss: 2.558e-02]strawbyte_v1:   4%|3         | 107/3000 [06:08<2:53:43,  3.60s/it, lr: 1.0e-04 loss: 2.558e-02]strawbyte_v1:   4%|3         | 108/3000 [06:08<3:06:08,  3.86s/it, lr: 1.0e-04 loss: 2.558e-02]strawbyte_v1:   4%|3         | 108/3000 [06:08<3:06:08,  3.86s/it, lr: 1.0e-04 loss: 2.558e-02]strawbyte_v1:   4%|3         | 108/3000 [06:11<3:06:08,  3.86s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   4%|3         | 108/3000 [06:11<3:06:08,  3.86s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   4%|3         | 109/3000 [06:11<2:55:04,  3.63s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   4%|3         | 109/3000 [06:11<2:55:04,  3.63s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   4%|3         | 109/3000 [06:14<2:55:04,  3.63s/it, lr: 1.0e-04 loss: 2.280e-01]strawbyte_v1:   4%|3         | 109/3000 [06:14<2:55:04,  3.63s/it, lr: 1.0e-04 loss: 2.280e-01]strawbyte_v1:   4%|3         | 110/3000 [06:17<2:55:00,  3.63s/it, lr: 1.0e-04 loss: 7.056e-02]strawbyte_v1:   4%|3         | 110/3000 [06:17<2:55:00,  3.63s/it, lr: 1.0e-04 loss: 7.056e-02]strawbyte_v1:   4%|3         | 111/3000 [06:17<2:08:04,  2.66s/it, lr: 1.0e-04 loss: 7.056e-02]strawbyte_v1:   4%|3         | 111/3000 [06:17<2:08:04,  2.66s/it, lr: 1.0e-04 loss: 7.056e-02]strawbyte_v1:   4%|3         | 111/3000 [06:21<2:08:04,  2.66s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   4%|3         | 111/3000 [06:21<2:08:04,  2.66s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   4%|3         | 112/3000 [06:21<2:28:09,  3.08s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   4%|3         | 112/3000 [06:21<2:28:09,  3.08s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:   4%|3         | 112/3000 [06:24<2:28:09,  3.08s/it, lr: 1.0e-04 loss: 7.666e-03]strawbyte_v1:   4%|3         | 112/3000 [06:24<2:28:09,  3.08s/it, lr: 1.0e-04 loss: 7.666e-03]strawbyte_v1:   4%|3         | 113/3000 [06:24<2:19:28,  2.90s/it, lr: 1.0e-04 loss: 7.666e-03]strawbyte_v1:   4%|3         | 113/3000 [06:24<2:19:28,  2.90s/it, lr: 1.0e-04 loss: 7.666e-03]strawbyte_v1:   4%|3         | 113/3000 [06:28<2:19:28,  2.90s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:   4%|3         | 113/3000 [06:28<2:19:28,  2.90s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:   4%|3         | 114/3000 [06:28<2:37:52,  3.28s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:   4%|3         | 114/3000 [06:28<2:37:52,  3.28s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:   4%|3         | 114/3000 [06:30<2:37:52,  3.28s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:   4%|3         | 114/3000 [06:30<2:37:52,  3.28s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:   4%|3         | 115/3000 [06:30<2:21:48,  2.95s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:   4%|3         | 115/3000 [06:30<2:21:48,  2.95s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:   4%|3         | 115/3000 [06:33<2:21:48,  2.95s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:   4%|3         | 115/3000 [06:33<2:21:48,  2.95s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:   4%|3         | 116/3000 [06:33<2:24:03,  3.00s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:   4%|3         | 116/3000 [06:33<2:24:03,  3.00s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:   4%|3         | 116/3000 [06:36<2:24:03,  3.00s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:   4%|3         | 116/3000 [06:36<2:24:03,  3.00s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:   4%|3         | 117/3000 [06:36<2:22:07,  2.96s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:   4%|3         | 117/3000 [06:36<2:22:07,  2.96s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:   4%|3         | 117/3000 [06:39<2:22:07,  2.96s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:   4%|3         | 117/3000 [06:39<2:22:07,  2.96s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:   4%|3         | 118/3000 [06:39<2:21:33,  2.95s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:   4%|3         | 118/3000 [06:39<2:21:33,  2.95s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:   4%|3         | 118/3000 [06:41<2:21:33,  2.95s/it, lr: 1.0e-04 loss: 2.637e-01]strawbyte_v1:   4%|3         | 118/3000 [06:41<2:21:33,  2.95s/it, lr: 1.0e-04 loss: 2.637e-01]strawbyte_v1:   4%|3         | 119/3000 [06:41<2:13:53,  2.79s/it, lr: 1.0e-04 loss: 2.637e-01]strawbyte_v1:   4%|3         | 119/3000 [06:41<2:13:53,  2.79s/it, lr: 1.0e-04 loss: 2.637e-01]strawbyte_v1:   4%|3         | 119/3000 [06:44<2:13:53,  2.79s/it, lr: 1.0e-04 loss: 9.723e-02]strawbyte_v1:   4%|3         | 119/3000 [06:44<2:13:53,  2.79s/it, lr: 1.0e-04 loss: 9.723e-02]strawbyte_v1:   4%|4         | 120/3000 [06:46<2:13:50,  2.79s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   4%|4         | 120/3000 [06:46<2:13:50,  2.79s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   4%|4         | 121/3000 [06:46<1:35:45,  2.00s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   4%|4         | 121/3000 [06:46<1:35:45,  2.00s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   4%|4         | 121/3000 [06:48<1:35:45,  2.00s/it, lr: 1.0e-04 loss: 2.490e-01]strawbyte_v1:   4%|4         | 121/3000 [06:48<1:35:45,  2.00s/it, lr: 1.0e-04 loss: 2.490e-01]strawbyte_v1:   4%|4         | 122/3000 [06:48<1:37:07,  2.02s/it, lr: 1.0e-04 loss: 2.490e-01]strawbyte_v1:   4%|4         | 122/3000 [06:48<1:37:07,  2.02s/it, lr: 1.0e-04 loss: 2.490e-01]strawbyte_v1:   4%|4         | 122/3000 [06:51<1:37:07,  2.02s/it, lr: 1.0e-04 loss: 4.413e-02]strawbyte_v1:   4%|4         | 122/3000 [06:51<1:37:07,  2.02s/it, lr: 1.0e-04 loss: 4.413e-02]strawbyte_v1:   4%|4         | 123/3000 [06:51<1:53:09,  2.36s/it, lr: 1.0e-04 loss: 4.413e-02]strawbyte_v1:   4%|4         | 123/3000 [06:51<1:53:09,  2.36s/it, lr: 1.0e-04 loss: 4.413e-02]strawbyte_v1:   4%|4         | 123/3000 [06:54<1:53:09,  2.36s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   4%|4         | 123/3000 [06:54<1:53:09,  2.36s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   4%|4         | 124/3000 [06:54<2:01:48,  2.54s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   4%|4         | 124/3000 [06:54<2:01:48,  2.54s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:   4%|4         | 124/3000 [06:57<2:01:48,  2.54s/it, lr: 1.0e-04 loss: 2.420e-01]strawbyte_v1:   4%|4         | 124/3000 [06:57<2:01:48,  2.54s/it, lr: 1.0e-04 loss: 2.420e-01]strawbyte_v1:   4%|4         | 125/3000 [06:57<2:03:20,  2.57s/it, lr: 1.0e-04 loss: 2.420e-01]strawbyte_v1:   4%|4         | 125/3000 [06:57<2:03:20,  2.57s/it, lr: 1.0e-04 loss: 2.420e-01]strawbyte_v1:   4%|4         | 125/3000 [07:00<2:03:20,  2.57s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:   4%|4         | 125/3000 [07:00<2:03:20,  2.57s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:   4%|4         | 126/3000 [07:00<2:09:05,  2.69s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:   4%|4         | 126/3000 [07:00<2:09:05,  2.69s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:   4%|4         | 126/3000 [07:03<2:09:05,  2.69s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:   4%|4         | 126/3000 [07:03<2:09:05,  2.69s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:   4%|4         | 127/3000 [07:03<2:14:07,  2.80s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:   4%|4         | 127/3000 [07:03<2:14:07,  2.80s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:   4%|4         | 127/3000 [07:07<2:14:07,  2.80s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:   4%|4         | 127/3000 [07:07<2:14:07,  2.80s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:   4%|4         | 128/3000 [07:07<2:37:44,  3.30s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:   4%|4         | 128/3000 [07:07<2:37:44,  3.30s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:   4%|4         | 128/3000 [07:10<2:37:44,  3.30s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   4%|4         | 128/3000 [07:10<2:37:44,  3.30s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   4%|4         | 129/3000 [07:10<2:33:53,  3.22s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   4%|4         | 129/3000 [07:10<2:33:53,  3.22s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   4%|4         | 129/3000 [07:14<2:33:53,  3.22s/it, lr: 1.0e-04 loss: 1.398e-01]strawbyte_v1:   4%|4         | 129/3000 [07:14<2:33:53,  3.22s/it, lr: 1.0e-04 loss: 1.398e-01]strawbyte_v1:   4%|4         | 130/3000 [07:18<2:33:50,  3.22s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:   4%|4         | 130/3000 [07:18<2:33:50,  3.22s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:   4%|4         | 131/3000 [07:18<2:11:35,  2.75s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:   4%|4         | 131/3000 [07:18<2:11:35,  2.75s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:   4%|4         | 131/3000 [07:23<2:11:35,  2.75s/it, lr: 1.0e-04 loss: 9.666e-03]strawbyte_v1:   4%|4         | 131/3000 [07:23<2:11:35,  2.75s/it, lr: 1.0e-04 loss: 9.666e-03]strawbyte_v1:   4%|4         | 132/3000 [07:23<2:31:05,  3.16s/it, lr: 1.0e-04 loss: 9.666e-03]strawbyte_v1:   4%|4         | 132/3000 [07:23<2:31:05,  3.16s/it, lr: 1.0e-04 loss: 9.666e-03]strawbyte_v1:   4%|4         | 132/3000 [07:25<2:31:05,  3.16s/it, lr: 1.0e-04 loss: 3.166e-01]strawbyte_v1:   4%|4         | 132/3000 [07:25<2:31:05,  3.16s/it, lr: 1.0e-04 loss: 3.166e-01]strawbyte_v1:   4%|4         | 133/3000 [07:25<2:25:35,  3.05s/it, lr: 1.0e-04 loss: 3.166e-01]strawbyte_v1:   4%|4         | 133/3000 [07:25<2:25:35,  3.05s/it, lr: 1.0e-04 loss: 3.166e-01]strawbyte_v1:   4%|4         | 133/3000 [07:28<2:25:35,  3.05s/it, lr: 1.0e-04 loss: 2.565e-01]strawbyte_v1:   4%|4         | 133/3000 [07:28<2:25:35,  3.05s/it, lr: 1.0e-04 loss: 2.565e-01]strawbyte_v1:   4%|4         | 134/3000 [07:28<2:25:55,  3.06s/it, lr: 1.0e-04 loss: 2.565e-01]strawbyte_v1:   4%|4         | 134/3000 [07:28<2:25:55,  3.06s/it, lr: 1.0e-04 loss: 2.565e-01]strawbyte_v1:   4%|4         | 134/3000 [07:31<2:25:55,  3.06s/it, lr: 1.0e-04 loss: 2.327e-01]strawbyte_v1:   4%|4         | 134/3000 [07:31<2:25:55,  3.06s/it, lr: 1.0e-04 loss: 2.327e-01]strawbyte_v1:   4%|4         | 135/3000 [07:31<2:21:19,  2.96s/it, lr: 1.0e-04 loss: 2.327e-01]strawbyte_v1:   4%|4         | 135/3000 [07:31<2:21:19,  2.96s/it, lr: 1.0e-04 loss: 2.327e-01]strawbyte_v1:   4%|4         | 135/3000 [07:34<2:21:19,  2.96s/it, lr: 1.0e-04 loss: 1.928e-01]strawbyte_v1:   4%|4         | 135/3000 [07:34<2:21:19,  2.96s/it, lr: 1.0e-04 loss: 1.928e-01]strawbyte_v1:   5%|4         | 136/3000 [07:34<2:18:13,  2.90s/it, lr: 1.0e-04 loss: 1.928e-01]strawbyte_v1:   5%|4         | 136/3000 [07:34<2:18:13,  2.90s/it, lr: 1.0e-04 loss: 1.928e-01]strawbyte_v1:   5%|4         | 136/3000 [07:37<2:18:13,  2.90s/it, lr: 1.0e-04 loss: 5.948e-02]strawbyte_v1:   5%|4         | 136/3000 [07:37<2:18:13,  2.90s/it, lr: 1.0e-04 loss: 5.948e-02]strawbyte_v1:   5%|4         | 137/3000 [07:37<2:24:05,  3.02s/it, lr: 1.0e-04 loss: 5.948e-02]strawbyte_v1:   5%|4         | 137/3000 [07:37<2:24:05,  3.02s/it, lr: 1.0e-04 loss: 5.948e-02]strawbyte_v1:   5%|4         | 137/3000 [07:40<2:24:05,  3.02s/it, lr: 1.0e-04 loss: 9.270e-02]strawbyte_v1:   5%|4         | 137/3000 [07:40<2:24:05,  3.02s/it, lr: 1.0e-04 loss: 9.270e-02]strawbyte_v1:   5%|4         | 138/3000 [07:40<2:21:57,  2.98s/it, lr: 1.0e-04 loss: 9.270e-02]strawbyte_v1:   5%|4         | 138/3000 [07:40<2:21:57,  2.98s/it, lr: 1.0e-04 loss: 9.270e-02]strawbyte_v1:   5%|4         | 138/3000 [07:44<2:21:57,  2.98s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:   5%|4         | 138/3000 [07:44<2:21:57,  2.98s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:   5%|4         | 139/3000 [07:44<2:41:40,  3.39s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:   5%|4         | 139/3000 [07:44<2:41:40,  3.39s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:   5%|4         | 139/3000 [07:46<2:41:40,  3.39s/it, lr: 1.0e-04 loss: 1.689e-01]strawbyte_v1:   5%|4         | 139/3000 [07:46<2:41:40,  3.39s/it, lr: 1.0e-04 loss: 1.689e-01]strawbyte_v1:   5%|4         | 140/3000 [07:51<2:41:37,  3.39s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:   5%|4         | 140/3000 [07:51<2:41:37,  3.39s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:   5%|4         | 141/3000 [07:51<2:17:45,  2.89s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:   5%|4         | 141/3000 [07:51<2:17:45,  2.89s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:   5%|4         | 141/3000 [07:53<2:17:45,  2.89s/it, lr: 1.0e-04 loss: 3.333e-01]strawbyte_v1:   5%|4         | 141/3000 [07:53<2:17:45,  2.89s/it, lr: 1.0e-04 loss: 3.333e-01]strawbyte_v1:   5%|4         | 142/3000 [07:53<2:08:11,  2.69s/it, lr: 1.0e-04 loss: 3.333e-01]strawbyte_v1:   5%|4         | 142/3000 [07:53<2:08:11,  2.69s/it, lr: 1.0e-04 loss: 3.333e-01]strawbyte_v1:   5%|4         | 142/3000 [07:56<2:08:11,  2.69s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:   5%|4         | 142/3000 [07:56<2:08:11,  2.69s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:   5%|4         | 143/3000 [07:56<2:10:25,  2.74s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:   5%|4         | 143/3000 [07:56<2:10:25,  2.74s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:   5%|4         | 143/3000 [08:01<2:10:25,  2.74s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:   5%|4         | 143/3000 [08:01<2:10:25,  2.74s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:   5%|4         | 144/3000 [08:01<2:33:36,  3.23s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:   5%|4         | 144/3000 [08:01<2:33:36,  3.23s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:   5%|4         | 144/3000 [08:05<2:33:36,  3.23s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:   5%|4         | 144/3000 [08:05<2:33:36,  3.23s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:   5%|4         | 145/3000 [08:05<2:48:49,  3.55s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:   5%|4         | 145/3000 [08:05<2:48:49,  3.55s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:   5%|4         | 145/3000 [08:08<2:48:49,  3.55s/it, lr: 1.0e-04 loss: 1.886e-01]strawbyte_v1:   5%|4         | 145/3000 [08:08<2:48:49,  3.55s/it, lr: 1.0e-04 loss: 1.886e-01]strawbyte_v1:   5%|4         | 146/3000 [08:08<2:40:06,  3.37s/it, lr: 1.0e-04 loss: 1.886e-01]strawbyte_v1:   5%|4         | 146/3000 [08:08<2:40:06,  3.37s/it, lr: 1.0e-04 loss: 1.886e-01]strawbyte_v1:   5%|4         | 146/3000 [08:12<2:40:06,  3.37s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:   5%|4         | 146/3000 [08:12<2:40:06,  3.37s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:   5%|4         | 147/3000 [08:12<2:53:44,  3.65s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:   5%|4         | 147/3000 [08:12<2:53:44,  3.65s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:   5%|4         | 147/3000 [08:16<2:53:44,  3.65s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:   5%|4         | 147/3000 [08:16<2:53:44,  3.65s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:   5%|4         | 148/3000 [08:16<2:49:54,  3.57s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:   5%|4         | 148/3000 [08:16<2:49:54,  3.57s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:   5%|4         | 148/3000 [08:20<2:49:54,  3.57s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:   5%|4         | 148/3000 [08:20<2:49:54,  3.57s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:   5%|4         | 149/3000 [08:20<3:02:21,  3.84s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:   5%|4         | 149/3000 [08:20<3:02:21,  3.84s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:   5%|4         | 149/3000 [08:23<3:02:21,  3.84s/it, lr: 1.0e-04 loss: 2.723e-02]strawbyte_v1:   5%|4         | 149/3000 [08:23<3:02:21,  3.84s/it, lr: 1.0e-04 loss: 2.723e-02]strawbyte_v1:   5%|5         | 150/3000 [08:26<3:02:17,  3.84s/it, lr: 1.0e-04 loss: 2.215e-01]strawbyte_v1:   5%|5         | 150/3000 [08:26<3:02:17,  3.84s/it, lr: 1.0e-04 loss: 2.215e-01]strawbyte_v1:   5%|5         | 151/3000 [08:26<2:12:17,  2.79s/it, lr: 1.0e-04 loss: 2.215e-01]strawbyte_v1:   5%|5         | 151/3000 [08:26<2:12:17,  2.79s/it, lr: 1.0e-04 loss: 2.215e-01]strawbyte_v1:   5%|5         | 151/3000 [08:29<2:12:17,  2.79s/it, lr: 1.0e-04 loss: 1.308e-01]strawbyte_v1:   5%|5         | 151/3000 [08:29<2:12:17,  2.79s/it, lr: 1.0e-04 loss: 1.308e-01]strawbyte_v1:   5%|5         | 152/3000 [08:29<2:15:27,  2.85s/it, lr: 1.0e-04 loss: 1.308e-01]strawbyte_v1:   5%|5         | 152/3000 [08:29<2:15:27,  2.85s/it, lr: 1.0e-04 loss: 1.308e-01]strawbyte_v1:   5%|5         | 152/3000 [08:34<2:15:27,  2.85s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:   5%|5         | 152/3000 [08:34<2:15:27,  2.85s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:   5%|5         | 153/3000 [08:34<2:34:44,  3.26s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:   5%|5         | 153/3000 [08:34<2:34:44,  3.26s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:   5%|5         | 153/3000 [08:37<2:34:44,  3.26s/it, lr: 1.0e-04 loss: 2.038e-01]strawbyte_v1:   5%|5         | 153/3000 [08:37<2:34:44,  3.26s/it, lr: 1.0e-04 loss: 2.038e-01]strawbyte_v1:   5%|5         | 154/3000 [08:37<2:31:03,  3.18s/it, lr: 1.0e-04 loss: 2.038e-01]strawbyte_v1:   5%|5         | 154/3000 [08:37<2:31:03,  3.18s/it, lr: 1.0e-04 loss: 2.038e-01]strawbyte_v1:   5%|5         | 154/3000 [08:40<2:31:03,  3.18s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   5%|5         | 154/3000 [08:40<2:31:03,  3.18s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   5%|5         | 155/3000 [08:40<2:29:19,  3.15s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   5%|5         | 155/3000 [08:40<2:29:19,  3.15s/it, lr: 1.0e-04 loss: 2.353e-01]strawbyte_v1:   5%|5         | 155/3000 [08:44<2:29:19,  3.15s/it, lr: 1.0e-04 loss: 7.339e-02]strawbyte_v1:   5%|5         | 155/3000 [08:44<2:29:19,  3.15s/it, lr: 1.0e-04 loss: 7.339e-02]strawbyte_v1:   5%|5         | 156/3000 [08:44<2:47:20,  3.53s/it, lr: 1.0e-04 loss: 7.339e-02]strawbyte_v1:   5%|5         | 156/3000 [08:44<2:47:20,  3.53s/it, lr: 1.0e-04 loss: 7.339e-02]strawbyte_v1:   5%|5         | 156/3000 [08:49<2:47:20,  3.53s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:   5%|5         | 156/3000 [08:49<2:47:20,  3.53s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:   5%|5         | 157/3000 [08:49<2:59:22,  3.79s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:   5%|5         | 157/3000 [08:49<2:59:22,  3.79s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:   5%|5         | 157/3000 [08:52<2:59:22,  3.79s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   5%|5         | 157/3000 [08:52<2:59:22,  3.79s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   5%|5         | 158/3000 [08:52<2:49:25,  3.58s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   5%|5         | 158/3000 [08:52<2:49:25,  3.58s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   5%|5         | 158/3000 [08:56<2:49:25,  3.58s/it, lr: 1.0e-04 loss: 7.204e-02]strawbyte_v1:   5%|5         | 158/3000 [08:56<2:49:25,  3.58s/it, lr: 1.0e-04 loss: 7.204e-02]strawbyte_v1:   5%|5         | 159/3000 [08:56<3:01:18,  3.83s/it, lr: 1.0e-04 loss: 7.204e-02]strawbyte_v1:   5%|5         | 159/3000 [08:56<3:01:18,  3.83s/it, lr: 1.0e-04 loss: 7.204e-02]strawbyte_v1:   5%|5         | 159/3000 [09:00<3:01:18,  3.83s/it, lr: 1.0e-04 loss: 1.744e-01]strawbyte_v1:   5%|5         | 159/3000 [09:00<3:01:18,  3.83s/it, lr: 1.0e-04 loss: 1.744e-01]strawbyte_v1:   5%|5         | 160/3000 [09:03<3:01:14,  3.83s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:   5%|5         | 160/3000 [09:03<3:01:14,  3.83s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:   5%|5         | 161/3000 [09:03<2:09:53,  2.75s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:   5%|5         | 161/3000 [09:03<2:09:53,  2.75s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:   5%|5         | 161/3000 [09:08<2:09:53,  2.75s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:   5%|5         | 161/3000 [09:08<2:09:53,  2.75s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:   5%|5         | 162/3000 [09:08<2:31:52,  3.21s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:   5%|5         | 162/3000 [09:08<2:31:52,  3.21s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:   5%|5         | 162/3000 [09:10<2:31:52,  3.21s/it, lr: 1.0e-04 loss: 1.126e-03]strawbyte_v1:   5%|5         | 162/3000 [09:10<2:31:52,  3.21s/it, lr: 1.0e-04 loss: 1.126e-03]strawbyte_v1:   5%|5         | 163/3000 [09:10<2:17:58,  2.92s/it, lr: 1.0e-04 loss: 1.126e-03]strawbyte_v1:   5%|5         | 163/3000 [09:10<2:17:58,  2.92s/it, lr: 1.0e-04 loss: 1.126e-03]strawbyte_v1:   5%|5         | 163/3000 [09:13<2:17:58,  2.92s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   5%|5         | 163/3000 [09:13<2:17:58,  2.92s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   5%|5         | 164/3000 [09:13<2:18:00,  2.92s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   5%|5         | 164/3000 [09:13<2:18:00,  2.92s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:   5%|5         | 164/3000 [09:16<2:18:00,  2.92s/it, lr: 1.0e-04 loss: 2.015e-01]strawbyte_v1:   5%|5         | 164/3000 [09:16<2:18:00,  2.92s/it, lr: 1.0e-04 loss: 2.015e-01]strawbyte_v1:   6%|5         | 165/3000 [09:16<2:20:50,  2.98s/it, lr: 1.0e-04 loss: 2.015e-01]strawbyte_v1:   6%|5         | 165/3000 [09:16<2:20:50,  2.98s/it, lr: 1.0e-04 loss: 2.015e-01]strawbyte_v1:   6%|5         | 165/3000 [09:20<2:20:50,  2.98s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:   6%|5         | 165/3000 [09:20<2:20:50,  2.98s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:   6%|5         | 166/3000 [09:20<2:37:11,  3.33s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:   6%|5         | 166/3000 [09:20<2:37:11,  3.33s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:   6%|5         | 166/3000 [09:23<2:37:11,  3.33s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:   6%|5         | 166/3000 [09:23<2:37:11,  3.33s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:   6%|5         | 167/3000 [09:23<2:31:03,  3.20s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:   6%|5         | 167/3000 [09:23<2:31:03,  3.20s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:   6%|5         | 167/3000 [09:26<2:31:03,  3.20s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   6%|5         | 167/3000 [09:26<2:31:03,  3.20s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   6%|5         | 168/3000 [09:26<2:30:07,  3.18s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   6%|5         | 168/3000 [09:26<2:30:07,  3.18s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   6%|5         | 168/3000 [09:31<2:30:07,  3.18s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:   6%|5         | 168/3000 [09:31<2:30:07,  3.18s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:   6%|5         | 169/3000 [09:31<2:44:43,  3.49s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:   6%|5         | 169/3000 [09:31<2:44:43,  3.49s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:   6%|5         | 169/3000 [09:35<2:44:43,  3.49s/it, lr: 1.0e-04 loss: 1.621e-02]strawbyte_v1:   6%|5         | 169/3000 [09:35<2:44:43,  3.49s/it, lr: 1.0e-04 loss: 1.621e-02]strawbyte_v1:   6%|5         | 170/3000 [09:39<2:44:39,  3.49s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:   6%|5         | 170/3000 [09:39<2:44:39,  3.49s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:   6%|5         | 171/3000 [09:39<2:15:40,  2.88s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:   6%|5         | 171/3000 [09:39<2:15:40,  2.88s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:   6%|5         | 171/3000 [09:42<2:15:40,  2.88s/it, lr: 1.0e-04 loss: 2.650e-01]strawbyte_v1:   6%|5         | 171/3000 [09:42<2:15:40,  2.88s/it, lr: 1.0e-04 loss: 2.650e-01]strawbyte_v1:   6%|5         | 172/3000 [09:42<2:17:19,  2.91s/it, lr: 1.0e-04 loss: 2.650e-01]strawbyte_v1:   6%|5         | 172/3000 [09:42<2:17:19,  2.91s/it, lr: 1.0e-04 loss: 2.650e-01]strawbyte_v1:   6%|5         | 172/3000 [09:45<2:17:19,  2.91s/it, lr: 1.0e-04 loss: 2.634e-01]strawbyte_v1:   6%|5         | 172/3000 [09:45<2:17:19,  2.91s/it, lr: 1.0e-04 loss: 2.634e-01]strawbyte_v1:   6%|5         | 173/3000 [09:45<2:14:33,  2.86s/it, lr: 1.0e-04 loss: 2.634e-01]strawbyte_v1:   6%|5         | 173/3000 [09:45<2:14:33,  2.86s/it, lr: 1.0e-04 loss: 2.634e-01]strawbyte_v1:   6%|5         | 173/3000 [09:48<2:14:33,  2.86s/it, lr: 1.0e-04 loss: 2.427e-01]strawbyte_v1:   6%|5         | 173/3000 [09:48<2:14:33,  2.86s/it, lr: 1.0e-04 loss: 2.427e-01]strawbyte_v1:   6%|5         | 174/3000 [09:48<2:11:41,  2.80s/it, lr: 1.0e-04 loss: 2.427e-01]strawbyte_v1:   6%|5         | 174/3000 [09:48<2:11:41,  2.80s/it, lr: 1.0e-04 loss: 2.427e-01]strawbyte_v1:   6%|5         | 174/3000 [09:52<2:11:41,  2.80s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   6%|5         | 174/3000 [09:52<2:11:41,  2.80s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   6%|5         | 175/3000 [09:52<2:33:50,  3.27s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   6%|5         | 175/3000 [09:52<2:33:50,  3.27s/it, lr: 1.0e-04 loss: 1.624e-01]strawbyte_v1:   6%|5         | 175/3000 [09:57<2:33:50,  3.27s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:   6%|5         | 175/3000 [09:57<2:33:50,  3.27s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:   6%|5         | 176/3000 [09:57<2:54:04,  3.70s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:   6%|5         | 176/3000 [09:57<2:54:04,  3.70s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:   6%|5         | 176/3000 [10:00<2:54:04,  3.70s/it, lr: 1.0e-04 loss: 2.928e-01]strawbyte_v1:   6%|5         | 176/3000 [10:00<2:54:04,  3.70s/it, lr: 1.0e-04 loss: 2.928e-01]strawbyte_v1:   6%|5         | 177/3000 [10:00<2:40:23,  3.41s/it, lr: 1.0e-04 loss: 2.928e-01]strawbyte_v1:   6%|5         | 177/3000 [10:00<2:40:23,  3.41s/it, lr: 1.0e-04 loss: 2.928e-01]strawbyte_v1:   6%|5         | 177/3000 [10:02<2:40:23,  3.41s/it, lr: 1.0e-04 loss: 2.374e-01]strawbyte_v1:   6%|5         | 177/3000 [10:02<2:40:23,  3.41s/it, lr: 1.0e-04 loss: 2.374e-01]strawbyte_v1:   6%|5         | 178/3000 [10:02<2:30:29,  3.20s/it, lr: 1.0e-04 loss: 2.374e-01]strawbyte_v1:   6%|5         | 178/3000 [10:02<2:30:29,  3.20s/it, lr: 1.0e-04 loss: 2.374e-01]strawbyte_v1:   6%|5         | 178/3000 [10:07<2:30:29,  3.20s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:   6%|5         | 178/3000 [10:07<2:30:29,  3.20s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:   6%|5         | 179/3000 [10:07<2:50:14,  3.62s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:   6%|5         | 179/3000 [10:07<2:50:14,  3.62s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:   6%|5         | 179/3000 [10:10<2:50:14,  3.62s/it, lr: 1.0e-04 loss: 1.390e-01]strawbyte_v1:   6%|5         | 179/3000 [10:10<2:50:14,  3.62s/it, lr: 1.0e-04 loss: 1.390e-01]strawbyte_v1:   6%|6         | 180/3000 [10:13<2:50:10,  3.62s/it, lr: 1.0e-04 loss: 2.375e-01]strawbyte_v1:   6%|6         | 180/3000 [10:13<2:50:10,  3.62s/it, lr: 1.0e-04 loss: 2.375e-01]strawbyte_v1:   6%|6         | 181/3000 [10:13<2:01:37,  2.59s/it, lr: 1.0e-04 loss: 2.375e-01]strawbyte_v1:   6%|6         | 181/3000 [10:13<2:01:37,  2.59s/it, lr: 1.0e-04 loss: 2.375e-01]strawbyte_v1:   6%|6         | 181/3000 [10:16<2:01:37,  2.59s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:   6%|6         | 181/3000 [10:16<2:01:37,  2.59s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:   6%|6         | 182/3000 [10:16<2:06:02,  2.68s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:   6%|6         | 182/3000 [10:16<2:06:02,  2.68s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:   6%|6         | 182/3000 [10:19<2:06:02,  2.68s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:   6%|6         | 182/3000 [10:19<2:06:02,  2.68s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:   6%|6         | 183/3000 [10:19<2:13:56,  2.85s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:   6%|6         | 183/3000 [10:19<2:13:56,  2.85s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:   6%|6         | 183/3000 [10:21<2:13:56,  2.85s/it, lr: 1.0e-04 loss: 2.409e-01]strawbyte_v1:   6%|6         | 183/3000 [10:21<2:13:56,  2.85s/it, lr: 1.0e-04 loss: 2.409e-01]strawbyte_v1:   6%|6         | 184/3000 [10:21<2:04:14,  2.65s/it, lr: 1.0e-04 loss: 2.409e-01]strawbyte_v1:   6%|6         | 184/3000 [10:21<2:04:14,  2.65s/it, lr: 1.0e-04 loss: 2.409e-01]strawbyte_v1:   6%|6         | 184/3000 [10:24<2:04:14,  2.65s/it, lr: 1.0e-04 loss: 1.953e-01]strawbyte_v1:   6%|6         | 184/3000 [10:24<2:04:14,  2.65s/it, lr: 1.0e-04 loss: 1.953e-01]strawbyte_v1:   6%|6         | 185/3000 [10:24<2:07:01,  2.71s/it, lr: 1.0e-04 loss: 1.953e-01]strawbyte_v1:   6%|6         | 185/3000 [10:24<2:07:01,  2.71s/it, lr: 1.0e-04 loss: 1.953e-01]strawbyte_v1:   6%|6         | 185/3000 [10:28<2:07:01,  2.71s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:   6%|6         | 185/3000 [10:28<2:07:01,  2.71s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:   6%|6         | 186/3000 [10:28<2:31:07,  3.22s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:   6%|6         | 186/3000 [10:28<2:31:07,  3.22s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:   6%|6         | 186/3000 [10:31<2:31:07,  3.22s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:   6%|6         | 186/3000 [10:31<2:31:07,  3.22s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:   6%|6         | 187/3000 [10:31<2:27:16,  3.14s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:   6%|6         | 187/3000 [10:31<2:27:16,  3.14s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:   6%|6         | 187/3000 [10:34<2:27:16,  3.14s/it, lr: 1.0e-04 loss: 2.519e-01]strawbyte_v1:   6%|6         | 187/3000 [10:34<2:27:16,  3.14s/it, lr: 1.0e-04 loss: 2.519e-01]strawbyte_v1:   6%|6         | 188/3000 [10:34<2:13:04,  2.84s/it, lr: 1.0e-04 loss: 2.519e-01]strawbyte_v1:   6%|6         | 188/3000 [10:34<2:13:04,  2.84s/it, lr: 1.0e-04 loss: 2.519e-01]strawbyte_v1:   6%|6         | 188/3000 [10:36<2:13:04,  2.84s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:   6%|6         | 188/3000 [10:36<2:13:04,  2.84s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:   6%|6         | 189/3000 [10:36<2:13:37,  2.85s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:   6%|6         | 189/3000 [10:36<2:13:37,  2.85s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:   6%|6         | 189/3000 [10:39<2:13:37,  2.85s/it, lr: 1.0e-04 loss: 2.264e-01]strawbyte_v1:   6%|6         | 189/3000 [10:39<2:13:37,  2.85s/it, lr: 1.0e-04 loss: 2.264e-01]strawbyte_v1:   6%|6         | 190/3000 [10:42<2:13:34,  2.85s/it, lr: 1.0e-04 loss: 1.917e-01]strawbyte_v1:   6%|6         | 190/3000 [10:42<2:13:34,  2.85s/it, lr: 1.0e-04 loss: 1.917e-01]strawbyte_v1:   6%|6         | 191/3000 [10:42<1:41:52,  2.18s/it, lr: 1.0e-04 loss: 1.917e-01]strawbyte_v1:   6%|6         | 191/3000 [10:42<1:41:52,  2.18s/it, lr: 1.0e-04 loss: 1.917e-01]strawbyte_v1:   6%|6         | 191/3000 [10:46<1:41:52,  2.18s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:   6%|6         | 191/3000 [10:46<1:41:52,  2.18s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:   6%|6         | 192/3000 [10:46<2:06:37,  2.71s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:   6%|6         | 192/3000 [10:46<2:06:37,  2.71s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:   6%|6         | 192/3000 [10:48<2:06:37,  2.71s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:   6%|6         | 192/3000 [10:48<2:06:37,  2.71s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:   6%|6         | 193/3000 [10:48<2:02:52,  2.63s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:   6%|6         | 193/3000 [10:48<2:02:52,  2.63s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:   6%|6         | 193/3000 [10:51<2:02:52,  2.63s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   6%|6         | 193/3000 [10:51<2:02:52,  2.63s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   6%|6         | 194/3000 [10:51<2:04:13,  2.66s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   6%|6         | 194/3000 [10:51<2:04:13,  2.66s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:   6%|6         | 194/3000 [10:54<2:04:13,  2.66s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:   6%|6         | 194/3000 [10:54<2:04:13,  2.66s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:   6%|6         | 195/3000 [10:54<2:04:27,  2.66s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:   6%|6         | 195/3000 [10:54<2:04:27,  2.66s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:   6%|6         | 195/3000 [10:58<2:04:27,  2.66s/it, lr: 1.0e-04 loss: 1.745e-01]strawbyte_v1:   6%|6         | 195/3000 [10:58<2:04:27,  2.66s/it, lr: 1.0e-04 loss: 1.745e-01]strawbyte_v1:   7%|6         | 196/3000 [10:58<2:28:00,  3.17s/it, lr: 1.0e-04 loss: 1.745e-01]strawbyte_v1:   7%|6         | 196/3000 [10:58<2:28:00,  3.17s/it, lr: 1.0e-04 loss: 1.745e-01]strawbyte_v1:   7%|6         | 196/3000 [11:01<2:28:00,  3.17s/it, lr: 1.0e-04 loss: 1.766e-01]strawbyte_v1:   7%|6         | 196/3000 [11:01<2:28:00,  3.17s/it, lr: 1.0e-04 loss: 1.766e-01]strawbyte_v1:   7%|6         | 197/3000 [11:01<2:30:51,  3.23s/it, lr: 1.0e-04 loss: 1.766e-01]strawbyte_v1:   7%|6         | 197/3000 [11:01<2:30:51,  3.23s/it, lr: 1.0e-04 loss: 1.766e-01]strawbyte_v1:   7%|6         | 197/3000 [11:05<2:30:51,  3.23s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:   7%|6         | 197/3000 [11:05<2:30:51,  3.23s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:   7%|6         | 198/3000 [11:05<2:28:52,  3.19s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:   7%|6         | 198/3000 [11:05<2:28:52,  3.19s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:   7%|6         | 198/3000 [11:09<2:28:52,  3.19s/it, lr: 1.0e-04 loss: 1.582e-01]strawbyte_v1:   7%|6         | 198/3000 [11:09<2:28:52,  3.19s/it, lr: 1.0e-04 loss: 1.582e-01]strawbyte_v1:   7%|6         | 199/3000 [11:09<2:46:41,  3.57s/it, lr: 1.0e-04 loss: 1.582e-01]strawbyte_v1:   7%|6         | 199/3000 [11:09<2:46:41,  3.57s/it, lr: 1.0e-04 loss: 1.582e-01]strawbyte_v1:   7%|6         | 199/3000 [11:14<2:46:41,  3.57s/it, lr: 1.0e-04 loss: 8.843e-02]strawbyte_v1:   7%|6         | 199/3000 [11:14<2:46:41,  3.57s/it, lr: 1.0e-04 loss: 8.843e-02]strawbyte_v1:   7%|6         | 200/3000 [11:18<2:46:37,  3.57s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:   7%|6         | 200/3000 [11:18<2:46:37,  3.57s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:   7%|6         | 201/3000 [11:18<2:17:32,  2.95s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:   7%|6         | 201/3000 [11:18<2:17:32,  2.95s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:   7%|6         | 201/3000 [11:23<2:17:32,  2.95s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:   7%|6         | 201/3000 [11:23<2:17:32,  2.95s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:   7%|6         | 202/3000 [11:23<2:35:01,  3.32s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:   7%|6         | 202/3000 [11:23<2:35:01,  3.32s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:   7%|6         | 202/3000 [11:27<2:35:01,  3.32s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:   7%|6         | 202/3000 [11:27<2:35:01,  3.32s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:   7%|6         | 203/3000 [11:27<2:48:43,  3.62s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:   7%|6         | 203/3000 [11:27<2:48:43,  3.62s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:   7%|6         | 203/3000 [11:31<2:48:43,  3.62s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:   7%|6         | 203/3000 [11:31<2:48:43,  3.62s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:   7%|6         | 204/3000 [11:31<2:45:16,  3.55s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:   7%|6         | 204/3000 [11:31<2:45:16,  3.55s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:   7%|6         | 204/3000 [11:34<2:45:16,  3.55s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   7%|6         | 204/3000 [11:34<2:45:16,  3.55s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   7%|6         | 205/3000 [11:34<2:38:04,  3.39s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   7%|6         | 205/3000 [11:34<2:38:04,  3.39s/it, lr: 1.0e-04 loss: 1.600e-01]strawbyte_v1:   7%|6         | 205/3000 [11:37<2:38:04,  3.39s/it, lr: 1.0e-04 loss: 2.337e-02]strawbyte_v1:   7%|6         | 205/3000 [11:37<2:38:04,  3.39s/it, lr: 1.0e-04 loss: 2.337e-02]strawbyte_v1:   7%|6         | 206/3000 [11:37<2:32:38,  3.28s/it, lr: 1.0e-04 loss: 2.337e-02]strawbyte_v1:   7%|6         | 206/3000 [11:37<2:32:38,  3.28s/it, lr: 1.0e-04 loss: 2.337e-02]strawbyte_v1:   7%|6         | 206/3000 [11:40<2:32:38,  3.28s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   7%|6         | 206/3000 [11:40<2:32:38,  3.28s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   7%|6         | 207/3000 [11:40<2:28:36,  3.19s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   7%|6         | 207/3000 [11:40<2:28:36,  3.19s/it, lr: 1.0e-04 loss: 2.394e-01]strawbyte_v1:   7%|6         | 207/3000 [11:43<2:28:36,  3.19s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:   7%|6         | 207/3000 [11:43<2:28:36,  3.19s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:   7%|6         | 208/3000 [11:43<2:24:42,  3.11s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:   7%|6         | 208/3000 [11:43<2:24:42,  3.11s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:   7%|6         | 208/3000 [11:47<2:24:42,  3.11s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   7%|6         | 208/3000 [11:47<2:24:42,  3.11s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   7%|6         | 209/3000 [11:47<2:41:22,  3.47s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   7%|6         | 209/3000 [11:47<2:41:22,  3.47s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:   7%|6         | 209/3000 [11:51<2:41:22,  3.47s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:   7%|6         | 209/3000 [11:51<2:41:22,  3.47s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:   7%|7         | 210/3000 [11:54<2:41:19,  3.47s/it, lr: 1.0e-04 loss: 2.414e-01]strawbyte_v1:   7%|7         | 210/3000 [11:54<2:41:19,  3.47s/it, lr: 1.0e-04 loss: 2.414e-01]strawbyte_v1:   7%|7         | 211/3000 [11:54<1:52:47,  2.43s/it, lr: 1.0e-04 loss: 2.414e-01]strawbyte_v1:   7%|7         | 211/3000 [11:54<1:52:47,  2.43s/it, lr: 1.0e-04 loss: 2.414e-01]strawbyte_v1:   7%|7         | 211/3000 [11:57<1:52:47,  2.43s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:   7%|7         | 211/3000 [11:57<1:52:47,  2.43s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:   7%|7         | 212/3000 [11:57<1:57:47,  2.53s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:   7%|7         | 212/3000 [11:57<1:57:47,  2.53s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:   7%|7         | 212/3000 [11:59<1:57:47,  2.53s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:   7%|7         | 212/3000 [11:59<1:57:47,  2.53s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:   7%|7         | 213/3000 [11:59<2:01:57,  2.63s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:   7%|7         | 213/3000 [11:59<2:01:57,  2.63s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:   7%|7         | 213/3000 [12:02<2:01:57,  2.63s/it, lr: 1.0e-04 loss: 9.444e-02]strawbyte_v1:   7%|7         | 213/3000 [12:02<2:01:57,  2.63s/it, lr: 1.0e-04 loss: 9.444e-02]strawbyte_v1:   7%|7         | 214/3000 [12:02<1:58:33,  2.55s/it, lr: 1.0e-04 loss: 9.444e-02]strawbyte_v1:   7%|7         | 214/3000 [12:02<1:58:33,  2.55s/it, lr: 1.0e-04 loss: 9.444e-02]strawbyte_v1:   7%|7         | 214/3000 [12:06<1:58:33,  2.55s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:   7%|7         | 214/3000 [12:06<1:58:33,  2.55s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:   7%|7         | 215/3000 [12:06<2:21:08,  3.04s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:   7%|7         | 215/3000 [12:06<2:21:08,  3.04s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:   7%|7         | 215/3000 [12:08<2:21:08,  3.04s/it, lr: 1.0e-04 loss: 1.487e-01]strawbyte_v1:   7%|7         | 215/3000 [12:08<2:21:08,  3.04s/it, lr: 1.0e-04 loss: 1.487e-01]strawbyte_v1:   7%|7         | 216/3000 [12:08<2:08:36,  2.77s/it, lr: 1.0e-04 loss: 1.487e-01]strawbyte_v1:   7%|7         | 216/3000 [12:08<2:08:36,  2.77s/it, lr: 1.0e-04 loss: 1.487e-01]strawbyte_v1:   7%|7         | 216/3000 [12:10<2:08:36,  2.77s/it, lr: 1.0e-04 loss: 9.319e-02]strawbyte_v1:   7%|7         | 216/3000 [12:10<2:08:36,  2.77s/it, lr: 1.0e-04 loss: 9.319e-02]strawbyte_v1:   7%|7         | 217/3000 [12:10<1:59:39,  2.58s/it, lr: 1.0e-04 loss: 9.319e-02]strawbyte_v1:   7%|7         | 217/3000 [12:10<1:59:39,  2.58s/it, lr: 1.0e-04 loss: 9.319e-02]strawbyte_v1:   7%|7         | 217/3000 [12:15<1:59:39,  2.58s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:   7%|7         | 217/3000 [12:15<1:59:39,  2.58s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:   7%|7         | 218/3000 [12:15<2:27:23,  3.18s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:   7%|7         | 218/3000 [12:15<2:27:23,  3.18s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:   7%|7         | 218/3000 [12:19<2:27:23,  3.18s/it, lr: 1.0e-04 loss: 9.948e-02]strawbyte_v1:   7%|7         | 218/3000 [12:19<2:27:23,  3.18s/it, lr: 1.0e-04 loss: 9.948e-02]strawbyte_v1:   7%|7         | 219/3000 [12:19<2:44:39,  3.55s/it, lr: 1.0e-04 loss: 9.948e-02]strawbyte_v1:   7%|7         | 219/3000 [12:19<2:44:39,  3.55s/it, lr: 1.0e-04 loss: 9.948e-02]strawbyte_v1:   7%|7         | 219/3000 [12:22<2:44:39,  3.55s/it, lr: 1.0e-04 loss: 2.043e-01]strawbyte_v1:   7%|7         | 219/3000 [12:22<2:44:39,  3.55s/it, lr: 1.0e-04 loss: 2.043e-01]strawbyte_v1:   7%|7         | 220/3000 [12:25<2:44:36,  3.55s/it, lr: 1.0e-04 loss: 2.898e-01]strawbyte_v1:   7%|7         | 220/3000 [12:25<2:44:36,  3.55s/it, lr: 1.0e-04 loss: 2.898e-01]strawbyte_v1:   7%|7         | 221/3000 [12:25<2:01:48,  2.63s/it, lr: 1.0e-04 loss: 2.898e-01]strawbyte_v1:   7%|7         | 221/3000 [12:25<2:01:48,  2.63s/it, lr: 1.0e-04 loss: 2.898e-01]strawbyte_v1:   7%|7         | 221/3000 [12:29<2:01:48,  2.63s/it, lr: 1.0e-04 loss: 1.323e-01]strawbyte_v1:   7%|7         | 221/3000 [12:29<2:01:48,  2.63s/it, lr: 1.0e-04 loss: 1.323e-01]strawbyte_v1:   7%|7         | 222/3000 [12:29<2:22:02,  3.07s/it, lr: 1.0e-04 loss: 1.323e-01]strawbyte_v1:   7%|7         | 222/3000 [12:29<2:22:02,  3.07s/it, lr: 1.0e-04 loss: 1.323e-01]strawbyte_v1:   7%|7         | 222/3000 [12:32<2:22:02,  3.07s/it, lr: 1.0e-04 loss: 3.009e-01]strawbyte_v1:   7%|7         | 222/3000 [12:32<2:22:02,  3.07s/it, lr: 1.0e-04 loss: 3.009e-01]strawbyte_v1:   7%|7         | 223/3000 [12:32<2:17:20,  2.97s/it, lr: 1.0e-04 loss: 3.009e-01]strawbyte_v1:   7%|7         | 223/3000 [12:32<2:17:20,  2.97s/it, lr: 1.0e-04 loss: 3.009e-01]strawbyte_v1:   7%|7         | 223/3000 [12:35<2:17:20,  2.97s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   7%|7         | 223/3000 [12:35<2:17:20,  2.97s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   7%|7         | 224/3000 [12:35<2:14:08,  2.90s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   7%|7         | 224/3000 [12:35<2:14:08,  2.90s/it, lr: 1.0e-04 loss: 1.930e-01]strawbyte_v1:   7%|7         | 224/3000 [12:40<2:14:08,  2.90s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   7%|7         | 224/3000 [12:40<2:14:08,  2.90s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   8%|7         | 225/3000 [12:40<2:37:14,  3.40s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   8%|7         | 225/3000 [12:40<2:37:14,  3.40s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   8%|7         | 225/3000 [12:44<2:37:14,  3.40s/it, lr: 1.0e-04 loss: 1.144e-01]strawbyte_v1:   8%|7         | 225/3000 [12:44<2:37:14,  3.40s/it, lr: 1.0e-04 loss: 1.144e-01]strawbyte_v1:   8%|7         | 226/3000 [12:44<2:51:20,  3.71s/it, lr: 1.0e-04 loss: 1.144e-01]strawbyte_v1:   8%|7         | 226/3000 [12:44<2:51:20,  3.71s/it, lr: 1.0e-04 loss: 1.144e-01]strawbyte_v1:   8%|7         | 226/3000 [12:47<2:51:20,  3.71s/it, lr: 1.0e-04 loss: 2.550e-01]strawbyte_v1:   8%|7         | 226/3000 [12:47<2:51:20,  3.71s/it, lr: 1.0e-04 loss: 2.550e-01]strawbyte_v1:   8%|7         | 227/3000 [12:47<2:37:38,  3.41s/it, lr: 1.0e-04 loss: 2.550e-01]strawbyte_v1:   8%|7         | 227/3000 [12:47<2:37:38,  3.41s/it, lr: 1.0e-04 loss: 2.550e-01]strawbyte_v1:   8%|7         | 227/3000 [12:50<2:37:38,  3.41s/it, lr: 1.0e-04 loss: 1.838e-01]strawbyte_v1:   8%|7         | 227/3000 [12:50<2:37:38,  3.41s/it, lr: 1.0e-04 loss: 1.838e-01]strawbyte_v1:   8%|7         | 228/3000 [12:50<2:36:32,  3.39s/it, lr: 1.0e-04 loss: 1.838e-01]strawbyte_v1:   8%|7         | 228/3000 [12:50<2:36:32,  3.39s/it, lr: 1.0e-04 loss: 1.838e-01]strawbyte_v1:   8%|7         | 228/3000 [12:54<2:36:32,  3.39s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   8%|7         | 228/3000 [12:54<2:36:32,  3.39s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   8%|7         | 229/3000 [12:54<2:50:38,  3.69s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   8%|7         | 229/3000 [12:54<2:50:38,  3.69s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:   8%|7         | 229/3000 [12:57<2:50:38,  3.69s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:   8%|7         | 229/3000 [12:57<2:50:38,  3.69s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:   8%|7         | 230/3000 [13:02<2:50:34,  3.69s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   8%|7         | 230/3000 [13:02<2:50:34,  3.69s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   8%|7         | 231/3000 [13:02<2:19:18,  3.02s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   8%|7         | 231/3000 [13:02<2:19:18,  3.02s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   8%|7         | 231/3000 [13:04<2:19:18,  3.02s/it, lr: 1.0e-04 loss: 2.745e-01]strawbyte_v1:   8%|7         | 231/3000 [13:04<2:19:18,  3.02s/it, lr: 1.0e-04 loss: 2.745e-01]strawbyte_v1:   8%|7         | 232/3000 [13:04<2:12:20,  2.87s/it, lr: 1.0e-04 loss: 2.745e-01]strawbyte_v1:   8%|7         | 232/3000 [13:04<2:12:20,  2.87s/it, lr: 1.0e-04 loss: 2.745e-01]strawbyte_v1:   8%|7         | 232/3000 [13:06<2:12:20,  2.87s/it, lr: 1.0e-04 loss: 2.693e-01]strawbyte_v1:   8%|7         | 232/3000 [13:06<2:12:20,  2.87s/it, lr: 1.0e-04 loss: 2.693e-01]strawbyte_v1:   8%|7         | 233/3000 [13:06<2:03:05,  2.67s/it, lr: 1.0e-04 loss: 2.693e-01]strawbyte_v1:   8%|7         | 233/3000 [13:06<2:03:05,  2.67s/it, lr: 1.0e-04 loss: 2.693e-01]strawbyte_v1:   8%|7         | 233/3000 [13:09<2:03:05,  2.67s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:   8%|7         | 233/3000 [13:09<2:03:05,  2.67s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:   8%|7         | 234/3000 [13:09<2:06:11,  2.74s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:   8%|7         | 234/3000 [13:09<2:06:11,  2.74s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:   8%|7         | 234/3000 [13:12<2:06:11,  2.74s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:   8%|7         | 234/3000 [13:12<2:06:11,  2.74s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:   8%|7         | 235/3000 [13:12<2:10:50,  2.84s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:   8%|7         | 235/3000 [13:12<2:10:50,  2.84s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:   8%|7         | 235/3000 [13:17<2:10:50,  2.84s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   8%|7         | 235/3000 [13:17<2:10:50,  2.84s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   8%|7         | 236/3000 [13:17<2:31:05,  3.28s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   8%|7         | 236/3000 [13:17<2:31:05,  3.28s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:   8%|7         | 236/3000 [13:20<2:31:05,  3.28s/it, lr: 1.0e-04 loss: 8.429e-02]strawbyte_v1:   8%|7         | 236/3000 [13:20<2:31:05,  3.28s/it, lr: 1.0e-04 loss: 8.429e-02]strawbyte_v1:   8%|7         | 237/3000 [13:20<2:25:36,  3.16s/it, lr: 1.0e-04 loss: 8.429e-02]strawbyte_v1:   8%|7         | 237/3000 [13:20<2:25:36,  3.16s/it, lr: 1.0e-04 loss: 8.429e-02]strawbyte_v1:   8%|7         | 237/3000 [13:23<2:25:36,  3.16s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:   8%|7         | 237/3000 [13:23<2:25:36,  3.16s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:   8%|7         | 238/3000 [13:23<2:25:23,  3.16s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:   8%|7         | 238/3000 [13:23<2:25:23,  3.16s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:   8%|7         | 238/3000 [13:27<2:25:23,  3.16s/it, lr: 1.0e-04 loss: 1.438e-01]strawbyte_v1:   8%|7         | 238/3000 [13:27<2:25:23,  3.16s/it, lr: 1.0e-04 loss: 1.438e-01]strawbyte_v1:   8%|7         | 239/3000 [13:27<2:41:50,  3.52s/it, lr: 1.0e-04 loss: 1.438e-01]strawbyte_v1:   8%|7         | 239/3000 [13:27<2:41:50,  3.52s/it, lr: 1.0e-04 loss: 1.438e-01]strawbyte_v1:   8%|7         | 239/3000 [13:30<2:41:50,  3.52s/it, lr: 1.0e-04 loss: 6.607e-03]strawbyte_v1:   8%|7         | 239/3000 [13:30<2:41:50,  3.52s/it, lr: 1.0e-04 loss: 6.607e-03]strawbyte_v1:   8%|8         | 240/3000 [13:33<2:41:47,  3.52s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   8%|8         | 240/3000 [13:33<2:41:47,  3.52s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   8%|8         | 241/3000 [13:33<1:57:56,  2.56s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   8%|8         | 241/3000 [13:33<1:57:56,  2.56s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:   8%|8         | 241/3000 [13:36<1:57:56,  2.56s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:   8%|8         | 241/3000 [13:36<1:57:56,  2.56s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:   8%|8         | 242/3000 [13:36<2:03:36,  2.69s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:   8%|8         | 242/3000 [13:36<2:03:36,  2.69s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:   8%|8         | 242/3000 [13:41<2:03:36,  2.69s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:   8%|8         | 242/3000 [13:41<2:03:36,  2.69s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:   8%|8         | 243/3000 [13:41<2:24:50,  3.15s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:   8%|8         | 243/3000 [13:41<2:24:50,  3.15s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:   8%|8         | 243/3000 [13:43<2:24:50,  3.15s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   8%|8         | 243/3000 [13:43<2:24:50,  3.15s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   8%|8         | 244/3000 [13:43<2:19:15,  3.03s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   8%|8         | 244/3000 [13:43<2:19:15,  3.03s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:   8%|8         | 244/3000 [13:48<2:19:15,  3.03s/it, lr: 1.0e-04 loss: 9.920e-02]strawbyte_v1:   8%|8         | 244/3000 [13:48<2:19:15,  3.03s/it, lr: 1.0e-04 loss: 9.920e-02]strawbyte_v1:   8%|8         | 245/3000 [13:48<2:37:54,  3.44s/it, lr: 1.0e-04 loss: 9.920e-02]strawbyte_v1:   8%|8         | 245/3000 [13:48<2:37:54,  3.44s/it, lr: 1.0e-04 loss: 9.920e-02]strawbyte_v1:   8%|8         | 245/3000 [13:51<2:37:54,  3.44s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   8%|8         | 245/3000 [13:51<2:37:54,  3.44s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   8%|8         | 246/3000 [13:51<2:32:46,  3.33s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   8%|8         | 246/3000 [13:51<2:32:46,  3.33s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:   8%|8         | 246/3000 [13:53<2:32:46,  3.33s/it, lr: 1.0e-04 loss: 3.532e-02]strawbyte_v1:   8%|8         | 246/3000 [13:53<2:32:46,  3.33s/it, lr: 1.0e-04 loss: 3.532e-02]strawbyte_v1:   8%|8         | 247/3000 [13:53<2:24:13,  3.14s/it, lr: 1.0e-04 loss: 3.532e-02]strawbyte_v1:   8%|8         | 247/3000 [13:53<2:24:13,  3.14s/it, lr: 1.0e-04 loss: 3.532e-02]strawbyte_v1:   8%|8         | 247/3000 [13:56<2:24:13,  3.14s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:   8%|8         | 247/3000 [13:56<2:24:13,  3.14s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:   8%|8         | 248/3000 [13:56<2:21:57,  3.09s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:   8%|8         | 248/3000 [13:56<2:21:57,  3.09s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:   8%|8         | 248/3000 [14:00<2:21:57,  3.09s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   8%|8         | 248/3000 [14:00<2:21:57,  3.09s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   8%|8         | 249/3000 [14:00<2:25:14,  3.17s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   8%|8         | 249/3000 [14:00<2:25:14,  3.17s/it, lr: 1.0e-04 loss: 1.753e-01]strawbyte_v1:   8%|8         | 249/3000 [14:02<2:25:14,  3.17s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:   8%|8         | 249/3000 [14:02<2:25:14,  3.17s/it, lr: 1.0e-04 loss: 1.027e-01]
+Saving at step 250
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000000250.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:12<03:37, 72.50s/it]Generating Images:  25%|##5       | 1/4 [01:12<03:37, 72.50s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:26<02:26, 73.17s/it]Generating Images:  50%|#####     | 2/4 [02:26<02:26, 73.17s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:40<01:13, 73.56s/it]Generating Images:  75%|#######5  | 3/4 [03:40<01:13, 73.56s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:52<00:00, 73.27s/it]Generating Images: 100%|##########| 4/4 [04:52<00:00, 73.27s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:   8%|8         | 250/3000 [14:07<2:25:10,  3.17s/it, lr: 1.0e-04 loss: 7.513e-03]strawbyte_v1:   8%|8         | 250/3000 [14:07<2:25:10,  3.17s/it, lr: 1.0e-04 loss: 7.513e-03]strawbyte_v1:   8%|8         | 251/3000 [14:07<2:09:03,  2.82s/it, lr: 1.0e-04 loss: 7.513e-03]strawbyte_v1:   8%|8         | 251/3000 [14:07<2:09:03,  2.82s/it, lr: 1.0e-04 loss: 7.513e-03]strawbyte_v1:   8%|8         | 251/3000 [14:10<2:09:03,  2.82s/it, lr: 1.0e-04 loss: 2.505e-01]strawbyte_v1:   8%|8         | 251/3000 [14:10<2:09:03,  2.82s/it, lr: 1.0e-04 loss: 2.505e-01]strawbyte_v1:   8%|8         | 252/3000 [14:10<2:07:31,  2.78s/it, lr: 1.0e-04 loss: 2.505e-01]strawbyte_v1:   8%|8         | 252/3000 [14:10<2:07:31,  2.78s/it, lr: 1.0e-04 loss: 2.505e-01]strawbyte_v1:   8%|8         | 252/3000 [14:13<2:07:31,  2.78s/it, lr: 1.0e-04 loss: 2.180e-01]strawbyte_v1:   8%|8         | 252/3000 [14:13<2:07:31,  2.78s/it, lr: 1.0e-04 loss: 2.180e-01]strawbyte_v1:   8%|8         | 253/3000 [14:13<2:10:12,  2.84s/it, lr: 1.0e-04 loss: 2.180e-01]strawbyte_v1:   8%|8         | 253/3000 [14:13<2:10:12,  2.84s/it, lr: 1.0e-04 loss: 2.180e-01]strawbyte_v1:   8%|8         | 253/3000 [14:18<2:10:12,  2.84s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:   8%|8         | 253/3000 [14:18<2:10:12,  2.84s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:   8%|8         | 254/3000 [14:18<2:34:10,  3.37s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:   8%|8         | 254/3000 [14:18<2:34:10,  3.37s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:   8%|8         | 254/3000 [14:20<2:34:10,  3.37s/it, lr: 1.0e-04 loss: 2.026e-01]strawbyte_v1:   8%|8         | 254/3000 [14:20<2:34:10,  3.37s/it, lr: 1.0e-04 loss: 2.026e-01]strawbyte_v1:   8%|8         | 255/3000 [14:20<2:25:28,  3.18s/it, lr: 1.0e-04 loss: 2.026e-01]strawbyte_v1:   8%|8         | 255/3000 [14:20<2:25:28,  3.18s/it, lr: 1.0e-04 loss: 2.026e-01]strawbyte_v1:   8%|8         | 255/3000 [14:25<2:25:28,  3.18s/it, lr: 1.0e-04 loss: 9.183e-02]strawbyte_v1:   8%|8         | 255/3000 [14:25<2:25:28,  3.18s/it, lr: 1.0e-04 loss: 9.183e-02]strawbyte_v1:   9%|8         | 256/3000 [14:25<2:41:59,  3.54s/it, lr: 1.0e-04 loss: 9.183e-02]strawbyte_v1:   9%|8         | 256/3000 [14:25<2:41:59,  3.54s/it, lr: 1.0e-04 loss: 9.183e-02]strawbyte_v1:   9%|8         | 256/3000 [14:28<2:41:59,  3.54s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:   9%|8         | 256/3000 [14:28<2:41:59,  3.54s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:   9%|8         | 257/3000 [14:28<2:35:32,  3.40s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:   9%|8         | 257/3000 [14:28<2:35:32,  3.40s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:   9%|8         | 257/3000 [14:31<2:35:32,  3.40s/it, lr: 1.0e-04 loss: 2.635e-01]strawbyte_v1:   9%|8         | 257/3000 [14:31<2:35:32,  3.40s/it, lr: 1.0e-04 loss: 2.635e-01]strawbyte_v1:   9%|8         | 258/3000 [14:31<2:26:09,  3.20s/it, lr: 1.0e-04 loss: 2.635e-01]strawbyte_v1:   9%|8         | 258/3000 [14:31<2:26:09,  3.20s/it, lr: 1.0e-04 loss: 2.635e-01]strawbyte_v1:   9%|8         | 258/3000 [14:34<2:26:09,  3.20s/it, lr: 1.0e-04 loss: 1.724e-01]strawbyte_v1:   9%|8         | 258/3000 [14:34<2:26:09,  3.20s/it, lr: 1.0e-04 loss: 1.724e-01]strawbyte_v1:   9%|8         | 259/3000 [14:34<2:24:08,  3.16s/it, lr: 1.0e-04 loss: 1.724e-01]strawbyte_v1:   9%|8         | 259/3000 [14:34<2:24:08,  3.16s/it, lr: 1.0e-04 loss: 1.724e-01]strawbyte_v1:   9%|8         | 259/3000 [14:36<2:24:08,  3.16s/it, lr: 1.0e-04 loss: 1.732e-01]strawbyte_v1:   9%|8         | 259/3000 [14:36<2:24:08,  3.16s/it, lr: 1.0e-04 loss: 1.732e-01]strawbyte_v1:   9%|8         | 260/3000 [14:39<2:24:05,  3.16s/it, lr: 1.0e-04 loss: 9.654e-02]strawbyte_v1:   9%|8         | 260/3000 [14:39<2:24:05,  3.16s/it, lr: 1.0e-04 loss: 9.654e-02]strawbyte_v1:   9%|8         | 261/3000 [14:39<1:49:30,  2.40s/it, lr: 1.0e-04 loss: 9.654e-02]strawbyte_v1:   9%|8         | 261/3000 [14:39<1:49:30,  2.40s/it, lr: 1.0e-04 loss: 9.654e-02]strawbyte_v1:   9%|8         | 261/3000 [14:44<1:49:30,  2.40s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:   9%|8         | 261/3000 [14:44<1:49:30,  2.40s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:   9%|8         | 262/3000 [14:44<2:11:11,  2.88s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:   9%|8         | 262/3000 [14:44<2:11:11,  2.88s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:   9%|8         | 262/3000 [14:46<2:11:11,  2.88s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:   9%|8         | 262/3000 [14:46<2:11:11,  2.88s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:   9%|8         | 263/3000 [14:46<2:01:56,  2.67s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:   9%|8         | 263/3000 [14:46<2:01:56,  2.67s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:   9%|8         | 263/3000 [14:48<2:01:56,  2.67s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:   9%|8         | 263/3000 [14:48<2:01:56,  2.67s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:   9%|8         | 264/3000 [14:48<1:54:42,  2.52s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:   9%|8         | 264/3000 [14:48<1:54:42,  2.52s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:   9%|8         | 264/3000 [14:50<1:54:42,  2.52s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:   9%|8         | 264/3000 [14:50<1:54:42,  2.52s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:   9%|8         | 265/3000 [14:50<1:53:18,  2.49s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:   9%|8         | 265/3000 [14:50<1:53:18,  2.49s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:   9%|8         | 265/3000 [14:55<1:53:18,  2.49s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:   9%|8         | 265/3000 [14:55<1:53:18,  2.49s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:   9%|8         | 266/3000 [14:55<2:17:44,  3.02s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:   9%|8         | 266/3000 [14:55<2:17:44,  3.02s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:   9%|8         | 266/3000 [14:59<2:17:44,  3.02s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:   9%|8         | 266/3000 [14:59<2:17:44,  3.02s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:   9%|8         | 267/3000 [14:59<2:34:59,  3.40s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:   9%|8         | 267/3000 [14:59<2:34:59,  3.40s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:   9%|8         | 267/3000 [15:02<2:34:59,  3.40s/it, lr: 1.0e-04 loss: 1.531e-01]strawbyte_v1:   9%|8         | 267/3000 [15:02<2:34:59,  3.40s/it, lr: 1.0e-04 loss: 1.531e-01]strawbyte_v1:   9%|8         | 268/3000 [15:02<2:31:16,  3.32s/it, lr: 1.0e-04 loss: 1.531e-01]strawbyte_v1:   9%|8         | 268/3000 [15:02<2:31:16,  3.32s/it, lr: 1.0e-04 loss: 1.531e-01]strawbyte_v1:   9%|8         | 268/3000 [15:05<2:31:16,  3.32s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:   9%|8         | 268/3000 [15:05<2:31:16,  3.32s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:   9%|8         | 269/3000 [15:05<2:26:03,  3.21s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:   9%|8         | 269/3000 [15:05<2:26:03,  3.21s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:   9%|8         | 269/3000 [15:08<2:26:03,  3.21s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:   9%|8         | 269/3000 [15:08<2:26:03,  3.21s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:   9%|9         | 270/3000 [15:11<2:26:00,  3.21s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:   9%|9         | 270/3000 [15:11<2:26:00,  3.21s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:   9%|9         | 271/3000 [15:11<1:49:20,  2.40s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:   9%|9         | 271/3000 [15:11<1:49:20,  2.40s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:   9%|9         | 271/3000 [15:14<1:49:20,  2.40s/it, lr: 1.0e-04 loss: 1.984e-01]strawbyte_v1:   9%|9         | 271/3000 [15:14<1:49:20,  2.40s/it, lr: 1.0e-04 loss: 1.984e-01]strawbyte_v1:   9%|9         | 272/3000 [15:14<1:58:22,  2.60s/it, lr: 1.0e-04 loss: 1.984e-01]strawbyte_v1:   9%|9         | 272/3000 [15:14<1:58:22,  2.60s/it, lr: 1.0e-04 loss: 1.984e-01]strawbyte_v1:   9%|9         | 272/3000 [15:19<1:58:22,  2.60s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:   9%|9         | 272/3000 [15:19<1:58:22,  2.60s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:   9%|9         | 273/3000 [15:19<2:20:47,  3.10s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:   9%|9         | 273/3000 [15:19<2:20:47,  3.10s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:   9%|9         | 273/3000 [15:22<2:20:47,  3.10s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:   9%|9         | 273/3000 [15:22<2:20:47,  3.10s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:   9%|9         | 274/3000 [15:22<2:19:50,  3.08s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:   9%|9         | 274/3000 [15:22<2:19:50,  3.08s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:   9%|9         | 274/3000 [15:26<2:19:50,  3.08s/it, lr: 1.0e-04 loss: 7.493e-02]strawbyte_v1:   9%|9         | 274/3000 [15:26<2:19:50,  3.08s/it, lr: 1.0e-04 loss: 7.493e-02]strawbyte_v1:   9%|9         | 275/3000 [15:26<2:40:57,  3.54s/it, lr: 1.0e-04 loss: 7.493e-02]strawbyte_v1:   9%|9         | 275/3000 [15:26<2:40:57,  3.54s/it, lr: 1.0e-04 loss: 7.493e-02]strawbyte_v1:   9%|9         | 275/3000 [15:31<2:40:57,  3.54s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:   9%|9         | 275/3000 [15:31<2:40:57,  3.54s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:   9%|9         | 276/3000 [15:31<2:52:14,  3.79s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:   9%|9         | 276/3000 [15:31<2:52:14,  3.79s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:   9%|9         | 276/3000 [15:35<2:52:14,  3.79s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:   9%|9         | 276/3000 [15:35<2:52:14,  3.79s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:   9%|9         | 277/3000 [15:35<2:58:52,  3.94s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:   9%|9         | 277/3000 [15:35<2:58:52,  3.94s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:   9%|9         | 277/3000 [15:38<2:58:52,  3.94s/it, lr: 1.0e-04 loss: 2.285e-01]strawbyte_v1:   9%|9         | 277/3000 [15:38<2:58:52,  3.94s/it, lr: 1.0e-04 loss: 2.285e-01]strawbyte_v1:   9%|9         | 278/3000 [15:38<2:42:30,  3.58s/it, lr: 1.0e-04 loss: 2.285e-01]strawbyte_v1:   9%|9         | 278/3000 [15:38<2:42:30,  3.58s/it, lr: 1.0e-04 loss: 2.285e-01]strawbyte_v1:   9%|9         | 278/3000 [15:43<2:42:30,  3.58s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:   9%|9         | 278/3000 [15:43<2:42:30,  3.58s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:   9%|9         | 279/3000 [15:43<2:57:23,  3.91s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:   9%|9         | 279/3000 [15:43<2:57:23,  3.91s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:   9%|9         | 279/3000 [15:45<2:57:23,  3.91s/it, lr: 1.0e-04 loss: 2.445e-01]strawbyte_v1:   9%|9         | 279/3000 [15:45<2:57:23,  3.91s/it, lr: 1.0e-04 loss: 2.445e-01]strawbyte_v1:   9%|9         | 280/3000 [15:50<2:57:19,  3.91s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   9%|9         | 280/3000 [15:50<2:57:19,  3.91s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   9%|9         | 281/3000 [15:50<2:22:07,  3.14s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   9%|9         | 281/3000 [15:50<2:22:07,  3.14s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:   9%|9         | 281/3000 [15:53<2:22:07,  3.14s/it, lr: 1.0e-04 loss: 2.299e-01]strawbyte_v1:   9%|9         | 281/3000 [15:53<2:22:07,  3.14s/it, lr: 1.0e-04 loss: 2.299e-01]strawbyte_v1:   9%|9         | 282/3000 [15:53<2:20:57,  3.11s/it, lr: 1.0e-04 loss: 2.299e-01]strawbyte_v1:   9%|9         | 282/3000 [15:53<2:20:57,  3.11s/it, lr: 1.0e-04 loss: 2.299e-01]strawbyte_v1:   9%|9         | 282/3000 [15:56<2:20:57,  3.11s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   9%|9         | 282/3000 [15:56<2:20:57,  3.11s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   9%|9         | 283/3000 [15:56<2:19:43,  3.09s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   9%|9         | 283/3000 [15:56<2:19:43,  3.09s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:   9%|9         | 283/3000 [15:59<2:19:43,  3.09s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:   9%|9         | 283/3000 [15:59<2:19:43,  3.09s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:   9%|9         | 284/3000 [15:59<2:18:23,  3.06s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:   9%|9         | 284/3000 [15:59<2:18:23,  3.06s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:   9%|9         | 284/3000 [16:01<2:18:23,  3.06s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:   9%|9         | 284/3000 [16:01<2:18:23,  3.06s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:  10%|9         | 285/3000 [16:01<2:12:26,  2.93s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:  10%|9         | 285/3000 [16:01<2:12:26,  2.93s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:  10%|9         | 285/3000 [16:04<2:12:26,  2.93s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  10%|9         | 285/3000 [16:04<2:12:26,  2.93s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  10%|9         | 286/3000 [16:04<2:14:22,  2.97s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  10%|9         | 286/3000 [16:04<2:14:22,  2.97s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  10%|9         | 286/3000 [16:07<2:14:22,  2.97s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  10%|9         | 286/3000 [16:07<2:14:22,  2.97s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  10%|9         | 287/3000 [16:07<2:13:49,  2.96s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  10%|9         | 287/3000 [16:07<2:13:49,  2.96s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  10%|9         | 287/3000 [16:09<2:13:49,  2.96s/it, lr: 1.0e-04 loss: 2.978e-01]strawbyte_v1:  10%|9         | 287/3000 [16:09<2:13:49,  2.96s/it, lr: 1.0e-04 loss: 2.978e-01]strawbyte_v1:  10%|9         | 288/3000 [16:09<2:02:05,  2.70s/it, lr: 1.0e-04 loss: 2.978e-01]strawbyte_v1:  10%|9         | 288/3000 [16:09<2:02:05,  2.70s/it, lr: 1.0e-04 loss: 2.978e-01]strawbyte_v1:  10%|9         | 288/3000 [16:13<2:02:05,  2.70s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  10%|9         | 288/3000 [16:13<2:02:05,  2.70s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  10%|9         | 289/3000 [16:13<2:07:30,  2.82s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  10%|9         | 289/3000 [16:13<2:07:30,  2.82s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  10%|9         | 289/3000 [16:15<2:07:30,  2.82s/it, lr: 1.0e-04 loss: 2.609e-01]strawbyte_v1:  10%|9         | 289/3000 [16:15<2:07:30,  2.82s/it, lr: 1.0e-04 loss: 2.609e-01]strawbyte_v1:  10%|9         | 290/3000 [16:19<2:07:28,  2.82s/it, lr: 1.0e-04 loss: 1.757e-01]strawbyte_v1:  10%|9         | 290/3000 [16:19<2:07:28,  2.82s/it, lr: 1.0e-04 loss: 1.757e-01]strawbyte_v1:  10%|9         | 291/3000 [16:19<1:54:23,  2.53s/it, lr: 1.0e-04 loss: 1.757e-01]strawbyte_v1:  10%|9         | 291/3000 [16:19<1:54:23,  2.53s/it, lr: 1.0e-04 loss: 1.757e-01]strawbyte_v1:  10%|9         | 291/3000 [16:21<1:54:23,  2.53s/it, lr: 1.0e-04 loss: 3.767e-02]strawbyte_v1:  10%|9         | 291/3000 [16:21<1:54:23,  2.53s/it, lr: 1.0e-04 loss: 3.767e-02]strawbyte_v1:  10%|9         | 292/3000 [16:21<1:49:44,  2.43s/it, lr: 1.0e-04 loss: 3.767e-02]strawbyte_v1:  10%|9         | 292/3000 [16:21<1:49:44,  2.43s/it, lr: 1.0e-04 loss: 3.767e-02]strawbyte_v1:  10%|9         | 292/3000 [16:24<1:49:44,  2.43s/it, lr: 1.0e-04 loss: 7.917e-02]strawbyte_v1:  10%|9         | 292/3000 [16:24<1:49:44,  2.43s/it, lr: 1.0e-04 loss: 7.917e-02]strawbyte_v1:  10%|9         | 293/3000 [16:24<1:58:29,  2.63s/it, lr: 1.0e-04 loss: 7.917e-02]strawbyte_v1:  10%|9         | 293/3000 [16:24<1:58:29,  2.63s/it, lr: 1.0e-04 loss: 7.917e-02]strawbyte_v1:  10%|9         | 293/3000 [16:27<1:58:29,  2.63s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  10%|9         | 293/3000 [16:27<1:58:29,  2.63s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  10%|9         | 294/3000 [16:27<2:01:44,  2.70s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  10%|9         | 294/3000 [16:27<2:01:44,  2.70s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  10%|9         | 294/3000 [16:32<2:01:44,  2.70s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  10%|9         | 294/3000 [16:32<2:01:44,  2.70s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  10%|9         | 295/3000 [16:32<2:22:47,  3.17s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  10%|9         | 295/3000 [16:32<2:22:47,  3.17s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  10%|9         | 295/3000 [16:34<2:22:47,  3.17s/it, lr: 1.0e-04 loss: 1.017e-02]strawbyte_v1:  10%|9         | 295/3000 [16:34<2:22:47,  3.17s/it, lr: 1.0e-04 loss: 1.017e-02]strawbyte_v1:  10%|9         | 296/3000 [16:34<2:11:31,  2.92s/it, lr: 1.0e-04 loss: 1.017e-02]strawbyte_v1:  10%|9         | 296/3000 [16:34<2:11:31,  2.92s/it, lr: 1.0e-04 loss: 1.017e-02]strawbyte_v1:  10%|9         | 296/3000 [16:38<2:11:31,  2.92s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  10%|9         | 296/3000 [16:38<2:11:31,  2.92s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  10%|9         | 297/3000 [16:38<2:19:21,  3.09s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  10%|9         | 297/3000 [16:38<2:19:21,  3.09s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  10%|9         | 297/3000 [16:42<2:19:21,  3.09s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  10%|9         | 297/3000 [16:42<2:19:21,  3.09s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  10%|9         | 298/3000 [16:42<2:36:50,  3.48s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  10%|9         | 298/3000 [16:42<2:36:50,  3.48s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  10%|9         | 298/3000 [16:45<2:36:50,  3.48s/it, lr: 1.0e-04 loss: 2.297e-01]strawbyte_v1:  10%|9         | 298/3000 [16:45<2:36:50,  3.48s/it, lr: 1.0e-04 loss: 2.297e-01]strawbyte_v1:  10%|9         | 299/3000 [16:45<2:26:51,  3.26s/it, lr: 1.0e-04 loss: 2.297e-01]strawbyte_v1:  10%|9         | 299/3000 [16:45<2:26:51,  3.26s/it, lr: 1.0e-04 loss: 2.297e-01]strawbyte_v1:  10%|9         | 299/3000 [16:48<2:26:51,  3.26s/it, lr: 1.0e-04 loss: 1.971e-01]strawbyte_v1:  10%|9         | 299/3000 [16:48<2:26:51,  3.26s/it, lr: 1.0e-04 loss: 1.971e-01]strawbyte_v1:  10%|#         | 300/3000 [16:53<2:26:47,  3.26s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  10%|#         | 300/3000 [16:53<2:26:47,  3.26s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  10%|#         | 301/3000 [16:53<2:06:04,  2.80s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  10%|#         | 301/3000 [16:53<2:06:04,  2.80s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  10%|#         | 301/3000 [16:56<2:06:04,  2.80s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  10%|#         | 301/3000 [16:56<2:06:04,  2.80s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  10%|#         | 302/3000 [16:56<2:08:08,  2.85s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  10%|#         | 302/3000 [16:56<2:08:08,  2.85s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  10%|#         | 302/3000 [16:59<2:08:08,  2.85s/it, lr: 1.0e-04 loss: 1.738e-01]strawbyte_v1:  10%|#         | 302/3000 [16:59<2:08:08,  2.85s/it, lr: 1.0e-04 loss: 1.738e-01]strawbyte_v1:  10%|#         | 303/3000 [16:59<2:09:53,  2.89s/it, lr: 1.0e-04 loss: 1.738e-01]strawbyte_v1:  10%|#         | 303/3000 [16:59<2:09:53,  2.89s/it, lr: 1.0e-04 loss: 1.738e-01]strawbyte_v1:  10%|#         | 303/3000 [17:03<2:09:53,  2.89s/it, lr: 1.0e-04 loss: 5.651e-02]strawbyte_v1:  10%|#         | 303/3000 [17:03<2:09:53,  2.89s/it, lr: 1.0e-04 loss: 5.651e-02]strawbyte_v1:  10%|#         | 304/3000 [17:03<2:32:58,  3.40s/it, lr: 1.0e-04 loss: 5.651e-02]strawbyte_v1:  10%|#         | 304/3000 [17:03<2:32:58,  3.40s/it, lr: 1.0e-04 loss: 5.651e-02]strawbyte_v1:  10%|#         | 304/3000 [17:06<2:32:58,  3.40s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  10%|#         | 304/3000 [17:06<2:32:58,  3.40s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  10%|#         | 305/3000 [17:06<2:24:25,  3.22s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  10%|#         | 305/3000 [17:06<2:24:25,  3.22s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  10%|#         | 305/3000 [17:09<2:24:25,  3.22s/it, lr: 1.0e-04 loss: 8.189e-02]strawbyte_v1:  10%|#         | 305/3000 [17:09<2:24:25,  3.22s/it, lr: 1.0e-04 loss: 8.189e-02]strawbyte_v1:  10%|#         | 306/3000 [17:09<2:21:15,  3.15s/it, lr: 1.0e-04 loss: 8.189e-02]strawbyte_v1:  10%|#         | 306/3000 [17:09<2:21:15,  3.15s/it, lr: 1.0e-04 loss: 8.189e-02]strawbyte_v1:  10%|#         | 306/3000 [17:12<2:21:15,  3.15s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  10%|#         | 306/3000 [17:12<2:21:15,  3.15s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  10%|#         | 307/3000 [17:12<2:23:55,  3.21s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  10%|#         | 307/3000 [17:12<2:23:55,  3.21s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  10%|#         | 307/3000 [17:16<2:23:55,  3.21s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  10%|#         | 307/3000 [17:16<2:23:55,  3.21s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  10%|#         | 308/3000 [17:16<2:21:55,  3.16s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  10%|#         | 308/3000 [17:16<2:21:55,  3.16s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  10%|#         | 308/3000 [17:20<2:21:55,  3.16s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  10%|#         | 308/3000 [17:20<2:21:55,  3.16s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  10%|#         | 309/3000 [17:20<2:38:27,  3.53s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  10%|#         | 309/3000 [17:20<2:38:27,  3.53s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  10%|#         | 309/3000 [17:23<2:38:27,  3.53s/it, lr: 1.0e-04 loss: 1.723e-01]strawbyte_v1:  10%|#         | 309/3000 [17:23<2:38:27,  3.53s/it, lr: 1.0e-04 loss: 1.723e-01]strawbyte_v1:  10%|#         | 310/3000 [17:25<2:38:24,  3.53s/it, lr: 1.0e-04 loss: 2.093e-01]strawbyte_v1:  10%|#         | 310/3000 [17:25<2:38:24,  3.53s/it, lr: 1.0e-04 loss: 2.093e-01]strawbyte_v1:  10%|#         | 311/3000 [17:25<1:50:34,  2.47s/it, lr: 1.0e-04 loss: 2.093e-01]strawbyte_v1:  10%|#         | 311/3000 [17:25<1:50:34,  2.47s/it, lr: 1.0e-04 loss: 2.093e-01]strawbyte_v1:  10%|#         | 311/3000 [17:30<1:50:34,  2.47s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  10%|#         | 311/3000 [17:30<1:50:34,  2.47s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  10%|#         | 312/3000 [17:30<2:11:25,  2.93s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  10%|#         | 312/3000 [17:30<2:11:25,  2.93s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  10%|#         | 312/3000 [17:32<2:11:25,  2.93s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  10%|#         | 312/3000 [17:32<2:11:25,  2.93s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  10%|#         | 313/3000 [17:32<2:01:56,  2.72s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  10%|#         | 313/3000 [17:32<2:01:56,  2.72s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  10%|#         | 313/3000 [17:36<2:01:56,  2.72s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  10%|#         | 313/3000 [17:36<2:01:56,  2.72s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  10%|#         | 314/3000 [17:36<2:25:19,  3.25s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  10%|#         | 314/3000 [17:36<2:25:19,  3.25s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  10%|#         | 314/3000 [17:41<2:25:19,  3.25s/it, lr: 1.0e-04 loss: 1.565e-01]strawbyte_v1:  10%|#         | 314/3000 [17:41<2:25:19,  3.25s/it, lr: 1.0e-04 loss: 1.565e-01]strawbyte_v1:  10%|#         | 315/3000 [17:41<2:38:48,  3.55s/it, lr: 1.0e-04 loss: 1.565e-01]strawbyte_v1:  10%|#         | 315/3000 [17:41<2:38:48,  3.55s/it, lr: 1.0e-04 loss: 1.565e-01]strawbyte_v1:  10%|#         | 315/3000 [17:44<2:38:48,  3.55s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  10%|#         | 315/3000 [17:44<2:38:48,  3.55s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  11%|#         | 316/3000 [17:44<2:30:45,  3.37s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  11%|#         | 316/3000 [17:44<2:30:45,  3.37s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  11%|#         | 316/3000 [17:48<2:30:45,  3.37s/it, lr: 1.0e-04 loss: 1.586e-01]strawbyte_v1:  11%|#         | 316/3000 [17:48<2:30:45,  3.37s/it, lr: 1.0e-04 loss: 1.586e-01]strawbyte_v1:  11%|#         | 317/3000 [17:48<2:43:15,  3.65s/it, lr: 1.0e-04 loss: 1.586e-01]strawbyte_v1:  11%|#         | 317/3000 [17:48<2:43:15,  3.65s/it, lr: 1.0e-04 loss: 1.586e-01]strawbyte_v1:  11%|#         | 317/3000 [17:53<2:43:15,  3.65s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  11%|#         | 317/3000 [17:53<2:43:15,  3.65s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  11%|#         | 318/3000 [17:53<2:56:38,  3.95s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  11%|#         | 318/3000 [17:53<2:56:38,  3.95s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  11%|#         | 318/3000 [17:57<2:56:38,  3.95s/it, lr: 1.0e-04 loss: 6.790e-02]strawbyte_v1:  11%|#         | 318/3000 [17:57<2:56:38,  3.95s/it, lr: 1.0e-04 loss: 6.790e-02]strawbyte_v1:  11%|#         | 319/3000 [17:57<3:03:32,  4.11s/it, lr: 1.0e-04 loss: 6.790e-02]strawbyte_v1:  11%|#         | 319/3000 [17:57<3:03:32,  4.11s/it, lr: 1.0e-04 loss: 6.790e-02]strawbyte_v1:  11%|#         | 319/3000 [18:02<3:03:32,  4.11s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  11%|#         | 319/3000 [18:02<3:03:32,  4.11s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  11%|#         | 320/3000 [18:05<3:03:28,  4.11s/it, lr: 1.0e-04 loss: 1.989e-01]strawbyte_v1:  11%|#         | 320/3000 [18:05<3:03:28,  4.11s/it, lr: 1.0e-04 loss: 1.989e-01]strawbyte_v1:  11%|#         | 321/3000 [18:05<2:13:37,  2.99s/it, lr: 1.0e-04 loss: 1.989e-01]strawbyte_v1:  11%|#         | 321/3000 [18:05<2:13:37,  2.99s/it, lr: 1.0e-04 loss: 1.989e-01]strawbyte_v1:  11%|#         | 321/3000 [18:08<2:13:37,  2.99s/it, lr: 1.0e-04 loss: 2.668e-02]strawbyte_v1:  11%|#         | 321/3000 [18:08<2:13:37,  2.99s/it, lr: 1.0e-04 loss: 2.668e-02]strawbyte_v1:  11%|#         | 322/3000 [18:08<2:10:46,  2.93s/it, lr: 1.0e-04 loss: 2.668e-02]strawbyte_v1:  11%|#         | 322/3000 [18:08<2:10:46,  2.93s/it, lr: 1.0e-04 loss: 2.668e-02]strawbyte_v1:  11%|#         | 322/3000 [18:11<2:10:46,  2.93s/it, lr: 1.0e-04 loss: 2.589e-01]strawbyte_v1:  11%|#         | 322/3000 [18:11<2:10:46,  2.93s/it, lr: 1.0e-04 loss: 2.589e-01]strawbyte_v1:  11%|#         | 323/3000 [18:11<2:08:02,  2.87s/it, lr: 1.0e-04 loss: 2.589e-01]strawbyte_v1:  11%|#         | 323/3000 [18:11<2:08:02,  2.87s/it, lr: 1.0e-04 loss: 2.589e-01]strawbyte_v1:  11%|#         | 323/3000 [18:15<2:08:02,  2.87s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  11%|#         | 323/3000 [18:15<2:08:02,  2.87s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  11%|#         | 324/3000 [18:15<2:27:32,  3.31s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  11%|#         | 324/3000 [18:15<2:27:32,  3.31s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  11%|#         | 324/3000 [18:20<2:27:32,  3.31s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  11%|#         | 324/3000 [18:20<2:27:32,  3.31s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  11%|#         | 325/3000 [18:20<2:46:19,  3.73s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  11%|#         | 325/3000 [18:20<2:46:19,  3.73s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  11%|#         | 325/3000 [18:24<2:46:19,  3.73s/it, lr: 1.0e-04 loss: 5.117e-02]strawbyte_v1:  11%|#         | 325/3000 [18:24<2:46:19,  3.73s/it, lr: 1.0e-04 loss: 5.117e-02]strawbyte_v1:  11%|#         | 326/3000 [18:24<2:56:17,  3.96s/it, lr: 1.0e-04 loss: 5.117e-02]strawbyte_v1:  11%|#         | 326/3000 [18:24<2:56:17,  3.96s/it, lr: 1.0e-04 loss: 5.117e-02]strawbyte_v1:  11%|#         | 326/3000 [18:27<2:56:17,  3.96s/it, lr: 1.0e-04 loss: 2.111e-01]strawbyte_v1:  11%|#         | 326/3000 [18:27<2:56:17,  3.96s/it, lr: 1.0e-04 loss: 2.111e-01]strawbyte_v1:  11%|#         | 327/3000 [18:27<2:39:46,  3.59s/it, lr: 1.0e-04 loss: 2.111e-01]strawbyte_v1:  11%|#         | 327/3000 [18:27<2:39:46,  3.59s/it, lr: 1.0e-04 loss: 2.111e-01]strawbyte_v1:  11%|#         | 327/3000 [18:30<2:39:46,  3.59s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  11%|#         | 327/3000 [18:30<2:39:46,  3.59s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  11%|#         | 328/3000 [18:30<2:33:55,  3.46s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  11%|#         | 328/3000 [18:30<2:33:55,  3.46s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  11%|#         | 328/3000 [18:33<2:33:55,  3.46s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  11%|#         | 328/3000 [18:33<2:33:55,  3.46s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  11%|#         | 329/3000 [18:33<2:28:43,  3.34s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  11%|#         | 329/3000 [18:33<2:28:43,  3.34s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  11%|#         | 329/3000 [18:36<2:28:43,  3.34s/it, lr: 1.0e-04 loss: 2.139e-01]strawbyte_v1:  11%|#         | 329/3000 [18:36<2:28:43,  3.34s/it, lr: 1.0e-04 loss: 2.139e-01]strawbyte_v1:  11%|#1        | 330/3000 [18:41<2:28:40,  3.34s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  11%|#1        | 330/3000 [18:41<2:28:40,  3.34s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  11%|#1        | 331/3000 [18:41<2:06:06,  2.83s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  11%|#1        | 331/3000 [18:41<2:06:06,  2.83s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  11%|#1        | 331/3000 [18:45<2:06:06,  2.83s/it, lr: 1.0e-04 loss: 2.977e-02]strawbyte_v1:  11%|#1        | 331/3000 [18:45<2:06:06,  2.83s/it, lr: 1.0e-04 loss: 2.977e-02]strawbyte_v1:  11%|#1        | 332/3000 [18:45<2:25:35,  3.27s/it, lr: 1.0e-04 loss: 2.977e-02]strawbyte_v1:  11%|#1        | 332/3000 [18:45<2:25:35,  3.27s/it, lr: 1.0e-04 loss: 2.977e-02]strawbyte_v1:  11%|#1        | 332/3000 [18:47<2:25:35,  3.27s/it, lr: 1.0e-04 loss: 2.863e-01]strawbyte_v1:  11%|#1        | 332/3000 [18:47<2:25:35,  3.27s/it, lr: 1.0e-04 loss: 2.863e-01]strawbyte_v1:  11%|#1        | 333/3000 [18:47<2:11:48,  2.97s/it, lr: 1.0e-04 loss: 2.863e-01]strawbyte_v1:  11%|#1        | 333/3000 [18:47<2:11:48,  2.97s/it, lr: 1.0e-04 loss: 2.863e-01]strawbyte_v1:  11%|#1        | 333/3000 [18:50<2:11:48,  2.97s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  11%|#1        | 333/3000 [18:50<2:11:48,  2.97s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  11%|#1        | 334/3000 [18:50<2:01:39,  2.74s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  11%|#1        | 334/3000 [18:50<2:01:39,  2.74s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  11%|#1        | 334/3000 [18:52<2:01:39,  2.74s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:  11%|#1        | 334/3000 [18:52<2:01:39,  2.74s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:  11%|#1        | 335/3000 [18:52<1:53:41,  2.56s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:  11%|#1        | 335/3000 [18:52<1:53:41,  2.56s/it, lr: 1.0e-04 loss: 1.862e-01]strawbyte_v1:  11%|#1        | 335/3000 [18:55<1:53:41,  2.56s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  11%|#1        | 335/3000 [18:55<1:53:41,  2.56s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  11%|#1        | 336/3000 [18:55<2:00:44,  2.72s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  11%|#1        | 336/3000 [18:55<2:00:44,  2.72s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  11%|#1        | 336/3000 [18:57<2:00:44,  2.72s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  11%|#1        | 336/3000 [18:57<2:00:44,  2.72s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  11%|#1        | 337/3000 [18:57<1:52:45,  2.54s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  11%|#1        | 337/3000 [18:57<1:52:45,  2.54s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  11%|#1        | 337/3000 [19:01<1:52:45,  2.54s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  11%|#1        | 337/3000 [19:01<1:52:45,  2.54s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  11%|#1        | 338/3000 [19:01<2:16:28,  3.08s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  11%|#1        | 338/3000 [19:01<2:16:28,  3.08s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  11%|#1        | 338/3000 [19:04<2:16:28,  3.08s/it, lr: 1.0e-04 loss: 1.235e-01]strawbyte_v1:  11%|#1        | 338/3000 [19:04<2:16:28,  3.08s/it, lr: 1.0e-04 loss: 1.235e-01]strawbyte_v1:  11%|#1        | 339/3000 [19:04<2:16:15,  3.07s/it, lr: 1.0e-04 loss: 1.235e-01]strawbyte_v1:  11%|#1        | 339/3000 [19:04<2:16:15,  3.07s/it, lr: 1.0e-04 loss: 1.235e-01]strawbyte_v1:  11%|#1        | 339/3000 [19:07<2:16:15,  3.07s/it, lr: 1.0e-04 loss: 2.220e-01]strawbyte_v1:  11%|#1        | 339/3000 [19:07<2:16:15,  3.07s/it, lr: 1.0e-04 loss: 2.220e-01]strawbyte_v1:  11%|#1        | 340/3000 [19:12<2:16:12,  3.07s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  11%|#1        | 340/3000 [19:12<2:16:12,  3.07s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  11%|#1        | 341/3000 [19:12<1:58:20,  2.67s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  11%|#1        | 341/3000 [19:12<1:58:20,  2.67s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  11%|#1        | 341/3000 [19:14<1:58:20,  2.67s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:  11%|#1        | 341/3000 [19:14<1:58:20,  2.67s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:  11%|#1        | 342/3000 [19:14<1:52:12,  2.53s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:  11%|#1        | 342/3000 [19:14<1:52:12,  2.53s/it, lr: 1.0e-04 loss: 1.680e-01]strawbyte_v1:  11%|#1        | 342/3000 [19:19<1:52:12,  2.53s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  11%|#1        | 342/3000 [19:19<1:52:12,  2.53s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  11%|#1        | 343/3000 [19:19<2:17:59,  3.12s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  11%|#1        | 343/3000 [19:19<2:17:59,  3.12s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  11%|#1        | 343/3000 [19:21<2:17:59,  3.12s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  11%|#1        | 343/3000 [19:21<2:17:59,  3.12s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  11%|#1        | 344/3000 [19:21<2:12:57,  3.00s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  11%|#1        | 344/3000 [19:21<2:12:57,  3.00s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  11%|#1        | 344/3000 [19:26<2:12:57,  3.00s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  11%|#1        | 344/3000 [19:26<2:12:57,  3.00s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  12%|#1        | 345/3000 [19:26<2:30:31,  3.40s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  12%|#1        | 345/3000 [19:26<2:30:31,  3.40s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  12%|#1        | 345/3000 [19:29<2:30:31,  3.40s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  12%|#1        | 345/3000 [19:29<2:30:31,  3.40s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  12%|#1        | 346/3000 [19:29<2:29:49,  3.39s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  12%|#1        | 346/3000 [19:29<2:29:49,  3.39s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  12%|#1        | 346/3000 [19:32<2:29:49,  3.39s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  12%|#1        | 346/3000 [19:32<2:29:49,  3.39s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  12%|#1        | 347/3000 [19:32<2:24:58,  3.28s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  12%|#1        | 347/3000 [19:32<2:24:58,  3.28s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  12%|#1        | 347/3000 [19:36<2:24:58,  3.28s/it, lr: 1.0e-04 loss: 1.088e-01]strawbyte_v1:  12%|#1        | 347/3000 [19:36<2:24:58,  3.28s/it, lr: 1.0e-04 loss: 1.088e-01]strawbyte_v1:  12%|#1        | 348/3000 [19:36<2:40:05,  3.62s/it, lr: 1.0e-04 loss: 1.088e-01]strawbyte_v1:  12%|#1        | 348/3000 [19:36<2:40:05,  3.62s/it, lr: 1.0e-04 loss: 1.088e-01]strawbyte_v1:  12%|#1        | 348/3000 [19:40<2:40:05,  3.62s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  12%|#1        | 348/3000 [19:40<2:40:05,  3.62s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  12%|#1        | 349/3000 [19:40<2:32:35,  3.45s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  12%|#1        | 349/3000 [19:40<2:32:35,  3.45s/it, lr: 1.0e-04 loss: 1.526e-01]strawbyte_v1:  12%|#1        | 349/3000 [19:43<2:32:35,  3.45s/it, lr: 1.0e-04 loss: 1.784e-01]strawbyte_v1:  12%|#1        | 349/3000 [19:43<2:32:35,  3.45s/it, lr: 1.0e-04 loss: 1.784e-01]strawbyte_v1:  12%|#1        | 350/3000 [19:47<2:32:32,  3.45s/it, lr: 1.0e-04 loss: 9.858e-02]strawbyte_v1:  12%|#1        | 350/3000 [19:47<2:32:32,  3.45s/it, lr: 1.0e-04 loss: 9.858e-02]strawbyte_v1:  12%|#1        | 351/3000 [19:47<2:07:17,  2.88s/it, lr: 1.0e-04 loss: 9.858e-02]strawbyte_v1:  12%|#1        | 351/3000 [19:47<2:07:17,  2.88s/it, lr: 1.0e-04 loss: 9.858e-02]strawbyte_v1:  12%|#1        | 351/3000 [19:50<2:07:17,  2.88s/it, lr: 1.0e-04 loss: 8.848e-02]strawbyte_v1:  12%|#1        | 351/3000 [19:50<2:07:17,  2.88s/it, lr: 1.0e-04 loss: 8.848e-02]strawbyte_v1:  12%|#1        | 352/3000 [19:50<2:08:46,  2.92s/it, lr: 1.0e-04 loss: 8.848e-02]strawbyte_v1:  12%|#1        | 352/3000 [19:50<2:08:46,  2.92s/it, lr: 1.0e-04 loss: 8.848e-02]strawbyte_v1:  12%|#1        | 352/3000 [19:55<2:08:46,  2.92s/it, lr: 1.0e-04 loss: 1.444e-01]strawbyte_v1:  12%|#1        | 352/3000 [19:55<2:08:46,  2.92s/it, lr: 1.0e-04 loss: 1.444e-01]strawbyte_v1:  12%|#1        | 353/3000 [19:55<2:30:27,  3.41s/it, lr: 1.0e-04 loss: 1.444e-01]strawbyte_v1:  12%|#1        | 353/3000 [19:55<2:30:27,  3.41s/it, lr: 1.0e-04 loss: 1.444e-01]strawbyte_v1:  12%|#1        | 353/3000 [19:59<2:30:27,  3.41s/it, lr: 1.0e-04 loss: 9.438e-02]strawbyte_v1:  12%|#1        | 353/3000 [19:59<2:30:27,  3.41s/it, lr: 1.0e-04 loss: 9.438e-02]strawbyte_v1:  12%|#1        | 354/3000 [19:59<2:42:49,  3.69s/it, lr: 1.0e-04 loss: 9.438e-02]strawbyte_v1:  12%|#1        | 354/3000 [19:59<2:42:49,  3.69s/it, lr: 1.0e-04 loss: 9.438e-02]strawbyte_v1:  12%|#1        | 354/3000 [20:02<2:42:49,  3.69s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  12%|#1        | 354/3000 [20:02<2:42:49,  3.69s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  12%|#1        | 355/3000 [20:02<2:34:46,  3.51s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  12%|#1        | 355/3000 [20:02<2:34:46,  3.51s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  12%|#1        | 355/3000 [20:07<2:34:46,  3.51s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  12%|#1        | 355/3000 [20:07<2:34:46,  3.51s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  12%|#1        | 356/3000 [20:07<2:45:55,  3.77s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  12%|#1        | 356/3000 [20:07<2:45:55,  3.77s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  12%|#1        | 356/3000 [20:11<2:45:55,  3.77s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  12%|#1        | 356/3000 [20:11<2:45:55,  3.77s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  12%|#1        | 357/3000 [20:11<2:56:50,  4.01s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  12%|#1        | 357/3000 [20:11<2:56:50,  4.01s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  12%|#1        | 357/3000 [20:14<2:56:50,  4.01s/it, lr: 1.0e-04 loss: 3.123e-02]strawbyte_v1:  12%|#1        | 357/3000 [20:14<2:56:50,  4.01s/it, lr: 1.0e-04 loss: 3.123e-02]strawbyte_v1:  12%|#1        | 358/3000 [20:14<2:33:28,  3.49s/it, lr: 1.0e-04 loss: 3.123e-02]strawbyte_v1:  12%|#1        | 358/3000 [20:14<2:33:28,  3.49s/it, lr: 1.0e-04 loss: 3.123e-02]strawbyte_v1:  12%|#1        | 358/3000 [20:16<2:33:28,  3.49s/it, lr: 1.0e-04 loss: 2.845e-01]strawbyte_v1:  12%|#1        | 358/3000 [20:16<2:33:28,  3.49s/it, lr: 1.0e-04 loss: 2.845e-01]strawbyte_v1:  12%|#1        | 359/3000 [20:16<2:15:45,  3.08s/it, lr: 1.0e-04 loss: 2.845e-01]strawbyte_v1:  12%|#1        | 359/3000 [20:16<2:15:45,  3.08s/it, lr: 1.0e-04 loss: 2.845e-01]strawbyte_v1:  12%|#1        | 359/3000 [20:19<2:15:45,  3.08s/it, lr: 1.0e-04 loss: 2.171e-01]strawbyte_v1:  12%|#1        | 359/3000 [20:19<2:15:45,  3.08s/it, lr: 1.0e-04 loss: 2.171e-01]strawbyte_v1:  12%|#2        | 360/3000 [20:21<2:15:42,  3.08s/it, lr: 1.0e-04 loss: 2.410e-01]strawbyte_v1:  12%|#2        | 360/3000 [20:21<2:15:42,  3.08s/it, lr: 1.0e-04 loss: 2.410e-01]strawbyte_v1:  12%|#2        | 361/3000 [20:21<1:34:46,  2.15s/it, lr: 1.0e-04 loss: 2.410e-01]strawbyte_v1:  12%|#2        | 361/3000 [20:21<1:34:46,  2.15s/it, lr: 1.0e-04 loss: 2.410e-01]strawbyte_v1:  12%|#2        | 361/3000 [20:23<1:34:46,  2.15s/it, lr: 1.0e-04 loss: 1.915e-01]strawbyte_v1:  12%|#2        | 361/3000 [20:23<1:34:46,  2.15s/it, lr: 1.0e-04 loss: 1.915e-01]strawbyte_v1:  12%|#2        | 362/3000 [20:23<1:34:16,  2.14s/it, lr: 1.0e-04 loss: 1.915e-01]strawbyte_v1:  12%|#2        | 362/3000 [20:23<1:34:16,  2.14s/it, lr: 1.0e-04 loss: 1.915e-01]strawbyte_v1:  12%|#2        | 362/3000 [20:26<1:34:16,  2.14s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  12%|#2        | 362/3000 [20:26<1:34:16,  2.14s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  12%|#2        | 363/3000 [20:26<1:43:12,  2.35s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  12%|#2        | 363/3000 [20:26<1:43:12,  2.35s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  12%|#2        | 363/3000 [20:29<1:43:12,  2.35s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  12%|#2        | 363/3000 [20:29<1:43:12,  2.35s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  12%|#2        | 364/3000 [20:29<1:53:18,  2.58s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  12%|#2        | 364/3000 [20:29<1:53:18,  2.58s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  12%|#2        | 364/3000 [20:33<1:53:18,  2.58s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  12%|#2        | 364/3000 [20:33<1:53:18,  2.58s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  12%|#2        | 365/3000 [20:33<2:15:17,  3.08s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  12%|#2        | 365/3000 [20:33<2:15:17,  3.08s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  12%|#2        | 365/3000 [20:36<2:15:17,  3.08s/it, lr: 1.0e-04 loss: 2.100e-01]strawbyte_v1:  12%|#2        | 365/3000 [20:36<2:15:17,  3.08s/it, lr: 1.0e-04 loss: 2.100e-01]strawbyte_v1:  12%|#2        | 366/3000 [20:36<2:06:13,  2.88s/it, lr: 1.0e-04 loss: 2.100e-01]strawbyte_v1:  12%|#2        | 366/3000 [20:36<2:06:13,  2.88s/it, lr: 1.0e-04 loss: 2.100e-01]strawbyte_v1:  12%|#2        | 366/3000 [20:39<2:06:13,  2.88s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  12%|#2        | 366/3000 [20:39<2:06:13,  2.88s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  12%|#2        | 367/3000 [20:39<2:08:30,  2.93s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  12%|#2        | 367/3000 [20:39<2:08:30,  2.93s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  12%|#2        | 367/3000 [20:42<2:08:30,  2.93s/it, lr: 1.0e-04 loss: 2.255e-01]strawbyte_v1:  12%|#2        | 367/3000 [20:42<2:08:30,  2.93s/it, lr: 1.0e-04 loss: 2.255e-01]strawbyte_v1:  12%|#2        | 368/3000 [20:42<2:10:42,  2.98s/it, lr: 1.0e-04 loss: 2.255e-01]strawbyte_v1:  12%|#2        | 368/3000 [20:42<2:10:42,  2.98s/it, lr: 1.0e-04 loss: 2.255e-01]strawbyte_v1:  12%|#2        | 368/3000 [20:45<2:10:42,  2.98s/it, lr: 1.0e-04 loss: 2.025e-01]strawbyte_v1:  12%|#2        | 368/3000 [20:45<2:10:42,  2.98s/it, lr: 1.0e-04 loss: 2.025e-01]strawbyte_v1:  12%|#2        | 369/3000 [20:45<2:07:13,  2.90s/it, lr: 1.0e-04 loss: 2.025e-01]strawbyte_v1:  12%|#2        | 369/3000 [20:45<2:07:13,  2.90s/it, lr: 1.0e-04 loss: 2.025e-01]strawbyte_v1:  12%|#2        | 369/3000 [20:48<2:07:13,  2.90s/it, lr: 1.0e-04 loss: 2.011e-01]strawbyte_v1:  12%|#2        | 369/3000 [20:48<2:07:13,  2.90s/it, lr: 1.0e-04 loss: 2.011e-01]strawbyte_v1:  12%|#2        | 370/3000 [20:51<2:07:10,  2.90s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:  12%|#2        | 370/3000 [20:51<2:07:10,  2.90s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:  12%|#2        | 371/3000 [20:51<1:40:29,  2.29s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:  12%|#2        | 371/3000 [20:51<1:40:29,  2.29s/it, lr: 1.0e-04 loss: 2.352e-01]strawbyte_v1:  12%|#2        | 371/3000 [20:54<1:40:29,  2.29s/it, lr: 1.0e-04 loss: 2.251e-01]strawbyte_v1:  12%|#2        | 371/3000 [20:54<1:40:29,  2.29s/it, lr: 1.0e-04 loss: 2.251e-01]strawbyte_v1:  12%|#2        | 372/3000 [20:54<1:44:57,  2.40s/it, lr: 1.0e-04 loss: 2.251e-01]strawbyte_v1:  12%|#2        | 372/3000 [20:54<1:44:57,  2.40s/it, lr: 1.0e-04 loss: 2.251e-01]strawbyte_v1:  12%|#2        | 372/3000 [20:57<1:44:57,  2.40s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  12%|#2        | 372/3000 [20:57<1:44:57,  2.40s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  12%|#2        | 373/3000 [20:57<1:51:44,  2.55s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  12%|#2        | 373/3000 [20:57<1:51:44,  2.55s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  12%|#2        | 373/3000 [20:59<1:51:44,  2.55s/it, lr: 1.0e-04 loss: 2.233e-01]strawbyte_v1:  12%|#2        | 373/3000 [20:59<1:51:44,  2.55s/it, lr: 1.0e-04 loss: 2.233e-01]strawbyte_v1:  12%|#2        | 374/3000 [20:59<1:53:49,  2.60s/it, lr: 1.0e-04 loss: 2.233e-01]strawbyte_v1:  12%|#2        | 374/3000 [20:59<1:53:49,  2.60s/it, lr: 1.0e-04 loss: 2.233e-01]strawbyte_v1:  12%|#2        | 374/3000 [21:03<1:53:49,  2.60s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  12%|#2        | 374/3000 [21:03<1:53:49,  2.60s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  12%|#2        | 375/3000 [21:03<2:01:56,  2.79s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  12%|#2        | 375/3000 [21:03<2:01:56,  2.79s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  12%|#2        | 375/3000 [21:07<2:01:56,  2.79s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  12%|#2        | 375/3000 [21:07<2:01:56,  2.79s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  13%|#2        | 376/3000 [21:07<2:22:50,  3.27s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  13%|#2        | 376/3000 [21:07<2:22:50,  3.27s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  13%|#2        | 376/3000 [21:10<2:22:50,  3.27s/it, lr: 1.0e-04 loss: 9.924e-02]strawbyte_v1:  13%|#2        | 376/3000 [21:10<2:22:50,  3.27s/it, lr: 1.0e-04 loss: 9.924e-02]strawbyte_v1:  13%|#2        | 377/3000 [21:10<2:19:48,  3.20s/it, lr: 1.0e-04 loss: 9.924e-02]strawbyte_v1:  13%|#2        | 377/3000 [21:10<2:19:48,  3.20s/it, lr: 1.0e-04 loss: 9.924e-02]strawbyte_v1:  13%|#2        | 377/3000 [21:15<2:19:48,  3.20s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  13%|#2        | 377/3000 [21:15<2:19:48,  3.20s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  13%|#2        | 378/3000 [21:15<2:40:46,  3.68s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  13%|#2        | 378/3000 [21:15<2:40:46,  3.68s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  13%|#2        | 378/3000 [21:19<2:40:46,  3.68s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  13%|#2        | 378/3000 [21:19<2:40:46,  3.68s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  13%|#2        | 379/3000 [21:19<2:50:29,  3.90s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  13%|#2        | 379/3000 [21:19<2:50:29,  3.90s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  13%|#2        | 379/3000 [21:22<2:50:29,  3.90s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  13%|#2        | 379/3000 [21:22<2:50:29,  3.90s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  13%|#2        | 380/3000 [21:26<2:50:26,  3.90s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  13%|#2        | 380/3000 [21:26<2:50:26,  3.90s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  13%|#2        | 381/3000 [21:26<2:16:22,  3.12s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  13%|#2        | 381/3000 [21:26<2:16:22,  3.12s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  13%|#2        | 381/3000 [21:31<2:16:22,  3.12s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  13%|#2        | 381/3000 [21:31<2:16:22,  3.12s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  13%|#2        | 382/3000 [21:31<2:32:42,  3.50s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  13%|#2        | 382/3000 [21:31<2:32:42,  3.50s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  13%|#2        | 382/3000 [21:34<2:32:42,  3.50s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  13%|#2        | 382/3000 [21:34<2:32:42,  3.50s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  13%|#2        | 383/3000 [21:34<2:25:36,  3.34s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  13%|#2        | 383/3000 [21:34<2:25:36,  3.34s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  13%|#2        | 383/3000 [21:37<2:25:36,  3.34s/it, lr: 1.0e-04 loss: 1.804e-01]strawbyte_v1:  13%|#2        | 383/3000 [21:37<2:25:36,  3.34s/it, lr: 1.0e-04 loss: 1.804e-01]strawbyte_v1:  13%|#2        | 384/3000 [21:37<2:21:05,  3.24s/it, lr: 1.0e-04 loss: 1.804e-01]strawbyte_v1:  13%|#2        | 384/3000 [21:37<2:21:05,  3.24s/it, lr: 1.0e-04 loss: 1.804e-01]strawbyte_v1:  13%|#2        | 384/3000 [21:40<2:21:05,  3.24s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  13%|#2        | 384/3000 [21:40<2:21:05,  3.24s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  13%|#2        | 385/3000 [21:40<2:20:09,  3.22s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  13%|#2        | 385/3000 [21:40<2:20:09,  3.22s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  13%|#2        | 385/3000 [21:42<2:20:09,  3.22s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  13%|#2        | 385/3000 [21:42<2:20:09,  3.22s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  13%|#2        | 386/3000 [21:42<2:06:27,  2.90s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  13%|#2        | 386/3000 [21:42<2:06:27,  2.90s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  13%|#2        | 386/3000 [21:44<2:06:27,  2.90s/it, lr: 1.0e-04 loss: 2.582e-01]strawbyte_v1:  13%|#2        | 386/3000 [21:44<2:06:27,  2.90s/it, lr: 1.0e-04 loss: 2.582e-01]strawbyte_v1:  13%|#2        | 387/3000 [21:44<1:55:58,  2.66s/it, lr: 1.0e-04 loss: 2.582e-01]strawbyte_v1:  13%|#2        | 387/3000 [21:44<1:55:58,  2.66s/it, lr: 1.0e-04 loss: 2.582e-01]strawbyte_v1:  13%|#2        | 387/3000 [21:46<1:55:58,  2.66s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  13%|#2        | 387/3000 [21:46<1:55:58,  2.66s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  13%|#2        | 388/3000 [21:46<1:48:31,  2.49s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  13%|#2        | 388/3000 [21:46<1:48:31,  2.49s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  13%|#2        | 388/3000 [21:49<1:48:31,  2.49s/it, lr: 1.0e-04 loss: 2.274e-01]strawbyte_v1:  13%|#2        | 388/3000 [21:49<1:48:31,  2.49s/it, lr: 1.0e-04 loss: 2.274e-01]strawbyte_v1:  13%|#2        | 389/3000 [21:49<1:47:48,  2.48s/it, lr: 1.0e-04 loss: 2.274e-01]strawbyte_v1:  13%|#2        | 389/3000 [21:49<1:47:48,  2.48s/it, lr: 1.0e-04 loss: 2.274e-01]strawbyte_v1:  13%|#2        | 389/3000 [21:51<1:47:48,  2.48s/it, lr: 1.0e-04 loss: 2.176e-01]strawbyte_v1:  13%|#2        | 389/3000 [21:51<1:47:48,  2.48s/it, lr: 1.0e-04 loss: 2.176e-01]strawbyte_v1:  13%|#3        | 390/3000 [21:54<1:47:46,  2.48s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  13%|#3        | 390/3000 [21:54<1:47:46,  2.48s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  13%|#3        | 391/3000 [21:54<1:27:06,  2.00s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  13%|#3        | 391/3000 [21:54<1:27:06,  2.00s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  13%|#3        | 391/3000 [21:57<1:27:06,  2.00s/it, lr: 1.0e-04 loss: 1.646e-02]strawbyte_v1:  13%|#3        | 391/3000 [21:57<1:27:06,  2.00s/it, lr: 1.0e-04 loss: 1.646e-02]strawbyte_v1:  13%|#3        | 392/3000 [21:57<1:36:42,  2.23s/it, lr: 1.0e-04 loss: 1.646e-02]strawbyte_v1:  13%|#3        | 392/3000 [21:57<1:36:42,  2.23s/it, lr: 1.0e-04 loss: 1.646e-02]strawbyte_v1:  13%|#3        | 392/3000 [22:02<1:36:42,  2.23s/it, lr: 1.0e-04 loss: 5.857e-02]strawbyte_v1:  13%|#3        | 392/3000 [22:02<1:36:42,  2.23s/it, lr: 1.0e-04 loss: 5.857e-02]strawbyte_v1:  13%|#3        | 393/3000 [22:02<2:06:54,  2.92s/it, lr: 1.0e-04 loss: 5.857e-02]strawbyte_v1:  13%|#3        | 393/3000 [22:02<2:06:54,  2.92s/it, lr: 1.0e-04 loss: 5.857e-02]strawbyte_v1:  13%|#3        | 393/3000 [22:04<2:06:54,  2.92s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  13%|#3        | 393/3000 [22:04<2:06:54,  2.92s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  13%|#3        | 394/3000 [22:04<2:03:51,  2.85s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  13%|#3        | 394/3000 [22:04<2:03:51,  2.85s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  13%|#3        | 394/3000 [22:07<2:03:51,  2.85s/it, lr: 1.0e-04 loss: 2.143e-01]strawbyte_v1:  13%|#3        | 394/3000 [22:07<2:03:51,  2.85s/it, lr: 1.0e-04 loss: 2.143e-01]strawbyte_v1:  13%|#3        | 395/3000 [22:07<2:02:04,  2.81s/it, lr: 1.0e-04 loss: 2.143e-01]strawbyte_v1:  13%|#3        | 395/3000 [22:07<2:02:04,  2.81s/it, lr: 1.0e-04 loss: 2.143e-01]strawbyte_v1:  13%|#3        | 395/3000 [22:11<2:02:04,  2.81s/it, lr: 1.0e-04 loss: 2.412e-01]strawbyte_v1:  13%|#3        | 395/3000 [22:11<2:02:04,  2.81s/it, lr: 1.0e-04 loss: 2.412e-01]strawbyte_v1:  13%|#3        | 396/3000 [22:11<2:10:02,  3.00s/it, lr: 1.0e-04 loss: 2.412e-01]strawbyte_v1:  13%|#3        | 396/3000 [22:11<2:10:02,  3.00s/it, lr: 1.0e-04 loss: 2.412e-01]strawbyte_v1:  13%|#3        | 396/3000 [22:14<2:10:02,  3.00s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  13%|#3        | 396/3000 [22:14<2:10:02,  3.00s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  13%|#3        | 397/3000 [22:14<2:10:08,  3.00s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  13%|#3        | 397/3000 [22:14<2:10:08,  3.00s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  13%|#3        | 397/3000 [22:18<2:10:08,  3.00s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  13%|#3        | 397/3000 [22:18<2:10:08,  3.00s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  13%|#3        | 398/3000 [22:18<2:28:12,  3.42s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  13%|#3        | 398/3000 [22:18<2:28:12,  3.42s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  13%|#3        | 398/3000 [22:23<2:28:12,  3.42s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  13%|#3        | 398/3000 [22:23<2:28:12,  3.42s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  13%|#3        | 399/3000 [22:23<2:41:14,  3.72s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  13%|#3        | 399/3000 [22:23<2:41:14,  3.72s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  13%|#3        | 399/3000 [22:27<2:41:14,  3.72s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  13%|#3        | 399/3000 [22:27<2:41:14,  3.72s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  13%|#3        | 400/3000 [22:32<2:41:10,  3.72s/it, lr: 1.0e-04 loss: 6.679e-02]strawbyte_v1:  13%|#3        | 400/3000 [22:32<2:41:10,  3.72s/it, lr: 1.0e-04 loss: 6.679e-02]strawbyte_v1:  13%|#3        | 401/3000 [22:32<2:11:48,  3.04s/it, lr: 1.0e-04 loss: 6.679e-02]strawbyte_v1:  13%|#3        | 401/3000 [22:32<2:11:48,  3.04s/it, lr: 1.0e-04 loss: 6.679e-02]strawbyte_v1:  13%|#3        | 401/3000 [22:35<2:11:48,  3.04s/it, lr: 1.0e-04 loss: 2.031e-01]strawbyte_v1:  13%|#3        | 401/3000 [22:35<2:11:48,  3.04s/it, lr: 1.0e-04 loss: 2.031e-01]strawbyte_v1:  13%|#3        | 402/3000 [22:35<2:08:09,  2.96s/it, lr: 1.0e-04 loss: 2.031e-01]strawbyte_v1:  13%|#3        | 402/3000 [22:35<2:08:09,  2.96s/it, lr: 1.0e-04 loss: 2.031e-01]strawbyte_v1:  13%|#3        | 402/3000 [22:39<2:08:09,  2.96s/it, lr: 1.0e-04 loss: 1.264e-01]strawbyte_v1:  13%|#3        | 402/3000 [22:39<2:08:09,  2.96s/it, lr: 1.0e-04 loss: 1.264e-01]strawbyte_v1:  13%|#3        | 403/3000 [22:39<2:28:08,  3.42s/it, lr: 1.0e-04 loss: 1.264e-01]strawbyte_v1:  13%|#3        | 403/3000 [22:39<2:28:08,  3.42s/it, lr: 1.0e-04 loss: 1.264e-01]strawbyte_v1:  13%|#3        | 403/3000 [22:44<2:28:08,  3.42s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  13%|#3        | 403/3000 [22:44<2:28:08,  3.42s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  13%|#3        | 404/3000 [22:44<2:40:01,  3.70s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  13%|#3        | 404/3000 [22:44<2:40:01,  3.70s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  13%|#3        | 404/3000 [22:48<2:40:01,  3.70s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  13%|#3        | 404/3000 [22:48<2:40:01,  3.70s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  14%|#3        | 405/3000 [22:48<2:48:03,  3.89s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  14%|#3        | 405/3000 [22:48<2:48:03,  3.89s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  14%|#3        | 405/3000 [22:53<2:48:03,  3.89s/it, lr: 1.0e-04 loss: 3.629e-02]strawbyte_v1:  14%|#3        | 405/3000 [22:53<2:48:03,  3.89s/it, lr: 1.0e-04 loss: 3.629e-02]strawbyte_v1:  14%|#3        | 406/3000 [22:53<2:54:28,  4.04s/it, lr: 1.0e-04 loss: 3.629e-02]strawbyte_v1:  14%|#3        | 406/3000 [22:53<2:54:28,  4.04s/it, lr: 1.0e-04 loss: 3.629e-02]strawbyte_v1:  14%|#3        | 406/3000 [22:57<2:54:28,  4.04s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  14%|#3        | 406/3000 [22:57<2:54:28,  4.04s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  14%|#3        | 407/3000 [22:57<3:02:43,  4.23s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  14%|#3        | 407/3000 [22:57<3:02:43,  4.23s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  14%|#3        | 407/3000 [23:00<3:02:43,  4.23s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  14%|#3        | 407/3000 [23:00<3:02:43,  4.23s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  14%|#3        | 408/3000 [23:00<2:46:18,  3.85s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  14%|#3        | 408/3000 [23:00<2:46:18,  3.85s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  14%|#3        | 408/3000 [23:02<2:46:18,  3.85s/it, lr: 1.0e-04 loss: 2.397e-01]strawbyte_v1:  14%|#3        | 408/3000 [23:02<2:46:18,  3.85s/it, lr: 1.0e-04 loss: 2.397e-01]strawbyte_v1:  14%|#3        | 409/3000 [23:02<2:24:00,  3.33s/it, lr: 1.0e-04 loss: 2.397e-01]strawbyte_v1:  14%|#3        | 409/3000 [23:02<2:24:00,  3.33s/it, lr: 1.0e-04 loss: 2.397e-01]strawbyte_v1:  14%|#3        | 409/3000 [23:05<2:24:00,  3.33s/it, lr: 1.0e-04 loss: 1.885e-01]strawbyte_v1:  14%|#3        | 409/3000 [23:05<2:24:00,  3.33s/it, lr: 1.0e-04 loss: 1.885e-01]strawbyte_v1:  14%|#3        | 410/3000 [23:08<2:23:56,  3.33s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  14%|#3        | 410/3000 [23:08<2:23:56,  3.33s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  14%|#3        | 411/3000 [23:08<1:46:41,  2.47s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  14%|#3        | 411/3000 [23:08<1:46:41,  2.47s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  14%|#3        | 411/3000 [23:10<1:46:41,  2.47s/it, lr: 1.0e-04 loss: 9.445e-02]strawbyte_v1:  14%|#3        | 411/3000 [23:10<1:46:41,  2.47s/it, lr: 1.0e-04 loss: 9.445e-02]strawbyte_v1:  14%|#3        | 412/3000 [23:10<1:42:50,  2.38s/it, lr: 1.0e-04 loss: 9.445e-02]strawbyte_v1:  14%|#3        | 412/3000 [23:10<1:42:50,  2.38s/it, lr: 1.0e-04 loss: 9.445e-02]strawbyte_v1:  14%|#3        | 412/3000 [23:14<1:42:50,  2.38s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  14%|#3        | 412/3000 [23:14<1:42:50,  2.38s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  14%|#3        | 413/3000 [23:14<2:05:14,  2.90s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  14%|#3        | 413/3000 [23:14<2:05:14,  2.90s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  14%|#3        | 413/3000 [23:19<2:05:14,  2.90s/it, lr: 1.0e-04 loss: 9.722e-02]strawbyte_v1:  14%|#3        | 413/3000 [23:19<2:05:14,  2.90s/it, lr: 1.0e-04 loss: 9.722e-02]strawbyte_v1:  14%|#3        | 414/3000 [23:19<2:24:55,  3.36s/it, lr: 1.0e-04 loss: 9.722e-02]strawbyte_v1:  14%|#3        | 414/3000 [23:19<2:24:55,  3.36s/it, lr: 1.0e-04 loss: 9.722e-02]strawbyte_v1:  14%|#3        | 414/3000 [23:21<2:24:55,  3.36s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  14%|#3        | 414/3000 [23:21<2:24:55,  3.36s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  14%|#3        | 415/3000 [23:21<2:16:59,  3.18s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  14%|#3        | 415/3000 [23:21<2:16:59,  3.18s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  14%|#3        | 415/3000 [23:24<2:16:59,  3.18s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  14%|#3        | 415/3000 [23:24<2:16:59,  3.18s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  14%|#3        | 416/3000 [23:24<2:15:05,  3.14s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  14%|#3        | 416/3000 [23:24<2:15:05,  3.14s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  14%|#3        | 416/3000 [23:28<2:15:05,  3.14s/it, lr: 1.0e-04 loss: 1.038e-01]strawbyte_v1:  14%|#3        | 416/3000 [23:28<2:15:05,  3.14s/it, lr: 1.0e-04 loss: 1.038e-01]strawbyte_v1:  14%|#3        | 417/3000 [23:28<2:16:56,  3.18s/it, lr: 1.0e-04 loss: 1.038e-01]strawbyte_v1:  14%|#3        | 417/3000 [23:28<2:16:56,  3.18s/it, lr: 1.0e-04 loss: 1.038e-01]strawbyte_v1:  14%|#3        | 417/3000 [23:31<2:16:56,  3.18s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  14%|#3        | 417/3000 [23:31<2:16:56,  3.18s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  14%|#3        | 418/3000 [23:31<2:15:07,  3.14s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  14%|#3        | 418/3000 [23:31<2:15:07,  3.14s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  14%|#3        | 418/3000 [23:34<2:15:07,  3.14s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  14%|#3        | 418/3000 [23:34<2:15:07,  3.14s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  14%|#3        | 419/3000 [23:34<2:11:01,  3.05s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  14%|#3        | 419/3000 [23:34<2:11:01,  3.05s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  14%|#3        | 419/3000 [23:37<2:11:01,  3.05s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  14%|#3        | 419/3000 [23:37<2:11:01,  3.05s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  14%|#4        | 420/3000 [23:40<2:10:58,  3.05s/it, lr: 1.0e-04 loss: 1.806e-01]strawbyte_v1:  14%|#4        | 420/3000 [23:40<2:10:58,  3.05s/it, lr: 1.0e-04 loss: 1.806e-01]strawbyte_v1:  14%|#4        | 421/3000 [23:40<1:42:34,  2.39s/it, lr: 1.0e-04 loss: 1.806e-01]strawbyte_v1:  14%|#4        | 421/3000 [23:40<1:42:34,  2.39s/it, lr: 1.0e-04 loss: 1.806e-01]strawbyte_v1:  14%|#4        | 421/3000 [23:44<1:42:34,  2.39s/it, lr: 1.0e-04 loss: 1.459e-01]strawbyte_v1:  14%|#4        | 421/3000 [23:44<1:42:34,  2.39s/it, lr: 1.0e-04 loss: 1.459e-01]strawbyte_v1:  14%|#4        | 422/3000 [23:44<2:03:52,  2.88s/it, lr: 1.0e-04 loss: 1.459e-01]strawbyte_v1:  14%|#4        | 422/3000 [23:44<2:03:52,  2.88s/it, lr: 1.0e-04 loss: 1.459e-01]strawbyte_v1:  14%|#4        | 422/3000 [23:47<2:03:52,  2.88s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  14%|#4        | 422/3000 [23:47<2:03:52,  2.88s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  14%|#4        | 423/3000 [23:47<2:04:48,  2.91s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  14%|#4        | 423/3000 [23:47<2:04:48,  2.91s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  14%|#4        | 423/3000 [23:50<2:04:48,  2.91s/it, lr: 1.0e-04 loss: 2.379e-01]strawbyte_v1:  14%|#4        | 423/3000 [23:50<2:04:48,  2.91s/it, lr: 1.0e-04 loss: 2.379e-01]strawbyte_v1:  14%|#4        | 424/3000 [23:50<2:07:03,  2.96s/it, lr: 1.0e-04 loss: 2.379e-01]strawbyte_v1:  14%|#4        | 424/3000 [23:50<2:07:03,  2.96s/it, lr: 1.0e-04 loss: 2.379e-01]strawbyte_v1:  14%|#4        | 424/3000 [23:53<2:07:03,  2.96s/it, lr: 1.0e-04 loss: 9.466e-02]strawbyte_v1:  14%|#4        | 424/3000 [23:53<2:07:03,  2.96s/it, lr: 1.0e-04 loss: 9.466e-02]strawbyte_v1:  14%|#4        | 425/3000 [23:53<2:07:45,  2.98s/it, lr: 1.0e-04 loss: 9.466e-02]strawbyte_v1:  14%|#4        | 425/3000 [23:53<2:07:45,  2.98s/it, lr: 1.0e-04 loss: 9.466e-02]strawbyte_v1:  14%|#4        | 425/3000 [23:58<2:07:45,  2.98s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  14%|#4        | 425/3000 [23:58<2:07:45,  2.98s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  14%|#4        | 426/3000 [23:58<2:25:59,  3.40s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  14%|#4        | 426/3000 [23:58<2:25:59,  3.40s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  14%|#4        | 426/3000 [24:02<2:25:59,  3.40s/it, lr: 1.0e-04 loss: 9.233e-02]strawbyte_v1:  14%|#4        | 426/3000 [24:02<2:25:59,  3.40s/it, lr: 1.0e-04 loss: 9.233e-02]strawbyte_v1:  14%|#4        | 427/3000 [24:02<2:38:26,  3.69s/it, lr: 1.0e-04 loss: 9.233e-02]strawbyte_v1:  14%|#4        | 427/3000 [24:02<2:38:26,  3.69s/it, lr: 1.0e-04 loss: 9.233e-02]strawbyte_v1:  14%|#4        | 427/3000 [24:05<2:38:26,  3.69s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  14%|#4        | 427/3000 [24:05<2:38:26,  3.69s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  14%|#4        | 428/3000 [24:05<2:32:52,  3.57s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  14%|#4        | 428/3000 [24:05<2:32:52,  3.57s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  14%|#4        | 428/3000 [24:08<2:32:52,  3.57s/it, lr: 1.0e-04 loss: 9.511e-02]strawbyte_v1:  14%|#4        | 428/3000 [24:08<2:32:52,  3.57s/it, lr: 1.0e-04 loss: 9.511e-02]strawbyte_v1:  14%|#4        | 429/3000 [24:08<2:25:37,  3.40s/it, lr: 1.0e-04 loss: 9.511e-02]strawbyte_v1:  14%|#4        | 429/3000 [24:08<2:25:37,  3.40s/it, lr: 1.0e-04 loss: 9.511e-02]strawbyte_v1:  14%|#4        | 429/3000 [24:11<2:25:37,  3.40s/it, lr: 1.0e-04 loss: 1.319e-01]strawbyte_v1:  14%|#4        | 429/3000 [24:11<2:25:37,  3.40s/it, lr: 1.0e-04 loss: 1.319e-01]strawbyte_v1:  14%|#4        | 430/3000 [24:16<2:25:33,  3.40s/it, lr: 1.0e-04 loss: 8.870e-02]strawbyte_v1:  14%|#4        | 430/3000 [24:16<2:25:33,  3.40s/it, lr: 1.0e-04 loss: 8.870e-02]strawbyte_v1:  14%|#4        | 431/3000 [24:16<2:05:56,  2.94s/it, lr: 1.0e-04 loss: 8.870e-02]strawbyte_v1:  14%|#4        | 431/3000 [24:16<2:05:56,  2.94s/it, lr: 1.0e-04 loss: 8.870e-02]strawbyte_v1:  14%|#4        | 431/3000 [24:21<2:05:56,  2.94s/it, lr: 1.0e-04 loss: 1.523e-01]strawbyte_v1:  14%|#4        | 431/3000 [24:21<2:05:56,  2.94s/it, lr: 1.0e-04 loss: 1.523e-01]strawbyte_v1:  14%|#4        | 432/3000 [24:21<2:22:06,  3.32s/it, lr: 1.0e-04 loss: 1.523e-01]strawbyte_v1:  14%|#4        | 432/3000 [24:21<2:22:06,  3.32s/it, lr: 1.0e-04 loss: 1.523e-01]strawbyte_v1:  14%|#4        | 432/3000 [24:24<2:22:06,  3.32s/it, lr: 1.0e-04 loss: 1.612e-01]strawbyte_v1:  14%|#4        | 432/3000 [24:24<2:22:06,  3.32s/it, lr: 1.0e-04 loss: 1.612e-01]strawbyte_v1:  14%|#4        | 433/3000 [24:24<2:19:05,  3.25s/it, lr: 1.0e-04 loss: 1.612e-01]strawbyte_v1:  14%|#4        | 433/3000 [24:24<2:19:05,  3.25s/it, lr: 1.0e-04 loss: 1.612e-01]strawbyte_v1:  14%|#4        | 433/3000 [24:27<2:19:05,  3.25s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  14%|#4        | 433/3000 [24:27<2:19:05,  3.25s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  14%|#4        | 434/3000 [24:27<2:13:06,  3.11s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  14%|#4        | 434/3000 [24:27<2:13:06,  3.11s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  14%|#4        | 434/3000 [24:31<2:13:06,  3.11s/it, lr: 1.0e-04 loss: 1.729e-01]strawbyte_v1:  14%|#4        | 434/3000 [24:31<2:13:06,  3.11s/it, lr: 1.0e-04 loss: 1.729e-01]strawbyte_v1:  14%|#4        | 435/3000 [24:31<2:33:42,  3.60s/it, lr: 1.0e-04 loss: 1.729e-01]strawbyte_v1:  14%|#4        | 435/3000 [24:31<2:33:42,  3.60s/it, lr: 1.0e-04 loss: 1.729e-01]strawbyte_v1:  14%|#4        | 435/3000 [24:34<2:33:42,  3.60s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  14%|#4        | 435/3000 [24:34<2:33:42,  3.60s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  15%|#4        | 436/3000 [24:34<2:23:03,  3.35s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  15%|#4        | 436/3000 [24:34<2:23:03,  3.35s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  15%|#4        | 436/3000 [24:37<2:23:03,  3.35s/it, lr: 1.0e-04 loss: 1.898e-01]strawbyte_v1:  15%|#4        | 436/3000 [24:37<2:23:03,  3.35s/it, lr: 1.0e-04 loss: 1.898e-01]strawbyte_v1:  15%|#4        | 437/3000 [24:37<2:15:28,  3.17s/it, lr: 1.0e-04 loss: 1.898e-01]strawbyte_v1:  15%|#4        | 437/3000 [24:37<2:15:28,  3.17s/it, lr: 1.0e-04 loss: 1.898e-01]strawbyte_v1:  15%|#4        | 437/3000 [24:40<2:15:28,  3.17s/it, lr: 1.0e-04 loss: 1.855e-01]strawbyte_v1:  15%|#4        | 437/3000 [24:40<2:15:28,  3.17s/it, lr: 1.0e-04 loss: 1.855e-01]strawbyte_v1:  15%|#4        | 438/3000 [24:40<2:09:57,  3.04s/it, lr: 1.0e-04 loss: 1.855e-01]strawbyte_v1:  15%|#4        | 438/3000 [24:40<2:09:57,  3.04s/it, lr: 1.0e-04 loss: 1.855e-01]strawbyte_v1:  15%|#4        | 438/3000 [24:43<2:09:57,  3.04s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  15%|#4        | 438/3000 [24:43<2:09:57,  3.04s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  15%|#4        | 439/3000 [24:43<2:10:21,  3.05s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  15%|#4        | 439/3000 [24:43<2:10:21,  3.05s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  15%|#4        | 439/3000 [24:47<2:10:21,  3.05s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  15%|#4        | 439/3000 [24:47<2:10:21,  3.05s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  15%|#4        | 440/3000 [24:50<2:10:18,  3.05s/it, lr: 1.0e-04 loss: 2.293e-01]strawbyte_v1:  15%|#4        | 440/3000 [24:50<2:10:18,  3.05s/it, lr: 1.0e-04 loss: 2.293e-01]strawbyte_v1:  15%|#4        | 441/3000 [24:50<1:37:38,  2.29s/it, lr: 1.0e-04 loss: 2.293e-01]strawbyte_v1:  15%|#4        | 441/3000 [24:50<1:37:38,  2.29s/it, lr: 1.0e-04 loss: 2.293e-01]strawbyte_v1:  15%|#4        | 441/3000 [24:53<1:37:38,  2.29s/it, lr: 1.0e-04 loss: 1.793e-01]strawbyte_v1:  15%|#4        | 441/3000 [24:53<1:37:38,  2.29s/it, lr: 1.0e-04 loss: 1.793e-01]strawbyte_v1:  15%|#4        | 442/3000 [24:53<1:48:40,  2.55s/it, lr: 1.0e-04 loss: 1.793e-01]strawbyte_v1:  15%|#4        | 442/3000 [24:53<1:48:40,  2.55s/it, lr: 1.0e-04 loss: 1.793e-01]strawbyte_v1:  15%|#4        | 442/3000 [24:56<1:48:40,  2.55s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  15%|#4        | 442/3000 [24:56<1:48:40,  2.55s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  15%|#4        | 443/3000 [24:56<1:52:32,  2.64s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  15%|#4        | 443/3000 [24:56<1:52:32,  2.64s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  15%|#4        | 443/3000 [24:59<1:52:32,  2.64s/it, lr: 1.0e-04 loss: 1.870e-01]strawbyte_v1:  15%|#4        | 443/3000 [24:59<1:52:32,  2.64s/it, lr: 1.0e-04 loss: 1.870e-01]strawbyte_v1:  15%|#4        | 444/3000 [24:59<1:55:30,  2.71s/it, lr: 1.0e-04 loss: 1.870e-01]strawbyte_v1:  15%|#4        | 444/3000 [24:59<1:55:30,  2.71s/it, lr: 1.0e-04 loss: 1.870e-01]strawbyte_v1:  15%|#4        | 444/3000 [25:03<1:55:30,  2.71s/it, lr: 1.0e-04 loss: 9.867e-02]strawbyte_v1:  15%|#4        | 444/3000 [25:03<1:55:30,  2.71s/it, lr: 1.0e-04 loss: 9.867e-02]strawbyte_v1:  15%|#4        | 445/3000 [25:03<2:15:18,  3.18s/it, lr: 1.0e-04 loss: 9.867e-02]strawbyte_v1:  15%|#4        | 445/3000 [25:03<2:15:18,  3.18s/it, lr: 1.0e-04 loss: 9.867e-02]strawbyte_v1:  15%|#4        | 445/3000 [25:07<2:15:18,  3.18s/it, lr: 1.0e-04 loss: 2.862e-02]strawbyte_v1:  15%|#4        | 445/3000 [25:07<2:15:18,  3.18s/it, lr: 1.0e-04 loss: 2.862e-02]strawbyte_v1:  15%|#4        | 446/3000 [25:07<2:14:27,  3.16s/it, lr: 1.0e-04 loss: 2.862e-02]strawbyte_v1:  15%|#4        | 446/3000 [25:07<2:14:27,  3.16s/it, lr: 1.0e-04 loss: 2.862e-02]strawbyte_v1:  15%|#4        | 446/3000 [25:09<2:14:27,  3.16s/it, lr: 1.0e-04 loss: 1.999e-01]strawbyte_v1:  15%|#4        | 446/3000 [25:09<2:14:27,  3.16s/it, lr: 1.0e-04 loss: 1.999e-01]strawbyte_v1:  15%|#4        | 447/3000 [25:09<2:10:51,  3.08s/it, lr: 1.0e-04 loss: 1.999e-01]strawbyte_v1:  15%|#4        | 447/3000 [25:09<2:10:51,  3.08s/it, lr: 1.0e-04 loss: 1.999e-01]strawbyte_v1:  15%|#4        | 447/3000 [25:12<2:10:51,  3.08s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  15%|#4        | 447/3000 [25:12<2:10:51,  3.08s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  15%|#4        | 448/3000 [25:12<2:09:05,  3.03s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  15%|#4        | 448/3000 [25:12<2:09:05,  3.03s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  15%|#4        | 448/3000 [25:15<2:09:05,  3.03s/it, lr: 1.0e-04 loss: 2.674e-01]strawbyte_v1:  15%|#4        | 448/3000 [25:15<2:09:05,  3.03s/it, lr: 1.0e-04 loss: 2.674e-01]strawbyte_v1:  15%|#4        | 449/3000 [25:15<2:00:45,  2.84s/it, lr: 1.0e-04 loss: 2.674e-01]strawbyte_v1:  15%|#4        | 449/3000 [25:15<2:00:45,  2.84s/it, lr: 1.0e-04 loss: 2.674e-01]strawbyte_v1:  15%|#4        | 449/3000 [25:17<2:00:45,  2.84s/it, lr: 1.0e-04 loss: 7.290e-02]strawbyte_v1:  15%|#4        | 449/3000 [25:17<2:00:45,  2.84s/it, lr: 1.0e-04 loss: 7.290e-02]strawbyte_v1:  15%|#5        | 450/3000 [25:20<2:00:43,  2.84s/it, lr: 1.0e-04 loss: 6.279e-02]strawbyte_v1:  15%|#5        | 450/3000 [25:20<2:00:43,  2.84s/it, lr: 1.0e-04 loss: 6.279e-02]strawbyte_v1:  15%|#5        | 451/3000 [25:20<1:33:36,  2.20s/it, lr: 1.0e-04 loss: 6.279e-02]strawbyte_v1:  15%|#5        | 451/3000 [25:20<1:33:36,  2.20s/it, lr: 1.0e-04 loss: 6.279e-02]strawbyte_v1:  15%|#5        | 451/3000 [25:23<1:33:36,  2.20s/it, lr: 1.0e-04 loss: 2.063e-01]strawbyte_v1:  15%|#5        | 451/3000 [25:23<1:33:36,  2.20s/it, lr: 1.0e-04 loss: 2.063e-01]strawbyte_v1:  15%|#5        | 452/3000 [25:23<1:40:31,  2.37s/it, lr: 1.0e-04 loss: 2.063e-01]strawbyte_v1:  15%|#5        | 452/3000 [25:23<1:40:31,  2.37s/it, lr: 1.0e-04 loss: 2.063e-01]strawbyte_v1:  15%|#5        | 452/3000 [25:27<1:40:31,  2.37s/it, lr: 1.0e-04 loss: 1.538e-02]strawbyte_v1:  15%|#5        | 452/3000 [25:27<1:40:31,  2.37s/it, lr: 1.0e-04 loss: 1.538e-02]strawbyte_v1:  15%|#5        | 453/3000 [25:27<2:04:59,  2.94s/it, lr: 1.0e-04 loss: 1.538e-02]strawbyte_v1:  15%|#5        | 453/3000 [25:27<2:04:59,  2.94s/it, lr: 1.0e-04 loss: 1.538e-02]strawbyte_v1:  15%|#5        | 453/3000 [25:30<2:04:59,  2.94s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  15%|#5        | 453/3000 [25:30<2:04:59,  2.94s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  15%|#5        | 454/3000 [25:30<2:04:00,  2.92s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  15%|#5        | 454/3000 [25:30<2:04:00,  2.92s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  15%|#5        | 454/3000 [25:33<2:04:00,  2.92s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  15%|#5        | 454/3000 [25:33<2:04:00,  2.92s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  15%|#5        | 455/3000 [25:33<2:05:08,  2.95s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  15%|#5        | 455/3000 [25:33<2:05:08,  2.95s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  15%|#5        | 455/3000 [25:36<2:05:08,  2.95s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  15%|#5        | 455/3000 [25:36<2:05:08,  2.95s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  15%|#5        | 456/3000 [25:36<2:07:27,  3.01s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  15%|#5        | 456/3000 [25:36<2:07:27,  3.01s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  15%|#5        | 456/3000 [25:39<2:07:27,  3.01s/it, lr: 1.0e-04 loss: 2.271e-01]strawbyte_v1:  15%|#5        | 456/3000 [25:39<2:07:27,  3.01s/it, lr: 1.0e-04 loss: 2.271e-01]strawbyte_v1:  15%|#5        | 457/3000 [25:39<2:04:09,  2.93s/it, lr: 1.0e-04 loss: 2.271e-01]strawbyte_v1:  15%|#5        | 457/3000 [25:39<2:04:09,  2.93s/it, lr: 1.0e-04 loss: 2.271e-01]strawbyte_v1:  15%|#5        | 457/3000 [25:43<2:04:09,  2.93s/it, lr: 1.0e-04 loss: 3.997e-02]strawbyte_v1:  15%|#5        | 457/3000 [25:43<2:04:09,  2.93s/it, lr: 1.0e-04 loss: 3.997e-02]strawbyte_v1:  15%|#5        | 458/3000 [25:43<2:22:40,  3.37s/it, lr: 1.0e-04 loss: 3.997e-02]strawbyte_v1:  15%|#5        | 458/3000 [25:43<2:22:40,  3.37s/it, lr: 1.0e-04 loss: 3.997e-02]strawbyte_v1:  15%|#5        | 458/3000 [25:46<2:22:40,  3.37s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:  15%|#5        | 458/3000 [25:46<2:22:40,  3.37s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:  15%|#5        | 459/3000 [25:46<2:15:13,  3.19s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:  15%|#5        | 459/3000 [25:46<2:15:13,  3.19s/it, lr: 1.0e-04 loss: 1.739e-01]strawbyte_v1:  15%|#5        | 459/3000 [25:49<2:15:13,  3.19s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  15%|#5        | 459/3000 [25:49<2:15:13,  3.19s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  15%|#5        | 460/3000 [25:52<2:15:10,  3.19s/it, lr: 1.0e-04 loss: 7.900e-02]strawbyte_v1:  15%|#5        | 460/3000 [25:52<2:15:10,  3.19s/it, lr: 1.0e-04 loss: 7.900e-02]strawbyte_v1:  15%|#5        | 461/3000 [25:52<1:42:14,  2.42s/it, lr: 1.0e-04 loss: 7.900e-02]strawbyte_v1:  15%|#5        | 461/3000 [25:52<1:42:14,  2.42s/it, lr: 1.0e-04 loss: 7.900e-02]strawbyte_v1:  15%|#5        | 461/3000 [25:55<1:42:14,  2.42s/it, lr: 1.0e-04 loss: 2.750e-01]strawbyte_v1:  15%|#5        | 461/3000 [25:55<1:42:14,  2.42s/it, lr: 1.0e-04 loss: 2.750e-01]strawbyte_v1:  15%|#5        | 462/3000 [25:55<1:45:58,  2.51s/it, lr: 1.0e-04 loss: 2.750e-01]strawbyte_v1:  15%|#5        | 462/3000 [25:55<1:45:58,  2.51s/it, lr: 1.0e-04 loss: 2.750e-01]strawbyte_v1:  15%|#5        | 462/3000 [25:59<1:45:58,  2.51s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  15%|#5        | 462/3000 [25:59<1:45:58,  2.51s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  15%|#5        | 463/3000 [25:59<2:06:47,  3.00s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  15%|#5        | 463/3000 [25:59<2:06:47,  3.00s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  15%|#5        | 463/3000 [26:03<2:06:47,  3.00s/it, lr: 1.0e-04 loss: 2.458e-01]strawbyte_v1:  15%|#5        | 463/3000 [26:03<2:06:47,  3.00s/it, lr: 1.0e-04 loss: 2.458e-01]strawbyte_v1:  15%|#5        | 464/3000 [26:03<2:07:55,  3.03s/it, lr: 1.0e-04 loss: 2.458e-01]strawbyte_v1:  15%|#5        | 464/3000 [26:03<2:07:55,  3.03s/it, lr: 1.0e-04 loss: 2.458e-01]strawbyte_v1:  15%|#5        | 464/3000 [26:05<2:07:55,  3.03s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  15%|#5        | 464/3000 [26:05<2:07:55,  3.03s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  16%|#5        | 465/3000 [26:05<2:04:29,  2.95s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  16%|#5        | 465/3000 [26:05<2:04:29,  2.95s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  16%|#5        | 465/3000 [26:08<2:04:29,  2.95s/it, lr: 1.0e-04 loss: 1.999e-02]strawbyte_v1:  16%|#5        | 465/3000 [26:08<2:04:29,  2.95s/it, lr: 1.0e-04 loss: 1.999e-02]strawbyte_v1:  16%|#5        | 466/3000 [26:08<2:01:58,  2.89s/it, lr: 1.0e-04 loss: 1.999e-02]strawbyte_v1:  16%|#5        | 466/3000 [26:08<2:01:58,  2.89s/it, lr: 1.0e-04 loss: 1.999e-02]strawbyte_v1:  16%|#5        | 466/3000 [26:11<2:01:58,  2.89s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  16%|#5        | 466/3000 [26:11<2:01:58,  2.89s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  16%|#5        | 467/3000 [26:11<2:04:59,  2.96s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  16%|#5        | 467/3000 [26:11<2:04:59,  2.96s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  16%|#5        | 467/3000 [26:16<2:04:59,  2.96s/it, lr: 1.0e-04 loss: 3.964e-02]strawbyte_v1:  16%|#5        | 467/3000 [26:16<2:04:59,  2.96s/it, lr: 1.0e-04 loss: 3.964e-02]strawbyte_v1:  16%|#5        | 468/3000 [26:16<2:23:12,  3.39s/it, lr: 1.0e-04 loss: 3.964e-02]strawbyte_v1:  16%|#5        | 468/3000 [26:16<2:23:12,  3.39s/it, lr: 1.0e-04 loss: 3.964e-02]strawbyte_v1:  16%|#5        | 468/3000 [26:18<2:23:12,  3.39s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  16%|#5        | 468/3000 [26:18<2:23:12,  3.39s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  16%|#5        | 469/3000 [26:18<2:07:04,  3.01s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  16%|#5        | 469/3000 [26:18<2:07:04,  3.01s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  16%|#5        | 469/3000 [26:21<2:07:04,  3.01s/it, lr: 1.0e-04 loss: 1.495e-01]strawbyte_v1:  16%|#5        | 469/3000 [26:21<2:07:04,  3.01s/it, lr: 1.0e-04 loss: 1.495e-01]strawbyte_v1:  16%|#5        | 470/3000 [26:23<2:07:01,  3.01s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  16%|#5        | 470/3000 [26:23<2:07:01,  3.01s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  16%|#5        | 471/3000 [26:23<1:31:59,  2.18s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  16%|#5        | 471/3000 [26:23<1:31:59,  2.18s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  16%|#5        | 471/3000 [26:27<1:31:59,  2.18s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  16%|#5        | 471/3000 [26:27<1:31:59,  2.18s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  16%|#5        | 472/3000 [26:27<1:53:52,  2.70s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  16%|#5        | 472/3000 [26:27<1:53:52,  2.70s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  16%|#5        | 472/3000 [26:29<1:53:52,  2.70s/it, lr: 1.0e-04 loss: 2.332e-01]strawbyte_v1:  16%|#5        | 472/3000 [26:29<1:53:52,  2.70s/it, lr: 1.0e-04 loss: 2.332e-01]strawbyte_v1:  16%|#5        | 473/3000 [26:29<1:47:12,  2.55s/it, lr: 1.0e-04 loss: 2.332e-01]strawbyte_v1:  16%|#5        | 473/3000 [26:29<1:47:12,  2.55s/it, lr: 1.0e-04 loss: 2.332e-01]strawbyte_v1:  16%|#5        | 473/3000 [26:34<1:47:12,  2.55s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  16%|#5        | 473/3000 [26:34<1:47:12,  2.55s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  16%|#5        | 474/3000 [26:34<2:10:23,  3.10s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  16%|#5        | 474/3000 [26:34<2:10:23,  3.10s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  16%|#5        | 474/3000 [26:36<2:10:23,  3.10s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  16%|#5        | 474/3000 [26:36<2:10:23,  3.10s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  16%|#5        | 475/3000 [26:36<1:58:20,  2.81s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  16%|#5        | 475/3000 [26:36<1:58:20,  2.81s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  16%|#5        | 475/3000 [26:40<1:58:20,  2.81s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  16%|#5        | 475/3000 [26:40<1:58:20,  2.81s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  16%|#5        | 476/3000 [26:40<2:17:00,  3.26s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  16%|#5        | 476/3000 [26:40<2:17:00,  3.26s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  16%|#5        | 476/3000 [26:45<2:17:00,  3.26s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  16%|#5        | 476/3000 [26:45<2:17:00,  3.26s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  16%|#5        | 477/3000 [26:45<2:29:46,  3.56s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  16%|#5        | 477/3000 [26:45<2:29:46,  3.56s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  16%|#5        | 477/3000 [26:48<2:29:46,  3.56s/it, lr: 1.0e-04 loss: 1.661e-01]strawbyte_v1:  16%|#5        | 477/3000 [26:48<2:29:46,  3.56s/it, lr: 1.0e-04 loss: 1.661e-01]strawbyte_v1:  16%|#5        | 478/3000 [26:48<2:24:55,  3.45s/it, lr: 1.0e-04 loss: 1.661e-01]strawbyte_v1:  16%|#5        | 478/3000 [26:48<2:24:55,  3.45s/it, lr: 1.0e-04 loss: 1.661e-01]strawbyte_v1:  16%|#5        | 478/3000 [26:51<2:24:55,  3.45s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  16%|#5        | 478/3000 [26:51<2:24:55,  3.45s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  16%|#5        | 479/3000 [26:51<2:19:55,  3.33s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  16%|#5        | 479/3000 [26:51<2:19:55,  3.33s/it, lr: 1.0e-04 loss: 1.451e-01]strawbyte_v1:  16%|#5        | 479/3000 [26:55<2:19:55,  3.33s/it, lr: 1.0e-04 loss: 1.483e-01]strawbyte_v1:  16%|#5        | 479/3000 [26:55<2:19:55,  3.33s/it, lr: 1.0e-04 loss: 1.483e-01]strawbyte_v1:  16%|#6        | 480/3000 [27:00<2:19:52,  3.33s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  16%|#6        | 480/3000 [27:00<2:19:52,  3.33s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  16%|#6        | 481/3000 [27:00<2:01:42,  2.90s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  16%|#6        | 481/3000 [27:00<2:01:42,  2.90s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  16%|#6        | 481/3000 [27:05<2:01:42,  2.90s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  16%|#6        | 481/3000 [27:05<2:01:42,  2.90s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  16%|#6        | 482/3000 [27:05<2:17:43,  3.28s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  16%|#6        | 482/3000 [27:05<2:17:43,  3.28s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  16%|#6        | 482/3000 [27:08<2:17:43,  3.28s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  16%|#6        | 482/3000 [27:08<2:17:43,  3.28s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  16%|#6        | 483/3000 [27:08<2:15:11,  3.22s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  16%|#6        | 483/3000 [27:08<2:15:11,  3.22s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  16%|#6        | 483/3000 [27:11<2:15:11,  3.22s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  16%|#6        | 483/3000 [27:11<2:15:11,  3.22s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  16%|#6        | 484/3000 [27:11<2:13:08,  3.18s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  16%|#6        | 484/3000 [27:11<2:13:08,  3.18s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  16%|#6        | 484/3000 [27:14<2:13:08,  3.18s/it, lr: 1.0e-04 loss: 4.188e-02]strawbyte_v1:  16%|#6        | 484/3000 [27:14<2:13:08,  3.18s/it, lr: 1.0e-04 loss: 4.188e-02]strawbyte_v1:  16%|#6        | 485/3000 [27:14<2:12:46,  3.17s/it, lr: 1.0e-04 loss: 4.188e-02]strawbyte_v1:  16%|#6        | 485/3000 [27:14<2:12:46,  3.17s/it, lr: 1.0e-04 loss: 4.188e-02]strawbyte_v1:  16%|#6        | 485/3000 [27:17<2:12:46,  3.17s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  16%|#6        | 485/3000 [27:17<2:12:46,  3.17s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  16%|#6        | 486/3000 [27:17<2:10:36,  3.12s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  16%|#6        | 486/3000 [27:17<2:10:36,  3.12s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  16%|#6        | 486/3000 [27:20<2:10:36,  3.12s/it, lr: 1.0e-04 loss: 2.172e-01]strawbyte_v1:  16%|#6        | 486/3000 [27:20<2:10:36,  3.12s/it, lr: 1.0e-04 loss: 2.172e-01]strawbyte_v1:  16%|#6        | 487/3000 [27:20<2:06:09,  3.01s/it, lr: 1.0e-04 loss: 2.172e-01]strawbyte_v1:  16%|#6        | 487/3000 [27:20<2:06:09,  3.01s/it, lr: 1.0e-04 loss: 2.172e-01]strawbyte_v1:  16%|#6        | 487/3000 [27:23<2:06:09,  3.01s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:  16%|#6        | 487/3000 [27:23<2:06:09,  3.01s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:  16%|#6        | 488/3000 [27:23<2:10:28,  3.12s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:  16%|#6        | 488/3000 [27:23<2:10:28,  3.12s/it, lr: 1.0e-04 loss: 1.640e-01]strawbyte_v1:  16%|#6        | 488/3000 [27:27<2:10:28,  3.12s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  16%|#6        | 488/3000 [27:27<2:10:28,  3.12s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  16%|#6        | 489/3000 [27:27<2:26:30,  3.50s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  16%|#6        | 489/3000 [27:27<2:26:30,  3.50s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  16%|#6        | 489/3000 [27:30<2:26:30,  3.50s/it, lr: 1.0e-04 loss: 2.204e-01]strawbyte_v1:  16%|#6        | 489/3000 [27:30<2:26:30,  3.50s/it, lr: 1.0e-04 loss: 2.204e-01]strawbyte_v1:  16%|#6        | 490/3000 [27:35<2:26:27,  3.50s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  16%|#6        | 490/3000 [27:35<2:26:27,  3.50s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  16%|#6        | 491/3000 [27:35<2:02:30,  2.93s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  16%|#6        | 491/3000 [27:35<2:02:30,  2.93s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  16%|#6        | 491/3000 [27:38<2:02:30,  2.93s/it, lr: 1.0e-04 loss: 2.197e-01]strawbyte_v1:  16%|#6        | 491/3000 [27:38<2:02:30,  2.93s/it, lr: 1.0e-04 loss: 2.197e-01]strawbyte_v1:  16%|#6        | 492/3000 [27:38<2:04:36,  2.98s/it, lr: 1.0e-04 loss: 2.197e-01]strawbyte_v1:  16%|#6        | 492/3000 [27:38<2:04:36,  2.98s/it, lr: 1.0e-04 loss: 2.197e-01]strawbyte_v1:  16%|#6        | 492/3000 [27:41<2:04:36,  2.98s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  16%|#6        | 492/3000 [27:41<2:04:36,  2.98s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  16%|#6        | 493/3000 [27:41<2:03:44,  2.96s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  16%|#6        | 493/3000 [27:41<2:03:44,  2.96s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  16%|#6        | 493/3000 [27:45<2:03:44,  2.96s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  16%|#6        | 493/3000 [27:45<2:03:44,  2.96s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  16%|#6        | 494/3000 [27:45<2:19:44,  3.35s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  16%|#6        | 494/3000 [27:45<2:19:44,  3.35s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  16%|#6        | 494/3000 [27:49<2:19:44,  3.35s/it, lr: 1.0e-04 loss: 1.485e-01]strawbyte_v1:  16%|#6        | 494/3000 [27:49<2:19:44,  3.35s/it, lr: 1.0e-04 loss: 1.485e-01]strawbyte_v1:  16%|#6        | 495/3000 [27:49<2:18:59,  3.33s/it, lr: 1.0e-04 loss: 1.485e-01]strawbyte_v1:  16%|#6        | 495/3000 [27:49<2:18:59,  3.33s/it, lr: 1.0e-04 loss: 1.485e-01]strawbyte_v1:  16%|#6        | 495/3000 [27:53<2:18:59,  3.33s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  16%|#6        | 495/3000 [27:53<2:18:59,  3.33s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  17%|#6        | 496/3000 [27:53<2:30:26,  3.60s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  17%|#6        | 496/3000 [27:53<2:30:26,  3.60s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  17%|#6        | 496/3000 [27:56<2:30:26,  3.60s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  17%|#6        | 496/3000 [27:56<2:30:26,  3.60s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  17%|#6        | 497/3000 [27:56<2:21:34,  3.39s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  17%|#6        | 497/3000 [27:56<2:21:34,  3.39s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  17%|#6        | 497/3000 [27:58<2:21:34,  3.39s/it, lr: 1.0e-04 loss: 2.121e-01]strawbyte_v1:  17%|#6        | 497/3000 [27:58<2:21:34,  3.39s/it, lr: 1.0e-04 loss: 2.121e-01]strawbyte_v1:  17%|#6        | 498/3000 [27:58<2:05:42,  3.01s/it, lr: 1.0e-04 loss: 2.121e-01]strawbyte_v1:  17%|#6        | 498/3000 [27:58<2:05:42,  3.01s/it, lr: 1.0e-04 loss: 2.121e-01]strawbyte_v1:  17%|#6        | 498/3000 [28:00<2:05:42,  3.01s/it, lr: 1.0e-04 loss: 4.685e-02]strawbyte_v1:  17%|#6        | 498/3000 [28:00<2:05:42,  3.01s/it, lr: 1.0e-04 loss: 4.685e-02]strawbyte_v1:  17%|#6        | 499/3000 [28:00<1:58:00,  2.83s/it, lr: 1.0e-04 loss: 4.685e-02]strawbyte_v1:  17%|#6        | 499/3000 [28:00<1:58:00,  2.83s/it, lr: 1.0e-04 loss: 4.685e-02]strawbyte_v1:  17%|#6        | 499/3000 [28:05<1:58:00,  2.83s/it, lr: 1.0e-04 loss: 9.552e-02]strawbyte_v1:  17%|#6        | 499/3000 [28:05<1:58:00,  2.83s/it, lr: 1.0e-04 loss: 9.552e-02]
+Saving at step 500
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000000500.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.84s/it]Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.84s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:28<02:29, 74.61s/it]Generating Images:  50%|#####     | 2/4 [02:28<02:29, 74.61s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.16s/it]Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.16s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.20s/it]Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.20s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  17%|#6        | 500/3000 [28:08<1:57:57,  2.83s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  17%|#6        | 500/3000 [28:08<1:57:57,  2.83s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  17%|#6        | 501/3000 [28:08<1:36:23,  2.31s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  17%|#6        | 501/3000 [28:08<1:36:23,  2.31s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  17%|#6        | 501/3000 [28:11<1:36:23,  2.31s/it, lr: 1.0e-04 loss: 2.275e-01]strawbyte_v1:  17%|#6        | 501/3000 [28:11<1:36:23,  2.31s/it, lr: 1.0e-04 loss: 2.275e-01]strawbyte_v1:  17%|#6        | 502/3000 [28:11<1:40:40,  2.42s/it, lr: 1.0e-04 loss: 2.275e-01]strawbyte_v1:  17%|#6        | 502/3000 [28:11<1:40:40,  2.42s/it, lr: 1.0e-04 loss: 2.275e-01]strawbyte_v1:  17%|#6        | 502/3000 [28:15<1:40:40,  2.42s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  17%|#6        | 502/3000 [28:15<1:40:40,  2.42s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  17%|#6        | 503/3000 [28:15<2:02:34,  2.95s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  17%|#6        | 503/3000 [28:15<2:02:34,  2.95s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  17%|#6        | 503/3000 [28:20<2:02:34,  2.95s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  17%|#6        | 503/3000 [28:20<2:02:34,  2.95s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  17%|#6        | 504/3000 [28:20<2:22:52,  3.43s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  17%|#6        | 504/3000 [28:20<2:22:52,  3.43s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  17%|#6        | 504/3000 [28:24<2:22:52,  3.43s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  17%|#6        | 504/3000 [28:24<2:22:52,  3.43s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  17%|#6        | 505/3000 [28:24<2:32:52,  3.68s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  17%|#6        | 505/3000 [28:24<2:32:52,  3.68s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  17%|#6        | 505/3000 [28:27<2:32:52,  3.68s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  17%|#6        | 505/3000 [28:27<2:32:52,  3.68s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  17%|#6        | 506/3000 [28:27<2:25:33,  3.50s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  17%|#6        | 506/3000 [28:27<2:25:33,  3.50s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  17%|#6        | 506/3000 [28:32<2:25:33,  3.50s/it, lr: 1.0e-04 loss: 9.313e-02]strawbyte_v1:  17%|#6        | 506/3000 [28:32<2:25:33,  3.50s/it, lr: 1.0e-04 loss: 9.313e-02]strawbyte_v1:  17%|#6        | 507/3000 [28:32<2:39:59,  3.85s/it, lr: 1.0e-04 loss: 9.313e-02]strawbyte_v1:  17%|#6        | 507/3000 [28:32<2:39:59,  3.85s/it, lr: 1.0e-04 loss: 9.313e-02]strawbyte_v1:  17%|#6        | 507/3000 [28:36<2:39:59,  3.85s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  17%|#6        | 507/3000 [28:36<2:39:59,  3.85s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  17%|#6        | 508/3000 [28:36<2:46:57,  4.02s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  17%|#6        | 508/3000 [28:36<2:46:57,  4.02s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  17%|#6        | 508/3000 [28:41<2:46:57,  4.02s/it, lr: 1.0e-04 loss: 9.427e-02]strawbyte_v1:  17%|#6        | 508/3000 [28:41<2:46:57,  4.02s/it, lr: 1.0e-04 loss: 9.427e-02]strawbyte_v1:  17%|#6        | 509/3000 [28:41<2:52:19,  4.15s/it, lr: 1.0e-04 loss: 9.427e-02]strawbyte_v1:  17%|#6        | 509/3000 [28:41<2:52:19,  4.15s/it, lr: 1.0e-04 loss: 9.427e-02]strawbyte_v1:  17%|#6        | 509/3000 [28:44<2:52:19,  4.15s/it, lr: 1.0e-04 loss: 2.541e-01]strawbyte_v1:  17%|#6        | 509/3000 [28:44<2:52:19,  4.15s/it, lr: 1.0e-04 loss: 2.541e-01]strawbyte_v1:  17%|#7        | 510/3000 [28:48<2:52:15,  4.15s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  17%|#7        | 510/3000 [28:48<2:52:15,  4.15s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  17%|#7        | 511/3000 [28:48<2:16:55,  3.30s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  17%|#7        | 511/3000 [28:48<2:16:55,  3.30s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  17%|#7        | 511/3000 [28:52<2:16:55,  3.30s/it, lr: 1.0e-04 loss: 4.581e-02]strawbyte_v1:  17%|#7        | 511/3000 [28:52<2:16:55,  3.30s/it, lr: 1.0e-04 loss: 4.581e-02]strawbyte_v1:  17%|#7        | 512/3000 [28:52<2:27:42,  3.56s/it, lr: 1.0e-04 loss: 4.581e-02]strawbyte_v1:  17%|#7        | 512/3000 [28:52<2:27:42,  3.56s/it, lr: 1.0e-04 loss: 4.581e-02]strawbyte_v1:  17%|#7        | 512/3000 [28:55<2:27:42,  3.56s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  17%|#7        | 512/3000 [28:55<2:27:42,  3.56s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  17%|#7        | 513/3000 [28:55<2:11:50,  3.18s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  17%|#7        | 513/3000 [28:55<2:11:50,  3.18s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  17%|#7        | 513/3000 [28:57<2:11:50,  3.18s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  17%|#7        | 513/3000 [28:57<2:11:50,  3.18s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  17%|#7        | 514/3000 [28:57<2:08:36,  3.10s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  17%|#7        | 514/3000 [28:57<2:08:36,  3.10s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  17%|#7        | 514/3000 [29:01<2:08:36,  3.10s/it, lr: 1.0e-04 loss: 2.259e-01]strawbyte_v1:  17%|#7        | 514/3000 [29:01<2:08:36,  3.10s/it, lr: 1.0e-04 loss: 2.259e-01]strawbyte_v1:  17%|#7        | 515/3000 [29:01<2:09:28,  3.13s/it, lr: 1.0e-04 loss: 2.259e-01]strawbyte_v1:  17%|#7        | 515/3000 [29:01<2:09:28,  3.13s/it, lr: 1.0e-04 loss: 2.259e-01]strawbyte_v1:  17%|#7        | 515/3000 [29:05<2:09:28,  3.13s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  17%|#7        | 515/3000 [29:05<2:09:28,  3.13s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  17%|#7        | 516/3000 [29:05<2:23:57,  3.48s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  17%|#7        | 516/3000 [29:05<2:23:57,  3.48s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  17%|#7        | 516/3000 [29:08<2:23:57,  3.48s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  17%|#7        | 516/3000 [29:08<2:23:57,  3.48s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  17%|#7        | 517/3000 [29:08<2:17:31,  3.32s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  17%|#7        | 517/3000 [29:08<2:17:31,  3.32s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  17%|#7        | 517/3000 [29:12<2:17:31,  3.32s/it, lr: 1.0e-04 loss: 1.542e-01]strawbyte_v1:  17%|#7        | 517/3000 [29:12<2:17:31,  3.32s/it, lr: 1.0e-04 loss: 1.542e-01]strawbyte_v1:  17%|#7        | 518/3000 [29:12<2:31:52,  3.67s/it, lr: 1.0e-04 loss: 1.542e-01]strawbyte_v1:  17%|#7        | 518/3000 [29:12<2:31:52,  3.67s/it, lr: 1.0e-04 loss: 1.542e-01]strawbyte_v1:  17%|#7        | 518/3000 [29:17<2:31:52,  3.67s/it, lr: 1.0e-04 loss: 1.443e-01]strawbyte_v1:  17%|#7        | 518/3000 [29:17<2:31:52,  3.67s/it, lr: 1.0e-04 loss: 1.443e-01]strawbyte_v1:  17%|#7        | 519/3000 [29:17<2:41:07,  3.90s/it, lr: 1.0e-04 loss: 1.443e-01]strawbyte_v1:  17%|#7        | 519/3000 [29:17<2:41:07,  3.90s/it, lr: 1.0e-04 loss: 1.443e-01]strawbyte_v1:  17%|#7        | 519/3000 [29:21<2:41:07,  3.90s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  17%|#7        | 519/3000 [29:21<2:41:07,  3.90s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  17%|#7        | 520/3000 [29:24<2:41:03,  3.90s/it, lr: 1.0e-04 loss: 2.186e-01]strawbyte_v1:  17%|#7        | 520/3000 [29:24<2:41:03,  3.90s/it, lr: 1.0e-04 loss: 2.186e-01]strawbyte_v1:  17%|#7        | 521/3000 [29:24<1:52:55,  2.73s/it, lr: 1.0e-04 loss: 2.186e-01]strawbyte_v1:  17%|#7        | 521/3000 [29:24<1:52:55,  2.73s/it, lr: 1.0e-04 loss: 2.186e-01]strawbyte_v1:  17%|#7        | 521/3000 [29:27<1:52:55,  2.73s/it, lr: 1.0e-04 loss: 1.800e-01]strawbyte_v1:  17%|#7        | 521/3000 [29:27<1:52:55,  2.73s/it, lr: 1.0e-04 loss: 1.800e-01]strawbyte_v1:  17%|#7        | 522/3000 [29:27<1:59:17,  2.89s/it, lr: 1.0e-04 loss: 1.800e-01]strawbyte_v1:  17%|#7        | 522/3000 [29:27<1:59:17,  2.89s/it, lr: 1.0e-04 loss: 1.800e-01]strawbyte_v1:  17%|#7        | 522/3000 [29:32<1:59:17,  2.89s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  17%|#7        | 522/3000 [29:32<1:59:17,  2.89s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  17%|#7        | 523/3000 [29:32<2:16:27,  3.31s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  17%|#7        | 523/3000 [29:32<2:16:27,  3.31s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  17%|#7        | 523/3000 [29:36<2:16:27,  3.31s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  17%|#7        | 523/3000 [29:36<2:16:27,  3.31s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  17%|#7        | 524/3000 [29:36<2:27:37,  3.58s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  17%|#7        | 524/3000 [29:36<2:27:37,  3.58s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  17%|#7        | 524/3000 [29:41<2:27:37,  3.58s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  17%|#7        | 524/3000 [29:41<2:27:37,  3.58s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  18%|#7        | 525/3000 [29:41<2:40:36,  3.89s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  18%|#7        | 525/3000 [29:41<2:40:36,  3.89s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  18%|#7        | 525/3000 [29:44<2:40:36,  3.89s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  18%|#7        | 525/3000 [29:44<2:40:36,  3.89s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  18%|#7        | 526/3000 [29:44<2:30:11,  3.64s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  18%|#7        | 526/3000 [29:44<2:30:11,  3.64s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  18%|#7        | 526/3000 [29:47<2:30:11,  3.64s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  18%|#7        | 526/3000 [29:47<2:30:11,  3.64s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  18%|#7        | 527/3000 [29:47<2:18:50,  3.37s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  18%|#7        | 527/3000 [29:47<2:18:50,  3.37s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  18%|#7        | 527/3000 [29:50<2:18:50,  3.37s/it, lr: 1.0e-04 loss: 1.333e-01]strawbyte_v1:  18%|#7        | 527/3000 [29:50<2:18:50,  3.37s/it, lr: 1.0e-04 loss: 1.333e-01]strawbyte_v1:  18%|#7        | 528/3000 [29:50<2:14:07,  3.26s/it, lr: 1.0e-04 loss: 1.333e-01]strawbyte_v1:  18%|#7        | 528/3000 [29:50<2:14:07,  3.26s/it, lr: 1.0e-04 loss: 1.333e-01]strawbyte_v1:  18%|#7        | 528/3000 [29:53<2:14:07,  3.26s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:  18%|#7        | 528/3000 [29:53<2:14:07,  3.26s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:  18%|#7        | 529/3000 [29:53<2:11:32,  3.19s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:  18%|#7        | 529/3000 [29:53<2:11:32,  3.19s/it, lr: 1.0e-04 loss: 2.247e-01]strawbyte_v1:  18%|#7        | 529/3000 [29:55<2:11:32,  3.19s/it, lr: 1.0e-04 loss: 7.280e-02]strawbyte_v1:  18%|#7        | 529/3000 [29:55<2:11:32,  3.19s/it, lr: 1.0e-04 loss: 7.280e-02]strawbyte_v1:  18%|#7        | 530/3000 [29:58<2:11:29,  3.19s/it, lr: 1.0e-04 loss: 9.087e-02]strawbyte_v1:  18%|#7        | 530/3000 [29:58<2:11:29,  3.19s/it, lr: 1.0e-04 loss: 9.087e-02]strawbyte_v1:  18%|#7        | 531/3000 [29:58<1:39:35,  2.42s/it, lr: 1.0e-04 loss: 9.087e-02]strawbyte_v1:  18%|#7        | 531/3000 [29:58<1:39:35,  2.42s/it, lr: 1.0e-04 loss: 9.087e-02]strawbyte_v1:  18%|#7        | 531/3000 [30:01<1:39:35,  2.42s/it, lr: 1.0e-04 loss: 2.508e-01]strawbyte_v1:  18%|#7        | 531/3000 [30:01<1:39:35,  2.42s/it, lr: 1.0e-04 loss: 2.508e-01]strawbyte_v1:  18%|#7        | 532/3000 [30:01<1:45:50,  2.57s/it, lr: 1.0e-04 loss: 2.508e-01]strawbyte_v1:  18%|#7        | 532/3000 [30:01<1:45:50,  2.57s/it, lr: 1.0e-04 loss: 2.508e-01]strawbyte_v1:  18%|#7        | 532/3000 [30:04<1:45:50,  2.57s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  18%|#7        | 532/3000 [30:04<1:45:50,  2.57s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  18%|#7        | 533/3000 [30:04<1:49:41,  2.67s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  18%|#7        | 533/3000 [30:04<1:49:41,  2.67s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  18%|#7        | 533/3000 [30:07<1:49:41,  2.67s/it, lr: 1.0e-04 loss: 8.902e-02]strawbyte_v1:  18%|#7        | 533/3000 [30:07<1:49:41,  2.67s/it, lr: 1.0e-04 loss: 8.902e-02]strawbyte_v1:  18%|#7        | 534/3000 [30:07<1:52:40,  2.74s/it, lr: 1.0e-04 loss: 8.902e-02]strawbyte_v1:  18%|#7        | 534/3000 [30:07<1:52:40,  2.74s/it, lr: 1.0e-04 loss: 8.902e-02]strawbyte_v1:  18%|#7        | 534/3000 [30:12<1:52:40,  2.74s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  18%|#7        | 534/3000 [30:12<1:52:40,  2.74s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  18%|#7        | 535/3000 [30:12<2:11:28,  3.20s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  18%|#7        | 535/3000 [30:12<2:11:28,  3.20s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  18%|#7        | 535/3000 [30:14<2:11:28,  3.20s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  18%|#7        | 535/3000 [30:14<2:11:28,  3.20s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  18%|#7        | 536/3000 [30:14<2:01:59,  2.97s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  18%|#7        | 536/3000 [30:14<2:01:59,  2.97s/it, lr: 1.0e-04 loss: 1.567e-01]strawbyte_v1:  18%|#7        | 536/3000 [30:17<2:01:59,  2.97s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  18%|#7        | 536/3000 [30:17<2:01:59,  2.97s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  18%|#7        | 537/3000 [30:17<2:00:45,  2.94s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  18%|#7        | 537/3000 [30:17<2:00:45,  2.94s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  18%|#7        | 537/3000 [30:19<2:00:45,  2.94s/it, lr: 1.0e-04 loss: 2.507e-01]strawbyte_v1:  18%|#7        | 537/3000 [30:19<2:00:45,  2.94s/it, lr: 1.0e-04 loss: 2.507e-01]strawbyte_v1:  18%|#7        | 538/3000 [30:19<1:50:25,  2.69s/it, lr: 1.0e-04 loss: 2.507e-01]strawbyte_v1:  18%|#7        | 538/3000 [30:19<1:50:25,  2.69s/it, lr: 1.0e-04 loss: 2.507e-01]strawbyte_v1:  18%|#7        | 538/3000 [30:22<1:50:25,  2.69s/it, lr: 1.0e-04 loss: 5.471e-02]strawbyte_v1:  18%|#7        | 538/3000 [30:22<1:50:25,  2.69s/it, lr: 1.0e-04 loss: 5.471e-02]strawbyte_v1:  18%|#7        | 539/3000 [30:22<1:55:54,  2.83s/it, lr: 1.0e-04 loss: 5.471e-02]strawbyte_v1:  18%|#7        | 539/3000 [30:22<1:55:54,  2.83s/it, lr: 1.0e-04 loss: 5.471e-02]strawbyte_v1:  18%|#7        | 539/3000 [30:25<1:55:54,  2.83s/it, lr: 1.0e-04 loss: 2.116e-01]strawbyte_v1:  18%|#7        | 539/3000 [30:25<1:55:54,  2.83s/it, lr: 1.0e-04 loss: 2.116e-01]strawbyte_v1:  18%|#8        | 540/3000 [30:29<1:55:51,  2.83s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  18%|#8        | 540/3000 [30:29<1:55:51,  2.83s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  18%|#8        | 541/3000 [30:29<1:43:41,  2.53s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  18%|#8        | 541/3000 [30:29<1:43:41,  2.53s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  18%|#8        | 541/3000 [30:32<1:43:41,  2.53s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  18%|#8        | 541/3000 [30:32<1:43:41,  2.53s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  18%|#8        | 542/3000 [30:32<1:47:44,  2.63s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  18%|#8        | 542/3000 [30:32<1:47:44,  2.63s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  18%|#8        | 542/3000 [30:37<1:47:44,  2.63s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  18%|#8        | 542/3000 [30:37<1:47:44,  2.63s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  18%|#8        | 543/3000 [30:37<2:08:53,  3.15s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  18%|#8        | 543/3000 [30:37<2:08:53,  3.15s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  18%|#8        | 543/3000 [30:40<2:08:53,  3.15s/it, lr: 1.0e-04 loss: 2.398e-01]strawbyte_v1:  18%|#8        | 543/3000 [30:40<2:08:53,  3.15s/it, lr: 1.0e-04 loss: 2.398e-01]strawbyte_v1:  18%|#8        | 544/3000 [30:40<2:04:02,  3.03s/it, lr: 1.0e-04 loss: 2.398e-01]strawbyte_v1:  18%|#8        | 544/3000 [30:40<2:04:02,  3.03s/it, lr: 1.0e-04 loss: 2.398e-01]strawbyte_v1:  18%|#8        | 544/3000 [30:43<2:04:02,  3.03s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  18%|#8        | 544/3000 [30:43<2:04:02,  3.03s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  18%|#8        | 545/3000 [30:43<2:03:33,  3.02s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  18%|#8        | 545/3000 [30:43<2:03:33,  3.02s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  18%|#8        | 545/3000 [30:47<2:03:33,  3.02s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  18%|#8        | 545/3000 [30:47<2:03:33,  3.02s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  18%|#8        | 546/3000 [30:47<2:20:45,  3.44s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  18%|#8        | 546/3000 [30:47<2:20:45,  3.44s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  18%|#8        | 546/3000 [30:52<2:20:45,  3.44s/it, lr: 1.0e-04 loss: 6.654e-02]strawbyte_v1:  18%|#8        | 546/3000 [30:52<2:20:45,  3.44s/it, lr: 1.0e-04 loss: 6.654e-02]strawbyte_v1:  18%|#8        | 547/3000 [30:52<2:36:07,  3.82s/it, lr: 1.0e-04 loss: 6.654e-02]strawbyte_v1:  18%|#8        | 547/3000 [30:52<2:36:07,  3.82s/it, lr: 1.0e-04 loss: 6.654e-02]strawbyte_v1:  18%|#8        | 547/3000 [30:55<2:36:07,  3.82s/it, lr: 1.0e-04 loss: 2.057e-01]strawbyte_v1:  18%|#8        | 547/3000 [30:55<2:36:07,  3.82s/it, lr: 1.0e-04 loss: 2.057e-01]strawbyte_v1:  18%|#8        | 548/3000 [30:55<2:22:48,  3.49s/it, lr: 1.0e-04 loss: 2.057e-01]strawbyte_v1:  18%|#8        | 548/3000 [30:55<2:22:48,  3.49s/it, lr: 1.0e-04 loss: 2.057e-01]strawbyte_v1:  18%|#8        | 548/3000 [30:58<2:22:48,  3.49s/it, lr: 1.0e-04 loss: 1.997e-01]strawbyte_v1:  18%|#8        | 548/3000 [30:58<2:22:48,  3.49s/it, lr: 1.0e-04 loss: 1.997e-01]strawbyte_v1:  18%|#8        | 549/3000 [30:58<2:16:40,  3.35s/it, lr: 1.0e-04 loss: 1.997e-01]strawbyte_v1:  18%|#8        | 549/3000 [30:58<2:16:40,  3.35s/it, lr: 1.0e-04 loss: 1.997e-01]strawbyte_v1:  18%|#8        | 549/3000 [31:01<2:16:40,  3.35s/it, lr: 1.0e-04 loss: 7.129e-02]strawbyte_v1:  18%|#8        | 549/3000 [31:01<2:16:40,  3.35s/it, lr: 1.0e-04 loss: 7.129e-02]strawbyte_v1:  18%|#8        | 550/3000 [31:04<2:16:36,  3.35s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  18%|#8        | 550/3000 [31:04<2:16:36,  3.35s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  18%|#8        | 551/3000 [31:04<1:42:12,  2.50s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  18%|#8        | 551/3000 [31:04<1:42:12,  2.50s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  18%|#8        | 551/3000 [31:07<1:42:12,  2.50s/it, lr: 1.0e-04 loss: 2.869e-01]strawbyte_v1:  18%|#8        | 551/3000 [31:07<1:42:12,  2.50s/it, lr: 1.0e-04 loss: 2.869e-01]strawbyte_v1:  18%|#8        | 552/3000 [31:07<1:44:06,  2.55s/it, lr: 1.0e-04 loss: 2.869e-01]strawbyte_v1:  18%|#8        | 552/3000 [31:07<1:44:06,  2.55s/it, lr: 1.0e-04 loss: 2.869e-01]strawbyte_v1:  18%|#8        | 552/3000 [31:09<1:44:06,  2.55s/it, lr: 1.0e-04 loss: 2.105e-01]strawbyte_v1:  18%|#8        | 552/3000 [31:09<1:44:06,  2.55s/it, lr: 1.0e-04 loss: 2.105e-01]strawbyte_v1:  18%|#8        | 553/3000 [31:09<1:45:32,  2.59s/it, lr: 1.0e-04 loss: 2.105e-01]strawbyte_v1:  18%|#8        | 553/3000 [31:09<1:45:32,  2.59s/it, lr: 1.0e-04 loss: 2.105e-01]strawbyte_v1:  18%|#8        | 553/3000 [31:13<1:45:32,  2.59s/it, lr: 1.0e-04 loss: 4.097e-02]strawbyte_v1:  18%|#8        | 553/3000 [31:13<1:45:32,  2.59s/it, lr: 1.0e-04 loss: 4.097e-02]strawbyte_v1:  18%|#8        | 554/3000 [31:13<1:53:41,  2.79s/it, lr: 1.0e-04 loss: 4.097e-02]strawbyte_v1:  18%|#8        | 554/3000 [31:13<1:53:41,  2.79s/it, lr: 1.0e-04 loss: 4.097e-02]strawbyte_v1:  18%|#8        | 554/3000 [31:17<1:53:41,  2.79s/it, lr: 1.0e-04 loss: 1.028e-01]strawbyte_v1:  18%|#8        | 554/3000 [31:17<1:53:41,  2.79s/it, lr: 1.0e-04 loss: 1.028e-01]strawbyte_v1:  18%|#8        | 555/3000 [31:17<2:12:36,  3.25s/it, lr: 1.0e-04 loss: 1.028e-01]strawbyte_v1:  18%|#8        | 555/3000 [31:17<2:12:36,  3.25s/it, lr: 1.0e-04 loss: 1.028e-01]strawbyte_v1:  18%|#8        | 555/3000 [31:20<2:12:36,  3.25s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  18%|#8        | 555/3000 [31:20<2:12:36,  3.25s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  19%|#8        | 556/3000 [31:20<2:05:51,  3.09s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  19%|#8        | 556/3000 [31:20<2:05:51,  3.09s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  19%|#8        | 556/3000 [31:23<2:05:51,  3.09s/it, lr: 1.0e-04 loss: 9.160e-02]strawbyte_v1:  19%|#8        | 556/3000 [31:23<2:05:51,  3.09s/it, lr: 1.0e-04 loss: 9.160e-02]strawbyte_v1:  19%|#8        | 557/3000 [31:23<2:08:19,  3.15s/it, lr: 1.0e-04 loss: 9.160e-02]strawbyte_v1:  19%|#8        | 557/3000 [31:23<2:08:19,  3.15s/it, lr: 1.0e-04 loss: 9.160e-02]strawbyte_v1:  19%|#8        | 557/3000 [31:25<2:08:19,  3.15s/it, lr: 1.0e-04 loss: 2.732e-01]strawbyte_v1:  19%|#8        | 557/3000 [31:25<2:08:19,  3.15s/it, lr: 1.0e-04 loss: 2.732e-01]strawbyte_v1:  19%|#8        | 558/3000 [31:25<1:57:36,  2.89s/it, lr: 1.0e-04 loss: 2.732e-01]strawbyte_v1:  19%|#8        | 558/3000 [31:25<1:57:36,  2.89s/it, lr: 1.0e-04 loss: 2.732e-01]strawbyte_v1:  19%|#8        | 558/3000 [31:28<1:57:36,  2.89s/it, lr: 1.0e-04 loss: 1.615e-01]strawbyte_v1:  19%|#8        | 558/3000 [31:28<1:57:36,  2.89s/it, lr: 1.0e-04 loss: 1.615e-01]strawbyte_v1:  19%|#8        | 559/3000 [31:28<1:57:43,  2.89s/it, lr: 1.0e-04 loss: 1.615e-01]strawbyte_v1:  19%|#8        | 559/3000 [31:28<1:57:43,  2.89s/it, lr: 1.0e-04 loss: 1.615e-01]strawbyte_v1:  19%|#8        | 559/3000 [31:30<1:57:43,  2.89s/it, lr: 1.0e-04 loss: 1.558e-01]strawbyte_v1:  19%|#8        | 559/3000 [31:30<1:57:43,  2.89s/it, lr: 1.0e-04 loss: 1.558e-01]strawbyte_v1:  19%|#8        | 560/3000 [31:33<1:57:40,  2.89s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  19%|#8        | 560/3000 [31:33<1:57:40,  2.89s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  19%|#8        | 561/3000 [31:33<1:25:29,  2.10s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  19%|#8        | 561/3000 [31:33<1:25:29,  2.10s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  19%|#8        | 561/3000 [31:37<1:25:29,  2.10s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  19%|#8        | 561/3000 [31:37<1:25:29,  2.10s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  19%|#8        | 562/3000 [31:37<1:47:55,  2.66s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  19%|#8        | 562/3000 [31:37<1:47:55,  2.66s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  19%|#8        | 562/3000 [31:39<1:47:55,  2.66s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:  19%|#8        | 562/3000 [31:39<1:47:55,  2.66s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:  19%|#8        | 563/3000 [31:39<1:41:36,  2.50s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:  19%|#8        | 563/3000 [31:39<1:41:36,  2.50s/it, lr: 1.0e-04 loss: 2.050e-01]strawbyte_v1:  19%|#8        | 563/3000 [31:42<1:41:36,  2.50s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  19%|#8        | 563/3000 [31:42<1:41:36,  2.50s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  19%|#8        | 564/3000 [31:42<1:48:44,  2.68s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  19%|#8        | 564/3000 [31:42<1:48:44,  2.68s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  19%|#8        | 564/3000 [31:47<1:48:44,  2.68s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  19%|#8        | 564/3000 [31:47<1:48:44,  2.68s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  19%|#8        | 565/3000 [31:47<2:07:05,  3.13s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  19%|#8        | 565/3000 [31:47<2:07:05,  3.13s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  19%|#8        | 565/3000 [31:49<2:07:05,  3.13s/it, lr: 1.0e-04 loss: 2.044e-01]strawbyte_v1:  19%|#8        | 565/3000 [31:49<2:07:05,  3.13s/it, lr: 1.0e-04 loss: 2.044e-01]strawbyte_v1:  19%|#8        | 566/3000 [31:49<1:55:09,  2.84s/it, lr: 1.0e-04 loss: 2.044e-01]strawbyte_v1:  19%|#8        | 566/3000 [31:49<1:55:09,  2.84s/it, lr: 1.0e-04 loss: 2.044e-01]strawbyte_v1:  19%|#8        | 566/3000 [31:53<1:55:09,  2.84s/it, lr: 1.0e-04 loss: 5.408e-02]strawbyte_v1:  19%|#8        | 566/3000 [31:53<1:55:09,  2.84s/it, lr: 1.0e-04 loss: 5.408e-02]strawbyte_v1:  19%|#8        | 567/3000 [31:53<2:12:23,  3.27s/it, lr: 1.0e-04 loss: 5.408e-02]strawbyte_v1:  19%|#8        | 567/3000 [31:53<2:12:23,  3.27s/it, lr: 1.0e-04 loss: 5.408e-02]strawbyte_v1:  19%|#8        | 567/3000 [31:58<2:12:23,  3.27s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  19%|#8        | 567/3000 [31:58<2:12:23,  3.27s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  19%|#8        | 568/3000 [31:58<2:28:25,  3.66s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  19%|#8        | 568/3000 [31:58<2:28:25,  3.66s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  19%|#8        | 568/3000 [32:02<2:28:25,  3.66s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  19%|#8        | 568/3000 [32:02<2:28:25,  3.66s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  19%|#8        | 569/3000 [32:02<2:38:32,  3.91s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  19%|#8        | 569/3000 [32:02<2:38:32,  3.91s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  19%|#8        | 569/3000 [32:05<2:38:32,  3.91s/it, lr: 1.0e-04 loss: 2.021e-01]strawbyte_v1:  19%|#8        | 569/3000 [32:05<2:38:32,  3.91s/it, lr: 1.0e-04 loss: 2.021e-01]strawbyte_v1:  19%|#9        | 570/3000 [32:10<2:38:28,  3.91s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  19%|#9        | 570/3000 [32:10<2:38:28,  3.91s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  19%|#9        | 571/3000 [32:10<2:07:04,  3.14s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  19%|#9        | 571/3000 [32:10<2:07:04,  3.14s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  19%|#9        | 571/3000 [32:13<2:07:04,  3.14s/it, lr: 1.0e-04 loss: 2.231e-01]strawbyte_v1:  19%|#9        | 571/3000 [32:13<2:07:04,  3.14s/it, lr: 1.0e-04 loss: 2.231e-01]strawbyte_v1:  19%|#9        | 572/3000 [32:13<2:06:31,  3.13s/it, lr: 1.0e-04 loss: 2.231e-01]strawbyte_v1:  19%|#9        | 572/3000 [32:13<2:06:31,  3.13s/it, lr: 1.0e-04 loss: 2.231e-01]strawbyte_v1:  19%|#9        | 572/3000 [32:15<2:06:31,  3.13s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  19%|#9        | 572/3000 [32:15<2:06:31,  3.13s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  19%|#9        | 573/3000 [32:15<2:01:55,  3.01s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  19%|#9        | 573/3000 [32:15<2:01:55,  3.01s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  19%|#9        | 573/3000 [32:18<2:01:55,  3.01s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  19%|#9        | 573/3000 [32:18<2:01:55,  3.01s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  19%|#9        | 574/3000 [32:18<2:02:10,  3.02s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  19%|#9        | 574/3000 [32:18<2:02:10,  3.02s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  19%|#9        | 574/3000 [32:22<2:02:10,  3.02s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  19%|#9        | 574/3000 [32:22<2:02:10,  3.02s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  19%|#9        | 575/3000 [32:22<2:03:14,  3.05s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  19%|#9        | 575/3000 [32:22<2:03:14,  3.05s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  19%|#9        | 575/3000 [32:26<2:03:14,  3.05s/it, lr: 1.0e-04 loss: 1.391e-01]strawbyte_v1:  19%|#9        | 575/3000 [32:26<2:03:14,  3.05s/it, lr: 1.0e-04 loss: 1.391e-01]strawbyte_v1:  19%|#9        | 576/3000 [32:26<2:18:38,  3.43s/it, lr: 1.0e-04 loss: 1.391e-01]strawbyte_v1:  19%|#9        | 576/3000 [32:26<2:18:38,  3.43s/it, lr: 1.0e-04 loss: 1.391e-01]strawbyte_v1:  19%|#9        | 576/3000 [32:29<2:18:38,  3.43s/it, lr: 1.0e-04 loss: 8.804e-02]strawbyte_v1:  19%|#9        | 576/3000 [32:29<2:18:38,  3.43s/it, lr: 1.0e-04 loss: 8.804e-02]strawbyte_v1:  19%|#9        | 577/3000 [32:29<2:13:18,  3.30s/it, lr: 1.0e-04 loss: 8.804e-02]strawbyte_v1:  19%|#9        | 577/3000 [32:29<2:13:18,  3.30s/it, lr: 1.0e-04 loss: 8.804e-02]strawbyte_v1:  19%|#9        | 577/3000 [32:32<2:13:18,  3.30s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  19%|#9        | 577/3000 [32:32<2:13:18,  3.30s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  19%|#9        | 578/3000 [32:32<2:09:52,  3.22s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  19%|#9        | 578/3000 [32:32<2:09:52,  3.22s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  19%|#9        | 578/3000 [32:35<2:09:52,  3.22s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:  19%|#9        | 578/3000 [32:35<2:09:52,  3.22s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:  19%|#9        | 579/3000 [32:35<2:08:18,  3.18s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:  19%|#9        | 579/3000 [32:35<2:08:18,  3.18s/it, lr: 1.0e-04 loss: 1.960e-01]strawbyte_v1:  19%|#9        | 579/3000 [32:39<2:08:18,  3.18s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  19%|#9        | 579/3000 [32:39<2:08:18,  3.18s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  19%|#9        | 580/3000 [32:42<2:08:14,  3.18s/it, lr: 1.0e-04 loss: 2.556e-01]strawbyte_v1:  19%|#9        | 580/3000 [32:42<2:08:14,  3.18s/it, lr: 1.0e-04 loss: 2.556e-01]strawbyte_v1:  19%|#9        | 581/3000 [32:42<1:34:31,  2.34s/it, lr: 1.0e-04 loss: 2.556e-01]strawbyte_v1:  19%|#9        | 581/3000 [32:42<1:34:31,  2.34s/it, lr: 1.0e-04 loss: 2.556e-01]strawbyte_v1:  19%|#9        | 581/3000 [32:45<1:34:31,  2.34s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  19%|#9        | 581/3000 [32:45<1:34:31,  2.34s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  19%|#9        | 582/3000 [32:45<1:40:42,  2.50s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  19%|#9        | 582/3000 [32:45<1:40:42,  2.50s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  19%|#9        | 582/3000 [32:48<1:40:42,  2.50s/it, lr: 1.0e-04 loss: 1.900e-01]strawbyte_v1:  19%|#9        | 582/3000 [32:48<1:40:42,  2.50s/it, lr: 1.0e-04 loss: 1.900e-01]strawbyte_v1:  19%|#9        | 583/3000 [32:48<1:44:56,  2.60s/it, lr: 1.0e-04 loss: 1.900e-01]strawbyte_v1:  19%|#9        | 583/3000 [32:48<1:44:56,  2.60s/it, lr: 1.0e-04 loss: 1.900e-01]strawbyte_v1:  19%|#9        | 583/3000 [32:52<1:44:56,  2.60s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  19%|#9        | 583/3000 [32:52<1:44:56,  2.60s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  19%|#9        | 584/3000 [32:52<2:03:32,  3.07s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  19%|#9        | 584/3000 [32:52<2:03:32,  3.07s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  19%|#9        | 584/3000 [32:55<2:03:32,  3.07s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  19%|#9        | 584/3000 [32:55<2:03:32,  3.07s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  20%|#9        | 585/3000 [32:55<2:01:18,  3.01s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  20%|#9        | 585/3000 [32:55<2:01:18,  3.01s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  20%|#9        | 585/3000 [32:58<2:01:18,  3.01s/it, lr: 1.0e-04 loss: 1.748e-01]strawbyte_v1:  20%|#9        | 585/3000 [32:58<2:01:18,  3.01s/it, lr: 1.0e-04 loss: 1.748e-01]strawbyte_v1:  20%|#9        | 586/3000 [32:58<1:54:44,  2.85s/it, lr: 1.0e-04 loss: 1.748e-01]strawbyte_v1:  20%|#9        | 586/3000 [32:58<1:54:44,  2.85s/it, lr: 1.0e-04 loss: 1.748e-01]strawbyte_v1:  20%|#9        | 586/3000 [33:02<1:54:44,  2.85s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  20%|#9        | 586/3000 [33:02<1:54:44,  2.85s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  20%|#9        | 587/3000 [33:02<2:10:09,  3.24s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  20%|#9        | 587/3000 [33:02<2:10:09,  3.24s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  20%|#9        | 587/3000 [33:05<2:10:09,  3.24s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  20%|#9        | 587/3000 [33:05<2:10:09,  3.24s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  20%|#9        | 588/3000 [33:05<2:05:52,  3.13s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  20%|#9        | 588/3000 [33:05<2:05:52,  3.13s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  20%|#9        | 588/3000 [33:07<2:05:52,  3.13s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  20%|#9        | 588/3000 [33:07<2:05:52,  3.13s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  20%|#9        | 589/3000 [33:07<1:57:36,  2.93s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  20%|#9        | 589/3000 [33:07<1:57:36,  2.93s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  20%|#9        | 589/3000 [33:09<1:57:36,  2.93s/it, lr: 1.0e-04 loss: 2.854e-01]strawbyte_v1:  20%|#9        | 589/3000 [33:09<1:57:36,  2.93s/it, lr: 1.0e-04 loss: 2.854e-01]strawbyte_v1:  20%|#9        | 590/3000 [33:12<1:57:33,  2.93s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  20%|#9        | 590/3000 [33:12<1:57:33,  2.93s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  20%|#9        | 591/3000 [33:12<1:30:11,  2.25s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  20%|#9        | 591/3000 [33:12<1:30:11,  2.25s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  20%|#9        | 591/3000 [33:14<1:30:11,  2.25s/it, lr: 1.0e-04 loss: 2.033e-01]strawbyte_v1:  20%|#9        | 591/3000 [33:14<1:30:11,  2.25s/it, lr: 1.0e-04 loss: 2.033e-01]strawbyte_v1:  20%|#9        | 592/3000 [33:14<1:28:43,  2.21s/it, lr: 1.0e-04 loss: 2.033e-01]strawbyte_v1:  20%|#9        | 592/3000 [33:14<1:28:43,  2.21s/it, lr: 1.0e-04 loss: 2.033e-01]strawbyte_v1:  20%|#9        | 592/3000 [33:17<1:28:43,  2.21s/it, lr: 1.0e-04 loss: 7.992e-02]strawbyte_v1:  20%|#9        | 592/3000 [33:17<1:28:43,  2.21s/it, lr: 1.0e-04 loss: 7.992e-02]strawbyte_v1:  20%|#9        | 593/3000 [33:17<1:30:58,  2.27s/it, lr: 1.0e-04 loss: 7.992e-02]strawbyte_v1:  20%|#9        | 593/3000 [33:17<1:30:58,  2.27s/it, lr: 1.0e-04 loss: 7.992e-02]strawbyte_v1:  20%|#9        | 593/3000 [33:20<1:30:58,  2.27s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  20%|#9        | 593/3000 [33:20<1:30:58,  2.27s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  20%|#9        | 594/3000 [33:20<1:40:11,  2.50s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  20%|#9        | 594/3000 [33:20<1:40:11,  2.50s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  20%|#9        | 594/3000 [33:23<1:40:11,  2.50s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  20%|#9        | 594/3000 [33:23<1:40:11,  2.50s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  20%|#9        | 595/3000 [33:23<1:46:09,  2.65s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  20%|#9        | 595/3000 [33:23<1:46:09,  2.65s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  20%|#9        | 595/3000 [33:28<1:46:09,  2.65s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  20%|#9        | 595/3000 [33:28<1:46:09,  2.65s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  20%|#9        | 596/3000 [33:28<2:10:56,  3.27s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  20%|#9        | 596/3000 [33:28<2:10:56,  3.27s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  20%|#9        | 596/3000 [33:31<2:10:56,  3.27s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:  20%|#9        | 596/3000 [33:31<2:10:56,  3.27s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:  20%|#9        | 597/3000 [33:31<2:08:12,  3.20s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:  20%|#9        | 597/3000 [33:31<2:08:12,  3.20s/it, lr: 1.0e-04 loss: 1.621e-01]strawbyte_v1:  20%|#9        | 597/3000 [33:34<2:08:12,  3.20s/it, lr: 1.0e-04 loss: 2.085e-01]strawbyte_v1:  20%|#9        | 597/3000 [33:34<2:08:12,  3.20s/it, lr: 1.0e-04 loss: 2.085e-01]strawbyte_v1:  20%|#9        | 598/3000 [33:34<2:05:19,  3.13s/it, lr: 1.0e-04 loss: 2.085e-01]strawbyte_v1:  20%|#9        | 598/3000 [33:34<2:05:19,  3.13s/it, lr: 1.0e-04 loss: 2.085e-01]strawbyte_v1:  20%|#9        | 598/3000 [33:38<2:05:19,  3.13s/it, lr: 1.0e-04 loss: 5.211e-02]strawbyte_v1:  20%|#9        | 598/3000 [33:38<2:05:19,  3.13s/it, lr: 1.0e-04 loss: 5.211e-02]strawbyte_v1:  20%|#9        | 599/3000 [33:38<2:21:02,  3.52s/it, lr: 1.0e-04 loss: 5.211e-02]strawbyte_v1:  20%|#9        | 599/3000 [33:38<2:21:02,  3.52s/it, lr: 1.0e-04 loss: 5.211e-02]strawbyte_v1:  20%|#9        | 599/3000 [33:41<2:21:02,  3.52s/it, lr: 1.0e-04 loss: 2.065e-01]strawbyte_v1:  20%|#9        | 599/3000 [33:41<2:21:02,  3.52s/it, lr: 1.0e-04 loss: 2.065e-01]strawbyte_v1:  20%|##        | 600/3000 [33:44<2:20:58,  3.52s/it, lr: 1.0e-04 loss: 2.260e-01]strawbyte_v1:  20%|##        | 600/3000 [33:44<2:20:58,  3.52s/it, lr: 1.0e-04 loss: 2.260e-01]strawbyte_v1:  20%|##        | 601/3000 [33:44<1:41:13,  2.53s/it, lr: 1.0e-04 loss: 2.260e-01]strawbyte_v1:  20%|##        | 601/3000 [33:44<1:41:13,  2.53s/it, lr: 1.0e-04 loss: 2.260e-01]strawbyte_v1:  20%|##        | 601/3000 [33:47<1:41:13,  2.53s/it, lr: 1.0e-04 loss: 2.281e-01]strawbyte_v1:  20%|##        | 601/3000 [33:47<1:41:13,  2.53s/it, lr: 1.0e-04 loss: 2.281e-01]strawbyte_v1:  20%|##        | 602/3000 [33:47<1:42:24,  2.56s/it, lr: 1.0e-04 loss: 2.281e-01]strawbyte_v1:  20%|##        | 602/3000 [33:47<1:42:24,  2.56s/it, lr: 1.0e-04 loss: 2.281e-01]strawbyte_v1:  20%|##        | 602/3000 [33:51<1:42:24,  2.56s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  20%|##        | 602/3000 [33:51<1:42:24,  2.56s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  20%|##        | 603/3000 [33:51<2:04:32,  3.12s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  20%|##        | 603/3000 [33:51<2:04:32,  3.12s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  20%|##        | 603/3000 [33:54<2:04:32,  3.12s/it, lr: 1.0e-04 loss: 2.421e-01]strawbyte_v1:  20%|##        | 603/3000 [33:54<2:04:32,  3.12s/it, lr: 1.0e-04 loss: 2.421e-01]strawbyte_v1:  20%|##        | 604/3000 [33:54<1:59:59,  3.00s/it, lr: 1.0e-04 loss: 2.421e-01]strawbyte_v1:  20%|##        | 604/3000 [33:54<1:59:59,  3.00s/it, lr: 1.0e-04 loss: 2.421e-01]strawbyte_v1:  20%|##        | 604/3000 [33:57<1:59:59,  3.00s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  20%|##        | 604/3000 [33:57<1:59:59,  3.00s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  20%|##        | 605/3000 [33:57<1:59:29,  2.99s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  20%|##        | 605/3000 [33:57<1:59:29,  2.99s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  20%|##        | 605/3000 [34:00<1:59:29,  2.99s/it, lr: 1.0e-04 loss: 1.405e-01]strawbyte_v1:  20%|##        | 605/3000 [34:00<1:59:29,  2.99s/it, lr: 1.0e-04 loss: 1.405e-01]strawbyte_v1:  20%|##        | 606/3000 [34:00<1:56:09,  2.91s/it, lr: 1.0e-04 loss: 1.405e-01]strawbyte_v1:  20%|##        | 606/3000 [34:00<1:56:09,  2.91s/it, lr: 1.0e-04 loss: 1.405e-01]strawbyte_v1:  20%|##        | 606/3000 [34:03<1:56:09,  2.91s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  20%|##        | 606/3000 [34:03<1:56:09,  2.91s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  20%|##        | 607/3000 [34:03<1:57:49,  2.95s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  20%|##        | 607/3000 [34:03<1:57:49,  2.95s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  20%|##        | 607/3000 [34:05<1:57:49,  2.95s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  20%|##        | 607/3000 [34:05<1:57:49,  2.95s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  20%|##        | 608/3000 [34:05<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  20%|##        | 608/3000 [34:05<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  20%|##        | 608/3000 [34:10<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 9.343e-02]strawbyte_v1:  20%|##        | 608/3000 [34:10<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 9.343e-02]strawbyte_v1:  20%|##        | 609/3000 [34:10<2:09:32,  3.25s/it, lr: 1.0e-04 loss: 9.343e-02]strawbyte_v1:  20%|##        | 609/3000 [34:10<2:09:32,  3.25s/it, lr: 1.0e-04 loss: 9.343e-02]strawbyte_v1:  20%|##        | 609/3000 [34:12<2:09:32,  3.25s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  20%|##        | 609/3000 [34:12<2:09:32,  3.25s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  20%|##        | 610/3000 [34:16<2:09:29,  3.25s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  20%|##        | 610/3000 [34:16<2:09:29,  3.25s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  20%|##        | 611/3000 [34:16<1:49:24,  2.75s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  20%|##        | 611/3000 [34:16<1:49:24,  2.75s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  20%|##        | 611/3000 [34:19<1:49:24,  2.75s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  20%|##        | 611/3000 [34:19<1:49:24,  2.75s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  20%|##        | 612/3000 [34:19<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  20%|##        | 612/3000 [34:19<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  20%|##        | 612/3000 [34:24<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  20%|##        | 612/3000 [34:24<1:51:09,  2.79s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  20%|##        | 613/3000 [34:24<2:07:02,  3.19s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  20%|##        | 613/3000 [34:24<2:07:02,  3.19s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  20%|##        | 613/3000 [34:27<2:07:02,  3.19s/it, lr: 1.0e-04 loss: 2.087e-01]strawbyte_v1:  20%|##        | 613/3000 [34:27<2:07:02,  3.19s/it, lr: 1.0e-04 loss: 2.087e-01]strawbyte_v1:  20%|##        | 614/3000 [34:27<2:06:09,  3.17s/it, lr: 1.0e-04 loss: 2.087e-01]strawbyte_v1:  20%|##        | 614/3000 [34:27<2:06:09,  3.17s/it, lr: 1.0e-04 loss: 2.087e-01]strawbyte_v1:  20%|##        | 614/3000 [34:31<2:06:09,  3.17s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  20%|##        | 614/3000 [34:31<2:06:09,  3.17s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  20%|##        | 615/3000 [34:31<2:19:17,  3.50s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  20%|##        | 615/3000 [34:31<2:19:17,  3.50s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  20%|##        | 615/3000 [34:35<2:19:17,  3.50s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  20%|##        | 615/3000 [34:35<2:19:17,  3.50s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  21%|##        | 616/3000 [34:35<2:26:53,  3.70s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  21%|##        | 616/3000 [34:35<2:26:53,  3.70s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  21%|##        | 616/3000 [34:40<2:26:53,  3.70s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  21%|##        | 616/3000 [34:40<2:26:53,  3.70s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  21%|##        | 617/3000 [34:40<2:37:15,  3.96s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  21%|##        | 617/3000 [34:40<2:37:15,  3.96s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  21%|##        | 617/3000 [34:43<2:37:15,  3.96s/it, lr: 1.0e-04 loss: 2.526e-01]strawbyte_v1:  21%|##        | 617/3000 [34:43<2:37:15,  3.96s/it, lr: 1.0e-04 loss: 2.526e-01]strawbyte_v1:  21%|##        | 618/3000 [34:43<2:22:46,  3.60s/it, lr: 1.0e-04 loss: 2.526e-01]strawbyte_v1:  21%|##        | 618/3000 [34:43<2:22:46,  3.60s/it, lr: 1.0e-04 loss: 2.526e-01]strawbyte_v1:  21%|##        | 618/3000 [34:46<2:22:46,  3.60s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  21%|##        | 618/3000 [34:46<2:22:46,  3.60s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  21%|##        | 619/3000 [34:46<2:15:58,  3.43s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  21%|##        | 619/3000 [34:46<2:15:58,  3.43s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  21%|##        | 619/3000 [34:49<2:15:58,  3.43s/it, lr: 1.0e-04 loss: 1.641e-01]strawbyte_v1:  21%|##        | 619/3000 [34:49<2:15:58,  3.43s/it, lr: 1.0e-04 loss: 1.641e-01]strawbyte_v1:  21%|##        | 620/3000 [34:53<2:15:54,  3.43s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  21%|##        | 620/3000 [34:53<2:15:54,  3.43s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  21%|##        | 621/3000 [34:53<1:56:43,  2.94s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  21%|##        | 621/3000 [34:53<1:56:43,  2.94s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  21%|##        | 621/3000 [34:56<1:56:43,  2.94s/it, lr: 1.0e-04 loss: 1.664e-01]strawbyte_v1:  21%|##        | 621/3000 [34:56<1:56:43,  2.94s/it, lr: 1.0e-04 loss: 1.664e-01]strawbyte_v1:  21%|##        | 622/3000 [34:56<1:57:22,  2.96s/it, lr: 1.0e-04 loss: 1.664e-01]strawbyte_v1:  21%|##        | 622/3000 [34:56<1:57:22,  2.96s/it, lr: 1.0e-04 loss: 1.664e-01]strawbyte_v1:  21%|##        | 622/3000 [35:01<1:57:22,  2.96s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  21%|##        | 622/3000 [35:01<1:57:22,  2.96s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  21%|##        | 623/3000 [35:01<2:12:21,  3.34s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  21%|##        | 623/3000 [35:01<2:12:21,  3.34s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  21%|##        | 623/3000 [35:03<2:12:21,  3.34s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  21%|##        | 623/3000 [35:03<2:12:21,  3.34s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  21%|##        | 624/3000 [35:03<2:05:00,  3.16s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  21%|##        | 624/3000 [35:03<2:05:00,  3.16s/it, lr: 1.0e-04 loss: 2.261e-01]strawbyte_v1:  21%|##        | 624/3000 [35:08<2:05:00,  3.16s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  21%|##        | 624/3000 [35:08<2:05:00,  3.16s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  21%|##        | 625/3000 [35:08<2:23:52,  3.63s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  21%|##        | 625/3000 [35:08<2:23:52,  3.63s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  21%|##        | 625/3000 [35:11<2:23:52,  3.63s/it, lr: 1.0e-04 loss: 1.977e-01]strawbyte_v1:  21%|##        | 625/3000 [35:11<2:23:52,  3.63s/it, lr: 1.0e-04 loss: 1.977e-01]strawbyte_v1:  21%|##        | 626/3000 [35:11<2:13:12,  3.37s/it, lr: 1.0e-04 loss: 1.977e-01]strawbyte_v1:  21%|##        | 626/3000 [35:11<2:13:12,  3.37s/it, lr: 1.0e-04 loss: 1.977e-01]strawbyte_v1:  21%|##        | 626/3000 [35:15<2:13:12,  3.37s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  21%|##        | 626/3000 [35:15<2:13:12,  3.37s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  21%|##        | 627/3000 [35:15<2:25:24,  3.68s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  21%|##        | 627/3000 [35:15<2:25:24,  3.68s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  21%|##        | 627/3000 [35:19<2:25:24,  3.68s/it, lr: 1.0e-04 loss: 3.648e-02]strawbyte_v1:  21%|##        | 627/3000 [35:19<2:25:24,  3.68s/it, lr: 1.0e-04 loss: 3.648e-02]strawbyte_v1:  21%|##        | 628/3000 [35:19<2:18:51,  3.51s/it, lr: 1.0e-04 loss: 3.648e-02]strawbyte_v1:  21%|##        | 628/3000 [35:19<2:18:51,  3.51s/it, lr: 1.0e-04 loss: 3.648e-02]strawbyte_v1:  21%|##        | 628/3000 [35:21<2:18:51,  3.51s/it, lr: 1.0e-04 loss: 2.596e-01]strawbyte_v1:  21%|##        | 628/3000 [35:21<2:18:51,  3.51s/it, lr: 1.0e-04 loss: 2.596e-01]strawbyte_v1:  21%|##        | 629/3000 [35:21<2:08:58,  3.26s/it, lr: 1.0e-04 loss: 2.596e-01]strawbyte_v1:  21%|##        | 629/3000 [35:21<2:08:58,  3.26s/it, lr: 1.0e-04 loss: 2.596e-01]strawbyte_v1:  21%|##        | 629/3000 [35:24<2:08:58,  3.26s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:  21%|##        | 629/3000 [35:24<2:08:58,  3.26s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:  21%|##1       | 630/3000 [35:29<2:08:55,  3.26s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  21%|##1       | 630/3000 [35:29<2:08:55,  3.26s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  21%|##1       | 631/3000 [35:29<1:49:40,  2.78s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  21%|##1       | 631/3000 [35:29<1:49:40,  2.78s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  21%|##1       | 631/3000 [35:31<1:49:40,  2.78s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  21%|##1       | 631/3000 [35:31<1:49:40,  2.78s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  21%|##1       | 632/3000 [35:31<1:46:13,  2.69s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  21%|##1       | 632/3000 [35:31<1:46:13,  2.69s/it, lr: 1.0e-04 loss: 2.047e-01]strawbyte_v1:  21%|##1       | 632/3000 [35:35<1:46:13,  2.69s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  21%|##1       | 632/3000 [35:35<1:46:13,  2.69s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  21%|##1       | 633/3000 [35:35<2:02:36,  3.11s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  21%|##1       | 633/3000 [35:35<2:02:36,  3.11s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  21%|##1       | 633/3000 [35:40<2:02:36,  3.11s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  21%|##1       | 633/3000 [35:40<2:02:36,  3.11s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  21%|##1       | 634/3000 [35:40<2:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  21%|##1       | 634/3000 [35:40<2:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  21%|##1       | 634/3000 [35:44<2:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  21%|##1       | 634/3000 [35:44<2:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  21%|##1       | 635/3000 [35:44<2:28:48,  3.78s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  21%|##1       | 635/3000 [35:44<2:28:48,  3.78s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  21%|##1       | 635/3000 [35:46<2:28:48,  3.78s/it, lr: 1.0e-04 loss: 2.074e-01]strawbyte_v1:  21%|##1       | 635/3000 [35:46<2:28:48,  3.78s/it, lr: 1.0e-04 loss: 2.074e-01]strawbyte_v1:  21%|##1       | 636/3000 [35:46<2:10:03,  3.30s/it, lr: 1.0e-04 loss: 2.074e-01]strawbyte_v1:  21%|##1       | 636/3000 [35:46<2:10:03,  3.30s/it, lr: 1.0e-04 loss: 2.074e-01]strawbyte_v1:  21%|##1       | 636/3000 [35:49<2:10:03,  3.30s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  21%|##1       | 636/3000 [35:49<2:10:03,  3.30s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  21%|##1       | 637/3000 [35:49<1:56:29,  2.96s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  21%|##1       | 637/3000 [35:49<1:56:29,  2.96s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  21%|##1       | 637/3000 [35:51<1:56:29,  2.96s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  21%|##1       | 637/3000 [35:51<1:56:29,  2.96s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  21%|##1       | 638/3000 [35:51<1:56:20,  2.96s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  21%|##1       | 638/3000 [35:51<1:56:20,  2.96s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  21%|##1       | 638/3000 [35:55<1:56:20,  2.96s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  21%|##1       | 638/3000 [35:55<1:56:20,  2.96s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  21%|##1       | 639/3000 [35:55<1:58:24,  3.01s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  21%|##1       | 639/3000 [35:55<1:58:24,  3.01s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  21%|##1       | 639/3000 [35:59<1:58:24,  3.01s/it, lr: 1.0e-04 loss: 1.395e-01]strawbyte_v1:  21%|##1       | 639/3000 [35:59<1:58:24,  3.01s/it, lr: 1.0e-04 loss: 1.395e-01]strawbyte_v1:  21%|##1       | 640/3000 [36:02<1:58:21,  3.01s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  21%|##1       | 640/3000 [36:02<1:58:21,  3.01s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  21%|##1       | 641/3000 [36:02<1:31:10,  2.32s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  21%|##1       | 641/3000 [36:02<1:31:10,  2.32s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  21%|##1       | 641/3000 [36:07<1:31:10,  2.32s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  21%|##1       | 641/3000 [36:07<1:31:10,  2.32s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  21%|##1       | 642/3000 [36:07<1:55:08,  2.93s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  21%|##1       | 642/3000 [36:07<1:55:08,  2.93s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  21%|##1       | 642/3000 [36:10<1:55:08,  2.93s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  21%|##1       | 642/3000 [36:10<1:55:08,  2.93s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  21%|##1       | 643/3000 [36:10<1:55:35,  2.94s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  21%|##1       | 643/3000 [36:10<1:55:35,  2.94s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  21%|##1       | 643/3000 [36:14<1:55:35,  2.94s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  21%|##1       | 643/3000 [36:14<1:55:35,  2.94s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  21%|##1       | 644/3000 [36:14<2:11:12,  3.34s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  21%|##1       | 644/3000 [36:14<2:11:12,  3.34s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  21%|##1       | 644/3000 [36:17<2:11:12,  3.34s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  21%|##1       | 644/3000 [36:17<2:11:12,  3.34s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  22%|##1       | 645/3000 [36:17<2:07:13,  3.24s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  22%|##1       | 645/3000 [36:17<2:07:13,  3.24s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  22%|##1       | 645/3000 [36:20<2:07:13,  3.24s/it, lr: 1.0e-04 loss: 1.877e-01]strawbyte_v1:  22%|##1       | 645/3000 [36:20<2:07:13,  3.24s/it, lr: 1.0e-04 loss: 1.877e-01]strawbyte_v1:  22%|##1       | 646/3000 [36:20<2:05:38,  3.20s/it, lr: 1.0e-04 loss: 1.877e-01]strawbyte_v1:  22%|##1       | 646/3000 [36:20<2:05:38,  3.20s/it, lr: 1.0e-04 loss: 1.877e-01]strawbyte_v1:  22%|##1       | 646/3000 [36:23<2:05:38,  3.20s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  22%|##1       | 646/3000 [36:23<2:05:38,  3.20s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  22%|##1       | 647/3000 [36:23<2:02:58,  3.14s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  22%|##1       | 647/3000 [36:23<2:02:58,  3.14s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  22%|##1       | 647/3000 [36:28<2:02:58,  3.14s/it, lr: 1.0e-04 loss: 8.628e-02]strawbyte_v1:  22%|##1       | 647/3000 [36:28<2:02:58,  3.14s/it, lr: 1.0e-04 loss: 8.628e-02]strawbyte_v1:  22%|##1       | 648/3000 [36:28<2:18:09,  3.52s/it, lr: 1.0e-04 loss: 8.628e-02]strawbyte_v1:  22%|##1       | 648/3000 [36:28<2:18:09,  3.52s/it, lr: 1.0e-04 loss: 8.628e-02]strawbyte_v1:  22%|##1       | 648/3000 [36:33<2:18:09,  3.52s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  22%|##1       | 648/3000 [36:33<2:18:09,  3.52s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  22%|##1       | 649/3000 [36:33<2:32:55,  3.90s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  22%|##1       | 649/3000 [36:33<2:32:55,  3.90s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  22%|##1       | 649/3000 [36:35<2:32:55,  3.90s/it, lr: 1.0e-04 loss: 3.750e-02]strawbyte_v1:  22%|##1       | 649/3000 [36:35<2:32:55,  3.90s/it, lr: 1.0e-04 loss: 3.750e-02]strawbyte_v1:  22%|##1       | 650/3000 [36:40<2:32:51,  3.90s/it, lr: 1.0e-04 loss: 7.820e-02]strawbyte_v1:  22%|##1       | 650/3000 [36:40<2:32:51,  3.90s/it, lr: 1.0e-04 loss: 7.820e-02]strawbyte_v1:  22%|##1       | 651/3000 [36:40<2:02:49,  3.14s/it, lr: 1.0e-04 loss: 7.820e-02]strawbyte_v1:  22%|##1       | 651/3000 [36:40<2:02:49,  3.14s/it, lr: 1.0e-04 loss: 7.820e-02]strawbyte_v1:  22%|##1       | 651/3000 [36:43<2:02:49,  3.14s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  22%|##1       | 651/3000 [36:43<2:02:49,  3.14s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  22%|##1       | 652/3000 [36:43<2:01:26,  3.10s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  22%|##1       | 652/3000 [36:43<2:01:26,  3.10s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  22%|##1       | 652/3000 [36:46<2:01:26,  3.10s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  22%|##1       | 652/3000 [36:46<2:01:26,  3.10s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  22%|##1       | 653/3000 [36:46<2:04:26,  3.18s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  22%|##1       | 653/3000 [36:46<2:04:26,  3.18s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  22%|##1       | 653/3000 [36:49<2:04:26,  3.18s/it, lr: 1.0e-04 loss: 1.933e-01]strawbyte_v1:  22%|##1       | 653/3000 [36:49<2:04:26,  3.18s/it, lr: 1.0e-04 loss: 1.933e-01]strawbyte_v1:  22%|##1       | 654/3000 [36:49<2:01:43,  3.11s/it, lr: 1.0e-04 loss: 1.933e-01]strawbyte_v1:  22%|##1       | 654/3000 [36:49<2:01:43,  3.11s/it, lr: 1.0e-04 loss: 1.933e-01]strawbyte_v1:  22%|##1       | 654/3000 [36:51<2:01:43,  3.11s/it, lr: 1.0e-04 loss: 5.758e-02]strawbyte_v1:  22%|##1       | 654/3000 [36:51<2:01:43,  3.11s/it, lr: 1.0e-04 loss: 5.758e-02]strawbyte_v1:  22%|##1       | 655/3000 [36:51<1:50:21,  2.82s/it, lr: 1.0e-04 loss: 5.758e-02]strawbyte_v1:  22%|##1       | 655/3000 [36:51<1:50:21,  2.82s/it, lr: 1.0e-04 loss: 5.758e-02]strawbyte_v1:  22%|##1       | 655/3000 [36:54<1:50:21,  2.82s/it, lr: 1.0e-04 loss: 1.849e-01]strawbyte_v1:  22%|##1       | 655/3000 [36:54<1:50:21,  2.82s/it, lr: 1.0e-04 loss: 1.849e-01]strawbyte_v1:  22%|##1       | 656/3000 [36:54<1:51:26,  2.85s/it, lr: 1.0e-04 loss: 1.849e-01]strawbyte_v1:  22%|##1       | 656/3000 [36:54<1:51:26,  2.85s/it, lr: 1.0e-04 loss: 1.849e-01]strawbyte_v1:  22%|##1       | 656/3000 [36:59<1:51:26,  2.85s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  22%|##1       | 656/3000 [36:59<1:51:26,  2.85s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  22%|##1       | 657/3000 [36:59<2:11:59,  3.38s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  22%|##1       | 657/3000 [36:59<2:11:59,  3.38s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  22%|##1       | 657/3000 [37:03<2:11:59,  3.38s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  22%|##1       | 657/3000 [37:03<2:11:59,  3.38s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  22%|##1       | 658/3000 [37:03<2:22:30,  3.65s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  22%|##1       | 658/3000 [37:03<2:22:30,  3.65s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  22%|##1       | 658/3000 [37:07<2:22:30,  3.65s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  22%|##1       | 658/3000 [37:07<2:22:30,  3.65s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  22%|##1       | 659/3000 [37:07<2:29:53,  3.84s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  22%|##1       | 659/3000 [37:07<2:29:53,  3.84s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  22%|##1       | 659/3000 [37:12<2:29:53,  3.84s/it, lr: 1.0e-04 loss: 1.120e-01]strawbyte_v1:  22%|##1       | 659/3000 [37:12<2:29:53,  3.84s/it, lr: 1.0e-04 loss: 1.120e-01]strawbyte_v1:  22%|##2       | 660/3000 [37:16<2:29:50,  3.84s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  22%|##2       | 660/3000 [37:16<2:29:50,  3.84s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  22%|##2       | 661/3000 [37:16<2:00:04,  3.08s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  22%|##2       | 661/3000 [37:16<2:00:04,  3.08s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  22%|##2       | 661/3000 [37:18<2:00:04,  3.08s/it, lr: 1.0e-04 loss: 2.133e-01]strawbyte_v1:  22%|##2       | 661/3000 [37:18<2:00:04,  3.08s/it, lr: 1.0e-04 loss: 2.133e-01]strawbyte_v1:  22%|##2       | 662/3000 [37:18<1:50:20,  2.83s/it, lr: 1.0e-04 loss: 2.133e-01]strawbyte_v1:  22%|##2       | 662/3000 [37:18<1:50:20,  2.83s/it, lr: 1.0e-04 loss: 2.133e-01]strawbyte_v1:  22%|##2       | 662/3000 [37:21<1:50:20,  2.83s/it, lr: 1.0e-04 loss: 2.024e-01]strawbyte_v1:  22%|##2       | 662/3000 [37:21<1:50:20,  2.83s/it, lr: 1.0e-04 loss: 2.024e-01]strawbyte_v1:  22%|##2       | 663/3000 [37:21<1:45:02,  2.70s/it, lr: 1.0e-04 loss: 2.024e-01]strawbyte_v1:  22%|##2       | 663/3000 [37:21<1:45:02,  2.70s/it, lr: 1.0e-04 loss: 2.024e-01]strawbyte_v1:  22%|##2       | 663/3000 [37:24<1:45:02,  2.70s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:  22%|##2       | 663/3000 [37:24<1:45:02,  2.70s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:  22%|##2       | 664/3000 [37:24<1:52:26,  2.89s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:  22%|##2       | 664/3000 [37:24<1:52:26,  2.89s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:  22%|##2       | 664/3000 [37:27<1:52:26,  2.89s/it, lr: 1.0e-04 loss: 3.414e-02]strawbyte_v1:  22%|##2       | 664/3000 [37:27<1:52:26,  2.89s/it, lr: 1.0e-04 loss: 3.414e-02]strawbyte_v1:  22%|##2       | 665/3000 [37:27<1:50:20,  2.84s/it, lr: 1.0e-04 loss: 3.414e-02]strawbyte_v1:  22%|##2       | 665/3000 [37:27<1:50:20,  2.84s/it, lr: 1.0e-04 loss: 3.414e-02]strawbyte_v1:  22%|##2       | 665/3000 [37:30<1:50:20,  2.84s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  22%|##2       | 665/3000 [37:30<1:50:20,  2.84s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  22%|##2       | 666/3000 [37:30<1:52:22,  2.89s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  22%|##2       | 666/3000 [37:30<1:52:22,  2.89s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  22%|##2       | 666/3000 [37:33<1:52:22,  2.89s/it, lr: 1.0e-04 loss: 6.008e-02]strawbyte_v1:  22%|##2       | 666/3000 [37:33<1:52:22,  2.89s/it, lr: 1.0e-04 loss: 6.008e-02]strawbyte_v1:  22%|##2       | 667/3000 [37:33<1:57:20,  3.02s/it, lr: 1.0e-04 loss: 6.008e-02]strawbyte_v1:  22%|##2       | 667/3000 [37:33<1:57:20,  3.02s/it, lr: 1.0e-04 loss: 6.008e-02]strawbyte_v1:  22%|##2       | 667/3000 [37:36<1:57:20,  3.02s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  22%|##2       | 667/3000 [37:36<1:57:20,  3.02s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  22%|##2       | 668/3000 [37:36<1:53:39,  2.92s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  22%|##2       | 668/3000 [37:36<1:53:39,  2.92s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  22%|##2       | 668/3000 [37:38<1:53:39,  2.92s/it, lr: 1.0e-04 loss: 2.078e-01]strawbyte_v1:  22%|##2       | 668/3000 [37:38<1:53:39,  2.92s/it, lr: 1.0e-04 loss: 2.078e-01]strawbyte_v1:  22%|##2       | 669/3000 [37:38<1:50:58,  2.86s/it, lr: 1.0e-04 loss: 2.078e-01]strawbyte_v1:  22%|##2       | 669/3000 [37:38<1:50:58,  2.86s/it, lr: 1.0e-04 loss: 2.078e-01]strawbyte_v1:  22%|##2       | 669/3000 [37:41<1:50:58,  2.86s/it, lr: 1.0e-04 loss: 2.100e-01]strawbyte_v1:  22%|##2       | 669/3000 [37:41<1:50:58,  2.86s/it, lr: 1.0e-04 loss: 2.100e-01]strawbyte_v1:  22%|##2       | 670/3000 [37:44<1:50:56,  2.86s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  22%|##2       | 670/3000 [37:44<1:50:56,  2.86s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  22%|##2       | 671/3000 [37:44<1:29:58,  2.32s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  22%|##2       | 671/3000 [37:44<1:29:58,  2.32s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  22%|##2       | 671/3000 [37:47<1:29:58,  2.32s/it, lr: 1.0e-04 loss: 1.890e-01]strawbyte_v1:  22%|##2       | 671/3000 [37:47<1:29:58,  2.32s/it, lr: 1.0e-04 loss: 1.890e-01]strawbyte_v1:  22%|##2       | 672/3000 [37:47<1:33:31,  2.41s/it, lr: 1.0e-04 loss: 1.890e-01]strawbyte_v1:  22%|##2       | 672/3000 [37:47<1:33:31,  2.41s/it, lr: 1.0e-04 loss: 1.890e-01]strawbyte_v1:  22%|##2       | 672/3000 [37:50<1:33:31,  2.41s/it, lr: 1.0e-04 loss: 3.981e-02]strawbyte_v1:  22%|##2       | 672/3000 [37:50<1:33:31,  2.41s/it, lr: 1.0e-04 loss: 3.981e-02]strawbyte_v1:  22%|##2       | 673/3000 [37:50<1:39:09,  2.56s/it, lr: 1.0e-04 loss: 3.981e-02]strawbyte_v1:  22%|##2       | 673/3000 [37:50<1:39:09,  2.56s/it, lr: 1.0e-04 loss: 3.981e-02]strawbyte_v1:  22%|##2       | 673/3000 [37:53<1:39:09,  2.56s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  22%|##2       | 673/3000 [37:53<1:39:09,  2.56s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  22%|##2       | 674/3000 [37:53<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  22%|##2       | 674/3000 [37:53<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  22%|##2       | 674/3000 [37:56<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 7.879e-02]strawbyte_v1:  22%|##2       | 674/3000 [37:56<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 7.879e-02]strawbyte_v1:  22%|##2       | 675/3000 [37:56<1:49:55,  2.84s/it, lr: 1.0e-04 loss: 7.879e-02]strawbyte_v1:  22%|##2       | 675/3000 [37:56<1:49:55,  2.84s/it, lr: 1.0e-04 loss: 7.879e-02]strawbyte_v1:  22%|##2       | 675/3000 [37:59<1:49:55,  2.84s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  22%|##2       | 675/3000 [37:59<1:49:55,  2.84s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  23%|##2       | 676/3000 [37:59<1:48:18,  2.80s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  23%|##2       | 676/3000 [37:59<1:48:18,  2.80s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  23%|##2       | 676/3000 [38:02<1:48:18,  2.80s/it, lr: 1.0e-04 loss: 1.796e-01]strawbyte_v1:  23%|##2       | 676/3000 [38:02<1:48:18,  2.80s/it, lr: 1.0e-04 loss: 1.796e-01]strawbyte_v1:  23%|##2       | 677/3000 [38:02<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 1.796e-01]strawbyte_v1:  23%|##2       | 677/3000 [38:02<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 1.796e-01]strawbyte_v1:  23%|##2       | 677/3000 [38:07<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 4.731e-02]strawbyte_v1:  23%|##2       | 677/3000 [38:07<1:47:15,  2.77s/it, lr: 1.0e-04 loss: 4.731e-02]strawbyte_v1:  23%|##2       | 678/3000 [38:07<2:10:22,  3.37s/it, lr: 1.0e-04 loss: 4.731e-02]strawbyte_v1:  23%|##2       | 678/3000 [38:07<2:10:22,  3.37s/it, lr: 1.0e-04 loss: 4.731e-02]strawbyte_v1:  23%|##2       | 678/3000 [38:10<2:10:22,  3.37s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  23%|##2       | 678/3000 [38:10<2:10:22,  3.37s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  23%|##2       | 679/3000 [38:10<2:05:26,  3.24s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  23%|##2       | 679/3000 [38:10<2:05:26,  3.24s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  23%|##2       | 679/3000 [38:12<2:05:26,  3.24s/it, lr: 1.0e-04 loss: 1.501e-01]strawbyte_v1:  23%|##2       | 679/3000 [38:12<2:05:26,  3.24s/it, lr: 1.0e-04 loss: 1.501e-01]strawbyte_v1:  23%|##2       | 680/3000 [38:14<2:05:23,  3.24s/it, lr: 1.0e-04 loss: 1.008e-02]strawbyte_v1:  23%|##2       | 680/3000 [38:14<2:05:23,  3.24s/it, lr: 1.0e-04 loss: 1.008e-02]strawbyte_v1:  23%|##2       | 681/3000 [38:14<1:29:44,  2.32s/it, lr: 1.0e-04 loss: 1.008e-02]strawbyte_v1:  23%|##2       | 681/3000 [38:14<1:29:44,  2.32s/it, lr: 1.0e-04 loss: 1.008e-02]strawbyte_v1:  23%|##2       | 681/3000 [38:19<1:29:44,  2.32s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:  23%|##2       | 681/3000 [38:19<1:29:44,  2.32s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:  23%|##2       | 682/3000 [38:19<1:49:02,  2.82s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:  23%|##2       | 682/3000 [38:19<1:49:02,  2.82s/it, lr: 1.0e-04 loss: 1.458e-01]strawbyte_v1:  23%|##2       | 682/3000 [38:21<1:49:02,  2.82s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  23%|##2       | 682/3000 [38:21<1:49:02,  2.82s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  23%|##2       | 683/3000 [38:21<1:50:12,  2.85s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  23%|##2       | 683/3000 [38:21<1:50:12,  2.85s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  23%|##2       | 683/3000 [38:26<1:50:12,  2.85s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  23%|##2       | 683/3000 [38:26<1:50:12,  2.85s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  23%|##2       | 684/3000 [38:26<2:05:21,  3.25s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  23%|##2       | 684/3000 [38:26<2:05:21,  3.25s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  23%|##2       | 684/3000 [38:28<2:05:21,  3.25s/it, lr: 1.0e-04 loss: 2.663e-01]strawbyte_v1:  23%|##2       | 684/3000 [38:28<2:05:21,  3.25s/it, lr: 1.0e-04 loss: 2.663e-01]strawbyte_v1:  23%|##2       | 685/3000 [38:28<1:56:39,  3.02s/it, lr: 1.0e-04 loss: 2.663e-01]strawbyte_v1:  23%|##2       | 685/3000 [38:28<1:56:39,  3.02s/it, lr: 1.0e-04 loss: 2.663e-01]strawbyte_v1:  23%|##2       | 685/3000 [38:30<1:56:39,  3.02s/it, lr: 1.0e-04 loss: 2.193e-01]strawbyte_v1:  23%|##2       | 685/3000 [38:30<1:56:39,  3.02s/it, lr: 1.0e-04 loss: 2.193e-01]strawbyte_v1:  23%|##2       | 686/3000 [38:30<1:46:20,  2.76s/it, lr: 1.0e-04 loss: 2.193e-01]strawbyte_v1:  23%|##2       | 686/3000 [38:30<1:46:20,  2.76s/it, lr: 1.0e-04 loss: 2.193e-01]strawbyte_v1:  23%|##2       | 686/3000 [38:35<1:46:20,  2.76s/it, lr: 1.0e-04 loss: 7.529e-02]strawbyte_v1:  23%|##2       | 686/3000 [38:35<1:46:20,  2.76s/it, lr: 1.0e-04 loss: 7.529e-02]strawbyte_v1:  23%|##2       | 687/3000 [38:35<2:03:40,  3.21s/it, lr: 1.0e-04 loss: 7.529e-02]strawbyte_v1:  23%|##2       | 687/3000 [38:35<2:03:40,  3.21s/it, lr: 1.0e-04 loss: 7.529e-02]strawbyte_v1:  23%|##2       | 687/3000 [38:39<2:03:40,  3.21s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  23%|##2       | 687/3000 [38:39<2:03:40,  3.21s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  23%|##2       | 688/3000 [38:39<2:16:37,  3.55s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  23%|##2       | 688/3000 [38:39<2:16:37,  3.55s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  23%|##2       | 688/3000 [38:42<2:16:37,  3.55s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  23%|##2       | 688/3000 [38:42<2:16:37,  3.55s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  23%|##2       | 689/3000 [38:42<2:05:36,  3.26s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  23%|##2       | 689/3000 [38:42<2:05:36,  3.26s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  23%|##2       | 689/3000 [38:45<2:05:36,  3.26s/it, lr: 1.0e-04 loss: 9.965e-02]strawbyte_v1:  23%|##2       | 689/3000 [38:45<2:05:36,  3.26s/it, lr: 1.0e-04 loss: 9.965e-02]strawbyte_v1:  23%|##3       | 690/3000 [38:48<2:05:33,  3.26s/it, lr: 1.0e-04 loss: 8.913e-02]strawbyte_v1:  23%|##3       | 690/3000 [38:48<2:05:33,  3.26s/it, lr: 1.0e-04 loss: 8.913e-02]strawbyte_v1:  23%|##3       | 691/3000 [38:48<1:34:18,  2.45s/it, lr: 1.0e-04 loss: 8.913e-02]strawbyte_v1:  23%|##3       | 691/3000 [38:48<1:34:18,  2.45s/it, lr: 1.0e-04 loss: 8.913e-02]strawbyte_v1:  23%|##3       | 691/3000 [38:51<1:34:18,  2.45s/it, lr: 1.0e-04 loss: 2.155e-01]strawbyte_v1:  23%|##3       | 691/3000 [38:51<1:34:18,  2.45s/it, lr: 1.0e-04 loss: 2.155e-01]strawbyte_v1:  23%|##3       | 692/3000 [38:51<1:43:13,  2.68s/it, lr: 1.0e-04 loss: 2.155e-01]strawbyte_v1:  23%|##3       | 692/3000 [38:51<1:43:13,  2.68s/it, lr: 1.0e-04 loss: 2.155e-01]strawbyte_v1:  23%|##3       | 692/3000 [38:56<1:43:13,  2.68s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  23%|##3       | 692/3000 [38:56<1:43:13,  2.68s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  23%|##3       | 693/3000 [38:56<2:00:58,  3.15s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  23%|##3       | 693/3000 [38:56<2:00:58,  3.15s/it, lr: 1.0e-04 loss: 9.891e-02]strawbyte_v1:  23%|##3       | 693/3000 [39:00<2:00:58,  3.15s/it, lr: 1.0e-04 loss: 6.803e-02]strawbyte_v1:  23%|##3       | 693/3000 [39:00<2:00:58,  3.15s/it, lr: 1.0e-04 loss: 6.803e-02]strawbyte_v1:  23%|##3       | 694/3000 [39:00<2:14:43,  3.51s/it, lr: 1.0e-04 loss: 6.803e-02]strawbyte_v1:  23%|##3       | 694/3000 [39:00<2:14:43,  3.51s/it, lr: 1.0e-04 loss: 6.803e-02]strawbyte_v1:  23%|##3       | 694/3000 [39:03<2:14:43,  3.51s/it, lr: 1.0e-04 loss: 6.020e-02]strawbyte_v1:  23%|##3       | 694/3000 [39:03<2:14:43,  3.51s/it, lr: 1.0e-04 loss: 6.020e-02]strawbyte_v1:  23%|##3       | 695/3000 [39:03<2:09:37,  3.37s/it, lr: 1.0e-04 loss: 6.020e-02]strawbyte_v1:  23%|##3       | 695/3000 [39:03<2:09:37,  3.37s/it, lr: 1.0e-04 loss: 6.020e-02]strawbyte_v1:  23%|##3       | 695/3000 [39:06<2:09:37,  3.37s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  23%|##3       | 695/3000 [39:06<2:09:37,  3.37s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  23%|##3       | 696/3000 [39:06<2:07:54,  3.33s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  23%|##3       | 696/3000 [39:06<2:07:54,  3.33s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  23%|##3       | 696/3000 [39:09<2:07:54,  3.33s/it, lr: 1.0e-04 loss: 8.991e-02]strawbyte_v1:  23%|##3       | 696/3000 [39:09<2:07:54,  3.33s/it, lr: 1.0e-04 loss: 8.991e-02]strawbyte_v1:  23%|##3       | 697/3000 [39:09<2:00:52,  3.15s/it, lr: 1.0e-04 loss: 8.991e-02]strawbyte_v1:  23%|##3       | 697/3000 [39:09<2:00:52,  3.15s/it, lr: 1.0e-04 loss: 8.991e-02]strawbyte_v1:  23%|##3       | 697/3000 [39:12<2:00:52,  3.15s/it, lr: 1.0e-04 loss: 2.139e-01]strawbyte_v1:  23%|##3       | 697/3000 [39:12<2:00:52,  3.15s/it, lr: 1.0e-04 loss: 2.139e-01]strawbyte_v1:  23%|##3       | 698/3000 [39:12<1:55:52,  3.02s/it, lr: 1.0e-04 loss: 2.139e-01]strawbyte_v1:  23%|##3       | 698/3000 [39:12<1:55:52,  3.02s/it, lr: 1.0e-04 loss: 2.139e-01]strawbyte_v1:  23%|##3       | 698/3000 [39:15<1:55:52,  3.02s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  23%|##3       | 698/3000 [39:15<1:55:52,  3.02s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  23%|##3       | 699/3000 [39:15<1:56:31,  3.04s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  23%|##3       | 699/3000 [39:15<1:56:31,  3.04s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  23%|##3       | 699/3000 [39:19<1:56:31,  3.04s/it, lr: 1.0e-04 loss: 1.340e-01]strawbyte_v1:  23%|##3       | 699/3000 [39:19<1:56:31,  3.04s/it, lr: 1.0e-04 loss: 1.340e-01]strawbyte_v1:  23%|##3       | 700/3000 [39:22<1:56:28,  3.04s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  23%|##3       | 700/3000 [39:22<1:56:28,  3.04s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  23%|##3       | 701/3000 [39:22<1:27:04,  2.27s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  23%|##3       | 701/3000 [39:22<1:27:04,  2.27s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  23%|##3       | 701/3000 [39:25<1:27:04,  2.27s/it, lr: 1.0e-04 loss: 2.540e-02]strawbyte_v1:  23%|##3       | 701/3000 [39:25<1:27:04,  2.27s/it, lr: 1.0e-04 loss: 2.540e-02]strawbyte_v1:  23%|##3       | 702/3000 [39:25<1:34:02,  2.46s/it, lr: 1.0e-04 loss: 2.540e-02]strawbyte_v1:  23%|##3       | 702/3000 [39:25<1:34:02,  2.46s/it, lr: 1.0e-04 loss: 2.540e-02]strawbyte_v1:  23%|##3       | 702/3000 [39:30<1:34:02,  2.46s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  23%|##3       | 702/3000 [39:30<1:34:02,  2.46s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  23%|##3       | 703/3000 [39:30<1:56:16,  3.04s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  23%|##3       | 703/3000 [39:30<1:56:16,  3.04s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  23%|##3       | 703/3000 [39:34<1:56:16,  3.04s/it, lr: 1.0e-04 loss: 5.968e-03]strawbyte_v1:  23%|##3       | 703/3000 [39:34<1:56:16,  3.04s/it, lr: 1.0e-04 loss: 5.968e-03]strawbyte_v1:  23%|##3       | 704/3000 [39:34<2:09:54,  3.40s/it, lr: 1.0e-04 loss: 5.968e-03]strawbyte_v1:  23%|##3       | 704/3000 [39:34<2:09:54,  3.40s/it, lr: 1.0e-04 loss: 5.968e-03]strawbyte_v1:  23%|##3       | 704/3000 [39:36<2:09:54,  3.40s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:  23%|##3       | 704/3000 [39:36<2:09:54,  3.40s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:  24%|##3       | 705/3000 [39:36<1:55:57,  3.03s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:  24%|##3       | 705/3000 [39:36<1:55:57,  3.03s/it, lr: 1.0e-04 loss: 2.173e-01]strawbyte_v1:  24%|##3       | 705/3000 [39:39<1:55:57,  3.03s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  24%|##3       | 705/3000 [39:39<1:55:57,  3.03s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  24%|##3       | 706/3000 [39:39<1:49:22,  2.86s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  24%|##3       | 706/3000 [39:39<1:49:22,  2.86s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  24%|##3       | 706/3000 [39:43<1:49:22,  2.86s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  24%|##3       | 706/3000 [39:43<1:49:22,  2.86s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  24%|##3       | 707/3000 [39:43<2:05:25,  3.28s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  24%|##3       | 707/3000 [39:43<2:05:25,  3.28s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  24%|##3       | 707/3000 [39:47<2:05:25,  3.28s/it, lr: 1.0e-04 loss: 9.010e-02]strawbyte_v1:  24%|##3       | 707/3000 [39:47<2:05:25,  3.28s/it, lr: 1.0e-04 loss: 9.010e-02]strawbyte_v1:  24%|##3       | 708/3000 [39:47<2:17:42,  3.60s/it, lr: 1.0e-04 loss: 9.010e-02]strawbyte_v1:  24%|##3       | 708/3000 [39:47<2:17:42,  3.60s/it, lr: 1.0e-04 loss: 9.010e-02]strawbyte_v1:  24%|##3       | 708/3000 [39:52<2:17:42,  3.60s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  24%|##3       | 708/3000 [39:52<2:17:42,  3.60s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  24%|##3       | 709/3000 [39:52<2:25:57,  3.82s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  24%|##3       | 709/3000 [39:52<2:25:57,  3.82s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  24%|##3       | 709/3000 [39:56<2:25:57,  3.82s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  24%|##3       | 709/3000 [39:56<2:25:57,  3.82s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  24%|##3       | 710/3000 [39:59<2:25:53,  3.82s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  24%|##3       | 710/3000 [39:59<2:25:53,  3.82s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  24%|##3       | 711/3000 [39:59<1:44:34,  2.74s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  24%|##3       | 711/3000 [39:59<1:44:34,  2.74s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  24%|##3       | 711/3000 [40:04<1:44:34,  2.74s/it, lr: 1.0e-04 loss: 1.211e-01]strawbyte_v1:  24%|##3       | 711/3000 [40:04<1:44:34,  2.74s/it, lr: 1.0e-04 loss: 1.211e-01]strawbyte_v1:  24%|##3       | 712/3000 [40:04<1:59:43,  3.14s/it, lr: 1.0e-04 loss: 1.211e-01]strawbyte_v1:  24%|##3       | 712/3000 [40:04<1:59:43,  3.14s/it, lr: 1.0e-04 loss: 1.211e-01]strawbyte_v1:  24%|##3       | 712/3000 [40:07<1:59:43,  3.14s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  24%|##3       | 712/3000 [40:07<1:59:43,  3.14s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  24%|##3       | 713/3000 [40:07<1:58:10,  3.10s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  24%|##3       | 713/3000 [40:07<1:58:10,  3.10s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  24%|##3       | 713/3000 [40:10<1:58:10,  3.10s/it, lr: 1.0e-04 loss: 2.470e-01]strawbyte_v1:  24%|##3       | 713/3000 [40:10<1:58:10,  3.10s/it, lr: 1.0e-04 loss: 2.470e-01]strawbyte_v1:  24%|##3       | 714/3000 [40:10<1:58:16,  3.10s/it, lr: 1.0e-04 loss: 2.470e-01]strawbyte_v1:  24%|##3       | 714/3000 [40:10<1:58:16,  3.10s/it, lr: 1.0e-04 loss: 2.470e-01]strawbyte_v1:  24%|##3       | 714/3000 [40:14<1:58:16,  3.10s/it, lr: 1.0e-04 loss: 6.965e-02]strawbyte_v1:  24%|##3       | 714/3000 [40:14<1:58:16,  3.10s/it, lr: 1.0e-04 loss: 6.965e-02]strawbyte_v1:  24%|##3       | 715/3000 [40:14<2:12:20,  3.48s/it, lr: 1.0e-04 loss: 6.965e-02]strawbyte_v1:  24%|##3       | 715/3000 [40:14<2:12:20,  3.48s/it, lr: 1.0e-04 loss: 6.965e-02]strawbyte_v1:  24%|##3       | 715/3000 [40:19<2:12:20,  3.48s/it, lr: 1.0e-04 loss: 8.776e-02]strawbyte_v1:  24%|##3       | 715/3000 [40:19<2:12:20,  3.48s/it, lr: 1.0e-04 loss: 8.776e-02]strawbyte_v1:  24%|##3       | 716/3000 [40:19<2:23:19,  3.76s/it, lr: 1.0e-04 loss: 8.776e-02]strawbyte_v1:  24%|##3       | 716/3000 [40:19<2:23:19,  3.76s/it, lr: 1.0e-04 loss: 8.776e-02]strawbyte_v1:  24%|##3       | 716/3000 [40:22<2:23:19,  3.76s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  24%|##3       | 716/3000 [40:22<2:23:19,  3.76s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  24%|##3       | 717/3000 [40:22<2:16:15,  3.58s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  24%|##3       | 717/3000 [40:22<2:16:15,  3.58s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  24%|##3       | 717/3000 [40:24<2:16:15,  3.58s/it, lr: 1.0e-04 loss: 2.060e-01]strawbyte_v1:  24%|##3       | 717/3000 [40:24<2:16:15,  3.58s/it, lr: 1.0e-04 loss: 2.060e-01]strawbyte_v1:  24%|##3       | 718/3000 [40:24<2:06:32,  3.33s/it, lr: 1.0e-04 loss: 2.060e-01]strawbyte_v1:  24%|##3       | 718/3000 [40:24<2:06:32,  3.33s/it, lr: 1.0e-04 loss: 2.060e-01]strawbyte_v1:  24%|##3       | 718/3000 [40:27<2:06:32,  3.33s/it, lr: 1.0e-04 loss: 8.948e-02]strawbyte_v1:  24%|##3       | 718/3000 [40:27<2:06:32,  3.33s/it, lr: 1.0e-04 loss: 8.948e-02]strawbyte_v1:  24%|##3       | 719/3000 [40:27<2:03:24,  3.25s/it, lr: 1.0e-04 loss: 8.948e-02]strawbyte_v1:  24%|##3       | 719/3000 [40:27<2:03:24,  3.25s/it, lr: 1.0e-04 loss: 8.948e-02]strawbyte_v1:  24%|##3       | 719/3000 [40:30<2:03:24,  3.25s/it, lr: 1.0e-04 loss: 1.688e-01]strawbyte_v1:  24%|##3       | 719/3000 [40:30<2:03:24,  3.25s/it, lr: 1.0e-04 loss: 1.688e-01]strawbyte_v1:  24%|##4       | 720/3000 [40:34<2:03:21,  3.25s/it, lr: 1.0e-04 loss: 1.946e-01]strawbyte_v1:  24%|##4       | 720/3000 [40:34<2:03:21,  3.25s/it, lr: 1.0e-04 loss: 1.946e-01]strawbyte_v1:  24%|##4       | 721/3000 [40:34<1:36:15,  2.53s/it, lr: 1.0e-04 loss: 1.946e-01]strawbyte_v1:  24%|##4       | 721/3000 [40:34<1:36:15,  2.53s/it, lr: 1.0e-04 loss: 1.946e-01]strawbyte_v1:  24%|##4       | 721/3000 [40:37<1:36:15,  2.53s/it, lr: 1.0e-04 loss: 2.314e-01]strawbyte_v1:  24%|##4       | 721/3000 [40:37<1:36:15,  2.53s/it, lr: 1.0e-04 loss: 2.314e-01]strawbyte_v1:  24%|##4       | 722/3000 [40:37<1:37:59,  2.58s/it, lr: 1.0e-04 loss: 2.314e-01]strawbyte_v1:  24%|##4       | 722/3000 [40:37<1:37:59,  2.58s/it, lr: 1.0e-04 loss: 2.314e-01]strawbyte_v1:  24%|##4       | 722/3000 [40:40<1:37:59,  2.58s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  24%|##4       | 722/3000 [40:40<1:37:59,  2.58s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  24%|##4       | 723/3000 [40:40<1:42:22,  2.70s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  24%|##4       | 723/3000 [40:40<1:42:22,  2.70s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  24%|##4       | 723/3000 [40:43<1:42:22,  2.70s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  24%|##4       | 723/3000 [40:43<1:42:22,  2.70s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  24%|##4       | 724/3000 [40:43<1:49:34,  2.89s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  24%|##4       | 724/3000 [40:43<1:49:34,  2.89s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  24%|##4       | 724/3000 [40:46<1:49:34,  2.89s/it, lr: 1.0e-04 loss: 8.254e-02]strawbyte_v1:  24%|##4       | 724/3000 [40:46<1:49:34,  2.89s/it, lr: 1.0e-04 loss: 8.254e-02]strawbyte_v1:  24%|##4       | 725/3000 [40:46<1:50:34,  2.92s/it, lr: 1.0e-04 loss: 8.254e-02]strawbyte_v1:  24%|##4       | 725/3000 [40:46<1:50:34,  2.92s/it, lr: 1.0e-04 loss: 8.254e-02]strawbyte_v1:  24%|##4       | 725/3000 [40:49<1:50:34,  2.92s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  24%|##4       | 725/3000 [40:49<1:50:34,  2.92s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  24%|##4       | 726/3000 [40:49<1:50:40,  2.92s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  24%|##4       | 726/3000 [40:49<1:50:40,  2.92s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  24%|##4       | 726/3000 [40:52<1:50:40,  2.92s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  24%|##4       | 726/3000 [40:52<1:50:40,  2.92s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  24%|##4       | 727/3000 [40:52<1:49:51,  2.90s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  24%|##4       | 727/3000 [40:52<1:49:51,  2.90s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  24%|##4       | 727/3000 [40:54<1:49:51,  2.90s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  24%|##4       | 727/3000 [40:54<1:49:51,  2.90s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  24%|##4       | 728/3000 [40:54<1:44:18,  2.75s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  24%|##4       | 728/3000 [40:54<1:44:18,  2.75s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  24%|##4       | 728/3000 [40:59<1:44:18,  2.75s/it, lr: 1.0e-04 loss: 2.726e-03]strawbyte_v1:  24%|##4       | 728/3000 [40:59<1:44:18,  2.75s/it, lr: 1.0e-04 loss: 2.726e-03]strawbyte_v1:  24%|##4       | 729/3000 [40:59<2:02:19,  3.23s/it, lr: 1.0e-04 loss: 2.726e-03]strawbyte_v1:  24%|##4       | 729/3000 [40:59<2:02:19,  3.23s/it, lr: 1.0e-04 loss: 2.726e-03]strawbyte_v1:  24%|##4       | 729/3000 [41:01<2:02:19,  3.23s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1:  24%|##4       | 729/3000 [41:01<2:02:19,  3.23s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1:  24%|##4       | 730/3000 [41:04<2:02:15,  3.23s/it, lr: 1.0e-04 loss: 4.866e-02]strawbyte_v1:  24%|##4       | 730/3000 [41:04<2:02:15,  3.23s/it, lr: 1.0e-04 loss: 4.866e-02]strawbyte_v1:  24%|##4       | 731/3000 [41:04<1:27:11,  2.31s/it, lr: 1.0e-04 loss: 4.866e-02]strawbyte_v1:  24%|##4       | 731/3000 [41:04<1:27:11,  2.31s/it, lr: 1.0e-04 loss: 4.866e-02]strawbyte_v1:  24%|##4       | 731/3000 [41:07<1:27:11,  2.31s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  24%|##4       | 731/3000 [41:07<1:27:11,  2.31s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  24%|##4       | 732/3000 [41:07<1:32:20,  2.44s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  24%|##4       | 732/3000 [41:07<1:32:20,  2.44s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  24%|##4       | 732/3000 [41:11<1:32:20,  2.44s/it, lr: 1.0e-04 loss: 6.437e-02]strawbyte_v1:  24%|##4       | 732/3000 [41:11<1:32:20,  2.44s/it, lr: 1.0e-04 loss: 6.437e-02]strawbyte_v1:  24%|##4       | 733/3000 [41:11<1:51:12,  2.94s/it, lr: 1.0e-04 loss: 6.437e-02]strawbyte_v1:  24%|##4       | 733/3000 [41:11<1:51:12,  2.94s/it, lr: 1.0e-04 loss: 6.437e-02]strawbyte_v1:  24%|##4       | 733/3000 [41:15<1:51:12,  2.94s/it, lr: 1.0e-04 loss: 4.082e-02]strawbyte_v1:  24%|##4       | 733/3000 [41:15<1:51:12,  2.94s/it, lr: 1.0e-04 loss: 4.082e-02]strawbyte_v1:  24%|##4       | 734/3000 [41:15<2:04:20,  3.29s/it, lr: 1.0e-04 loss: 4.082e-02]strawbyte_v1:  24%|##4       | 734/3000 [41:15<2:04:20,  3.29s/it, lr: 1.0e-04 loss: 4.082e-02]strawbyte_v1:  24%|##4       | 734/3000 [41:19<2:04:20,  3.29s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  24%|##4       | 734/3000 [41:19<2:04:20,  3.29s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  24%|##4       | 735/3000 [41:19<2:03:30,  3.27s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  24%|##4       | 735/3000 [41:19<2:03:30,  3.27s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  24%|##4       | 735/3000 [41:21<2:03:30,  3.27s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  24%|##4       | 735/3000 [41:21<2:03:30,  3.27s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  25%|##4       | 736/3000 [41:21<1:50:32,  2.93s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  25%|##4       | 736/3000 [41:21<1:50:32,  2.93s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  25%|##4       | 736/3000 [41:24<1:50:32,  2.93s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  25%|##4       | 736/3000 [41:24<1:50:32,  2.93s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  25%|##4       | 737/3000 [41:24<1:50:16,  2.92s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  25%|##4       | 737/3000 [41:24<1:50:16,  2.92s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  25%|##4       | 737/3000 [41:28<1:50:16,  2.92s/it, lr: 1.0e-04 loss: 1.555e-01]strawbyte_v1:  25%|##4       | 737/3000 [41:28<1:50:16,  2.92s/it, lr: 1.0e-04 loss: 1.555e-01]strawbyte_v1:  25%|##4       | 738/3000 [41:28<2:10:43,  3.47s/it, lr: 1.0e-04 loss: 1.555e-01]strawbyte_v1:  25%|##4       | 738/3000 [41:28<2:10:43,  3.47s/it, lr: 1.0e-04 loss: 1.555e-01]strawbyte_v1:  25%|##4       | 738/3000 [41:31<2:10:43,  3.47s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  25%|##4       | 738/3000 [41:31<2:10:43,  3.47s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  25%|##4       | 739/3000 [41:31<2:05:55,  3.34s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  25%|##4       | 739/3000 [41:31<2:05:55,  3.34s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  25%|##4       | 739/3000 [41:34<2:05:55,  3.34s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  25%|##4       | 739/3000 [41:34<2:05:55,  3.34s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  25%|##4       | 740/3000 [41:37<2:05:51,  3.34s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  25%|##4       | 740/3000 [41:37<2:05:51,  3.34s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  25%|##4       | 741/3000 [41:37<1:34:33,  2.51s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  25%|##4       | 741/3000 [41:37<1:34:33,  2.51s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  25%|##4       | 741/3000 [41:41<1:34:33,  2.51s/it, lr: 1.0e-04 loss: 2.140e-01]strawbyte_v1:  25%|##4       | 741/3000 [41:41<1:34:33,  2.51s/it, lr: 1.0e-04 loss: 2.140e-01]strawbyte_v1:  25%|##4       | 742/3000 [41:41<1:39:58,  2.66s/it, lr: 1.0e-04 loss: 2.140e-01]strawbyte_v1:  25%|##4       | 742/3000 [41:41<1:39:58,  2.66s/it, lr: 1.0e-04 loss: 2.140e-01]strawbyte_v1:  25%|##4       | 742/3000 [41:45<1:39:58,  2.66s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  25%|##4       | 742/3000 [41:45<1:39:58,  2.66s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  25%|##4       | 743/3000 [41:45<1:57:29,  3.12s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  25%|##4       | 743/3000 [41:45<1:57:29,  3.12s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  25%|##4       | 743/3000 [41:48<1:57:29,  3.12s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  25%|##4       | 743/3000 [41:48<1:57:29,  3.12s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  25%|##4       | 744/3000 [41:48<1:52:58,  3.00s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  25%|##4       | 744/3000 [41:48<1:52:58,  3.00s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  25%|##4       | 744/3000 [41:51<1:52:58,  3.00s/it, lr: 1.0e-04 loss: 1.642e-01]strawbyte_v1:  25%|##4       | 744/3000 [41:51<1:52:58,  3.00s/it, lr: 1.0e-04 loss: 1.642e-01]strawbyte_v1:  25%|##4       | 745/3000 [41:51<1:56:40,  3.10s/it, lr: 1.0e-04 loss: 1.642e-01]strawbyte_v1:  25%|##4       | 745/3000 [41:51<1:56:40,  3.10s/it, lr: 1.0e-04 loss: 1.642e-01]strawbyte_v1:  25%|##4       | 745/3000 [41:56<1:56:40,  3.10s/it, lr: 1.0e-04 loss: 1.491e-01]strawbyte_v1:  25%|##4       | 745/3000 [41:56<1:56:40,  3.10s/it, lr: 1.0e-04 loss: 1.491e-01]strawbyte_v1:  25%|##4       | 746/3000 [41:56<2:11:08,  3.49s/it, lr: 1.0e-04 loss: 1.491e-01]strawbyte_v1:  25%|##4       | 746/3000 [41:56<2:11:08,  3.49s/it, lr: 1.0e-04 loss: 1.491e-01]strawbyte_v1:  25%|##4       | 746/3000 [42:00<2:11:08,  3.49s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  25%|##4       | 746/3000 [42:00<2:11:08,  3.49s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  25%|##4       | 747/3000 [42:00<2:21:36,  3.77s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  25%|##4       | 747/3000 [42:00<2:21:36,  3.77s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  25%|##4       | 747/3000 [42:04<2:21:36,  3.77s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  25%|##4       | 747/3000 [42:04<2:21:36,  3.77s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  25%|##4       | 748/3000 [42:04<2:28:23,  3.95s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  25%|##4       | 748/3000 [42:04<2:28:23,  3.95s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  25%|##4       | 748/3000 [42:08<2:28:23,  3.95s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  25%|##4       | 748/3000 [42:08<2:28:23,  3.95s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  25%|##4       | 749/3000 [42:08<2:21:37,  3.78s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  25%|##4       | 749/3000 [42:08<2:21:37,  3.78s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  25%|##4       | 749/3000 [42:10<2:21:37,  3.78s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  25%|##4       | 749/3000 [42:10<2:21:37,  3.78s/it, lr: 1.0e-04 loss: 1.374e-01]
+Saving at step 750
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000000750.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.75s/it]Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.75s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:27<02:27, 73.61s/it]Generating Images:  50%|#####     | 2/4 [02:27<02:27, 73.61s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:41<01:13, 73.71s/it]Generating Images:  75%|#######5  | 3/4 [03:41<01:13, 73.71s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:53<00:00, 73.38s/it]Generating Images: 100%|##########| 4/4 [04:53<00:00, 73.38s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  25%|##5       | 750/3000 [42:14<2:21:33,  3.78s/it, lr: 1.0e-04 loss: 1.980e-01]strawbyte_v1:  25%|##5       | 750/3000 [42:14<2:21:33,  3.78s/it, lr: 1.0e-04 loss: 1.980e-01]strawbyte_v1:  25%|##5       | 751/3000 [42:14<1:44:02,  2.78s/it, lr: 1.0e-04 loss: 1.980e-01]strawbyte_v1:  25%|##5       | 751/3000 [42:14<1:44:02,  2.78s/it, lr: 1.0e-04 loss: 1.980e-01]strawbyte_v1:  25%|##5       | 751/3000 [42:18<1:44:02,  2.78s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  25%|##5       | 751/3000 [42:18<1:44:02,  2.78s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  25%|##5       | 752/3000 [42:18<1:59:07,  3.18s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  25%|##5       | 752/3000 [42:18<1:59:07,  3.18s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  25%|##5       | 752/3000 [42:22<1:59:07,  3.18s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  25%|##5       | 752/3000 [42:22<1:59:07,  3.18s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  25%|##5       | 753/3000 [42:22<2:11:48,  3.52s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  25%|##5       | 753/3000 [42:22<2:11:48,  3.52s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  25%|##5       | 753/3000 [42:27<2:11:48,  3.52s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  25%|##5       | 753/3000 [42:27<2:11:48,  3.52s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  25%|##5       | 754/3000 [42:27<2:23:29,  3.83s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  25%|##5       | 754/3000 [42:27<2:23:29,  3.83s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  25%|##5       | 754/3000 [42:29<2:23:29,  3.83s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  25%|##5       | 754/3000 [42:29<2:23:29,  3.83s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  25%|##5       | 755/3000 [42:29<2:05:17,  3.35s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  25%|##5       | 755/3000 [42:29<2:05:17,  3.35s/it, lr: 1.0e-04 loss: 2.124e-01]strawbyte_v1:  25%|##5       | 755/3000 [42:32<2:05:17,  3.35s/it, lr: 1.0e-04 loss: 5.821e-02]strawbyte_v1:  25%|##5       | 755/3000 [42:32<2:05:17,  3.35s/it, lr: 1.0e-04 loss: 5.821e-02]strawbyte_v1:  25%|##5       | 756/3000 [42:32<2:00:17,  3.22s/it, lr: 1.0e-04 loss: 5.821e-02]strawbyte_v1:  25%|##5       | 756/3000 [42:32<2:00:17,  3.22s/it, lr: 1.0e-04 loss: 5.821e-02]strawbyte_v1:  25%|##5       | 756/3000 [42:35<2:00:17,  3.22s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  25%|##5       | 756/3000 [42:35<2:00:17,  3.22s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  25%|##5       | 757/3000 [42:35<1:59:30,  3.20s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  25%|##5       | 757/3000 [42:35<1:59:30,  3.20s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  25%|##5       | 757/3000 [42:40<1:59:30,  3.20s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  25%|##5       | 757/3000 [42:40<1:59:30,  3.20s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  25%|##5       | 758/3000 [42:40<2:12:13,  3.54s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  25%|##5       | 758/3000 [42:40<2:12:13,  3.54s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  25%|##5       | 758/3000 [42:42<2:12:13,  3.54s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  25%|##5       | 758/3000 [42:42<2:12:13,  3.54s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  25%|##5       | 759/3000 [42:42<1:56:31,  3.12s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  25%|##5       | 759/3000 [42:42<1:56:31,  3.12s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  25%|##5       | 759/3000 [42:44<1:56:31,  3.12s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  25%|##5       | 759/3000 [42:44<1:56:31,  3.12s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  25%|##5       | 760/3000 [42:46<1:56:28,  3.12s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  25%|##5       | 760/3000 [42:46<1:56:28,  3.12s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  25%|##5       | 761/3000 [42:46<1:24:05,  2.25s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  25%|##5       | 761/3000 [42:46<1:24:05,  2.25s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  25%|##5       | 761/3000 [42:48<1:24:05,  2.25s/it, lr: 1.0e-04 loss: 2.069e-01]strawbyte_v1:  25%|##5       | 761/3000 [42:48<1:24:05,  2.25s/it, lr: 1.0e-04 loss: 2.069e-01]strawbyte_v1:  25%|##5       | 762/3000 [42:48<1:22:44,  2.22s/it, lr: 1.0e-04 loss: 2.069e-01]strawbyte_v1:  25%|##5       | 762/3000 [42:48<1:22:44,  2.22s/it, lr: 1.0e-04 loss: 2.069e-01]strawbyte_v1:  25%|##5       | 762/3000 [42:51<1:22:44,  2.22s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  25%|##5       | 762/3000 [42:51<1:22:44,  2.22s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  25%|##5       | 763/3000 [42:51<1:29:38,  2.40s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  25%|##5       | 763/3000 [42:51<1:29:38,  2.40s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  25%|##5       | 763/3000 [42:56<1:29:38,  2.40s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  25%|##5       | 763/3000 [42:56<1:29:38,  2.40s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  25%|##5       | 764/3000 [42:56<1:49:35,  2.94s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  25%|##5       | 764/3000 [42:56<1:49:35,  2.94s/it, lr: 1.0e-04 loss: 1.178e-01]strawbyte_v1:  25%|##5       | 764/3000 [42:59<1:49:35,  2.94s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  25%|##5       | 764/3000 [42:59<1:49:35,  2.94s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  26%|##5       | 765/3000 [42:59<1:51:40,  3.00s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  26%|##5       | 765/3000 [42:59<1:51:40,  3.00s/it, lr: 1.0e-04 loss: 1.683e-01]strawbyte_v1:  26%|##5       | 765/3000 [43:02<1:51:40,  3.00s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  26%|##5       | 765/3000 [43:02<1:51:40,  3.00s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  26%|##5       | 766/3000 [43:02<1:51:35,  3.00s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  26%|##5       | 766/3000 [43:02<1:51:35,  3.00s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  26%|##5       | 766/3000 [43:06<1:51:35,  3.00s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  26%|##5       | 766/3000 [43:06<1:51:35,  3.00s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  26%|##5       | 767/3000 [43:06<2:06:44,  3.41s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  26%|##5       | 767/3000 [43:06<2:06:44,  3.41s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  26%|##5       | 767/3000 [43:11<2:06:44,  3.41s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  26%|##5       | 767/3000 [43:11<2:06:44,  3.41s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  26%|##5       | 768/3000 [43:11<2:21:45,  3.81s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  26%|##5       | 768/3000 [43:11<2:21:45,  3.81s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  26%|##5       | 768/3000 [43:16<2:21:45,  3.81s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1:  26%|##5       | 768/3000 [43:16<2:21:45,  3.81s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1:  26%|##5       | 769/3000 [43:16<2:28:40,  4.00s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1:  26%|##5       | 769/3000 [43:16<2:28:40,  4.00s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1:  26%|##5       | 769/3000 [43:19<2:28:40,  4.00s/it, lr: 1.0e-04 loss: 1.493e-01]strawbyte_v1:  26%|##5       | 769/3000 [43:19<2:28:40,  4.00s/it, lr: 1.0e-04 loss: 1.493e-01]strawbyte_v1:  26%|##5       | 770/3000 [43:21<2:28:36,  4.00s/it, lr: 1.0e-04 loss: 2.104e-01]strawbyte_v1:  26%|##5       | 770/3000 [43:21<2:28:36,  4.00s/it, lr: 1.0e-04 loss: 2.104e-01]strawbyte_v1:  26%|##5       | 771/3000 [43:21<1:43:55,  2.80s/it, lr: 1.0e-04 loss: 2.104e-01]strawbyte_v1:  26%|##5       | 771/3000 [43:21<1:43:55,  2.80s/it, lr: 1.0e-04 loss: 2.104e-01]strawbyte_v1:  26%|##5       | 771/3000 [43:26<1:43:55,  2.80s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  26%|##5       | 771/3000 [43:26<1:43:55,  2.80s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  26%|##5       | 772/3000 [43:26<2:01:54,  3.28s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  26%|##5       | 772/3000 [43:26<2:01:54,  3.28s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  26%|##5       | 772/3000 [43:29<2:01:54,  3.28s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:  26%|##5       | 772/3000 [43:29<2:01:54,  3.28s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:  26%|##5       | 773/3000 [43:29<1:59:02,  3.21s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:  26%|##5       | 773/3000 [43:29<1:59:02,  3.21s/it, lr: 1.0e-04 loss: 1.580e-01]strawbyte_v1:  26%|##5       | 773/3000 [43:32<1:59:02,  3.21s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  26%|##5       | 773/3000 [43:32<1:59:02,  3.21s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  26%|##5       | 774/3000 [43:32<1:56:49,  3.15s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  26%|##5       | 774/3000 [43:32<1:56:49,  3.15s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  26%|##5       | 774/3000 [43:35<1:56:49,  3.15s/it, lr: 1.0e-04 loss: 1.843e-01]strawbyte_v1:  26%|##5       | 774/3000 [43:35<1:56:49,  3.15s/it, lr: 1.0e-04 loss: 1.843e-01]strawbyte_v1:  26%|##5       | 775/3000 [43:35<1:56:39,  3.15s/it, lr: 1.0e-04 loss: 1.843e-01]strawbyte_v1:  26%|##5       | 775/3000 [43:35<1:56:39,  3.15s/it, lr: 1.0e-04 loss: 1.843e-01]strawbyte_v1:  26%|##5       | 775/3000 [43:38<1:56:39,  3.15s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  26%|##5       | 775/3000 [43:38<1:56:39,  3.15s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  26%|##5       | 776/3000 [43:38<1:55:39,  3.12s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  26%|##5       | 776/3000 [43:38<1:55:39,  3.12s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  26%|##5       | 776/3000 [43:41<1:55:39,  3.12s/it, lr: 1.0e-04 loss: 1.791e-01]strawbyte_v1:  26%|##5       | 776/3000 [43:41<1:55:39,  3.12s/it, lr: 1.0e-04 loss: 1.791e-01]strawbyte_v1:  26%|##5       | 777/3000 [43:41<1:51:24,  3.01s/it, lr: 1.0e-04 loss: 1.791e-01]strawbyte_v1:  26%|##5       | 777/3000 [43:41<1:51:24,  3.01s/it, lr: 1.0e-04 loss: 1.791e-01]strawbyte_v1:  26%|##5       | 777/3000 [43:44<1:51:24,  3.01s/it, lr: 1.0e-04 loss: 1.643e-01]strawbyte_v1:  26%|##5       | 777/3000 [43:44<1:51:24,  3.01s/it, lr: 1.0e-04 loss: 1.643e-01]strawbyte_v1:  26%|##5       | 778/3000 [43:44<1:48:11,  2.92s/it, lr: 1.0e-04 loss: 1.643e-01]strawbyte_v1:  26%|##5       | 778/3000 [43:44<1:48:11,  2.92s/it, lr: 1.0e-04 loss: 1.643e-01]strawbyte_v1:  26%|##5       | 778/3000 [43:48<1:48:11,  2.92s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  26%|##5       | 778/3000 [43:48<1:48:11,  2.92s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  26%|##5       | 779/3000 [43:48<2:05:55,  3.40s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  26%|##5       | 779/3000 [43:48<2:05:55,  3.40s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  26%|##5       | 779/3000 [43:50<2:05:55,  3.40s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  26%|##5       | 779/3000 [43:50<2:05:55,  3.40s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  26%|##6       | 780/3000 [43:52<2:05:51,  3.40s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  26%|##6       | 780/3000 [43:52<2:05:51,  3.40s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  26%|##6       | 781/3000 [43:52<1:25:58,  2.32s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  26%|##6       | 781/3000 [43:52<1:25:58,  2.32s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  26%|##6       | 781/3000 [43:56<1:25:58,  2.32s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  26%|##6       | 781/3000 [43:56<1:25:58,  2.32s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  26%|##6       | 782/3000 [43:56<1:33:59,  2.54s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  26%|##6       | 782/3000 [43:56<1:33:59,  2.54s/it, lr: 1.0e-04 loss: 1.587e-01]strawbyte_v1:  26%|##6       | 782/3000 [43:58<1:33:59,  2.54s/it, lr: 1.0e-04 loss: 2.102e-01]strawbyte_v1:  26%|##6       | 782/3000 [43:58<1:33:59,  2.54s/it, lr: 1.0e-04 loss: 2.102e-01]strawbyte_v1:  26%|##6       | 783/3000 [43:58<1:29:46,  2.43s/it, lr: 1.0e-04 loss: 2.102e-01]strawbyte_v1:  26%|##6       | 783/3000 [43:58<1:29:46,  2.43s/it, lr: 1.0e-04 loss: 2.102e-01]strawbyte_v1:  26%|##6       | 783/3000 [44:00<1:29:46,  2.43s/it, lr: 1.0e-04 loss: 1.822e-01]strawbyte_v1:  26%|##6       | 783/3000 [44:00<1:29:46,  2.43s/it, lr: 1.0e-04 loss: 1.822e-01]strawbyte_v1:  26%|##6       | 784/3000 [44:00<1:26:33,  2.34s/it, lr: 1.0e-04 loss: 1.822e-01]strawbyte_v1:  26%|##6       | 784/3000 [44:00<1:26:33,  2.34s/it, lr: 1.0e-04 loss: 1.822e-01]strawbyte_v1:  26%|##6       | 784/3000 [44:04<1:26:33,  2.34s/it, lr: 1.0e-04 loss: 3.596e-02]strawbyte_v1:  26%|##6       | 784/3000 [44:04<1:26:33,  2.34s/it, lr: 1.0e-04 loss: 3.596e-02]strawbyte_v1:  26%|##6       | 785/3000 [44:04<1:47:33,  2.91s/it, lr: 1.0e-04 loss: 3.596e-02]strawbyte_v1:  26%|##6       | 785/3000 [44:04<1:47:33,  2.91s/it, lr: 1.0e-04 loss: 3.596e-02]strawbyte_v1:  26%|##6       | 785/3000 [44:07<1:47:33,  2.91s/it, lr: 1.0e-04 loss: 1.882e-01]strawbyte_v1:  26%|##6       | 785/3000 [44:07<1:47:33,  2.91s/it, lr: 1.0e-04 loss: 1.882e-01]strawbyte_v1:  26%|##6       | 786/3000 [44:07<1:49:53,  2.98s/it, lr: 1.0e-04 loss: 1.882e-01]strawbyte_v1:  26%|##6       | 786/3000 [44:07<1:49:53,  2.98s/it, lr: 1.0e-04 loss: 1.882e-01]strawbyte_v1:  26%|##6       | 786/3000 [44:12<1:49:53,  2.98s/it, lr: 1.0e-04 loss: 1.039e-01]strawbyte_v1:  26%|##6       | 786/3000 [44:12<1:49:53,  2.98s/it, lr: 1.0e-04 loss: 1.039e-01]strawbyte_v1:  26%|##6       | 787/3000 [44:12<2:03:59,  3.36s/it, lr: 1.0e-04 loss: 1.039e-01]strawbyte_v1:  26%|##6       | 787/3000 [44:12<2:03:59,  3.36s/it, lr: 1.0e-04 loss: 1.039e-01]strawbyte_v1:  26%|##6       | 787/3000 [44:14<2:03:59,  3.36s/it, lr: 1.0e-04 loss: 1.560e-01]strawbyte_v1:  26%|##6       | 787/3000 [44:14<2:03:59,  3.36s/it, lr: 1.0e-04 loss: 1.560e-01]strawbyte_v1:  26%|##6       | 788/3000 [44:14<1:50:29,  3.00s/it, lr: 1.0e-04 loss: 1.560e-01]strawbyte_v1:  26%|##6       | 788/3000 [44:14<1:50:29,  3.00s/it, lr: 1.0e-04 loss: 1.560e-01]strawbyte_v1:  26%|##6       | 788/3000 [44:17<1:50:29,  3.00s/it, lr: 1.0e-04 loss: 1.704e-01]strawbyte_v1:  26%|##6       | 788/3000 [44:17<1:50:29,  3.00s/it, lr: 1.0e-04 loss: 1.704e-01]strawbyte_v1:  26%|##6       | 789/3000 [44:17<1:52:24,  3.05s/it, lr: 1.0e-04 loss: 1.704e-01]strawbyte_v1:  26%|##6       | 789/3000 [44:17<1:52:24,  3.05s/it, lr: 1.0e-04 loss: 1.704e-01]strawbyte_v1:  26%|##6       | 789/3000 [44:20<1:52:24,  3.05s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  26%|##6       | 789/3000 [44:20<1:52:24,  3.05s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  26%|##6       | 790/3000 [44:24<1:52:21,  3.05s/it, lr: 1.0e-04 loss: 9.373e-02]strawbyte_v1:  26%|##6       | 790/3000 [44:24<1:52:21,  3.05s/it, lr: 1.0e-04 loss: 9.373e-02]strawbyte_v1:  26%|##6       | 791/3000 [44:24<1:38:14,  2.67s/it, lr: 1.0e-04 loss: 9.373e-02]strawbyte_v1:  26%|##6       | 791/3000 [44:24<1:38:14,  2.67s/it, lr: 1.0e-04 loss: 9.373e-02]strawbyte_v1:  26%|##6       | 791/3000 [44:28<1:38:14,  2.67s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  26%|##6       | 791/3000 [44:28<1:38:14,  2.67s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  26%|##6       | 792/3000 [44:28<1:40:01,  2.72s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  26%|##6       | 792/3000 [44:28<1:40:01,  2.72s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  26%|##6       | 792/3000 [44:32<1:40:01,  2.72s/it, lr: 1.0e-04 loss: 2.972e-02]strawbyte_v1:  26%|##6       | 792/3000 [44:32<1:40:01,  2.72s/it, lr: 1.0e-04 loss: 2.972e-02]strawbyte_v1:  26%|##6       | 793/3000 [44:32<2:00:50,  3.29s/it, lr: 1.0e-04 loss: 2.972e-02]strawbyte_v1:  26%|##6       | 793/3000 [44:32<2:00:50,  3.29s/it, lr: 1.0e-04 loss: 2.972e-02]strawbyte_v1:  26%|##6       | 793/3000 [44:36<2:00:50,  3.29s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  26%|##6       | 793/3000 [44:36<2:00:50,  3.29s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  26%|##6       | 794/3000 [44:36<1:58:21,  3.22s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  26%|##6       | 794/3000 [44:36<1:58:21,  3.22s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  26%|##6       | 794/3000 [44:38<1:58:21,  3.22s/it, lr: 1.0e-04 loss: 1.815e-01]strawbyte_v1:  26%|##6       | 794/3000 [44:38<1:58:21,  3.22s/it, lr: 1.0e-04 loss: 1.815e-01]strawbyte_v1:  26%|##6       | 795/3000 [44:38<1:53:11,  3.08s/it, lr: 1.0e-04 loss: 1.815e-01]strawbyte_v1:  26%|##6       | 795/3000 [44:38<1:53:11,  3.08s/it, lr: 1.0e-04 loss: 1.815e-01]strawbyte_v1:  26%|##6       | 795/3000 [44:41<1:53:11,  3.08s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  26%|##6       | 795/3000 [44:41<1:53:11,  3.08s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  27%|##6       | 796/3000 [44:41<1:51:59,  3.05s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  27%|##6       | 796/3000 [44:41<1:51:59,  3.05s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  27%|##6       | 796/3000 [44:45<1:51:59,  3.05s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  27%|##6       | 796/3000 [44:45<1:51:59,  3.05s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  27%|##6       | 797/3000 [44:45<1:55:48,  3.15s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  27%|##6       | 797/3000 [44:45<1:55:48,  3.15s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  27%|##6       | 797/3000 [44:49<1:55:48,  3.15s/it, lr: 1.0e-04 loss: 6.005e-02]strawbyte_v1:  27%|##6       | 797/3000 [44:49<1:55:48,  3.15s/it, lr: 1.0e-04 loss: 6.005e-02]strawbyte_v1:  27%|##6       | 798/3000 [44:49<2:09:48,  3.54s/it, lr: 1.0e-04 loss: 6.005e-02]strawbyte_v1:  27%|##6       | 798/3000 [44:49<2:09:48,  3.54s/it, lr: 1.0e-04 loss: 6.005e-02]strawbyte_v1:  27%|##6       | 798/3000 [44:52<2:09:48,  3.54s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  27%|##6       | 798/3000 [44:52<2:09:48,  3.54s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  27%|##6       | 799/3000 [44:52<2:03:49,  3.38s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  27%|##6       | 799/3000 [44:52<2:03:49,  3.38s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  27%|##6       | 799/3000 [44:55<2:03:49,  3.38s/it, lr: 1.0e-04 loss: 1.651e-01]strawbyte_v1:  27%|##6       | 799/3000 [44:55<2:03:49,  3.38s/it, lr: 1.0e-04 loss: 1.651e-01]strawbyte_v1:  27%|##6       | 800/3000 [45:00<2:03:46,  3.38s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  27%|##6       | 800/3000 [45:00<2:03:46,  3.38s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  27%|##6       | 801/3000 [45:00<1:44:40,  2.86s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  27%|##6       | 801/3000 [45:00<1:44:40,  2.86s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  27%|##6       | 801/3000 [45:03<1:44:40,  2.86s/it, lr: 1.0e-04 loss: 7.857e-02]strawbyte_v1:  27%|##6       | 801/3000 [45:03<1:44:40,  2.86s/it, lr: 1.0e-04 loss: 7.857e-02]strawbyte_v1:  27%|##6       | 802/3000 [45:03<1:45:49,  2.89s/it, lr: 1.0e-04 loss: 7.857e-02]strawbyte_v1:  27%|##6       | 802/3000 [45:03<1:45:49,  2.89s/it, lr: 1.0e-04 loss: 7.857e-02]strawbyte_v1:  27%|##6       | 802/3000 [45:07<1:45:49,  2.89s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  27%|##6       | 802/3000 [45:07<1:45:49,  2.89s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  27%|##6       | 803/3000 [45:07<1:59:49,  3.27s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  27%|##6       | 803/3000 [45:07<1:59:49,  3.27s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  27%|##6       | 803/3000 [45:10<1:59:49,  3.27s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  27%|##6       | 803/3000 [45:10<1:59:49,  3.27s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  27%|##6       | 804/3000 [45:10<1:51:00,  3.03s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  27%|##6       | 804/3000 [45:10<1:51:00,  3.03s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  27%|##6       | 804/3000 [45:12<1:51:00,  3.03s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  27%|##6       | 804/3000 [45:12<1:51:00,  3.03s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  27%|##6       | 805/3000 [45:12<1:41:08,  2.76s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  27%|##6       | 805/3000 [45:12<1:41:08,  2.76s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  27%|##6       | 805/3000 [45:15<1:41:08,  2.76s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  27%|##6       | 805/3000 [45:15<1:41:08,  2.76s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  27%|##6       | 806/3000 [45:15<1:42:37,  2.81s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  27%|##6       | 806/3000 [45:15<1:42:37,  2.81s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  27%|##6       | 806/3000 [45:19<1:42:37,  2.81s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  27%|##6       | 806/3000 [45:19<1:42:37,  2.81s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  27%|##6       | 807/3000 [45:19<2:01:14,  3.32s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  27%|##6       | 807/3000 [45:19<2:01:14,  3.32s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  27%|##6       | 807/3000 [45:21<2:01:14,  3.32s/it, lr: 1.0e-04 loss: 8.481e-02]strawbyte_v1:  27%|##6       | 807/3000 [45:21<2:01:14,  3.32s/it, lr: 1.0e-04 loss: 8.481e-02]strawbyte_v1:  27%|##6       | 808/3000 [45:21<1:48:15,  2.96s/it, lr: 1.0e-04 loss: 8.481e-02]strawbyte_v1:  27%|##6       | 808/3000 [45:21<1:48:15,  2.96s/it, lr: 1.0e-04 loss: 8.481e-02]strawbyte_v1:  27%|##6       | 808/3000 [45:23<1:48:15,  2.96s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  27%|##6       | 808/3000 [45:23<1:48:15,  2.96s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  27%|##6       | 809/3000 [45:23<1:38:39,  2.70s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  27%|##6       | 809/3000 [45:23<1:38:39,  2.70s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  27%|##6       | 809/3000 [45:26<1:38:39,  2.70s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  27%|##6       | 809/3000 [45:26<1:38:39,  2.70s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  27%|##7       | 810/3000 [45:30<1:38:36,  2.70s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  27%|##7       | 810/3000 [45:30<1:38:36,  2.70s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  27%|##7       | 811/3000 [45:30<1:31:42,  2.51s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  27%|##7       | 811/3000 [45:30<1:31:42,  2.51s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  27%|##7       | 811/3000 [45:34<1:31:42,  2.51s/it, lr: 1.0e-04 loss: 9.716e-02]strawbyte_v1:  27%|##7       | 811/3000 [45:34<1:31:42,  2.51s/it, lr: 1.0e-04 loss: 9.716e-02]strawbyte_v1:  27%|##7       | 812/3000 [45:34<1:47:53,  2.96s/it, lr: 1.0e-04 loss: 9.716e-02]strawbyte_v1:  27%|##7       | 812/3000 [45:34<1:47:53,  2.96s/it, lr: 1.0e-04 loss: 9.716e-02]strawbyte_v1:  27%|##7       | 812/3000 [45:37<1:47:53,  2.96s/it, lr: 1.0e-04 loss: 1.979e-01]strawbyte_v1:  27%|##7       | 812/3000 [45:37<1:47:53,  2.96s/it, lr: 1.0e-04 loss: 1.979e-01]strawbyte_v1:  27%|##7       | 813/3000 [45:37<1:47:36,  2.95s/it, lr: 1.0e-04 loss: 1.979e-01]strawbyte_v1:  27%|##7       | 813/3000 [45:37<1:47:36,  2.95s/it, lr: 1.0e-04 loss: 1.979e-01]strawbyte_v1:  27%|##7       | 813/3000 [45:41<1:47:36,  2.95s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  27%|##7       | 813/3000 [45:41<1:47:36,  2.95s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  27%|##7       | 814/3000 [45:41<1:50:58,  3.05s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  27%|##7       | 814/3000 [45:41<1:50:58,  3.05s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  27%|##7       | 814/3000 [45:44<1:50:58,  3.05s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  27%|##7       | 814/3000 [45:44<1:50:58,  3.05s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  27%|##7       | 815/3000 [45:44<1:50:40,  3.04s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  27%|##7       | 815/3000 [45:44<1:50:40,  3.04s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  27%|##7       | 815/3000 [45:48<1:50:40,  3.04s/it, lr: 1.0e-04 loss: 2.717e-03]strawbyte_v1:  27%|##7       | 815/3000 [45:48<1:50:40,  3.04s/it, lr: 1.0e-04 loss: 2.717e-03]strawbyte_v1:  27%|##7       | 816/3000 [45:48<2:05:33,  3.45s/it, lr: 1.0e-04 loss: 2.717e-03]strawbyte_v1:  27%|##7       | 816/3000 [45:48<2:05:33,  3.45s/it, lr: 1.0e-04 loss: 2.717e-03]strawbyte_v1:  27%|##7       | 816/3000 [45:51<2:05:33,  3.45s/it, lr: 1.0e-04 loss: 1.923e-01]strawbyte_v1:  27%|##7       | 816/3000 [45:51<2:05:33,  3.45s/it, lr: 1.0e-04 loss: 1.923e-01]strawbyte_v1:  27%|##7       | 817/3000 [45:51<2:00:32,  3.31s/it, lr: 1.0e-04 loss: 1.923e-01]strawbyte_v1:  27%|##7       | 817/3000 [45:51<2:00:32,  3.31s/it, lr: 1.0e-04 loss: 1.923e-01]strawbyte_v1:  27%|##7       | 817/3000 [45:54<2:00:32,  3.31s/it, lr: 1.0e-04 loss: 2.532e-01]strawbyte_v1:  27%|##7       | 817/3000 [45:54<2:00:32,  3.31s/it, lr: 1.0e-04 loss: 2.532e-01]strawbyte_v1:  27%|##7       | 818/3000 [45:54<1:57:40,  3.24s/it, lr: 1.0e-04 loss: 2.532e-01]strawbyte_v1:  27%|##7       | 818/3000 [45:54<1:57:40,  3.24s/it, lr: 1.0e-04 loss: 2.532e-01]strawbyte_v1:  27%|##7       | 818/3000 [45:57<1:57:40,  3.24s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  27%|##7       | 818/3000 [45:57<1:57:40,  3.24s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  27%|##7       | 819/3000 [45:57<1:52:01,  3.08s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  27%|##7       | 819/3000 [45:57<1:52:01,  3.08s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  27%|##7       | 819/3000 [46:00<1:52:01,  3.08s/it, lr: 1.0e-04 loss: 1.818e-01]strawbyte_v1:  27%|##7       | 819/3000 [46:00<1:52:01,  3.08s/it, lr: 1.0e-04 loss: 1.818e-01]strawbyte_v1:  27%|##7       | 820/3000 [46:02<1:51:58,  3.08s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  27%|##7       | 820/3000 [46:02<1:51:58,  3.08s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  27%|##7       | 821/3000 [46:02<1:23:28,  2.30s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  27%|##7       | 821/3000 [46:02<1:23:28,  2.30s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  27%|##7       | 821/3000 [46:06<1:23:28,  2.30s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  27%|##7       | 821/3000 [46:06<1:23:28,  2.30s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  27%|##7       | 822/3000 [46:06<1:32:42,  2.55s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  27%|##7       | 822/3000 [46:06<1:32:42,  2.55s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  27%|##7       | 822/3000 [46:08<1:32:42,  2.55s/it, lr: 1.0e-04 loss: 1.121e-02]strawbyte_v1:  27%|##7       | 822/3000 [46:08<1:32:42,  2.55s/it, lr: 1.0e-04 loss: 1.121e-02]strawbyte_v1:  27%|##7       | 823/3000 [46:08<1:34:09,  2.59s/it, lr: 1.0e-04 loss: 1.121e-02]strawbyte_v1:  27%|##7       | 823/3000 [46:08<1:34:09,  2.59s/it, lr: 1.0e-04 loss: 1.121e-02]strawbyte_v1:  27%|##7       | 823/3000 [46:13<1:34:09,  2.59s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  27%|##7       | 823/3000 [46:13<1:34:09,  2.59s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  27%|##7       | 824/3000 [46:13<1:52:14,  3.09s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  27%|##7       | 824/3000 [46:13<1:52:14,  3.09s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  27%|##7       | 824/3000 [46:16<1:52:14,  3.09s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  27%|##7       | 824/3000 [46:16<1:52:14,  3.09s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  28%|##7       | 825/3000 [46:16<1:52:12,  3.10s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  28%|##7       | 825/3000 [46:16<1:52:12,  3.10s/it, lr: 1.0e-04 loss: 2.061e-01]strawbyte_v1:  28%|##7       | 825/3000 [46:19<1:52:12,  3.10s/it, lr: 1.0e-04 loss: 1.809e-01]strawbyte_v1:  28%|##7       | 825/3000 [46:19<1:52:12,  3.10s/it, lr: 1.0e-04 loss: 1.809e-01]strawbyte_v1:  28%|##7       | 826/3000 [46:19<1:48:02,  2.98s/it, lr: 1.0e-04 loss: 1.809e-01]strawbyte_v1:  28%|##7       | 826/3000 [46:19<1:48:02,  2.98s/it, lr: 1.0e-04 loss: 1.809e-01]strawbyte_v1:  28%|##7       | 826/3000 [46:22<1:48:02,  2.98s/it, lr: 1.0e-04 loss: 4.185e-02]strawbyte_v1:  28%|##7       | 826/3000 [46:22<1:48:02,  2.98s/it, lr: 1.0e-04 loss: 4.185e-02]strawbyte_v1:  28%|##7       | 827/3000 [46:22<1:48:24,  2.99s/it, lr: 1.0e-04 loss: 4.185e-02]strawbyte_v1:  28%|##7       | 827/3000 [46:22<1:48:24,  2.99s/it, lr: 1.0e-04 loss: 4.185e-02]strawbyte_v1:  28%|##7       | 827/3000 [46:25<1:48:24,  2.99s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  28%|##7       | 827/3000 [46:25<1:48:24,  2.99s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  28%|##7       | 828/3000 [46:25<1:48:20,  2.99s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  28%|##7       | 828/3000 [46:25<1:48:20,  2.99s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  28%|##7       | 828/3000 [46:28<1:48:20,  2.99s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  28%|##7       | 828/3000 [46:28<1:48:20,  2.99s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  28%|##7       | 829/3000 [46:28<1:49:54,  3.04s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  28%|##7       | 829/3000 [46:28<1:49:54,  3.04s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  28%|##7       | 829/3000 [46:31<1:49:54,  3.04s/it, lr: 1.0e-04 loss: 1.353e-01]strawbyte_v1:  28%|##7       | 829/3000 [46:31<1:49:54,  3.04s/it, lr: 1.0e-04 loss: 1.353e-01]strawbyte_v1:  28%|##7       | 830/3000 [46:34<1:49:51,  3.04s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  28%|##7       | 830/3000 [46:34<1:49:51,  3.04s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  28%|##7       | 831/3000 [46:34<1:23:36,  2.31s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  28%|##7       | 831/3000 [46:34<1:23:36,  2.31s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  28%|##7       | 831/3000 [46:36<1:23:36,  2.31s/it, lr: 1.0e-04 loss: 5.080e-02]strawbyte_v1:  28%|##7       | 831/3000 [46:36<1:23:36,  2.31s/it, lr: 1.0e-04 loss: 5.080e-02]strawbyte_v1:  28%|##7       | 832/3000 [46:36<1:24:05,  2.33s/it, lr: 1.0e-04 loss: 5.080e-02]strawbyte_v1:  28%|##7       | 832/3000 [46:36<1:24:05,  2.33s/it, lr: 1.0e-04 loss: 5.080e-02]strawbyte_v1:  28%|##7       | 832/3000 [46:39<1:24:05,  2.33s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  28%|##7       | 832/3000 [46:39<1:24:05,  2.33s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  28%|##7       | 833/3000 [46:39<1:29:40,  2.48s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  28%|##7       | 833/3000 [46:39<1:29:40,  2.48s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  28%|##7       | 833/3000 [46:41<1:29:40,  2.48s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  28%|##7       | 833/3000 [46:41<1:29:40,  2.48s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  28%|##7       | 834/3000 [46:41<1:25:33,  2.37s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  28%|##7       | 834/3000 [46:41<1:25:33,  2.37s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  28%|##7       | 834/3000 [46:43<1:25:33,  2.37s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  28%|##7       | 834/3000 [46:43<1:25:33,  2.37s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  28%|##7       | 835/3000 [46:43<1:22:48,  2.29s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  28%|##7       | 835/3000 [46:43<1:22:48,  2.29s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  28%|##7       | 835/3000 [46:46<1:22:48,  2.29s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  28%|##7       | 835/3000 [46:46<1:22:48,  2.29s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  28%|##7       | 836/3000 [46:46<1:31:33,  2.54s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  28%|##7       | 836/3000 [46:46<1:31:33,  2.54s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  28%|##7       | 836/3000 [46:51<1:31:33,  2.54s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  28%|##7       | 836/3000 [46:51<1:31:33,  2.54s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  28%|##7       | 837/3000 [46:51<1:50:40,  3.07s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  28%|##7       | 837/3000 [46:51<1:50:40,  3.07s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  28%|##7       | 837/3000 [46:53<1:50:40,  3.07s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  28%|##7       | 837/3000 [46:53<1:50:40,  3.07s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  28%|##7       | 838/3000 [46:53<1:40:08,  2.78s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  28%|##7       | 838/3000 [46:53<1:40:08,  2.78s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  28%|##7       | 838/3000 [46:57<1:40:08,  2.78s/it, lr: 1.0e-04 loss: 1.559e-01]strawbyte_v1:  28%|##7       | 838/3000 [46:57<1:40:08,  2.78s/it, lr: 1.0e-04 loss: 1.559e-01]strawbyte_v1:  28%|##7       | 839/3000 [46:57<1:59:29,  3.32s/it, lr: 1.0e-04 loss: 1.559e-01]strawbyte_v1:  28%|##7       | 839/3000 [46:57<1:59:29,  3.32s/it, lr: 1.0e-04 loss: 1.559e-01]strawbyte_v1:  28%|##7       | 839/3000 [47:02<1:59:29,  3.32s/it, lr: 1.0e-04 loss: 1.324e-01]strawbyte_v1:  28%|##7       | 839/3000 [47:02<1:59:29,  3.32s/it, lr: 1.0e-04 loss: 1.324e-01]strawbyte_v1:  28%|##8       | 840/3000 [47:04<1:59:25,  3.32s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  28%|##8       | 840/3000 [47:04<1:59:25,  3.32s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  28%|##8       | 841/3000 [47:04<1:26:35,  2.41s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  28%|##8       | 841/3000 [47:04<1:26:35,  2.41s/it, lr: 1.0e-04 loss: 1.954e-01]strawbyte_v1:  28%|##8       | 841/3000 [47:07<1:26:35,  2.41s/it, lr: 1.0e-04 loss: 2.117e-01]strawbyte_v1:  28%|##8       | 841/3000 [47:07<1:26:35,  2.41s/it, lr: 1.0e-04 loss: 2.117e-01]strawbyte_v1:  28%|##8       | 842/3000 [47:07<1:28:49,  2.47s/it, lr: 1.0e-04 loss: 2.117e-01]strawbyte_v1:  28%|##8       | 842/3000 [47:07<1:28:49,  2.47s/it, lr: 1.0e-04 loss: 2.117e-01]strawbyte_v1:  28%|##8       | 842/3000 [47:12<1:28:49,  2.47s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  28%|##8       | 842/3000 [47:12<1:28:49,  2.47s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  28%|##8       | 843/3000 [47:12<1:49:58,  3.06s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  28%|##8       | 843/3000 [47:12<1:49:58,  3.06s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  28%|##8       | 843/3000 [47:16<1:49:58,  3.06s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  28%|##8       | 843/3000 [47:16<1:49:58,  3.06s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  28%|##8       | 844/3000 [47:16<2:03:10,  3.43s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  28%|##8       | 844/3000 [47:16<2:03:10,  3.43s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  28%|##8       | 844/3000 [47:19<2:03:10,  3.43s/it, lr: 1.0e-04 loss: 4.579e-02]strawbyte_v1:  28%|##8       | 844/3000 [47:19<2:03:10,  3.43s/it, lr: 1.0e-04 loss: 4.579e-02]strawbyte_v1:  28%|##8       | 845/3000 [47:19<1:55:43,  3.22s/it, lr: 1.0e-04 loss: 4.579e-02]strawbyte_v1:  28%|##8       | 845/3000 [47:19<1:55:43,  3.22s/it, lr: 1.0e-04 loss: 4.579e-02]strawbyte_v1:  28%|##8       | 845/3000 [47:22<1:55:43,  3.22s/it, lr: 1.0e-04 loss: 2.059e-01]strawbyte_v1:  28%|##8       | 845/3000 [47:22<1:55:43,  3.22s/it, lr: 1.0e-04 loss: 2.059e-01]strawbyte_v1:  28%|##8       | 846/3000 [47:22<1:53:28,  3.16s/it, lr: 1.0e-04 loss: 2.059e-01]strawbyte_v1:  28%|##8       | 846/3000 [47:22<1:53:28,  3.16s/it, lr: 1.0e-04 loss: 2.059e-01]strawbyte_v1:  28%|##8       | 846/3000 [47:25<1:53:28,  3.16s/it, lr: 1.0e-04 loss: 1.775e-01]strawbyte_v1:  28%|##8       | 846/3000 [47:25<1:53:28,  3.16s/it, lr: 1.0e-04 loss: 1.775e-01]strawbyte_v1:  28%|##8       | 847/3000 [47:25<1:51:34,  3.11s/it, lr: 1.0e-04 loss: 1.775e-01]strawbyte_v1:  28%|##8       | 847/3000 [47:25<1:51:34,  3.11s/it, lr: 1.0e-04 loss: 1.775e-01]strawbyte_v1:  28%|##8       | 847/3000 [47:28<1:51:34,  3.11s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  28%|##8       | 847/3000 [47:28<1:51:34,  3.11s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  28%|##8       | 848/3000 [47:28<1:50:39,  3.09s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  28%|##8       | 848/3000 [47:28<1:50:39,  3.09s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  28%|##8       | 848/3000 [47:31<1:50:39,  3.09s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  28%|##8       | 848/3000 [47:31<1:50:39,  3.09s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  28%|##8       | 849/3000 [47:31<1:46:34,  2.97s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  28%|##8       | 849/3000 [47:31<1:46:34,  2.97s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  28%|##8       | 849/3000 [47:34<1:46:34,  2.97s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  28%|##8       | 849/3000 [47:34<1:46:34,  2.97s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  28%|##8       | 850/3000 [47:36<1:46:31,  2.97s/it, lr: 1.0e-04 loss: 1.901e-01]strawbyte_v1:  28%|##8       | 850/3000 [47:36<1:46:31,  2.97s/it, lr: 1.0e-04 loss: 1.901e-01]strawbyte_v1:  28%|##8       | 851/3000 [47:36<1:19:45,  2.23s/it, lr: 1.0e-04 loss: 1.901e-01]strawbyte_v1:  28%|##8       | 851/3000 [47:36<1:19:45,  2.23s/it, lr: 1.0e-04 loss: 1.901e-01]strawbyte_v1:  28%|##8       | 851/3000 [47:41<1:19:45,  2.23s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  28%|##8       | 851/3000 [47:41<1:19:45,  2.23s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  28%|##8       | 852/3000 [47:41<1:38:54,  2.76s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  28%|##8       | 852/3000 [47:41<1:38:54,  2.76s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  28%|##8       | 852/3000 [47:44<1:38:54,  2.76s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  28%|##8       | 852/3000 [47:44<1:38:54,  2.76s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  28%|##8       | 853/3000 [47:44<1:44:08,  2.91s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  28%|##8       | 853/3000 [47:44<1:44:08,  2.91s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  28%|##8       | 853/3000 [47:48<1:44:08,  2.91s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  28%|##8       | 853/3000 [47:48<1:44:08,  2.91s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  28%|##8       | 854/3000 [47:48<1:58:21,  3.31s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  28%|##8       | 854/3000 [47:48<1:58:21,  3.31s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  28%|##8       | 854/3000 [47:51<1:58:21,  3.31s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  28%|##8       | 854/3000 [47:51<1:58:21,  3.31s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  28%|##8       | 855/3000 [47:51<1:53:57,  3.19s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  28%|##8       | 855/3000 [47:51<1:53:57,  3.19s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  28%|##8       | 855/3000 [47:54<1:53:57,  3.19s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  28%|##8       | 855/3000 [47:54<1:53:57,  3.19s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  29%|##8       | 856/3000 [47:54<1:50:52,  3.10s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  29%|##8       | 856/3000 [47:54<1:50:52,  3.10s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  29%|##8       | 856/3000 [47:57<1:50:52,  3.10s/it, lr: 1.0e-04 loss: 1.656e-01]strawbyte_v1:  29%|##8       | 856/3000 [47:57<1:50:52,  3.10s/it, lr: 1.0e-04 loss: 1.656e-01]strawbyte_v1:  29%|##8       | 857/3000 [47:57<1:51:12,  3.11s/it, lr: 1.0e-04 loss: 1.656e-01]strawbyte_v1:  29%|##8       | 857/3000 [47:57<1:51:12,  3.11s/it, lr: 1.0e-04 loss: 1.656e-01]strawbyte_v1:  29%|##8       | 857/3000 [48:00<1:51:12,  3.11s/it, lr: 1.0e-04 loss: 1.341e-01]strawbyte_v1:  29%|##8       | 857/3000 [48:00<1:51:12,  3.11s/it, lr: 1.0e-04 loss: 1.341e-01]strawbyte_v1:  29%|##8       | 858/3000 [48:00<1:48:35,  3.04s/it, lr: 1.0e-04 loss: 1.341e-01]strawbyte_v1:  29%|##8       | 858/3000 [48:00<1:48:35,  3.04s/it, lr: 1.0e-04 loss: 1.341e-01]strawbyte_v1:  29%|##8       | 858/3000 [48:02<1:48:35,  3.04s/it, lr: 1.0e-04 loss: 5.872e-02]strawbyte_v1:  29%|##8       | 858/3000 [48:02<1:48:35,  3.04s/it, lr: 1.0e-04 loss: 5.872e-02]strawbyte_v1:  29%|##8       | 859/3000 [48:02<1:38:34,  2.76s/it, lr: 1.0e-04 loss: 5.872e-02]strawbyte_v1:  29%|##8       | 859/3000 [48:02<1:38:34,  2.76s/it, lr: 1.0e-04 loss: 5.872e-02]strawbyte_v1:  29%|##8       | 859/3000 [48:07<1:38:34,  2.76s/it, lr: 1.0e-04 loss: 6.618e-02]strawbyte_v1:  29%|##8       | 859/3000 [48:07<1:38:34,  2.76s/it, lr: 1.0e-04 loss: 6.618e-02]strawbyte_v1:  29%|##8       | 860/3000 [48:09<1:38:31,  2.76s/it, lr: 1.0e-04 loss: 2.184e-01]strawbyte_v1:  29%|##8       | 860/3000 [48:09<1:38:31,  2.76s/it, lr: 1.0e-04 loss: 2.184e-01]strawbyte_v1:  29%|##8       | 861/3000 [48:09<1:10:32,  1.98s/it, lr: 1.0e-04 loss: 2.184e-01]strawbyte_v1:  29%|##8       | 861/3000 [48:09<1:10:32,  1.98s/it, lr: 1.0e-04 loss: 2.184e-01]strawbyte_v1:  29%|##8       | 861/3000 [48:13<1:10:32,  1.98s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  29%|##8       | 861/3000 [48:13<1:10:32,  1.98s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  29%|##8       | 862/3000 [48:13<1:31:34,  2.57s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  29%|##8       | 862/3000 [48:13<1:31:34,  2.57s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  29%|##8       | 862/3000 [48:18<1:31:34,  2.57s/it, lr: 1.0e-04 loss: 3.289e-02]strawbyte_v1:  29%|##8       | 862/3000 [48:18<1:31:34,  2.57s/it, lr: 1.0e-04 loss: 3.289e-02]strawbyte_v1:  29%|##8       | 863/3000 [48:18<1:47:53,  3.03s/it, lr: 1.0e-04 loss: 3.289e-02]strawbyte_v1:  29%|##8       | 863/3000 [48:18<1:47:53,  3.03s/it, lr: 1.0e-04 loss: 3.289e-02]strawbyte_v1:  29%|##8       | 863/3000 [48:21<1:47:53,  3.03s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  29%|##8       | 863/3000 [48:21<1:47:53,  3.03s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  29%|##8       | 864/3000 [48:21<1:48:13,  3.04s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  29%|##8       | 864/3000 [48:21<1:48:13,  3.04s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  29%|##8       | 864/3000 [48:25<1:48:13,  3.04s/it, lr: 1.0e-04 loss: 9.216e-02]strawbyte_v1:  29%|##8       | 864/3000 [48:25<1:48:13,  3.04s/it, lr: 1.0e-04 loss: 9.216e-02]strawbyte_v1:  29%|##8       | 865/3000 [48:25<2:01:38,  3.42s/it, lr: 1.0e-04 loss: 9.216e-02]strawbyte_v1:  29%|##8       | 865/3000 [48:25<2:01:38,  3.42s/it, lr: 1.0e-04 loss: 9.216e-02]strawbyte_v1:  29%|##8       | 865/3000 [48:28<2:01:38,  3.42s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:  29%|##8       | 865/3000 [48:28<2:01:38,  3.42s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:  29%|##8       | 866/3000 [48:28<1:57:10,  3.29s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:  29%|##8       | 866/3000 [48:28<1:57:10,  3.29s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:  29%|##8       | 866/3000 [48:33<1:57:10,  3.29s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  29%|##8       | 866/3000 [48:33<1:57:10,  3.29s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  29%|##8       | 867/3000 [48:33<2:09:25,  3.64s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  29%|##8       | 867/3000 [48:33<2:09:25,  3.64s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  29%|##8       | 867/3000 [48:36<2:09:25,  3.64s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  29%|##8       | 867/3000 [48:36<2:09:25,  3.64s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  29%|##8       | 868/3000 [48:36<2:06:53,  3.57s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  29%|##8       | 868/3000 [48:36<2:06:53,  3.57s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  29%|##8       | 868/3000 [48:40<2:06:53,  3.57s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  29%|##8       | 868/3000 [48:40<2:06:53,  3.57s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  29%|##8       | 869/3000 [48:40<2:15:50,  3.82s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  29%|##8       | 869/3000 [48:40<2:15:50,  3.82s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  29%|##8       | 869/3000 [48:45<2:15:50,  3.82s/it, lr: 1.0e-04 loss: 1.073e-01]strawbyte_v1:  29%|##8       | 869/3000 [48:45<2:15:50,  3.82s/it, lr: 1.0e-04 loss: 1.073e-01]strawbyte_v1:  29%|##9       | 870/3000 [48:48<2:15:46,  3.82s/it, lr: 1.0e-04 loss: 2.309e-01]strawbyte_v1:  29%|##9       | 870/3000 [48:48<2:15:46,  3.82s/it, lr: 1.0e-04 loss: 2.309e-01]strawbyte_v1:  29%|##9       | 871/3000 [48:48<1:38:41,  2.78s/it, lr: 1.0e-04 loss: 2.309e-01]strawbyte_v1:  29%|##9       | 871/3000 [48:48<1:38:41,  2.78s/it, lr: 1.0e-04 loss: 2.309e-01]strawbyte_v1:  29%|##9       | 871/3000 [48:51<1:38:41,  2.78s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  29%|##9       | 871/3000 [48:51<1:38:41,  2.78s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  29%|##9       | 872/3000 [48:51<1:37:50,  2.76s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  29%|##9       | 872/3000 [48:51<1:37:50,  2.76s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  29%|##9       | 872/3000 [48:55<1:37:50,  2.76s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  29%|##9       | 872/3000 [48:55<1:37:50,  2.76s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  29%|##9       | 873/3000 [48:55<1:53:31,  3.20s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  29%|##9       | 873/3000 [48:55<1:53:31,  3.20s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  29%|##9       | 873/3000 [48:59<1:53:31,  3.20s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  29%|##9       | 873/3000 [48:59<1:53:31,  3.20s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  29%|##9       | 874/3000 [48:59<2:03:56,  3.50s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  29%|##9       | 874/3000 [48:59<2:03:56,  3.50s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  29%|##9       | 874/3000 [49:03<2:03:56,  3.50s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  29%|##9       | 874/3000 [49:03<2:03:56,  3.50s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  29%|##9       | 875/3000 [49:03<2:02:55,  3.47s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  29%|##9       | 875/3000 [49:03<2:02:55,  3.47s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  29%|##9       | 875/3000 [49:07<2:02:55,  3.47s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  29%|##9       | 875/3000 [49:07<2:02:55,  3.47s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  29%|##9       | 876/3000 [49:07<2:12:03,  3.73s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  29%|##9       | 876/3000 [49:07<2:12:03,  3.73s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  29%|##9       | 876/3000 [49:10<2:12:03,  3.73s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  29%|##9       | 876/3000 [49:10<2:12:03,  3.73s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  29%|##9       | 877/3000 [49:10<2:03:17,  3.48s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  29%|##9       | 877/3000 [49:10<2:03:17,  3.48s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  29%|##9       | 877/3000 [49:15<2:03:17,  3.48s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  29%|##9       | 877/3000 [49:15<2:03:17,  3.48s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  29%|##9       | 878/3000 [49:15<2:13:46,  3.78s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  29%|##9       | 878/3000 [49:15<2:13:46,  3.78s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  29%|##9       | 878/3000 [49:17<2:13:46,  3.78s/it, lr: 1.0e-04 loss: 2.548e-01]strawbyte_v1:  29%|##9       | 878/3000 [49:17<2:13:46,  3.78s/it, lr: 1.0e-04 loss: 2.548e-01]strawbyte_v1:  29%|##9       | 879/3000 [49:17<1:56:04,  3.28s/it, lr: 1.0e-04 loss: 2.548e-01]strawbyte_v1:  29%|##9       | 879/3000 [49:17<1:56:04,  3.28s/it, lr: 1.0e-04 loss: 2.548e-01]strawbyte_v1:  29%|##9       | 879/3000 [49:19<1:56:04,  3.28s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  29%|##9       | 879/3000 [49:19<1:56:04,  3.28s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  29%|##9       | 880/3000 [49:24<1:56:01,  3.28s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  29%|##9       | 880/3000 [49:24<1:56:01,  3.28s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  29%|##9       | 881/3000 [49:24<1:37:56,  2.77s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  29%|##9       | 881/3000 [49:24<1:37:56,  2.77s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  29%|##9       | 881/3000 [49:27<1:37:56,  2.77s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:  29%|##9       | 881/3000 [49:27<1:37:56,  2.77s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:  29%|##9       | 882/3000 [49:27<1:41:25,  2.87s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:  29%|##9       | 882/3000 [49:27<1:41:25,  2.87s/it, lr: 1.0e-04 loss: 1.489e-01]strawbyte_v1:  29%|##9       | 882/3000 [49:31<1:41:25,  2.87s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  29%|##9       | 882/3000 [49:31<1:41:25,  2.87s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  29%|##9       | 883/3000 [49:31<1:55:28,  3.27s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  29%|##9       | 883/3000 [49:31<1:55:28,  3.27s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  29%|##9       | 883/3000 [49:36<1:55:28,  3.27s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  29%|##9       | 883/3000 [49:36<1:55:28,  3.27s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  29%|##9       | 884/3000 [49:36<2:05:30,  3.56s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  29%|##9       | 884/3000 [49:36<2:05:30,  3.56s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  29%|##9       | 884/3000 [49:39<2:05:30,  3.56s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  29%|##9       | 884/3000 [49:39<2:05:30,  3.56s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  30%|##9       | 885/3000 [49:39<2:01:11,  3.44s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  30%|##9       | 885/3000 [49:39<2:01:11,  3.44s/it, lr: 1.0e-04 loss: 1.310e-01]strawbyte_v1:  30%|##9       | 885/3000 [49:41<2:01:11,  3.44s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  30%|##9       | 885/3000 [49:41<2:01:11,  3.44s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  30%|##9       | 886/3000 [49:41<1:53:21,  3.22s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  30%|##9       | 886/3000 [49:41<1:53:21,  3.22s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  30%|##9       | 886/3000 [49:44<1:53:21,  3.22s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  30%|##9       | 886/3000 [49:44<1:53:21,  3.22s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  30%|##9       | 887/3000 [49:44<1:47:56,  3.07s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  30%|##9       | 887/3000 [49:44<1:47:56,  3.07s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  30%|##9       | 887/3000 [49:49<1:47:56,  3.07s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  30%|##9       | 887/3000 [49:49<1:47:56,  3.07s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  30%|##9       | 888/3000 [49:49<2:01:53,  3.46s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  30%|##9       | 888/3000 [49:49<2:01:53,  3.46s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  30%|##9       | 888/3000 [49:53<2:01:53,  3.46s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  30%|##9       | 888/3000 [49:53<2:01:53,  3.46s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  30%|##9       | 889/3000 [49:53<2:14:42,  3.83s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  30%|##9       | 889/3000 [49:53<2:14:42,  3.83s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  30%|##9       | 889/3000 [49:58<2:14:42,  3.83s/it, lr: 1.0e-04 loss: 8.899e-02]strawbyte_v1:  30%|##9       | 889/3000 [49:58<2:14:42,  3.83s/it, lr: 1.0e-04 loss: 8.899e-02]strawbyte_v1:  30%|##9       | 890/3000 [50:02<2:14:38,  3.83s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  30%|##9       | 890/3000 [50:02<2:14:38,  3.83s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  30%|##9       | 891/3000 [50:02<1:49:16,  3.11s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  30%|##9       | 891/3000 [50:02<1:49:16,  3.11s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  30%|##9       | 891/3000 [50:07<1:49:16,  3.11s/it, lr: 1.0e-04 loss: 5.770e-02]strawbyte_v1:  30%|##9       | 891/3000 [50:07<1:49:16,  3.11s/it, lr: 1.0e-04 loss: 5.770e-02]strawbyte_v1:  30%|##9       | 892/3000 [50:07<2:04:42,  3.55s/it, lr: 1.0e-04 loss: 5.770e-02]strawbyte_v1:  30%|##9       | 892/3000 [50:07<2:04:42,  3.55s/it, lr: 1.0e-04 loss: 5.770e-02]strawbyte_v1:  30%|##9       | 892/3000 [50:12<2:04:42,  3.55s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  30%|##9       | 892/3000 [50:12<2:04:42,  3.55s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  30%|##9       | 893/3000 [50:12<2:11:30,  3.74s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  30%|##9       | 893/3000 [50:12<2:11:30,  3.74s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  30%|##9       | 893/3000 [50:15<2:11:30,  3.74s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:  30%|##9       | 893/3000 [50:15<2:11:30,  3.74s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:  30%|##9       | 894/3000 [50:15<2:04:06,  3.54s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:  30%|##9       | 894/3000 [50:15<2:04:06,  3.54s/it, lr: 1.0e-04 loss: 1.616e-01]strawbyte_v1:  30%|##9       | 894/3000 [50:17<2:04:06,  3.54s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  30%|##9       | 894/3000 [50:17<2:04:06,  3.54s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  30%|##9       | 895/3000 [50:17<1:56:00,  3.31s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  30%|##9       | 895/3000 [50:17<1:56:00,  3.31s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  30%|##9       | 895/3000 [50:21<1:56:00,  3.31s/it, lr: 1.0e-04 loss: 1.589e-01]strawbyte_v1:  30%|##9       | 895/3000 [50:21<1:56:00,  3.31s/it, lr: 1.0e-04 loss: 1.589e-01]strawbyte_v1:  30%|##9       | 896/3000 [50:21<1:56:02,  3.31s/it, lr: 1.0e-04 loss: 1.589e-01]strawbyte_v1:  30%|##9       | 896/3000 [50:21<1:56:02,  3.31s/it, lr: 1.0e-04 loss: 1.589e-01]strawbyte_v1:  30%|##9       | 896/3000 [50:23<1:56:02,  3.31s/it, lr: 1.0e-04 loss: 2.169e-01]strawbyte_v1:  30%|##9       | 896/3000 [50:23<1:56:02,  3.31s/it, lr: 1.0e-04 loss: 2.169e-01]strawbyte_v1:  30%|##9       | 897/3000 [50:23<1:49:56,  3.14s/it, lr: 1.0e-04 loss: 2.169e-01]strawbyte_v1:  30%|##9       | 897/3000 [50:23<1:49:56,  3.14s/it, lr: 1.0e-04 loss: 2.169e-01]strawbyte_v1:  30%|##9       | 897/3000 [50:28<1:49:56,  3.14s/it, lr: 1.0e-04 loss: 9.248e-02]strawbyte_v1:  30%|##9       | 897/3000 [50:28<1:49:56,  3.14s/it, lr: 1.0e-04 loss: 9.248e-02]strawbyte_v1:  30%|##9       | 898/3000 [50:28<2:03:25,  3.52s/it, lr: 1.0e-04 loss: 9.248e-02]strawbyte_v1:  30%|##9       | 898/3000 [50:28<2:03:25,  3.52s/it, lr: 1.0e-04 loss: 9.248e-02]strawbyte_v1:  30%|##9       | 898/3000 [50:32<2:03:25,  3.52s/it, lr: 1.0e-04 loss: 7.743e-02]strawbyte_v1:  30%|##9       | 898/3000 [50:32<2:03:25,  3.52s/it, lr: 1.0e-04 loss: 7.743e-02]strawbyte_v1:  30%|##9       | 899/3000 [50:32<2:15:27,  3.87s/it, lr: 1.0e-04 loss: 7.743e-02]strawbyte_v1:  30%|##9       | 899/3000 [50:32<2:15:27,  3.87s/it, lr: 1.0e-04 loss: 7.743e-02]strawbyte_v1:  30%|##9       | 899/3000 [50:35<2:15:27,  3.87s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  30%|##9       | 899/3000 [50:35<2:15:27,  3.87s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  30%|###       | 900/3000 [50:38<2:15:23,  3.87s/it, lr: 1.0e-04 loss: 1.767e-01]strawbyte_v1:  30%|###       | 900/3000 [50:38<2:15:23,  3.87s/it, lr: 1.0e-04 loss: 1.767e-01]strawbyte_v1:  30%|###       | 901/3000 [50:38<1:35:05,  2.72s/it, lr: 1.0e-04 loss: 1.767e-01]strawbyte_v1:  30%|###       | 901/3000 [50:38<1:35:05,  2.72s/it, lr: 1.0e-04 loss: 1.767e-01]strawbyte_v1:  30%|###       | 901/3000 [50:41<1:35:05,  2.72s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  30%|###       | 901/3000 [50:41<1:35:05,  2.72s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  30%|###       | 902/3000 [50:41<1:37:49,  2.80s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  30%|###       | 902/3000 [50:41<1:37:49,  2.80s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  30%|###       | 902/3000 [50:46<1:37:49,  2.80s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  30%|###       | 902/3000 [50:46<1:37:49,  2.80s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  30%|###       | 903/3000 [50:46<1:54:53,  3.29s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  30%|###       | 903/3000 [50:46<1:54:53,  3.29s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  30%|###       | 903/3000 [50:48<1:54:53,  3.29s/it, lr: 1.0e-04 loss: 4.428e-02]strawbyte_v1:  30%|###       | 903/3000 [50:48<1:54:53,  3.29s/it, lr: 1.0e-04 loss: 4.428e-02]strawbyte_v1:  30%|###       | 904/3000 [50:48<1:49:14,  3.13s/it, lr: 1.0e-04 loss: 4.428e-02]strawbyte_v1:  30%|###       | 904/3000 [50:48<1:49:14,  3.13s/it, lr: 1.0e-04 loss: 4.428e-02]strawbyte_v1:  30%|###       | 904/3000 [50:53<1:49:14,  3.13s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  30%|###       | 904/3000 [50:53<1:49:14,  3.13s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  30%|###       | 905/3000 [50:53<2:02:19,  3.50s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  30%|###       | 905/3000 [50:53<2:02:19,  3.50s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  30%|###       | 905/3000 [50:56<2:02:19,  3.50s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  30%|###       | 905/3000 [50:56<2:02:19,  3.50s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  30%|###       | 906/3000 [50:56<1:57:27,  3.37s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  30%|###       | 906/3000 [50:56<1:57:27,  3.37s/it, lr: 1.0e-04 loss: 1.420e-01]strawbyte_v1:  30%|###       | 906/3000 [51:00<1:57:27,  3.37s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  30%|###       | 906/3000 [51:00<1:57:27,  3.37s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  30%|###       | 907/3000 [51:00<2:10:26,  3.74s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  30%|###       | 907/3000 [51:00<2:10:26,  3.74s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  30%|###       | 907/3000 [51:03<2:10:26,  3.74s/it, lr: 1.0e-04 loss: 2.018e-01]strawbyte_v1:  30%|###       | 907/3000 [51:03<2:10:26,  3.74s/it, lr: 1.0e-04 loss: 2.018e-01]strawbyte_v1:  30%|###       | 908/3000 [51:03<1:59:27,  3.43s/it, lr: 1.0e-04 loss: 2.018e-01]strawbyte_v1:  30%|###       | 908/3000 [51:03<1:59:27,  3.43s/it, lr: 1.0e-04 loss: 2.018e-01]strawbyte_v1:  30%|###       | 908/3000 [51:06<1:59:27,  3.43s/it, lr: 1.0e-04 loss: 5.803e-02]strawbyte_v1:  30%|###       | 908/3000 [51:06<1:59:27,  3.43s/it, lr: 1.0e-04 loss: 5.803e-02]strawbyte_v1:  30%|###       | 909/3000 [51:06<1:51:34,  3.20s/it, lr: 1.0e-04 loss: 5.803e-02]strawbyte_v1:  30%|###       | 909/3000 [51:06<1:51:34,  3.20s/it, lr: 1.0e-04 loss: 5.803e-02]strawbyte_v1:  30%|###       | 909/3000 [51:09<1:51:34,  3.20s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  30%|###       | 909/3000 [51:09<1:51:34,  3.20s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  30%|###       | 910/3000 [51:13<1:51:31,  3.20s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  30%|###       | 910/3000 [51:13<1:51:31,  3.20s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  30%|###       | 911/3000 [51:14<1:35:49,  2.75s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  30%|###       | 911/3000 [51:14<1:35:49,  2.75s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  30%|###       | 911/3000 [51:16<1:35:49,  2.75s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  30%|###       | 911/3000 [51:16<1:35:49,  2.75s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  30%|###       | 912/3000 [51:16<1:30:25,  2.60s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  30%|###       | 912/3000 [51:16<1:30:25,  2.60s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  30%|###       | 912/3000 [51:20<1:30:25,  2.60s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  30%|###       | 912/3000 [51:20<1:30:25,  2.60s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  30%|###       | 913/3000 [51:20<1:46:23,  3.06s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  30%|###       | 913/3000 [51:20<1:46:23,  3.06s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  30%|###       | 913/3000 [51:25<1:46:23,  3.06s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  30%|###       | 913/3000 [51:25<1:46:23,  3.06s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  30%|###       | 914/3000 [51:25<2:00:21,  3.46s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  30%|###       | 914/3000 [51:25<2:00:21,  3.46s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  30%|###       | 914/3000 [51:27<2:00:21,  3.46s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  30%|###       | 914/3000 [51:27<2:00:21,  3.46s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  30%|###       | 915/3000 [51:27<1:54:57,  3.31s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  30%|###       | 915/3000 [51:27<1:54:57,  3.31s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  30%|###       | 915/3000 [51:30<1:54:57,  3.31s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  30%|###       | 915/3000 [51:30<1:54:57,  3.31s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  31%|###       | 916/3000 [51:30<1:42:43,  2.96s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  31%|###       | 916/3000 [51:30<1:42:43,  2.96s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  31%|###       | 916/3000 [51:33<1:42:43,  2.96s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  31%|###       | 916/3000 [51:33<1:42:43,  2.96s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  31%|###       | 917/3000 [51:33<1:44:15,  3.00s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  31%|###       | 917/3000 [51:33<1:44:15,  3.00s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  31%|###       | 917/3000 [51:35<1:44:15,  3.00s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  31%|###       | 917/3000 [51:35<1:44:15,  3.00s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  31%|###       | 918/3000 [51:35<1:34:43,  2.73s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  31%|###       | 918/3000 [51:35<1:34:43,  2.73s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  31%|###       | 918/3000 [51:37<1:34:43,  2.73s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  31%|###       | 918/3000 [51:37<1:34:43,  2.73s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  31%|###       | 919/3000 [51:37<1:28:17,  2.55s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  31%|###       | 919/3000 [51:37<1:28:17,  2.55s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  31%|###       | 919/3000 [51:40<1:28:17,  2.55s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  31%|###       | 919/3000 [51:40<1:28:17,  2.55s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  31%|###       | 920/3000 [51:43<1:28:14,  2.55s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  31%|###       | 920/3000 [51:43<1:28:14,  2.55s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  31%|###       | 921/3000 [51:43<1:12:38,  2.10s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  31%|###       | 921/3000 [51:43<1:12:38,  2.10s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  31%|###       | 921/3000 [51:46<1:12:38,  2.10s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  31%|###       | 921/3000 [51:46<1:12:38,  2.10s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  31%|###       | 922/3000 [51:46<1:19:32,  2.30s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  31%|###       | 922/3000 [51:46<1:19:32,  2.30s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  31%|###       | 922/3000 [51:48<1:19:32,  2.30s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:  31%|###       | 922/3000 [51:48<1:19:32,  2.30s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:  31%|###       | 923/3000 [51:48<1:22:25,  2.38s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:  31%|###       | 923/3000 [51:48<1:22:25,  2.38s/it, lr: 1.0e-04 loss: 1.957e-01]strawbyte_v1:  31%|###       | 923/3000 [51:52<1:22:25,  2.38s/it, lr: 1.0e-04 loss: 1.714e-01]strawbyte_v1:  31%|###       | 923/3000 [51:52<1:22:25,  2.38s/it, lr: 1.0e-04 loss: 1.714e-01]strawbyte_v1:  31%|###       | 924/3000 [51:52<1:30:11,  2.61s/it, lr: 1.0e-04 loss: 1.714e-01]strawbyte_v1:  31%|###       | 924/3000 [51:52<1:30:11,  2.61s/it, lr: 1.0e-04 loss: 1.714e-01]strawbyte_v1:  31%|###       | 924/3000 [51:54<1:30:11,  2.61s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  31%|###       | 924/3000 [51:54<1:30:11,  2.61s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  31%|###       | 925/3000 [51:54<1:30:58,  2.63s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  31%|###       | 925/3000 [51:54<1:30:58,  2.63s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  31%|###       | 925/3000 [51:57<1:30:58,  2.63s/it, lr: 1.0e-04 loss: 3.921e-02]strawbyte_v1:  31%|###       | 925/3000 [51:57<1:30:58,  2.63s/it, lr: 1.0e-04 loss: 3.921e-02]strawbyte_v1:  31%|###       | 926/3000 [51:57<1:35:03,  2.75s/it, lr: 1.0e-04 loss: 3.921e-02]strawbyte_v1:  31%|###       | 926/3000 [51:57<1:35:03,  2.75s/it, lr: 1.0e-04 loss: 3.921e-02]strawbyte_v1:  31%|###       | 926/3000 [52:00<1:35:03,  2.75s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  31%|###       | 926/3000 [52:00<1:35:03,  2.75s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  31%|###       | 927/3000 [52:00<1:37:39,  2.83s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  31%|###       | 927/3000 [52:00<1:37:39,  2.83s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  31%|###       | 927/3000 [52:05<1:37:39,  2.83s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  31%|###       | 927/3000 [52:05<1:37:39,  2.83s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  31%|###       | 928/3000 [52:05<1:56:02,  3.36s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  31%|###       | 928/3000 [52:05<1:56:02,  3.36s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  31%|###       | 928/3000 [52:09<1:56:02,  3.36s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  31%|###       | 928/3000 [52:09<1:56:02,  3.36s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  31%|###       | 929/3000 [52:09<2:06:47,  3.67s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  31%|###       | 929/3000 [52:09<2:06:47,  3.67s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  31%|###       | 929/3000 [52:12<2:06:47,  3.67s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  31%|###       | 929/3000 [52:12<2:06:47,  3.67s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  31%|###1      | 930/3000 [52:15<2:06:44,  3.67s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  31%|###1      | 930/3000 [52:15<2:06:44,  3.67s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  31%|###1      | 931/3000 [52:15<1:32:16,  2.68s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  31%|###1      | 931/3000 [52:15<1:32:16,  2.68s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  31%|###1      | 931/3000 [52:20<1:32:16,  2.68s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  31%|###1      | 931/3000 [52:20<1:32:16,  2.68s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  31%|###1      | 932/3000 [52:20<1:49:11,  3.17s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  31%|###1      | 932/3000 [52:20<1:49:11,  3.17s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  31%|###1      | 932/3000 [52:23<1:49:11,  3.17s/it, lr: 1.0e-04 loss: 2.411e-01]strawbyte_v1:  31%|###1      | 932/3000 [52:23<1:49:11,  3.17s/it, lr: 1.0e-04 loss: 2.411e-01]strawbyte_v1:  31%|###1      | 933/3000 [52:23<1:44:51,  3.04s/it, lr: 1.0e-04 loss: 2.411e-01]strawbyte_v1:  31%|###1      | 933/3000 [52:23<1:44:51,  3.04s/it, lr: 1.0e-04 loss: 2.411e-01]strawbyte_v1:  31%|###1      | 933/3000 [52:25<1:44:51,  3.04s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  31%|###1      | 933/3000 [52:25<1:44:51,  3.04s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  31%|###1      | 934/3000 [52:25<1:41:15,  2.94s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  31%|###1      | 934/3000 [52:25<1:41:15,  2.94s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  31%|###1      | 934/3000 [52:29<1:41:15,  2.94s/it, lr: 1.0e-04 loss: 2.573e-01]strawbyte_v1:  31%|###1      | 934/3000 [52:29<1:41:15,  2.94s/it, lr: 1.0e-04 loss: 2.573e-01]strawbyte_v1:  31%|###1      | 935/3000 [52:29<1:42:47,  2.99s/it, lr: 1.0e-04 loss: 2.573e-01]strawbyte_v1:  31%|###1      | 935/3000 [52:29<1:42:47,  2.99s/it, lr: 1.0e-04 loss: 2.573e-01]strawbyte_v1:  31%|###1      | 935/3000 [52:32<1:42:47,  2.99s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  31%|###1      | 935/3000 [52:32<1:42:47,  2.99s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  31%|###1      | 936/3000 [52:32<1:42:59,  2.99s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  31%|###1      | 936/3000 [52:32<1:42:59,  2.99s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  31%|###1      | 936/3000 [52:34<1:42:59,  2.99s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  31%|###1      | 936/3000 [52:34<1:42:59,  2.99s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  31%|###1      | 937/3000 [52:34<1:37:44,  2.84s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  31%|###1      | 937/3000 [52:34<1:37:44,  2.84s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  31%|###1      | 937/3000 [52:38<1:37:44,  2.84s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  31%|###1      | 937/3000 [52:38<1:37:44,  2.84s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  31%|###1      | 938/3000 [52:38<1:53:17,  3.30s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  31%|###1      | 938/3000 [52:38<1:53:17,  3.30s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  31%|###1      | 938/3000 [52:41<1:53:17,  3.30s/it, lr: 1.0e-04 loss: 2.147e-01]strawbyte_v1:  31%|###1      | 938/3000 [52:41<1:53:17,  3.30s/it, lr: 1.0e-04 loss: 2.147e-01]strawbyte_v1:  31%|###1      | 939/3000 [52:41<1:44:22,  3.04s/it, lr: 1.0e-04 loss: 2.147e-01]strawbyte_v1:  31%|###1      | 939/3000 [52:41<1:44:22,  3.04s/it, lr: 1.0e-04 loss: 2.147e-01]strawbyte_v1:  31%|###1      | 939/3000 [52:45<1:44:22,  3.04s/it, lr: 1.0e-04 loss: 1.728e-03]strawbyte_v1:  31%|###1      | 939/3000 [52:45<1:44:22,  3.04s/it, lr: 1.0e-04 loss: 1.728e-03]strawbyte_v1:  31%|###1      | 940/3000 [52:47<1:44:19,  3.04s/it, lr: 1.0e-04 loss: 2.020e-01]strawbyte_v1:  31%|###1      | 940/3000 [52:47<1:44:19,  3.04s/it, lr: 1.0e-04 loss: 2.020e-01]strawbyte_v1:  31%|###1      | 941/3000 [52:47<1:13:17,  2.14s/it, lr: 1.0e-04 loss: 2.020e-01]strawbyte_v1:  31%|###1      | 941/3000 [52:47<1:13:17,  2.14s/it, lr: 1.0e-04 loss: 2.020e-01]strawbyte_v1:  31%|###1      | 941/3000 [52:52<1:13:17,  2.14s/it, lr: 1.0e-04 loss: 6.832e-02]strawbyte_v1:  31%|###1      | 941/3000 [52:52<1:13:17,  2.14s/it, lr: 1.0e-04 loss: 6.832e-02]strawbyte_v1:  31%|###1      | 942/3000 [52:52<1:33:47,  2.73s/it, lr: 1.0e-04 loss: 6.832e-02]strawbyte_v1:  31%|###1      | 942/3000 [52:52<1:33:47,  2.73s/it, lr: 1.0e-04 loss: 6.832e-02]strawbyte_v1:  31%|###1      | 942/3000 [52:56<1:33:47,  2.73s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  31%|###1      | 942/3000 [52:56<1:33:47,  2.73s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  31%|###1      | 943/3000 [52:56<1:48:17,  3.16s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  31%|###1      | 943/3000 [52:56<1:48:17,  3.16s/it, lr: 1.0e-04 loss: 1.439e-01]strawbyte_v1:  31%|###1      | 943/3000 [52:59<1:48:17,  3.16s/it, lr: 1.0e-04 loss: 4.893e-02]strawbyte_v1:  31%|###1      | 943/3000 [52:59<1:48:17,  3.16s/it, lr: 1.0e-04 loss: 4.893e-02]strawbyte_v1:  31%|###1      | 944/3000 [52:59<1:45:43,  3.09s/it, lr: 1.0e-04 loss: 4.893e-02]strawbyte_v1:  31%|###1      | 944/3000 [52:59<1:45:43,  3.09s/it, lr: 1.0e-04 loss: 4.893e-02]strawbyte_v1:  31%|###1      | 944/3000 [53:01<1:45:43,  3.09s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  31%|###1      | 944/3000 [53:01<1:45:43,  3.09s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  32%|###1      | 945/3000 [53:01<1:36:16,  2.81s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  32%|###1      | 945/3000 [53:01<1:36:16,  2.81s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  32%|###1      | 945/3000 [53:04<1:36:16,  2.81s/it, lr: 1.0e-04 loss: 9.447e-02]strawbyte_v1:  32%|###1      | 945/3000 [53:04<1:36:16,  2.81s/it, lr: 1.0e-04 loss: 9.447e-02]strawbyte_v1:  32%|###1      | 946/3000 [53:04<1:32:34,  2.70s/it, lr: 1.0e-04 loss: 9.447e-02]strawbyte_v1:  32%|###1      | 946/3000 [53:04<1:32:34,  2.70s/it, lr: 1.0e-04 loss: 9.447e-02]strawbyte_v1:  32%|###1      | 946/3000 [53:07<1:32:34,  2.70s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  32%|###1      | 946/3000 [53:07<1:32:34,  2.70s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  32%|###1      | 947/3000 [53:07<1:34:39,  2.77s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  32%|###1      | 947/3000 [53:07<1:34:39,  2.77s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  32%|###1      | 947/3000 [53:09<1:34:39,  2.77s/it, lr: 1.0e-04 loss: 1.574e-01]strawbyte_v1:  32%|###1      | 947/3000 [53:09<1:34:39,  2.77s/it, lr: 1.0e-04 loss: 1.574e-01]strawbyte_v1:  32%|###1      | 948/3000 [53:09<1:34:14,  2.76s/it, lr: 1.0e-04 loss: 1.574e-01]strawbyte_v1:  32%|###1      | 948/3000 [53:09<1:34:14,  2.76s/it, lr: 1.0e-04 loss: 1.574e-01]strawbyte_v1:  32%|###1      | 948/3000 [53:14<1:34:14,  2.76s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  32%|###1      | 948/3000 [53:14<1:34:14,  2.76s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  32%|###1      | 949/3000 [53:14<1:54:21,  3.35s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  32%|###1      | 949/3000 [53:14<1:54:21,  3.35s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  32%|###1      | 949/3000 [53:19<1:54:21,  3.35s/it, lr: 1.0e-04 loss: 1.137e-01]strawbyte_v1:  32%|###1      | 949/3000 [53:19<1:54:21,  3.35s/it, lr: 1.0e-04 loss: 1.137e-01]strawbyte_v1:  32%|###1      | 950/3000 [53:22<1:54:17,  3.35s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  32%|###1      | 950/3000 [53:22<1:54:17,  3.35s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  32%|###1      | 951/3000 [53:22<1:25:25,  2.50s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  32%|###1      | 951/3000 [53:22<1:25:25,  2.50s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  32%|###1      | 951/3000 [53:24<1:25:25,  2.50s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  32%|###1      | 951/3000 [53:24<1:25:25,  2.50s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  32%|###1      | 952/3000 [53:24<1:27:03,  2.55s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  32%|###1      | 952/3000 [53:24<1:27:03,  2.55s/it, lr: 1.0e-04 loss: 2.040e-01]strawbyte_v1:  32%|###1      | 952/3000 [53:28<1:27:03,  2.55s/it, lr: 1.0e-04 loss: 7.096e-02]strawbyte_v1:  32%|###1      | 952/3000 [53:28<1:27:03,  2.55s/it, lr: 1.0e-04 loss: 7.096e-02]strawbyte_v1:  32%|###1      | 953/3000 [53:28<1:33:16,  2.73s/it, lr: 1.0e-04 loss: 7.096e-02]strawbyte_v1:  32%|###1      | 953/3000 [53:28<1:33:16,  2.73s/it, lr: 1.0e-04 loss: 7.096e-02]strawbyte_v1:  32%|###1      | 953/3000 [53:30<1:33:16,  2.73s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  32%|###1      | 953/3000 [53:30<1:33:16,  2.73s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  32%|###1      | 954/3000 [53:30<1:33:02,  2.73s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  32%|###1      | 954/3000 [53:30<1:33:02,  2.73s/it, lr: 1.0e-04 loss: 2.237e-01]strawbyte_v1:  32%|###1      | 954/3000 [53:33<1:33:02,  2.73s/it, lr: 1.0e-04 loss: 2.010e-01]strawbyte_v1:  32%|###1      | 954/3000 [53:33<1:33:02,  2.73s/it, lr: 1.0e-04 loss: 2.010e-01]strawbyte_v1:  32%|###1      | 955/3000 [53:33<1:35:42,  2.81s/it, lr: 1.0e-04 loss: 2.010e-01]strawbyte_v1:  32%|###1      | 955/3000 [53:33<1:35:42,  2.81s/it, lr: 1.0e-04 loss: 2.010e-01]strawbyte_v1:  32%|###1      | 955/3000 [53:36<1:35:42,  2.81s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  32%|###1      | 955/3000 [53:36<1:35:42,  2.81s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  32%|###1      | 956/3000 [53:36<1:37:44,  2.87s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  32%|###1      | 956/3000 [53:36<1:37:44,  2.87s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  32%|###1      | 956/3000 [53:40<1:37:44,  2.87s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  32%|###1      | 956/3000 [53:40<1:37:44,  2.87s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  32%|###1      | 957/3000 [53:40<1:42:59,  3.02s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  32%|###1      | 957/3000 [53:40<1:42:59,  3.02s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  32%|###1      | 957/3000 [53:44<1:42:59,  3.02s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  32%|###1      | 957/3000 [53:44<1:42:59,  3.02s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  32%|###1      | 958/3000 [53:44<1:57:05,  3.44s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  32%|###1      | 958/3000 [53:44<1:57:05,  3.44s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  32%|###1      | 958/3000 [53:49<1:57:05,  3.44s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  32%|###1      | 958/3000 [53:49<1:57:05,  3.44s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  32%|###1      | 959/3000 [53:49<2:07:14,  3.74s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  32%|###1      | 959/3000 [53:49<2:07:14,  3.74s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  32%|###1      | 959/3000 [53:52<2:07:14,  3.74s/it, lr: 1.0e-04 loss: 1.584e-01]strawbyte_v1:  32%|###1      | 959/3000 [53:52<2:07:14,  3.74s/it, lr: 1.0e-04 loss: 1.584e-01]strawbyte_v1:  32%|###2      | 960/3000 [53:56<2:07:10,  3.74s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  32%|###2      | 960/3000 [53:56<2:07:10,  3.74s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  32%|###2      | 961/3000 [53:56<1:43:24,  3.04s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  32%|###2      | 961/3000 [53:56<1:43:24,  3.04s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  32%|###2      | 961/3000 [53:59<1:43:24,  3.04s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  32%|###2      | 961/3000 [53:59<1:43:24,  3.04s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  32%|###2      | 962/3000 [53:59<1:42:08,  3.01s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  32%|###2      | 962/3000 [53:59<1:42:08,  3.01s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  32%|###2      | 962/3000 [54:03<1:42:08,  3.01s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  32%|###2      | 962/3000 [54:03<1:42:08,  3.01s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  32%|###2      | 963/3000 [54:03<1:53:49,  3.35s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  32%|###2      | 963/3000 [54:03<1:53:49,  3.35s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  32%|###2      | 963/3000 [54:06<1:53:49,  3.35s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  32%|###2      | 963/3000 [54:06<1:53:49,  3.35s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  32%|###2      | 964/3000 [54:06<1:50:33,  3.26s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  32%|###2      | 964/3000 [54:06<1:50:33,  3.26s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  32%|###2      | 964/3000 [54:09<1:50:33,  3.26s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  32%|###2      | 964/3000 [54:09<1:50:33,  3.26s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  32%|###2      | 965/3000 [54:09<1:47:19,  3.16s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  32%|###2      | 965/3000 [54:09<1:47:19,  3.16s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  32%|###2      | 965/3000 [54:14<1:47:19,  3.16s/it, lr: 1.0e-04 loss: 9.988e-02]strawbyte_v1:  32%|###2      | 965/3000 [54:14<1:47:19,  3.16s/it, lr: 1.0e-04 loss: 9.988e-02]strawbyte_v1:  32%|###2      | 966/3000 [54:14<1:58:46,  3.50s/it, lr: 1.0e-04 loss: 9.988e-02]strawbyte_v1:  32%|###2      | 966/3000 [54:14<1:58:46,  3.50s/it, lr: 1.0e-04 loss: 9.988e-02]strawbyte_v1:  32%|###2      | 966/3000 [54:17<1:58:46,  3.50s/it, lr: 1.0e-04 loss: 5.597e-02]strawbyte_v1:  32%|###2      | 966/3000 [54:17<1:58:46,  3.50s/it, lr: 1.0e-04 loss: 5.597e-02]strawbyte_v1:  32%|###2      | 967/3000 [54:17<1:55:38,  3.41s/it, lr: 1.0e-04 loss: 5.597e-02]strawbyte_v1:  32%|###2      | 967/3000 [54:17<1:55:38,  3.41s/it, lr: 1.0e-04 loss: 5.597e-02]strawbyte_v1:  32%|###2      | 967/3000 [54:20<1:55:38,  3.41s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  32%|###2      | 967/3000 [54:20<1:55:38,  3.41s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  32%|###2      | 968/3000 [54:20<1:50:28,  3.26s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  32%|###2      | 968/3000 [54:20<1:50:28,  3.26s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  32%|###2      | 968/3000 [54:24<1:50:28,  3.26s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  32%|###2      | 968/3000 [54:24<1:50:28,  3.26s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  32%|###2      | 969/3000 [54:24<2:01:42,  3.60s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  32%|###2      | 969/3000 [54:24<2:01:42,  3.60s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  32%|###2      | 969/3000 [54:29<2:01:42,  3.60s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:  32%|###2      | 969/3000 [54:29<2:01:42,  3.60s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:  32%|###2      | 970/3000 [54:32<2:01:38,  3.60s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  32%|###2      | 970/3000 [54:32<2:01:38,  3.60s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  32%|###2      | 971/3000 [54:32<1:31:56,  2.72s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  32%|###2      | 971/3000 [54:32<1:31:56,  2.72s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  32%|###2      | 971/3000 [54:35<1:31:56,  2.72s/it, lr: 1.0e-04 loss: 1.651e-01]strawbyte_v1:  32%|###2      | 971/3000 [54:35<1:31:56,  2.72s/it, lr: 1.0e-04 loss: 1.651e-01]strawbyte_v1:  32%|###2      | 972/3000 [54:35<1:34:08,  2.79s/it, lr: 1.0e-04 loss: 1.651e-01]strawbyte_v1:  32%|###2      | 972/3000 [54:35<1:34:08,  2.79s/it, lr: 1.0e-04 loss: 1.651e-01]strawbyte_v1:  32%|###2      | 972/3000 [54:38<1:34:08,  2.79s/it, lr: 1.0e-04 loss: 1.914e-01]strawbyte_v1:  32%|###2      | 972/3000 [54:38<1:34:08,  2.79s/it, lr: 1.0e-04 loss: 1.914e-01]strawbyte_v1:  32%|###2      | 973/3000 [54:38<1:33:27,  2.77s/it, lr: 1.0e-04 loss: 1.914e-01]strawbyte_v1:  32%|###2      | 973/3000 [54:38<1:33:27,  2.77s/it, lr: 1.0e-04 loss: 1.914e-01]strawbyte_v1:  32%|###2      | 973/3000 [54:42<1:33:27,  2.77s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  32%|###2      | 973/3000 [54:42<1:33:27,  2.77s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  32%|###2      | 974/3000 [54:42<1:51:51,  3.31s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  32%|###2      | 974/3000 [54:42<1:51:51,  3.31s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  32%|###2      | 974/3000 [54:45<1:51:51,  3.31s/it, lr: 1.0e-04 loss: 3.553e-02]strawbyte_v1:  32%|###2      | 974/3000 [54:45<1:51:51,  3.31s/it, lr: 1.0e-04 loss: 3.553e-02]strawbyte_v1:  32%|###2      | 975/3000 [54:45<1:46:06,  3.14s/it, lr: 1.0e-04 loss: 3.553e-02]strawbyte_v1:  32%|###2      | 975/3000 [54:45<1:46:06,  3.14s/it, lr: 1.0e-04 loss: 3.553e-02]strawbyte_v1:  32%|###2      | 975/3000 [54:48<1:46:06,  3.14s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  32%|###2      | 975/3000 [54:48<1:46:06,  3.14s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  33%|###2      | 976/3000 [54:48<1:41:53,  3.02s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  33%|###2      | 976/3000 [54:48<1:41:53,  3.02s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  33%|###2      | 976/3000 [54:51<1:41:53,  3.02s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  33%|###2      | 976/3000 [54:51<1:41:53,  3.02s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  33%|###2      | 977/3000 [54:51<1:42:03,  3.03s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  33%|###2      | 977/3000 [54:51<1:42:03,  3.03s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  33%|###2      | 977/3000 [54:54<1:42:03,  3.03s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  33%|###2      | 977/3000 [54:54<1:42:03,  3.03s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  33%|###2      | 978/3000 [54:54<1:45:04,  3.12s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  33%|###2      | 978/3000 [54:54<1:45:04,  3.12s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  33%|###2      | 978/3000 [54:57<1:45:04,  3.12s/it, lr: 1.0e-04 loss: 8.528e-02]strawbyte_v1:  33%|###2      | 978/3000 [54:57<1:45:04,  3.12s/it, lr: 1.0e-04 loss: 8.528e-02]strawbyte_v1:  33%|###2      | 979/3000 [54:57<1:40:54,  3.00s/it, lr: 1.0e-04 loss: 8.528e-02]strawbyte_v1:  33%|###2      | 979/3000 [54:57<1:40:54,  3.00s/it, lr: 1.0e-04 loss: 8.528e-02]strawbyte_v1:  33%|###2      | 979/3000 [55:01<1:40:54,  3.00s/it, lr: 1.0e-04 loss: 1.031e-01]strawbyte_v1:  33%|###2      | 979/3000 [55:01<1:40:54,  3.00s/it, lr: 1.0e-04 loss: 1.031e-01]strawbyte_v1:  33%|###2      | 980/3000 [55:04<1:40:51,  3.00s/it, lr: 1.0e-04 loss: 1.350e-03]strawbyte_v1:  33%|###2      | 980/3000 [55:04<1:40:51,  3.00s/it, lr: 1.0e-04 loss: 1.350e-03]strawbyte_v1:  33%|###2      | 981/3000 [55:04<1:15:14,  2.24s/it, lr: 1.0e-04 loss: 1.350e-03]strawbyte_v1:  33%|###2      | 981/3000 [55:04<1:15:14,  2.24s/it, lr: 1.0e-04 loss: 1.350e-03]strawbyte_v1:  33%|###2      | 981/3000 [55:09<1:15:14,  2.24s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  33%|###2      | 981/3000 [55:09<1:15:14,  2.24s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  33%|###2      | 982/3000 [55:09<1:36:30,  2.87s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  33%|###2      | 982/3000 [55:09<1:36:30,  2.87s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  33%|###2      | 982/3000 [55:12<1:36:30,  2.87s/it, lr: 1.0e-04 loss: 7.616e-02]strawbyte_v1:  33%|###2      | 982/3000 [55:12<1:36:30,  2.87s/it, lr: 1.0e-04 loss: 7.616e-02]strawbyte_v1:  33%|###2      | 983/3000 [55:12<1:35:08,  2.83s/it, lr: 1.0e-04 loss: 7.616e-02]strawbyte_v1:  33%|###2      | 983/3000 [55:12<1:35:08,  2.83s/it, lr: 1.0e-04 loss: 7.616e-02]strawbyte_v1:  33%|###2      | 983/3000 [55:16<1:35:08,  2.83s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  33%|###2      | 983/3000 [55:16<1:35:08,  2.83s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  33%|###2      | 984/3000 [55:16<1:49:19,  3.25s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  33%|###2      | 984/3000 [55:16<1:49:19,  3.25s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  33%|###2      | 984/3000 [55:18<1:49:19,  3.25s/it, lr: 1.0e-04 loss: 2.072e-01]strawbyte_v1:  33%|###2      | 984/3000 [55:18<1:49:19,  3.25s/it, lr: 1.0e-04 loss: 2.072e-01]strawbyte_v1:  33%|###2      | 985/3000 [55:18<1:41:17,  3.02s/it, lr: 1.0e-04 loss: 2.072e-01]strawbyte_v1:  33%|###2      | 985/3000 [55:18<1:41:17,  3.02s/it, lr: 1.0e-04 loss: 2.072e-01]strawbyte_v1:  33%|###2      | 985/3000 [55:20<1:41:17,  3.02s/it, lr: 1.0e-04 loss: 1.548e-01]strawbyte_v1:  33%|###2      | 985/3000 [55:20<1:41:17,  3.02s/it, lr: 1.0e-04 loss: 1.548e-01]strawbyte_v1:  33%|###2      | 986/3000 [55:20<1:32:20,  2.75s/it, lr: 1.0e-04 loss: 1.548e-01]strawbyte_v1:  33%|###2      | 986/3000 [55:20<1:32:20,  2.75s/it, lr: 1.0e-04 loss: 1.548e-01]strawbyte_v1:  33%|###2      | 986/3000 [55:25<1:32:20,  2.75s/it, lr: 1.0e-04 loss: 1.658e-01]strawbyte_v1:  33%|###2      | 986/3000 [55:25<1:32:20,  2.75s/it, lr: 1.0e-04 loss: 1.658e-01]strawbyte_v1:  33%|###2      | 987/3000 [55:25<1:47:16,  3.20s/it, lr: 1.0e-04 loss: 1.658e-01]strawbyte_v1:  33%|###2      | 987/3000 [55:25<1:47:16,  3.20s/it, lr: 1.0e-04 loss: 1.658e-01]strawbyte_v1:  33%|###2      | 987/3000 [55:28<1:47:16,  3.20s/it, lr: 1.0e-04 loss: 3.006e-02]strawbyte_v1:  33%|###2      | 987/3000 [55:28<1:47:16,  3.20s/it, lr: 1.0e-04 loss: 3.006e-02]strawbyte_v1:  33%|###2      | 988/3000 [55:28<1:44:03,  3.10s/it, lr: 1.0e-04 loss: 3.006e-02]strawbyte_v1:  33%|###2      | 988/3000 [55:28<1:44:03,  3.10s/it, lr: 1.0e-04 loss: 3.006e-02]strawbyte_v1:  33%|###2      | 988/3000 [55:32<1:44:03,  3.10s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  33%|###2      | 988/3000 [55:32<1:44:03,  3.10s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  33%|###2      | 989/3000 [55:32<1:58:19,  3.53s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  33%|###2      | 989/3000 [55:32<1:58:19,  3.53s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  33%|###2      | 989/3000 [55:35<1:58:19,  3.53s/it, lr: 1.0e-04 loss: 3.583e-02]strawbyte_v1:  33%|###2      | 989/3000 [55:35<1:58:19,  3.53s/it, lr: 1.0e-04 loss: 3.583e-02]strawbyte_v1:  33%|###3      | 990/3000 [55:39<1:58:16,  3.53s/it, lr: 1.0e-04 loss: 8.750e-02]strawbyte_v1:  33%|###3      | 990/3000 [55:39<1:58:16,  3.53s/it, lr: 1.0e-04 loss: 8.750e-02]strawbyte_v1:  33%|###3      | 991/3000 [55:39<1:37:36,  2.92s/it, lr: 1.0e-04 loss: 8.750e-02]strawbyte_v1:  33%|###3      | 991/3000 [55:39<1:37:36,  2.92s/it, lr: 1.0e-04 loss: 8.750e-02]strawbyte_v1:  33%|###3      | 991/3000 [55:42<1:37:36,  2.92s/it, lr: 1.0e-04 loss: 6.324e-02]strawbyte_v1:  33%|###3      | 991/3000 [55:42<1:37:36,  2.92s/it, lr: 1.0e-04 loss: 6.324e-02]strawbyte_v1:  33%|###3      | 992/3000 [55:42<1:40:51,  3.01s/it, lr: 1.0e-04 loss: 6.324e-02]strawbyte_v1:  33%|###3      | 992/3000 [55:42<1:40:51,  3.01s/it, lr: 1.0e-04 loss: 6.324e-02]strawbyte_v1:  33%|###3      | 992/3000 [55:44<1:40:51,  3.01s/it, lr: 1.0e-04 loss: 1.913e-01]strawbyte_v1:  33%|###3      | 992/3000 [55:44<1:40:51,  3.01s/it, lr: 1.0e-04 loss: 1.913e-01]strawbyte_v1:  33%|###3      | 993/3000 [55:44<1:32:49,  2.77s/it, lr: 1.0e-04 loss: 1.913e-01]strawbyte_v1:  33%|###3      | 993/3000 [55:44<1:32:49,  2.77s/it, lr: 1.0e-04 loss: 1.913e-01]strawbyte_v1:  33%|###3      | 993/3000 [55:46<1:32:49,  2.77s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  33%|###3      | 993/3000 [55:46<1:32:49,  2.77s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  33%|###3      | 994/3000 [55:46<1:26:35,  2.59s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  33%|###3      | 994/3000 [55:46<1:26:35,  2.59s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  33%|###3      | 994/3000 [55:49<1:26:35,  2.59s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  33%|###3      | 994/3000 [55:49<1:26:35,  2.59s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  33%|###3      | 995/3000 [55:49<1:29:28,  2.68s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  33%|###3      | 995/3000 [55:49<1:29:28,  2.68s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  33%|###3      | 995/3000 [55:54<1:29:28,  2.68s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  33%|###3      | 995/3000 [55:54<1:29:28,  2.68s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  33%|###3      | 996/3000 [55:54<1:49:30,  3.28s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  33%|###3      | 996/3000 [55:54<1:49:30,  3.28s/it, lr: 1.0e-04 loss: 1.261e-01]strawbyte_v1:  33%|###3      | 996/3000 [55:57<1:49:30,  3.28s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  33%|###3      | 996/3000 [55:57<1:49:30,  3.28s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  33%|###3      | 997/3000 [55:57<1:47:01,  3.21s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  33%|###3      | 997/3000 [55:57<1:47:01,  3.21s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  33%|###3      | 997/3000 [56:01<1:47:01,  3.21s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  33%|###3      | 997/3000 [56:01<1:47:01,  3.21s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  33%|###3      | 998/3000 [56:01<1:57:32,  3.52s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  33%|###3      | 998/3000 [56:01<1:57:32,  3.52s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  33%|###3      | 998/3000 [56:06<1:57:32,  3.52s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  33%|###3      | 998/3000 [56:06<1:57:32,  3.52s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  33%|###3      | 999/3000 [56:06<2:09:58,  3.90s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  33%|###3      | 999/3000 [56:06<2:09:58,  3.90s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  33%|###3      | 999/3000 [56:09<2:09:58,  3.90s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  33%|###3      | 999/3000 [56:09<2:09:58,  3.90s/it, lr: 1.0e-04 loss: 1.277e-01]
+Saving at step 1000
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001000.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:14<03:43, 74.53s/it]Generating Images:  25%|##5       | 1/4 [01:14<03:43, 74.53s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:29<02:29, 74.73s/it]Generating Images:  50%|#####     | 2/4 [02:29<02:29, 74.73s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:43<01:14, 74.54s/it]Generating Images:  75%|#######5  | 3/4 [03:43<01:14, 74.54s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:58<00:00, 74.50s/it]Generating Images: 100%|##########| 4/4 [04:58<00:00, 74.50s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  33%|###3      | 1000/3000 [56:14<2:09:54,  3.90s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  33%|###3      | 1000/3000 [56:14<2:09:54,  3.90s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  33%|###3      | 1001/3000 [56:14<1:47:11,  3.22s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  33%|###3      | 1001/3000 [56:14<1:47:11,  3.22s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  33%|###3      | 1001/3000 [56:17<1:47:11,  3.22s/it, lr: 1.0e-04 loss: 1.878e-01]strawbyte_v1:  33%|###3      | 1001/3000 [56:17<1:47:11,  3.22s/it, lr: 1.0e-04 loss: 1.878e-01]strawbyte_v1:  33%|###3      | 1002/3000 [56:17<1:43:03,  3.09s/it, lr: 1.0e-04 loss: 1.878e-01]strawbyte_v1:  33%|###3      | 1002/3000 [56:17<1:43:03,  3.09s/it, lr: 1.0e-04 loss: 1.878e-01]strawbyte_v1:  33%|###3      | 1002/3000 [56:19<1:43:03,  3.09s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  33%|###3      | 1002/3000 [56:19<1:43:03,  3.09s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  33%|###3      | 1003/3000 [56:19<1:39:35,  2.99s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  33%|###3      | 1003/3000 [56:19<1:39:35,  2.99s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  33%|###3      | 1003/3000 [56:23<1:39:35,  2.99s/it, lr: 1.0e-04 loss: 1.493e-01]strawbyte_v1:  33%|###3      | 1003/3000 [56:23<1:39:35,  2.99s/it, lr: 1.0e-04 loss: 1.493e-01]strawbyte_v1:  33%|###3      | 1004/3000 [56:23<1:42:52,  3.09s/it, lr: 1.0e-04 loss: 1.493e-01]strawbyte_v1:  33%|###3      | 1004/3000 [56:23<1:42:52,  3.09s/it, lr: 1.0e-04 loss: 1.493e-01]strawbyte_v1:  33%|###3      | 1004/3000 [56:26<1:42:52,  3.09s/it, lr: 1.0e-04 loss: 1.703e-01]strawbyte_v1:  33%|###3      | 1004/3000 [56:26<1:42:52,  3.09s/it, lr: 1.0e-04 loss: 1.703e-01]strawbyte_v1:  34%|###3      | 1005/3000 [56:26<1:39:22,  2.99s/it, lr: 1.0e-04 loss: 1.703e-01]strawbyte_v1:  34%|###3      | 1005/3000 [56:26<1:39:22,  2.99s/it, lr: 1.0e-04 loss: 1.703e-01]strawbyte_v1:  34%|###3      | 1005/3000 [56:29<1:39:22,  2.99s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  34%|###3      | 1005/3000 [56:29<1:39:22,  2.99s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  34%|###3      | 1006/3000 [56:29<1:39:11,  2.98s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  34%|###3      | 1006/3000 [56:29<1:39:11,  2.98s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  34%|###3      | 1006/3000 [56:33<1:39:11,  2.98s/it, lr: 1.0e-04 loss: 8.224e-02]strawbyte_v1:  34%|###3      | 1006/3000 [56:33<1:39:11,  2.98s/it, lr: 1.0e-04 loss: 8.224e-02]strawbyte_v1:  34%|###3      | 1007/3000 [56:33<1:56:45,  3.51s/it, lr: 1.0e-04 loss: 8.224e-02]strawbyte_v1:  34%|###3      | 1007/3000 [56:33<1:56:45,  3.51s/it, lr: 1.0e-04 loss: 8.224e-02]strawbyte_v1:  34%|###3      | 1007/3000 [56:36<1:56:45,  3.51s/it, lr: 1.0e-04 loss: 1.578e-01]strawbyte_v1:  34%|###3      | 1007/3000 [56:36<1:56:45,  3.51s/it, lr: 1.0e-04 loss: 1.578e-01]strawbyte_v1:  34%|###3      | 1008/3000 [56:36<1:51:27,  3.36s/it, lr: 1.0e-04 loss: 1.578e-01]strawbyte_v1:  34%|###3      | 1008/3000 [56:36<1:51:27,  3.36s/it, lr: 1.0e-04 loss: 1.578e-01]strawbyte_v1:  34%|###3      | 1008/3000 [56:39<1:51:27,  3.36s/it, lr: 1.0e-04 loss: 1.635e-01]strawbyte_v1:  34%|###3      | 1008/3000 [56:39<1:51:27,  3.36s/it, lr: 1.0e-04 loss: 1.635e-01]strawbyte_v1:  34%|###3      | 1009/3000 [56:39<1:45:07,  3.17s/it, lr: 1.0e-04 loss: 1.635e-01]strawbyte_v1:  34%|###3      | 1009/3000 [56:39<1:45:07,  3.17s/it, lr: 1.0e-04 loss: 1.635e-01]strawbyte_v1:  34%|###3      | 1009/3000 [56:42<1:45:07,  3.17s/it, lr: 1.0e-04 loss: 1.741e-01]strawbyte_v1:  34%|###3      | 1009/3000 [56:42<1:45:07,  3.17s/it, lr: 1.0e-04 loss: 1.741e-01]strawbyte_v1:  34%|###3      | 1010/3000 [56:45<1:45:04,  3.17s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:  34%|###3      | 1010/3000 [56:45<1:45:04,  3.17s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:  34%|###3      | 1011/3000 [56:45<1:22:28,  2.49s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:  34%|###3      | 1011/3000 [56:45<1:22:28,  2.49s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:  34%|###3      | 1011/3000 [56:48<1:22:28,  2.49s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  34%|###3      | 1011/3000 [56:48<1:22:28,  2.49s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  34%|###3      | 1012/3000 [56:48<1:26:06,  2.60s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  34%|###3      | 1012/3000 [56:48<1:26:06,  2.60s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  34%|###3      | 1012/3000 [56:51<1:26:06,  2.60s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  34%|###3      | 1012/3000 [56:51<1:26:06,  2.60s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  34%|###3      | 1013/3000 [56:51<1:28:44,  2.68s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  34%|###3      | 1013/3000 [56:51<1:28:44,  2.68s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  34%|###3      | 1013/3000 [56:53<1:28:44,  2.68s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  34%|###3      | 1013/3000 [56:53<1:28:44,  2.68s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  34%|###3      | 1014/3000 [56:53<1:23:28,  2.52s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  34%|###3      | 1014/3000 [56:53<1:23:28,  2.52s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  34%|###3      | 1014/3000 [56:56<1:23:28,  2.52s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  34%|###3      | 1014/3000 [56:56<1:23:28,  2.52s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  34%|###3      | 1015/3000 [56:56<1:29:25,  2.70s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  34%|###3      | 1015/3000 [56:56<1:29:25,  2.70s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  34%|###3      | 1015/3000 [56:58<1:29:25,  2.70s/it, lr: 1.0e-04 loss: 7.834e-02]strawbyte_v1:  34%|###3      | 1015/3000 [56:58<1:29:25,  2.70s/it, lr: 1.0e-04 loss: 7.834e-02]strawbyte_v1:  34%|###3      | 1016/3000 [56:58<1:23:38,  2.53s/it, lr: 1.0e-04 loss: 7.834e-02]strawbyte_v1:  34%|###3      | 1016/3000 [56:58<1:23:38,  2.53s/it, lr: 1.0e-04 loss: 7.834e-02]strawbyte_v1:  34%|###3      | 1016/3000 [57:00<1:23:38,  2.53s/it, lr: 1.0e-04 loss: 9.507e-02]strawbyte_v1:  34%|###3      | 1016/3000 [57:00<1:23:38,  2.53s/it, lr: 1.0e-04 loss: 9.507e-02]strawbyte_v1:  34%|###3      | 1017/3000 [57:00<1:19:37,  2.41s/it, lr: 1.0e-04 loss: 9.507e-02]strawbyte_v1:  34%|###3      | 1017/3000 [57:00<1:19:37,  2.41s/it, lr: 1.0e-04 loss: 9.507e-02]strawbyte_v1:  34%|###3      | 1017/3000 [57:05<1:19:37,  2.41s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  34%|###3      | 1017/3000 [57:05<1:19:37,  2.41s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  34%|###3      | 1018/3000 [57:05<1:40:53,  3.05s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  34%|###3      | 1018/3000 [57:05<1:40:53,  3.05s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  34%|###3      | 1018/3000 [57:07<1:40:53,  3.05s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  34%|###3      | 1018/3000 [57:07<1:40:53,  3.05s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  34%|###3      | 1019/3000 [57:07<1:31:30,  2.77s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  34%|###3      | 1019/3000 [57:07<1:31:30,  2.77s/it, lr: 1.0e-04 loss: 2.042e-01]strawbyte_v1:  34%|###3      | 1019/3000 [57:09<1:31:30,  2.77s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  34%|###3      | 1019/3000 [57:09<1:31:30,  2.77s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  34%|###4      | 1020/3000 [57:12<1:31:27,  2.77s/it, lr: 1.0e-04 loss: 5.205e-02]strawbyte_v1:  34%|###4      | 1020/3000 [57:12<1:31:27,  2.77s/it, lr: 1.0e-04 loss: 5.205e-02]strawbyte_v1:  34%|###4      | 1021/3000 [57:12<1:11:41,  2.17s/it, lr: 1.0e-04 loss: 5.205e-02]strawbyte_v1:  34%|###4      | 1021/3000 [57:12<1:11:41,  2.17s/it, lr: 1.0e-04 loss: 5.205e-02]strawbyte_v1:  34%|###4      | 1021/3000 [57:15<1:11:41,  2.17s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  34%|###4      | 1021/3000 [57:15<1:11:41,  2.17s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  34%|###4      | 1022/3000 [57:15<1:13:43,  2.24s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  34%|###4      | 1022/3000 [57:15<1:13:43,  2.24s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  34%|###4      | 1022/3000 [57:19<1:13:43,  2.24s/it, lr: 1.0e-04 loss: 4.311e-02]strawbyte_v1:  34%|###4      | 1022/3000 [57:19<1:13:43,  2.24s/it, lr: 1.0e-04 loss: 4.311e-02]strawbyte_v1:  34%|###4      | 1023/3000 [57:19<1:31:56,  2.79s/it, lr: 1.0e-04 loss: 4.311e-02]strawbyte_v1:  34%|###4      | 1023/3000 [57:19<1:31:56,  2.79s/it, lr: 1.0e-04 loss: 4.311e-02]strawbyte_v1:  34%|###4      | 1023/3000 [57:22<1:31:56,  2.79s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  34%|###4      | 1023/3000 [57:22<1:31:56,  2.79s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  34%|###4      | 1024/3000 [57:22<1:31:06,  2.77s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  34%|###4      | 1024/3000 [57:22<1:31:06,  2.77s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  34%|###4      | 1024/3000 [57:25<1:31:06,  2.77s/it, lr: 1.0e-04 loss: 8.638e-02]strawbyte_v1:  34%|###4      | 1024/3000 [57:25<1:31:06,  2.77s/it, lr: 1.0e-04 loss: 8.638e-02]strawbyte_v1:  34%|###4      | 1025/3000 [57:25<1:34:28,  2.87s/it, lr: 1.0e-04 loss: 8.638e-02]strawbyte_v1:  34%|###4      | 1025/3000 [57:25<1:34:28,  2.87s/it, lr: 1.0e-04 loss: 8.638e-02]strawbyte_v1:  34%|###4      | 1025/3000 [57:28<1:34:28,  2.87s/it, lr: 1.0e-04 loss: 6.895e-02]strawbyte_v1:  34%|###4      | 1025/3000 [57:28<1:34:28,  2.87s/it, lr: 1.0e-04 loss: 6.895e-02]strawbyte_v1:  34%|###4      | 1026/3000 [57:28<1:33:07,  2.83s/it, lr: 1.0e-04 loss: 6.895e-02]strawbyte_v1:  34%|###4      | 1026/3000 [57:28<1:33:07,  2.83s/it, lr: 1.0e-04 loss: 6.895e-02]strawbyte_v1:  34%|###4      | 1026/3000 [57:32<1:33:07,  2.83s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  34%|###4      | 1026/3000 [57:32<1:33:07,  2.83s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  34%|###4      | 1027/3000 [57:32<1:48:51,  3.31s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  34%|###4      | 1027/3000 [57:32<1:48:51,  3.31s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  34%|###4      | 1027/3000 [57:36<1:48:51,  3.31s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  34%|###4      | 1027/3000 [57:36<1:48:51,  3.31s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  34%|###4      | 1028/3000 [57:36<1:59:42,  3.64s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  34%|###4      | 1028/3000 [57:36<1:59:42,  3.64s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  34%|###4      | 1028/3000 [57:40<1:59:42,  3.64s/it, lr: 1.0e-04 loss: 1.402e-01]strawbyte_v1:  34%|###4      | 1028/3000 [57:40<1:59:42,  3.64s/it, lr: 1.0e-04 loss: 1.402e-01]strawbyte_v1:  34%|###4      | 1029/3000 [57:40<1:56:52,  3.56s/it, lr: 1.0e-04 loss: 1.402e-01]strawbyte_v1:  34%|###4      | 1029/3000 [57:40<1:56:52,  3.56s/it, lr: 1.0e-04 loss: 1.402e-01]strawbyte_v1:  34%|###4      | 1029/3000 [57:43<1:56:52,  3.56s/it, lr: 1.0e-04 loss: 8.031e-02]strawbyte_v1:  34%|###4      | 1029/3000 [57:43<1:56:52,  3.56s/it, lr: 1.0e-04 loss: 8.031e-02]strawbyte_v1:  34%|###4      | 1030/3000 [57:45<1:56:49,  3.56s/it, lr: 1.0e-04 loss: 1.006e-01]strawbyte_v1:  34%|###4      | 1030/3000 [57:45<1:56:49,  3.56s/it, lr: 1.0e-04 loss: 1.006e-01]strawbyte_v1:  34%|###4      | 1031/3000 [57:45<1:23:51,  2.56s/it, lr: 1.0e-04 loss: 1.006e-01]strawbyte_v1:  34%|###4      | 1031/3000 [57:45<1:23:51,  2.56s/it, lr: 1.0e-04 loss: 1.006e-01]strawbyte_v1:  34%|###4      | 1031/3000 [57:50<1:23:51,  2.56s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  34%|###4      | 1031/3000 [57:50<1:23:51,  2.56s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  34%|###4      | 1032/3000 [57:50<1:41:41,  3.10s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  34%|###4      | 1032/3000 [57:50<1:41:41,  3.10s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  34%|###4      | 1032/3000 [57:53<1:41:41,  3.10s/it, lr: 1.0e-04 loss: 6.402e-03]strawbyte_v1:  34%|###4      | 1032/3000 [57:53<1:41:41,  3.10s/it, lr: 1.0e-04 loss: 6.402e-03]strawbyte_v1:  34%|###4      | 1033/3000 [57:53<1:38:27,  3.00s/it, lr: 1.0e-04 loss: 6.402e-03]strawbyte_v1:  34%|###4      | 1033/3000 [57:53<1:38:27,  3.00s/it, lr: 1.0e-04 loss: 6.402e-03]strawbyte_v1:  34%|###4      | 1033/3000 [57:56<1:38:27,  3.00s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  34%|###4      | 1033/3000 [57:56<1:38:27,  3.00s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  34%|###4      | 1034/3000 [57:56<1:38:39,  3.01s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  34%|###4      | 1034/3000 [57:56<1:38:39,  3.01s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  34%|###4      | 1034/3000 [57:59<1:38:39,  3.01s/it, lr: 1.0e-04 loss: 2.036e-01]strawbyte_v1:  34%|###4      | 1034/3000 [57:59<1:38:39,  3.01s/it, lr: 1.0e-04 loss: 2.036e-01]strawbyte_v1:  34%|###4      | 1035/3000 [57:59<1:35:52,  2.93s/it, lr: 1.0e-04 loss: 2.036e-01]strawbyte_v1:  34%|###4      | 1035/3000 [57:59<1:35:52,  2.93s/it, lr: 1.0e-04 loss: 2.036e-01]strawbyte_v1:  34%|###4      | 1035/3000 [58:02<1:35:52,  2.93s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  34%|###4      | 1035/3000 [58:02<1:35:52,  2.93s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  35%|###4      | 1036/3000 [58:02<1:40:19,  3.07s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  35%|###4      | 1036/3000 [58:02<1:40:19,  3.07s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  35%|###4      | 1036/3000 [58:05<1:40:19,  3.07s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  35%|###4      | 1036/3000 [58:05<1:40:19,  3.07s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  35%|###4      | 1037/3000 [58:05<1:39:43,  3.05s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  35%|###4      | 1037/3000 [58:05<1:39:43,  3.05s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  35%|###4      | 1037/3000 [58:08<1:39:43,  3.05s/it, lr: 1.0e-04 loss: 1.252e-01]strawbyte_v1:  35%|###4      | 1037/3000 [58:08<1:39:43,  3.05s/it, lr: 1.0e-04 loss: 1.252e-01]strawbyte_v1:  35%|###4      | 1038/3000 [58:08<1:38:58,  3.03s/it, lr: 1.0e-04 loss: 1.252e-01]strawbyte_v1:  35%|###4      | 1038/3000 [58:08<1:38:58,  3.03s/it, lr: 1.0e-04 loss: 1.252e-01]strawbyte_v1:  35%|###4      | 1038/3000 [58:11<1:38:58,  3.03s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  35%|###4      | 1038/3000 [58:11<1:38:58,  3.03s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  35%|###4      | 1039/3000 [58:11<1:33:12,  2.85s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  35%|###4      | 1039/3000 [58:11<1:33:12,  2.85s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  35%|###4      | 1039/3000 [58:13<1:33:12,  2.85s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  35%|###4      | 1039/3000 [58:13<1:33:12,  2.85s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  35%|###4      | 1040/3000 [58:17<1:33:09,  2.85s/it, lr: 1.0e-04 loss: 4.924e-02]strawbyte_v1:  35%|###4      | 1040/3000 [58:17<1:33:09,  2.85s/it, lr: 1.0e-04 loss: 4.924e-02]strawbyte_v1:  35%|###4      | 1041/3000 [58:17<1:23:12,  2.55s/it, lr: 1.0e-04 loss: 4.924e-02]strawbyte_v1:  35%|###4      | 1041/3000 [58:17<1:23:12,  2.55s/it, lr: 1.0e-04 loss: 4.924e-02]strawbyte_v1:  35%|###4      | 1041/3000 [58:19<1:23:12,  2.55s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:  35%|###4      | 1041/3000 [58:19<1:23:12,  2.55s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:  35%|###4      | 1042/3000 [58:19<1:19:34,  2.44s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:  35%|###4      | 1042/3000 [58:19<1:19:34,  2.44s/it, lr: 1.0e-04 loss: 1.657e-01]strawbyte_v1:  35%|###4      | 1042/3000 [58:22<1:19:34,  2.44s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  35%|###4      | 1042/3000 [58:22<1:19:34,  2.44s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  35%|###4      | 1043/3000 [58:22<1:25:17,  2.61s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  35%|###4      | 1043/3000 [58:22<1:25:17,  2.61s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  35%|###4      | 1043/3000 [58:24<1:25:17,  2.61s/it, lr: 1.0e-04 loss: 1.935e-01]strawbyte_v1:  35%|###4      | 1043/3000 [58:24<1:25:17,  2.61s/it, lr: 1.0e-04 loss: 1.935e-01]strawbyte_v1:  35%|###4      | 1044/3000 [58:24<1:20:55,  2.48s/it, lr: 1.0e-04 loss: 1.935e-01]strawbyte_v1:  35%|###4      | 1044/3000 [58:24<1:20:55,  2.48s/it, lr: 1.0e-04 loss: 1.935e-01]strawbyte_v1:  35%|###4      | 1044/3000 [58:27<1:20:55,  2.48s/it, lr: 1.0e-04 loss: 4.769e-02]strawbyte_v1:  35%|###4      | 1044/3000 [58:27<1:20:55,  2.48s/it, lr: 1.0e-04 loss: 4.769e-02]strawbyte_v1:  35%|###4      | 1045/3000 [58:27<1:25:11,  2.61s/it, lr: 1.0e-04 loss: 4.769e-02]strawbyte_v1:  35%|###4      | 1045/3000 [58:27<1:25:11,  2.61s/it, lr: 1.0e-04 loss: 4.769e-02]strawbyte_v1:  35%|###4      | 1045/3000 [58:32<1:25:11,  2.61s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  35%|###4      | 1045/3000 [58:32<1:25:11,  2.61s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  35%|###4      | 1046/3000 [58:32<1:43:26,  3.18s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  35%|###4      | 1046/3000 [58:32<1:43:26,  3.18s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  35%|###4      | 1046/3000 [58:34<1:43:26,  3.18s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  35%|###4      | 1046/3000 [58:34<1:43:26,  3.18s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  35%|###4      | 1047/3000 [58:34<1:33:08,  2.86s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  35%|###4      | 1047/3000 [58:34<1:33:08,  2.86s/it, lr: 1.0e-04 loss: 2.013e-01]strawbyte_v1:  35%|###4      | 1047/3000 [58:36<1:33:08,  2.86s/it, lr: 1.0e-04 loss: 1.944e-01]strawbyte_v1:  35%|###4      | 1047/3000 [58:36<1:33:08,  2.86s/it, lr: 1.0e-04 loss: 1.944e-01]strawbyte_v1:  35%|###4      | 1048/3000 [58:36<1:25:48,  2.64s/it, lr: 1.0e-04 loss: 1.944e-01]strawbyte_v1:  35%|###4      | 1048/3000 [58:36<1:25:48,  2.64s/it, lr: 1.0e-04 loss: 1.944e-01]strawbyte_v1:  35%|###4      | 1048/3000 [58:39<1:25:48,  2.64s/it, lr: 1.0e-04 loss: 1.518e-01]strawbyte_v1:  35%|###4      | 1048/3000 [58:39<1:25:48,  2.64s/it, lr: 1.0e-04 loss: 1.518e-01]strawbyte_v1:  35%|###4      | 1049/3000 [58:39<1:28:19,  2.72s/it, lr: 1.0e-04 loss: 1.518e-01]strawbyte_v1:  35%|###4      | 1049/3000 [58:39<1:28:19,  2.72s/it, lr: 1.0e-04 loss: 1.518e-01]strawbyte_v1:  35%|###4      | 1049/3000 [58:42<1:28:19,  2.72s/it, lr: 1.0e-04 loss: 5.663e-02]strawbyte_v1:  35%|###4      | 1049/3000 [58:42<1:28:19,  2.72s/it, lr: 1.0e-04 loss: 5.663e-02]strawbyte_v1:  35%|###5      | 1050/3000 [58:47<1:28:17,  2.72s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  35%|###5      | 1050/3000 [58:47<1:28:17,  2.72s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  35%|###5      | 1051/3000 [58:47<1:21:09,  2.50s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  35%|###5      | 1051/3000 [58:47<1:21:09,  2.50s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  35%|###5      | 1051/3000 [58:50<1:21:09,  2.50s/it, lr: 1.0e-04 loss: 1.821e-01]strawbyte_v1:  35%|###5      | 1051/3000 [58:50<1:21:09,  2.50s/it, lr: 1.0e-04 loss: 1.821e-01]strawbyte_v1:  35%|###5      | 1052/3000 [58:50<1:25:33,  2.64s/it, lr: 1.0e-04 loss: 1.821e-01]strawbyte_v1:  35%|###5      | 1052/3000 [58:50<1:25:33,  2.64s/it, lr: 1.0e-04 loss: 1.821e-01]strawbyte_v1:  35%|###5      | 1052/3000 [58:53<1:25:33,  2.64s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  35%|###5      | 1052/3000 [58:53<1:25:33,  2.64s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  35%|###5      | 1053/3000 [58:53<1:28:52,  2.74s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  35%|###5      | 1053/3000 [58:53<1:28:52,  2.74s/it, lr: 1.0e-04 loss: 1.454e-01]strawbyte_v1:  35%|###5      | 1053/3000 [58:56<1:28:52,  2.74s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  35%|###5      | 1053/3000 [58:56<1:28:52,  2.74s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  35%|###5      | 1054/3000 [58:56<1:34:46,  2.92s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  35%|###5      | 1054/3000 [58:56<1:34:46,  2.92s/it, lr: 1.0e-04 loss: 1.446e-01]strawbyte_v1:  35%|###5      | 1054/3000 [58:59<1:34:46,  2.92s/it, lr: 1.0e-04 loss: 6.141e-02]strawbyte_v1:  35%|###5      | 1054/3000 [58:59<1:34:46,  2.92s/it, lr: 1.0e-04 loss: 6.141e-02]strawbyte_v1:  35%|###5      | 1055/3000 [58:59<1:32:25,  2.85s/it, lr: 1.0e-04 loss: 6.141e-02]strawbyte_v1:  35%|###5      | 1055/3000 [58:59<1:32:25,  2.85s/it, lr: 1.0e-04 loss: 6.141e-02]strawbyte_v1:  35%|###5      | 1055/3000 [59:04<1:32:25,  2.85s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  35%|###5      | 1055/3000 [59:04<1:32:25,  2.85s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  35%|###5      | 1056/3000 [59:04<1:47:14,  3.31s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  35%|###5      | 1056/3000 [59:04<1:47:14,  3.31s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  35%|###5      | 1056/3000 [59:08<1:47:14,  3.31s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  35%|###5      | 1056/3000 [59:08<1:47:14,  3.31s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  35%|###5      | 1057/3000 [59:08<2:01:27,  3.75s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  35%|###5      | 1057/3000 [59:08<2:01:27,  3.75s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  35%|###5      | 1057/3000 [59:13<2:01:27,  3.75s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  35%|###5      | 1057/3000 [59:13<2:01:27,  3.75s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  35%|###5      | 1058/3000 [59:13<2:08:11,  3.96s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  35%|###5      | 1058/3000 [59:13<2:08:11,  3.96s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  35%|###5      | 1058/3000 [59:17<2:08:11,  3.96s/it, lr: 1.0e-04 loss: 8.965e-02]strawbyte_v1:  35%|###5      | 1058/3000 [59:17<2:08:11,  3.96s/it, lr: 1.0e-04 loss: 8.965e-02]strawbyte_v1:  35%|###5      | 1059/3000 [59:17<2:12:46,  4.10s/it, lr: 1.0e-04 loss: 8.965e-02]strawbyte_v1:  35%|###5      | 1059/3000 [59:17<2:12:46,  4.10s/it, lr: 1.0e-04 loss: 8.965e-02]strawbyte_v1:  35%|###5      | 1059/3000 [59:22<2:12:46,  4.10s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  35%|###5      | 1059/3000 [59:22<2:12:46,  4.10s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  35%|###5      | 1060/3000 [59:25<2:12:41,  4.10s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  35%|###5      | 1060/3000 [59:25<2:12:41,  4.10s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  35%|###5      | 1061/3000 [59:25<1:37:05,  3.00s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  35%|###5      | 1061/3000 [59:25<1:37:05,  3.00s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  35%|###5      | 1061/3000 [59:28<1:37:05,  3.00s/it, lr: 1.0e-04 loss: 2.602e-01]strawbyte_v1:  35%|###5      | 1061/3000 [59:28<1:37:05,  3.00s/it, lr: 1.0e-04 loss: 2.602e-01]strawbyte_v1:  35%|###5      | 1062/3000 [59:28<1:33:14,  2.89s/it, lr: 1.0e-04 loss: 2.602e-01]strawbyte_v1:  35%|###5      | 1062/3000 [59:28<1:33:14,  2.89s/it, lr: 1.0e-04 loss: 2.602e-01]strawbyte_v1:  35%|###5      | 1062/3000 [59:30<1:33:14,  2.89s/it, lr: 1.0e-04 loss: 1.866e-01]strawbyte_v1:  35%|###5      | 1062/3000 [59:30<1:33:14,  2.89s/it, lr: 1.0e-04 loss: 1.866e-01]strawbyte_v1:  35%|###5      | 1063/3000 [59:30<1:26:29,  2.68s/it, lr: 1.0e-04 loss: 1.866e-01]strawbyte_v1:  35%|###5      | 1063/3000 [59:30<1:26:29,  2.68s/it, lr: 1.0e-04 loss: 1.866e-01]strawbyte_v1:  35%|###5      | 1063/3000 [59:33<1:26:29,  2.68s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  35%|###5      | 1063/3000 [59:33<1:26:29,  2.68s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  35%|###5      | 1064/3000 [59:33<1:28:02,  2.73s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  35%|###5      | 1064/3000 [59:33<1:28:02,  2.73s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  35%|###5      | 1064/3000 [59:36<1:28:02,  2.73s/it, lr: 1.0e-04 loss: 1.146e-01]strawbyte_v1:  35%|###5      | 1064/3000 [59:36<1:28:02,  2.73s/it, lr: 1.0e-04 loss: 1.146e-01]strawbyte_v1:  36%|###5      | 1065/3000 [59:36<1:31:56,  2.85s/it, lr: 1.0e-04 loss: 1.146e-01]strawbyte_v1:  36%|###5      | 1065/3000 [59:36<1:31:56,  2.85s/it, lr: 1.0e-04 loss: 1.146e-01]strawbyte_v1:  36%|###5      | 1065/3000 [59:38<1:31:56,  2.85s/it, lr: 1.0e-04 loss: 2.618e-02]strawbyte_v1:  36%|###5      | 1065/3000 [59:38<1:31:56,  2.85s/it, lr: 1.0e-04 loss: 2.618e-02]strawbyte_v1:  36%|###5      | 1066/3000 [59:38<1:24:55,  2.63s/it, lr: 1.0e-04 loss: 2.618e-02]strawbyte_v1:  36%|###5      | 1066/3000 [59:38<1:24:55,  2.63s/it, lr: 1.0e-04 loss: 2.618e-02]strawbyte_v1:  36%|###5      | 1066/3000 [59:42<1:24:55,  2.63s/it, lr: 1.0e-04 loss: 3.049e-02]strawbyte_v1:  36%|###5      | 1066/3000 [59:42<1:24:55,  2.63s/it, lr: 1.0e-04 loss: 3.049e-02]strawbyte_v1:  36%|###5      | 1067/3000 [59:42<1:41:28,  3.15s/it, lr: 1.0e-04 loss: 3.049e-02]strawbyte_v1:  36%|###5      | 1067/3000 [59:42<1:41:28,  3.15s/it, lr: 1.0e-04 loss: 3.049e-02]strawbyte_v1:  36%|###5      | 1067/3000 [59:47<1:41:28,  3.15s/it, lr: 1.0e-04 loss: 9.817e-02]strawbyte_v1:  36%|###5      | 1067/3000 [59:47<1:41:28,  3.15s/it, lr: 1.0e-04 loss: 9.817e-02]strawbyte_v1:  36%|###5      | 1068/3000 [59:47<1:55:35,  3.59s/it, lr: 1.0e-04 loss: 9.817e-02]strawbyte_v1:  36%|###5      | 1068/3000 [59:47<1:55:35,  3.59s/it, lr: 1.0e-04 loss: 9.817e-02]strawbyte_v1:  36%|###5      | 1068/3000 [59:51<1:55:35,  3.59s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  36%|###5      | 1068/3000 [59:51<1:55:35,  3.59s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  36%|###5      | 1069/3000 [59:51<2:03:19,  3.83s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  36%|###5      | 1069/3000 [59:51<2:03:19,  3.83s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  36%|###5      | 1069/3000 [59:54<2:03:19,  3.83s/it, lr: 1.0e-04 loss: 6.887e-02]strawbyte_v1:  36%|###5      | 1069/3000 [59:54<2:03:19,  3.83s/it, lr: 1.0e-04 loss: 6.887e-02]strawbyte_v1:  36%|###5      | 1070/3000 [59:56<2:03:15,  3.83s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  36%|###5      | 1070/3000 [59:56<2:03:15,  3.83s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  36%|###5      | 1071/3000 [59:56<1:22:06,  2.55s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  36%|###5      | 1071/3000 [59:56<1:22:06,  2.55s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  36%|###5      | 1071/3000 [1:00:01<1:22:06,  2.55s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  36%|###5      | 1071/3000 [1:00:01<1:22:06,  2.55s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  36%|###5      | 1072/3000 [1:00:01<1:38:14,  3.06s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  36%|###5      | 1072/3000 [1:00:01<1:38:14,  3.06s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  36%|###5      | 1072/3000 [1:00:05<1:38:14,  3.06s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  36%|###5      | 1072/3000 [1:00:05<1:38:14,  3.06s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  36%|###5      | 1073/3000 [1:00:05<1:49:50,  3.42s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  36%|###5      | 1073/3000 [1:00:05<1:49:50,  3.42s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  36%|###5      | 1073/3000 [1:00:10<1:49:50,  3.42s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  36%|###5      | 1073/3000 [1:00:10<1:49:50,  3.42s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  36%|###5      | 1074/3000 [1:00:10<1:58:59,  3.71s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  36%|###5      | 1074/3000 [1:00:10<1:58:59,  3.71s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  36%|###5      | 1074/3000 [1:00:13<1:58:59,  3.71s/it, lr: 1.0e-04 loss: 7.413e-02]strawbyte_v1:  36%|###5      | 1074/3000 [1:00:13<1:58:59,  3.71s/it, lr: 1.0e-04 loss: 7.413e-02]strawbyte_v1:  36%|###5      | 1075/3000 [1:00:13<1:49:59,  3.43s/it, lr: 1.0e-04 loss: 7.413e-02]strawbyte_v1:  36%|###5      | 1075/3000 [1:00:13<1:49:59,  3.43s/it, lr: 1.0e-04 loss: 7.413e-02]strawbyte_v1:  36%|###5      | 1075/3000 [1:00:16<1:49:59,  3.43s/it, lr: 1.0e-04 loss: 1.510e-01]strawbyte_v1:  36%|###5      | 1075/3000 [1:00:16<1:49:59,  3.43s/it, lr: 1.0e-04 loss: 1.510e-01]strawbyte_v1:  36%|###5      | 1076/3000 [1:00:16<1:50:06,  3.43s/it, lr: 1.0e-04 loss: 1.510e-01]strawbyte_v1:  36%|###5      | 1076/3000 [1:00:16<1:50:06,  3.43s/it, lr: 1.0e-04 loss: 1.510e-01]strawbyte_v1:  36%|###5      | 1076/3000 [1:00:21<1:50:06,  3.43s/it, lr: 1.0e-04 loss: 5.317e-03]strawbyte_v1:  36%|###5      | 1076/3000 [1:00:21<1:50:06,  3.43s/it, lr: 1.0e-04 loss: 5.317e-03]strawbyte_v1:  36%|###5      | 1077/3000 [1:00:21<1:59:49,  3.74s/it, lr: 1.0e-04 loss: 5.317e-03]strawbyte_v1:  36%|###5      | 1077/3000 [1:00:21<1:59:49,  3.74s/it, lr: 1.0e-04 loss: 5.317e-03]strawbyte_v1:  36%|###5      | 1077/3000 [1:00:25<1:59:49,  3.74s/it, lr: 1.0e-04 loss: 5.626e-02]strawbyte_v1:  36%|###5      | 1077/3000 [1:00:25<1:59:49,  3.74s/it, lr: 1.0e-04 loss: 5.626e-02]strawbyte_v1:  36%|###5      | 1078/3000 [1:00:25<2:07:15,  3.97s/it, lr: 1.0e-04 loss: 5.626e-02]strawbyte_v1:  36%|###5      | 1078/3000 [1:00:25<2:07:15,  3.97s/it, lr: 1.0e-04 loss: 5.626e-02]strawbyte_v1:  36%|###5      | 1078/3000 [1:00:28<2:07:15,  3.97s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  36%|###5      | 1078/3000 [1:00:28<2:07:15,  3.97s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  36%|###5      | 1079/3000 [1:00:28<2:01:12,  3.79s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  36%|###5      | 1079/3000 [1:00:28<2:01:12,  3.79s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  36%|###5      | 1079/3000 [1:00:33<2:01:12,  3.79s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  36%|###5      | 1079/3000 [1:00:33<2:01:12,  3.79s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  36%|###6      | 1080/3000 [1:00:37<2:01:08,  3.79s/it, lr: 1.0e-04 loss: 5.418e-02]strawbyte_v1:  36%|###6      | 1080/3000 [1:00:37<2:01:08,  3.79s/it, lr: 1.0e-04 loss: 5.418e-02]strawbyte_v1:  36%|###6      | 1081/3000 [1:00:37<1:38:12,  3.07s/it, lr: 1.0e-04 loss: 5.418e-02]strawbyte_v1:  36%|###6      | 1081/3000 [1:00:37<1:38:12,  3.07s/it, lr: 1.0e-04 loss: 5.418e-02]strawbyte_v1:  36%|###6      | 1081/3000 [1:00:40<1:38:12,  3.07s/it, lr: 1.0e-04 loss: 1.646e-01]strawbyte_v1:  36%|###6      | 1081/3000 [1:00:40<1:38:12,  3.07s/it, lr: 1.0e-04 loss: 1.646e-01]strawbyte_v1:  36%|###6      | 1082/3000 [1:00:40<1:37:32,  3.05s/it, lr: 1.0e-04 loss: 1.646e-01]strawbyte_v1:  36%|###6      | 1082/3000 [1:00:40<1:37:32,  3.05s/it, lr: 1.0e-04 loss: 1.646e-01]strawbyte_v1:  36%|###6      | 1082/3000 [1:00:45<1:37:32,  3.05s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  36%|###6      | 1082/3000 [1:00:45<1:37:32,  3.05s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  36%|###6      | 1083/3000 [1:00:45<1:52:11,  3.51s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  36%|###6      | 1083/3000 [1:00:45<1:52:11,  3.51s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  36%|###6      | 1083/3000 [1:00:48<1:52:11,  3.51s/it, lr: 1.0e-04 loss: 5.703e-02]strawbyte_v1:  36%|###6      | 1083/3000 [1:00:48<1:52:11,  3.51s/it, lr: 1.0e-04 loss: 5.703e-02]strawbyte_v1:  36%|###6      | 1084/3000 [1:00:48<1:47:15,  3.36s/it, lr: 1.0e-04 loss: 5.703e-02]strawbyte_v1:  36%|###6      | 1084/3000 [1:00:48<1:47:15,  3.36s/it, lr: 1.0e-04 loss: 5.703e-02]strawbyte_v1:  36%|###6      | 1084/3000 [1:00:52<1:47:15,  3.36s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  36%|###6      | 1084/3000 [1:00:52<1:47:15,  3.36s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  36%|###6      | 1085/3000 [1:00:52<1:55:41,  3.62s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  36%|###6      | 1085/3000 [1:00:52<1:55:41,  3.62s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  36%|###6      | 1085/3000 [1:00:55<1:55:41,  3.62s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  36%|###6      | 1085/3000 [1:00:55<1:55:41,  3.62s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  36%|###6      | 1086/3000 [1:00:55<1:45:12,  3.30s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  36%|###6      | 1086/3000 [1:00:55<1:45:12,  3.30s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  36%|###6      | 1086/3000 [1:00:59<1:45:12,  3.30s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  36%|###6      | 1086/3000 [1:00:59<1:45:12,  3.30s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  36%|###6      | 1087/3000 [1:00:59<1:55:08,  3.61s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  36%|###6      | 1087/3000 [1:00:59<1:55:08,  3.61s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  36%|###6      | 1087/3000 [1:01:04<1:55:08,  3.61s/it, lr: 1.0e-04 loss: 9.843e-02]strawbyte_v1:  36%|###6      | 1087/3000 [1:01:04<1:55:08,  3.61s/it, lr: 1.0e-04 loss: 9.843e-02]strawbyte_v1:  36%|###6      | 1088/3000 [1:01:04<2:01:59,  3.83s/it, lr: 1.0e-04 loss: 9.843e-02]strawbyte_v1:  36%|###6      | 1088/3000 [1:01:04<2:01:59,  3.83s/it, lr: 1.0e-04 loss: 9.843e-02]strawbyte_v1:  36%|###6      | 1088/3000 [1:01:08<2:01:59,  3.83s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  36%|###6      | 1088/3000 [1:01:08<2:01:59,  3.83s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  36%|###6      | 1089/3000 [1:01:08<2:07:20,  4.00s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  36%|###6      | 1089/3000 [1:01:08<2:07:20,  4.00s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  36%|###6      | 1089/3000 [1:01:13<2:07:20,  4.00s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  36%|###6      | 1089/3000 [1:01:13<2:07:20,  4.00s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  36%|###6      | 1090/3000 [1:01:17<2:07:16,  4.00s/it, lr: 1.0e-04 loss: 7.448e-02]strawbyte_v1:  36%|###6      | 1090/3000 [1:01:17<2:07:16,  4.00s/it, lr: 1.0e-04 loss: 7.448e-02]strawbyte_v1:  36%|###6      | 1091/3000 [1:01:17<1:41:07,  3.18s/it, lr: 1.0e-04 loss: 7.448e-02]strawbyte_v1:  36%|###6      | 1091/3000 [1:01:17<1:41:07,  3.18s/it, lr: 1.0e-04 loss: 7.448e-02]strawbyte_v1:  36%|###6      | 1091/3000 [1:01:20<1:41:07,  3.18s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  36%|###6      | 1091/3000 [1:01:20<1:41:07,  3.18s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  36%|###6      | 1092/3000 [1:01:20<1:38:58,  3.11s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  36%|###6      | 1092/3000 [1:01:20<1:38:58,  3.11s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  36%|###6      | 1092/3000 [1:01:24<1:38:58,  3.11s/it, lr: 1.0e-04 loss: 1.885e-01]strawbyte_v1:  36%|###6      | 1092/3000 [1:01:24<1:38:58,  3.11s/it, lr: 1.0e-04 loss: 1.885e-01]strawbyte_v1:  36%|###6      | 1093/3000 [1:01:24<1:39:10,  3.12s/it, lr: 1.0e-04 loss: 1.885e-01]strawbyte_v1:  36%|###6      | 1093/3000 [1:01:24<1:39:10,  3.12s/it, lr: 1.0e-04 loss: 1.885e-01]strawbyte_v1:  36%|###6      | 1093/3000 [1:01:28<1:39:10,  3.12s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  36%|###6      | 1093/3000 [1:01:28<1:39:10,  3.12s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  36%|###6      | 1094/3000 [1:01:28<1:50:32,  3.48s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  36%|###6      | 1094/3000 [1:01:28<1:50:32,  3.48s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  36%|###6      | 1094/3000 [1:01:31<1:50:32,  3.48s/it, lr: 1.0e-04 loss: 9.441e-02]strawbyte_v1:  36%|###6      | 1094/3000 [1:01:31<1:50:32,  3.48s/it, lr: 1.0e-04 loss: 9.441e-02]strawbyte_v1:  36%|###6      | 1095/3000 [1:01:31<1:46:03,  3.34s/it, lr: 1.0e-04 loss: 9.441e-02]strawbyte_v1:  36%|###6      | 1095/3000 [1:01:31<1:46:03,  3.34s/it, lr: 1.0e-04 loss: 9.441e-02]strawbyte_v1:  36%|###6      | 1095/3000 [1:01:35<1:46:03,  3.34s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  36%|###6      | 1095/3000 [1:01:35<1:46:03,  3.34s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  37%|###6      | 1096/3000 [1:01:35<1:55:40,  3.65s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  37%|###6      | 1096/3000 [1:01:35<1:55:40,  3.65s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  37%|###6      | 1096/3000 [1:01:39<1:55:40,  3.65s/it, lr: 1.0e-04 loss: 1.996e-01]strawbyte_v1:  37%|###6      | 1096/3000 [1:01:39<1:55:40,  3.65s/it, lr: 1.0e-04 loss: 1.996e-01]strawbyte_v1:  37%|###6      | 1097/3000 [1:01:39<1:50:53,  3.50s/it, lr: 1.0e-04 loss: 1.996e-01]strawbyte_v1:  37%|###6      | 1097/3000 [1:01:39<1:50:53,  3.50s/it, lr: 1.0e-04 loss: 1.996e-01]strawbyte_v1:  37%|###6      | 1097/3000 [1:01:42<1:50:53,  3.50s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  37%|###6      | 1097/3000 [1:01:42<1:50:53,  3.50s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  37%|###6      | 1098/3000 [1:01:42<1:46:37,  3.36s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  37%|###6      | 1098/3000 [1:01:42<1:46:37,  3.36s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  37%|###6      | 1098/3000 [1:01:45<1:46:37,  3.36s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  37%|###6      | 1098/3000 [1:01:45<1:46:37,  3.36s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  37%|###6      | 1099/3000 [1:01:45<1:43:41,  3.27s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  37%|###6      | 1099/3000 [1:01:45<1:43:41,  3.27s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  37%|###6      | 1099/3000 [1:01:48<1:43:41,  3.27s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  37%|###6      | 1099/3000 [1:01:48<1:43:41,  3.27s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  37%|###6      | 1100/3000 [1:01:51<1:43:38,  3.27s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  37%|###6      | 1100/3000 [1:01:51<1:43:38,  3.27s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  37%|###6      | 1101/3000 [1:01:51<1:20:53,  2.56s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  37%|###6      | 1101/3000 [1:01:51<1:20:53,  2.56s/it, lr: 1.0e-04 loss: 1.147e-01]strawbyte_v1:  37%|###6      | 1101/3000 [1:01:54<1:20:53,  2.56s/it, lr: 1.0e-04 loss: 9.917e-02]strawbyte_v1:  37%|###6      | 1101/3000 [1:01:54<1:20:53,  2.56s/it, lr: 1.0e-04 loss: 9.917e-02]strawbyte_v1:  37%|###6      | 1102/3000 [1:01:54<1:21:58,  2.59s/it, lr: 1.0e-04 loss: 9.917e-02]strawbyte_v1:  37%|###6      | 1102/3000 [1:01:54<1:21:58,  2.59s/it, lr: 1.0e-04 loss: 9.917e-02]strawbyte_v1:  37%|###6      | 1102/3000 [1:01:57<1:21:58,  2.59s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  37%|###6      | 1102/3000 [1:01:57<1:21:58,  2.59s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  37%|###6      | 1103/3000 [1:01:57<1:25:11,  2.69s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  37%|###6      | 1103/3000 [1:01:57<1:25:11,  2.69s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  37%|###6      | 1103/3000 [1:02:00<1:25:11,  2.69s/it, lr: 1.0e-04 loss: 1.154e-02]strawbyte_v1:  37%|###6      | 1103/3000 [1:02:00<1:25:11,  2.69s/it, lr: 1.0e-04 loss: 1.154e-02]strawbyte_v1:  37%|###6      | 1104/3000 [1:02:00<1:31:00,  2.88s/it, lr: 1.0e-04 loss: 1.154e-02]strawbyte_v1:  37%|###6      | 1104/3000 [1:02:00<1:31:00,  2.88s/it, lr: 1.0e-04 loss: 1.154e-02]strawbyte_v1:  37%|###6      | 1104/3000 [1:02:03<1:31:00,  2.88s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  37%|###6      | 1104/3000 [1:02:03<1:31:00,  2.88s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  37%|###6      | 1105/3000 [1:02:03<1:29:39,  2.84s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  37%|###6      | 1105/3000 [1:02:03<1:29:39,  2.84s/it, lr: 1.0e-04 loss: 1.921e-01]strawbyte_v1:  37%|###6      | 1105/3000 [1:02:06<1:29:39,  2.84s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  37%|###6      | 1105/3000 [1:02:06<1:29:39,  2.84s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  37%|###6      | 1106/3000 [1:02:06<1:31:07,  2.89s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  37%|###6      | 1106/3000 [1:02:06<1:31:07,  2.89s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  37%|###6      | 1106/3000 [1:02:10<1:31:07,  2.89s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  37%|###6      | 1106/3000 [1:02:10<1:31:07,  2.89s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  37%|###6      | 1107/3000 [1:02:10<1:45:19,  3.34s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  37%|###6      | 1107/3000 [1:02:10<1:45:19,  3.34s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  37%|###6      | 1107/3000 [1:02:13<1:45:19,  3.34s/it, lr: 1.0e-04 loss: 2.175e-01]strawbyte_v1:  37%|###6      | 1107/3000 [1:02:13<1:45:19,  3.34s/it, lr: 1.0e-04 loss: 2.175e-01]strawbyte_v1:  37%|###6      | 1108/3000 [1:02:13<1:36:58,  3.08s/it, lr: 1.0e-04 loss: 2.175e-01]strawbyte_v1:  37%|###6      | 1108/3000 [1:02:13<1:36:58,  3.08s/it, lr: 1.0e-04 loss: 2.175e-01]strawbyte_v1:  37%|###6      | 1108/3000 [1:02:16<1:36:58,  3.08s/it, lr: 1.0e-04 loss: 2.639e-02]strawbyte_v1:  37%|###6      | 1108/3000 [1:02:16<1:36:58,  3.08s/it, lr: 1.0e-04 loss: 2.639e-02]strawbyte_v1:  37%|###6      | 1109/3000 [1:02:16<1:35:36,  3.03s/it, lr: 1.0e-04 loss: 2.639e-02]strawbyte_v1:  37%|###6      | 1109/3000 [1:02:16<1:35:36,  3.03s/it, lr: 1.0e-04 loss: 2.639e-02]strawbyte_v1:  37%|###6      | 1109/3000 [1:02:18<1:35:36,  3.03s/it, lr: 1.0e-04 loss: 1.963e-01]strawbyte_v1:  37%|###6      | 1109/3000 [1:02:18<1:35:36,  3.03s/it, lr: 1.0e-04 loss: 1.963e-01]strawbyte_v1:  37%|###7      | 1110/3000 [1:02:21<1:35:33,  3.03s/it, lr: 1.0e-04 loss: 8.288e-03]strawbyte_v1:  37%|###7      | 1110/3000 [1:02:21<1:35:33,  3.03s/it, lr: 1.0e-04 loss: 8.288e-03]strawbyte_v1:  37%|###7      | 1111/3000 [1:02:21<1:12:57,  2.32s/it, lr: 1.0e-04 loss: 8.288e-03]strawbyte_v1:  37%|###7      | 1111/3000 [1:02:21<1:12:57,  2.32s/it, lr: 1.0e-04 loss: 8.288e-03]strawbyte_v1:  37%|###7      | 1111/3000 [1:02:24<1:12:57,  2.32s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  37%|###7      | 1111/3000 [1:02:24<1:12:57,  2.32s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  37%|###7      | 1112/3000 [1:02:24<1:19:48,  2.54s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  37%|###7      | 1112/3000 [1:02:24<1:19:48,  2.54s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  37%|###7      | 1112/3000 [1:02:28<1:19:48,  2.54s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  37%|###7      | 1112/3000 [1:02:28<1:19:48,  2.54s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  37%|###7      | 1113/3000 [1:02:28<1:34:54,  3.02s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  37%|###7      | 1113/3000 [1:02:28<1:34:54,  3.02s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  37%|###7      | 1113/3000 [1:02:30<1:34:54,  3.02s/it, lr: 1.0e-04 loss: 2.388e-01]strawbyte_v1:  37%|###7      | 1113/3000 [1:02:30<1:34:54,  3.02s/it, lr: 1.0e-04 loss: 2.388e-01]strawbyte_v1:  37%|###7      | 1114/3000 [1:02:30<1:27:05,  2.77s/it, lr: 1.0e-04 loss: 2.388e-01]strawbyte_v1:  37%|###7      | 1114/3000 [1:02:30<1:27:05,  2.77s/it, lr: 1.0e-04 loss: 2.388e-01]strawbyte_v1:  37%|###7      | 1114/3000 [1:02:35<1:27:05,  2.77s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  37%|###7      | 1114/3000 [1:02:35<1:27:05,  2.77s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  37%|###7      | 1115/3000 [1:02:35<1:43:22,  3.29s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  37%|###7      | 1115/3000 [1:02:35<1:43:22,  3.29s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  37%|###7      | 1115/3000 [1:02:38<1:43:22,  3.29s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  37%|###7      | 1115/3000 [1:02:38<1:43:22,  3.29s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  37%|###7      | 1116/3000 [1:02:38<1:39:43,  3.18s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  37%|###7      | 1116/3000 [1:02:38<1:39:43,  3.18s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  37%|###7      | 1116/3000 [1:02:40<1:39:43,  3.18s/it, lr: 1.0e-04 loss: 1.182e-01]strawbyte_v1:  37%|###7      | 1116/3000 [1:02:40<1:39:43,  3.18s/it, lr: 1.0e-04 loss: 1.182e-01]strawbyte_v1:  37%|###7      | 1117/3000 [1:02:40<1:29:55,  2.87s/it, lr: 1.0e-04 loss: 1.182e-01]strawbyte_v1:  37%|###7      | 1117/3000 [1:02:40<1:29:55,  2.87s/it, lr: 1.0e-04 loss: 1.182e-01]strawbyte_v1:  37%|###7      | 1117/3000 [1:02:44<1:29:55,  2.87s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  37%|###7      | 1117/3000 [1:02:44<1:29:55,  2.87s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  37%|###7      | 1118/3000 [1:02:44<1:43:28,  3.30s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  37%|###7      | 1118/3000 [1:02:44<1:43:28,  3.30s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  37%|###7      | 1118/3000 [1:02:48<1:43:28,  3.30s/it, lr: 1.0e-04 loss: 6.032e-02]strawbyte_v1:  37%|###7      | 1118/3000 [1:02:48<1:43:28,  3.30s/it, lr: 1.0e-04 loss: 6.032e-02]strawbyte_v1:  37%|###7      | 1119/3000 [1:02:48<1:43:39,  3.31s/it, lr: 1.0e-04 loss: 6.032e-02]strawbyte_v1:  37%|###7      | 1119/3000 [1:02:48<1:43:39,  3.31s/it, lr: 1.0e-04 loss: 6.032e-02]strawbyte_v1:  37%|###7      | 1119/3000 [1:02:50<1:43:39,  3.31s/it, lr: 1.0e-04 loss: 1.413e-02]strawbyte_v1:  37%|###7      | 1119/3000 [1:02:50<1:43:39,  3.31s/it, lr: 1.0e-04 loss: 1.413e-02]strawbyte_v1:  37%|###7      | 1120/3000 [1:02:55<1:43:36,  3.31s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  37%|###7      | 1120/3000 [1:02:55<1:43:36,  3.31s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  37%|###7      | 1121/3000 [1:02:55<1:28:01,  2.81s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  37%|###7      | 1121/3000 [1:02:55<1:28:01,  2.81s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  37%|###7      | 1121/3000 [1:02:58<1:28:01,  2.81s/it, lr: 1.0e-04 loss: 1.577e-01]strawbyte_v1:  37%|###7      | 1121/3000 [1:02:58<1:28:01,  2.81s/it, lr: 1.0e-04 loss: 1.577e-01]strawbyte_v1:  37%|###7      | 1122/3000 [1:02:58<1:29:10,  2.85s/it, lr: 1.0e-04 loss: 1.577e-01]strawbyte_v1:  37%|###7      | 1122/3000 [1:02:58<1:29:10,  2.85s/it, lr: 1.0e-04 loss: 1.577e-01]strawbyte_v1:  37%|###7      | 1122/3000 [1:03:01<1:29:10,  2.85s/it, lr: 1.0e-04 loss: 7.997e-02]strawbyte_v1:  37%|###7      | 1122/3000 [1:03:01<1:29:10,  2.85s/it, lr: 1.0e-04 loss: 7.997e-02]strawbyte_v1:  37%|###7      | 1123/3000 [1:03:01<1:31:15,  2.92s/it, lr: 1.0e-04 loss: 7.997e-02]strawbyte_v1:  37%|###7      | 1123/3000 [1:03:01<1:31:15,  2.92s/it, lr: 1.0e-04 loss: 7.997e-02]strawbyte_v1:  37%|###7      | 1123/3000 [1:03:04<1:31:15,  2.92s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  37%|###7      | 1123/3000 [1:03:04<1:31:15,  2.92s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  37%|###7      | 1124/3000 [1:03:04<1:31:39,  2.93s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  37%|###7      | 1124/3000 [1:03:04<1:31:39,  2.93s/it, lr: 1.0e-04 loss: 1.711e-01]strawbyte_v1:  37%|###7      | 1124/3000 [1:03:07<1:31:39,  2.93s/it, lr: 1.0e-04 loss: 2.627e-01]strawbyte_v1:  37%|###7      | 1124/3000 [1:03:07<1:31:39,  2.93s/it, lr: 1.0e-04 loss: 2.627e-01]strawbyte_v1:  38%|###7      | 1125/3000 [1:03:07<1:29:31,  2.87s/it, lr: 1.0e-04 loss: 2.627e-01]strawbyte_v1:  38%|###7      | 1125/3000 [1:03:07<1:29:31,  2.87s/it, lr: 1.0e-04 loss: 2.627e-01]strawbyte_v1:  38%|###7      | 1125/3000 [1:03:11<1:29:31,  2.87s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  38%|###7      | 1125/3000 [1:03:11<1:29:31,  2.87s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  38%|###7      | 1126/3000 [1:03:11<1:46:56,  3.42s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  38%|###7      | 1126/3000 [1:03:11<1:46:56,  3.42s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  38%|###7      | 1126/3000 [1:03:14<1:46:56,  3.42s/it, lr: 1.0e-04 loss: 1.853e-01]strawbyte_v1:  38%|###7      | 1126/3000 [1:03:14<1:46:56,  3.42s/it, lr: 1.0e-04 loss: 1.853e-01]strawbyte_v1:  38%|###7      | 1127/3000 [1:03:14<1:40:32,  3.22s/it, lr: 1.0e-04 loss: 1.853e-01]strawbyte_v1:  38%|###7      | 1127/3000 [1:03:14<1:40:32,  3.22s/it, lr: 1.0e-04 loss: 1.853e-01]strawbyte_v1:  38%|###7      | 1127/3000 [1:03:17<1:40:32,  3.22s/it, lr: 1.0e-04 loss: 9.186e-02]strawbyte_v1:  38%|###7      | 1127/3000 [1:03:17<1:40:32,  3.22s/it, lr: 1.0e-04 loss: 9.186e-02]strawbyte_v1:  38%|###7      | 1128/3000 [1:03:17<1:38:31,  3.16s/it, lr: 1.0e-04 loss: 9.186e-02]strawbyte_v1:  38%|###7      | 1128/3000 [1:03:17<1:38:31,  3.16s/it, lr: 1.0e-04 loss: 9.186e-02]strawbyte_v1:  38%|###7      | 1128/3000 [1:03:20<1:38:31,  3.16s/it, lr: 1.0e-04 loss: 1.436e-01]strawbyte_v1:  38%|###7      | 1128/3000 [1:03:20<1:38:31,  3.16s/it, lr: 1.0e-04 loss: 1.436e-01]strawbyte_v1:  38%|###7      | 1129/3000 [1:03:20<1:34:26,  3.03s/it, lr: 1.0e-04 loss: 1.436e-01]strawbyte_v1:  38%|###7      | 1129/3000 [1:03:20<1:34:26,  3.03s/it, lr: 1.0e-04 loss: 1.436e-01]strawbyte_v1:  38%|###7      | 1129/3000 [1:03:25<1:34:26,  3.03s/it, lr: 1.0e-04 loss: 7.062e-02]strawbyte_v1:  38%|###7      | 1129/3000 [1:03:25<1:34:26,  3.03s/it, lr: 1.0e-04 loss: 7.062e-02]strawbyte_v1:  38%|###7      | 1130/3000 [1:03:27<1:34:22,  3.03s/it, lr: 1.0e-04 loss: 5.315e-02]strawbyte_v1:  38%|###7      | 1130/3000 [1:03:27<1:34:22,  3.03s/it, lr: 1.0e-04 loss: 5.315e-02]strawbyte_v1:  38%|###7      | 1131/3000 [1:03:27<1:10:41,  2.27s/it, lr: 1.0e-04 loss: 5.315e-02]strawbyte_v1:  38%|###7      | 1131/3000 [1:03:27<1:10:41,  2.27s/it, lr: 1.0e-04 loss: 5.315e-02]strawbyte_v1:  38%|###7      | 1131/3000 [1:03:32<1:10:41,  2.27s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  38%|###7      | 1131/3000 [1:03:32<1:10:41,  2.27s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  38%|###7      | 1132/3000 [1:03:32<1:27:17,  2.80s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  38%|###7      | 1132/3000 [1:03:32<1:27:17,  2.80s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  38%|###7      | 1132/3000 [1:03:36<1:27:17,  2.80s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  38%|###7      | 1132/3000 [1:03:36<1:27:17,  2.80s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  38%|###7      | 1133/3000 [1:03:36<1:40:19,  3.22s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  38%|###7      | 1133/3000 [1:03:36<1:40:19,  3.22s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  38%|###7      | 1133/3000 [1:03:39<1:40:19,  3.22s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  38%|###7      | 1133/3000 [1:03:39<1:40:19,  3.22s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  38%|###7      | 1134/3000 [1:03:39<1:33:36,  3.01s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  38%|###7      | 1134/3000 [1:03:39<1:33:36,  3.01s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  38%|###7      | 1134/3000 [1:03:43<1:33:36,  3.01s/it, lr: 1.0e-04 loss: 8.098e-02]strawbyte_v1:  38%|###7      | 1134/3000 [1:03:43<1:33:36,  3.01s/it, lr: 1.0e-04 loss: 8.098e-02]strawbyte_v1:  38%|###7      | 1135/3000 [1:03:43<1:45:22,  3.39s/it, lr: 1.0e-04 loss: 8.098e-02]strawbyte_v1:  38%|###7      | 1135/3000 [1:03:43<1:45:22,  3.39s/it, lr: 1.0e-04 loss: 8.098e-02]strawbyte_v1:  38%|###7      | 1135/3000 [1:03:46<1:45:22,  3.39s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  38%|###7      | 1135/3000 [1:03:46<1:45:22,  3.39s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  38%|###7      | 1136/3000 [1:03:46<1:40:49,  3.25s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  38%|###7      | 1136/3000 [1:03:46<1:40:49,  3.25s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  38%|###7      | 1136/3000 [1:03:48<1:40:49,  3.25s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  38%|###7      | 1136/3000 [1:03:48<1:40:49,  3.25s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  38%|###7      | 1137/3000 [1:03:48<1:33:22,  3.01s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  38%|###7      | 1137/3000 [1:03:48<1:33:22,  3.01s/it, lr: 1.0e-04 loss: 1.598e-01]strawbyte_v1:  38%|###7      | 1137/3000 [1:03:51<1:33:22,  3.01s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  38%|###7      | 1137/3000 [1:03:51<1:33:22,  3.01s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  38%|###7      | 1138/3000 [1:03:51<1:32:04,  2.97s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  38%|###7      | 1138/3000 [1:03:51<1:32:04,  2.97s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  38%|###7      | 1138/3000 [1:03:53<1:32:04,  2.97s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  38%|###7      | 1138/3000 [1:03:53<1:32:04,  2.97s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  38%|###7      | 1139/3000 [1:03:53<1:24:05,  2.71s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  38%|###7      | 1139/3000 [1:03:53<1:24:05,  2.71s/it, lr: 1.0e-04 loss: 1.754e-01]strawbyte_v1:  38%|###7      | 1139/3000 [1:03:58<1:24:05,  2.71s/it, lr: 1.0e-04 loss: 7.141e-02]strawbyte_v1:  38%|###7      | 1139/3000 [1:03:58<1:24:05,  2.71s/it, lr: 1.0e-04 loss: 7.141e-02]strawbyte_v1:  38%|###8      | 1140/3000 [1:04:01<1:24:02,  2.71s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  38%|###8      | 1140/3000 [1:04:01<1:24:02,  2.71s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  38%|###8      | 1141/3000 [1:04:01<1:07:50,  2.19s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  38%|###8      | 1141/3000 [1:04:01<1:07:50,  2.19s/it, lr: 1.0e-04 loss: 1.590e-01]strawbyte_v1:  38%|###8      | 1141/3000 [1:04:05<1:07:50,  2.19s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  38%|###8      | 1141/3000 [1:04:05<1:07:50,  2.19s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  38%|###8      | 1142/3000 [1:04:05<1:24:30,  2.73s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  38%|###8      | 1142/3000 [1:04:05<1:24:30,  2.73s/it, lr: 1.0e-04 loss: 1.173e-01]strawbyte_v1:  38%|###8      | 1142/3000 [1:04:08<1:24:30,  2.73s/it, lr: 1.0e-04 loss: 1.649e-01]strawbyte_v1:  38%|###8      | 1142/3000 [1:04:08<1:24:30,  2.73s/it, lr: 1.0e-04 loss: 1.649e-01]strawbyte_v1:  38%|###8      | 1143/3000 [1:04:08<1:24:08,  2.72s/it, lr: 1.0e-04 loss: 1.649e-01]strawbyte_v1:  38%|###8      | 1143/3000 [1:04:08<1:24:08,  2.72s/it, lr: 1.0e-04 loss: 1.649e-01]strawbyte_v1:  38%|###8      | 1143/3000 [1:04:10<1:24:08,  2.72s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  38%|###8      | 1143/3000 [1:04:10<1:24:08,  2.72s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  38%|###8      | 1144/3000 [1:04:10<1:23:50,  2.71s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  38%|###8      | 1144/3000 [1:04:10<1:23:50,  2.71s/it, lr: 1.0e-04 loss: 2.128e-01]strawbyte_v1:  38%|###8      | 1144/3000 [1:04:14<1:23:50,  2.71s/it, lr: 1.0e-04 loss: 3.913e-02]strawbyte_v1:  38%|###8      | 1144/3000 [1:04:14<1:23:50,  2.71s/it, lr: 1.0e-04 loss: 3.913e-02]strawbyte_v1:  38%|###8      | 1145/3000 [1:04:14<1:27:08,  2.82s/it, lr: 1.0e-04 loss: 3.913e-02]strawbyte_v1:  38%|###8      | 1145/3000 [1:04:14<1:27:08,  2.82s/it, lr: 1.0e-04 loss: 3.913e-02]strawbyte_v1:  38%|###8      | 1145/3000 [1:04:17<1:27:08,  2.82s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  38%|###8      | 1145/3000 [1:04:17<1:27:08,  2.82s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  38%|###8      | 1146/3000 [1:04:17<1:28:28,  2.86s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  38%|###8      | 1146/3000 [1:04:17<1:28:28,  2.86s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  38%|###8      | 1146/3000 [1:04:20<1:28:28,  2.86s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  38%|###8      | 1146/3000 [1:04:20<1:28:28,  2.86s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  38%|###8      | 1147/3000 [1:04:20<1:29:28,  2.90s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  38%|###8      | 1147/3000 [1:04:20<1:29:28,  2.90s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  38%|###8      | 1147/3000 [1:04:23<1:29:28,  2.90s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  38%|###8      | 1147/3000 [1:04:23<1:29:28,  2.90s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  38%|###8      | 1148/3000 [1:04:23<1:33:43,  3.04s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  38%|###8      | 1148/3000 [1:04:23<1:33:43,  3.04s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  38%|###8      | 1148/3000 [1:04:27<1:33:43,  3.04s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  38%|###8      | 1148/3000 [1:04:27<1:33:43,  3.04s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  38%|###8      | 1149/3000 [1:04:27<1:46:18,  3.45s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  38%|###8      | 1149/3000 [1:04:27<1:46:18,  3.45s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  38%|###8      | 1149/3000 [1:04:30<1:46:18,  3.45s/it, lr: 1.0e-04 loss: 7.516e-02]strawbyte_v1:  38%|###8      | 1149/3000 [1:04:30<1:46:18,  3.45s/it, lr: 1.0e-04 loss: 7.516e-02]strawbyte_v1:  38%|###8      | 1150/3000 [1:04:35<1:46:14,  3.45s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  38%|###8      | 1150/3000 [1:04:35<1:46:14,  3.45s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  38%|###8      | 1151/3000 [1:04:35<1:29:08,  2.89s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  38%|###8      | 1151/3000 [1:04:35<1:29:08,  2.89s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  38%|###8      | 1151/3000 [1:04:38<1:29:08,  2.89s/it, lr: 1.0e-04 loss: 1.973e-01]strawbyte_v1:  38%|###8      | 1151/3000 [1:04:38<1:29:08,  2.89s/it, lr: 1.0e-04 loss: 1.973e-01]strawbyte_v1:  38%|###8      | 1152/3000 [1:04:38<1:33:12,  3.03s/it, lr: 1.0e-04 loss: 1.973e-01]strawbyte_v1:  38%|###8      | 1152/3000 [1:04:38<1:33:12,  3.03s/it, lr: 1.0e-04 loss: 1.973e-01]strawbyte_v1:  38%|###8      | 1152/3000 [1:04:41<1:33:12,  3.03s/it, lr: 1.0e-04 loss: 2.014e-01]strawbyte_v1:  38%|###8      | 1152/3000 [1:04:41<1:33:12,  3.03s/it, lr: 1.0e-04 loss: 2.014e-01]strawbyte_v1:  38%|###8      | 1153/3000 [1:04:41<1:30:20,  2.93s/it, lr: 1.0e-04 loss: 2.014e-01]strawbyte_v1:  38%|###8      | 1153/3000 [1:04:41<1:30:20,  2.93s/it, lr: 1.0e-04 loss: 2.014e-01]strawbyte_v1:  38%|###8      | 1153/3000 [1:04:44<1:30:20,  2.93s/it, lr: 1.0e-04 loss: 2.635e-02]strawbyte_v1:  38%|###8      | 1153/3000 [1:04:44<1:30:20,  2.93s/it, lr: 1.0e-04 loss: 2.635e-02]strawbyte_v1:  38%|###8      | 1154/3000 [1:04:44<1:28:20,  2.87s/it, lr: 1.0e-04 loss: 2.635e-02]strawbyte_v1:  38%|###8      | 1154/3000 [1:04:44<1:28:20,  2.87s/it, lr: 1.0e-04 loss: 2.635e-02]strawbyte_v1:  38%|###8      | 1154/3000 [1:04:47<1:28:20,  2.87s/it, lr: 1.0e-04 loss: 1.506e-01]strawbyte_v1:  38%|###8      | 1154/3000 [1:04:47<1:28:20,  2.87s/it, lr: 1.0e-04 loss: 1.506e-01]strawbyte_v1:  38%|###8      | 1155/3000 [1:04:47<1:30:39,  2.95s/it, lr: 1.0e-04 loss: 1.506e-01]strawbyte_v1:  38%|###8      | 1155/3000 [1:04:47<1:30:39,  2.95s/it, lr: 1.0e-04 loss: 1.506e-01]strawbyte_v1:  38%|###8      | 1155/3000 [1:04:51<1:30:39,  2.95s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:  38%|###8      | 1155/3000 [1:04:51<1:30:39,  2.95s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:  39%|###8      | 1156/3000 [1:04:51<1:42:48,  3.35s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:  39%|###8      | 1156/3000 [1:04:51<1:42:48,  3.35s/it, lr: 1.0e-04 loss: 1.171e-01]strawbyte_v1:  39%|###8      | 1156/3000 [1:04:55<1:42:48,  3.35s/it, lr: 1.0e-04 loss: 1.569e-01]strawbyte_v1:  39%|###8      | 1156/3000 [1:04:55<1:42:48,  3.35s/it, lr: 1.0e-04 loss: 1.569e-01]strawbyte_v1:  39%|###8      | 1157/3000 [1:04:55<1:51:09,  3.62s/it, lr: 1.0e-04 loss: 1.569e-01]strawbyte_v1:  39%|###8      | 1157/3000 [1:04:55<1:51:09,  3.62s/it, lr: 1.0e-04 loss: 1.569e-01]strawbyte_v1:  39%|###8      | 1157/3000 [1:04:58<1:51:09,  3.62s/it, lr: 1.0e-04 loss: 8.659e-02]strawbyte_v1:  39%|###8      | 1157/3000 [1:04:58<1:51:09,  3.62s/it, lr: 1.0e-04 loss: 8.659e-02]strawbyte_v1:  39%|###8      | 1158/3000 [1:04:58<1:44:39,  3.41s/it, lr: 1.0e-04 loss: 8.659e-02]strawbyte_v1:  39%|###8      | 1158/3000 [1:04:58<1:44:39,  3.41s/it, lr: 1.0e-04 loss: 8.659e-02]strawbyte_v1:  39%|###8      | 1158/3000 [1:05:01<1:44:39,  3.41s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###8      | 1158/3000 [1:05:01<1:44:39,  3.41s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###8      | 1159/3000 [1:05:01<1:35:39,  3.12s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###8      | 1159/3000 [1:05:01<1:35:39,  3.12s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###8      | 1159/3000 [1:05:04<1:35:39,  3.12s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  39%|###8      | 1159/3000 [1:05:04<1:35:39,  3.12s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  39%|###8      | 1160/3000 [1:05:08<1:35:36,  3.12s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  39%|###8      | 1160/3000 [1:05:08<1:35:36,  3.12s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  39%|###8      | 1161/3000 [1:05:08<1:22:32,  2.69s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  39%|###8      | 1161/3000 [1:05:08<1:22:32,  2.69s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  39%|###8      | 1161/3000 [1:05:13<1:22:32,  2.69s/it, lr: 1.0e-04 loss: 5.705e-02]strawbyte_v1:  39%|###8      | 1161/3000 [1:05:13<1:22:32,  2.69s/it, lr: 1.0e-04 loss: 5.705e-02]strawbyte_v1:  39%|###8      | 1162/3000 [1:05:13<1:36:20,  3.15s/it, lr: 1.0e-04 loss: 5.705e-02]strawbyte_v1:  39%|###8      | 1162/3000 [1:05:13<1:36:20,  3.15s/it, lr: 1.0e-04 loss: 5.705e-02]strawbyte_v1:  39%|###8      | 1162/3000 [1:05:15<1:36:20,  3.15s/it, lr: 1.0e-04 loss: 3.054e-03]strawbyte_v1:  39%|###8      | 1162/3000 [1:05:15<1:36:20,  3.15s/it, lr: 1.0e-04 loss: 3.054e-03]strawbyte_v1:  39%|###8      | 1163/3000 [1:05:15<1:34:18,  3.08s/it, lr: 1.0e-04 loss: 3.054e-03]strawbyte_v1:  39%|###8      | 1163/3000 [1:05:15<1:34:18,  3.08s/it, lr: 1.0e-04 loss: 3.054e-03]strawbyte_v1:  39%|###8      | 1163/3000 [1:05:20<1:34:18,  3.08s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  39%|###8      | 1163/3000 [1:05:20<1:34:18,  3.08s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  39%|###8      | 1164/3000 [1:05:20<1:44:58,  3.43s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  39%|###8      | 1164/3000 [1:05:20<1:44:58,  3.43s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  39%|###8      | 1164/3000 [1:05:24<1:44:58,  3.43s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  39%|###8      | 1164/3000 [1:05:24<1:44:58,  3.43s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  39%|###8      | 1165/3000 [1:05:24<1:53:57,  3.73s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  39%|###8      | 1165/3000 [1:05:24<1:53:57,  3.73s/it, lr: 1.0e-04 loss: 1.272e-01]strawbyte_v1:  39%|###8      | 1165/3000 [1:05:27<1:53:57,  3.73s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  39%|###8      | 1165/3000 [1:05:27<1:53:57,  3.73s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  39%|###8      | 1166/3000 [1:05:27<1:49:03,  3.57s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  39%|###8      | 1166/3000 [1:05:27<1:49:03,  3.57s/it, lr: 1.0e-04 loss: 1.373e-01]strawbyte_v1:  39%|###8      | 1166/3000 [1:05:32<1:49:03,  3.57s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  39%|###8      | 1166/3000 [1:05:32<1:49:03,  3.57s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  39%|###8      | 1167/3000 [1:05:32<1:57:01,  3.83s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  39%|###8      | 1167/3000 [1:05:32<1:57:01,  3.83s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  39%|###8      | 1167/3000 [1:05:36<1:57:01,  3.83s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  39%|###8      | 1167/3000 [1:05:36<1:57:01,  3.83s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  39%|###8      | 1168/3000 [1:05:36<2:02:38,  4.02s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  39%|###8      | 1168/3000 [1:05:36<2:02:38,  4.02s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  39%|###8      | 1168/3000 [1:05:39<2:02:38,  4.02s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  39%|###8      | 1168/3000 [1:05:39<2:02:38,  4.02s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  39%|###8      | 1169/3000 [1:05:39<1:51:01,  3.64s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  39%|###8      | 1169/3000 [1:05:39<1:51:01,  3.64s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  39%|###8      | 1169/3000 [1:05:42<1:51:01,  3.64s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  39%|###8      | 1169/3000 [1:05:42<1:51:01,  3.64s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  39%|###9      | 1170/3000 [1:05:45<1:50:57,  3.64s/it, lr: 1.0e-04 loss: 1.601e-01]strawbyte_v1:  39%|###9      | 1170/3000 [1:05:45<1:50:57,  3.64s/it, lr: 1.0e-04 loss: 1.601e-01]strawbyte_v1:  39%|###9      | 1171/3000 [1:05:45<1:19:19,  2.60s/it, lr: 1.0e-04 loss: 1.601e-01]strawbyte_v1:  39%|###9      | 1171/3000 [1:05:45<1:19:19,  2.60s/it, lr: 1.0e-04 loss: 1.601e-01]strawbyte_v1:  39%|###9      | 1171/3000 [1:05:49<1:19:19,  2.60s/it, lr: 1.0e-04 loss: 1.379e-01]strawbyte_v1:  39%|###9      | 1171/3000 [1:05:49<1:19:19,  2.60s/it, lr: 1.0e-04 loss: 1.379e-01]strawbyte_v1:  39%|###9      | 1172/3000 [1:05:49<1:33:20,  3.06s/it, lr: 1.0e-04 loss: 1.379e-01]strawbyte_v1:  39%|###9      | 1172/3000 [1:05:49<1:33:20,  3.06s/it, lr: 1.0e-04 loss: 1.379e-01]strawbyte_v1:  39%|###9      | 1172/3000 [1:05:53<1:33:20,  3.06s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  39%|###9      | 1172/3000 [1:05:53<1:33:20,  3.06s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  39%|###9      | 1173/3000 [1:05:53<1:33:33,  3.07s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  39%|###9      | 1173/3000 [1:05:53<1:33:33,  3.07s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  39%|###9      | 1173/3000 [1:05:55<1:33:33,  3.07s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  39%|###9      | 1173/3000 [1:05:55<1:33:33,  3.07s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  39%|###9      | 1174/3000 [1:05:55<1:30:27,  2.97s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  39%|###9      | 1174/3000 [1:05:55<1:30:27,  2.97s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  39%|###9      | 1174/3000 [1:06:00<1:30:27,  2.97s/it, lr: 1.0e-04 loss: 7.488e-02]strawbyte_v1:  39%|###9      | 1174/3000 [1:06:00<1:30:27,  2.97s/it, lr: 1.0e-04 loss: 7.488e-02]strawbyte_v1:  39%|###9      | 1175/3000 [1:06:00<1:42:42,  3.38s/it, lr: 1.0e-04 loss: 7.488e-02]strawbyte_v1:  39%|###9      | 1175/3000 [1:06:00<1:42:42,  3.38s/it, lr: 1.0e-04 loss: 7.488e-02]strawbyte_v1:  39%|###9      | 1175/3000 [1:06:04<1:42:42,  3.38s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  39%|###9      | 1175/3000 [1:06:04<1:42:42,  3.38s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  39%|###9      | 1176/3000 [1:06:04<1:51:48,  3.68s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  39%|###9      | 1176/3000 [1:06:04<1:51:48,  3.68s/it, lr: 1.0e-04 loss: 9.262e-02]strawbyte_v1:  39%|###9      | 1176/3000 [1:06:07<1:51:48,  3.68s/it, lr: 1.0e-04 loss: 2.073e-01]strawbyte_v1:  39%|###9      | 1176/3000 [1:06:07<1:51:48,  3.68s/it, lr: 1.0e-04 loss: 2.073e-01]strawbyte_v1:  39%|###9      | 1177/3000 [1:06:07<1:46:13,  3.50s/it, lr: 1.0e-04 loss: 2.073e-01]strawbyte_v1:  39%|###9      | 1177/3000 [1:06:07<1:46:13,  3.50s/it, lr: 1.0e-04 loss: 2.073e-01]strawbyte_v1:  39%|###9      | 1177/3000 [1:06:10<1:46:13,  3.50s/it, lr: 1.0e-04 loss: 1.952e-01]strawbyte_v1:  39%|###9      | 1177/3000 [1:06:10<1:46:13,  3.50s/it, lr: 1.0e-04 loss: 1.952e-01]strawbyte_v1:  39%|###9      | 1178/3000 [1:06:10<1:39:11,  3.27s/it, lr: 1.0e-04 loss: 1.952e-01]strawbyte_v1:  39%|###9      | 1178/3000 [1:06:10<1:39:11,  3.27s/it, lr: 1.0e-04 loss: 1.952e-01]strawbyte_v1:  39%|###9      | 1178/3000 [1:06:14<1:39:11,  3.27s/it, lr: 1.0e-04 loss: 8.436e-02]strawbyte_v1:  39%|###9      | 1178/3000 [1:06:14<1:39:11,  3.27s/it, lr: 1.0e-04 loss: 8.436e-02]strawbyte_v1:  39%|###9      | 1179/3000 [1:06:14<1:49:31,  3.61s/it, lr: 1.0e-04 loss: 8.436e-02]strawbyte_v1:  39%|###9      | 1179/3000 [1:06:14<1:49:31,  3.61s/it, lr: 1.0e-04 loss: 8.436e-02]strawbyte_v1:  39%|###9      | 1179/3000 [1:06:17<1:49:31,  3.61s/it, lr: 1.0e-04 loss: 1.690e-02]strawbyte_v1:  39%|###9      | 1179/3000 [1:06:17<1:49:31,  3.61s/it, lr: 1.0e-04 loss: 1.690e-02]strawbyte_v1:  39%|###9      | 1180/3000 [1:06:20<1:49:27,  3.61s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  39%|###9      | 1180/3000 [1:06:20<1:49:27,  3.61s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  39%|###9      | 1181/3000 [1:06:20<1:19:21,  2.62s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  39%|###9      | 1181/3000 [1:06:20<1:19:21,  2.62s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  39%|###9      | 1181/3000 [1:06:23<1:19:21,  2.62s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###9      | 1181/3000 [1:06:23<1:19:21,  2.62s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###9      | 1182/3000 [1:06:23<1:21:35,  2.69s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###9      | 1182/3000 [1:06:23<1:21:35,  2.69s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  39%|###9      | 1182/3000 [1:06:27<1:21:35,  2.69s/it, lr: 1.0e-04 loss: 4.288e-02]strawbyte_v1:  39%|###9      | 1182/3000 [1:06:27<1:21:35,  2.69s/it, lr: 1.0e-04 loss: 4.288e-02]strawbyte_v1:  39%|###9      | 1183/3000 [1:06:27<1:34:31,  3.12s/it, lr: 1.0e-04 loss: 4.288e-02]strawbyte_v1:  39%|###9      | 1183/3000 [1:06:27<1:34:31,  3.12s/it, lr: 1.0e-04 loss: 4.288e-02]strawbyte_v1:  39%|###9      | 1183/3000 [1:06:30<1:34:31,  3.12s/it, lr: 1.0e-04 loss: 6.226e-02]strawbyte_v1:  39%|###9      | 1183/3000 [1:06:30<1:34:31,  3.12s/it, lr: 1.0e-04 loss: 6.226e-02]strawbyte_v1:  39%|###9      | 1184/3000 [1:06:30<1:34:42,  3.13s/it, lr: 1.0e-04 loss: 6.226e-02]strawbyte_v1:  39%|###9      | 1184/3000 [1:06:30<1:34:42,  3.13s/it, lr: 1.0e-04 loss: 6.226e-02]strawbyte_v1:  39%|###9      | 1184/3000 [1:06:33<1:34:42,  3.13s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  39%|###9      | 1184/3000 [1:06:33<1:34:42,  3.13s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  40%|###9      | 1185/3000 [1:06:33<1:32:34,  3.06s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  40%|###9      | 1185/3000 [1:06:33<1:32:34,  3.06s/it, lr: 1.0e-04 loss: 1.318e-01]strawbyte_v1:  40%|###9      | 1185/3000 [1:06:37<1:32:34,  3.06s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1185/3000 [1:06:37<1:32:34,  3.06s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1186/3000 [1:06:37<1:43:50,  3.43s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1186/3000 [1:06:37<1:43:50,  3.43s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1186/3000 [1:06:40<1:43:50,  3.43s/it, lr: 1.0e-04 loss: 1.180e-01]strawbyte_v1:  40%|###9      | 1186/3000 [1:06:40<1:43:50,  3.43s/it, lr: 1.0e-04 loss: 1.180e-01]strawbyte_v1:  40%|###9      | 1187/3000 [1:06:41<1:41:35,  3.36s/it, lr: 1.0e-04 loss: 1.180e-01]strawbyte_v1:  40%|###9      | 1187/3000 [1:06:41<1:41:35,  3.36s/it, lr: 1.0e-04 loss: 1.180e-01]strawbyte_v1:  40%|###9      | 1187/3000 [1:06:44<1:41:35,  3.36s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  40%|###9      | 1187/3000 [1:06:44<1:41:35,  3.36s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  40%|###9      | 1188/3000 [1:06:44<1:38:18,  3.26s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  40%|###9      | 1188/3000 [1:06:44<1:38:18,  3.26s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  40%|###9      | 1188/3000 [1:06:48<1:38:18,  3.26s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1188/3000 [1:06:48<1:38:18,  3.26s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1189/3000 [1:06:48<1:48:41,  3.60s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1189/3000 [1:06:48<1:48:41,  3.60s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  40%|###9      | 1189/3000 [1:06:53<1:48:41,  3.60s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  40%|###9      | 1189/3000 [1:06:53<1:48:41,  3.60s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  40%|###9      | 1190/3000 [1:06:56<1:48:38,  3.60s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  40%|###9      | 1190/3000 [1:06:56<1:48:38,  3.60s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  40%|###9      | 1191/3000 [1:06:56<1:21:02,  2.69s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  40%|###9      | 1191/3000 [1:06:56<1:21:02,  2.69s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  40%|###9      | 1191/3000 [1:07:00<1:21:02,  2.69s/it, lr: 1.0e-04 loss: 8.571e-02]strawbyte_v1:  40%|###9      | 1191/3000 [1:07:00<1:21:02,  2.69s/it, lr: 1.0e-04 loss: 8.571e-02]strawbyte_v1:  40%|###9      | 1192/3000 [1:07:00<1:34:34,  3.14s/it, lr: 1.0e-04 loss: 8.571e-02]strawbyte_v1:  40%|###9      | 1192/3000 [1:07:00<1:34:34,  3.14s/it, lr: 1.0e-04 loss: 8.571e-02]strawbyte_v1:  40%|###9      | 1192/3000 [1:07:05<1:34:34,  3.14s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  40%|###9      | 1192/3000 [1:07:05<1:34:34,  3.14s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  40%|###9      | 1193/3000 [1:07:05<1:45:19,  3.50s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  40%|###9      | 1193/3000 [1:07:05<1:45:19,  3.50s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  40%|###9      | 1193/3000 [1:07:10<1:45:19,  3.50s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  40%|###9      | 1193/3000 [1:07:10<1:45:19,  3.50s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  40%|###9      | 1194/3000 [1:07:10<1:55:16,  3.83s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  40%|###9      | 1194/3000 [1:07:10<1:55:16,  3.83s/it, lr: 1.0e-04 loss: 1.541e-01]strawbyte_v1:  40%|###9      | 1194/3000 [1:07:14<1:55:16,  3.83s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  40%|###9      | 1194/3000 [1:07:14<1:55:16,  3.83s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  40%|###9      | 1195/3000 [1:07:14<2:00:42,  4.01s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  40%|###9      | 1195/3000 [1:07:14<2:00:42,  4.01s/it, lr: 1.0e-04 loss: 1.268e-01]strawbyte_v1:  40%|###9      | 1195/3000 [1:07:17<2:00:42,  4.01s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:  40%|###9      | 1195/3000 [1:07:17<2:00:42,  4.01s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:  40%|###9      | 1196/3000 [1:07:17<1:51:59,  3.72s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:  40%|###9      | 1196/3000 [1:07:17<1:51:59,  3.72s/it, lr: 1.0e-04 loss: 1.406e-01]strawbyte_v1:  40%|###9      | 1196/3000 [1:07:22<1:51:59,  3.72s/it, lr: 1.0e-04 loss: 8.150e-02]strawbyte_v1:  40%|###9      | 1196/3000 [1:07:22<1:51:59,  3.72s/it, lr: 1.0e-04 loss: 8.150e-02]strawbyte_v1:  40%|###9      | 1197/3000 [1:07:22<1:58:53,  3.96s/it, lr: 1.0e-04 loss: 8.150e-02]strawbyte_v1:  40%|###9      | 1197/3000 [1:07:22<1:58:53,  3.96s/it, lr: 1.0e-04 loss: 8.150e-02]strawbyte_v1:  40%|###9      | 1197/3000 [1:07:25<1:58:53,  3.96s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  40%|###9      | 1197/3000 [1:07:25<1:58:53,  3.96s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  40%|###9      | 1198/3000 [1:07:25<1:53:05,  3.77s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  40%|###9      | 1198/3000 [1:07:25<1:53:05,  3.77s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  40%|###9      | 1198/3000 [1:07:28<1:53:05,  3.77s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  40%|###9      | 1198/3000 [1:07:28<1:53:05,  3.77s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  40%|###9      | 1199/3000 [1:07:28<1:43:44,  3.46s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  40%|###9      | 1199/3000 [1:07:28<1:43:44,  3.46s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  40%|###9      | 1199/3000 [1:07:32<1:43:44,  3.46s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  40%|###9      | 1199/3000 [1:07:32<1:43:44,  3.46s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  40%|####      | 1200/3000 [1:07:34<1:43:40,  3.46s/it, lr: 1.0e-04 loss: 7.370e-02]strawbyte_v1:  40%|####      | 1200/3000 [1:07:34<1:43:40,  3.46s/it, lr: 1.0e-04 loss: 7.370e-02]strawbyte_v1:  40%|####      | 1201/3000 [1:07:34<1:12:33,  2.42s/it, lr: 1.0e-04 loss: 7.370e-02]strawbyte_v1:  40%|####      | 1201/3000 [1:07:34<1:12:33,  2.42s/it, lr: 1.0e-04 loss: 7.370e-02]strawbyte_v1:  40%|####      | 1201/3000 [1:07:37<1:12:33,  2.42s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  40%|####      | 1201/3000 [1:07:37<1:12:33,  2.42s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  40%|####      | 1202/3000 [1:07:37<1:16:10,  2.54s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  40%|####      | 1202/3000 [1:07:37<1:16:10,  2.54s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  40%|####      | 1202/3000 [1:07:39<1:16:10,  2.54s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  40%|####      | 1202/3000 [1:07:39<1:16:10,  2.54s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  40%|####      | 1203/3000 [1:07:39<1:12:34,  2.42s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  40%|####      | 1203/3000 [1:07:39<1:12:34,  2.42s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  40%|####      | 1203/3000 [1:07:44<1:12:34,  2.42s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  40%|####      | 1203/3000 [1:07:44<1:12:34,  2.42s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  40%|####      | 1204/3000 [1:07:44<1:28:29,  2.96s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  40%|####      | 1204/3000 [1:07:44<1:28:29,  2.96s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  40%|####      | 1204/3000 [1:07:48<1:28:29,  2.96s/it, lr: 1.0e-04 loss: 1.516e-01]strawbyte_v1:  40%|####      | 1204/3000 [1:07:48<1:28:29,  2.96s/it, lr: 1.0e-04 loss: 1.516e-01]strawbyte_v1:  40%|####      | 1205/3000 [1:07:48<1:41:50,  3.40s/it, lr: 1.0e-04 loss: 1.516e-01]strawbyte_v1:  40%|####      | 1205/3000 [1:07:48<1:41:50,  3.40s/it, lr: 1.0e-04 loss: 1.516e-01]strawbyte_v1:  40%|####      | 1205/3000 [1:07:51<1:41:50,  3.40s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  40%|####      | 1205/3000 [1:07:51<1:41:50,  3.40s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  40%|####      | 1206/3000 [1:07:51<1:37:16,  3.25s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  40%|####      | 1206/3000 [1:07:51<1:37:16,  3.25s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  40%|####      | 1206/3000 [1:07:54<1:37:16,  3.25s/it, lr: 1.0e-04 loss: 7.945e-02]strawbyte_v1:  40%|####      | 1206/3000 [1:07:54<1:37:16,  3.25s/it, lr: 1.0e-04 loss: 7.945e-02]strawbyte_v1:  40%|####      | 1207/3000 [1:07:54<1:34:15,  3.15s/it, lr: 1.0e-04 loss: 7.945e-02]strawbyte_v1:  40%|####      | 1207/3000 [1:07:54<1:34:15,  3.15s/it, lr: 1.0e-04 loss: 7.945e-02]strawbyte_v1:  40%|####      | 1207/3000 [1:07:59<1:34:15,  3.15s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  40%|####      | 1207/3000 [1:07:59<1:34:15,  3.15s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  40%|####      | 1208/3000 [1:07:59<1:45:04,  3.52s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  40%|####      | 1208/3000 [1:07:59<1:45:04,  3.52s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  40%|####      | 1208/3000 [1:08:01<1:45:04,  3.52s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  40%|####      | 1208/3000 [1:08:01<1:45:04,  3.52s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  40%|####      | 1209/3000 [1:08:01<1:34:56,  3.18s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  40%|####      | 1209/3000 [1:08:01<1:34:56,  3.18s/it, lr: 1.0e-04 loss: 2.303e-01]strawbyte_v1:  40%|####      | 1209/3000 [1:08:05<1:34:56,  3.18s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  40%|####      | 1209/3000 [1:08:05<1:34:56,  3.18s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  40%|####      | 1210/3000 [1:08:08<1:34:53,  3.18s/it, lr: 1.0e-04 loss: 8.491e-02]strawbyte_v1:  40%|####      | 1210/3000 [1:08:08<1:34:53,  3.18s/it, lr: 1.0e-04 loss: 8.491e-02]strawbyte_v1:  40%|####      | 1211/3000 [1:08:08<1:12:05,  2.42s/it, lr: 1.0e-04 loss: 8.491e-02]strawbyte_v1:  40%|####      | 1211/3000 [1:08:08<1:12:05,  2.42s/it, lr: 1.0e-04 loss: 8.491e-02]strawbyte_v1:  40%|####      | 1211/3000 [1:08:13<1:12:05,  2.42s/it, lr: 1.0e-04 loss: 1.474e-01]strawbyte_v1:  40%|####      | 1211/3000 [1:08:13<1:12:05,  2.42s/it, lr: 1.0e-04 loss: 1.474e-01]strawbyte_v1:  40%|####      | 1212/3000 [1:08:13<1:28:45,  2.98s/it, lr: 1.0e-04 loss: 1.474e-01]strawbyte_v1:  40%|####      | 1212/3000 [1:08:13<1:28:45,  2.98s/it, lr: 1.0e-04 loss: 1.474e-01]strawbyte_v1:  40%|####      | 1212/3000 [1:08:17<1:28:45,  2.98s/it, lr: 1.0e-04 loss: 4.126e-02]strawbyte_v1:  40%|####      | 1212/3000 [1:08:17<1:28:45,  2.98s/it, lr: 1.0e-04 loss: 4.126e-02]strawbyte_v1:  40%|####      | 1213/3000 [1:08:17<1:40:03,  3.36s/it, lr: 1.0e-04 loss: 4.126e-02]strawbyte_v1:  40%|####      | 1213/3000 [1:08:17<1:40:03,  3.36s/it, lr: 1.0e-04 loss: 4.126e-02]strawbyte_v1:  40%|####      | 1213/3000 [1:08:20<1:40:03,  3.36s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  40%|####      | 1213/3000 [1:08:20<1:40:03,  3.36s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  40%|####      | 1214/3000 [1:08:20<1:34:28,  3.17s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  40%|####      | 1214/3000 [1:08:20<1:34:28,  3.17s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  40%|####      | 1214/3000 [1:08:25<1:34:28,  3.17s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:  40%|####      | 1214/3000 [1:08:25<1:34:28,  3.17s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:  40%|####      | 1215/3000 [1:08:25<1:45:06,  3.53s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:  40%|####      | 1215/3000 [1:08:25<1:45:06,  3.53s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:  40%|####      | 1215/3000 [1:08:28<1:45:06,  3.53s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  40%|####      | 1215/3000 [1:08:28<1:45:06,  3.53s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  41%|####      | 1216/3000 [1:08:28<1:42:55,  3.46s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  41%|####      | 1216/3000 [1:08:28<1:42:55,  3.46s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  41%|####      | 1216/3000 [1:08:31<1:42:55,  3.46s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  41%|####      | 1216/3000 [1:08:31<1:42:55,  3.46s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  41%|####      | 1217/3000 [1:08:31<1:39:13,  3.34s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  41%|####      | 1217/3000 [1:08:31<1:39:13,  3.34s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  41%|####      | 1217/3000 [1:08:35<1:39:13,  3.34s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####      | 1217/3000 [1:08:35<1:39:13,  3.34s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####      | 1218/3000 [1:08:35<1:48:41,  3.66s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####      | 1218/3000 [1:08:35<1:48:41,  3.66s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####      | 1218/3000 [1:08:38<1:48:41,  3.66s/it, lr: 1.0e-04 loss: 5.297e-02]strawbyte_v1:  41%|####      | 1218/3000 [1:08:38<1:48:41,  3.66s/it, lr: 1.0e-04 loss: 5.297e-02]strawbyte_v1:  41%|####      | 1219/3000 [1:08:38<1:43:11,  3.48s/it, lr: 1.0e-04 loss: 5.297e-02]strawbyte_v1:  41%|####      | 1219/3000 [1:08:38<1:43:11,  3.48s/it, lr: 1.0e-04 loss: 5.297e-02]strawbyte_v1:  41%|####      | 1219/3000 [1:08:42<1:43:11,  3.48s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  41%|####      | 1219/3000 [1:08:42<1:43:11,  3.48s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  41%|####      | 1220/3000 [1:08:45<1:43:08,  3.48s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  41%|####      | 1220/3000 [1:08:45<1:43:08,  3.48s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  41%|####      | 1221/3000 [1:08:45<1:15:15,  2.54s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  41%|####      | 1221/3000 [1:08:45<1:15:15,  2.54s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  41%|####      | 1221/3000 [1:08:48<1:15:15,  2.54s/it, lr: 1.0e-04 loss: 1.012e-01]strawbyte_v1:  41%|####      | 1221/3000 [1:08:48<1:15:15,  2.54s/it, lr: 1.0e-04 loss: 1.012e-01]strawbyte_v1:  41%|####      | 1222/3000 [1:08:48<1:18:42,  2.66s/it, lr: 1.0e-04 loss: 1.012e-01]strawbyte_v1:  41%|####      | 1222/3000 [1:08:48<1:18:42,  2.66s/it, lr: 1.0e-04 loss: 1.012e-01]strawbyte_v1:  41%|####      | 1222/3000 [1:08:50<1:18:42,  2.66s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  41%|####      | 1222/3000 [1:08:50<1:18:42,  2.66s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  41%|####      | 1223/3000 [1:08:50<1:20:11,  2.71s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  41%|####      | 1223/3000 [1:08:50<1:20:11,  2.71s/it, lr: 1.0e-04 loss: 1.158e-01]strawbyte_v1:  41%|####      | 1223/3000 [1:08:55<1:20:11,  2.71s/it, lr: 1.0e-04 loss: 8.344e-02]strawbyte_v1:  41%|####      | 1223/3000 [1:08:55<1:20:11,  2.71s/it, lr: 1.0e-04 loss: 8.344e-02]strawbyte_v1:  41%|####      | 1224/3000 [1:08:55<1:33:48,  3.17s/it, lr: 1.0e-04 loss: 8.344e-02]strawbyte_v1:  41%|####      | 1224/3000 [1:08:55<1:33:48,  3.17s/it, lr: 1.0e-04 loss: 8.344e-02]strawbyte_v1:  41%|####      | 1224/3000 [1:08:57<1:33:48,  3.17s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  41%|####      | 1224/3000 [1:08:57<1:33:48,  3.17s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  41%|####      | 1225/3000 [1:08:57<1:24:39,  2.86s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  41%|####      | 1225/3000 [1:08:57<1:24:39,  2.86s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  41%|####      | 1225/3000 [1:09:01<1:24:39,  2.86s/it, lr: 1.0e-04 loss: 1.073e-01]strawbyte_v1:  41%|####      | 1225/3000 [1:09:01<1:24:39,  2.86s/it, lr: 1.0e-04 loss: 1.073e-01]strawbyte_v1:  41%|####      | 1226/3000 [1:09:01<1:37:05,  3.28s/it, lr: 1.0e-04 loss: 1.073e-01]strawbyte_v1:  41%|####      | 1226/3000 [1:09:01<1:37:05,  3.28s/it, lr: 1.0e-04 loss: 1.073e-01]strawbyte_v1:  41%|####      | 1226/3000 [1:09:04<1:37:05,  3.28s/it, lr: 1.0e-04 loss: 5.324e-02]strawbyte_v1:  41%|####      | 1226/3000 [1:09:04<1:37:05,  3.28s/it, lr: 1.0e-04 loss: 5.324e-02]strawbyte_v1:  41%|####      | 1227/3000 [1:09:04<1:35:19,  3.23s/it, lr: 1.0e-04 loss: 5.324e-02]strawbyte_v1:  41%|####      | 1227/3000 [1:09:04<1:35:19,  3.23s/it, lr: 1.0e-04 loss: 5.324e-02]strawbyte_v1:  41%|####      | 1227/3000 [1:09:09<1:35:19,  3.23s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  41%|####      | 1227/3000 [1:09:09<1:35:19,  3.23s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  41%|####      | 1228/3000 [1:09:09<1:45:10,  3.56s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  41%|####      | 1228/3000 [1:09:09<1:45:10,  3.56s/it, lr: 1.0e-04 loss: 1.221e-01]strawbyte_v1:  41%|####      | 1228/3000 [1:09:13<1:45:10,  3.56s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  41%|####      | 1228/3000 [1:09:13<1:45:10,  3.56s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  41%|####      | 1229/3000 [1:09:13<1:51:59,  3.79s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  41%|####      | 1229/3000 [1:09:13<1:51:59,  3.79s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  41%|####      | 1229/3000 [1:09:16<1:51:59,  3.79s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:  41%|####      | 1229/3000 [1:09:16<1:51:59,  3.79s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:  41%|####1     | 1230/3000 [1:09:19<1:51:55,  3.79s/it, lr: 1.0e-04 loss: 1.311e-01]strawbyte_v1:  41%|####1     | 1230/3000 [1:09:19<1:51:55,  3.79s/it, lr: 1.0e-04 loss: 1.311e-01]strawbyte_v1:  41%|####1     | 1231/3000 [1:09:19<1:21:50,  2.78s/it, lr: 1.0e-04 loss: 1.311e-01]strawbyte_v1:  41%|####1     | 1231/3000 [1:09:19<1:21:50,  2.78s/it, lr: 1.0e-04 loss: 1.311e-01]strawbyte_v1:  41%|####1     | 1231/3000 [1:09:23<1:21:50,  2.78s/it, lr: 1.0e-04 loss: 8.492e-02]strawbyte_v1:  41%|####1     | 1231/3000 [1:09:23<1:21:50,  2.78s/it, lr: 1.0e-04 loss: 8.492e-02]strawbyte_v1:  41%|####1     | 1232/3000 [1:09:24<1:33:30,  3.17s/it, lr: 1.0e-04 loss: 8.492e-02]strawbyte_v1:  41%|####1     | 1232/3000 [1:09:24<1:33:30,  3.17s/it, lr: 1.0e-04 loss: 8.492e-02]strawbyte_v1:  41%|####1     | 1232/3000 [1:09:27<1:33:30,  3.17s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####1     | 1232/3000 [1:09:27<1:33:30,  3.17s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####1     | 1233/3000 [1:09:27<1:32:29,  3.14s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####1     | 1233/3000 [1:09:27<1:32:29,  3.14s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  41%|####1     | 1233/3000 [1:09:30<1:32:29,  3.14s/it, lr: 1.0e-04 loss: 9.209e-03]strawbyte_v1:  41%|####1     | 1233/3000 [1:09:30<1:32:29,  3.14s/it, lr: 1.0e-04 loss: 9.209e-03]strawbyte_v1:  41%|####1     | 1234/3000 [1:09:30<1:31:54,  3.12s/it, lr: 1.0e-04 loss: 9.209e-03]strawbyte_v1:  41%|####1     | 1234/3000 [1:09:30<1:31:54,  3.12s/it, lr: 1.0e-04 loss: 9.209e-03]strawbyte_v1:  41%|####1     | 1234/3000 [1:09:32<1:31:54,  3.12s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  41%|####1     | 1234/3000 [1:09:32<1:31:54,  3.12s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  41%|####1     | 1235/3000 [1:09:32<1:28:26,  3.01s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  41%|####1     | 1235/3000 [1:09:32<1:28:26,  3.01s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  41%|####1     | 1235/3000 [1:09:37<1:28:26,  3.01s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  41%|####1     | 1235/3000 [1:09:37<1:28:26,  3.01s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  41%|####1     | 1236/3000 [1:09:37<1:40:24,  3.42s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  41%|####1     | 1236/3000 [1:09:37<1:40:24,  3.42s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  41%|####1     | 1236/3000 [1:09:40<1:40:24,  3.42s/it, lr: 1.0e-04 loss: 2.786e-02]strawbyte_v1:  41%|####1     | 1236/3000 [1:09:40<1:40:24,  3.42s/it, lr: 1.0e-04 loss: 2.786e-02]strawbyte_v1:  41%|####1     | 1237/3000 [1:09:40<1:34:31,  3.22s/it, lr: 1.0e-04 loss: 2.786e-02]strawbyte_v1:  41%|####1     | 1237/3000 [1:09:40<1:34:31,  3.22s/it, lr: 1.0e-04 loss: 2.786e-02]strawbyte_v1:  41%|####1     | 1237/3000 [1:09:43<1:34:31,  3.22s/it, lr: 1.0e-04 loss: 1.300e-01]strawbyte_v1:  41%|####1     | 1237/3000 [1:09:43<1:34:31,  3.22s/it, lr: 1.0e-04 loss: 1.300e-01]strawbyte_v1:  41%|####1     | 1238/3000 [1:09:43<1:32:56,  3.17s/it, lr: 1.0e-04 loss: 1.300e-01]strawbyte_v1:  41%|####1     | 1238/3000 [1:09:43<1:32:56,  3.17s/it, lr: 1.0e-04 loss: 1.300e-01]strawbyte_v1:  41%|####1     | 1238/3000 [1:09:46<1:32:56,  3.17s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  41%|####1     | 1238/3000 [1:09:46<1:32:56,  3.17s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  41%|####1     | 1239/3000 [1:09:46<1:31:10,  3.11s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  41%|####1     | 1239/3000 [1:09:46<1:31:10,  3.11s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  41%|####1     | 1239/3000 [1:09:49<1:31:10,  3.11s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  41%|####1     | 1239/3000 [1:09:49<1:31:10,  3.11s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  41%|####1     | 1240/3000 [1:09:52<1:31:07,  3.11s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  41%|####1     | 1240/3000 [1:09:52<1:31:07,  3.11s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  41%|####1     | 1241/3000 [1:09:52<1:09:48,  2.38s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  41%|####1     | 1241/3000 [1:09:52<1:09:48,  2.38s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  41%|####1     | 1241/3000 [1:09:54<1:09:48,  2.38s/it, lr: 1.0e-04 loss: 1.492e-01]strawbyte_v1:  41%|####1     | 1241/3000 [1:09:54<1:09:48,  2.38s/it, lr: 1.0e-04 loss: 1.492e-01]strawbyte_v1:  41%|####1     | 1242/3000 [1:09:54<1:11:53,  2.45s/it, lr: 1.0e-04 loss: 1.492e-01]strawbyte_v1:  41%|####1     | 1242/3000 [1:09:54<1:11:53,  2.45s/it, lr: 1.0e-04 loss: 1.492e-01]strawbyte_v1:  41%|####1     | 1242/3000 [1:09:59<1:11:53,  2.45s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  41%|####1     | 1242/3000 [1:09:59<1:11:53,  2.45s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  41%|####1     | 1243/3000 [1:09:59<1:27:17,  2.98s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  41%|####1     | 1243/3000 [1:09:59<1:27:17,  2.98s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  41%|####1     | 1243/3000 [1:10:02<1:27:17,  2.98s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  41%|####1     | 1243/3000 [1:10:02<1:27:17,  2.98s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  41%|####1     | 1244/3000 [1:10:02<1:27:26,  2.99s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  41%|####1     | 1244/3000 [1:10:02<1:27:26,  2.99s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  41%|####1     | 1244/3000 [1:10:05<1:27:26,  2.99s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  41%|####1     | 1244/3000 [1:10:05<1:27:26,  2.99s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  42%|####1     | 1245/3000 [1:10:05<1:27:38,  3.00s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  42%|####1     | 1245/3000 [1:10:05<1:27:38,  3.00s/it, lr: 1.0e-04 loss: 1.563e-01]strawbyte_v1:  42%|####1     | 1245/3000 [1:10:07<1:27:38,  3.00s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  42%|####1     | 1245/3000 [1:10:07<1:27:38,  3.00s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  42%|####1     | 1246/3000 [1:10:07<1:24:48,  2.90s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  42%|####1     | 1246/3000 [1:10:07<1:24:48,  2.90s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  42%|####1     | 1246/3000 [1:10:10<1:24:48,  2.90s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  42%|####1     | 1246/3000 [1:10:10<1:24:48,  2.90s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  42%|####1     | 1247/3000 [1:10:10<1:25:01,  2.91s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  42%|####1     | 1247/3000 [1:10:10<1:25:01,  2.91s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  42%|####1     | 1247/3000 [1:10:13<1:25:01,  2.91s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  42%|####1     | 1247/3000 [1:10:13<1:25:01,  2.91s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  42%|####1     | 1248/3000 [1:10:13<1:20:28,  2.76s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  42%|####1     | 1248/3000 [1:10:13<1:20:28,  2.76s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  42%|####1     | 1248/3000 [1:10:16<1:20:28,  2.76s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  42%|####1     | 1248/3000 [1:10:16<1:20:28,  2.76s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  42%|####1     | 1249/3000 [1:10:16<1:21:48,  2.80s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  42%|####1     | 1249/3000 [1:10:16<1:21:48,  2.80s/it, lr: 1.0e-04 loss: 9.036e-02]strawbyte_v1:  42%|####1     | 1249/3000 [1:10:18<1:21:48,  2.80s/it, lr: 1.0e-04 loss: 1.515e-02]strawbyte_v1:  42%|####1     | 1249/3000 [1:10:18<1:21:48,  2.80s/it, lr: 1.0e-04 loss: 1.515e-02]
+Saving at step 1250
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001250.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+Removing old save: /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000000250.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:13<03:39, 73.17s/it]Generating Images:  25%|##5       | 1/4 [01:13<03:39, 73.17s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:27<02:27, 73.78s/it]Generating Images:  50%|#####     | 2/4 [02:27<02:27, 73.78s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:41<01:14, 74.08s/it]Generating Images:  75%|#######5  | 3/4 [03:41<01:14, 74.08s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:55<00:00, 73.97s/it]Generating Images: 100%|##########| 4/4 [04:55<00:00, 73.97s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  42%|####1     | 1250/3000 [1:10:22<1:21:45,  2.80s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  42%|####1     | 1250/3000 [1:10:22<1:21:45,  2.80s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  42%|####1     | 1251/3000 [1:10:22<1:07:05,  2.30s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  42%|####1     | 1251/3000 [1:10:22<1:07:05,  2.30s/it, lr: 1.0e-04 loss: 1.441e-01]strawbyte_v1:  42%|####1     | 1251/3000 [1:10:24<1:07:05,  2.30s/it, lr: 1.0e-04 loss: 6.919e-03]strawbyte_v1:  42%|####1     | 1251/3000 [1:10:24<1:07:05,  2.30s/it, lr: 1.0e-04 loss: 6.919e-03]strawbyte_v1:  42%|####1     | 1252/3000 [1:10:24<1:05:38,  2.25s/it, lr: 1.0e-04 loss: 6.919e-03]strawbyte_v1:  42%|####1     | 1252/3000 [1:10:24<1:05:38,  2.25s/it, lr: 1.0e-04 loss: 6.919e-03]strawbyte_v1:  42%|####1     | 1252/3000 [1:10:27<1:05:38,  2.25s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  42%|####1     | 1252/3000 [1:10:27<1:05:38,  2.25s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  42%|####1     | 1253/3000 [1:10:27<1:10:16,  2.41s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  42%|####1     | 1253/3000 [1:10:27<1:10:16,  2.41s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  42%|####1     | 1253/3000 [1:10:29<1:10:16,  2.41s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  42%|####1     | 1253/3000 [1:10:29<1:10:16,  2.41s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  42%|####1     | 1254/3000 [1:10:29<1:10:23,  2.42s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  42%|####1     | 1254/3000 [1:10:29<1:10:23,  2.42s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  42%|####1     | 1254/3000 [1:10:31<1:10:23,  2.42s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  42%|####1     | 1254/3000 [1:10:31<1:10:23,  2.42s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  42%|####1     | 1255/3000 [1:10:31<1:07:36,  2.32s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  42%|####1     | 1255/3000 [1:10:31<1:07:36,  2.32s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  42%|####1     | 1255/3000 [1:10:33<1:07:36,  2.32s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  42%|####1     | 1255/3000 [1:10:33<1:07:36,  2.32s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  42%|####1     | 1256/3000 [1:10:33<1:05:40,  2.26s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  42%|####1     | 1256/3000 [1:10:33<1:05:40,  2.26s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  42%|####1     | 1256/3000 [1:10:36<1:05:40,  2.26s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  42%|####1     | 1256/3000 [1:10:36<1:05:40,  2.26s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  42%|####1     | 1257/3000 [1:10:36<1:07:17,  2.32s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  42%|####1     | 1257/3000 [1:10:36<1:07:17,  2.32s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  42%|####1     | 1257/3000 [1:10:38<1:07:17,  2.32s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  42%|####1     | 1257/3000 [1:10:38<1:07:17,  2.32s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  42%|####1     | 1258/3000 [1:10:38<1:05:21,  2.25s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  42%|####1     | 1258/3000 [1:10:38<1:05:21,  2.25s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  42%|####1     | 1258/3000 [1:10:40<1:05:21,  2.25s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  42%|####1     | 1258/3000 [1:10:40<1:05:21,  2.25s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  42%|####1     | 1259/3000 [1:10:40<1:04:00,  2.21s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  42%|####1     | 1259/3000 [1:10:40<1:04:00,  2.21s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  42%|####1     | 1259/3000 [1:10:44<1:04:00,  2.21s/it, lr: 1.0e-04 loss: 5.345e-02]strawbyte_v1:  42%|####1     | 1259/3000 [1:10:44<1:04:00,  2.21s/it, lr: 1.0e-04 loss: 5.345e-02]strawbyte_v1:  42%|####2     | 1260/3000 [1:10:49<1:03:58,  2.21s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  42%|####2     | 1260/3000 [1:10:49<1:03:58,  2.21s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  42%|####2     | 1261/3000 [1:10:49<1:04:37,  2.23s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  42%|####2     | 1261/3000 [1:10:49<1:04:37,  2.23s/it, lr: 1.0e-04 loss: 1.417e-01]strawbyte_v1:  42%|####2     | 1261/3000 [1:10:52<1:04:37,  2.23s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  42%|####2     | 1261/3000 [1:10:52<1:04:37,  2.23s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  42%|####2     | 1262/3000 [1:10:52<1:09:38,  2.40s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  42%|####2     | 1262/3000 [1:10:52<1:09:38,  2.40s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  42%|####2     | 1262/3000 [1:10:55<1:09:38,  2.40s/it, lr: 1.0e-04 loss: 5.768e-02]strawbyte_v1:  42%|####2     | 1262/3000 [1:10:55<1:09:38,  2.40s/it, lr: 1.0e-04 loss: 5.768e-02]strawbyte_v1:  42%|####2     | 1263/3000 [1:10:55<1:13:47,  2.55s/it, lr: 1.0e-04 loss: 5.768e-02]strawbyte_v1:  42%|####2     | 1263/3000 [1:10:55<1:13:47,  2.55s/it, lr: 1.0e-04 loss: 5.768e-02]strawbyte_v1:  42%|####2     | 1263/3000 [1:10:58<1:13:47,  2.55s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  42%|####2     | 1263/3000 [1:10:58<1:13:47,  2.55s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  42%|####2     | 1264/3000 [1:10:58<1:14:55,  2.59s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  42%|####2     | 1264/3000 [1:10:58<1:14:55,  2.59s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  42%|####2     | 1264/3000 [1:11:02<1:14:55,  2.59s/it, lr: 1.0e-04 loss: 4.741e-02]strawbyte_v1:  42%|####2     | 1264/3000 [1:11:02<1:14:55,  2.59s/it, lr: 1.0e-04 loss: 4.741e-02]strawbyte_v1:  42%|####2     | 1265/3000 [1:11:02<1:32:57,  3.21s/it, lr: 1.0e-04 loss: 4.741e-02]strawbyte_v1:  42%|####2     | 1265/3000 [1:11:02<1:32:57,  3.21s/it, lr: 1.0e-04 loss: 4.741e-02]strawbyte_v1:  42%|####2     | 1265/3000 [1:11:07<1:32:57,  3.21s/it, lr: 1.0e-04 loss: 3.474e-02]strawbyte_v1:  42%|####2     | 1265/3000 [1:11:07<1:32:57,  3.21s/it, lr: 1.0e-04 loss: 3.474e-02]strawbyte_v1:  42%|####2     | 1266/3000 [1:11:07<1:43:19,  3.58s/it, lr: 1.0e-04 loss: 3.474e-02]strawbyte_v1:  42%|####2     | 1266/3000 [1:11:07<1:43:19,  3.58s/it, lr: 1.0e-04 loss: 3.474e-02]strawbyte_v1:  42%|####2     | 1266/3000 [1:11:10<1:43:19,  3.58s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  42%|####2     | 1266/3000 [1:11:10<1:43:19,  3.58s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  42%|####2     | 1267/3000 [1:11:10<1:38:11,  3.40s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  42%|####2     | 1267/3000 [1:11:10<1:38:11,  3.40s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  42%|####2     | 1267/3000 [1:11:13<1:38:11,  3.40s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  42%|####2     | 1267/3000 [1:11:13<1:38:11,  3.40s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  42%|####2     | 1268/3000 [1:11:13<1:35:29,  3.31s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  42%|####2     | 1268/3000 [1:11:13<1:35:29,  3.31s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  42%|####2     | 1268/3000 [1:11:16<1:35:29,  3.31s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  42%|####2     | 1268/3000 [1:11:16<1:35:29,  3.31s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  42%|####2     | 1269/3000 [1:11:16<1:30:08,  3.12s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  42%|####2     | 1269/3000 [1:11:16<1:30:08,  3.12s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  42%|####2     | 1269/3000 [1:11:20<1:30:08,  3.12s/it, lr: 1.0e-04 loss: 9.826e-03]strawbyte_v1:  42%|####2     | 1269/3000 [1:11:20<1:30:08,  3.12s/it, lr: 1.0e-04 loss: 9.826e-03]strawbyte_v1:  42%|####2     | 1270/3000 [1:11:25<1:30:05,  3.12s/it, lr: 1.0e-04 loss: 8.714e-02]strawbyte_v1:  42%|####2     | 1270/3000 [1:11:25<1:30:05,  3.12s/it, lr: 1.0e-04 loss: 8.714e-02]strawbyte_v1:  42%|####2     | 1271/3000 [1:11:25<1:18:18,  2.72s/it, lr: 1.0e-04 loss: 8.714e-02]strawbyte_v1:  42%|####2     | 1271/3000 [1:11:25<1:18:18,  2.72s/it, lr: 1.0e-04 loss: 8.714e-02]strawbyte_v1:  42%|####2     | 1271/3000 [1:11:29<1:18:18,  2.72s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  42%|####2     | 1271/3000 [1:11:29<1:18:18,  2.72s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  42%|####2     | 1272/3000 [1:11:29<1:32:30,  3.21s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  42%|####2     | 1272/3000 [1:11:29<1:32:30,  3.21s/it, lr: 1.0e-04 loss: 1.048e-01]strawbyte_v1:  42%|####2     | 1272/3000 [1:11:32<1:32:30,  3.21s/it, lr: 1.0e-04 loss: 2.121e-02]strawbyte_v1:  42%|####2     | 1272/3000 [1:11:32<1:32:30,  3.21s/it, lr: 1.0e-04 loss: 2.121e-02]strawbyte_v1:  42%|####2     | 1273/3000 [1:11:32<1:30:52,  3.16s/it, lr: 1.0e-04 loss: 2.121e-02]strawbyte_v1:  42%|####2     | 1273/3000 [1:11:32<1:30:52,  3.16s/it, lr: 1.0e-04 loss: 2.121e-02]strawbyte_v1:  42%|####2     | 1273/3000 [1:11:35<1:30:52,  3.16s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  42%|####2     | 1273/3000 [1:11:35<1:30:52,  3.16s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  42%|####2     | 1274/3000 [1:11:35<1:27:05,  3.03s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  42%|####2     | 1274/3000 [1:11:35<1:27:05,  3.03s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  42%|####2     | 1274/3000 [1:11:38<1:27:05,  3.03s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  42%|####2     | 1274/3000 [1:11:38<1:27:05,  3.03s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  42%|####2     | 1275/3000 [1:11:38<1:27:13,  3.03s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  42%|####2     | 1275/3000 [1:11:38<1:27:13,  3.03s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  42%|####2     | 1275/3000 [1:11:41<1:27:13,  3.03s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  42%|####2     | 1275/3000 [1:11:41<1:27:13,  3.03s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  43%|####2     | 1276/3000 [1:11:41<1:24:50,  2.95s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  43%|####2     | 1276/3000 [1:11:41<1:24:50,  2.95s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  43%|####2     | 1276/3000 [1:11:45<1:24:50,  2.95s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  43%|####2     | 1276/3000 [1:11:45<1:24:50,  2.95s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  43%|####2     | 1277/3000 [1:11:45<1:36:34,  3.36s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  43%|####2     | 1277/3000 [1:11:45<1:36:34,  3.36s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  43%|####2     | 1277/3000 [1:11:49<1:36:34,  3.36s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  43%|####2     | 1277/3000 [1:11:49<1:36:34,  3.36s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  43%|####2     | 1278/3000 [1:11:49<1:44:20,  3.64s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  43%|####2     | 1278/3000 [1:11:49<1:44:20,  3.64s/it, lr: 1.0e-04 loss: 1.232e-01]strawbyte_v1:  43%|####2     | 1278/3000 [1:11:52<1:44:20,  3.64s/it, lr: 1.0e-04 loss: 8.321e-02]strawbyte_v1:  43%|####2     | 1278/3000 [1:11:52<1:44:20,  3.64s/it, lr: 1.0e-04 loss: 8.321e-02]strawbyte_v1:  43%|####2     | 1279/3000 [1:11:52<1:33:54,  3.27s/it, lr: 1.0e-04 loss: 8.321e-02]strawbyte_v1:  43%|####2     | 1279/3000 [1:11:52<1:33:54,  3.27s/it, lr: 1.0e-04 loss: 8.321e-02]strawbyte_v1:  43%|####2     | 1279/3000 [1:11:54<1:33:54,  3.27s/it, lr: 1.0e-04 loss: 4.927e-02]strawbyte_v1:  43%|####2     | 1279/3000 [1:11:54<1:33:54,  3.27s/it, lr: 1.0e-04 loss: 4.927e-02]strawbyte_v1:  43%|####2     | 1280/3000 [1:11:56<1:33:51,  3.27s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  43%|####2     | 1280/3000 [1:11:56<1:33:51,  3.27s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  43%|####2     | 1281/3000 [1:11:56<1:04:44,  2.26s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  43%|####2     | 1281/3000 [1:11:56<1:04:44,  2.26s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  43%|####2     | 1281/3000 [1:11:59<1:04:44,  2.26s/it, lr: 1.0e-04 loss: 1.972e-02]strawbyte_v1:  43%|####2     | 1281/3000 [1:11:59<1:04:44,  2.26s/it, lr: 1.0e-04 loss: 1.972e-02]strawbyte_v1:  43%|####2     | 1282/3000 [1:11:59<1:09:00,  2.41s/it, lr: 1.0e-04 loss: 1.972e-02]strawbyte_v1:  43%|####2     | 1282/3000 [1:11:59<1:09:00,  2.41s/it, lr: 1.0e-04 loss: 1.972e-02]strawbyte_v1:  43%|####2     | 1282/3000 [1:12:01<1:09:00,  2.41s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  43%|####2     | 1282/3000 [1:12:01<1:09:00,  2.41s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  43%|####2     | 1283/3000 [1:12:01<1:09:12,  2.42s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  43%|####2     | 1283/3000 [1:12:01<1:09:12,  2.42s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  43%|####2     | 1283/3000 [1:12:04<1:09:12,  2.42s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  43%|####2     | 1283/3000 [1:12:04<1:09:12,  2.42s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  43%|####2     | 1284/3000 [1:12:04<1:12:58,  2.55s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  43%|####2     | 1284/3000 [1:12:04<1:12:58,  2.55s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  43%|####2     | 1284/3000 [1:12:07<1:12:58,  2.55s/it, lr: 1.0e-04 loss: 3.530e-02]strawbyte_v1:  43%|####2     | 1284/3000 [1:12:07<1:12:58,  2.55s/it, lr: 1.0e-04 loss: 3.530e-02]strawbyte_v1:  43%|####2     | 1285/3000 [1:12:07<1:15:30,  2.64s/it, lr: 1.0e-04 loss: 3.530e-02]strawbyte_v1:  43%|####2     | 1285/3000 [1:12:07<1:15:30,  2.64s/it, lr: 1.0e-04 loss: 3.530e-02]strawbyte_v1:  43%|####2     | 1285/3000 [1:12:12<1:15:30,  2.64s/it, lr: 1.0e-04 loss: 1.390e-01]strawbyte_v1:  43%|####2     | 1285/3000 [1:12:12<1:15:30,  2.64s/it, lr: 1.0e-04 loss: 1.390e-01]strawbyte_v1:  43%|####2     | 1286/3000 [1:12:12<1:31:06,  3.19s/it, lr: 1.0e-04 loss: 1.390e-01]strawbyte_v1:  43%|####2     | 1286/3000 [1:12:12<1:31:06,  3.19s/it, lr: 1.0e-04 loss: 1.390e-01]strawbyte_v1:  43%|####2     | 1286/3000 [1:12:15<1:31:06,  3.19s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  43%|####2     | 1286/3000 [1:12:15<1:31:06,  3.19s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  43%|####2     | 1287/3000 [1:12:15<1:30:40,  3.18s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  43%|####2     | 1287/3000 [1:12:15<1:30:40,  3.18s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  43%|####2     | 1287/3000 [1:12:18<1:30:40,  3.18s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  43%|####2     | 1287/3000 [1:12:18<1:30:40,  3.18s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  43%|####2     | 1288/3000 [1:12:18<1:29:25,  3.13s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  43%|####2     | 1288/3000 [1:12:18<1:29:25,  3.13s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  43%|####2     | 1288/3000 [1:12:21<1:29:25,  3.13s/it, lr: 1.0e-04 loss: 2.357e-01]strawbyte_v1:  43%|####2     | 1288/3000 [1:12:21<1:29:25,  3.13s/it, lr: 1.0e-04 loss: 2.357e-01]strawbyte_v1:  43%|####2     | 1289/3000 [1:12:21<1:25:54,  3.01s/it, lr: 1.0e-04 loss: 2.357e-01]strawbyte_v1:  43%|####2     | 1289/3000 [1:12:21<1:25:54,  3.01s/it, lr: 1.0e-04 loss: 2.357e-01]strawbyte_v1:  43%|####2     | 1289/3000 [1:12:24<1:25:54,  3.01s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  43%|####2     | 1289/3000 [1:12:24<1:25:54,  3.01s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  43%|####3     | 1290/3000 [1:12:27<1:25:51,  3.01s/it, lr: 1.0e-04 loss: 1.322e-01]strawbyte_v1:  43%|####3     | 1290/3000 [1:12:27<1:25:51,  3.01s/it, lr: 1.0e-04 loss: 1.322e-01]strawbyte_v1:  43%|####3     | 1291/3000 [1:12:27<1:05:59,  2.32s/it, lr: 1.0e-04 loss: 1.322e-01]strawbyte_v1:  43%|####3     | 1291/3000 [1:12:27<1:05:59,  2.32s/it, lr: 1.0e-04 loss: 1.322e-01]strawbyte_v1:  43%|####3     | 1291/3000 [1:12:32<1:05:59,  2.32s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  43%|####3     | 1291/3000 [1:12:32<1:05:59,  2.32s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  43%|####3     | 1292/3000 [1:12:32<1:20:57,  2.84s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  43%|####3     | 1292/3000 [1:12:32<1:20:57,  2.84s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  43%|####3     | 1292/3000 [1:12:35<1:20:57,  2.84s/it, lr: 1.0e-04 loss: 8.211e-02]strawbyte_v1:  43%|####3     | 1292/3000 [1:12:35<1:20:57,  2.84s/it, lr: 1.0e-04 loss: 8.211e-02]strawbyte_v1:  43%|####3     | 1293/3000 [1:12:35<1:22:00,  2.88s/it, lr: 1.0e-04 loss: 8.211e-02]strawbyte_v1:  43%|####3     | 1293/3000 [1:12:35<1:22:00,  2.88s/it, lr: 1.0e-04 loss: 8.211e-02]strawbyte_v1:  43%|####3     | 1293/3000 [1:12:40<1:22:00,  2.88s/it, lr: 1.0e-04 loss: 1.241e-01]strawbyte_v1:  43%|####3     | 1293/3000 [1:12:40<1:22:00,  2.88s/it, lr: 1.0e-04 loss: 1.241e-01]strawbyte_v1:  43%|####3     | 1294/3000 [1:12:40<1:36:54,  3.41s/it, lr: 1.0e-04 loss: 1.241e-01]strawbyte_v1:  43%|####3     | 1294/3000 [1:12:40<1:36:54,  3.41s/it, lr: 1.0e-04 loss: 1.241e-01]strawbyte_v1:  43%|####3     | 1294/3000 [1:12:43<1:36:54,  3.41s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  43%|####3     | 1294/3000 [1:12:43<1:36:54,  3.41s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  43%|####3     | 1295/3000 [1:12:43<1:33:50,  3.30s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  43%|####3     | 1295/3000 [1:12:43<1:33:50,  3.30s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  43%|####3     | 1295/3000 [1:12:45<1:33:50,  3.30s/it, lr: 1.0e-04 loss: 2.386e-01]strawbyte_v1:  43%|####3     | 1295/3000 [1:12:45<1:33:50,  3.30s/it, lr: 1.0e-04 loss: 2.386e-01]strawbyte_v1:  43%|####3     | 1296/3000 [1:12:45<1:29:13,  3.14s/it, lr: 1.0e-04 loss: 2.386e-01]strawbyte_v1:  43%|####3     | 1296/3000 [1:12:45<1:29:13,  3.14s/it, lr: 1.0e-04 loss: 2.386e-01]strawbyte_v1:  43%|####3     | 1296/3000 [1:12:49<1:29:13,  3.14s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:  43%|####3     | 1296/3000 [1:12:49<1:29:13,  3.14s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:  43%|####3     | 1297/3000 [1:12:49<1:29:15,  3.14s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:  43%|####3     | 1297/3000 [1:12:49<1:29:15,  3.14s/it, lr: 1.0e-04 loss: 1.720e-01]strawbyte_v1:  43%|####3     | 1297/3000 [1:12:51<1:29:15,  3.14s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  43%|####3     | 1297/3000 [1:12:51<1:29:15,  3.14s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  43%|####3     | 1298/3000 [1:12:51<1:25:32,  3.02s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  43%|####3     | 1298/3000 [1:12:51<1:25:32,  3.02s/it, lr: 1.0e-04 loss: 1.049e-01]strawbyte_v1:  43%|####3     | 1298/3000 [1:12:56<1:25:32,  3.02s/it, lr: 1.0e-04 loss: 9.795e-02]strawbyte_v1:  43%|####3     | 1298/3000 [1:12:56<1:25:32,  3.02s/it, lr: 1.0e-04 loss: 9.795e-02]strawbyte_v1:  43%|####3     | 1299/3000 [1:12:56<1:37:24,  3.44s/it, lr: 1.0e-04 loss: 9.795e-02]strawbyte_v1:  43%|####3     | 1299/3000 [1:12:56<1:37:24,  3.44s/it, lr: 1.0e-04 loss: 9.795e-02]strawbyte_v1:  43%|####3     | 1299/3000 [1:12:59<1:37:24,  3.44s/it, lr: 1.0e-04 loss: 2.037e-02]strawbyte_v1:  43%|####3     | 1299/3000 [1:12:59<1:37:24,  3.44s/it, lr: 1.0e-04 loss: 2.037e-02]strawbyte_v1:  43%|####3     | 1300/3000 [1:13:02<1:37:21,  3.44s/it, lr: 1.0e-04 loss: 1.061e-01]strawbyte_v1:  43%|####3     | 1300/3000 [1:13:02<1:37:21,  3.44s/it, lr: 1.0e-04 loss: 1.061e-01]strawbyte_v1:  43%|####3     | 1301/3000 [1:13:02<1:14:33,  2.63s/it, lr: 1.0e-04 loss: 1.061e-01]strawbyte_v1:  43%|####3     | 1301/3000 [1:13:02<1:14:33,  2.63s/it, lr: 1.0e-04 loss: 1.061e-01]strawbyte_v1:  43%|####3     | 1301/3000 [1:13:04<1:14:33,  2.63s/it, lr: 1.0e-04 loss: 2.289e-01]strawbyte_v1:  43%|####3     | 1301/3000 [1:13:04<1:14:33,  2.63s/it, lr: 1.0e-04 loss: 2.289e-01]strawbyte_v1:  43%|####3     | 1302/3000 [1:13:04<1:10:47,  2.50s/it, lr: 1.0e-04 loss: 2.289e-01]strawbyte_v1:  43%|####3     | 1302/3000 [1:13:04<1:10:47,  2.50s/it, lr: 1.0e-04 loss: 2.289e-01]strawbyte_v1:  43%|####3     | 1302/3000 [1:13:07<1:10:47,  2.50s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  43%|####3     | 1302/3000 [1:13:07<1:10:47,  2.50s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  43%|####3     | 1303/3000 [1:13:07<1:13:42,  2.61s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  43%|####3     | 1303/3000 [1:13:07<1:13:42,  2.61s/it, lr: 1.0e-04 loss: 1.983e-01]strawbyte_v1:  43%|####3     | 1303/3000 [1:13:10<1:13:42,  2.61s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:  43%|####3     | 1303/3000 [1:13:10<1:13:42,  2.61s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:  43%|####3     | 1304/3000 [1:13:10<1:12:28,  2.56s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:  43%|####3     | 1304/3000 [1:13:10<1:12:28,  2.56s/it, lr: 1.0e-04 loss: 1.939e-01]strawbyte_v1:  43%|####3     | 1304/3000 [1:13:12<1:12:28,  2.56s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  43%|####3     | 1304/3000 [1:13:12<1:12:28,  2.56s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  44%|####3     | 1305/3000 [1:13:12<1:08:48,  2.44s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  44%|####3     | 1305/3000 [1:13:12<1:08:48,  2.44s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  44%|####3     | 1305/3000 [1:13:16<1:08:48,  2.44s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  44%|####3     | 1305/3000 [1:13:16<1:08:48,  2.44s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  44%|####3     | 1306/3000 [1:13:16<1:24:23,  2.99s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  44%|####3     | 1306/3000 [1:13:16<1:24:23,  2.99s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  44%|####3     | 1306/3000 [1:13:19<1:24:23,  2.99s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  44%|####3     | 1306/3000 [1:13:19<1:24:23,  2.99s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  44%|####3     | 1307/3000 [1:13:19<1:23:21,  2.95s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  44%|####3     | 1307/3000 [1:13:19<1:23:21,  2.95s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  44%|####3     | 1307/3000 [1:13:23<1:23:21,  2.95s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  44%|####3     | 1307/3000 [1:13:23<1:23:21,  2.95s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  44%|####3     | 1308/3000 [1:13:23<1:35:32,  3.39s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  44%|####3     | 1308/3000 [1:13:23<1:35:32,  3.39s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  44%|####3     | 1308/3000 [1:13:28<1:35:32,  3.39s/it, lr: 1.0e-04 loss: 7.485e-02]strawbyte_v1:  44%|####3     | 1308/3000 [1:13:28<1:35:32,  3.39s/it, lr: 1.0e-04 loss: 7.485e-02]strawbyte_v1:  44%|####3     | 1309/3000 [1:13:28<1:43:38,  3.68s/it, lr: 1.0e-04 loss: 7.485e-02]strawbyte_v1:  44%|####3     | 1309/3000 [1:13:28<1:43:38,  3.68s/it, lr: 1.0e-04 loss: 7.485e-02]strawbyte_v1:  44%|####3     | 1309/3000 [1:13:31<1:43:38,  3.68s/it, lr: 1.0e-04 loss: 9.574e-02]strawbyte_v1:  44%|####3     | 1309/3000 [1:13:31<1:43:38,  3.68s/it, lr: 1.0e-04 loss: 9.574e-02]strawbyte_v1:  44%|####3     | 1310/3000 [1:13:35<1:43:34,  3.68s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  44%|####3     | 1310/3000 [1:13:35<1:43:34,  3.68s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  44%|####3     | 1311/3000 [1:13:35<1:25:53,  3.05s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  44%|####3     | 1311/3000 [1:13:35<1:25:53,  3.05s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  44%|####3     | 1311/3000 [1:13:40<1:25:53,  3.05s/it, lr: 1.0e-04 loss: 9.856e-02]strawbyte_v1:  44%|####3     | 1311/3000 [1:13:40<1:25:53,  3.05s/it, lr: 1.0e-04 loss: 9.856e-02]strawbyte_v1:  44%|####3     | 1312/3000 [1:13:40<1:35:26,  3.39s/it, lr: 1.0e-04 loss: 9.856e-02]strawbyte_v1:  44%|####3     | 1312/3000 [1:13:40<1:35:26,  3.39s/it, lr: 1.0e-04 loss: 9.856e-02]strawbyte_v1:  44%|####3     | 1312/3000 [1:13:43<1:35:26,  3.39s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  44%|####3     | 1312/3000 [1:13:43<1:35:26,  3.39s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  44%|####3     | 1313/3000 [1:13:43<1:32:41,  3.30s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  44%|####3     | 1313/3000 [1:13:43<1:32:41,  3.30s/it, lr: 1.0e-04 loss: 1.602e-01]strawbyte_v1:  44%|####3     | 1313/3000 [1:13:47<1:32:41,  3.30s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  44%|####3     | 1313/3000 [1:13:47<1:32:41,  3.30s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  44%|####3     | 1314/3000 [1:13:47<1:41:15,  3.60s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  44%|####3     | 1314/3000 [1:13:47<1:41:15,  3.60s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  44%|####3     | 1314/3000 [1:13:52<1:41:15,  3.60s/it, lr: 1.0e-04 loss: 6.848e-02]strawbyte_v1:  44%|####3     | 1314/3000 [1:13:52<1:41:15,  3.60s/it, lr: 1.0e-04 loss: 6.848e-02]strawbyte_v1:  44%|####3     | 1315/3000 [1:13:52<1:50:41,  3.94s/it, lr: 1.0e-04 loss: 6.848e-02]strawbyte_v1:  44%|####3     | 1315/3000 [1:13:52<1:50:41,  3.94s/it, lr: 1.0e-04 loss: 6.848e-02]strawbyte_v1:  44%|####3     | 1315/3000 [1:13:55<1:50:41,  3.94s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  44%|####3     | 1315/3000 [1:13:55<1:50:41,  3.94s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  44%|####3     | 1316/3000 [1:13:55<1:43:17,  3.68s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  44%|####3     | 1316/3000 [1:13:55<1:43:17,  3.68s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  44%|####3     | 1316/3000 [1:13:58<1:43:17,  3.68s/it, lr: 1.0e-04 loss: 1.175e-01]strawbyte_v1:  44%|####3     | 1316/3000 [1:13:58<1:43:17,  3.68s/it, lr: 1.0e-04 loss: 1.175e-01]strawbyte_v1:  44%|####3     | 1317/3000 [1:13:58<1:35:04,  3.39s/it, lr: 1.0e-04 loss: 1.175e-01]strawbyte_v1:  44%|####3     | 1317/3000 [1:13:58<1:35:04,  3.39s/it, lr: 1.0e-04 loss: 1.175e-01]strawbyte_v1:  44%|####3     | 1317/3000 [1:14:01<1:35:04,  3.39s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  44%|####3     | 1317/3000 [1:14:01<1:35:04,  3.39s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  44%|####3     | 1318/3000 [1:14:01<1:32:03,  3.28s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  44%|####3     | 1318/3000 [1:14:01<1:32:03,  3.28s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  44%|####3     | 1318/3000 [1:14:04<1:32:03,  3.28s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  44%|####3     | 1318/3000 [1:14:04<1:32:03,  3.28s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  44%|####3     | 1319/3000 [1:14:04<1:32:47,  3.31s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  44%|####3     | 1319/3000 [1:14:04<1:32:47,  3.31s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  44%|####3     | 1319/3000 [1:14:07<1:32:47,  3.31s/it, lr: 1.0e-04 loss: 2.142e-02]strawbyte_v1:  44%|####3     | 1319/3000 [1:14:07<1:32:47,  3.31s/it, lr: 1.0e-04 loss: 2.142e-02]strawbyte_v1:  44%|####4     | 1320/3000 [1:14:11<1:32:44,  3.31s/it, lr: 1.0e-04 loss: 9.386e-02]strawbyte_v1:  44%|####4     | 1320/3000 [1:14:11<1:32:44,  3.31s/it, lr: 1.0e-04 loss: 9.386e-02]strawbyte_v1:  44%|####4     | 1321/3000 [1:14:11<1:18:36,  2.81s/it, lr: 1.0e-04 loss: 9.386e-02]strawbyte_v1:  44%|####4     | 1321/3000 [1:14:11<1:18:36,  2.81s/it, lr: 1.0e-04 loss: 9.386e-02]strawbyte_v1:  44%|####4     | 1321/3000 [1:14:15<1:18:36,  2.81s/it, lr: 1.0e-04 loss: 1.990e-01]strawbyte_v1:  44%|####4     | 1321/3000 [1:14:15<1:18:36,  2.81s/it, lr: 1.0e-04 loss: 1.990e-01]strawbyte_v1:  44%|####4     | 1322/3000 [1:14:15<1:20:50,  2.89s/it, lr: 1.0e-04 loss: 1.990e-01]strawbyte_v1:  44%|####4     | 1322/3000 [1:14:15<1:20:50,  2.89s/it, lr: 1.0e-04 loss: 1.990e-01]strawbyte_v1:  44%|####4     | 1322/3000 [1:14:19<1:20:50,  2.89s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  44%|####4     | 1322/3000 [1:14:19<1:20:50,  2.89s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  44%|####4     | 1323/3000 [1:14:19<1:32:13,  3.30s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  44%|####4     | 1323/3000 [1:14:19<1:32:13,  3.30s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  44%|####4     | 1323/3000 [1:14:22<1:32:13,  3.30s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  44%|####4     | 1323/3000 [1:14:22<1:32:13,  3.30s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  44%|####4     | 1324/3000 [1:14:22<1:29:25,  3.20s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  44%|####4     | 1324/3000 [1:14:22<1:29:25,  3.20s/it, lr: 1.0e-04 loss: 1.545e-01]strawbyte_v1:  44%|####4     | 1324/3000 [1:14:26<1:29:25,  3.20s/it, lr: 1.0e-04 loss: 1.376e-02]strawbyte_v1:  44%|####4     | 1324/3000 [1:14:26<1:29:25,  3.20s/it, lr: 1.0e-04 loss: 1.376e-02]strawbyte_v1:  44%|####4     | 1325/3000 [1:14:26<1:38:25,  3.53s/it, lr: 1.0e-04 loss: 1.376e-02]strawbyte_v1:  44%|####4     | 1325/3000 [1:14:26<1:38:25,  3.53s/it, lr: 1.0e-04 loss: 1.376e-02]strawbyte_v1:  44%|####4     | 1325/3000 [1:14:29<1:38:25,  3.53s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  44%|####4     | 1325/3000 [1:14:29<1:38:25,  3.53s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  44%|####4     | 1326/3000 [1:14:29<1:35:37,  3.43s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  44%|####4     | 1326/3000 [1:14:29<1:35:37,  3.43s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  44%|####4     | 1326/3000 [1:14:32<1:35:37,  3.43s/it, lr: 1.0e-04 loss: 1.532e-01]strawbyte_v1:  44%|####4     | 1326/3000 [1:14:32<1:35:37,  3.43s/it, lr: 1.0e-04 loss: 1.532e-01]strawbyte_v1:  44%|####4     | 1327/3000 [1:14:32<1:24:57,  3.05s/it, lr: 1.0e-04 loss: 1.532e-01]strawbyte_v1:  44%|####4     | 1327/3000 [1:14:32<1:24:57,  3.05s/it, lr: 1.0e-04 loss: 1.532e-01]strawbyte_v1:  44%|####4     | 1327/3000 [1:14:35<1:24:57,  3.05s/it, lr: 1.0e-04 loss: 6.033e-02]strawbyte_v1:  44%|####4     | 1327/3000 [1:14:35<1:24:57,  3.05s/it, lr: 1.0e-04 loss: 6.033e-02]strawbyte_v1:  44%|####4     | 1328/3000 [1:14:35<1:24:07,  3.02s/it, lr: 1.0e-04 loss: 6.033e-02]strawbyte_v1:  44%|####4     | 1328/3000 [1:14:35<1:24:07,  3.02s/it, lr: 1.0e-04 loss: 6.033e-02]strawbyte_v1:  44%|####4     | 1328/3000 [1:14:39<1:24:07,  3.02s/it, lr: 1.0e-04 loss: 9.956e-02]strawbyte_v1:  44%|####4     | 1328/3000 [1:14:39<1:24:07,  3.02s/it, lr: 1.0e-04 loss: 9.956e-02]strawbyte_v1:  44%|####4     | 1329/3000 [1:14:39<1:34:39,  3.40s/it, lr: 1.0e-04 loss: 9.956e-02]strawbyte_v1:  44%|####4     | 1329/3000 [1:14:39<1:34:39,  3.40s/it, lr: 1.0e-04 loss: 9.956e-02]strawbyte_v1:  44%|####4     | 1329/3000 [1:14:43<1:34:39,  3.40s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  44%|####4     | 1329/3000 [1:14:43<1:34:39,  3.40s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  44%|####4     | 1330/3000 [1:14:48<1:34:36,  3.40s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  44%|####4     | 1330/3000 [1:14:48<1:34:36,  3.40s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  44%|####4     | 1331/3000 [1:14:48<1:19:13,  2.85s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  44%|####4     | 1331/3000 [1:14:48<1:19:13,  2.85s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  44%|####4     | 1331/3000 [1:14:51<1:19:13,  2.85s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  44%|####4     | 1331/3000 [1:14:51<1:19:13,  2.85s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  44%|####4     | 1332/3000 [1:14:51<1:19:52,  2.87s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  44%|####4     | 1332/3000 [1:14:51<1:19:52,  2.87s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  44%|####4     | 1332/3000 [1:14:53<1:19:52,  2.87s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  44%|####4     | 1332/3000 [1:14:53<1:19:52,  2.87s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  44%|####4     | 1333/3000 [1:14:53<1:16:23,  2.75s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  44%|####4     | 1333/3000 [1:14:53<1:16:23,  2.75s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  44%|####4     | 1333/3000 [1:14:58<1:16:23,  2.75s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  44%|####4     | 1333/3000 [1:14:58<1:16:23,  2.75s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  44%|####4     | 1334/3000 [1:14:58<1:28:19,  3.18s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  44%|####4     | 1334/3000 [1:14:58<1:28:19,  3.18s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  44%|####4     | 1334/3000 [1:15:01<1:28:19,  3.18s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  44%|####4     | 1334/3000 [1:15:01<1:28:19,  3.18s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  44%|####4     | 1335/3000 [1:15:01<1:27:13,  3.14s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  44%|####4     | 1335/3000 [1:15:01<1:27:13,  3.14s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  44%|####4     | 1335/3000 [1:15:05<1:27:13,  3.14s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  44%|####4     | 1335/3000 [1:15:05<1:27:13,  3.14s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  45%|####4     | 1336/3000 [1:15:05<1:37:18,  3.51s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  45%|####4     | 1336/3000 [1:15:05<1:37:18,  3.51s/it, lr: 1.0e-04 loss: 1.350e-01]strawbyte_v1:  45%|####4     | 1336/3000 [1:15:10<1:37:18,  3.51s/it, lr: 1.0e-04 loss: 1.447e-01]strawbyte_v1:  45%|####4     | 1336/3000 [1:15:10<1:37:18,  3.51s/it, lr: 1.0e-04 loss: 1.447e-01]strawbyte_v1:  45%|####4     | 1337/3000 [1:15:10<1:47:05,  3.86s/it, lr: 1.0e-04 loss: 1.447e-01]strawbyte_v1:  45%|####4     | 1337/3000 [1:15:10<1:47:05,  3.86s/it, lr: 1.0e-04 loss: 1.447e-01]strawbyte_v1:  45%|####4     | 1337/3000 [1:15:14<1:47:05,  3.86s/it, lr: 1.0e-04 loss: 9.298e-02]strawbyte_v1:  45%|####4     | 1337/3000 [1:15:14<1:47:05,  3.86s/it, lr: 1.0e-04 loss: 9.298e-02]strawbyte_v1:  45%|####4     | 1338/3000 [1:15:14<1:51:49,  4.04s/it, lr: 1.0e-04 loss: 9.298e-02]strawbyte_v1:  45%|####4     | 1338/3000 [1:15:14<1:51:49,  4.04s/it, lr: 1.0e-04 loss: 9.298e-02]strawbyte_v1:  45%|####4     | 1338/3000 [1:15:19<1:51:49,  4.04s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  45%|####4     | 1338/3000 [1:15:19<1:51:49,  4.04s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  45%|####4     | 1339/3000 [1:15:19<1:54:58,  4.15s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  45%|####4     | 1339/3000 [1:15:19<1:54:58,  4.15s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  45%|####4     | 1339/3000 [1:15:22<1:54:58,  4.15s/it, lr: 1.0e-04 loss: 1.430e-01]strawbyte_v1:  45%|####4     | 1339/3000 [1:15:22<1:54:58,  4.15s/it, lr: 1.0e-04 loss: 1.430e-01]strawbyte_v1:  45%|####4     | 1340/3000 [1:15:25<1:54:54,  4.15s/it, lr: 1.0e-04 loss: 6.385e-02]strawbyte_v1:  45%|####4     | 1340/3000 [1:15:25<1:54:54,  4.15s/it, lr: 1.0e-04 loss: 6.385e-02]strawbyte_v1:  45%|####4     | 1341/3000 [1:15:25<1:21:15,  2.94s/it, lr: 1.0e-04 loss: 6.385e-02]strawbyte_v1:  45%|####4     | 1341/3000 [1:15:25<1:21:15,  2.94s/it, lr: 1.0e-04 loss: 6.385e-02]strawbyte_v1:  45%|####4     | 1341/3000 [1:15:28<1:21:15,  2.94s/it, lr: 1.0e-04 loss: 1.694e-01]strawbyte_v1:  45%|####4     | 1341/3000 [1:15:28<1:21:15,  2.94s/it, lr: 1.0e-04 loss: 1.694e-01]strawbyte_v1:  45%|####4     | 1342/3000 [1:15:28<1:19:43,  2.89s/it, lr: 1.0e-04 loss: 1.694e-01]strawbyte_v1:  45%|####4     | 1342/3000 [1:15:28<1:19:43,  2.89s/it, lr: 1.0e-04 loss: 1.694e-01]strawbyte_v1:  45%|####4     | 1342/3000 [1:15:30<1:19:43,  2.89s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  45%|####4     | 1342/3000 [1:15:30<1:19:43,  2.89s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  45%|####4     | 1343/3000 [1:15:30<1:18:27,  2.84s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  45%|####4     | 1343/3000 [1:15:30<1:18:27,  2.84s/it, lr: 1.0e-04 loss: 1.856e-01]strawbyte_v1:  45%|####4     | 1343/3000 [1:15:34<1:18:27,  2.84s/it, lr: 1.0e-04 loss: 1.106e-01]strawbyte_v1:  45%|####4     | 1343/3000 [1:15:34<1:18:27,  2.84s/it, lr: 1.0e-04 loss: 1.106e-01]strawbyte_v1:  45%|####4     | 1344/3000 [1:15:34<1:20:32,  2.92s/it, lr: 1.0e-04 loss: 1.106e-01]strawbyte_v1:  45%|####4     | 1344/3000 [1:15:34<1:20:32,  2.92s/it, lr: 1.0e-04 loss: 1.106e-01]strawbyte_v1:  45%|####4     | 1344/3000 [1:15:36<1:20:32,  2.92s/it, lr: 1.0e-04 loss: 1.534e-01]strawbyte_v1:  45%|####4     | 1344/3000 [1:15:36<1:20:32,  2.92s/it, lr: 1.0e-04 loss: 1.534e-01]strawbyte_v1:  45%|####4     | 1345/3000 [1:15:36<1:18:53,  2.86s/it, lr: 1.0e-04 loss: 1.534e-01]strawbyte_v1:  45%|####4     | 1345/3000 [1:15:36<1:18:53,  2.86s/it, lr: 1.0e-04 loss: 1.534e-01]strawbyte_v1:  45%|####4     | 1345/3000 [1:15:39<1:18:53,  2.86s/it, lr: 1.0e-04 loss: 1.818e-02]strawbyte_v1:  45%|####4     | 1345/3000 [1:15:39<1:18:53,  2.86s/it, lr: 1.0e-04 loss: 1.818e-02]strawbyte_v1:  45%|####4     | 1346/3000 [1:15:39<1:17:43,  2.82s/it, lr: 1.0e-04 loss: 1.818e-02]strawbyte_v1:  45%|####4     | 1346/3000 [1:15:39<1:17:43,  2.82s/it, lr: 1.0e-04 loss: 1.818e-02]strawbyte_v1:  45%|####4     | 1346/3000 [1:15:43<1:17:43,  2.82s/it, lr: 1.0e-04 loss: 8.704e-02]strawbyte_v1:  45%|####4     | 1346/3000 [1:15:43<1:17:43,  2.82s/it, lr: 1.0e-04 loss: 8.704e-02]strawbyte_v1:  45%|####4     | 1347/3000 [1:15:43<1:30:21,  3.28s/it, lr: 1.0e-04 loss: 8.704e-02]strawbyte_v1:  45%|####4     | 1347/3000 [1:15:43<1:30:21,  3.28s/it, lr: 1.0e-04 loss: 8.704e-02]strawbyte_v1:  45%|####4     | 1347/3000 [1:15:48<1:30:21,  3.28s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  45%|####4     | 1347/3000 [1:15:48<1:30:21,  3.28s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  45%|####4     | 1348/3000 [1:15:48<1:40:44,  3.66s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  45%|####4     | 1348/3000 [1:15:48<1:40:44,  3.66s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  45%|####4     | 1348/3000 [1:15:50<1:40:44,  3.66s/it, lr: 1.0e-04 loss: 2.213e-01]strawbyte_v1:  45%|####4     | 1348/3000 [1:15:50<1:40:44,  3.66s/it, lr: 1.0e-04 loss: 2.213e-01]strawbyte_v1:  45%|####4     | 1349/3000 [1:15:50<1:28:01,  3.20s/it, lr: 1.0e-04 loss: 2.213e-01]strawbyte_v1:  45%|####4     | 1349/3000 [1:15:50<1:28:01,  3.20s/it, lr: 1.0e-04 loss: 2.213e-01]strawbyte_v1:  45%|####4     | 1349/3000 [1:15:53<1:28:01,  3.20s/it, lr: 1.0e-04 loss: 1.039e-01]strawbyte_v1:  45%|####4     | 1349/3000 [1:15:53<1:28:01,  3.20s/it, lr: 1.0e-04 loss: 1.039e-01]strawbyte_v1:  45%|####5     | 1350/3000 [1:15:58<1:27:58,  3.20s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  45%|####5     | 1350/3000 [1:15:58<1:27:58,  3.20s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  45%|####5     | 1351/3000 [1:15:58<1:16:41,  2.79s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  45%|####5     | 1351/3000 [1:15:58<1:16:41,  2.79s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  45%|####5     | 1351/3000 [1:16:00<1:16:41,  2.79s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  45%|####5     | 1351/3000 [1:16:00<1:16:41,  2.79s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  45%|####5     | 1352/3000 [1:16:00<1:11:58,  2.62s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  45%|####5     | 1352/3000 [1:16:00<1:11:58,  2.62s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  45%|####5     | 1352/3000 [1:16:03<1:11:58,  2.62s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  45%|####5     | 1352/3000 [1:16:03<1:11:58,  2.62s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  45%|####5     | 1353/3000 [1:16:03<1:13:44,  2.69s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  45%|####5     | 1353/3000 [1:16:03<1:13:44,  2.69s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  45%|####5     | 1353/3000 [1:16:07<1:13:44,  2.69s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  45%|####5     | 1353/3000 [1:16:07<1:13:44,  2.69s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  45%|####5     | 1354/3000 [1:16:07<1:25:48,  3.13s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  45%|####5     | 1354/3000 [1:16:07<1:25:48,  3.13s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  45%|####5     | 1354/3000 [1:16:09<1:25:48,  3.13s/it, lr: 1.0e-04 loss: 2.456e-01]strawbyte_v1:  45%|####5     | 1354/3000 [1:16:09<1:25:48,  3.13s/it, lr: 1.0e-04 loss: 2.456e-01]strawbyte_v1:  45%|####5     | 1355/3000 [1:16:09<1:20:10,  2.92s/it, lr: 1.0e-04 loss: 2.456e-01]strawbyte_v1:  45%|####5     | 1355/3000 [1:16:09<1:20:10,  2.92s/it, lr: 1.0e-04 loss: 2.456e-01]strawbyte_v1:  45%|####5     | 1355/3000 [1:16:14<1:20:10,  2.92s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  45%|####5     | 1355/3000 [1:16:14<1:20:10,  2.92s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  45%|####5     | 1356/3000 [1:16:14<1:31:08,  3.33s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  45%|####5     | 1356/3000 [1:16:14<1:31:08,  3.33s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  45%|####5     | 1356/3000 [1:16:17<1:31:08,  3.33s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:  45%|####5     | 1356/3000 [1:16:17<1:31:08,  3.33s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:  45%|####5     | 1357/3000 [1:16:17<1:28:33,  3.23s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:  45%|####5     | 1357/3000 [1:16:17<1:28:33,  3.23s/it, lr: 1.0e-04 loss: 1.423e-01]strawbyte_v1:  45%|####5     | 1357/3000 [1:16:20<1:28:33,  3.23s/it, lr: 1.0e-04 loss: 1.986e-01]strawbyte_v1:  45%|####5     | 1357/3000 [1:16:20<1:28:33,  3.23s/it, lr: 1.0e-04 loss: 1.986e-01]strawbyte_v1:  45%|####5     | 1358/3000 [1:16:20<1:27:29,  3.20s/it, lr: 1.0e-04 loss: 1.986e-01]strawbyte_v1:  45%|####5     | 1358/3000 [1:16:20<1:27:29,  3.20s/it, lr: 1.0e-04 loss: 1.986e-01]strawbyte_v1:  45%|####5     | 1358/3000 [1:16:23<1:27:29,  3.20s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  45%|####5     | 1358/3000 [1:16:23<1:27:29,  3.20s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  45%|####5     | 1359/3000 [1:16:23<1:25:38,  3.13s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  45%|####5     | 1359/3000 [1:16:23<1:25:38,  3.13s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  45%|####5     | 1359/3000 [1:16:25<1:25:38,  3.13s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  45%|####5     | 1359/3000 [1:16:25<1:25:38,  3.13s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  45%|####5     | 1360/3000 [1:16:28<1:25:35,  3.13s/it, lr: 1.0e-04 loss: 1.119e-02]strawbyte_v1:  45%|####5     | 1360/3000 [1:16:28<1:25:35,  3.13s/it, lr: 1.0e-04 loss: 1.119e-02]strawbyte_v1:  45%|####5     | 1361/3000 [1:16:28<1:05:26,  2.40s/it, lr: 1.0e-04 loss: 1.119e-02]strawbyte_v1:  45%|####5     | 1361/3000 [1:16:28<1:05:26,  2.40s/it, lr: 1.0e-04 loss: 1.119e-02]strawbyte_v1:  45%|####5     | 1361/3000 [1:16:32<1:05:26,  2.40s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  45%|####5     | 1361/3000 [1:16:32<1:05:26,  2.40s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  45%|####5     | 1362/3000 [1:16:32<1:11:50,  2.63s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  45%|####5     | 1362/3000 [1:16:32<1:11:50,  2.63s/it, lr: 1.0e-04 loss: 1.488e-01]strawbyte_v1:  45%|####5     | 1362/3000 [1:16:36<1:11:50,  2.63s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  45%|####5     | 1362/3000 [1:16:36<1:11:50,  2.63s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  45%|####5     | 1363/3000 [1:16:36<1:24:51,  3.11s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  45%|####5     | 1363/3000 [1:16:36<1:24:51,  3.11s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  45%|####5     | 1363/3000 [1:16:39<1:24:51,  3.11s/it, lr: 1.0e-04 loss: 2.988e-03]strawbyte_v1:  45%|####5     | 1363/3000 [1:16:39<1:24:51,  3.11s/it, lr: 1.0e-04 loss: 2.988e-03]strawbyte_v1:  45%|####5     | 1364/3000 [1:16:39<1:21:39,  2.99s/it, lr: 1.0e-04 loss: 2.988e-03]strawbyte_v1:  45%|####5     | 1364/3000 [1:16:39<1:21:39,  2.99s/it, lr: 1.0e-04 loss: 2.988e-03]strawbyte_v1:  45%|####5     | 1364/3000 [1:16:42<1:21:39,  2.99s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  45%|####5     | 1364/3000 [1:16:42<1:21:39,  2.99s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  46%|####5     | 1365/3000 [1:16:42<1:21:28,  2.99s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  46%|####5     | 1365/3000 [1:16:42<1:21:28,  2.99s/it, lr: 1.0e-04 loss: 1.497e-01]strawbyte_v1:  46%|####5     | 1365/3000 [1:16:45<1:21:28,  2.99s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  46%|####5     | 1365/3000 [1:16:45<1:21:28,  2.99s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  46%|####5     | 1366/3000 [1:16:45<1:24:01,  3.09s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  46%|####5     | 1366/3000 [1:16:45<1:24:01,  3.09s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  46%|####5     | 1366/3000 [1:16:50<1:24:01,  3.09s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  46%|####5     | 1366/3000 [1:16:50<1:24:01,  3.09s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  46%|####5     | 1367/3000 [1:16:50<1:34:41,  3.48s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  46%|####5     | 1367/3000 [1:16:50<1:34:41,  3.48s/it, lr: 1.0e-04 loss: 1.016e-01]strawbyte_v1:  46%|####5     | 1367/3000 [1:16:53<1:34:41,  3.48s/it, lr: 1.0e-04 loss: 7.911e-02]strawbyte_v1:  46%|####5     | 1367/3000 [1:16:53<1:34:41,  3.48s/it, lr: 1.0e-04 loss: 7.911e-02]strawbyte_v1:  46%|####5     | 1368/3000 [1:16:53<1:30:36,  3.33s/it, lr: 1.0e-04 loss: 7.911e-02]strawbyte_v1:  46%|####5     | 1368/3000 [1:16:53<1:30:36,  3.33s/it, lr: 1.0e-04 loss: 7.911e-02]strawbyte_v1:  46%|####5     | 1368/3000 [1:16:57<1:30:36,  3.33s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  46%|####5     | 1368/3000 [1:16:57<1:30:36,  3.33s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  46%|####5     | 1369/3000 [1:16:57<1:41:34,  3.74s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  46%|####5     | 1369/3000 [1:16:57<1:41:34,  3.74s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  46%|####5     | 1369/3000 [1:17:00<1:41:34,  3.74s/it, lr: 1.0e-04 loss: 1.784e-01]strawbyte_v1:  46%|####5     | 1369/3000 [1:17:00<1:41:34,  3.74s/it, lr: 1.0e-04 loss: 1.784e-01]strawbyte_v1:  46%|####5     | 1370/3000 [1:17:03<1:41:31,  3.74s/it, lr: 1.0e-04 loss: 3.657e-02]strawbyte_v1:  46%|####5     | 1370/3000 [1:17:03<1:41:31,  3.74s/it, lr: 1.0e-04 loss: 3.657e-02]strawbyte_v1:  46%|####5     | 1371/3000 [1:17:03<1:11:54,  2.65s/it, lr: 1.0e-04 loss: 3.657e-02]strawbyte_v1:  46%|####5     | 1371/3000 [1:17:03<1:11:54,  2.65s/it, lr: 1.0e-04 loss: 3.657e-02]strawbyte_v1:  46%|####5     | 1371/3000 [1:17:07<1:11:54,  2.65s/it, lr: 1.0e-04 loss: 4.134e-02]strawbyte_v1:  46%|####5     | 1371/3000 [1:17:07<1:11:54,  2.65s/it, lr: 1.0e-04 loss: 4.134e-02]strawbyte_v1:  46%|####5     | 1372/3000 [1:17:07<1:23:09,  3.06s/it, lr: 1.0e-04 loss: 4.134e-02]strawbyte_v1:  46%|####5     | 1372/3000 [1:17:07<1:23:09,  3.06s/it, lr: 1.0e-04 loss: 4.134e-02]strawbyte_v1:  46%|####5     | 1372/3000 [1:17:10<1:23:09,  3.06s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  46%|####5     | 1372/3000 [1:17:10<1:23:09,  3.06s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  46%|####5     | 1373/3000 [1:17:10<1:18:24,  2.89s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  46%|####5     | 1373/3000 [1:17:10<1:18:24,  2.89s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  46%|####5     | 1373/3000 [1:17:12<1:18:24,  2.89s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  46%|####5     | 1373/3000 [1:17:12<1:18:24,  2.89s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  46%|####5     | 1374/3000 [1:17:12<1:12:39,  2.68s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  46%|####5     | 1374/3000 [1:17:12<1:12:39,  2.68s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  46%|####5     | 1374/3000 [1:17:16<1:12:39,  2.68s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  46%|####5     | 1374/3000 [1:17:16<1:12:39,  2.68s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  46%|####5     | 1375/3000 [1:17:16<1:24:58,  3.14s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  46%|####5     | 1375/3000 [1:17:16<1:24:58,  3.14s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  46%|####5     | 1375/3000 [1:17:19<1:24:58,  3.14s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  46%|####5     | 1375/3000 [1:17:19<1:24:58,  3.14s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  46%|####5     | 1376/3000 [1:17:19<1:19:10,  2.93s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  46%|####5     | 1376/3000 [1:17:19<1:19:10,  2.93s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  46%|####5     | 1376/3000 [1:17:23<1:19:10,  2.93s/it, lr: 1.0e-04 loss: 9.712e-02]strawbyte_v1:  46%|####5     | 1376/3000 [1:17:23<1:19:10,  2.93s/it, lr: 1.0e-04 loss: 9.712e-02]strawbyte_v1:  46%|####5     | 1377/3000 [1:17:23<1:30:12,  3.33s/it, lr: 1.0e-04 loss: 9.712e-02]strawbyte_v1:  46%|####5     | 1377/3000 [1:17:23<1:30:12,  3.33s/it, lr: 1.0e-04 loss: 9.712e-02]strawbyte_v1:  46%|####5     | 1377/3000 [1:17:25<1:30:12,  3.33s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  46%|####5     | 1377/3000 [1:17:25<1:30:12,  3.33s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  46%|####5     | 1378/3000 [1:17:25<1:20:09,  2.97s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  46%|####5     | 1378/3000 [1:17:25<1:20:09,  2.97s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  46%|####5     | 1378/3000 [1:17:27<1:20:09,  2.97s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  46%|####5     | 1378/3000 [1:17:27<1:20:09,  2.97s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  46%|####5     | 1379/3000 [1:17:27<1:12:59,  2.70s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  46%|####5     | 1379/3000 [1:17:27<1:12:59,  2.70s/it, lr: 1.0e-04 loss: 2.157e-01]strawbyte_v1:  46%|####5     | 1379/3000 [1:17:32<1:12:59,  2.70s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  46%|####5     | 1379/3000 [1:17:32<1:12:59,  2.70s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  46%|####6     | 1380/3000 [1:17:34<1:12:57,  2.70s/it, lr: 1.0e-04 loss: 1.649e-01]strawbyte_v1:  46%|####6     | 1380/3000 [1:17:34<1:12:57,  2.70s/it, lr: 1.0e-04 loss: 1.649e-01]strawbyte_v1:  46%|####6     | 1381/3000 [1:17:34<52:36,  1.95s/it, lr: 1.0e-04 loss: 1.649e-01]  strawbyte_v1:  46%|####6     | 1381/3000 [1:17:34<52:36,  1.95s/it, lr: 1.0e-04 loss: 1.649e-01]  strawbyte_v1:  46%|####6     | 1381/3000 [1:17:36<52:36,  1.95s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  46%|####6     | 1381/3000 [1:17:36<52:36,  1.95s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  46%|####6     | 1382/3000 [1:17:36<54:05,  2.01s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  46%|####6     | 1382/3000 [1:17:36<54:05,  2.01s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  46%|####6     | 1382/3000 [1:17:39<54:05,  2.01s/it, lr: 1.0e-04 loss: 1.496e-01]strawbyte_v1:  46%|####6     | 1382/3000 [1:17:39<54:05,  2.01s/it, lr: 1.0e-04 loss: 1.496e-01]strawbyte_v1:  46%|####6     | 1383/3000 [1:17:39<1:01:55,  2.30s/it, lr: 1.0e-04 loss: 1.496e-01]strawbyte_v1:  46%|####6     | 1383/3000 [1:17:39<1:01:55,  2.30s/it, lr: 1.0e-04 loss: 1.496e-01]strawbyte_v1:  46%|####6     | 1383/3000 [1:17:42<1:01:55,  2.30s/it, lr: 1.0e-04 loss: 9.839e-02]strawbyte_v1:  46%|####6     | 1383/3000 [1:17:42<1:01:55,  2.30s/it, lr: 1.0e-04 loss: 9.839e-02]strawbyte_v1:  46%|####6     | 1384/3000 [1:17:42<1:05:03,  2.42s/it, lr: 1.0e-04 loss: 9.839e-02]strawbyte_v1:  46%|####6     | 1384/3000 [1:17:42<1:05:03,  2.42s/it, lr: 1.0e-04 loss: 9.839e-02]strawbyte_v1:  46%|####6     | 1384/3000 [1:17:45<1:05:03,  2.42s/it, lr: 1.0e-04 loss: 2.725e-02]strawbyte_v1:  46%|####6     | 1384/3000 [1:17:45<1:05:03,  2.42s/it, lr: 1.0e-04 loss: 2.725e-02]strawbyte_v1:  46%|####6     | 1385/3000 [1:17:45<1:07:05,  2.49s/it, lr: 1.0e-04 loss: 2.725e-02]strawbyte_v1:  46%|####6     | 1385/3000 [1:17:45<1:07:05,  2.49s/it, lr: 1.0e-04 loss: 2.725e-02]strawbyte_v1:  46%|####6     | 1385/3000 [1:17:49<1:07:05,  2.49s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  46%|####6     | 1385/3000 [1:17:49<1:07:05,  2.49s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  46%|####6     | 1386/3000 [1:17:49<1:22:37,  3.07s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  46%|####6     | 1386/3000 [1:17:49<1:22:37,  3.07s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  46%|####6     | 1386/3000 [1:17:53<1:22:37,  3.07s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  46%|####6     | 1386/3000 [1:17:53<1:22:37,  3.07s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  46%|####6     | 1387/3000 [1:17:53<1:23:58,  3.12s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  46%|####6     | 1387/3000 [1:17:53<1:23:58,  3.12s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  46%|####6     | 1387/3000 [1:17:56<1:23:58,  3.12s/it, lr: 1.0e-04 loss: 1.740e-01]strawbyte_v1:  46%|####6     | 1387/3000 [1:17:56<1:23:58,  3.12s/it, lr: 1.0e-04 loss: 1.740e-01]strawbyte_v1:  46%|####6     | 1388/3000 [1:17:56<1:23:06,  3.09s/it, lr: 1.0e-04 loss: 1.740e-01]strawbyte_v1:  46%|####6     | 1388/3000 [1:17:56<1:23:06,  3.09s/it, lr: 1.0e-04 loss: 1.740e-01]strawbyte_v1:  46%|####6     | 1388/3000 [1:18:00<1:23:06,  3.09s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  46%|####6     | 1388/3000 [1:18:00<1:23:06,  3.09s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  46%|####6     | 1389/3000 [1:18:00<1:33:22,  3.48s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  46%|####6     | 1389/3000 [1:18:00<1:33:22,  3.48s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  46%|####6     | 1389/3000 [1:18:03<1:33:22,  3.48s/it, lr: 1.0e-04 loss: 1.809e-01]strawbyte_v1:  46%|####6     | 1389/3000 [1:18:03<1:33:22,  3.48s/it, lr: 1.0e-04 loss: 1.809e-01]strawbyte_v1:  46%|####6     | 1390/3000 [1:18:06<1:33:18,  3.48s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  46%|####6     | 1390/3000 [1:18:06<1:33:18,  3.48s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  46%|####6     | 1391/3000 [1:18:06<1:09:41,  2.60s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  46%|####6     | 1391/3000 [1:18:06<1:09:41,  2.60s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  46%|####6     | 1391/3000 [1:18:10<1:09:41,  2.60s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  46%|####6     | 1391/3000 [1:18:10<1:09:41,  2.60s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  46%|####6     | 1392/3000 [1:18:10<1:21:52,  3.05s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  46%|####6     | 1392/3000 [1:18:10<1:21:52,  3.05s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  46%|####6     | 1392/3000 [1:18:15<1:21:52,  3.05s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  46%|####6     | 1392/3000 [1:18:15<1:21:52,  3.05s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  46%|####6     | 1393/3000 [1:18:15<1:31:12,  3.41s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  46%|####6     | 1393/3000 [1:18:15<1:31:12,  3.41s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  46%|####6     | 1393/3000 [1:18:19<1:31:12,  3.41s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  46%|####6     | 1393/3000 [1:18:19<1:31:12,  3.41s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  46%|####6     | 1394/3000 [1:18:19<1:40:50,  3.77s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  46%|####6     | 1394/3000 [1:18:19<1:40:50,  3.77s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  46%|####6     | 1394/3000 [1:18:22<1:40:50,  3.77s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  46%|####6     | 1394/3000 [1:18:22<1:40:50,  3.77s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  46%|####6     | 1395/3000 [1:18:22<1:32:46,  3.47s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  46%|####6     | 1395/3000 [1:18:22<1:32:46,  3.47s/it, lr: 1.0e-04 loss: 1.512e-01]strawbyte_v1:  46%|####6     | 1395/3000 [1:18:25<1:32:46,  3.47s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  46%|####6     | 1395/3000 [1:18:25<1:32:46,  3.47s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  47%|####6     | 1396/3000 [1:18:25<1:25:23,  3.19s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  47%|####6     | 1396/3000 [1:18:25<1:25:23,  3.19s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  47%|####6     | 1396/3000 [1:18:28<1:25:23,  3.19s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  47%|####6     | 1396/3000 [1:18:28<1:25:23,  3.19s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  47%|####6     | 1397/3000 [1:18:28<1:23:17,  3.12s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  47%|####6     | 1397/3000 [1:18:28<1:23:17,  3.12s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  47%|####6     | 1397/3000 [1:18:32<1:23:17,  3.12s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  47%|####6     | 1397/3000 [1:18:32<1:23:17,  3.12s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  47%|####6     | 1398/3000 [1:18:32<1:34:39,  3.55s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  47%|####6     | 1398/3000 [1:18:32<1:34:39,  3.55s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  47%|####6     | 1398/3000 [1:18:36<1:34:39,  3.55s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  47%|####6     | 1398/3000 [1:18:36<1:34:39,  3.55s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  47%|####6     | 1399/3000 [1:18:36<1:41:03,  3.79s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  47%|####6     | 1399/3000 [1:18:36<1:41:03,  3.79s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  47%|####6     | 1399/3000 [1:18:39<1:41:03,  3.79s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  47%|####6     | 1399/3000 [1:18:39<1:41:03,  3.79s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  47%|####6     | 1400/3000 [1:18:42<1:40:59,  3.79s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  47%|####6     | 1400/3000 [1:18:42<1:40:59,  3.79s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  47%|####6     | 1401/3000 [1:18:42<1:12:15,  2.71s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  47%|####6     | 1401/3000 [1:18:42<1:12:15,  2.71s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  47%|####6     | 1401/3000 [1:18:45<1:12:15,  2.71s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  47%|####6     | 1401/3000 [1:18:45<1:12:15,  2.71s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  47%|####6     | 1402/3000 [1:18:45<1:10:10,  2.63s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  47%|####6     | 1402/3000 [1:18:45<1:10:10,  2.63s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  47%|####6     | 1402/3000 [1:18:49<1:10:10,  2.63s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  47%|####6     | 1402/3000 [1:18:49<1:10:10,  2.63s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  47%|####6     | 1403/3000 [1:18:49<1:21:44,  3.07s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  47%|####6     | 1403/3000 [1:18:49<1:21:44,  3.07s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  47%|####6     | 1403/3000 [1:18:52<1:21:44,  3.07s/it, lr: 1.0e-04 loss: 2.140e-02]strawbyte_v1:  47%|####6     | 1403/3000 [1:18:52<1:21:44,  3.07s/it, lr: 1.0e-04 loss: 2.140e-02]strawbyte_v1:  47%|####6     | 1404/3000 [1:18:52<1:20:29,  3.03s/it, lr: 1.0e-04 loss: 2.140e-02]strawbyte_v1:  47%|####6     | 1404/3000 [1:18:52<1:20:29,  3.03s/it, lr: 1.0e-04 loss: 2.140e-02]strawbyte_v1:  47%|####6     | 1404/3000 [1:18:56<1:20:29,  3.03s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  47%|####6     | 1404/3000 [1:18:56<1:20:29,  3.03s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  47%|####6     | 1405/3000 [1:18:56<1:31:55,  3.46s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  47%|####6     | 1405/3000 [1:18:56<1:31:55,  3.46s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  47%|####6     | 1405/3000 [1:18:59<1:31:55,  3.46s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  47%|####6     | 1405/3000 [1:18:59<1:31:55,  3.46s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  47%|####6     | 1406/3000 [1:18:59<1:28:14,  3.32s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  47%|####6     | 1406/3000 [1:18:59<1:28:14,  3.32s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  47%|####6     | 1406/3000 [1:19:02<1:28:14,  3.32s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  47%|####6     | 1406/3000 [1:19:02<1:28:14,  3.32s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  47%|####6     | 1407/3000 [1:19:02<1:23:23,  3.14s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  47%|####6     | 1407/3000 [1:19:02<1:23:23,  3.14s/it, lr: 1.0e-04 loss: 1.837e-01]strawbyte_v1:  47%|####6     | 1407/3000 [1:19:06<1:23:23,  3.14s/it, lr: 1.0e-04 loss: 9.986e-02]strawbyte_v1:  47%|####6     | 1407/3000 [1:19:06<1:23:23,  3.14s/it, lr: 1.0e-04 loss: 9.986e-02]strawbyte_v1:  47%|####6     | 1408/3000 [1:19:06<1:32:15,  3.48s/it, lr: 1.0e-04 loss: 9.986e-02]strawbyte_v1:  47%|####6     | 1408/3000 [1:19:06<1:32:15,  3.48s/it, lr: 1.0e-04 loss: 9.986e-02]strawbyte_v1:  47%|####6     | 1408/3000 [1:19:11<1:32:15,  3.48s/it, lr: 1.0e-04 loss: 8.416e-02]strawbyte_v1:  47%|####6     | 1408/3000 [1:19:11<1:32:15,  3.48s/it, lr: 1.0e-04 loss: 8.416e-02]strawbyte_v1:  47%|####6     | 1409/3000 [1:19:11<1:42:04,  3.85s/it, lr: 1.0e-04 loss: 8.416e-02]strawbyte_v1:  47%|####6     | 1409/3000 [1:19:11<1:42:04,  3.85s/it, lr: 1.0e-04 loss: 8.416e-02]strawbyte_v1:  47%|####6     | 1409/3000 [1:19:14<1:42:04,  3.85s/it, lr: 1.0e-04 loss: 2.461e-01]strawbyte_v1:  47%|####6     | 1409/3000 [1:19:14<1:42:04,  3.85s/it, lr: 1.0e-04 loss: 2.461e-01]strawbyte_v1:  47%|####6     | 1410/3000 [1:19:17<1:42:00,  3.85s/it, lr: 1.0e-04 loss: 1.499e-01]strawbyte_v1:  47%|####6     | 1410/3000 [1:19:17<1:42:00,  3.85s/it, lr: 1.0e-04 loss: 1.499e-01]strawbyte_v1:  47%|####7     | 1411/3000 [1:19:17<1:11:45,  2.71s/it, lr: 1.0e-04 loss: 1.499e-01]strawbyte_v1:  47%|####7     | 1411/3000 [1:19:17<1:11:45,  2.71s/it, lr: 1.0e-04 loss: 1.499e-01]strawbyte_v1:  47%|####7     | 1411/3000 [1:19:21<1:11:45,  2.71s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  47%|####7     | 1411/3000 [1:19:21<1:11:45,  2.71s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  47%|####7     | 1412/3000 [1:19:21<1:24:42,  3.20s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  47%|####7     | 1412/3000 [1:19:21<1:24:42,  3.20s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  47%|####7     | 1412/3000 [1:19:26<1:24:42,  3.20s/it, lr: 1.0e-04 loss: 9.666e-02]strawbyte_v1:  47%|####7     | 1412/3000 [1:19:26<1:24:42,  3.20s/it, lr: 1.0e-04 loss: 9.666e-02]strawbyte_v1:  47%|####7     | 1413/3000 [1:19:26<1:33:13,  3.52s/it, lr: 1.0e-04 loss: 9.666e-02]strawbyte_v1:  47%|####7     | 1413/3000 [1:19:26<1:33:13,  3.52s/it, lr: 1.0e-04 loss: 9.666e-02]strawbyte_v1:  47%|####7     | 1413/3000 [1:19:29<1:33:13,  3.52s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  47%|####7     | 1413/3000 [1:19:29<1:33:13,  3.52s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  47%|####7     | 1414/3000 [1:19:29<1:29:51,  3.40s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  47%|####7     | 1414/3000 [1:19:29<1:29:51,  3.40s/it, lr: 1.0e-04 loss: 1.535e-01]strawbyte_v1:  47%|####7     | 1414/3000 [1:19:32<1:29:51,  3.40s/it, lr: 1.0e-04 loss: 1.648e-01]strawbyte_v1:  47%|####7     | 1414/3000 [1:19:32<1:29:51,  3.40s/it, lr: 1.0e-04 loss: 1.648e-01]strawbyte_v1:  47%|####7     | 1415/3000 [1:19:32<1:26:43,  3.28s/it, lr: 1.0e-04 loss: 1.648e-01]strawbyte_v1:  47%|####7     | 1415/3000 [1:19:32<1:26:43,  3.28s/it, lr: 1.0e-04 loss: 1.648e-01]strawbyte_v1:  47%|####7     | 1415/3000 [1:19:35<1:26:43,  3.28s/it, lr: 1.0e-04 loss: 1.357e-01]strawbyte_v1:  47%|####7     | 1415/3000 [1:19:35<1:26:43,  3.28s/it, lr: 1.0e-04 loss: 1.357e-01]strawbyte_v1:  47%|####7     | 1416/3000 [1:19:35<1:27:20,  3.31s/it, lr: 1.0e-04 loss: 1.357e-01]strawbyte_v1:  47%|####7     | 1416/3000 [1:19:35<1:27:20,  3.31s/it, lr: 1.0e-04 loss: 1.357e-01]strawbyte_v1:  47%|####7     | 1416/3000 [1:19:38<1:27:20,  3.31s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  47%|####7     | 1416/3000 [1:19:38<1:27:20,  3.31s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  47%|####7     | 1417/3000 [1:19:38<1:22:31,  3.13s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  47%|####7     | 1417/3000 [1:19:38<1:22:31,  3.13s/it, lr: 1.0e-04 loss: 1.998e-01]strawbyte_v1:  47%|####7     | 1417/3000 [1:19:40<1:22:31,  3.13s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  47%|####7     | 1417/3000 [1:19:40<1:22:31,  3.13s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  47%|####7     | 1418/3000 [1:19:40<1:18:59,  3.00s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  47%|####7     | 1418/3000 [1:19:40<1:18:59,  3.00s/it, lr: 1.0e-04 loss: 1.696e-01]strawbyte_v1:  47%|####7     | 1418/3000 [1:19:43<1:18:59,  3.00s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  47%|####7     | 1418/3000 [1:19:43<1:18:59,  3.00s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  47%|####7     | 1419/3000 [1:19:43<1:16:30,  2.90s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  47%|####7     | 1419/3000 [1:19:43<1:16:30,  2.90s/it, lr: 1.0e-04 loss: 1.803e-01]strawbyte_v1:  47%|####7     | 1419/3000 [1:19:46<1:16:30,  2.90s/it, lr: 1.0e-04 loss: 1.248e-01]strawbyte_v1:  47%|####7     | 1419/3000 [1:19:46<1:16:30,  2.90s/it, lr: 1.0e-04 loss: 1.248e-01]strawbyte_v1:  47%|####7     | 1420/3000 [1:19:48<1:16:27,  2.90s/it, lr: 1.0e-04 loss: 5.995e-02]strawbyte_v1:  47%|####7     | 1420/3000 [1:19:48<1:16:27,  2.90s/it, lr: 1.0e-04 loss: 5.995e-02]strawbyte_v1:  47%|####7     | 1421/3000 [1:19:48<54:02,  2.05s/it, lr: 1.0e-04 loss: 5.995e-02]  strawbyte_v1:  47%|####7     | 1421/3000 [1:19:48<54:02,  2.05s/it, lr: 1.0e-04 loss: 5.995e-02]  strawbyte_v1:  47%|####7     | 1421/3000 [1:19:51<54:02,  2.05s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  47%|####7     | 1421/3000 [1:19:51<54:02,  2.05s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  47%|####7     | 1422/3000 [1:19:51<59:10,  2.25s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  47%|####7     | 1422/3000 [1:19:51<59:10,  2.25s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  47%|####7     | 1422/3000 [1:19:54<59:10,  2.25s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  47%|####7     | 1422/3000 [1:19:54<59:10,  2.25s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  47%|####7     | 1423/3000 [1:19:54<1:04:11,  2.44s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  47%|####7     | 1423/3000 [1:19:54<1:04:11,  2.44s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  47%|####7     | 1423/3000 [1:19:57<1:04:11,  2.44s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  47%|####7     | 1423/3000 [1:19:57<1:04:11,  2.44s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  47%|####7     | 1424/3000 [1:19:57<1:07:15,  2.56s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  47%|####7     | 1424/3000 [1:19:57<1:07:15,  2.56s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  47%|####7     | 1424/3000 [1:19:59<1:07:15,  2.56s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  47%|####7     | 1424/3000 [1:19:59<1:07:15,  2.56s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  48%|####7     | 1425/3000 [1:19:59<1:03:43,  2.43s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  48%|####7     | 1425/3000 [1:19:59<1:03:43,  2.43s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  48%|####7     | 1425/3000 [1:20:02<1:03:43,  2.43s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  48%|####7     | 1425/3000 [1:20:02<1:03:43,  2.43s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  48%|####7     | 1426/3000 [1:20:02<1:06:59,  2.55s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  48%|####7     | 1426/3000 [1:20:02<1:06:59,  2.55s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  48%|####7     | 1426/3000 [1:20:06<1:06:59,  2.55s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  48%|####7     | 1426/3000 [1:20:06<1:06:59,  2.55s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  48%|####7     | 1427/3000 [1:20:06<1:22:27,  3.15s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  48%|####7     | 1427/3000 [1:20:06<1:22:27,  3.15s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  48%|####7     | 1427/3000 [1:20:08<1:22:27,  3.15s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  48%|####7     | 1427/3000 [1:20:08<1:22:27,  3.15s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  48%|####7     | 1428/3000 [1:20:08<1:14:12,  2.83s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  48%|####7     | 1428/3000 [1:20:08<1:14:12,  2.83s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  48%|####7     | 1428/3000 [1:20:10<1:14:12,  2.83s/it, lr: 1.0e-04 loss: 1.347e-01]strawbyte_v1:  48%|####7     | 1428/3000 [1:20:10<1:14:12,  2.83s/it, lr: 1.0e-04 loss: 1.347e-01]strawbyte_v1:  48%|####7     | 1429/3000 [1:20:10<1:08:24,  2.61s/it, lr: 1.0e-04 loss: 1.347e-01]strawbyte_v1:  48%|####7     | 1429/3000 [1:20:10<1:08:24,  2.61s/it, lr: 1.0e-04 loss: 1.347e-01]strawbyte_v1:  48%|####7     | 1429/3000 [1:20:15<1:08:24,  2.61s/it, lr: 1.0e-04 loss: 1.193e-01]strawbyte_v1:  48%|####7     | 1429/3000 [1:20:15<1:08:24,  2.61s/it, lr: 1.0e-04 loss: 1.193e-01]strawbyte_v1:  48%|####7     | 1430/3000 [1:20:18<1:08:21,  2.61s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  48%|####7     | 1430/3000 [1:20:18<1:08:21,  2.61s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  48%|####7     | 1431/3000 [1:20:18<54:40,  2.09s/it, lr: 1.0e-04 loss: 1.161e-01]  strawbyte_v1:  48%|####7     | 1431/3000 [1:20:18<54:40,  2.09s/it, lr: 1.0e-04 loss: 1.161e-01]  strawbyte_v1:  48%|####7     | 1431/3000 [1:20:21<54:40,  2.09s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  48%|####7     | 1431/3000 [1:20:21<54:40,  2.09s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  48%|####7     | 1432/3000 [1:20:21<1:00:15,  2.31s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  48%|####7     | 1432/3000 [1:20:21<1:00:15,  2.31s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  48%|####7     | 1432/3000 [1:20:24<1:00:15,  2.31s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####7     | 1432/3000 [1:20:24<1:00:15,  2.31s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####7     | 1433/3000 [1:20:24<1:04:49,  2.48s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####7     | 1433/3000 [1:20:24<1:04:49,  2.48s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####7     | 1433/3000 [1:20:27<1:04:49,  2.48s/it, lr: 1.0e-04 loss: 9.246e-02]strawbyte_v1:  48%|####7     | 1433/3000 [1:20:27<1:04:49,  2.48s/it, lr: 1.0e-04 loss: 9.246e-02]strawbyte_v1:  48%|####7     | 1434/3000 [1:20:27<1:10:37,  2.71s/it, lr: 1.0e-04 loss: 9.246e-02]strawbyte_v1:  48%|####7     | 1434/3000 [1:20:27<1:10:37,  2.71s/it, lr: 1.0e-04 loss: 9.246e-02]strawbyte_v1:  48%|####7     | 1434/3000 [1:20:31<1:10:37,  2.71s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  48%|####7     | 1434/3000 [1:20:31<1:10:37,  2.71s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  48%|####7     | 1435/3000 [1:20:31<1:22:59,  3.18s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  48%|####7     | 1435/3000 [1:20:31<1:22:59,  3.18s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  48%|####7     | 1435/3000 [1:20:34<1:22:59,  3.18s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  48%|####7     | 1435/3000 [1:20:34<1:22:59,  3.18s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  48%|####7     | 1436/3000 [1:20:34<1:21:28,  3.13s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  48%|####7     | 1436/3000 [1:20:34<1:21:28,  3.13s/it, lr: 1.0e-04 loss: 1.276e-01]strawbyte_v1:  48%|####7     | 1436/3000 [1:20:38<1:21:28,  3.13s/it, lr: 1.0e-04 loss: 4.698e-02]strawbyte_v1:  48%|####7     | 1436/3000 [1:20:38<1:21:28,  3.13s/it, lr: 1.0e-04 loss: 4.698e-02]strawbyte_v1:  48%|####7     | 1437/3000 [1:20:38<1:22:44,  3.18s/it, lr: 1.0e-04 loss: 4.698e-02]strawbyte_v1:  48%|####7     | 1437/3000 [1:20:38<1:22:44,  3.18s/it, lr: 1.0e-04 loss: 4.698e-02]strawbyte_v1:  48%|####7     | 1437/3000 [1:20:42<1:22:44,  3.18s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  48%|####7     | 1437/3000 [1:20:42<1:22:44,  3.18s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  48%|####7     | 1438/3000 [1:20:42<1:32:36,  3.56s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  48%|####7     | 1438/3000 [1:20:42<1:32:36,  3.56s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  48%|####7     | 1438/3000 [1:20:45<1:32:36,  3.56s/it, lr: 1.0e-04 loss: 6.741e-02]strawbyte_v1:  48%|####7     | 1438/3000 [1:20:45<1:32:36,  3.56s/it, lr: 1.0e-04 loss: 6.741e-02]strawbyte_v1:  48%|####7     | 1439/3000 [1:20:45<1:28:07,  3.39s/it, lr: 1.0e-04 loss: 6.741e-02]strawbyte_v1:  48%|####7     | 1439/3000 [1:20:45<1:28:07,  3.39s/it, lr: 1.0e-04 loss: 6.741e-02]strawbyte_v1:  48%|####7     | 1439/3000 [1:20:48<1:28:07,  3.39s/it, lr: 1.0e-04 loss: 2.125e-01]strawbyte_v1:  48%|####7     | 1439/3000 [1:20:48<1:28:07,  3.39s/it, lr: 1.0e-04 loss: 2.125e-01]strawbyte_v1:  48%|####8     | 1440/3000 [1:20:51<1:28:04,  3.39s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  48%|####8     | 1440/3000 [1:20:51<1:28:04,  3.39s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  48%|####8     | 1441/3000 [1:20:51<1:05:54,  2.54s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  48%|####8     | 1441/3000 [1:20:51<1:05:54,  2.54s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  48%|####8     | 1441/3000 [1:20:54<1:05:54,  2.54s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  48%|####8     | 1441/3000 [1:20:54<1:05:54,  2.54s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  48%|####8     | 1442/3000 [1:20:54<1:07:48,  2.61s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  48%|####8     | 1442/3000 [1:20:54<1:07:48,  2.61s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  48%|####8     | 1442/3000 [1:20:57<1:07:48,  2.61s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####8     | 1442/3000 [1:20:57<1:07:48,  2.61s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####8     | 1443/3000 [1:20:57<1:10:11,  2.70s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####8     | 1443/3000 [1:20:57<1:10:11,  2.70s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  48%|####8     | 1443/3000 [1:20:59<1:10:11,  2.70s/it, lr: 1.0e-04 loss: 1.883e-01]strawbyte_v1:  48%|####8     | 1443/3000 [1:20:59<1:10:11,  2.70s/it, lr: 1.0e-04 loss: 1.883e-01]strawbyte_v1:  48%|####8     | 1444/3000 [1:20:59<1:09:51,  2.69s/it, lr: 1.0e-04 loss: 1.883e-01]strawbyte_v1:  48%|####8     | 1444/3000 [1:20:59<1:09:51,  2.69s/it, lr: 1.0e-04 loss: 1.883e-01]strawbyte_v1:  48%|####8     | 1444/3000 [1:21:04<1:09:51,  2.69s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  48%|####8     | 1444/3000 [1:21:04<1:09:51,  2.69s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  48%|####8     | 1445/3000 [1:21:04<1:24:21,  3.25s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  48%|####8     | 1445/3000 [1:21:04<1:24:21,  3.25s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  48%|####8     | 1445/3000 [1:21:08<1:24:21,  3.25s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  48%|####8     | 1445/3000 [1:21:08<1:24:21,  3.25s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  48%|####8     | 1446/3000 [1:21:08<1:31:10,  3.52s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  48%|####8     | 1446/3000 [1:21:08<1:31:10,  3.52s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  48%|####8     | 1446/3000 [1:21:12<1:31:10,  3.52s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  48%|####8     | 1446/3000 [1:21:12<1:31:10,  3.52s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  48%|####8     | 1447/3000 [1:21:12<1:37:01,  3.75s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  48%|####8     | 1447/3000 [1:21:12<1:37:01,  3.75s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  48%|####8     | 1447/3000 [1:21:17<1:37:01,  3.75s/it, lr: 1.0e-04 loss: 9.995e-02]strawbyte_v1:  48%|####8     | 1447/3000 [1:21:17<1:37:01,  3.75s/it, lr: 1.0e-04 loss: 9.995e-02]strawbyte_v1:  48%|####8     | 1448/3000 [1:21:17<1:43:12,  3.99s/it, lr: 1.0e-04 loss: 9.995e-02]strawbyte_v1:  48%|####8     | 1448/3000 [1:21:17<1:43:12,  3.99s/it, lr: 1.0e-04 loss: 9.995e-02]strawbyte_v1:  48%|####8     | 1448/3000 [1:21:20<1:43:12,  3.99s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  48%|####8     | 1448/3000 [1:21:20<1:43:12,  3.99s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  48%|####8     | 1449/3000 [1:21:20<1:34:41,  3.66s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  48%|####8     | 1449/3000 [1:21:20<1:34:41,  3.66s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  48%|####8     | 1449/3000 [1:21:23<1:34:41,  3.66s/it, lr: 1.0e-04 loss: 1.955e-01]strawbyte_v1:  48%|####8     | 1449/3000 [1:21:23<1:34:41,  3.66s/it, lr: 1.0e-04 loss: 1.955e-01]strawbyte_v1:  48%|####8     | 1450/3000 [1:21:25<1:34:37,  3.66s/it, lr: 1.0e-04 loss: 6.756e-02]strawbyte_v1:  48%|####8     | 1450/3000 [1:21:25<1:34:37,  3.66s/it, lr: 1.0e-04 loss: 6.756e-02]strawbyte_v1:  48%|####8     | 1451/3000 [1:21:25<1:03:38,  2.46s/it, lr: 1.0e-04 loss: 6.756e-02]strawbyte_v1:  48%|####8     | 1451/3000 [1:21:25<1:03:38,  2.46s/it, lr: 1.0e-04 loss: 6.756e-02]strawbyte_v1:  48%|####8     | 1451/3000 [1:21:28<1:03:38,  2.46s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  48%|####8     | 1451/3000 [1:21:28<1:03:38,  2.46s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  48%|####8     | 1452/3000 [1:21:28<1:07:33,  2.62s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  48%|####8     | 1452/3000 [1:21:28<1:07:33,  2.62s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  48%|####8     | 1452/3000 [1:21:32<1:07:33,  2.62s/it, lr: 1.0e-04 loss: 8.202e-02]strawbyte_v1:  48%|####8     | 1452/3000 [1:21:32<1:07:33,  2.62s/it, lr: 1.0e-04 loss: 8.202e-02]strawbyte_v1:  48%|####8     | 1453/3000 [1:21:32<1:18:55,  3.06s/it, lr: 1.0e-04 loss: 8.202e-02]strawbyte_v1:  48%|####8     | 1453/3000 [1:21:32<1:18:55,  3.06s/it, lr: 1.0e-04 loss: 8.202e-02]strawbyte_v1:  48%|####8     | 1453/3000 [1:21:34<1:18:55,  3.06s/it, lr: 1.0e-04 loss: 9.350e-02]strawbyte_v1:  48%|####8     | 1453/3000 [1:21:34<1:18:55,  3.06s/it, lr: 1.0e-04 loss: 9.350e-02]strawbyte_v1:  48%|####8     | 1454/3000 [1:21:34<1:12:16,  2.81s/it, lr: 1.0e-04 loss: 9.350e-02]strawbyte_v1:  48%|####8     | 1454/3000 [1:21:34<1:12:16,  2.81s/it, lr: 1.0e-04 loss: 9.350e-02]strawbyte_v1:  48%|####8     | 1454/3000 [1:21:37<1:12:16,  2.81s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  48%|####8     | 1454/3000 [1:21:37<1:12:16,  2.81s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  48%|####8     | 1455/3000 [1:21:37<1:07:25,  2.62s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  48%|####8     | 1455/3000 [1:21:37<1:07:25,  2.62s/it, lr: 1.0e-04 loss: 2.243e-01]strawbyte_v1:  48%|####8     | 1455/3000 [1:21:40<1:07:25,  2.62s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  48%|####8     | 1455/3000 [1:21:40<1:07:25,  2.62s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  49%|####8     | 1456/3000 [1:21:40<1:10:59,  2.76s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  49%|####8     | 1456/3000 [1:21:40<1:10:59,  2.76s/it, lr: 1.0e-04 loss: 1.486e-01]strawbyte_v1:  49%|####8     | 1456/3000 [1:21:42<1:10:59,  2.76s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:  49%|####8     | 1456/3000 [1:21:42<1:10:59,  2.76s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:  49%|####8     | 1457/3000 [1:21:42<1:10:50,  2.75s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:  49%|####8     | 1457/3000 [1:21:42<1:10:50,  2.75s/it, lr: 1.0e-04 loss: 1.730e-01]strawbyte_v1:  49%|####8     | 1457/3000 [1:21:47<1:10:50,  2.75s/it, lr: 1.0e-04 loss: 9.999e-02]strawbyte_v1:  49%|####8     | 1457/3000 [1:21:47<1:10:50,  2.75s/it, lr: 1.0e-04 loss: 9.999e-02]strawbyte_v1:  49%|####8     | 1458/3000 [1:21:47<1:23:28,  3.25s/it, lr: 1.0e-04 loss: 9.999e-02]strawbyte_v1:  49%|####8     | 1458/3000 [1:21:47<1:23:28,  3.25s/it, lr: 1.0e-04 loss: 9.999e-02]strawbyte_v1:  49%|####8     | 1458/3000 [1:21:50<1:23:28,  3.25s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  49%|####8     | 1458/3000 [1:21:50<1:23:28,  3.25s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  49%|####8     | 1459/3000 [1:21:50<1:22:11,  3.20s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  49%|####8     | 1459/3000 [1:21:50<1:22:11,  3.20s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  49%|####8     | 1459/3000 [1:21:54<1:22:11,  3.20s/it, lr: 1.0e-04 loss: 9.081e-02]strawbyte_v1:  49%|####8     | 1459/3000 [1:21:54<1:22:11,  3.20s/it, lr: 1.0e-04 loss: 9.081e-02]strawbyte_v1:  49%|####8     | 1460/3000 [1:21:57<1:22:08,  3.20s/it, lr: 1.0e-04 loss: 2.105e-02]strawbyte_v1:  49%|####8     | 1460/3000 [1:21:57<1:22:08,  3.20s/it, lr: 1.0e-04 loss: 2.105e-02]strawbyte_v1:  49%|####8     | 1461/3000 [1:21:57<1:00:25,  2.36s/it, lr: 1.0e-04 loss: 2.105e-02]strawbyte_v1:  49%|####8     | 1461/3000 [1:21:57<1:00:25,  2.36s/it, lr: 1.0e-04 loss: 2.105e-02]strawbyte_v1:  49%|####8     | 1461/3000 [1:22:00<1:00:25,  2.36s/it, lr: 1.0e-04 loss: 7.980e-02]strawbyte_v1:  49%|####8     | 1461/3000 [1:22:00<1:00:25,  2.36s/it, lr: 1.0e-04 loss: 7.980e-02]strawbyte_v1:  49%|####8     | 1462/3000 [1:22:00<1:04:44,  2.53s/it, lr: 1.0e-04 loss: 7.980e-02]strawbyte_v1:  49%|####8     | 1462/3000 [1:22:00<1:04:44,  2.53s/it, lr: 1.0e-04 loss: 7.980e-02]strawbyte_v1:  49%|####8     | 1462/3000 [1:22:04<1:04:44,  2.53s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  49%|####8     | 1462/3000 [1:22:04<1:04:44,  2.53s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  49%|####8     | 1463/3000 [1:22:04<1:10:18,  2.74s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  49%|####8     | 1463/3000 [1:22:04<1:10:18,  2.74s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  49%|####8     | 1463/3000 [1:22:07<1:10:18,  2.74s/it, lr: 1.0e-04 loss: 9.825e-02]strawbyte_v1:  49%|####8     | 1463/3000 [1:22:07<1:10:18,  2.74s/it, lr: 1.0e-04 loss: 9.825e-02]strawbyte_v1:  49%|####8     | 1464/3000 [1:22:07<1:12:14,  2.82s/it, lr: 1.0e-04 loss: 9.825e-02]strawbyte_v1:  49%|####8     | 1464/3000 [1:22:07<1:12:14,  2.82s/it, lr: 1.0e-04 loss: 9.825e-02]strawbyte_v1:  49%|####8     | 1464/3000 [1:22:11<1:12:14,  2.82s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  49%|####8     | 1464/3000 [1:22:11<1:12:14,  2.82s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  49%|####8     | 1465/3000 [1:22:11<1:23:44,  3.27s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  49%|####8     | 1465/3000 [1:22:11<1:23:44,  3.27s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  49%|####8     | 1465/3000 [1:22:15<1:23:44,  3.27s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  49%|####8     | 1465/3000 [1:22:15<1:23:44,  3.27s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  49%|####8     | 1466/3000 [1:22:15<1:31:54,  3.59s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  49%|####8     | 1466/3000 [1:22:15<1:31:54,  3.59s/it, lr: 1.0e-04 loss: 1.588e-01]strawbyte_v1:  49%|####8     | 1466/3000 [1:22:20<1:31:54,  3.59s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  49%|####8     | 1466/3000 [1:22:20<1:31:54,  3.59s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  49%|####8     | 1467/3000 [1:22:20<1:39:51,  3.91s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  49%|####8     | 1467/3000 [1:22:20<1:39:51,  3.91s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  49%|####8     | 1467/3000 [1:22:23<1:39:51,  3.91s/it, lr: 1.0e-04 loss: 1.626e-01]strawbyte_v1:  49%|####8     | 1467/3000 [1:22:23<1:39:51,  3.91s/it, lr: 1.0e-04 loss: 1.626e-01]strawbyte_v1:  49%|####8     | 1468/3000 [1:22:23<1:31:03,  3.57s/it, lr: 1.0e-04 loss: 1.626e-01]strawbyte_v1:  49%|####8     | 1468/3000 [1:22:23<1:31:03,  3.57s/it, lr: 1.0e-04 loss: 1.626e-01]strawbyte_v1:  49%|####8     | 1468/3000 [1:22:26<1:31:03,  3.57s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  49%|####8     | 1468/3000 [1:22:26<1:31:03,  3.57s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  49%|####8     | 1469/3000 [1:22:26<1:26:31,  3.39s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  49%|####8     | 1469/3000 [1:22:26<1:26:31,  3.39s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  49%|####8     | 1469/3000 [1:22:28<1:26:31,  3.39s/it, lr: 1.0e-04 loss: 2.151e-01]strawbyte_v1:  49%|####8     | 1469/3000 [1:22:28<1:26:31,  3.39s/it, lr: 1.0e-04 loss: 2.151e-01]strawbyte_v1:  49%|####9     | 1470/3000 [1:22:30<1:26:28,  3.39s/it, lr: 1.0e-04 loss: 4.105e-02]strawbyte_v1:  49%|####9     | 1470/3000 [1:22:30<1:26:28,  3.39s/it, lr: 1.0e-04 loss: 4.105e-02]strawbyte_v1:  49%|####9     | 1471/3000 [1:22:30<59:08,  2.32s/it, lr: 1.0e-04 loss: 4.105e-02]  strawbyte_v1:  49%|####9     | 1471/3000 [1:22:30<59:08,  2.32s/it, lr: 1.0e-04 loss: 4.105e-02]  strawbyte_v1:  49%|####9     | 1471/3000 [1:22:35<59:08,  2.32s/it, lr: 1.0e-04 loss: 1.550e-02]strawbyte_v1:  49%|####9     | 1471/3000 [1:22:35<59:08,  2.32s/it, lr: 1.0e-04 loss: 1.550e-02]strawbyte_v1:  49%|####9     | 1472/3000 [1:22:35<1:11:47,  2.82s/it, lr: 1.0e-04 loss: 1.550e-02]strawbyte_v1:  49%|####9     | 1472/3000 [1:22:35<1:11:47,  2.82s/it, lr: 1.0e-04 loss: 1.550e-02]strawbyte_v1:  49%|####9     | 1472/3000 [1:22:39<1:11:47,  2.82s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  49%|####9     | 1472/3000 [1:22:39<1:11:47,  2.82s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  49%|####9     | 1473/3000 [1:22:39<1:22:02,  3.22s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  49%|####9     | 1473/3000 [1:22:39<1:22:02,  3.22s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  49%|####9     | 1473/3000 [1:22:41<1:22:02,  3.22s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  49%|####9     | 1473/3000 [1:22:41<1:22:02,  3.22s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  49%|####9     | 1474/3000 [1:22:41<1:16:28,  3.01s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  49%|####9     | 1474/3000 [1:22:41<1:16:28,  3.01s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  49%|####9     | 1474/3000 [1:22:44<1:16:28,  3.01s/it, lr: 1.0e-04 loss: 4.839e-02]strawbyte_v1:  49%|####9     | 1474/3000 [1:22:44<1:16:28,  3.01s/it, lr: 1.0e-04 loss: 4.839e-02]strawbyte_v1:  49%|####9     | 1475/3000 [1:22:44<1:15:28,  2.97s/it, lr: 1.0e-04 loss: 4.839e-02]strawbyte_v1:  49%|####9     | 1475/3000 [1:22:44<1:15:28,  2.97s/it, lr: 1.0e-04 loss: 4.839e-02]strawbyte_v1:  49%|####9     | 1475/3000 [1:22:49<1:15:28,  2.97s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  49%|####9     | 1475/3000 [1:22:49<1:15:28,  2.97s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  49%|####9     | 1476/3000 [1:22:49<1:25:30,  3.37s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  49%|####9     | 1476/3000 [1:22:49<1:25:30,  3.37s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  49%|####9     | 1476/3000 [1:22:53<1:25:30,  3.37s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  49%|####9     | 1476/3000 [1:22:53<1:25:30,  3.37s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  49%|####9     | 1477/3000 [1:22:53<1:34:30,  3.72s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  49%|####9     | 1477/3000 [1:22:53<1:34:30,  3.72s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  49%|####9     | 1477/3000 [1:22:56<1:34:30,  3.72s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  49%|####9     | 1477/3000 [1:22:56<1:34:30,  3.72s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  49%|####9     | 1478/3000 [1:22:56<1:28:44,  3.50s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  49%|####9     | 1478/3000 [1:22:56<1:28:44,  3.50s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  49%|####9     | 1478/3000 [1:22:59<1:28:44,  3.50s/it, lr: 1.0e-04 loss: 1.632e-01]strawbyte_v1:  49%|####9     | 1478/3000 [1:22:59<1:28:44,  3.50s/it, lr: 1.0e-04 loss: 1.632e-01]strawbyte_v1:  49%|####9     | 1479/3000 [1:22:59<1:24:53,  3.35s/it, lr: 1.0e-04 loss: 1.632e-01]strawbyte_v1:  49%|####9     | 1479/3000 [1:22:59<1:24:53,  3.35s/it, lr: 1.0e-04 loss: 1.632e-01]strawbyte_v1:  49%|####9     | 1479/3000 [1:23:02<1:24:53,  3.35s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  49%|####9     | 1479/3000 [1:23:02<1:24:53,  3.35s/it, lr: 1.0e-04 loss: 1.848e-01]strawbyte_v1:  49%|####9     | 1480/3000 [1:23:07<1:24:49,  3.35s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  49%|####9     | 1480/3000 [1:23:07<1:24:49,  3.35s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  49%|####9     | 1481/3000 [1:23:07<1:13:21,  2.90s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  49%|####9     | 1481/3000 [1:23:07<1:13:21,  2.90s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  49%|####9     | 1481/3000 [1:23:11<1:13:21,  2.90s/it, lr: 1.0e-04 loss: 1.214e-01]strawbyte_v1:  49%|####9     | 1481/3000 [1:23:11<1:13:21,  2.90s/it, lr: 1.0e-04 loss: 1.214e-01]strawbyte_v1:  49%|####9     | 1482/3000 [1:23:11<1:23:14,  3.29s/it, lr: 1.0e-04 loss: 1.214e-01]strawbyte_v1:  49%|####9     | 1482/3000 [1:23:11<1:23:14,  3.29s/it, lr: 1.0e-04 loss: 1.214e-01]strawbyte_v1:  49%|####9     | 1482/3000 [1:23:14<1:23:14,  3.29s/it, lr: 1.0e-04 loss: 2.307e-01]strawbyte_v1:  49%|####9     | 1482/3000 [1:23:14<1:23:14,  3.29s/it, lr: 1.0e-04 loss: 2.307e-01]strawbyte_v1:  49%|####9     | 1483/3000 [1:23:14<1:19:25,  3.14s/it, lr: 1.0e-04 loss: 2.307e-01]strawbyte_v1:  49%|####9     | 1483/3000 [1:23:14<1:19:25,  3.14s/it, lr: 1.0e-04 loss: 2.307e-01]strawbyte_v1:  49%|####9     | 1483/3000 [1:23:17<1:19:25,  3.14s/it, lr: 1.0e-04 loss: 4.237e-03]strawbyte_v1:  49%|####9     | 1483/3000 [1:23:17<1:19:25,  3.14s/it, lr: 1.0e-04 loss: 4.237e-03]strawbyte_v1:  49%|####9     | 1484/3000 [1:23:17<1:18:30,  3.11s/it, lr: 1.0e-04 loss: 4.237e-03]strawbyte_v1:  49%|####9     | 1484/3000 [1:23:17<1:18:30,  3.11s/it, lr: 1.0e-04 loss: 4.237e-03]strawbyte_v1:  49%|####9     | 1484/3000 [1:23:22<1:18:30,  3.11s/it, lr: 1.0e-04 loss: 1.692e-03]strawbyte_v1:  49%|####9     | 1484/3000 [1:23:22<1:18:30,  3.11s/it, lr: 1.0e-04 loss: 1.692e-03]strawbyte_v1:  50%|####9     | 1485/3000 [1:23:22<1:31:11,  3.61s/it, lr: 1.0e-04 loss: 1.692e-03]strawbyte_v1:  50%|####9     | 1485/3000 [1:23:22<1:31:11,  3.61s/it, lr: 1.0e-04 loss: 1.692e-03]strawbyte_v1:  50%|####9     | 1485/3000 [1:23:26<1:31:11,  3.61s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  50%|####9     | 1485/3000 [1:23:26<1:31:11,  3.61s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  50%|####9     | 1486/3000 [1:23:26<1:37:04,  3.85s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  50%|####9     | 1486/3000 [1:23:26<1:37:04,  3.85s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  50%|####9     | 1486/3000 [1:23:29<1:37:04,  3.85s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  50%|####9     | 1486/3000 [1:23:29<1:37:04,  3.85s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  50%|####9     | 1487/3000 [1:23:29<1:28:33,  3.51s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  50%|####9     | 1487/3000 [1:23:29<1:28:33,  3.51s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  50%|####9     | 1487/3000 [1:23:34<1:28:33,  3.51s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  50%|####9     | 1487/3000 [1:23:34<1:28:33,  3.51s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  50%|####9     | 1488/3000 [1:23:34<1:37:41,  3.88s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  50%|####9     | 1488/3000 [1:23:34<1:37:41,  3.88s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  50%|####9     | 1488/3000 [1:23:37<1:37:41,  3.88s/it, lr: 1.0e-04 loss: 6.840e-02]strawbyte_v1:  50%|####9     | 1488/3000 [1:23:37<1:37:41,  3.88s/it, lr: 1.0e-04 loss: 6.840e-02]strawbyte_v1:  50%|####9     | 1489/3000 [1:23:37<1:28:52,  3.53s/it, lr: 1.0e-04 loss: 6.840e-02]strawbyte_v1:  50%|####9     | 1489/3000 [1:23:37<1:28:52,  3.53s/it, lr: 1.0e-04 loss: 6.840e-02]strawbyte_v1:  50%|####9     | 1489/3000 [1:23:39<1:28:52,  3.53s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  50%|####9     | 1489/3000 [1:23:39<1:28:52,  3.53s/it, lr: 1.0e-04 loss: 1.795e-01]strawbyte_v1:  50%|####9     | 1490/3000 [1:23:44<1:28:48,  3.53s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  50%|####9     | 1490/3000 [1:23:44<1:28:48,  3.53s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  50%|####9     | 1491/3000 [1:23:44<1:13:50,  2.94s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  50%|####9     | 1491/3000 [1:23:44<1:13:50,  2.94s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  50%|####9     | 1491/3000 [1:23:48<1:13:50,  2.94s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:  50%|####9     | 1491/3000 [1:23:48<1:13:50,  2.94s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:  50%|####9     | 1492/3000 [1:23:48<1:24:43,  3.37s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:  50%|####9     | 1492/3000 [1:23:48<1:24:43,  3.37s/it, lr: 1.0e-04 loss: 8.142e-02]strawbyte_v1:  50%|####9     | 1492/3000 [1:23:51<1:24:43,  3.37s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  50%|####9     | 1492/3000 [1:23:51<1:24:43,  3.37s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  50%|####9     | 1493/3000 [1:23:51<1:16:19,  3.04s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  50%|####9     | 1493/3000 [1:23:51<1:16:19,  3.04s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  50%|####9     | 1493/3000 [1:23:53<1:16:19,  3.04s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  50%|####9     | 1493/3000 [1:23:53<1:16:19,  3.04s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  50%|####9     | 1494/3000 [1:23:53<1:15:02,  2.99s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  50%|####9     | 1494/3000 [1:23:53<1:15:02,  2.99s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  50%|####9     | 1494/3000 [1:23:56<1:15:02,  2.99s/it, lr: 1.0e-04 loss: 7.004e-02]strawbyte_v1:  50%|####9     | 1494/3000 [1:23:56<1:15:02,  2.99s/it, lr: 1.0e-04 loss: 7.004e-02]strawbyte_v1:  50%|####9     | 1495/3000 [1:23:56<1:14:23,  2.97s/it, lr: 1.0e-04 loss: 7.004e-02]strawbyte_v1:  50%|####9     | 1495/3000 [1:23:56<1:14:23,  2.97s/it, lr: 1.0e-04 loss: 7.004e-02]strawbyte_v1:  50%|####9     | 1495/3000 [1:24:01<1:14:23,  2.97s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  50%|####9     | 1495/3000 [1:24:01<1:14:23,  2.97s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  50%|####9     | 1496/3000 [1:24:01<1:25:49,  3.42s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  50%|####9     | 1496/3000 [1:24:01<1:25:49,  3.42s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  50%|####9     | 1496/3000 [1:24:05<1:25:49,  3.42s/it, lr: 1.0e-04 loss: 9.177e-02]strawbyte_v1:  50%|####9     | 1496/3000 [1:24:05<1:25:49,  3.42s/it, lr: 1.0e-04 loss: 9.177e-02]strawbyte_v1:  50%|####9     | 1497/3000 [1:24:05<1:32:30,  3.69s/it, lr: 1.0e-04 loss: 9.177e-02]strawbyte_v1:  50%|####9     | 1497/3000 [1:24:05<1:32:30,  3.69s/it, lr: 1.0e-04 loss: 9.177e-02]strawbyte_v1:  50%|####9     | 1497/3000 [1:24:08<1:32:30,  3.69s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  50%|####9     | 1497/3000 [1:24:08<1:32:30,  3.69s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  50%|####9     | 1498/3000 [1:24:08<1:25:29,  3.42s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  50%|####9     | 1498/3000 [1:24:08<1:25:29,  3.42s/it, lr: 1.0e-04 loss: 1.831e-01]strawbyte_v1:  50%|####9     | 1498/3000 [1:24:12<1:25:29,  3.42s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  50%|####9     | 1498/3000 [1:24:12<1:25:29,  3.42s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  50%|####9     | 1499/3000 [1:24:12<1:33:36,  3.74s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  50%|####9     | 1499/3000 [1:24:12<1:33:36,  3.74s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  50%|####9     | 1499/3000 [1:24:15<1:33:36,  3.74s/it, lr: 1.0e-04 loss: 1.053e-01]strawbyte_v1:  50%|####9     | 1499/3000 [1:24:15<1:33:36,  3.74s/it, lr: 1.0e-04 loss: 1.053e-01]
+Saving at step 1500
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001500.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+Removing old save: /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000000500.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:12<03:36, 72.11s/it]Generating Images:  25%|##5       | 1/4 [01:12<03:36, 72.11s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:26<02:27, 73.71s/it]Generating Images:  50%|#####     | 2/4 [02:26<02:27, 73.71s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:41<01:14, 74.30s/it]Generating Images:  75%|#######5  | 3/4 [03:41<01:14, 74.30s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.56s/it]Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.56s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  50%|#####     | 1500/3000 [1:24:20<1:33:32,  3.74s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  50%|#####     | 1500/3000 [1:24:20<1:33:32,  3.74s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  50%|#####     | 1501/3000 [1:24:20<1:17:28,  3.10s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  50%|#####     | 1501/3000 [1:24:20<1:17:28,  3.10s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  50%|#####     | 1501/3000 [1:24:24<1:17:28,  3.10s/it, lr: 1.0e-04 loss: 4.986e-02]strawbyte_v1:  50%|#####     | 1501/3000 [1:24:24<1:17:28,  3.10s/it, lr: 1.0e-04 loss: 4.986e-02]strawbyte_v1:  50%|#####     | 1502/3000 [1:24:24<1:24:46,  3.40s/it, lr: 1.0e-04 loss: 4.986e-02]strawbyte_v1:  50%|#####     | 1502/3000 [1:24:24<1:24:46,  3.40s/it, lr: 1.0e-04 loss: 4.986e-02]strawbyte_v1:  50%|#####     | 1502/3000 [1:24:27<1:24:46,  3.40s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  50%|#####     | 1502/3000 [1:24:27<1:24:46,  3.40s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  50%|#####     | 1503/3000 [1:24:27<1:16:16,  3.06s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  50%|#####     | 1503/3000 [1:24:27<1:16:16,  3.06s/it, lr: 1.0e-04 loss: 1.678e-01]strawbyte_v1:  50%|#####     | 1503/3000 [1:24:29<1:16:16,  3.06s/it, lr: 1.0e-04 loss: 2.119e-01]strawbyte_v1:  50%|#####     | 1503/3000 [1:24:29<1:16:16,  3.06s/it, lr: 1.0e-04 loss: 2.119e-01]strawbyte_v1:  50%|#####     | 1504/3000 [1:24:29<1:14:59,  3.01s/it, lr: 1.0e-04 loss: 2.119e-01]strawbyte_v1:  50%|#####     | 1504/3000 [1:24:29<1:14:59,  3.01s/it, lr: 1.0e-04 loss: 2.119e-01]strawbyte_v1:  50%|#####     | 1504/3000 [1:24:34<1:14:59,  3.01s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  50%|#####     | 1504/3000 [1:24:34<1:14:59,  3.01s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  50%|#####     | 1505/3000 [1:24:34<1:25:03,  3.41s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  50%|#####     | 1505/3000 [1:24:34<1:25:03,  3.41s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  50%|#####     | 1505/3000 [1:24:37<1:25:03,  3.41s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  50%|#####     | 1505/3000 [1:24:37<1:25:03,  3.41s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  50%|#####     | 1506/3000 [1:24:37<1:21:52,  3.29s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  50%|#####     | 1506/3000 [1:24:37<1:21:52,  3.29s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  50%|#####     | 1506/3000 [1:24:42<1:21:52,  3.29s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  50%|#####     | 1506/3000 [1:24:42<1:21:52,  3.29s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  50%|#####     | 1507/3000 [1:24:42<1:32:02,  3.70s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  50%|#####     | 1507/3000 [1:24:42<1:32:02,  3.70s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  50%|#####     | 1507/3000 [1:24:45<1:32:02,  3.70s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  50%|#####     | 1507/3000 [1:24:45<1:32:02,  3.70s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  50%|#####     | 1508/3000 [1:24:45<1:26:44,  3.49s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  50%|#####     | 1508/3000 [1:24:45<1:26:44,  3.49s/it, lr: 1.0e-04 loss: 1.481e-01]strawbyte_v1:  50%|#####     | 1508/3000 [1:24:47<1:26:44,  3.49s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  50%|#####     | 1508/3000 [1:24:47<1:26:44,  3.49s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  50%|#####     | 1509/3000 [1:24:47<1:21:04,  3.26s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  50%|#####     | 1509/3000 [1:24:47<1:21:04,  3.26s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  50%|#####     | 1509/3000 [1:24:50<1:21:04,  3.26s/it, lr: 1.0e-04 loss: 2.189e-01]strawbyte_v1:  50%|#####     | 1509/3000 [1:24:50<1:21:04,  3.26s/it, lr: 1.0e-04 loss: 2.189e-01]strawbyte_v1:  50%|#####     | 1510/3000 [1:24:55<1:21:01,  3.26s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  50%|#####     | 1510/3000 [1:24:55<1:21:01,  3.26s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  50%|#####     | 1511/3000 [1:24:55<1:11:06,  2.87s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  50%|#####     | 1511/3000 [1:24:55<1:11:06,  2.87s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  50%|#####     | 1511/3000 [1:24:58<1:11:06,  2.87s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  50%|#####     | 1511/3000 [1:24:58<1:11:06,  2.87s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  50%|#####     | 1512/3000 [1:24:58<1:12:00,  2.90s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  50%|#####     | 1512/3000 [1:24:58<1:12:00,  2.90s/it, lr: 1.0e-04 loss: 1.910e-01]strawbyte_v1:  50%|#####     | 1512/3000 [1:25:02<1:12:00,  2.90s/it, lr: 1.0e-04 loss: 2.811e-02]strawbyte_v1:  50%|#####     | 1512/3000 [1:25:02<1:12:00,  2.90s/it, lr: 1.0e-04 loss: 2.811e-02]strawbyte_v1:  50%|#####     | 1513/3000 [1:25:02<1:22:15,  3.32s/it, lr: 1.0e-04 loss: 2.811e-02]strawbyte_v1:  50%|#####     | 1513/3000 [1:25:02<1:22:15,  3.32s/it, lr: 1.0e-04 loss: 2.811e-02]strawbyte_v1:  50%|#####     | 1513/3000 [1:25:05<1:22:15,  3.32s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  50%|#####     | 1513/3000 [1:25:05<1:22:15,  3.32s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  50%|#####     | 1514/3000 [1:25:05<1:19:57,  3.23s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  50%|#####     | 1514/3000 [1:25:05<1:19:57,  3.23s/it, lr: 1.0e-04 loss: 1.472e-01]strawbyte_v1:  50%|#####     | 1514/3000 [1:25:09<1:19:57,  3.23s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  50%|#####     | 1514/3000 [1:25:09<1:19:57,  3.23s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  50%|#####     | 1515/3000 [1:25:09<1:20:29,  3.25s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  50%|#####     | 1515/3000 [1:25:09<1:20:29,  3.25s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  50%|#####     | 1515/3000 [1:25:12<1:20:29,  3.25s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  50%|#####     | 1515/3000 [1:25:12<1:20:29,  3.25s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  51%|#####     | 1516/3000 [1:25:12<1:18:45,  3.18s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  51%|#####     | 1516/3000 [1:25:12<1:18:45,  3.18s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  51%|#####     | 1516/3000 [1:25:16<1:18:45,  3.18s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  51%|#####     | 1516/3000 [1:25:16<1:18:45,  3.18s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  51%|#####     | 1517/3000 [1:25:16<1:27:40,  3.55s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  51%|#####     | 1517/3000 [1:25:16<1:27:40,  3.55s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  51%|#####     | 1517/3000 [1:25:19<1:27:40,  3.55s/it, lr: 1.0e-04 loss: 2.617e-02]strawbyte_v1:  51%|#####     | 1517/3000 [1:25:19<1:27:40,  3.55s/it, lr: 1.0e-04 loss: 2.617e-02]strawbyte_v1:  51%|#####     | 1518/3000 [1:25:19<1:24:23,  3.42s/it, lr: 1.0e-04 loss: 2.617e-02]strawbyte_v1:  51%|#####     | 1518/3000 [1:25:19<1:24:23,  3.42s/it, lr: 1.0e-04 loss: 2.617e-02]strawbyte_v1:  51%|#####     | 1518/3000 [1:25:21<1:24:23,  3.42s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  51%|#####     | 1518/3000 [1:25:21<1:24:23,  3.42s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  51%|#####     | 1519/3000 [1:25:21<1:14:49,  3.03s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  51%|#####     | 1519/3000 [1:25:21<1:14:49,  3.03s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  51%|#####     | 1519/3000 [1:25:26<1:14:49,  3.03s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  51%|#####     | 1519/3000 [1:25:26<1:14:49,  3.03s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  51%|#####     | 1520/3000 [1:25:28<1:14:46,  3.03s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  51%|#####     | 1520/3000 [1:25:28<1:14:46,  3.03s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  51%|#####     | 1521/3000 [1:25:28<56:44,  2.30s/it, lr: 1.0e-04 loss: 1.041e-01]  strawbyte_v1:  51%|#####     | 1521/3000 [1:25:28<56:44,  2.30s/it, lr: 1.0e-04 loss: 1.041e-01]  strawbyte_v1:  51%|#####     | 1521/3000 [1:25:31<56:44,  2.30s/it, lr: 1.0e-04 loss: 1.842e-01]strawbyte_v1:  51%|#####     | 1521/3000 [1:25:31<56:44,  2.30s/it, lr: 1.0e-04 loss: 1.842e-01]strawbyte_v1:  51%|#####     | 1522/3000 [1:25:31<57:14,  2.32s/it, lr: 1.0e-04 loss: 1.842e-01]strawbyte_v1:  51%|#####     | 1522/3000 [1:25:31<57:14,  2.32s/it, lr: 1.0e-04 loss: 1.842e-01]strawbyte_v1:  51%|#####     | 1522/3000 [1:25:35<57:14,  2.32s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  51%|#####     | 1522/3000 [1:25:35<57:14,  2.32s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  51%|#####     | 1523/3000 [1:25:35<1:10:06,  2.85s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  51%|#####     | 1523/3000 [1:25:35<1:10:06,  2.85s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  51%|#####     | 1523/3000 [1:25:37<1:10:06,  2.85s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  51%|#####     | 1523/3000 [1:25:37<1:10:06,  2.85s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  51%|#####     | 1524/3000 [1:25:37<1:05:02,  2.64s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  51%|#####     | 1524/3000 [1:25:37<1:05:02,  2.64s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  51%|#####     | 1524/3000 [1:25:42<1:05:02,  2.64s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  51%|#####     | 1524/3000 [1:25:42<1:05:02,  2.64s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  51%|#####     | 1525/3000 [1:25:42<1:17:03,  3.13s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  51%|#####     | 1525/3000 [1:25:42<1:17:03,  3.13s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  51%|#####     | 1525/3000 [1:25:46<1:17:03,  3.13s/it, lr: 1.0e-04 loss: 7.750e-02]strawbyte_v1:  51%|#####     | 1525/3000 [1:25:46<1:17:03,  3.13s/it, lr: 1.0e-04 loss: 7.750e-02]strawbyte_v1:  51%|#####     | 1526/3000 [1:25:46<1:27:03,  3.54s/it, lr: 1.0e-04 loss: 7.750e-02]strawbyte_v1:  51%|#####     | 1526/3000 [1:25:46<1:27:03,  3.54s/it, lr: 1.0e-04 loss: 7.750e-02]strawbyte_v1:  51%|#####     | 1526/3000 [1:25:49<1:27:03,  3.54s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  51%|#####     | 1526/3000 [1:25:49<1:27:03,  3.54s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  51%|#####     | 1527/3000 [1:25:49<1:22:30,  3.36s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  51%|#####     | 1527/3000 [1:25:49<1:22:30,  3.36s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  51%|#####     | 1527/3000 [1:25:54<1:22:30,  3.36s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  51%|#####     | 1527/3000 [1:25:54<1:22:30,  3.36s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  51%|#####     | 1528/3000 [1:25:54<1:30:21,  3.68s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  51%|#####     | 1528/3000 [1:25:54<1:30:21,  3.68s/it, lr: 1.0e-04 loss: 9.610e-02]strawbyte_v1:  51%|#####     | 1528/3000 [1:25:57<1:30:21,  3.68s/it, lr: 1.0e-04 loss: 4.356e-02]strawbyte_v1:  51%|#####     | 1528/3000 [1:25:57<1:30:21,  3.68s/it, lr: 1.0e-04 loss: 4.356e-02]strawbyte_v1:  51%|#####     | 1529/3000 [1:25:57<1:26:10,  3.51s/it, lr: 1.0e-04 loss: 4.356e-02]strawbyte_v1:  51%|#####     | 1529/3000 [1:25:57<1:26:10,  3.51s/it, lr: 1.0e-04 loss: 4.356e-02]strawbyte_v1:  51%|#####     | 1529/3000 [1:26:00<1:26:10,  3.51s/it, lr: 1.0e-04 loss: 1.170e-01]strawbyte_v1:  51%|#####     | 1529/3000 [1:26:00<1:26:10,  3.51s/it, lr: 1.0e-04 loss: 1.170e-01]strawbyte_v1:  51%|#####1    | 1530/3000 [1:26:03<1:26:06,  3.51s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  51%|#####1    | 1530/3000 [1:26:03<1:26:06,  3.51s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  51%|#####1    | 1531/3000 [1:26:03<1:03:47,  2.61s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  51%|#####1    | 1531/3000 [1:26:03<1:03:47,  2.61s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  51%|#####1    | 1531/3000 [1:26:06<1:03:47,  2.61s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  51%|#####1    | 1531/3000 [1:26:06<1:03:47,  2.61s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  51%|#####1    | 1532/3000 [1:26:06<1:06:00,  2.70s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  51%|#####1    | 1532/3000 [1:26:06<1:06:00,  2.70s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  51%|#####1    | 1532/3000 [1:26:09<1:06:00,  2.70s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  51%|#####1    | 1532/3000 [1:26:09<1:06:00,  2.70s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  51%|#####1    | 1533/3000 [1:26:09<1:10:28,  2.88s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  51%|#####1    | 1533/3000 [1:26:09<1:10:28,  2.88s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  51%|#####1    | 1533/3000 [1:26:14<1:10:28,  2.88s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  51%|#####1    | 1533/3000 [1:26:14<1:10:28,  2.88s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  51%|#####1    | 1534/3000 [1:26:14<1:20:34,  3.30s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  51%|#####1    | 1534/3000 [1:26:14<1:20:34,  3.30s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  51%|#####1    | 1534/3000 [1:26:17<1:20:34,  3.30s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  51%|#####1    | 1534/3000 [1:26:17<1:20:34,  3.30s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  51%|#####1    | 1535/3000 [1:26:17<1:18:47,  3.23s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  51%|#####1    | 1535/3000 [1:26:17<1:18:47,  3.23s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  51%|#####1    | 1535/3000 [1:26:21<1:18:47,  3.23s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:  51%|#####1    | 1535/3000 [1:26:21<1:18:47,  3.23s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:  51%|#####1    | 1536/3000 [1:26:21<1:29:35,  3.67s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:  51%|#####1    | 1536/3000 [1:26:21<1:29:35,  3.67s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:  51%|#####1    | 1536/3000 [1:26:26<1:29:35,  3.67s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  51%|#####1    | 1536/3000 [1:26:26<1:29:35,  3.67s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  51%|#####1    | 1537/3000 [1:26:26<1:34:48,  3.89s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  51%|#####1    | 1537/3000 [1:26:26<1:34:48,  3.89s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  51%|#####1    | 1537/3000 [1:26:29<1:34:48,  3.89s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  51%|#####1    | 1537/3000 [1:26:29<1:34:48,  3.89s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  51%|#####1    | 1538/3000 [1:26:29<1:26:36,  3.55s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  51%|#####1    | 1538/3000 [1:26:29<1:26:36,  3.55s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  51%|#####1    | 1538/3000 [1:26:32<1:26:36,  3.55s/it, lr: 1.0e-04 loss: 3.715e-02]strawbyte_v1:  51%|#####1    | 1538/3000 [1:26:32<1:26:36,  3.55s/it, lr: 1.0e-04 loss: 3.715e-02]strawbyte_v1:  51%|#####1    | 1539/3000 [1:26:32<1:22:52,  3.40s/it, lr: 1.0e-04 loss: 3.715e-02]strawbyte_v1:  51%|#####1    | 1539/3000 [1:26:32<1:22:52,  3.40s/it, lr: 1.0e-04 loss: 3.715e-02]strawbyte_v1:  51%|#####1    | 1539/3000 [1:26:35<1:22:52,  3.40s/it, lr: 1.0e-04 loss: 1.028e-01]strawbyte_v1:  51%|#####1    | 1539/3000 [1:26:35<1:22:52,  3.40s/it, lr: 1.0e-04 loss: 1.028e-01]strawbyte_v1:  51%|#####1    | 1540/3000 [1:26:38<1:22:48,  3.40s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  51%|#####1    | 1540/3000 [1:26:38<1:22:48,  3.40s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  51%|#####1    | 1541/3000 [1:26:38<1:01:03,  2.51s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  51%|#####1    | 1541/3000 [1:26:38<1:01:03,  2.51s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  51%|#####1    | 1541/3000 [1:26:40<1:01:03,  2.51s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  51%|#####1    | 1541/3000 [1:26:40<1:01:03,  2.51s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  51%|#####1    | 1542/3000 [1:26:40<58:30,  2.41s/it, lr: 1.0e-04 loss: 1.623e-01]  strawbyte_v1:  51%|#####1    | 1542/3000 [1:26:40<58:30,  2.41s/it, lr: 1.0e-04 loss: 1.623e-01]  strawbyte_v1:  51%|#####1    | 1542/3000 [1:26:42<58:30,  2.41s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  51%|#####1    | 1542/3000 [1:26:42<58:30,  2.41s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  51%|#####1    | 1543/3000 [1:26:42<56:29,  2.33s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  51%|#####1    | 1543/3000 [1:26:42<56:29,  2.33s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  51%|#####1    | 1543/3000 [1:26:44<56:29,  2.33s/it, lr: 1.0e-04 loss: 1.071e-01]strawbyte_v1:  51%|#####1    | 1543/3000 [1:26:44<56:29,  2.33s/it, lr: 1.0e-04 loss: 1.071e-01]strawbyte_v1:  51%|#####1    | 1544/3000 [1:26:44<56:49,  2.34s/it, lr: 1.0e-04 loss: 1.071e-01]strawbyte_v1:  51%|#####1    | 1544/3000 [1:26:44<56:49,  2.34s/it, lr: 1.0e-04 loss: 1.071e-01]strawbyte_v1:  51%|#####1    | 1544/3000 [1:26:46<56:49,  2.34s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  51%|#####1    | 1544/3000 [1:26:46<56:49,  2.34s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  52%|#####1    | 1545/3000 [1:26:46<55:06,  2.27s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  52%|#####1    | 1545/3000 [1:26:46<55:06,  2.27s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  52%|#####1    | 1545/3000 [1:26:51<55:06,  2.27s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  52%|#####1    | 1545/3000 [1:26:51<55:06,  2.27s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  52%|#####1    | 1546/3000 [1:26:51<1:09:45,  2.88s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  52%|#####1    | 1546/3000 [1:26:51<1:09:45,  2.88s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  52%|#####1    | 1546/3000 [1:26:55<1:09:45,  2.88s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  52%|#####1    | 1546/3000 [1:26:55<1:09:45,  2.88s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  52%|#####1    | 1547/3000 [1:26:55<1:21:25,  3.36s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  52%|#####1    | 1547/3000 [1:26:55<1:21:25,  3.36s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  52%|#####1    | 1547/3000 [1:26:57<1:21:25,  3.36s/it, lr: 1.0e-04 loss: 6.959e-02]strawbyte_v1:  52%|#####1    | 1547/3000 [1:26:57<1:21:25,  3.36s/it, lr: 1.0e-04 loss: 6.959e-02]strawbyte_v1:  52%|#####1    | 1548/3000 [1:26:57<1:12:16,  2.99s/it, lr: 1.0e-04 loss: 6.959e-02]strawbyte_v1:  52%|#####1    | 1548/3000 [1:26:57<1:12:16,  2.99s/it, lr: 1.0e-04 loss: 6.959e-02]strawbyte_v1:  52%|#####1    | 1548/3000 [1:27:02<1:12:16,  2.99s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  52%|#####1    | 1548/3000 [1:27:02<1:12:16,  2.99s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  52%|#####1    | 1549/3000 [1:27:02<1:22:09,  3.40s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  52%|#####1    | 1549/3000 [1:27:02<1:22:09,  3.40s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  52%|#####1    | 1549/3000 [1:27:05<1:22:09,  3.40s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  52%|#####1    | 1549/3000 [1:27:05<1:22:09,  3.40s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  52%|#####1    | 1550/3000 [1:27:07<1:22:06,  3.40s/it, lr: 1.0e-04 loss: 3.427e-02]strawbyte_v1:  52%|#####1    | 1550/3000 [1:27:07<1:22:06,  3.40s/it, lr: 1.0e-04 loss: 3.427e-02]strawbyte_v1:  52%|#####1    | 1551/3000 [1:27:07<57:57,  2.40s/it, lr: 1.0e-04 loss: 3.427e-02]  strawbyte_v1:  52%|#####1    | 1551/3000 [1:27:07<57:57,  2.40s/it, lr: 1.0e-04 loss: 3.427e-02]  strawbyte_v1:  52%|#####1    | 1551/3000 [1:27:10<57:57,  2.40s/it, lr: 1.0e-04 loss: 2.145e-02]strawbyte_v1:  52%|#####1    | 1551/3000 [1:27:10<57:57,  2.40s/it, lr: 1.0e-04 loss: 2.145e-02]strawbyte_v1:  52%|#####1    | 1552/3000 [1:27:10<1:01:18,  2.54s/it, lr: 1.0e-04 loss: 2.145e-02]strawbyte_v1:  52%|#####1    | 1552/3000 [1:27:10<1:01:18,  2.54s/it, lr: 1.0e-04 loss: 2.145e-02]strawbyte_v1:  52%|#####1    | 1552/3000 [1:27:13<1:01:18,  2.54s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  52%|#####1    | 1552/3000 [1:27:13<1:01:18,  2.54s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  52%|#####1    | 1553/3000 [1:27:13<1:04:15,  2.66s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  52%|#####1    | 1553/3000 [1:27:13<1:04:15,  2.66s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  52%|#####1    | 1553/3000 [1:27:16<1:04:15,  2.66s/it, lr: 1.0e-04 loss: 1.129e-01]strawbyte_v1:  52%|#####1    | 1553/3000 [1:27:16<1:04:15,  2.66s/it, lr: 1.0e-04 loss: 1.129e-01]strawbyte_v1:  52%|#####1    | 1554/3000 [1:27:16<1:08:12,  2.83s/it, lr: 1.0e-04 loss: 1.129e-01]strawbyte_v1:  52%|#####1    | 1554/3000 [1:27:16<1:08:12,  2.83s/it, lr: 1.0e-04 loss: 1.129e-01]strawbyte_v1:  52%|#####1    | 1554/3000 [1:27:19<1:08:12,  2.83s/it, lr: 1.0e-04 loss: 6.933e-02]strawbyte_v1:  52%|#####1    | 1554/3000 [1:27:19<1:08:12,  2.83s/it, lr: 1.0e-04 loss: 6.933e-02]strawbyte_v1:  52%|#####1    | 1555/3000 [1:27:19<1:09:22,  2.88s/it, lr: 1.0e-04 loss: 6.933e-02]strawbyte_v1:  52%|#####1    | 1555/3000 [1:27:19<1:09:22,  2.88s/it, lr: 1.0e-04 loss: 6.933e-02]strawbyte_v1:  52%|#####1    | 1555/3000 [1:27:22<1:09:22,  2.88s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  52%|#####1    | 1555/3000 [1:27:22<1:09:22,  2.88s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  52%|#####1    | 1556/3000 [1:27:22<1:10:08,  2.91s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  52%|#####1    | 1556/3000 [1:27:22<1:10:08,  2.91s/it, lr: 1.0e-04 loss: 1.037e-01]strawbyte_v1:  52%|#####1    | 1556/3000 [1:27:25<1:10:08,  2.91s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  52%|#####1    | 1556/3000 [1:27:25<1:10:08,  2.91s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  52%|#####1    | 1557/3000 [1:27:25<1:08:52,  2.86s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  52%|#####1    | 1557/3000 [1:27:25<1:08:52,  2.86s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  52%|#####1    | 1557/3000 [1:27:30<1:08:52,  2.86s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  52%|#####1    | 1557/3000 [1:27:30<1:08:52,  2.86s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  52%|#####1    | 1558/3000 [1:27:30<1:22:01,  3.41s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  52%|#####1    | 1558/3000 [1:27:30<1:22:01,  3.41s/it, lr: 1.0e-04 loss: 1.154e-01]strawbyte_v1:  52%|#####1    | 1558/3000 [1:27:33<1:22:01,  3.41s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  52%|#####1    | 1558/3000 [1:27:33<1:22:01,  3.41s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  52%|#####1    | 1559/3000 [1:27:33<1:18:57,  3.29s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  52%|#####1    | 1559/3000 [1:27:33<1:18:57,  3.29s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  52%|#####1    | 1559/3000 [1:27:37<1:18:57,  3.29s/it, lr: 1.0e-04 loss: 5.761e-02]strawbyte_v1:  52%|#####1    | 1559/3000 [1:27:37<1:18:57,  3.29s/it, lr: 1.0e-04 loss: 5.761e-02]strawbyte_v1:  52%|#####2    | 1560/3000 [1:27:40<1:18:54,  3.29s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  52%|#####2    | 1560/3000 [1:27:40<1:18:54,  3.29s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  52%|#####2    | 1561/3000 [1:27:40<59:20,  2.47s/it, lr: 1.0e-04 loss: 1.176e-01]  strawbyte_v1:  52%|#####2    | 1561/3000 [1:27:40<59:20,  2.47s/it, lr: 1.0e-04 loss: 1.176e-01]  strawbyte_v1:  52%|#####2    | 1561/3000 [1:27:43<59:20,  2.47s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:  52%|#####2    | 1561/3000 [1:27:43<59:20,  2.47s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:  52%|#####2    | 1562/3000 [1:27:43<1:02:56,  2.63s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:  52%|#####2    | 1562/3000 [1:27:43<1:02:56,  2.63s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:  52%|#####2    | 1562/3000 [1:27:46<1:02:56,  2.63s/it, lr: 1.0e-04 loss: 8.200e-02]strawbyte_v1:  52%|#####2    | 1562/3000 [1:27:46<1:02:56,  2.63s/it, lr: 1.0e-04 loss: 8.200e-02]strawbyte_v1:  52%|#####2    | 1563/3000 [1:27:46<1:03:29,  2.65s/it, lr: 1.0e-04 loss: 8.200e-02]strawbyte_v1:  52%|#####2    | 1563/3000 [1:27:46<1:03:29,  2.65s/it, lr: 1.0e-04 loss: 8.200e-02]strawbyte_v1:  52%|#####2    | 1563/3000 [1:27:49<1:03:29,  2.65s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  52%|#####2    | 1563/3000 [1:27:49<1:03:29,  2.65s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  52%|#####2    | 1564/3000 [1:27:49<1:05:35,  2.74s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  52%|#####2    | 1564/3000 [1:27:49<1:05:35,  2.74s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  52%|#####2    | 1564/3000 [1:27:52<1:05:35,  2.74s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  52%|#####2    | 1564/3000 [1:27:52<1:05:35,  2.74s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  52%|#####2    | 1565/3000 [1:27:52<1:07:51,  2.84s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  52%|#####2    | 1565/3000 [1:27:52<1:07:51,  2.84s/it, lr: 1.0e-04 loss: 1.722e-01]strawbyte_v1:  52%|#####2    | 1565/3000 [1:27:55<1:07:51,  2.84s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  52%|#####2    | 1565/3000 [1:27:55<1:07:51,  2.84s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  52%|#####2    | 1566/3000 [1:27:55<1:05:56,  2.76s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  52%|#####2    | 1566/3000 [1:27:55<1:05:56,  2.76s/it, lr: 1.0e-04 loss: 1.469e-01]strawbyte_v1:  52%|#####2    | 1566/3000 [1:27:59<1:05:56,  2.76s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  52%|#####2    | 1566/3000 [1:27:59<1:05:56,  2.76s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  52%|#####2    | 1567/3000 [1:27:59<1:16:41,  3.21s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  52%|#####2    | 1567/3000 [1:27:59<1:16:41,  3.21s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  52%|#####2    | 1567/3000 [1:28:02<1:16:41,  3.21s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  52%|#####2    | 1567/3000 [1:28:02<1:16:41,  3.21s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  52%|#####2    | 1568/3000 [1:28:02<1:14:31,  3.12s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  52%|#####2    | 1568/3000 [1:28:02<1:14:31,  3.12s/it, lr: 1.0e-04 loss: 1.194e-01]strawbyte_v1:  52%|#####2    | 1568/3000 [1:28:04<1:14:31,  3.12s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  52%|#####2    | 1568/3000 [1:28:04<1:14:31,  3.12s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  52%|#####2    | 1569/3000 [1:28:04<1:09:29,  2.91s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  52%|#####2    | 1569/3000 [1:28:04<1:09:29,  2.91s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  52%|#####2    | 1569/3000 [1:28:07<1:09:29,  2.91s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  52%|#####2    | 1569/3000 [1:28:07<1:09:29,  2.91s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  52%|#####2    | 1570/3000 [1:28:09<1:09:26,  2.91s/it, lr: 1.0e-04 loss: 1.725e-01]strawbyte_v1:  52%|#####2    | 1570/3000 [1:28:09<1:09:26,  2.91s/it, lr: 1.0e-04 loss: 1.725e-01]strawbyte_v1:  52%|#####2    | 1571/3000 [1:28:09<49:07,  2.06s/it, lr: 1.0e-04 loss: 1.725e-01]  strawbyte_v1:  52%|#####2    | 1571/3000 [1:28:09<49:07,  2.06s/it, lr: 1.0e-04 loss: 1.725e-01]  strawbyte_v1:  52%|#####2    | 1571/3000 [1:28:11<49:07,  2.06s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  52%|#####2    | 1571/3000 [1:28:11<49:07,  2.06s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  52%|#####2    | 1572/3000 [1:28:11<49:14,  2.07s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  52%|#####2    | 1572/3000 [1:28:11<49:14,  2.07s/it, lr: 1.0e-04 loss: 1.787e-01]strawbyte_v1:  52%|#####2    | 1572/3000 [1:28:16<49:14,  2.07s/it, lr: 1.0e-04 loss: 9.888e-02]strawbyte_v1:  52%|#####2    | 1572/3000 [1:28:16<49:14,  2.07s/it, lr: 1.0e-04 loss: 9.888e-02]strawbyte_v1:  52%|#####2    | 1573/3000 [1:28:16<1:04:50,  2.73s/it, lr: 1.0e-04 loss: 9.888e-02]strawbyte_v1:  52%|#####2    | 1573/3000 [1:28:16<1:04:50,  2.73s/it, lr: 1.0e-04 loss: 9.888e-02]strawbyte_v1:  52%|#####2    | 1573/3000 [1:28:18<1:04:50,  2.73s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  52%|#####2    | 1573/3000 [1:28:18<1:04:50,  2.73s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  52%|#####2    | 1574/3000 [1:28:18<1:00:40,  2.55s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  52%|#####2    | 1574/3000 [1:28:18<1:00:40,  2.55s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  52%|#####2    | 1574/3000 [1:28:20<1:00:40,  2.55s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:  52%|#####2    | 1574/3000 [1:28:20<1:00:40,  2.55s/it, lr: 1.0e-04 loss: 1.585e-01]strawbyte_v1:  52%|#####2    | 1575/3000 [1:28:20<57:30,  2.42s/it, lr: 1.0e-04 loss: 1.585e-01]  strawbyte_v1:  52%|#####2    | 1575/3000 [1:28:20<57:30,  2.42s/it, lr: 1.0e-04 loss: 1.585e-01]  strawbyte_v1:  52%|#####2    | 1575/3000 [1:28:25<57:30,  2.42s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  52%|#####2    | 1575/3000 [1:28:25<57:30,  2.42s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  53%|#####2    | 1576/3000 [1:28:25<1:10:47,  2.98s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  53%|#####2    | 1576/3000 [1:28:25<1:10:47,  2.98s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  53%|#####2    | 1576/3000 [1:28:27<1:10:47,  2.98s/it, lr: 1.0e-04 loss: 1.189e-01]strawbyte_v1:  53%|#####2    | 1576/3000 [1:28:27<1:10:47,  2.98s/it, lr: 1.0e-04 loss: 1.189e-01]strawbyte_v1:  53%|#####2    | 1577/3000 [1:28:27<1:10:20,  2.97s/it, lr: 1.0e-04 loss: 1.189e-01]strawbyte_v1:  53%|#####2    | 1577/3000 [1:28:27<1:10:20,  2.97s/it, lr: 1.0e-04 loss: 1.189e-01]strawbyte_v1:  53%|#####2    | 1577/3000 [1:28:30<1:10:20,  2.97s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  53%|#####2    | 1577/3000 [1:28:30<1:10:20,  2.97s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  53%|#####2    | 1578/3000 [1:28:30<1:08:28,  2.89s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  53%|#####2    | 1578/3000 [1:28:30<1:08:28,  2.89s/it, lr: 1.0e-04 loss: 1.063e-01]strawbyte_v1:  53%|#####2    | 1578/3000 [1:28:33<1:08:28,  2.89s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  53%|#####2    | 1578/3000 [1:28:33<1:08:28,  2.89s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  53%|#####2    | 1579/3000 [1:28:33<1:07:06,  2.83s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  53%|#####2    | 1579/3000 [1:28:33<1:07:06,  2.83s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  53%|#####2    | 1579/3000 [1:28:37<1:07:06,  2.83s/it, lr: 1.0e-04 loss: 9.249e-02]strawbyte_v1:  53%|#####2    | 1579/3000 [1:28:37<1:07:06,  2.83s/it, lr: 1.0e-04 loss: 9.249e-02]strawbyte_v1:  53%|#####2    | 1580/3000 [1:28:40<1:07:03,  2.83s/it, lr: 1.0e-04 loss: 3.249e-02]strawbyte_v1:  53%|#####2    | 1580/3000 [1:28:40<1:07:03,  2.83s/it, lr: 1.0e-04 loss: 3.249e-02]strawbyte_v1:  53%|#####2    | 1581/3000 [1:28:40<52:29,  2.22s/it, lr: 1.0e-04 loss: 3.249e-02]  strawbyte_v1:  53%|#####2    | 1581/3000 [1:28:40<52:29,  2.22s/it, lr: 1.0e-04 loss: 3.249e-02]  strawbyte_v1:  53%|#####2    | 1581/3000 [1:28:43<52:29,  2.22s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  53%|#####2    | 1581/3000 [1:28:43<52:29,  2.22s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  53%|#####2    | 1582/3000 [1:28:43<55:13,  2.34s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  53%|#####2    | 1582/3000 [1:28:43<55:13,  2.34s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  53%|#####2    | 1582/3000 [1:28:48<55:13,  2.34s/it, lr: 1.0e-04 loss: 9.011e-02]strawbyte_v1:  53%|#####2    | 1582/3000 [1:28:48<55:13,  2.34s/it, lr: 1.0e-04 loss: 9.011e-02]strawbyte_v1:  53%|#####2    | 1583/3000 [1:28:48<1:09:57,  2.96s/it, lr: 1.0e-04 loss: 9.011e-02]strawbyte_v1:  53%|#####2    | 1583/3000 [1:28:48<1:09:57,  2.96s/it, lr: 1.0e-04 loss: 9.011e-02]strawbyte_v1:  53%|#####2    | 1583/3000 [1:28:53<1:09:57,  2.96s/it, lr: 1.0e-04 loss: 8.183e-02]strawbyte_v1:  53%|#####2    | 1583/3000 [1:28:53<1:09:57,  2.96s/it, lr: 1.0e-04 loss: 8.183e-02]strawbyte_v1:  53%|#####2    | 1584/3000 [1:28:53<1:20:08,  3.40s/it, lr: 1.0e-04 loss: 8.183e-02]strawbyte_v1:  53%|#####2    | 1584/3000 [1:28:53<1:20:08,  3.40s/it, lr: 1.0e-04 loss: 8.183e-02]strawbyte_v1:  53%|#####2    | 1584/3000 [1:28:57<1:20:08,  3.40s/it, lr: 1.0e-04 loss: 3.465e-02]strawbyte_v1:  53%|#####2    | 1584/3000 [1:28:57<1:20:08,  3.40s/it, lr: 1.0e-04 loss: 3.465e-02]strawbyte_v1:  53%|#####2    | 1585/3000 [1:28:57<1:26:56,  3.69s/it, lr: 1.0e-04 loss: 3.465e-02]strawbyte_v1:  53%|#####2    | 1585/3000 [1:28:57<1:26:56,  3.69s/it, lr: 1.0e-04 loss: 3.465e-02]strawbyte_v1:  53%|#####2    | 1585/3000 [1:29:00<1:26:56,  3.69s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  53%|#####2    | 1585/3000 [1:29:00<1:26:56,  3.69s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  53%|#####2    | 1586/3000 [1:29:00<1:20:34,  3.42s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  53%|#####2    | 1586/3000 [1:29:00<1:20:34,  3.42s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  53%|#####2    | 1586/3000 [1:29:03<1:20:34,  3.42s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  53%|#####2    | 1586/3000 [1:29:03<1:20:34,  3.42s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  53%|#####2    | 1587/3000 [1:29:03<1:21:16,  3.45s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  53%|#####2    | 1587/3000 [1:29:03<1:21:16,  3.45s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  53%|#####2    | 1587/3000 [1:29:06<1:21:16,  3.45s/it, lr: 1.0e-04 loss: 4.863e-02]strawbyte_v1:  53%|#####2    | 1587/3000 [1:29:06<1:21:16,  3.45s/it, lr: 1.0e-04 loss: 4.863e-02]strawbyte_v1:  53%|#####2    | 1588/3000 [1:29:06<1:17:57,  3.31s/it, lr: 1.0e-04 loss: 4.863e-02]strawbyte_v1:  53%|#####2    | 1588/3000 [1:29:06<1:17:57,  3.31s/it, lr: 1.0e-04 loss: 4.863e-02]strawbyte_v1:  53%|#####2    | 1588/3000 [1:29:09<1:17:57,  3.31s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  53%|#####2    | 1588/3000 [1:29:09<1:17:57,  3.31s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  53%|#####2    | 1589/3000 [1:29:09<1:13:38,  3.13s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  53%|#####2    | 1589/3000 [1:29:09<1:13:38,  3.13s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  53%|#####2    | 1589/3000 [1:29:14<1:13:38,  3.13s/it, lr: 1.0e-04 loss: 5.113e-02]strawbyte_v1:  53%|#####2    | 1589/3000 [1:29:14<1:13:38,  3.13s/it, lr: 1.0e-04 loss: 5.113e-02]strawbyte_v1:  53%|#####3    | 1590/3000 [1:29:17<1:13:35,  3.13s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  53%|#####3    | 1590/3000 [1:29:17<1:13:35,  3.13s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  53%|#####3    | 1591/3000 [1:29:17<57:09,  2.43s/it, lr: 1.0e-04 loss: 1.131e-01]  strawbyte_v1:  53%|#####3    | 1591/3000 [1:29:17<57:09,  2.43s/it, lr: 1.0e-04 loss: 1.131e-01]  strawbyte_v1:  53%|#####3    | 1591/3000 [1:29:21<57:09,  2.43s/it, lr: 1.0e-04 loss: 9.451e-02]strawbyte_v1:  53%|#####3    | 1591/3000 [1:29:21<57:09,  2.43s/it, lr: 1.0e-04 loss: 9.451e-02]strawbyte_v1:  53%|#####3    | 1592/3000 [1:29:21<1:08:21,  2.91s/it, lr: 1.0e-04 loss: 9.451e-02]strawbyte_v1:  53%|#####3    | 1592/3000 [1:29:21<1:08:21,  2.91s/it, lr: 1.0e-04 loss: 9.451e-02]strawbyte_v1:  53%|#####3    | 1592/3000 [1:29:24<1:08:21,  2.91s/it, lr: 1.0e-04 loss: 1.503e-01]strawbyte_v1:  53%|#####3    | 1592/3000 [1:29:24<1:08:21,  2.91s/it, lr: 1.0e-04 loss: 1.503e-01]strawbyte_v1:  53%|#####3    | 1593/3000 [1:29:24<1:08:00,  2.90s/it, lr: 1.0e-04 loss: 1.503e-01]strawbyte_v1:  53%|#####3    | 1593/3000 [1:29:24<1:08:00,  2.90s/it, lr: 1.0e-04 loss: 1.503e-01]strawbyte_v1:  53%|#####3    | 1593/3000 [1:29:26<1:08:00,  2.90s/it, lr: 1.0e-04 loss: 1.924e-01]strawbyte_v1:  53%|#####3    | 1593/3000 [1:29:26<1:08:00,  2.90s/it, lr: 1.0e-04 loss: 1.924e-01]strawbyte_v1:  53%|#####3    | 1594/3000 [1:29:26<1:04:50,  2.77s/it, lr: 1.0e-04 loss: 1.924e-01]strawbyte_v1:  53%|#####3    | 1594/3000 [1:29:26<1:04:50,  2.77s/it, lr: 1.0e-04 loss: 1.924e-01]strawbyte_v1:  53%|#####3    | 1594/3000 [1:29:29<1:04:50,  2.77s/it, lr: 1.0e-04 loss: 1.250e-02]strawbyte_v1:  53%|#####3    | 1594/3000 [1:29:29<1:04:50,  2.77s/it, lr: 1.0e-04 loss: 1.250e-02]strawbyte_v1:  53%|#####3    | 1595/3000 [1:29:29<1:05:50,  2.81s/it, lr: 1.0e-04 loss: 1.250e-02]strawbyte_v1:  53%|#####3    | 1595/3000 [1:29:29<1:05:50,  2.81s/it, lr: 1.0e-04 loss: 1.250e-02]strawbyte_v1:  53%|#####3    | 1595/3000 [1:29:32<1:05:50,  2.81s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  53%|#####3    | 1595/3000 [1:29:32<1:05:50,  2.81s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  53%|#####3    | 1596/3000 [1:29:32<1:06:36,  2.85s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  53%|#####3    | 1596/3000 [1:29:32<1:06:36,  2.85s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  53%|#####3    | 1596/3000 [1:29:35<1:06:36,  2.85s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  53%|#####3    | 1596/3000 [1:29:35<1:06:36,  2.85s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  53%|#####3    | 1597/3000 [1:29:35<1:07:10,  2.87s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  53%|#####3    | 1597/3000 [1:29:35<1:07:10,  2.87s/it, lr: 1.0e-04 loss: 1.583e-01]strawbyte_v1:  53%|#####3    | 1597/3000 [1:29:38<1:07:10,  2.87s/it, lr: 1.0e-04 loss: 1.482e-01]strawbyte_v1:  53%|#####3    | 1597/3000 [1:29:38<1:07:10,  2.87s/it, lr: 1.0e-04 loss: 1.482e-01]strawbyte_v1:  53%|#####3    | 1598/3000 [1:29:38<1:09:17,  2.97s/it, lr: 1.0e-04 loss: 1.482e-01]strawbyte_v1:  53%|#####3    | 1598/3000 [1:29:38<1:09:17,  2.97s/it, lr: 1.0e-04 loss: 1.482e-01]strawbyte_v1:  53%|#####3    | 1598/3000 [1:29:41<1:09:17,  2.97s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  53%|#####3    | 1598/3000 [1:29:41<1:09:17,  2.97s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  53%|#####3    | 1599/3000 [1:29:41<1:03:14,  2.71s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  53%|#####3    | 1599/3000 [1:29:41<1:03:14,  2.71s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  53%|#####3    | 1599/3000 [1:29:43<1:03:14,  2.71s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  53%|#####3    | 1599/3000 [1:29:43<1:03:14,  2.71s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  53%|#####3    | 1600/3000 [1:29:47<1:03:11,  2.71s/it, lr: 1.0e-04 loss: 1.081e-02]strawbyte_v1:  53%|#####3    | 1600/3000 [1:29:47<1:03:11,  2.71s/it, lr: 1.0e-04 loss: 1.081e-02]strawbyte_v1:  53%|#####3    | 1601/3000 [1:29:47<59:04,  2.53s/it, lr: 1.0e-04 loss: 1.081e-02]  strawbyte_v1:  53%|#####3    | 1601/3000 [1:29:47<59:04,  2.53s/it, lr: 1.0e-04 loss: 1.081e-02]  strawbyte_v1:  53%|#####3    | 1601/3000 [1:29:50<59:04,  2.53s/it, lr: 1.0e-04 loss: 4.253e-02]strawbyte_v1:  53%|#####3    | 1601/3000 [1:29:50<59:04,  2.53s/it, lr: 1.0e-04 loss: 4.253e-02]strawbyte_v1:  53%|#####3    | 1602/3000 [1:29:50<1:01:49,  2.65s/it, lr: 1.0e-04 loss: 4.253e-02]strawbyte_v1:  53%|#####3    | 1602/3000 [1:29:50<1:01:49,  2.65s/it, lr: 1.0e-04 loss: 4.253e-02]strawbyte_v1:  53%|#####3    | 1602/3000 [1:29:53<1:01:49,  2.65s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  53%|#####3    | 1602/3000 [1:29:53<1:01:49,  2.65s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  53%|#####3    | 1603/3000 [1:29:53<1:02:12,  2.67s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  53%|#####3    | 1603/3000 [1:29:53<1:02:12,  2.67s/it, lr: 1.0e-04 loss: 1.351e-01]strawbyte_v1:  53%|#####3    | 1603/3000 [1:29:56<1:02:12,  2.67s/it, lr: 1.0e-04 loss: 1.207e-01]strawbyte_v1:  53%|#####3    | 1603/3000 [1:29:56<1:02:12,  2.67s/it, lr: 1.0e-04 loss: 1.207e-01]strawbyte_v1:  53%|#####3    | 1604/3000 [1:29:56<1:02:29,  2.69s/it, lr: 1.0e-04 loss: 1.207e-01]strawbyte_v1:  53%|#####3    | 1604/3000 [1:29:56<1:02:29,  2.69s/it, lr: 1.0e-04 loss: 1.207e-01]strawbyte_v1:  53%|#####3    | 1604/3000 [1:29:59<1:02:29,  2.69s/it, lr: 1.0e-04 loss: 1.606e-01]strawbyte_v1:  53%|#####3    | 1604/3000 [1:29:59<1:02:29,  2.69s/it, lr: 1.0e-04 loss: 1.606e-01]strawbyte_v1:  54%|#####3    | 1605/3000 [1:29:59<1:05:29,  2.82s/it, lr: 1.0e-04 loss: 1.606e-01]strawbyte_v1:  54%|#####3    | 1605/3000 [1:29:59<1:05:29,  2.82s/it, lr: 1.0e-04 loss: 1.606e-01]strawbyte_v1:  54%|#####3    | 1605/3000 [1:30:03<1:05:29,  2.82s/it, lr: 1.0e-04 loss: 9.928e-02]strawbyte_v1:  54%|#####3    | 1605/3000 [1:30:03<1:05:29,  2.82s/it, lr: 1.0e-04 loss: 9.928e-02]strawbyte_v1:  54%|#####3    | 1606/3000 [1:30:03<1:16:21,  3.29s/it, lr: 1.0e-04 loss: 9.928e-02]strawbyte_v1:  54%|#####3    | 1606/3000 [1:30:03<1:16:21,  3.29s/it, lr: 1.0e-04 loss: 9.928e-02]strawbyte_v1:  54%|#####3    | 1606/3000 [1:30:06<1:16:21,  3.29s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  54%|#####3    | 1606/3000 [1:30:06<1:16:21,  3.29s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  54%|#####3    | 1607/3000 [1:30:06<1:14:45,  3.22s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  54%|#####3    | 1607/3000 [1:30:06<1:14:45,  3.22s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  54%|#####3    | 1607/3000 [1:30:11<1:14:45,  3.22s/it, lr: 1.0e-04 loss: 5.156e-03]strawbyte_v1:  54%|#####3    | 1607/3000 [1:30:11<1:14:45,  3.22s/it, lr: 1.0e-04 loss: 5.156e-03]strawbyte_v1:  54%|#####3    | 1608/3000 [1:30:11<1:25:59,  3.71s/it, lr: 1.0e-04 loss: 5.156e-03]strawbyte_v1:  54%|#####3    | 1608/3000 [1:30:11<1:25:59,  3.71s/it, lr: 1.0e-04 loss: 5.156e-03]strawbyte_v1:  54%|#####3    | 1608/3000 [1:30:14<1:25:59,  3.71s/it, lr: 1.0e-04 loss: 4.589e-02]strawbyte_v1:  54%|#####3    | 1608/3000 [1:30:14<1:25:59,  3.71s/it, lr: 1.0e-04 loss: 4.589e-02]strawbyte_v1:  54%|#####3    | 1609/3000 [1:30:14<1:21:19,  3.51s/it, lr: 1.0e-04 loss: 4.589e-02]strawbyte_v1:  54%|#####3    | 1609/3000 [1:30:14<1:21:19,  3.51s/it, lr: 1.0e-04 loss: 4.589e-02]strawbyte_v1:  54%|#####3    | 1609/3000 [1:30:17<1:21:19,  3.51s/it, lr: 1.0e-04 loss: 1.661e-01]strawbyte_v1:  54%|#####3    | 1609/3000 [1:30:17<1:21:19,  3.51s/it, lr: 1.0e-04 loss: 1.661e-01]strawbyte_v1:  54%|#####3    | 1610/3000 [1:30:20<1:21:16,  3.51s/it, lr: 1.0e-04 loss: 1.524e-01]strawbyte_v1:  54%|#####3    | 1610/3000 [1:30:20<1:21:16,  3.51s/it, lr: 1.0e-04 loss: 1.524e-01]strawbyte_v1:  54%|#####3    | 1611/3000 [1:30:20<1:00:02,  2.59s/it, lr: 1.0e-04 loss: 1.524e-01]strawbyte_v1:  54%|#####3    | 1611/3000 [1:30:20<1:00:02,  2.59s/it, lr: 1.0e-04 loss: 1.524e-01]strawbyte_v1:  54%|#####3    | 1611/3000 [1:30:25<1:00:02,  2.59s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  54%|#####3    | 1611/3000 [1:30:25<1:00:02,  2.59s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  54%|#####3    | 1612/3000 [1:30:25<1:12:32,  3.14s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  54%|#####3    | 1612/3000 [1:30:25<1:12:32,  3.14s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  54%|#####3    | 1612/3000 [1:30:28<1:12:32,  3.14s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  54%|#####3    | 1612/3000 [1:30:28<1:12:32,  3.14s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  54%|#####3    | 1613/3000 [1:30:28<1:11:54,  3.11s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  54%|#####3    | 1613/3000 [1:30:28<1:11:54,  3.11s/it, lr: 1.0e-04 loss: 1.382e-01]strawbyte_v1:  54%|#####3    | 1613/3000 [1:30:31<1:11:54,  3.11s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:  54%|#####3    | 1613/3000 [1:30:31<1:11:54,  3.11s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:  54%|#####3    | 1614/3000 [1:30:31<1:11:17,  3.09s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:  54%|#####3    | 1614/3000 [1:30:31<1:11:17,  3.09s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:  54%|#####3    | 1614/3000 [1:30:36<1:11:17,  3.09s/it, lr: 1.0e-04 loss: 2.733e-02]strawbyte_v1:  54%|#####3    | 1614/3000 [1:30:36<1:11:17,  3.09s/it, lr: 1.0e-04 loss: 2.733e-02]strawbyte_v1:  54%|#####3    | 1615/3000 [1:30:36<1:22:10,  3.56s/it, lr: 1.0e-04 loss: 2.733e-02]strawbyte_v1:  54%|#####3    | 1615/3000 [1:30:36<1:22:10,  3.56s/it, lr: 1.0e-04 loss: 2.733e-02]strawbyte_v1:  54%|#####3    | 1615/3000 [1:30:38<1:22:10,  3.56s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  54%|#####3    | 1615/3000 [1:30:38<1:22:10,  3.56s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  54%|#####3    | 1616/3000 [1:30:38<1:12:28,  3.14s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  54%|#####3    | 1616/3000 [1:30:38<1:12:28,  3.14s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  54%|#####3    | 1616/3000 [1:30:40<1:12:28,  3.14s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  54%|#####3    | 1616/3000 [1:30:40<1:12:28,  3.14s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  54%|#####3    | 1617/3000 [1:30:40<1:05:30,  2.84s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  54%|#####3    | 1617/3000 [1:30:40<1:05:30,  2.84s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  54%|#####3    | 1617/3000 [1:30:44<1:05:30,  2.84s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  54%|#####3    | 1617/3000 [1:30:44<1:05:30,  2.84s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  54%|#####3    | 1618/3000 [1:30:44<1:15:44,  3.29s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  54%|#####3    | 1618/3000 [1:30:44<1:15:44,  3.29s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  54%|#####3    | 1618/3000 [1:30:47<1:15:44,  3.29s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  54%|#####3    | 1618/3000 [1:30:47<1:15:44,  3.29s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  54%|#####3    | 1619/3000 [1:30:47<1:09:46,  3.03s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  54%|#####3    | 1619/3000 [1:30:47<1:09:46,  3.03s/it, lr: 1.0e-04 loss: 1.290e-01]strawbyte_v1:  54%|#####3    | 1619/3000 [1:30:51<1:09:46,  3.03s/it, lr: 1.0e-04 loss: 7.505e-02]strawbyte_v1:  54%|#####3    | 1619/3000 [1:30:51<1:09:46,  3.03s/it, lr: 1.0e-04 loss: 7.505e-02]strawbyte_v1:  54%|#####4    | 1620/3000 [1:30:54<1:09:43,  3.03s/it, lr: 1.0e-04 loss: 1.473e-01]strawbyte_v1:  54%|#####4    | 1620/3000 [1:30:54<1:09:43,  3.03s/it, lr: 1.0e-04 loss: 1.473e-01]strawbyte_v1:  54%|#####4    | 1621/3000 [1:30:54<53:08,  2.31s/it, lr: 1.0e-04 loss: 1.473e-01]  strawbyte_v1:  54%|#####4    | 1621/3000 [1:30:54<53:08,  2.31s/it, lr: 1.0e-04 loss: 1.473e-01]  strawbyte_v1:  54%|#####4    | 1621/3000 [1:30:57<53:08,  2.31s/it, lr: 1.0e-04 loss: 5.343e-02]strawbyte_v1:  54%|#####4    | 1621/3000 [1:30:57<53:08,  2.31s/it, lr: 1.0e-04 loss: 5.343e-02]strawbyte_v1:  54%|#####4    | 1622/3000 [1:30:57<56:26,  2.46s/it, lr: 1.0e-04 loss: 5.343e-02]strawbyte_v1:  54%|#####4    | 1622/3000 [1:30:57<56:26,  2.46s/it, lr: 1.0e-04 loss: 5.343e-02]strawbyte_v1:  54%|#####4    | 1622/3000 [1:30:59<56:26,  2.46s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  54%|#####4    | 1622/3000 [1:30:59<56:26,  2.46s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  54%|#####4    | 1623/3000 [1:30:59<56:16,  2.45s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  54%|#####4    | 1623/3000 [1:30:59<56:16,  2.45s/it, lr: 1.0e-04 loss: 1.236e-01]strawbyte_v1:  54%|#####4    | 1623/3000 [1:31:01<56:16,  2.45s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  54%|#####4    | 1623/3000 [1:31:01<56:16,  2.45s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  54%|#####4    | 1624/3000 [1:31:01<54:00,  2.35s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  54%|#####4    | 1624/3000 [1:31:01<54:00,  2.35s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  54%|#####4    | 1624/3000 [1:31:06<54:00,  2.35s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  54%|#####4    | 1624/3000 [1:31:06<54:00,  2.35s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  54%|#####4    | 1625/3000 [1:31:06<1:06:35,  2.91s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  54%|#####4    | 1625/3000 [1:31:06<1:06:35,  2.91s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  54%|#####4    | 1625/3000 [1:31:10<1:06:35,  2.91s/it, lr: 1.0e-04 loss: 9.916e-02]strawbyte_v1:  54%|#####4    | 1625/3000 [1:31:10<1:06:35,  2.91s/it, lr: 1.0e-04 loss: 9.916e-02]strawbyte_v1:  54%|#####4    | 1626/3000 [1:31:10<1:17:42,  3.39s/it, lr: 1.0e-04 loss: 9.916e-02]strawbyte_v1:  54%|#####4    | 1626/3000 [1:31:10<1:17:42,  3.39s/it, lr: 1.0e-04 loss: 9.916e-02]strawbyte_v1:  54%|#####4    | 1626/3000 [1:31:13<1:17:42,  3.39s/it, lr: 1.0e-04 loss: 7.487e-03]strawbyte_v1:  54%|#####4    | 1626/3000 [1:31:13<1:17:42,  3.39s/it, lr: 1.0e-04 loss: 7.487e-03]strawbyte_v1:  54%|#####4    | 1627/3000 [1:31:13<1:13:21,  3.21s/it, lr: 1.0e-04 loss: 7.487e-03]strawbyte_v1:  54%|#####4    | 1627/3000 [1:31:13<1:13:21,  3.21s/it, lr: 1.0e-04 loss: 7.487e-03]strawbyte_v1:  54%|#####4    | 1627/3000 [1:31:16<1:13:21,  3.21s/it, lr: 1.0e-04 loss: 1.521e-01]strawbyte_v1:  54%|#####4    | 1627/3000 [1:31:16<1:13:21,  3.21s/it, lr: 1.0e-04 loss: 1.521e-01]strawbyte_v1:  54%|#####4    | 1628/3000 [1:31:16<1:12:04,  3.15s/it, lr: 1.0e-04 loss: 1.521e-01]strawbyte_v1:  54%|#####4    | 1628/3000 [1:31:16<1:12:04,  3.15s/it, lr: 1.0e-04 loss: 1.521e-01]strawbyte_v1:  54%|#####4    | 1628/3000 [1:31:19<1:12:04,  3.15s/it, lr: 1.0e-04 loss: 9.823e-02]strawbyte_v1:  54%|#####4    | 1628/3000 [1:31:19<1:12:04,  3.15s/it, lr: 1.0e-04 loss: 9.823e-02]strawbyte_v1:  54%|#####4    | 1629/3000 [1:31:19<1:10:57,  3.11s/it, lr: 1.0e-04 loss: 9.823e-02]strawbyte_v1:  54%|#####4    | 1629/3000 [1:31:19<1:10:57,  3.11s/it, lr: 1.0e-04 loss: 9.823e-02]strawbyte_v1:  54%|#####4    | 1629/3000 [1:31:22<1:10:57,  3.11s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  54%|#####4    | 1629/3000 [1:31:22<1:10:57,  3.11s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  54%|#####4    | 1630/3000 [1:31:25<1:10:54,  3.11s/it, lr: 1.0e-04 loss: 4.430e-02]strawbyte_v1:  54%|#####4    | 1630/3000 [1:31:25<1:10:54,  3.11s/it, lr: 1.0e-04 loss: 4.430e-02]strawbyte_v1:  54%|#####4    | 1631/3000 [1:31:25<53:55,  2.36s/it, lr: 1.0e-04 loss: 4.430e-02]  strawbyte_v1:  54%|#####4    | 1631/3000 [1:31:25<53:55,  2.36s/it, lr: 1.0e-04 loss: 4.430e-02]  strawbyte_v1:  54%|#####4    | 1631/3000 [1:31:28<53:55,  2.36s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  54%|#####4    | 1631/3000 [1:31:28<53:55,  2.36s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  54%|#####4    | 1632/3000 [1:31:28<55:43,  2.44s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  54%|#####4    | 1632/3000 [1:31:28<55:43,  2.44s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  54%|#####4    | 1632/3000 [1:31:32<55:43,  2.44s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  54%|#####4    | 1632/3000 [1:31:32<55:43,  2.44s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  54%|#####4    | 1633/3000 [1:31:32<1:07:48,  2.98s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  54%|#####4    | 1633/3000 [1:31:32<1:07:48,  2.98s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  54%|#####4    | 1633/3000 [1:31:37<1:07:48,  2.98s/it, lr: 1.0e-04 loss: 9.318e-02]strawbyte_v1:  54%|#####4    | 1633/3000 [1:31:37<1:07:48,  2.98s/it, lr: 1.0e-04 loss: 9.318e-02]strawbyte_v1:  54%|#####4    | 1634/3000 [1:31:37<1:19:01,  3.47s/it, lr: 1.0e-04 loss: 9.318e-02]strawbyte_v1:  54%|#####4    | 1634/3000 [1:31:37<1:19:01,  3.47s/it, lr: 1.0e-04 loss: 9.318e-02]strawbyte_v1:  54%|#####4    | 1634/3000 [1:31:42<1:19:01,  3.47s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  54%|#####4    | 1634/3000 [1:31:42<1:19:01,  3.47s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  55%|#####4    | 1635/3000 [1:31:42<1:25:39,  3.76s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  55%|#####4    | 1635/3000 [1:31:42<1:25:39,  3.76s/it, lr: 1.0e-04 loss: 1.027e-01]strawbyte_v1:  55%|#####4    | 1635/3000 [1:31:44<1:25:39,  3.76s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  55%|#####4    | 1635/3000 [1:31:44<1:25:39,  3.76s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  55%|#####4    | 1636/3000 [1:31:44<1:18:46,  3.47s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  55%|#####4    | 1636/3000 [1:31:44<1:18:46,  3.47s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  55%|#####4    | 1636/3000 [1:31:48<1:18:46,  3.47s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  55%|#####4    | 1636/3000 [1:31:48<1:18:46,  3.47s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  55%|#####4    | 1637/3000 [1:31:48<1:18:20,  3.45s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  55%|#####4    | 1637/3000 [1:31:48<1:18:20,  3.45s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  55%|#####4    | 1637/3000 [1:31:52<1:18:20,  3.45s/it, lr: 1.0e-04 loss: 1.285e-01]strawbyte_v1:  55%|#####4    | 1637/3000 [1:31:52<1:18:20,  3.45s/it, lr: 1.0e-04 loss: 1.285e-01]strawbyte_v1:  55%|#####4    | 1638/3000 [1:31:52<1:25:01,  3.75s/it, lr: 1.0e-04 loss: 1.285e-01]strawbyte_v1:  55%|#####4    | 1638/3000 [1:31:52<1:25:01,  3.75s/it, lr: 1.0e-04 loss: 1.285e-01]strawbyte_v1:  55%|#####4    | 1638/3000 [1:31:57<1:25:01,  3.75s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  55%|#####4    | 1638/3000 [1:31:57<1:25:01,  3.75s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  55%|#####4    | 1639/3000 [1:31:57<1:29:32,  3.95s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  55%|#####4    | 1639/3000 [1:31:57<1:29:32,  3.95s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  55%|#####4    | 1639/3000 [1:32:00<1:29:32,  3.95s/it, lr: 1.0e-04 loss: 1.092e-01]strawbyte_v1:  55%|#####4    | 1639/3000 [1:32:00<1:29:32,  3.95s/it, lr: 1.0e-04 loss: 1.092e-01]strawbyte_v1:  55%|#####4    | 1640/3000 [1:32:04<1:29:28,  3.95s/it, lr: 1.0e-04 loss: 8.643e-02]strawbyte_v1:  55%|#####4    | 1640/3000 [1:32:04<1:29:28,  3.95s/it, lr: 1.0e-04 loss: 8.643e-02]strawbyte_v1:  55%|#####4    | 1641/3000 [1:32:04<1:12:32,  3.20s/it, lr: 1.0e-04 loss: 8.643e-02]strawbyte_v1:  55%|#####4    | 1641/3000 [1:32:04<1:12:32,  3.20s/it, lr: 1.0e-04 loss: 8.643e-02]strawbyte_v1:  55%|#####4    | 1641/3000 [1:32:06<1:12:32,  3.20s/it, lr: 1.0e-04 loss: 6.839e-02]strawbyte_v1:  55%|#####4    | 1641/3000 [1:32:06<1:12:32,  3.20s/it, lr: 1.0e-04 loss: 6.839e-02]strawbyte_v1:  55%|#####4    | 1642/3000 [1:32:06<1:06:19,  2.93s/it, lr: 1.0e-04 loss: 6.839e-02]strawbyte_v1:  55%|#####4    | 1642/3000 [1:32:06<1:06:19,  2.93s/it, lr: 1.0e-04 loss: 6.839e-02]strawbyte_v1:  55%|#####4    | 1642/3000 [1:32:11<1:06:19,  2.93s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  55%|#####4    | 1642/3000 [1:32:11<1:06:19,  2.93s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  55%|#####4    | 1643/3000 [1:32:11<1:14:51,  3.31s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  55%|#####4    | 1643/3000 [1:32:11<1:14:51,  3.31s/it, lr: 1.0e-04 loss: 1.274e-01]strawbyte_v1:  55%|#####4    | 1643/3000 [1:32:13<1:14:51,  3.31s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  55%|#####4    | 1643/3000 [1:32:13<1:14:51,  3.31s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  55%|#####4    | 1644/3000 [1:32:13<1:07:23,  2.98s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  55%|#####4    | 1644/3000 [1:32:13<1:07:23,  2.98s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  55%|#####4    | 1644/3000 [1:32:15<1:07:23,  2.98s/it, lr: 1.0e-04 loss: 1.956e-01]strawbyte_v1:  55%|#####4    | 1644/3000 [1:32:15<1:07:23,  2.98s/it, lr: 1.0e-04 loss: 1.956e-01]strawbyte_v1:  55%|#####4    | 1645/3000 [1:32:15<1:03:52,  2.83s/it, lr: 1.0e-04 loss: 1.956e-01]strawbyte_v1:  55%|#####4    | 1645/3000 [1:32:15<1:03:52,  2.83s/it, lr: 1.0e-04 loss: 1.956e-01]strawbyte_v1:  55%|#####4    | 1645/3000 [1:32:17<1:03:52,  2.83s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  55%|#####4    | 1645/3000 [1:32:17<1:03:52,  2.83s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  55%|#####4    | 1646/3000 [1:32:17<59:04,  2.62s/it, lr: 1.0e-04 loss: 1.562e-01]  strawbyte_v1:  55%|#####4    | 1646/3000 [1:32:17<59:04,  2.62s/it, lr: 1.0e-04 loss: 1.562e-01]  strawbyte_v1:  55%|#####4    | 1646/3000 [1:32:22<59:04,  2.62s/it, lr: 1.0e-04 loss: 1.525e-01]strawbyte_v1:  55%|#####4    | 1646/3000 [1:32:22<59:04,  2.62s/it, lr: 1.0e-04 loss: 1.525e-01]strawbyte_v1:  55%|#####4    | 1647/3000 [1:32:22<1:09:59,  3.10s/it, lr: 1.0e-04 loss: 1.525e-01]strawbyte_v1:  55%|#####4    | 1647/3000 [1:32:22<1:09:59,  3.10s/it, lr: 1.0e-04 loss: 1.525e-01]strawbyte_v1:  55%|#####4    | 1647/3000 [1:32:25<1:09:59,  3.10s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  55%|#####4    | 1647/3000 [1:32:25<1:09:59,  3.10s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  55%|#####4    | 1648/3000 [1:32:25<1:10:09,  3.11s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  55%|#####4    | 1648/3000 [1:32:25<1:10:09,  3.11s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  55%|#####4    | 1648/3000 [1:32:27<1:10:09,  3.11s/it, lr: 1.0e-04 loss: 2.966e-02]strawbyte_v1:  55%|#####4    | 1648/3000 [1:32:27<1:10:09,  3.11s/it, lr: 1.0e-04 loss: 2.966e-02]strawbyte_v1:  55%|#####4    | 1649/3000 [1:32:27<1:03:22,  2.81s/it, lr: 1.0e-04 loss: 2.966e-02]strawbyte_v1:  55%|#####4    | 1649/3000 [1:32:27<1:03:22,  2.81s/it, lr: 1.0e-04 loss: 2.966e-02]strawbyte_v1:  55%|#####4    | 1649/3000 [1:32:31<1:03:22,  2.81s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  55%|#####4    | 1649/3000 [1:32:31<1:03:22,  2.81s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  55%|#####5    | 1650/3000 [1:32:34<1:03:19,  2.81s/it, lr: 1.0e-04 loss: 1.687e-01]strawbyte_v1:  55%|#####5    | 1650/3000 [1:32:34<1:03:19,  2.81s/it, lr: 1.0e-04 loss: 1.687e-01]strawbyte_v1:  55%|#####5    | 1651/3000 [1:32:34<49:40,  2.21s/it, lr: 1.0e-04 loss: 1.687e-01]  strawbyte_v1:  55%|#####5    | 1651/3000 [1:32:34<49:40,  2.21s/it, lr: 1.0e-04 loss: 1.687e-01]  strawbyte_v1:  55%|#####5    | 1651/3000 [1:32:38<49:40,  2.21s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:  55%|#####5    | 1651/3000 [1:32:38<49:40,  2.21s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:  55%|#####5    | 1652/3000 [1:32:38<55:22,  2.47s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:  55%|#####5    | 1652/3000 [1:32:38<55:22,  2.47s/it, lr: 1.0e-04 loss: 1.783e-01]strawbyte_v1:  55%|#####5    | 1652/3000 [1:32:42<55:22,  2.47s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  55%|#####5    | 1652/3000 [1:32:42<55:22,  2.47s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  55%|#####5    | 1653/3000 [1:32:42<1:06:47,  2.98s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  55%|#####5    | 1653/3000 [1:32:42<1:06:47,  2.98s/it, lr: 1.0e-04 loss: 1.377e-01]strawbyte_v1:  55%|#####5    | 1653/3000 [1:32:46<1:06:47,  2.98s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  55%|#####5    | 1653/3000 [1:32:46<1:06:47,  2.98s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  55%|#####5    | 1654/3000 [1:32:46<1:16:13,  3.40s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  55%|#####5    | 1654/3000 [1:32:46<1:16:13,  3.40s/it, lr: 1.0e-04 loss: 1.215e-01]strawbyte_v1:  55%|#####5    | 1654/3000 [1:32:50<1:16:13,  3.40s/it, lr: 1.0e-04 loss: 1.918e-01]strawbyte_v1:  55%|#####5    | 1654/3000 [1:32:50<1:16:13,  3.40s/it, lr: 1.0e-04 loss: 1.918e-01]strawbyte_v1:  55%|#####5    | 1655/3000 [1:32:50<1:14:27,  3.32s/it, lr: 1.0e-04 loss: 1.918e-01]strawbyte_v1:  55%|#####5    | 1655/3000 [1:32:50<1:14:27,  3.32s/it, lr: 1.0e-04 loss: 1.918e-01]strawbyte_v1:  55%|#####5    | 1655/3000 [1:32:53<1:14:27,  3.32s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  55%|#####5    | 1655/3000 [1:32:53<1:14:27,  3.32s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  55%|#####5    | 1656/3000 [1:32:53<1:12:16,  3.23s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  55%|#####5    | 1656/3000 [1:32:53<1:12:16,  3.23s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  55%|#####5    | 1656/3000 [1:32:55<1:12:16,  3.23s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  55%|#####5    | 1656/3000 [1:32:55<1:12:16,  3.23s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  55%|#####5    | 1657/3000 [1:32:55<1:08:54,  3.08s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  55%|#####5    | 1657/3000 [1:32:55<1:08:54,  3.08s/it, lr: 1.0e-04 loss: 1.876e-01]strawbyte_v1:  55%|#####5    | 1657/3000 [1:32:58<1:08:54,  3.08s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  55%|#####5    | 1657/3000 [1:32:58<1:08:54,  3.08s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  55%|#####5    | 1658/3000 [1:32:58<1:08:08,  3.05s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  55%|#####5    | 1658/3000 [1:32:58<1:08:08,  3.05s/it, lr: 1.0e-04 loss: 1.547e-01]strawbyte_v1:  55%|#####5    | 1658/3000 [1:33:03<1:08:08,  3.05s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  55%|#####5    | 1658/3000 [1:33:03<1:08:08,  3.05s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  55%|#####5    | 1659/3000 [1:33:03<1:19:39,  3.56s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  55%|#####5    | 1659/3000 [1:33:03<1:19:39,  3.56s/it, lr: 1.0e-04 loss: 1.618e-01]strawbyte_v1:  55%|#####5    | 1659/3000 [1:33:06<1:19:39,  3.56s/it, lr: 1.0e-04 loss: 1.911e-01]strawbyte_v1:  55%|#####5    | 1659/3000 [1:33:06<1:19:39,  3.56s/it, lr: 1.0e-04 loss: 1.911e-01]strawbyte_v1:  55%|#####5    | 1660/3000 [1:33:09<1:19:35,  3.56s/it, lr: 1.0e-04 loss: 1.474e-01]strawbyte_v1:  55%|#####5    | 1660/3000 [1:33:09<1:19:35,  3.56s/it, lr: 1.0e-04 loss: 1.474e-01]strawbyte_v1:  55%|#####5    | 1661/3000 [1:33:09<58:22,  2.62s/it, lr: 1.0e-04 loss: 1.474e-01]  strawbyte_v1:  55%|#####5    | 1661/3000 [1:33:09<58:22,  2.62s/it, lr: 1.0e-04 loss: 1.474e-01]  strawbyte_v1:  55%|#####5    | 1661/3000 [1:33:12<58:22,  2.62s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  55%|#####5    | 1661/3000 [1:33:12<58:22,  2.62s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  55%|#####5    | 1662/3000 [1:33:12<1:00:18,  2.70s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  55%|#####5    | 1662/3000 [1:33:12<1:00:18,  2.70s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  55%|#####5    | 1662/3000 [1:33:17<1:00:18,  2.70s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  55%|#####5    | 1662/3000 [1:33:17<1:00:18,  2.70s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  55%|#####5    | 1663/3000 [1:33:17<1:12:13,  3.24s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  55%|#####5    | 1663/3000 [1:33:17<1:12:13,  3.24s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  55%|#####5    | 1663/3000 [1:33:19<1:12:13,  3.24s/it, lr: 1.0e-04 loss: 2.216e-01]strawbyte_v1:  55%|#####5    | 1663/3000 [1:33:19<1:12:13,  3.24s/it, lr: 1.0e-04 loss: 2.216e-01]strawbyte_v1:  55%|#####5    | 1664/3000 [1:33:19<1:06:45,  3.00s/it, lr: 1.0e-04 loss: 2.216e-01]strawbyte_v1:  55%|#####5    | 1664/3000 [1:33:19<1:06:45,  3.00s/it, lr: 1.0e-04 loss: 2.216e-01]strawbyte_v1:  55%|#####5    | 1664/3000 [1:33:21<1:06:45,  3.00s/it, lr: 1.0e-04 loss: 1.335e-01]strawbyte_v1:  55%|#####5    | 1664/3000 [1:33:21<1:06:45,  3.00s/it, lr: 1.0e-04 loss: 1.335e-01]strawbyte_v1:  56%|#####5    | 1665/3000 [1:33:21<1:01:03,  2.74s/it, lr: 1.0e-04 loss: 1.335e-01]strawbyte_v1:  56%|#####5    | 1665/3000 [1:33:21<1:01:03,  2.74s/it, lr: 1.0e-04 loss: 1.335e-01]strawbyte_v1:  56%|#####5    | 1665/3000 [1:33:25<1:01:03,  2.74s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  56%|#####5    | 1665/3000 [1:33:25<1:01:03,  2.74s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  56%|#####5    | 1666/3000 [1:33:25<1:12:26,  3.26s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  56%|#####5    | 1666/3000 [1:33:25<1:12:26,  3.26s/it, lr: 1.0e-04 loss: 1.266e-01]strawbyte_v1:  56%|#####5    | 1666/3000 [1:33:30<1:12:26,  3.26s/it, lr: 1.0e-04 loss: 8.482e-02]strawbyte_v1:  56%|#####5    | 1666/3000 [1:33:30<1:12:26,  3.26s/it, lr: 1.0e-04 loss: 8.482e-02]strawbyte_v1:  56%|#####5    | 1667/3000 [1:33:30<1:19:20,  3.57s/it, lr: 1.0e-04 loss: 8.482e-02]strawbyte_v1:  56%|#####5    | 1667/3000 [1:33:30<1:19:20,  3.57s/it, lr: 1.0e-04 loss: 8.482e-02]strawbyte_v1:  56%|#####5    | 1667/3000 [1:33:33<1:19:20,  3.57s/it, lr: 1.0e-04 loss: 6.618e-02]strawbyte_v1:  56%|#####5    | 1667/3000 [1:33:33<1:19:20,  3.57s/it, lr: 1.0e-04 loss: 6.618e-02]strawbyte_v1:  56%|#####5    | 1668/3000 [1:33:33<1:14:56,  3.38s/it, lr: 1.0e-04 loss: 6.618e-02]strawbyte_v1:  56%|#####5    | 1668/3000 [1:33:33<1:14:56,  3.38s/it, lr: 1.0e-04 loss: 6.618e-02]strawbyte_v1:  56%|#####5    | 1668/3000 [1:33:37<1:14:56,  3.38s/it, lr: 1.0e-04 loss: 5.552e-02]strawbyte_v1:  56%|#####5    | 1668/3000 [1:33:37<1:14:56,  3.38s/it, lr: 1.0e-04 loss: 5.552e-02]strawbyte_v1:  56%|#####5    | 1669/3000 [1:33:37<1:21:34,  3.68s/it, lr: 1.0e-04 loss: 5.552e-02]strawbyte_v1:  56%|#####5    | 1669/3000 [1:33:37<1:21:34,  3.68s/it, lr: 1.0e-04 loss: 5.552e-02]strawbyte_v1:  56%|#####5    | 1669/3000 [1:33:42<1:21:34,  3.68s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  56%|#####5    | 1669/3000 [1:33:42<1:21:34,  3.68s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  56%|#####5    | 1670/3000 [1:33:44<1:21:30,  3.68s/it, lr: 1.0e-04 loss: 2.081e-01]strawbyte_v1:  56%|#####5    | 1670/3000 [1:33:44<1:21:30,  3.68s/it, lr: 1.0e-04 loss: 2.081e-01]strawbyte_v1:  56%|#####5    | 1671/3000 [1:33:44<54:49,  2.48s/it, lr: 1.0e-04 loss: 2.081e-01]  strawbyte_v1:  56%|#####5    | 1671/3000 [1:33:44<54:49,  2.48s/it, lr: 1.0e-04 loss: 2.081e-01]  strawbyte_v1:  56%|#####5    | 1671/3000 [1:33:46<54:49,  2.48s/it, lr: 1.0e-04 loss: 1.450e-01]strawbyte_v1:  56%|#####5    | 1671/3000 [1:33:46<54:49,  2.48s/it, lr: 1.0e-04 loss: 1.450e-01]strawbyte_v1:  56%|#####5    | 1672/3000 [1:33:46<52:45,  2.38s/it, lr: 1.0e-04 loss: 1.450e-01]strawbyte_v1:  56%|#####5    | 1672/3000 [1:33:46<52:45,  2.38s/it, lr: 1.0e-04 loss: 1.450e-01]strawbyte_v1:  56%|#####5    | 1672/3000 [1:33:50<52:45,  2.38s/it, lr: 1.0e-04 loss: 9.640e-02]strawbyte_v1:  56%|#####5    | 1672/3000 [1:33:50<52:45,  2.38s/it, lr: 1.0e-04 loss: 9.640e-02]strawbyte_v1:  56%|#####5    | 1673/3000 [1:33:50<1:04:24,  2.91s/it, lr: 1.0e-04 loss: 9.640e-02]strawbyte_v1:  56%|#####5    | 1673/3000 [1:33:50<1:04:24,  2.91s/it, lr: 1.0e-04 loss: 9.640e-02]strawbyte_v1:  56%|#####5    | 1673/3000 [1:33:53<1:04:24,  2.91s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  56%|#####5    | 1673/3000 [1:33:53<1:04:24,  2.91s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  56%|#####5    | 1674/3000 [1:33:53<1:05:01,  2.94s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  56%|#####5    | 1674/3000 [1:33:53<1:05:01,  2.94s/it, lr: 1.0e-04 loss: 1.562e-01]strawbyte_v1:  56%|#####5    | 1674/3000 [1:33:56<1:05:01,  2.94s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  56%|#####5    | 1674/3000 [1:33:56<1:05:01,  2.94s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  56%|#####5    | 1675/3000 [1:33:56<1:05:19,  2.96s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  56%|#####5    | 1675/3000 [1:33:56<1:05:19,  2.96s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  56%|#####5    | 1675/3000 [1:33:59<1:05:19,  2.96s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  56%|#####5    | 1675/3000 [1:33:59<1:05:19,  2.96s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  56%|#####5    | 1676/3000 [1:33:59<1:05:26,  2.97s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  56%|#####5    | 1676/3000 [1:33:59<1:05:26,  2.97s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  56%|#####5    | 1676/3000 [1:34:03<1:05:26,  2.97s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  56%|#####5    | 1676/3000 [1:34:03<1:05:26,  2.97s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  56%|#####5    | 1677/3000 [1:34:03<1:07:06,  3.04s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  56%|#####5    | 1677/3000 [1:34:03<1:07:06,  3.04s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  56%|#####5    | 1677/3000 [1:34:06<1:07:06,  3.04s/it, lr: 1.0e-04 loss: 1.982e-01]strawbyte_v1:  56%|#####5    | 1677/3000 [1:34:06<1:07:06,  3.04s/it, lr: 1.0e-04 loss: 1.982e-01]strawbyte_v1:  56%|#####5    | 1678/3000 [1:34:06<1:06:49,  3.03s/it, lr: 1.0e-04 loss: 1.982e-01]strawbyte_v1:  56%|#####5    | 1678/3000 [1:34:06<1:06:49,  3.03s/it, lr: 1.0e-04 loss: 1.982e-01]strawbyte_v1:  56%|#####5    | 1678/3000 [1:34:08<1:06:49,  3.03s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:  56%|#####5    | 1678/3000 [1:34:08<1:06:49,  3.03s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:  56%|#####5    | 1679/3000 [1:34:08<1:04:39,  2.94s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:  56%|#####5    | 1679/3000 [1:34:08<1:04:39,  2.94s/it, lr: 1.0e-04 loss: 1.283e-01]strawbyte_v1:  56%|#####5    | 1679/3000 [1:34:11<1:04:39,  2.94s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  56%|#####5    | 1679/3000 [1:34:11<1:04:39,  2.94s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  56%|#####6    | 1680/3000 [1:34:16<1:04:36,  2.94s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  56%|#####6    | 1680/3000 [1:34:16<1:04:36,  2.94s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  56%|#####6    | 1681/3000 [1:34:16<58:43,  2.67s/it, lr: 1.0e-04 loss: 1.096e-01]  strawbyte_v1:  56%|#####6    | 1681/3000 [1:34:16<58:43,  2.67s/it, lr: 1.0e-04 loss: 1.096e-01]  strawbyte_v1:  56%|#####6    | 1681/3000 [1:34:20<58:43,  2.67s/it, lr: 1.0e-04 loss: 8.366e-02]strawbyte_v1:  56%|#####6    | 1681/3000 [1:34:20<58:43,  2.67s/it, lr: 1.0e-04 loss: 8.366e-02]strawbyte_v1:  56%|#####6    | 1682/3000 [1:34:20<1:08:20,  3.11s/it, lr: 1.0e-04 loss: 8.366e-02]strawbyte_v1:  56%|#####6    | 1682/3000 [1:34:20<1:08:20,  3.11s/it, lr: 1.0e-04 loss: 8.366e-02]strawbyte_v1:  56%|#####6    | 1682/3000 [1:34:25<1:08:20,  3.11s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  56%|#####6    | 1682/3000 [1:34:25<1:08:20,  3.11s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  56%|#####6    | 1683/3000 [1:34:25<1:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  56%|#####6    | 1683/3000 [1:34:25<1:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  56%|#####6    | 1683/3000 [1:34:28<1:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  56%|#####6    | 1683/3000 [1:34:28<1:15:29,  3.44s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  56%|#####6    | 1684/3000 [1:34:28<1:13:38,  3.36s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  56%|#####6    | 1684/3000 [1:34:28<1:13:38,  3.36s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  56%|#####6    | 1684/3000 [1:34:32<1:13:38,  3.36s/it, lr: 1.0e-04 loss: 4.120e-02]strawbyte_v1:  56%|#####6    | 1684/3000 [1:34:32<1:13:38,  3.36s/it, lr: 1.0e-04 loss: 4.120e-02]strawbyte_v1:  56%|#####6    | 1685/3000 [1:34:32<1:19:58,  3.65s/it, lr: 1.0e-04 loss: 4.120e-02]strawbyte_v1:  56%|#####6    | 1685/3000 [1:34:32<1:19:58,  3.65s/it, lr: 1.0e-04 loss: 4.120e-02]strawbyte_v1:  56%|#####6    | 1685/3000 [1:34:37<1:19:58,  3.65s/it, lr: 1.0e-04 loss: 9.494e-02]strawbyte_v1:  56%|#####6    | 1685/3000 [1:34:37<1:19:58,  3.65s/it, lr: 1.0e-04 loss: 9.494e-02]strawbyte_v1:  56%|#####6    | 1686/3000 [1:34:37<1:25:01,  3.88s/it, lr: 1.0e-04 loss: 9.494e-02]strawbyte_v1:  56%|#####6    | 1686/3000 [1:34:37<1:25:01,  3.88s/it, lr: 1.0e-04 loss: 9.494e-02]strawbyte_v1:  56%|#####6    | 1686/3000 [1:34:39<1:25:01,  3.88s/it, lr: 1.0e-04 loss: 1.299e-01]strawbyte_v1:  56%|#####6    | 1686/3000 [1:34:39<1:25:01,  3.88s/it, lr: 1.0e-04 loss: 1.299e-01]strawbyte_v1:  56%|#####6    | 1687/3000 [1:34:39<1:15:15,  3.44s/it, lr: 1.0e-04 loss: 1.299e-01]strawbyte_v1:  56%|#####6    | 1687/3000 [1:34:39<1:15:15,  3.44s/it, lr: 1.0e-04 loss: 1.299e-01]strawbyte_v1:  56%|#####6    | 1687/3000 [1:34:42<1:15:15,  3.44s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  56%|#####6    | 1687/3000 [1:34:42<1:15:15,  3.44s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  56%|#####6    | 1688/3000 [1:34:42<1:13:01,  3.34s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  56%|#####6    | 1688/3000 [1:34:42<1:13:01,  3.34s/it, lr: 1.0e-04 loss: 1.887e-01]strawbyte_v1:  56%|#####6    | 1688/3000 [1:34:45<1:13:01,  3.34s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  56%|#####6    | 1688/3000 [1:34:45<1:13:01,  3.34s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  56%|#####6    | 1689/3000 [1:34:45<1:10:32,  3.23s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  56%|#####6    | 1689/3000 [1:34:45<1:10:32,  3.23s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  56%|#####6    | 1689/3000 [1:34:48<1:10:32,  3.23s/it, lr: 1.0e-04 loss: 1.479e-01]strawbyte_v1:  56%|#####6    | 1689/3000 [1:34:48<1:10:32,  3.23s/it, lr: 1.0e-04 loss: 1.479e-01]strawbyte_v1:  56%|#####6    | 1690/3000 [1:34:50<1:10:29,  3.23s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  56%|#####6    | 1690/3000 [1:34:50<1:10:29,  3.23s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  56%|#####6    | 1691/3000 [1:34:50<50:01,  2.29s/it, lr: 1.0e-04 loss: 1.309e-01]  strawbyte_v1:  56%|#####6    | 1691/3000 [1:34:50<50:01,  2.29s/it, lr: 1.0e-04 loss: 1.309e-01]  strawbyte_v1:  56%|#####6    | 1691/3000 [1:34:55<50:01,  2.29s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  56%|#####6    | 1691/3000 [1:34:55<50:01,  2.29s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  56%|#####6    | 1692/3000 [1:34:55<1:01:10,  2.81s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  56%|#####6    | 1692/3000 [1:34:55<1:01:10,  2.81s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  56%|#####6    | 1692/3000 [1:34:57<1:01:10,  2.81s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  56%|#####6    | 1692/3000 [1:34:57<1:01:10,  2.81s/it, lr: 1.0e-04 loss: 1.907e-01]strawbyte_v1:  56%|#####6    | 1693/3000 [1:34:57<57:09,  2.62s/it, lr: 1.0e-04 loss: 1.907e-01]  strawbyte_v1:  56%|#####6    | 1693/3000 [1:34:57<57:09,  2.62s/it, lr: 1.0e-04 loss: 1.907e-01]  strawbyte_v1:  56%|#####6    | 1693/3000 [1:35:00<57:09,  2.62s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:  56%|#####6    | 1693/3000 [1:35:00<57:09,  2.62s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:  56%|#####6    | 1694/3000 [1:35:00<58:54,  2.71s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:  56%|#####6    | 1694/3000 [1:35:00<58:54,  2.71s/it, lr: 1.0e-04 loss: 1.476e-01]strawbyte_v1:  56%|#####6    | 1694/3000 [1:35:03<58:54,  2.71s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  56%|#####6    | 1694/3000 [1:35:03<58:54,  2.71s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  56%|#####6    | 1695/3000 [1:35:03<1:01:25,  2.82s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  56%|#####6    | 1695/3000 [1:35:03<1:01:25,  2.82s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  56%|#####6    | 1695/3000 [1:35:06<1:01:25,  2.82s/it, lr: 1.0e-04 loss: 9.486e-02]strawbyte_v1:  56%|#####6    | 1695/3000 [1:35:06<1:01:25,  2.82s/it, lr: 1.0e-04 loss: 9.486e-02]strawbyte_v1:  57%|#####6    | 1696/3000 [1:35:06<1:01:38,  2.84s/it, lr: 1.0e-04 loss: 9.486e-02]strawbyte_v1:  57%|#####6    | 1696/3000 [1:35:06<1:01:38,  2.84s/it, lr: 1.0e-04 loss: 9.486e-02]strawbyte_v1:  57%|#####6    | 1696/3000 [1:35:08<1:01:38,  2.84s/it, lr: 1.0e-04 loss: 9.931e-02]strawbyte_v1:  57%|#####6    | 1696/3000 [1:35:08<1:01:38,  2.84s/it, lr: 1.0e-04 loss: 9.931e-02]strawbyte_v1:  57%|#####6    | 1697/3000 [1:35:08<56:53,  2.62s/it, lr: 1.0e-04 loss: 9.931e-02]  strawbyte_v1:  57%|#####6    | 1697/3000 [1:35:08<56:53,  2.62s/it, lr: 1.0e-04 loss: 9.931e-02]  strawbyte_v1:  57%|#####6    | 1697/3000 [1:35:10<56:53,  2.62s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  57%|#####6    | 1697/3000 [1:35:10<56:53,  2.62s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  57%|#####6    | 1698/3000 [1:35:10<53:30,  2.47s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  57%|#####6    | 1698/3000 [1:35:10<53:30,  2.47s/it, lr: 1.0e-04 loss: 1.859e-01]strawbyte_v1:  57%|#####6    | 1698/3000 [1:35:15<53:30,  2.47s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  57%|#####6    | 1698/3000 [1:35:15<53:30,  2.47s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  57%|#####6    | 1699/3000 [1:35:15<1:07:17,  3.10s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  57%|#####6    | 1699/3000 [1:35:15<1:07:17,  3.10s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  57%|#####6    | 1699/3000 [1:35:18<1:07:17,  3.10s/it, lr: 1.0e-04 loss: 1.210e-01]strawbyte_v1:  57%|#####6    | 1699/3000 [1:35:18<1:07:17,  3.10s/it, lr: 1.0e-04 loss: 1.210e-01]strawbyte_v1:  57%|#####6    | 1700/3000 [1:35:20<1:07:14,  3.10s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  57%|#####6    | 1700/3000 [1:35:20<1:07:14,  3.10s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  57%|#####6    | 1701/3000 [1:35:20<49:50,  2.30s/it, lr: 1.0e-04 loss: 1.539e-01]  strawbyte_v1:  57%|#####6    | 1701/3000 [1:35:20<49:50,  2.30s/it, lr: 1.0e-04 loss: 1.539e-01]  strawbyte_v1:  57%|#####6    | 1701/3000 [1:35:23<49:50,  2.30s/it, lr: 1.0e-04 loss: 1.713e-01]strawbyte_v1:  57%|#####6    | 1701/3000 [1:35:23<49:50,  2.30s/it, lr: 1.0e-04 loss: 1.713e-01]strawbyte_v1:  57%|#####6    | 1702/3000 [1:35:23<53:38,  2.48s/it, lr: 1.0e-04 loss: 1.713e-01]strawbyte_v1:  57%|#####6    | 1702/3000 [1:35:23<53:38,  2.48s/it, lr: 1.0e-04 loss: 1.713e-01]strawbyte_v1:  57%|#####6    | 1702/3000 [1:35:28<53:38,  2.48s/it, lr: 1.0e-04 loss: 1.771e-02]strawbyte_v1:  57%|#####6    | 1702/3000 [1:35:28<53:38,  2.48s/it, lr: 1.0e-04 loss: 1.771e-02]strawbyte_v1:  57%|#####6    | 1703/3000 [1:35:28<1:04:47,  3.00s/it, lr: 1.0e-04 loss: 1.771e-02]strawbyte_v1:  57%|#####6    | 1703/3000 [1:35:28<1:04:47,  3.00s/it, lr: 1.0e-04 loss: 1.771e-02]strawbyte_v1:  57%|#####6    | 1703/3000 [1:35:32<1:04:47,  3.00s/it, lr: 1.0e-04 loss: 6.972e-02]strawbyte_v1:  57%|#####6    | 1703/3000 [1:35:32<1:04:47,  3.00s/it, lr: 1.0e-04 loss: 6.972e-02]strawbyte_v1:  57%|#####6    | 1704/3000 [1:35:32<1:13:26,  3.40s/it, lr: 1.0e-04 loss: 6.972e-02]strawbyte_v1:  57%|#####6    | 1704/3000 [1:35:32<1:13:26,  3.40s/it, lr: 1.0e-04 loss: 6.972e-02]strawbyte_v1:  57%|#####6    | 1704/3000 [1:35:35<1:13:26,  3.40s/it, lr: 1.0e-04 loss: 2.104e-02]strawbyte_v1:  57%|#####6    | 1704/3000 [1:35:35<1:13:26,  3.40s/it, lr: 1.0e-04 loss: 2.104e-02]strawbyte_v1:  57%|#####6    | 1705/3000 [1:35:35<1:11:02,  3.29s/it, lr: 1.0e-04 loss: 2.104e-02]strawbyte_v1:  57%|#####6    | 1705/3000 [1:35:35<1:11:02,  3.29s/it, lr: 1.0e-04 loss: 2.104e-02]strawbyte_v1:  57%|#####6    | 1705/3000 [1:35:38<1:11:02,  3.29s/it, lr: 1.0e-04 loss: 1.949e-01]strawbyte_v1:  57%|#####6    | 1705/3000 [1:35:38<1:11:02,  3.29s/it, lr: 1.0e-04 loss: 1.949e-01]strawbyte_v1:  57%|#####6    | 1706/3000 [1:35:38<1:09:21,  3.22s/it, lr: 1.0e-04 loss: 1.949e-01]strawbyte_v1:  57%|#####6    | 1706/3000 [1:35:38<1:09:21,  3.22s/it, lr: 1.0e-04 loss: 1.949e-01]strawbyte_v1:  57%|#####6    | 1706/3000 [1:35:41<1:09:21,  3.22s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  57%|#####6    | 1706/3000 [1:35:41<1:09:21,  3.22s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  57%|#####6    | 1707/3000 [1:35:41<1:06:00,  3.06s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  57%|#####6    | 1707/3000 [1:35:41<1:06:00,  3.06s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  57%|#####6    | 1707/3000 [1:35:44<1:06:00,  3.06s/it, lr: 1.0e-04 loss: 1.816e-01]strawbyte_v1:  57%|#####6    | 1707/3000 [1:35:44<1:06:00,  3.06s/it, lr: 1.0e-04 loss: 1.816e-01]strawbyte_v1:  57%|#####6    | 1708/3000 [1:35:44<1:05:18,  3.03s/it, lr: 1.0e-04 loss: 1.816e-01]strawbyte_v1:  57%|#####6    | 1708/3000 [1:35:44<1:05:18,  3.03s/it, lr: 1.0e-04 loss: 1.816e-01]strawbyte_v1:  57%|#####6    | 1708/3000 [1:35:47<1:05:18,  3.03s/it, lr: 1.0e-04 loss: 9.297e-02]strawbyte_v1:  57%|#####6    | 1708/3000 [1:35:47<1:05:18,  3.03s/it, lr: 1.0e-04 loss: 9.297e-02]strawbyte_v1:  57%|#####6    | 1709/3000 [1:35:47<1:03:08,  2.93s/it, lr: 1.0e-04 loss: 9.297e-02]strawbyte_v1:  57%|#####6    | 1709/3000 [1:35:47<1:03:08,  2.93s/it, lr: 1.0e-04 loss: 9.297e-02]strawbyte_v1:  57%|#####6    | 1709/3000 [1:35:50<1:03:08,  2.93s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  57%|#####6    | 1709/3000 [1:35:50<1:03:08,  2.93s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  57%|#####6    | 1710/3000 [1:35:53<1:03:06,  2.93s/it, lr: 1.0e-04 loss: 1.793e-01]strawbyte_v1:  57%|#####6    | 1710/3000 [1:35:53<1:03:06,  2.93s/it, lr: 1.0e-04 loss: 1.793e-01]strawbyte_v1:  57%|#####7    | 1711/3000 [1:35:53<47:28,  2.21s/it, lr: 1.0e-04 loss: 1.793e-01]  strawbyte_v1:  57%|#####7    | 1711/3000 [1:35:53<47:28,  2.21s/it, lr: 1.0e-04 loss: 1.793e-01]  strawbyte_v1:  57%|#####7    | 1711/3000 [1:35:56<47:28,  2.21s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  57%|#####7    | 1711/3000 [1:35:56<47:28,  2.21s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  57%|#####7    | 1712/3000 [1:35:56<51:39,  2.41s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  57%|#####7    | 1712/3000 [1:35:56<51:39,  2.41s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  57%|#####7    | 1712/3000 [1:35:59<51:39,  2.41s/it, lr: 1.0e-04 loss: 3.317e-02]strawbyte_v1:  57%|#####7    | 1712/3000 [1:35:59<51:39,  2.41s/it, lr: 1.0e-04 loss: 3.317e-02]strawbyte_v1:  57%|#####7    | 1713/3000 [1:35:59<55:53,  2.61s/it, lr: 1.0e-04 loss: 3.317e-02]strawbyte_v1:  57%|#####7    | 1713/3000 [1:35:59<55:53,  2.61s/it, lr: 1.0e-04 loss: 3.317e-02]strawbyte_v1:  57%|#####7    | 1713/3000 [1:36:01<55:53,  2.61s/it, lr: 1.0e-04 loss: 2.092e-01]strawbyte_v1:  57%|#####7    | 1713/3000 [1:36:01<55:53,  2.61s/it, lr: 1.0e-04 loss: 2.092e-01]strawbyte_v1:  57%|#####7    | 1714/3000 [1:36:01<52:46,  2.46s/it, lr: 1.0e-04 loss: 2.092e-01]strawbyte_v1:  57%|#####7    | 1714/3000 [1:36:01<52:46,  2.46s/it, lr: 1.0e-04 loss: 2.092e-01]strawbyte_v1:  57%|#####7    | 1714/3000 [1:36:03<52:46,  2.46s/it, lr: 1.0e-04 loss: 1.370e-01]strawbyte_v1:  57%|#####7    | 1714/3000 [1:36:03<52:46,  2.46s/it, lr: 1.0e-04 loss: 1.370e-01]strawbyte_v1:  57%|#####7    | 1715/3000 [1:36:03<50:22,  2.35s/it, lr: 1.0e-04 loss: 1.370e-01]strawbyte_v1:  57%|#####7    | 1715/3000 [1:36:03<50:22,  2.35s/it, lr: 1.0e-04 loss: 1.370e-01]strawbyte_v1:  57%|#####7    | 1715/3000 [1:36:06<50:22,  2.35s/it, lr: 1.0e-04 loss: 4.902e-02]strawbyte_v1:  57%|#####7    | 1715/3000 [1:36:06<50:22,  2.35s/it, lr: 1.0e-04 loss: 4.902e-02]strawbyte_v1:  57%|#####7    | 1716/3000 [1:36:06<53:37,  2.51s/it, lr: 1.0e-04 loss: 4.902e-02]strawbyte_v1:  57%|#####7    | 1716/3000 [1:36:06<53:37,  2.51s/it, lr: 1.0e-04 loss: 4.902e-02]strawbyte_v1:  57%|#####7    | 1716/3000 [1:36:09<53:37,  2.51s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  57%|#####7    | 1716/3000 [1:36:09<53:37,  2.51s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  57%|#####7    | 1717/3000 [1:36:09<56:49,  2.66s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  57%|#####7    | 1717/3000 [1:36:09<56:49,  2.66s/it, lr: 1.0e-04 loss: 0.000e+00]strawbyte_v1:  57%|#####7    | 1717/3000 [1:36:12<56:49,  2.66s/it, lr: 1.0e-04 loss: 1.773e-01]strawbyte_v1:  57%|#####7    | 1717/3000 [1:36:12<56:49,  2.66s/it, lr: 1.0e-04 loss: 1.773e-01]strawbyte_v1:  57%|#####7    | 1718/3000 [1:36:12<58:02,  2.72s/it, lr: 1.0e-04 loss: 1.773e-01]strawbyte_v1:  57%|#####7    | 1718/3000 [1:36:12<58:02,  2.72s/it, lr: 1.0e-04 loss: 1.773e-01]strawbyte_v1:  57%|#####7    | 1718/3000 [1:36:15<58:02,  2.72s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  57%|#####7    | 1718/3000 [1:36:15<58:02,  2.72s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  57%|#####7    | 1719/3000 [1:36:15<59:10,  2.77s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  57%|#####7    | 1719/3000 [1:36:15<59:10,  2.77s/it, lr: 1.0e-04 loss: 1.672e-01]strawbyte_v1:  57%|#####7    | 1719/3000 [1:36:17<59:10,  2.77s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:  57%|#####7    | 1719/3000 [1:36:17<59:10,  2.77s/it, lr: 1.0e-04 loss: 1.103e-01]strawbyte_v1:  57%|#####7    | 1720/3000 [1:36:21<59:07,  2.77s/it, lr: 1.0e-04 loss: 9.768e-02]strawbyte_v1:  57%|#####7    | 1720/3000 [1:36:21<59:07,  2.77s/it, lr: 1.0e-04 loss: 9.768e-02]strawbyte_v1:  57%|#####7    | 1721/3000 [1:36:22<53:37,  2.52s/it, lr: 1.0e-04 loss: 9.768e-02]strawbyte_v1:  57%|#####7    | 1721/3000 [1:36:22<53:37,  2.52s/it, lr: 1.0e-04 loss: 9.768e-02]strawbyte_v1:  57%|#####7    | 1721/3000 [1:36:26<53:37,  2.52s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  57%|#####7    | 1721/3000 [1:36:26<53:37,  2.52s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  57%|#####7    | 1722/3000 [1:36:26<1:03:31,  2.98s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  57%|#####7    | 1722/3000 [1:36:26<1:03:31,  2.98s/it, lr: 1.0e-04 loss: 1.399e-01]strawbyte_v1:  57%|#####7    | 1722/3000 [1:36:29<1:03:31,  2.98s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  57%|#####7    | 1722/3000 [1:36:29<1:03:31,  2.98s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  57%|#####7    | 1723/3000 [1:36:29<1:02:59,  2.96s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  57%|#####7    | 1723/3000 [1:36:29<1:02:59,  2.96s/it, lr: 1.0e-04 loss: 1.307e-01]strawbyte_v1:  57%|#####7    | 1723/3000 [1:36:32<1:02:59,  2.96s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  57%|#####7    | 1723/3000 [1:36:32<1:02:59,  2.96s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  57%|#####7    | 1724/3000 [1:36:32<1:03:49,  3.00s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  57%|#####7    | 1724/3000 [1:36:32<1:03:49,  3.00s/it, lr: 1.0e-04 loss: 1.365e-01]strawbyte_v1:  57%|#####7    | 1724/3000 [1:36:35<1:03:49,  3.00s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  57%|#####7    | 1724/3000 [1:36:35<1:03:49,  3.00s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  57%|#####7    | 1725/3000 [1:36:35<1:03:40,  3.00s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  57%|#####7    | 1725/3000 [1:36:35<1:03:40,  3.00s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  57%|#####7    | 1725/3000 [1:36:39<1:03:40,  3.00s/it, lr: 1.0e-04 loss: 4.483e-02]strawbyte_v1:  57%|#####7    | 1725/3000 [1:36:39<1:03:40,  3.00s/it, lr: 1.0e-04 loss: 4.483e-02]strawbyte_v1:  58%|#####7    | 1726/3000 [1:36:39<1:12:53,  3.43s/it, lr: 1.0e-04 loss: 4.483e-02]strawbyte_v1:  58%|#####7    | 1726/3000 [1:36:39<1:12:53,  3.43s/it, lr: 1.0e-04 loss: 4.483e-02]strawbyte_v1:  58%|#####7    | 1726/3000 [1:36:44<1:12:53,  3.43s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  58%|#####7    | 1726/3000 [1:36:44<1:12:53,  3.43s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  58%|#####7    | 1727/3000 [1:36:44<1:20:43,  3.80s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  58%|#####7    | 1727/3000 [1:36:44<1:20:43,  3.80s/it, lr: 1.0e-04 loss: 4.450e-02]strawbyte_v1:  58%|#####7    | 1727/3000 [1:36:47<1:20:43,  3.80s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  58%|#####7    | 1727/3000 [1:36:47<1:20:43,  3.80s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  58%|#####7    | 1728/3000 [1:36:47<1:13:33,  3.47s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  58%|#####7    | 1728/3000 [1:36:47<1:13:33,  3.47s/it, lr: 1.0e-04 loss: 1.777e-01]strawbyte_v1:  58%|#####7    | 1728/3000 [1:36:51<1:13:33,  3.47s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  58%|#####7    | 1728/3000 [1:36:51<1:13:33,  3.47s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  58%|#####7    | 1729/3000 [1:36:51<1:20:00,  3.78s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  58%|#####7    | 1729/3000 [1:36:51<1:20:00,  3.78s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  58%|#####7    | 1729/3000 [1:36:54<1:20:00,  3.78s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  58%|#####7    | 1729/3000 [1:36:54<1:20:00,  3.78s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  58%|#####7    | 1730/3000 [1:36:57<1:19:56,  3.78s/it, lr: 1.0e-04 loss: 1.807e-01]strawbyte_v1:  58%|#####7    | 1730/3000 [1:36:57<1:19:56,  3.78s/it, lr: 1.0e-04 loss: 1.807e-01]strawbyte_v1:  58%|#####7    | 1731/3000 [1:36:57<58:26,  2.76s/it, lr: 1.0e-04 loss: 1.807e-01]  strawbyte_v1:  58%|#####7    | 1731/3000 [1:36:57<58:26,  2.76s/it, lr: 1.0e-04 loss: 1.807e-01]  strawbyte_v1:  58%|#####7    | 1731/3000 [1:37:00<58:26,  2.76s/it, lr: 1.0e-04 loss: 1.663e-01]strawbyte_v1:  58%|#####7    | 1731/3000 [1:37:00<58:26,  2.76s/it, lr: 1.0e-04 loss: 1.663e-01]strawbyte_v1:  58%|#####7    | 1732/3000 [1:37:00<58:07,  2.75s/it, lr: 1.0e-04 loss: 1.663e-01]strawbyte_v1:  58%|#####7    | 1732/3000 [1:37:00<58:07,  2.75s/it, lr: 1.0e-04 loss: 1.663e-01]strawbyte_v1:  58%|#####7    | 1732/3000 [1:37:05<58:07,  2.75s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  58%|#####7    | 1732/3000 [1:37:05<58:07,  2.75s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  58%|#####7    | 1733/3000 [1:37:05<1:07:22,  3.19s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  58%|#####7    | 1733/3000 [1:37:05<1:07:22,  3.19s/it, lr: 1.0e-04 loss: 7.431e-02]strawbyte_v1:  58%|#####7    | 1733/3000 [1:37:09<1:07:22,  3.19s/it, lr: 1.0e-04 loss: 9.416e-02]strawbyte_v1:  58%|#####7    | 1733/3000 [1:37:09<1:07:22,  3.19s/it, lr: 1.0e-04 loss: 9.416e-02]strawbyte_v1:  58%|#####7    | 1734/3000 [1:37:09<1:14:20,  3.52s/it, lr: 1.0e-04 loss: 9.416e-02]strawbyte_v1:  58%|#####7    | 1734/3000 [1:37:09<1:14:20,  3.52s/it, lr: 1.0e-04 loss: 9.416e-02]strawbyte_v1:  58%|#####7    | 1734/3000 [1:37:12<1:14:20,  3.52s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  58%|#####7    | 1734/3000 [1:37:12<1:14:20,  3.52s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  58%|#####7    | 1735/3000 [1:37:12<1:11:56,  3.41s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  58%|#####7    | 1735/3000 [1:37:12<1:11:56,  3.41s/it, lr: 1.0e-04 loss: 1.208e-01]strawbyte_v1:  58%|#####7    | 1735/3000 [1:37:17<1:11:56,  3.41s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  58%|#####7    | 1735/3000 [1:37:17<1:11:56,  3.41s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  58%|#####7    | 1736/3000 [1:37:17<1:18:03,  3.71s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  58%|#####7    | 1736/3000 [1:37:17<1:18:03,  3.71s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  58%|#####7    | 1736/3000 [1:37:19<1:18:03,  3.71s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  58%|#####7    | 1736/3000 [1:37:19<1:18:03,  3.71s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  58%|#####7    | 1737/3000 [1:37:19<1:11:50,  3.41s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  58%|#####7    | 1737/3000 [1:37:19<1:11:50,  3.41s/it, lr: 1.0e-04 loss: 1.117e-01]strawbyte_v1:  58%|#####7    | 1737/3000 [1:37:22<1:11:50,  3.41s/it, lr: 1.0e-04 loss: 9.058e-02]strawbyte_v1:  58%|#####7    | 1737/3000 [1:37:22<1:11:50,  3.41s/it, lr: 1.0e-04 loss: 9.058e-02]strawbyte_v1:  58%|#####7    | 1738/3000 [1:37:22<1:09:48,  3.32s/it, lr: 1.0e-04 loss: 9.058e-02]strawbyte_v1:  58%|#####7    | 1738/3000 [1:37:22<1:09:48,  3.32s/it, lr: 1.0e-04 loss: 9.058e-02]strawbyte_v1:  58%|#####7    | 1738/3000 [1:37:27<1:09:48,  3.32s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  58%|#####7    | 1738/3000 [1:37:27<1:09:48,  3.32s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  58%|#####7    | 1739/3000 [1:37:27<1:16:21,  3.63s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  58%|#####7    | 1739/3000 [1:37:27<1:16:21,  3.63s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  58%|#####7    | 1739/3000 [1:37:30<1:16:21,  3.63s/it, lr: 1.0e-04 loss: 8.224e-02]strawbyte_v1:  58%|#####7    | 1739/3000 [1:37:30<1:16:21,  3.63s/it, lr: 1.0e-04 loss: 8.224e-02]strawbyte_v1:  58%|#####8    | 1740/3000 [1:37:34<1:16:18,  3.63s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  58%|#####8    | 1740/3000 [1:37:34<1:16:18,  3.63s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  58%|#####8    | 1741/3000 [1:37:34<1:02:20,  2.97s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  58%|#####8    | 1741/3000 [1:37:34<1:02:20,  2.97s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  58%|#####8    | 1741/3000 [1:37:38<1:02:20,  2.97s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  58%|#####8    | 1741/3000 [1:37:38<1:02:20,  2.97s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  58%|#####8    | 1742/3000 [1:37:39<1:10:04,  3.34s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  58%|#####8    | 1742/3000 [1:37:39<1:10:04,  3.34s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  58%|#####8    | 1742/3000 [1:37:41<1:10:04,  3.34s/it, lr: 1.0e-04 loss: 1.409e-01]strawbyte_v1:  58%|#####8    | 1742/3000 [1:37:41<1:10:04,  3.34s/it, lr: 1.0e-04 loss: 1.409e-01]strawbyte_v1:  58%|#####8    | 1743/3000 [1:37:41<1:06:46,  3.19s/it, lr: 1.0e-04 loss: 1.409e-01]strawbyte_v1:  58%|#####8    | 1743/3000 [1:37:41<1:06:46,  3.19s/it, lr: 1.0e-04 loss: 1.409e-01]strawbyte_v1:  58%|#####8    | 1743/3000 [1:37:46<1:06:46,  3.19s/it, lr: 1.0e-04 loss: 1.340e-01]strawbyte_v1:  58%|#####8    | 1743/3000 [1:37:46<1:06:46,  3.19s/it, lr: 1.0e-04 loss: 1.340e-01]strawbyte_v1:  58%|#####8    | 1744/3000 [1:37:46<1:13:30,  3.51s/it, lr: 1.0e-04 loss: 1.340e-01]strawbyte_v1:  58%|#####8    | 1744/3000 [1:37:46<1:13:30,  3.51s/it, lr: 1.0e-04 loss: 1.340e-01]strawbyte_v1:  58%|#####8    | 1744/3000 [1:37:48<1:13:30,  3.51s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  58%|#####8    | 1744/3000 [1:37:48<1:13:30,  3.51s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  58%|#####8    | 1745/3000 [1:37:48<1:05:05,  3.11s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  58%|#####8    | 1745/3000 [1:37:48<1:05:05,  3.11s/it, lr: 1.0e-04 loss: 1.238e-01]strawbyte_v1:  58%|#####8    | 1745/3000 [1:37:51<1:05:05,  3.11s/it, lr: 1.0e-04 loss: 6.189e-02]strawbyte_v1:  58%|#####8    | 1745/3000 [1:37:51<1:05:05,  3.11s/it, lr: 1.0e-04 loss: 6.189e-02]strawbyte_v1:  58%|#####8    | 1746/3000 [1:37:51<1:04:53,  3.10s/it, lr: 1.0e-04 loss: 6.189e-02]strawbyte_v1:  58%|#####8    | 1746/3000 [1:37:51<1:04:53,  3.10s/it, lr: 1.0e-04 loss: 6.189e-02]strawbyte_v1:  58%|#####8    | 1746/3000 [1:37:55<1:04:53,  3.10s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  58%|#####8    | 1746/3000 [1:37:55<1:04:53,  3.10s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  58%|#####8    | 1747/3000 [1:37:55<1:12:35,  3.48s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  58%|#####8    | 1747/3000 [1:37:55<1:12:35,  3.48s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  58%|#####8    | 1747/3000 [1:37:58<1:12:35,  3.48s/it, lr: 1.0e-04 loss: 2.196e-01]strawbyte_v1:  58%|#####8    | 1747/3000 [1:37:58<1:12:35,  3.48s/it, lr: 1.0e-04 loss: 2.196e-01]strawbyte_v1:  58%|#####8    | 1748/3000 [1:37:58<1:07:58,  3.26s/it, lr: 1.0e-04 loss: 2.196e-01]strawbyte_v1:  58%|#####8    | 1748/3000 [1:37:58<1:07:58,  3.26s/it, lr: 1.0e-04 loss: 2.196e-01]strawbyte_v1:  58%|#####8    | 1748/3000 [1:38:01<1:07:58,  3.26s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  58%|#####8    | 1748/3000 [1:38:01<1:07:58,  3.26s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  58%|#####8    | 1749/3000 [1:38:01<1:06:22,  3.18s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  58%|#####8    | 1749/3000 [1:38:01<1:06:22,  3.18s/it, lr: 1.0e-04 loss: 1.362e-01]strawbyte_v1:  58%|#####8    | 1749/3000 [1:38:05<1:06:22,  3.18s/it, lr: 1.0e-04 loss: 9.466e-02]strawbyte_v1:  58%|#####8    | 1749/3000 [1:38:05<1:06:22,  3.18s/it, lr: 1.0e-04 loss: 9.466e-02]
+Saving at step 1750
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001750.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+Removing old save: /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000000750.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:14<03:43, 74.47s/it]Generating Images:  25%|##5       | 1/4 [01:14<03:43, 74.47s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:26<02:26, 73.24s/it]Generating Images:  50%|#####     | 2/4 [02:26<02:26, 73.24s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:41<01:13, 73.77s/it]Generating Images:  75%|#######5  | 3/4 [03:41<01:13, 73.77s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:54<00:00, 73.44s/it]Generating Images: 100%|##########| 4/4 [04:54<00:00, 73.44s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  58%|#####8    | 1750/3000 [1:38:10<1:06:18,  3.18s/it, lr: 1.0e-04 loss: 5.971e-02]strawbyte_v1:  58%|#####8    | 1750/3000 [1:38:10<1:06:18,  3.18s/it, lr: 1.0e-04 loss: 5.971e-02]strawbyte_v1:  58%|#####8    | 1751/3000 [1:38:10<58:23,  2.80s/it, lr: 1.0e-04 loss: 5.971e-02]  strawbyte_v1:  58%|#####8    | 1751/3000 [1:38:10<58:23,  2.80s/it, lr: 1.0e-04 loss: 5.971e-02]  strawbyte_v1:  58%|#####8    | 1751/3000 [1:38:13<58:23,  2.80s/it, lr: 1.0e-04 loss: 1.591e-03]strawbyte_v1:  58%|#####8    | 1751/3000 [1:38:13<58:23,  2.80s/it, lr: 1.0e-04 loss: 1.591e-03]strawbyte_v1:  58%|#####8    | 1752/3000 [1:38:13<59:22,  2.85s/it, lr: 1.0e-04 loss: 1.591e-03]strawbyte_v1:  58%|#####8    | 1752/3000 [1:38:13<59:22,  2.85s/it, lr: 1.0e-04 loss: 1.591e-03]strawbyte_v1:  58%|#####8    | 1752/3000 [1:38:16<59:22,  2.85s/it, lr: 1.0e-04 loss: 5.564e-02]strawbyte_v1:  58%|#####8    | 1752/3000 [1:38:16<59:22,  2.85s/it, lr: 1.0e-04 loss: 5.564e-02]strawbyte_v1:  58%|#####8    | 1753/3000 [1:38:16<58:31,  2.82s/it, lr: 1.0e-04 loss: 5.564e-02]strawbyte_v1:  58%|#####8    | 1753/3000 [1:38:16<58:31,  2.82s/it, lr: 1.0e-04 loss: 5.564e-02]strawbyte_v1:  58%|#####8    | 1753/3000 [1:38:20<58:31,  2.82s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  58%|#####8    | 1753/3000 [1:38:20<58:31,  2.82s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  58%|#####8    | 1754/3000 [1:38:20<1:08:44,  3.31s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  58%|#####8    | 1754/3000 [1:38:20<1:08:44,  3.31s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  58%|#####8    | 1754/3000 [1:38:23<1:08:44,  3.31s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  58%|#####8    | 1754/3000 [1:38:23<1:08:44,  3.31s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  58%|#####8    | 1755/3000 [1:38:23<1:05:05,  3.14s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  58%|#####8    | 1755/3000 [1:38:23<1:05:05,  3.14s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  58%|#####8    | 1755/3000 [1:38:26<1:05:05,  3.14s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  58%|#####8    | 1755/3000 [1:38:26<1:05:05,  3.14s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  59%|#####8    | 1756/3000 [1:38:26<1:04:13,  3.10s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  59%|#####8    | 1756/3000 [1:38:26<1:04:13,  3.10s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  59%|#####8    | 1756/3000 [1:38:31<1:04:13,  3.10s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  59%|#####8    | 1756/3000 [1:38:31<1:04:13,  3.10s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  59%|#####8    | 1757/3000 [1:38:31<1:13:44,  3.56s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  59%|#####8    | 1757/3000 [1:38:31<1:13:44,  3.56s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  59%|#####8    | 1757/3000 [1:38:33<1:13:44,  3.56s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  59%|#####8    | 1757/3000 [1:38:33<1:13:44,  3.56s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  59%|#####8    | 1758/3000 [1:38:33<1:08:22,  3.30s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  59%|#####8    | 1758/3000 [1:38:33<1:08:22,  3.30s/it, lr: 1.0e-04 loss: 1.810e-01]strawbyte_v1:  59%|#####8    | 1758/3000 [1:38:36<1:08:22,  3.30s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  59%|#####8    | 1758/3000 [1:38:36<1:08:22,  3.30s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  59%|#####8    | 1759/3000 [1:38:36<1:04:42,  3.13s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  59%|#####8    | 1759/3000 [1:38:36<1:04:42,  3.13s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  59%|#####8    | 1759/3000 [1:38:39<1:04:42,  3.13s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  59%|#####8    | 1759/3000 [1:38:39<1:04:42,  3.13s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  59%|#####8    | 1760/3000 [1:38:44<1:04:38,  3.13s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  59%|#####8    | 1760/3000 [1:38:44<1:04:38,  3.13s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  59%|#####8    | 1761/3000 [1:38:44<57:09,  2.77s/it, lr: 1.0e-04 loss: 1.130e-01]  strawbyte_v1:  59%|#####8    | 1761/3000 [1:38:44<57:09,  2.77s/it, lr: 1.0e-04 loss: 1.130e-01]  strawbyte_v1:  59%|#####8    | 1761/3000 [1:38:47<57:09,  2.77s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  59%|#####8    | 1761/3000 [1:38:47<57:09,  2.77s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  59%|#####8    | 1762/3000 [1:38:47<58:11,  2.82s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  59%|#####8    | 1762/3000 [1:38:47<58:11,  2.82s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  59%|#####8    | 1762/3000 [1:38:50<58:11,  2.82s/it, lr: 1.0e-04 loss: 9.329e-02]strawbyte_v1:  59%|#####8    | 1762/3000 [1:38:50<58:11,  2.82s/it, lr: 1.0e-04 loss: 9.329e-02]strawbyte_v1:  59%|#####8    | 1763/3000 [1:38:50<59:05,  2.87s/it, lr: 1.0e-04 loss: 9.329e-02]strawbyte_v1:  59%|#####8    | 1763/3000 [1:38:50<59:05,  2.87s/it, lr: 1.0e-04 loss: 9.329e-02]strawbyte_v1:  59%|#####8    | 1763/3000 [1:38:54<59:05,  2.87s/it, lr: 1.0e-04 loss: 5.206e-02]strawbyte_v1:  59%|#####8    | 1763/3000 [1:38:54<59:05,  2.87s/it, lr: 1.0e-04 loss: 5.206e-02]strawbyte_v1:  59%|#####8    | 1764/3000 [1:38:54<1:07:33,  3.28s/it, lr: 1.0e-04 loss: 5.206e-02]strawbyte_v1:  59%|#####8    | 1764/3000 [1:38:54<1:07:33,  3.28s/it, lr: 1.0e-04 loss: 5.206e-02]strawbyte_v1:  59%|#####8    | 1764/3000 [1:38:57<1:07:33,  3.28s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  59%|#####8    | 1764/3000 [1:38:57<1:07:33,  3.28s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  59%|#####8    | 1765/3000 [1:38:57<1:06:21,  3.22s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  59%|#####8    | 1765/3000 [1:38:57<1:06:21,  3.22s/it, lr: 1.0e-04 loss: 1.505e-01]strawbyte_v1:  59%|#####8    | 1765/3000 [1:38:59<1:06:21,  3.22s/it, lr: 1.0e-04 loss: 1.285e-01]strawbyte_v1:  59%|#####8    | 1765/3000 [1:38:59<1:06:21,  3.22s/it, lr: 1.0e-04 loss: 1.285e-01]strawbyte_v1:  59%|#####8    | 1766/3000 [1:38:59<59:51,  2.91s/it, lr: 1.0e-04 loss: 1.285e-01]  strawbyte_v1:  59%|#####8    | 1766/3000 [1:38:59<59:51,  2.91s/it, lr: 1.0e-04 loss: 1.285e-01]  strawbyte_v1:  59%|#####8    | 1766/3000 [1:39:02<59:51,  2.91s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  59%|#####8    | 1766/3000 [1:39:02<59:51,  2.91s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  59%|#####8    | 1767/3000 [1:39:02<59:46,  2.91s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  59%|#####8    | 1767/3000 [1:39:02<59:46,  2.91s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  59%|#####8    | 1767/3000 [1:39:07<59:46,  2.91s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  59%|#####8    | 1767/3000 [1:39:07<59:46,  2.91s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  59%|#####8    | 1768/3000 [1:39:07<1:08:58,  3.36s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  59%|#####8    | 1768/3000 [1:39:07<1:08:58,  3.36s/it, lr: 1.0e-04 loss: 1.152e-01]strawbyte_v1:  59%|#####8    | 1768/3000 [1:39:10<1:08:58,  3.36s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  59%|#####8    | 1768/3000 [1:39:10<1:08:58,  3.36s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  59%|#####8    | 1769/3000 [1:39:10<1:06:08,  3.22s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  59%|#####8    | 1769/3000 [1:39:10<1:06:08,  3.22s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  59%|#####8    | 1769/3000 [1:39:12<1:06:08,  3.22s/it, lr: 1.0e-04 loss: 2.644e-02]strawbyte_v1:  59%|#####8    | 1769/3000 [1:39:12<1:06:08,  3.22s/it, lr: 1.0e-04 loss: 2.644e-02]strawbyte_v1:  59%|#####8    | 1770/3000 [1:39:16<1:06:05,  3.22s/it, lr: 1.0e-04 loss: 6.500e-02]strawbyte_v1:  59%|#####8    | 1770/3000 [1:39:16<1:06:05,  3.22s/it, lr: 1.0e-04 loss: 6.500e-02]strawbyte_v1:  59%|#####9    | 1771/3000 [1:39:16<56:12,  2.74s/it, lr: 1.0e-04 loss: 6.500e-02]  strawbyte_v1:  59%|#####9    | 1771/3000 [1:39:16<56:12,  2.74s/it, lr: 1.0e-04 loss: 6.500e-02]  strawbyte_v1:  59%|#####9    | 1771/3000 [1:39:21<56:12,  2.74s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1771/3000 [1:39:21<56:12,  2.74s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1772/3000 [1:39:21<1:04:28,  3.15s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1772/3000 [1:39:21<1:04:28,  3.15s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1772/3000 [1:39:25<1:04:28,  3.15s/it, lr: 1.0e-04 loss: 8.754e-02]strawbyte_v1:  59%|#####9    | 1772/3000 [1:39:25<1:04:28,  3.15s/it, lr: 1.0e-04 loss: 8.754e-02]strawbyte_v1:  59%|#####9    | 1773/3000 [1:39:25<1:10:58,  3.47s/it, lr: 1.0e-04 loss: 8.754e-02]strawbyte_v1:  59%|#####9    | 1773/3000 [1:39:25<1:10:58,  3.47s/it, lr: 1.0e-04 loss: 8.754e-02]strawbyte_v1:  59%|#####9    | 1773/3000 [1:39:28<1:10:58,  3.47s/it, lr: 1.0e-04 loss: 2.847e-02]strawbyte_v1:  59%|#####9    | 1773/3000 [1:39:28<1:10:58,  3.47s/it, lr: 1.0e-04 loss: 2.847e-02]strawbyte_v1:  59%|#####9    | 1774/3000 [1:39:28<1:08:39,  3.36s/it, lr: 1.0e-04 loss: 2.847e-02]strawbyte_v1:  59%|#####9    | 1774/3000 [1:39:28<1:08:39,  3.36s/it, lr: 1.0e-04 loss: 2.847e-02]strawbyte_v1:  59%|#####9    | 1774/3000 [1:39:31<1:08:39,  3.36s/it, lr: 1.0e-04 loss: 2.206e-01]strawbyte_v1:  59%|#####9    | 1774/3000 [1:39:31<1:08:39,  3.36s/it, lr: 1.0e-04 loss: 2.206e-01]strawbyte_v1:  59%|#####9    | 1775/3000 [1:39:31<1:04:55,  3.18s/it, lr: 1.0e-04 loss: 2.206e-01]strawbyte_v1:  59%|#####9    | 1775/3000 [1:39:31<1:04:55,  3.18s/it, lr: 1.0e-04 loss: 2.206e-01]strawbyte_v1:  59%|#####9    | 1775/3000 [1:39:34<1:04:55,  3.18s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  59%|#####9    | 1775/3000 [1:39:34<1:04:55,  3.18s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  59%|#####9    | 1776/3000 [1:39:34<1:04:39,  3.17s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  59%|#####9    | 1776/3000 [1:39:34<1:04:39,  3.17s/it, lr: 1.0e-04 loss: 1.331e-01]strawbyte_v1:  59%|#####9    | 1776/3000 [1:39:37<1:04:39,  3.17s/it, lr: 1.0e-04 loss: 1.113e-02]strawbyte_v1:  59%|#####9    | 1776/3000 [1:39:37<1:04:39,  3.17s/it, lr: 1.0e-04 loss: 1.113e-02]strawbyte_v1:  59%|#####9    | 1777/3000 [1:39:37<1:01:55,  3.04s/it, lr: 1.0e-04 loss: 1.113e-02]strawbyte_v1:  59%|#####9    | 1777/3000 [1:39:37<1:01:55,  3.04s/it, lr: 1.0e-04 loss: 1.113e-02]strawbyte_v1:  59%|#####9    | 1777/3000 [1:39:41<1:01:55,  3.04s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  59%|#####9    | 1777/3000 [1:39:41<1:01:55,  3.04s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  59%|#####9    | 1778/3000 [1:39:41<1:10:20,  3.45s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  59%|#####9    | 1778/3000 [1:39:41<1:10:20,  3.45s/it, lr: 1.0e-04 loss: 1.179e-01]strawbyte_v1:  59%|#####9    | 1778/3000 [1:39:46<1:10:20,  3.45s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  59%|#####9    | 1778/3000 [1:39:46<1:10:20,  3.45s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  59%|#####9    | 1779/3000 [1:39:46<1:17:58,  3.83s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  59%|#####9    | 1779/3000 [1:39:46<1:17:58,  3.83s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  59%|#####9    | 1779/3000 [1:39:48<1:17:58,  3.83s/it, lr: 1.0e-04 loss: 7.161e-02]strawbyte_v1:  59%|#####9    | 1779/3000 [1:39:48<1:17:58,  3.83s/it, lr: 1.0e-04 loss: 7.161e-02]strawbyte_v1:  59%|#####9    | 1780/3000 [1:39:53<1:17:54,  3.83s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  59%|#####9    | 1780/3000 [1:39:53<1:17:54,  3.83s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  59%|#####9    | 1781/3000 [1:39:53<1:02:42,  3.09s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  59%|#####9    | 1781/3000 [1:39:53<1:02:42,  3.09s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  59%|#####9    | 1781/3000 [1:39:56<1:02:42,  3.09s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  59%|#####9    | 1781/3000 [1:39:56<1:02:42,  3.09s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  59%|#####9    | 1782/3000 [1:39:56<1:01:41,  3.04s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  59%|#####9    | 1782/3000 [1:39:56<1:01:41,  3.04s/it, lr: 1.0e-04 loss: 1.721e-01]strawbyte_v1:  59%|#####9    | 1782/3000 [1:39:59<1:01:41,  3.04s/it, lr: 1.0e-04 loss: 8.445e-02]strawbyte_v1:  59%|#####9    | 1782/3000 [1:39:59<1:01:41,  3.04s/it, lr: 1.0e-04 loss: 8.445e-02]strawbyte_v1:  59%|#####9    | 1783/3000 [1:39:59<1:03:06,  3.11s/it, lr: 1.0e-04 loss: 8.445e-02]strawbyte_v1:  59%|#####9    | 1783/3000 [1:39:59<1:03:06,  3.11s/it, lr: 1.0e-04 loss: 8.445e-02]strawbyte_v1:  59%|#####9    | 1783/3000 [1:40:02<1:03:06,  3.11s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1783/3000 [1:40:02<1:03:06,  3.11s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1784/3000 [1:40:02<1:02:21,  3.08s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1784/3000 [1:40:02<1:02:21,  3.08s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  59%|#####9    | 1784/3000 [1:40:07<1:02:21,  3.08s/it, lr: 1.0e-04 loss: 9.606e-02]strawbyte_v1:  59%|#####9    | 1784/3000 [1:40:07<1:02:21,  3.08s/it, lr: 1.0e-04 loss: 9.606e-02]strawbyte_v1:  60%|#####9    | 1785/3000 [1:40:07<1:09:59,  3.46s/it, lr: 1.0e-04 loss: 9.606e-02]strawbyte_v1:  60%|#####9    | 1785/3000 [1:40:07<1:09:59,  3.46s/it, lr: 1.0e-04 loss: 9.606e-02]strawbyte_v1:  60%|#####9    | 1785/3000 [1:40:11<1:09:59,  3.46s/it, lr: 1.0e-04 loss: 8.177e-02]strawbyte_v1:  60%|#####9    | 1785/3000 [1:40:11<1:09:59,  3.46s/it, lr: 1.0e-04 loss: 8.177e-02]strawbyte_v1:  60%|#####9    | 1786/3000 [1:40:11<1:16:11,  3.77s/it, lr: 1.0e-04 loss: 8.177e-02]strawbyte_v1:  60%|#####9    | 1786/3000 [1:40:11<1:16:11,  3.77s/it, lr: 1.0e-04 loss: 8.177e-02]strawbyte_v1:  60%|#####9    | 1786/3000 [1:40:16<1:16:11,  3.77s/it, lr: 1.0e-04 loss: 6.081e-02]strawbyte_v1:  60%|#####9    | 1786/3000 [1:40:16<1:16:11,  3.77s/it, lr: 1.0e-04 loss: 6.081e-02]strawbyte_v1:  60%|#####9    | 1787/3000 [1:40:16<1:19:29,  3.93s/it, lr: 1.0e-04 loss: 6.081e-02]strawbyte_v1:  60%|#####9    | 1787/3000 [1:40:16<1:19:29,  3.93s/it, lr: 1.0e-04 loss: 6.081e-02]strawbyte_v1:  60%|#####9    | 1787/3000 [1:40:20<1:19:29,  3.93s/it, lr: 1.0e-04 loss: 7.148e-02]strawbyte_v1:  60%|#####9    | 1787/3000 [1:40:20<1:19:29,  3.93s/it, lr: 1.0e-04 loss: 7.148e-02]strawbyte_v1:  60%|#####9    | 1788/3000 [1:40:20<1:22:08,  4.07s/it, lr: 1.0e-04 loss: 7.148e-02]strawbyte_v1:  60%|#####9    | 1788/3000 [1:40:20<1:22:08,  4.07s/it, lr: 1.0e-04 loss: 7.148e-02]strawbyte_v1:  60%|#####9    | 1788/3000 [1:40:23<1:22:08,  4.07s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  60%|#####9    | 1788/3000 [1:40:23<1:22:08,  4.07s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  60%|#####9    | 1789/3000 [1:40:23<1:15:16,  3.73s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  60%|#####9    | 1789/3000 [1:40:23<1:15:16,  3.73s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  60%|#####9    | 1789/3000 [1:40:26<1:15:16,  3.73s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  60%|#####9    | 1789/3000 [1:40:26<1:15:16,  3.73s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  60%|#####9    | 1790/3000 [1:40:29<1:15:12,  3.73s/it, lr: 1.0e-04 loss: 1.391e-01]strawbyte_v1:  60%|#####9    | 1790/3000 [1:40:29<1:15:12,  3.73s/it, lr: 1.0e-04 loss: 1.391e-01]strawbyte_v1:  60%|#####9    | 1791/3000 [1:40:29<54:17,  2.69s/it, lr: 1.0e-04 loss: 1.391e-01]  strawbyte_v1:  60%|#####9    | 1791/3000 [1:40:29<54:17,  2.69s/it, lr: 1.0e-04 loss: 1.391e-01]  strawbyte_v1:  60%|#####9    | 1791/3000 [1:40:33<54:17,  2.69s/it, lr: 1.0e-04 loss: 2.838e-02]strawbyte_v1:  60%|#####9    | 1791/3000 [1:40:33<54:17,  2.69s/it, lr: 1.0e-04 loss: 2.838e-02]strawbyte_v1:  60%|#####9    | 1792/3000 [1:40:33<1:02:16,  3.09s/it, lr: 1.0e-04 loss: 2.838e-02]strawbyte_v1:  60%|#####9    | 1792/3000 [1:40:33<1:02:16,  3.09s/it, lr: 1.0e-04 loss: 2.838e-02]strawbyte_v1:  60%|#####9    | 1792/3000 [1:40:36<1:02:16,  3.09s/it, lr: 1.0e-04 loss: 6.653e-02]strawbyte_v1:  60%|#####9    | 1792/3000 [1:40:36<1:02:16,  3.09s/it, lr: 1.0e-04 loss: 6.653e-02]strawbyte_v1:  60%|#####9    | 1793/3000 [1:40:36<57:06,  2.84s/it, lr: 1.0e-04 loss: 6.653e-02]  strawbyte_v1:  60%|#####9    | 1793/3000 [1:40:36<57:06,  2.84s/it, lr: 1.0e-04 loss: 6.653e-02]  strawbyte_v1:  60%|#####9    | 1793/3000 [1:40:38<57:06,  2.84s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  60%|#####9    | 1793/3000 [1:40:38<57:06,  2.84s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  60%|#####9    | 1794/3000 [1:40:38<54:40,  2.72s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  60%|#####9    | 1794/3000 [1:40:38<54:40,  2.72s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  60%|#####9    | 1794/3000 [1:40:42<54:40,  2.72s/it, lr: 1.0e-04 loss: 4.032e-02]strawbyte_v1:  60%|#####9    | 1794/3000 [1:40:42<54:40,  2.72s/it, lr: 1.0e-04 loss: 4.032e-02]strawbyte_v1:  60%|#####9    | 1795/3000 [1:40:42<1:04:25,  3.21s/it, lr: 1.0e-04 loss: 4.032e-02]strawbyte_v1:  60%|#####9    | 1795/3000 [1:40:42<1:04:25,  3.21s/it, lr: 1.0e-04 loss: 4.032e-02]strawbyte_v1:  60%|#####9    | 1795/3000 [1:40:45<1:04:25,  3.21s/it, lr: 1.0e-04 loss: 7.299e-02]strawbyte_v1:  60%|#####9    | 1795/3000 [1:40:45<1:04:25,  3.21s/it, lr: 1.0e-04 loss: 7.299e-02]strawbyte_v1:  60%|#####9    | 1796/3000 [1:40:45<1:01:34,  3.07s/it, lr: 1.0e-04 loss: 7.299e-02]strawbyte_v1:  60%|#####9    | 1796/3000 [1:40:45<1:01:34,  3.07s/it, lr: 1.0e-04 loss: 7.299e-02]strawbyte_v1:  60%|#####9    | 1796/3000 [1:40:48<1:01:34,  3.07s/it, lr: 1.0e-04 loss: 7.745e-02]strawbyte_v1:  60%|#####9    | 1796/3000 [1:40:48<1:01:34,  3.07s/it, lr: 1.0e-04 loss: 7.745e-02]strawbyte_v1:  60%|#####9    | 1797/3000 [1:40:48<1:01:39,  3.08s/it, lr: 1.0e-04 loss: 7.745e-02]strawbyte_v1:  60%|#####9    | 1797/3000 [1:40:48<1:01:39,  3.08s/it, lr: 1.0e-04 loss: 7.745e-02]strawbyte_v1:  60%|#####9    | 1797/3000 [1:40:51<1:01:39,  3.08s/it, lr: 1.0e-04 loss: 1.735e-03]strawbyte_v1:  60%|#####9    | 1797/3000 [1:40:51<1:01:39,  3.08s/it, lr: 1.0e-04 loss: 1.735e-03]strawbyte_v1:  60%|#####9    | 1798/3000 [1:40:51<59:13,  2.96s/it, lr: 1.0e-04 loss: 1.735e-03]  strawbyte_v1:  60%|#####9    | 1798/3000 [1:40:51<59:13,  2.96s/it, lr: 1.0e-04 loss: 1.735e-03]  strawbyte_v1:  60%|#####9    | 1798/3000 [1:40:55<59:13,  2.96s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  60%|#####9    | 1798/3000 [1:40:55<59:13,  2.96s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  60%|#####9    | 1799/3000 [1:40:55<1:07:43,  3.38s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  60%|#####9    | 1799/3000 [1:40:55<1:07:43,  3.38s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  60%|#####9    | 1799/3000 [1:40:58<1:07:43,  3.38s/it, lr: 1.0e-04 loss: 5.174e-02]strawbyte_v1:  60%|#####9    | 1799/3000 [1:40:58<1:07:43,  3.38s/it, lr: 1.0e-04 loss: 5.174e-02]strawbyte_v1:  60%|######    | 1800/3000 [1:41:02<1:07:40,  3.38s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  60%|######    | 1800/3000 [1:41:02<1:07:40,  3.38s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  60%|######    | 1801/3000 [1:41:02<51:45,  2.59s/it, lr: 1.0e-04 loss: 1.539e-01]  strawbyte_v1:  60%|######    | 1801/3000 [1:41:02<51:45,  2.59s/it, lr: 1.0e-04 loss: 1.539e-01]  strawbyte_v1:  60%|######    | 1801/3000 [1:41:04<51:45,  2.59s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  60%|######    | 1801/3000 [1:41:04<51:45,  2.59s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  60%|######    | 1802/3000 [1:41:04<52:12,  2.61s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  60%|######    | 1802/3000 [1:41:04<52:12,  2.61s/it, lr: 1.0e-04 loss: 1.673e-01]strawbyte_v1:  60%|######    | 1802/3000 [1:41:07<52:12,  2.61s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  60%|######    | 1802/3000 [1:41:07<52:12,  2.61s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  60%|######    | 1803/3000 [1:41:07<54:10,  2.72s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  60%|######    | 1803/3000 [1:41:07<54:10,  2.72s/it, lr: 1.0e-04 loss: 1.100e-01]strawbyte_v1:  60%|######    | 1803/3000 [1:41:10<54:10,  2.72s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  60%|######    | 1803/3000 [1:41:10<54:10,  2.72s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  60%|######    | 1804/3000 [1:41:10<55:34,  2.79s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  60%|######    | 1804/3000 [1:41:10<55:34,  2.79s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  60%|######    | 1804/3000 [1:41:13<55:34,  2.79s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  60%|######    | 1804/3000 [1:41:13<55:34,  2.79s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  60%|######    | 1805/3000 [1:41:13<56:57,  2.86s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  60%|######    | 1805/3000 [1:41:13<56:57,  2.86s/it, lr: 1.0e-04 loss: 1.805e-01]strawbyte_v1:  60%|######    | 1805/3000 [1:41:18<56:57,  2.86s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  60%|######    | 1805/3000 [1:41:18<56:57,  2.86s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  60%|######    | 1806/3000 [1:41:18<1:06:06,  3.32s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  60%|######    | 1806/3000 [1:41:18<1:06:06,  3.32s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  60%|######    | 1806/3000 [1:41:21<1:06:06,  3.32s/it, lr: 1.0e-04 loss: 3.023e-02]strawbyte_v1:  60%|######    | 1806/3000 [1:41:21<1:06:06,  3.32s/it, lr: 1.0e-04 loss: 3.023e-02]strawbyte_v1:  60%|######    | 1807/3000 [1:41:21<1:04:23,  3.24s/it, lr: 1.0e-04 loss: 3.023e-02]strawbyte_v1:  60%|######    | 1807/3000 [1:41:21<1:04:23,  3.24s/it, lr: 1.0e-04 loss: 3.023e-02]strawbyte_v1:  60%|######    | 1807/3000 [1:41:24<1:04:23,  3.24s/it, lr: 1.0e-04 loss: 2.287e-01]strawbyte_v1:  60%|######    | 1807/3000 [1:41:24<1:04:23,  3.24s/it, lr: 1.0e-04 loss: 2.287e-01]strawbyte_v1:  60%|######    | 1808/3000 [1:41:24<1:03:17,  3.19s/it, lr: 1.0e-04 loss: 2.287e-01]strawbyte_v1:  60%|######    | 1808/3000 [1:41:24<1:03:17,  3.19s/it, lr: 1.0e-04 loss: 2.287e-01]strawbyte_v1:  60%|######    | 1808/3000 [1:41:28<1:03:17,  3.19s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  60%|######    | 1808/3000 [1:41:28<1:03:17,  3.19s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  60%|######    | 1809/3000 [1:41:28<1:10:22,  3.55s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  60%|######    | 1809/3000 [1:41:28<1:10:22,  3.55s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  60%|######    | 1809/3000 [1:41:33<1:10:22,  3.55s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  60%|######    | 1809/3000 [1:41:33<1:10:22,  3.55s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  60%|######    | 1810/3000 [1:41:36<1:10:18,  3.55s/it, lr: 1.0e-04 loss: 5.885e-02]strawbyte_v1:  60%|######    | 1810/3000 [1:41:36<1:10:18,  3.55s/it, lr: 1.0e-04 loss: 5.885e-02]strawbyte_v1:  60%|######    | 1811/3000 [1:41:36<51:10,  2.58s/it, lr: 1.0e-04 loss: 5.885e-02]  strawbyte_v1:  60%|######    | 1811/3000 [1:41:36<51:10,  2.58s/it, lr: 1.0e-04 loss: 5.885e-02]  strawbyte_v1:  60%|######    | 1811/3000 [1:41:40<51:10,  2.58s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  60%|######    | 1811/3000 [1:41:40<51:10,  2.58s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  60%|######    | 1812/3000 [1:41:40<1:00:56,  3.08s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  60%|######    | 1812/3000 [1:41:40<1:00:56,  3.08s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  60%|######    | 1812/3000 [1:41:42<1:00:56,  3.08s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  60%|######    | 1812/3000 [1:41:42<1:00:56,  3.08s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  60%|######    | 1813/3000 [1:41:42<55:39,  2.81s/it, lr: 1.0e-04 loss: 1.811e-01]  strawbyte_v1:  60%|######    | 1813/3000 [1:41:42<55:39,  2.81s/it, lr: 1.0e-04 loss: 1.811e-01]  strawbyte_v1:  60%|######    | 1813/3000 [1:41:44<55:39,  2.81s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  60%|######    | 1813/3000 [1:41:44<55:39,  2.81s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  60%|######    | 1814/3000 [1:41:44<51:38,  2.61s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  60%|######    | 1814/3000 [1:41:44<51:38,  2.61s/it, lr: 1.0e-04 loss: 1.852e-01]strawbyte_v1:  60%|######    | 1814/3000 [1:41:49<51:38,  2.61s/it, lr: 1.0e-04 loss: 3.899e-02]strawbyte_v1:  60%|######    | 1814/3000 [1:41:49<51:38,  2.61s/it, lr: 1.0e-04 loss: 3.899e-02]strawbyte_v1:  60%|######    | 1815/3000 [1:41:49<1:02:37,  3.17s/it, lr: 1.0e-04 loss: 3.899e-02]strawbyte_v1:  60%|######    | 1815/3000 [1:41:49<1:02:37,  3.17s/it, lr: 1.0e-04 loss: 3.899e-02]strawbyte_v1:  60%|######    | 1815/3000 [1:41:52<1:02:37,  3.17s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  60%|######    | 1815/3000 [1:41:52<1:02:37,  3.17s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  61%|######    | 1816/3000 [1:41:52<1:00:09,  3.05s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  61%|######    | 1816/3000 [1:41:52<1:00:09,  3.05s/it, lr: 1.0e-04 loss: 1.637e-01]strawbyte_v1:  61%|######    | 1816/3000 [1:41:56<1:00:09,  3.05s/it, lr: 1.0e-04 loss: 9.481e-02]strawbyte_v1:  61%|######    | 1816/3000 [1:41:56<1:00:09,  3.05s/it, lr: 1.0e-04 loss: 9.481e-02]strawbyte_v1:  61%|######    | 1817/3000 [1:41:56<1:07:37,  3.43s/it, lr: 1.0e-04 loss: 9.481e-02]strawbyte_v1:  61%|######    | 1817/3000 [1:41:56<1:07:37,  3.43s/it, lr: 1.0e-04 loss: 9.481e-02]strawbyte_v1:  61%|######    | 1817/3000 [1:42:00<1:07:37,  3.43s/it, lr: 1.0e-04 loss: 6.871e-02]strawbyte_v1:  61%|######    | 1817/3000 [1:42:00<1:07:37,  3.43s/it, lr: 1.0e-04 loss: 6.871e-02]strawbyte_v1:  61%|######    | 1818/3000 [1:42:00<1:12:47,  3.69s/it, lr: 1.0e-04 loss: 6.871e-02]strawbyte_v1:  61%|######    | 1818/3000 [1:42:00<1:12:47,  3.69s/it, lr: 1.0e-04 loss: 6.871e-02]strawbyte_v1:  61%|######    | 1818/3000 [1:42:03<1:12:47,  3.69s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  61%|######    | 1818/3000 [1:42:03<1:12:47,  3.69s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  61%|######    | 1819/3000 [1:42:03<1:05:13,  3.31s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  61%|######    | 1819/3000 [1:42:03<1:05:13,  3.31s/it, lr: 1.0e-04 loss: 1.832e-01]strawbyte_v1:  61%|######    | 1819/3000 [1:42:06<1:05:13,  3.31s/it, lr: 1.0e-04 loss: 1.440e-01]strawbyte_v1:  61%|######    | 1819/3000 [1:42:06<1:05:13,  3.31s/it, lr: 1.0e-04 loss: 1.440e-01]strawbyte_v1:  61%|######    | 1820/3000 [1:42:09<1:05:10,  3.31s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  61%|######    | 1820/3000 [1:42:09<1:05:10,  3.31s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  61%|######    | 1821/3000 [1:42:09<48:45,  2.48s/it, lr: 1.0e-04 loss: 1.513e-01]  strawbyte_v1:  61%|######    | 1821/3000 [1:42:09<48:45,  2.48s/it, lr: 1.0e-04 loss: 1.513e-01]  strawbyte_v1:  61%|######    | 1821/3000 [1:42:12<48:45,  2.48s/it, lr: 1.0e-04 loss: 8.980e-02]strawbyte_v1:  61%|######    | 1821/3000 [1:42:12<48:45,  2.48s/it, lr: 1.0e-04 loss: 8.980e-02]strawbyte_v1:  61%|######    | 1822/3000 [1:42:12<52:57,  2.70s/it, lr: 1.0e-04 loss: 8.980e-02]strawbyte_v1:  61%|######    | 1822/3000 [1:42:12<52:57,  2.70s/it, lr: 1.0e-04 loss: 8.980e-02]strawbyte_v1:  61%|######    | 1822/3000 [1:42:15<52:57,  2.70s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  61%|######    | 1822/3000 [1:42:15<52:57,  2.70s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  61%|######    | 1823/3000 [1:42:15<54:45,  2.79s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  61%|######    | 1823/3000 [1:42:15<54:45,  2.79s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  61%|######    | 1823/3000 [1:42:18<54:45,  2.79s/it, lr: 1.0e-04 loss: 7.496e-02]strawbyte_v1:  61%|######    | 1823/3000 [1:42:18<54:45,  2.79s/it, lr: 1.0e-04 loss: 7.496e-02]strawbyte_v1:  61%|######    | 1824/3000 [1:42:18<56:01,  2.86s/it, lr: 1.0e-04 loss: 7.496e-02]strawbyte_v1:  61%|######    | 1824/3000 [1:42:18<56:01,  2.86s/it, lr: 1.0e-04 loss: 7.496e-02]strawbyte_v1:  61%|######    | 1824/3000 [1:42:21<56:01,  2.86s/it, lr: 1.0e-04 loss: 9.281e-02]strawbyte_v1:  61%|######    | 1824/3000 [1:42:21<56:01,  2.86s/it, lr: 1.0e-04 loss: 9.281e-02]strawbyte_v1:  61%|######    | 1825/3000 [1:42:21<56:48,  2.90s/it, lr: 1.0e-04 loss: 9.281e-02]strawbyte_v1:  61%|######    | 1825/3000 [1:42:21<56:48,  2.90s/it, lr: 1.0e-04 loss: 9.281e-02]strawbyte_v1:  61%|######    | 1825/3000 [1:42:24<56:48,  2.90s/it, lr: 1.0e-04 loss: 5.747e-02]strawbyte_v1:  61%|######    | 1825/3000 [1:42:24<56:48,  2.90s/it, lr: 1.0e-04 loss: 5.747e-02]strawbyte_v1:  61%|######    | 1826/3000 [1:42:24<57:51,  2.96s/it, lr: 1.0e-04 loss: 5.747e-02]strawbyte_v1:  61%|######    | 1826/3000 [1:42:24<57:51,  2.96s/it, lr: 1.0e-04 loss: 5.747e-02]strawbyte_v1:  61%|######    | 1826/3000 [1:42:27<57:51,  2.96s/it, lr: 1.0e-04 loss: 2.058e-01]strawbyte_v1:  61%|######    | 1826/3000 [1:42:27<57:51,  2.96s/it, lr: 1.0e-04 loss: 2.058e-01]strawbyte_v1:  61%|######    | 1827/3000 [1:42:27<56:17,  2.88s/it, lr: 1.0e-04 loss: 2.058e-01]strawbyte_v1:  61%|######    | 1827/3000 [1:42:27<56:17,  2.88s/it, lr: 1.0e-04 loss: 2.058e-01]strawbyte_v1:  61%|######    | 1827/3000 [1:42:30<56:17,  2.88s/it, lr: 1.0e-04 loss: 1.687e-02]strawbyte_v1:  61%|######    | 1827/3000 [1:42:30<56:17,  2.88s/it, lr: 1.0e-04 loss: 1.687e-02]strawbyte_v1:  61%|######    | 1828/3000 [1:42:30<56:51,  2.91s/it, lr: 1.0e-04 loss: 1.687e-02]strawbyte_v1:  61%|######    | 1828/3000 [1:42:30<56:51,  2.91s/it, lr: 1.0e-04 loss: 1.687e-02]strawbyte_v1:  61%|######    | 1828/3000 [1:42:34<56:51,  2.91s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  61%|######    | 1828/3000 [1:42:34<56:51,  2.91s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  61%|######    | 1829/3000 [1:42:34<1:05:33,  3.36s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  61%|######    | 1829/3000 [1:42:34<1:05:33,  3.36s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  61%|######    | 1829/3000 [1:42:39<1:05:33,  3.36s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:  61%|######    | 1829/3000 [1:42:39<1:05:33,  3.36s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:  61%|######1   | 1830/3000 [1:42:42<1:05:30,  3.36s/it, lr: 1.0e-04 loss: 1.994e-01]strawbyte_v1:  61%|######1   | 1830/3000 [1:42:42<1:05:30,  3.36s/it, lr: 1.0e-04 loss: 1.994e-01]strawbyte_v1:  61%|######1   | 1831/3000 [1:42:42<48:57,  2.51s/it, lr: 1.0e-04 loss: 1.994e-01]  strawbyte_v1:  61%|######1   | 1831/3000 [1:42:42<48:57,  2.51s/it, lr: 1.0e-04 loss: 1.994e-01]  strawbyte_v1:  61%|######1   | 1831/3000 [1:42:47<48:57,  2.51s/it, lr: 1.0e-04 loss: 5.032e-02]strawbyte_v1:  61%|######1   | 1831/3000 [1:42:47<48:57,  2.51s/it, lr: 1.0e-04 loss: 5.032e-02]strawbyte_v1:  61%|######1   | 1832/3000 [1:42:47<58:22,  3.00s/it, lr: 1.0e-04 loss: 5.032e-02]strawbyte_v1:  61%|######1   | 1832/3000 [1:42:47<58:22,  3.00s/it, lr: 1.0e-04 loss: 5.032e-02]strawbyte_v1:  61%|######1   | 1832/3000 [1:42:50<58:22,  3.00s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  61%|######1   | 1832/3000 [1:42:50<58:22,  3.00s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  61%|######1   | 1833/3000 [1:42:50<58:54,  3.03s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  61%|######1   | 1833/3000 [1:42:50<58:54,  3.03s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  61%|######1   | 1833/3000 [1:42:54<58:54,  3.03s/it, lr: 1.0e-04 loss: 9.757e-02]strawbyte_v1:  61%|######1   | 1833/3000 [1:42:54<58:54,  3.03s/it, lr: 1.0e-04 loss: 9.757e-02]strawbyte_v1:  61%|######1   | 1834/3000 [1:42:54<1:06:02,  3.40s/it, lr: 1.0e-04 loss: 9.757e-02]strawbyte_v1:  61%|######1   | 1834/3000 [1:42:54<1:06:02,  3.40s/it, lr: 1.0e-04 loss: 9.757e-02]strawbyte_v1:  61%|######1   | 1834/3000 [1:42:57<1:06:02,  3.40s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  61%|######1   | 1834/3000 [1:42:57<1:06:02,  3.40s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  61%|######1   | 1835/3000 [1:42:57<1:03:04,  3.25s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  61%|######1   | 1835/3000 [1:42:57<1:03:04,  3.25s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  61%|######1   | 1835/3000 [1:43:00<1:03:04,  3.25s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  61%|######1   | 1835/3000 [1:43:00<1:03:04,  3.25s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  61%|######1   | 1836/3000 [1:43:00<1:00:11,  3.10s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  61%|######1   | 1836/3000 [1:43:00<1:00:11,  3.10s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  61%|######1   | 1836/3000 [1:43:02<1:00:11,  3.10s/it, lr: 1.0e-04 loss: 1.566e-01]strawbyte_v1:  61%|######1   | 1836/3000 [1:43:02<1:00:11,  3.10s/it, lr: 1.0e-04 loss: 1.566e-01]strawbyte_v1:  61%|######1   | 1837/3000 [1:43:02<56:07,  2.90s/it, lr: 1.0e-04 loss: 1.566e-01]  strawbyte_v1:  61%|######1   | 1837/3000 [1:43:02<56:07,  2.90s/it, lr: 1.0e-04 loss: 1.566e-01]  strawbyte_v1:  61%|######1   | 1837/3000 [1:43:04<56:07,  2.90s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  61%|######1   | 1837/3000 [1:43:04<56:07,  2.90s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  61%|######1   | 1838/3000 [1:43:04<51:27,  2.66s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  61%|######1   | 1838/3000 [1:43:04<51:27,  2.66s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  61%|######1   | 1838/3000 [1:43:06<51:27,  2.66s/it, lr: 1.0e-04 loss: 1.782e-01]strawbyte_v1:  61%|######1   | 1838/3000 [1:43:06<51:27,  2.66s/it, lr: 1.0e-04 loss: 1.782e-01]strawbyte_v1:  61%|######1   | 1839/3000 [1:43:06<48:09,  2.49s/it, lr: 1.0e-04 loss: 1.782e-01]strawbyte_v1:  61%|######1   | 1839/3000 [1:43:06<48:09,  2.49s/it, lr: 1.0e-04 loss: 1.782e-01]strawbyte_v1:  61%|######1   | 1839/3000 [1:43:11<48:09,  2.49s/it, lr: 1.0e-04 loss: 1.095e-01]strawbyte_v1:  61%|######1   | 1839/3000 [1:43:11<48:09,  2.49s/it, lr: 1.0e-04 loss: 1.095e-01]strawbyte_v1:  61%|######1   | 1840/3000 [1:43:13<48:06,  2.49s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  61%|######1   | 1840/3000 [1:43:13<48:06,  2.49s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  61%|######1   | 1841/3000 [1:43:13<36:35,  1.89s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  61%|######1   | 1841/3000 [1:43:13<36:35,  1.89s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  61%|######1   | 1841/3000 [1:43:16<36:35,  1.89s/it, lr: 1.0e-04 loss: 1.786e-01]strawbyte_v1:  61%|######1   | 1841/3000 [1:43:16<36:35,  1.89s/it, lr: 1.0e-04 loss: 1.786e-01]strawbyte_v1:  61%|######1   | 1842/3000 [1:43:16<41:22,  2.14s/it, lr: 1.0e-04 loss: 1.786e-01]strawbyte_v1:  61%|######1   | 1842/3000 [1:43:16<41:22,  2.14s/it, lr: 1.0e-04 loss: 1.786e-01]strawbyte_v1:  61%|######1   | 1842/3000 [1:43:19<41:22,  2.14s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  61%|######1   | 1842/3000 [1:43:19<41:22,  2.14s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  61%|######1   | 1843/3000 [1:43:19<45:19,  2.35s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  61%|######1   | 1843/3000 [1:43:19<45:19,  2.35s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  61%|######1   | 1843/3000 [1:43:21<45:19,  2.35s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  61%|######1   | 1843/3000 [1:43:21<45:19,  2.35s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  61%|######1   | 1844/3000 [1:43:21<45:25,  2.36s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  61%|######1   | 1844/3000 [1:43:21<45:25,  2.36s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  61%|######1   | 1844/3000 [1:43:26<45:25,  2.36s/it, lr: 1.0e-04 loss: 5.663e-02]strawbyte_v1:  61%|######1   | 1844/3000 [1:43:26<45:25,  2.36s/it, lr: 1.0e-04 loss: 5.663e-02]strawbyte_v1:  62%|######1   | 1845/3000 [1:43:26<56:03,  2.91s/it, lr: 1.0e-04 loss: 5.663e-02]strawbyte_v1:  62%|######1   | 1845/3000 [1:43:26<56:03,  2.91s/it, lr: 1.0e-04 loss: 5.663e-02]strawbyte_v1:  62%|######1   | 1845/3000 [1:43:28<56:03,  2.91s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  62%|######1   | 1845/3000 [1:43:28<56:03,  2.91s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  62%|######1   | 1846/3000 [1:43:28<54:42,  2.84s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  62%|######1   | 1846/3000 [1:43:28<54:42,  2.84s/it, lr: 1.0e-04 loss: 1.484e-01]strawbyte_v1:  62%|######1   | 1846/3000 [1:43:33<54:42,  2.84s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  62%|######1   | 1846/3000 [1:43:33<54:42,  2.84s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  62%|######1   | 1847/3000 [1:43:33<1:03:47,  3.32s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  62%|######1   | 1847/3000 [1:43:33<1:03:47,  3.32s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  62%|######1   | 1847/3000 [1:43:36<1:03:47,  3.32s/it, lr: 1.0e-04 loss: 5.560e-02]strawbyte_v1:  62%|######1   | 1847/3000 [1:43:36<1:03:47,  3.32s/it, lr: 1.0e-04 loss: 5.560e-02]strawbyte_v1:  62%|######1   | 1848/3000 [1:43:36<1:03:48,  3.32s/it, lr: 1.0e-04 loss: 5.560e-02]strawbyte_v1:  62%|######1   | 1848/3000 [1:43:36<1:03:48,  3.32s/it, lr: 1.0e-04 loss: 5.560e-02]strawbyte_v1:  62%|######1   | 1848/3000 [1:43:39<1:03:48,  3.32s/it, lr: 1.0e-04 loss: 4.491e-02]strawbyte_v1:  62%|######1   | 1848/3000 [1:43:39<1:03:48,  3.32s/it, lr: 1.0e-04 loss: 4.491e-02]strawbyte_v1:  62%|######1   | 1849/3000 [1:43:39<1:00:07,  3.13s/it, lr: 1.0e-04 loss: 4.491e-02]strawbyte_v1:  62%|######1   | 1849/3000 [1:43:39<1:00:07,  3.13s/it, lr: 1.0e-04 loss: 4.491e-02]strawbyte_v1:  62%|######1   | 1849/3000 [1:43:43<1:00:07,  3.13s/it, lr: 1.0e-04 loss: 9.258e-02]strawbyte_v1:  62%|######1   | 1849/3000 [1:43:43<1:00:07,  3.13s/it, lr: 1.0e-04 loss: 9.258e-02]strawbyte_v1:  62%|######1   | 1850/3000 [1:43:48<1:00:04,  3.13s/it, lr: 1.0e-04 loss: 6.878e-02]strawbyte_v1:  62%|######1   | 1850/3000 [1:43:48<1:00:04,  3.13s/it, lr: 1.0e-04 loss: 6.878e-02]strawbyte_v1:  62%|######1   | 1851/3000 [1:43:48<52:03,  2.72s/it, lr: 1.0e-04 loss: 6.878e-02]  strawbyte_v1:  62%|######1   | 1851/3000 [1:43:48<52:03,  2.72s/it, lr: 1.0e-04 loss: 6.878e-02]  strawbyte_v1:  62%|######1   | 1851/3000 [1:43:51<52:03,  2.72s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  62%|######1   | 1851/3000 [1:43:51<52:03,  2.72s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  62%|######1   | 1852/3000 [1:43:51<54:53,  2.87s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  62%|######1   | 1852/3000 [1:43:51<54:53,  2.87s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  62%|######1   | 1852/3000 [1:43:55<54:53,  2.87s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  62%|######1   | 1852/3000 [1:43:55<54:53,  2.87s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  62%|######1   | 1853/3000 [1:43:55<1:02:50,  3.29s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  62%|######1   | 1853/3000 [1:43:55<1:02:50,  3.29s/it, lr: 1.0e-04 loss: 1.115e-01]strawbyte_v1:  62%|######1   | 1853/3000 [1:44:00<1:02:50,  3.29s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  62%|######1   | 1853/3000 [1:44:00<1:02:50,  3.29s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  62%|######1   | 1854/3000 [1:44:00<1:09:03,  3.62s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  62%|######1   | 1854/3000 [1:44:00<1:09:03,  3.62s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  62%|######1   | 1854/3000 [1:44:05<1:09:03,  3.62s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  62%|######1   | 1854/3000 [1:44:05<1:09:03,  3.62s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  62%|######1   | 1855/3000 [1:44:05<1:15:02,  3.93s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  62%|######1   | 1855/3000 [1:44:05<1:15:02,  3.93s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  62%|######1   | 1855/3000 [1:44:08<1:15:02,  3.93s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  62%|######1   | 1855/3000 [1:44:08<1:15:02,  3.93s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  62%|######1   | 1856/3000 [1:44:08<1:09:48,  3.66s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  62%|######1   | 1856/3000 [1:44:08<1:09:48,  3.66s/it, lr: 1.0e-04 loss: 1.184e-01]strawbyte_v1:  62%|######1   | 1856/3000 [1:44:11<1:09:48,  3.66s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  62%|######1   | 1856/3000 [1:44:11<1:09:48,  3.66s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  62%|######1   | 1857/3000 [1:44:11<1:06:14,  3.48s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  62%|######1   | 1857/3000 [1:44:11<1:06:14,  3.48s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  62%|######1   | 1857/3000 [1:44:13<1:06:14,  3.48s/it, lr: 1.0e-04 loss: 1.988e-01]strawbyte_v1:  62%|######1   | 1857/3000 [1:44:13<1:06:14,  3.48s/it, lr: 1.0e-04 loss: 1.988e-01]strawbyte_v1:  62%|######1   | 1858/3000 [1:44:13<1:00:32,  3.18s/it, lr: 1.0e-04 loss: 1.988e-01]strawbyte_v1:  62%|######1   | 1858/3000 [1:44:13<1:00:32,  3.18s/it, lr: 1.0e-04 loss: 1.988e-01]strawbyte_v1:  62%|######1   | 1858/3000 [1:44:16<1:00:32,  3.18s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  62%|######1   | 1858/3000 [1:44:16<1:00:32,  3.18s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  62%|######1   | 1859/3000 [1:44:16<1:00:02,  3.16s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  62%|######1   | 1859/3000 [1:44:16<1:00:02,  3.16s/it, lr: 1.0e-04 loss: 1.223e-01]strawbyte_v1:  62%|######1   | 1859/3000 [1:44:18<1:00:02,  3.16s/it, lr: 1.0e-04 loss: 1.459e-01]strawbyte_v1:  62%|######1   | 1859/3000 [1:44:18<1:00:02,  3.16s/it, lr: 1.0e-04 loss: 1.459e-01]strawbyte_v1:  62%|######2   | 1860/3000 [1:44:20<59:59,  3.16s/it, lr: 1.0e-04 loss: 1.367e-01]  strawbyte_v1:  62%|######2   | 1860/3000 [1:44:20<59:59,  3.16s/it, lr: 1.0e-04 loss: 1.367e-01]  strawbyte_v1:  62%|######2   | 1861/3000 [1:44:20<41:33,  2.19s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  62%|######2   | 1861/3000 [1:44:20<41:33,  2.19s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  62%|######2   | 1861/3000 [1:44:25<41:33,  2.19s/it, lr: 1.0e-04 loss: 9.615e-02]strawbyte_v1:  62%|######2   | 1861/3000 [1:44:25<41:33,  2.19s/it, lr: 1.0e-04 loss: 9.615e-02]strawbyte_v1:  62%|######2   | 1862/3000 [1:44:25<52:40,  2.78s/it, lr: 1.0e-04 loss: 9.615e-02]strawbyte_v1:  62%|######2   | 1862/3000 [1:44:25<52:40,  2.78s/it, lr: 1.0e-04 loss: 9.615e-02]strawbyte_v1:  62%|######2   | 1862/3000 [1:44:29<52:40,  2.78s/it, lr: 1.0e-04 loss: 2.839e-02]strawbyte_v1:  62%|######2   | 1862/3000 [1:44:29<52:40,  2.78s/it, lr: 1.0e-04 loss: 2.839e-02]strawbyte_v1:  62%|######2   | 1863/3000 [1:44:29<1:00:29,  3.19s/it, lr: 1.0e-04 loss: 2.839e-02]strawbyte_v1:  62%|######2   | 1863/3000 [1:44:29<1:00:29,  3.19s/it, lr: 1.0e-04 loss: 2.839e-02]strawbyte_v1:  62%|######2   | 1863/3000 [1:44:31<1:00:29,  3.19s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  62%|######2   | 1863/3000 [1:44:31<1:00:29,  3.19s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  62%|######2   | 1864/3000 [1:44:31<54:45,  2.89s/it, lr: 1.0e-04 loss: 1.394e-01]  strawbyte_v1:  62%|######2   | 1864/3000 [1:44:31<54:45,  2.89s/it, lr: 1.0e-04 loss: 1.394e-01]  strawbyte_v1:  62%|######2   | 1864/3000 [1:44:34<54:45,  2.89s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  62%|######2   | 1864/3000 [1:44:34<54:45,  2.89s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  62%|######2   | 1865/3000 [1:44:34<54:31,  2.88s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  62%|######2   | 1865/3000 [1:44:34<54:31,  2.88s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  62%|######2   | 1865/3000 [1:44:39<54:31,  2.88s/it, lr: 1.0e-04 loss: 9.619e-02]strawbyte_v1:  62%|######2   | 1865/3000 [1:44:39<54:31,  2.88s/it, lr: 1.0e-04 loss: 9.619e-02]strawbyte_v1:  62%|######2   | 1866/3000 [1:44:39<1:03:44,  3.37s/it, lr: 1.0e-04 loss: 9.619e-02]strawbyte_v1:  62%|######2   | 1866/3000 [1:44:39<1:03:44,  3.37s/it, lr: 1.0e-04 loss: 9.619e-02]strawbyte_v1:  62%|######2   | 1866/3000 [1:44:43<1:03:44,  3.37s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  62%|######2   | 1866/3000 [1:44:43<1:03:44,  3.37s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  62%|######2   | 1867/3000 [1:44:43<1:09:01,  3.66s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  62%|######2   | 1867/3000 [1:44:43<1:09:01,  3.66s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  62%|######2   | 1867/3000 [1:44:46<1:09:01,  3.66s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  62%|######2   | 1867/3000 [1:44:46<1:09:01,  3.66s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  62%|######2   | 1868/3000 [1:44:46<1:01:36,  3.27s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  62%|######2   | 1868/3000 [1:44:46<1:01:36,  3.27s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  62%|######2   | 1868/3000 [1:44:50<1:01:36,  3.27s/it, lr: 1.0e-04 loss: 9.879e-02]strawbyte_v1:  62%|######2   | 1868/3000 [1:44:50<1:01:36,  3.27s/it, lr: 1.0e-04 loss: 9.879e-02]strawbyte_v1:  62%|######2   | 1869/3000 [1:44:50<1:08:25,  3.63s/it, lr: 1.0e-04 loss: 9.879e-02]strawbyte_v1:  62%|######2   | 1869/3000 [1:44:50<1:08:25,  3.63s/it, lr: 1.0e-04 loss: 9.879e-02]strawbyte_v1:  62%|######2   | 1869/3000 [1:44:53<1:08:25,  3.63s/it, lr: 1.0e-04 loss: 1.839e-01]strawbyte_v1:  62%|######2   | 1869/3000 [1:44:53<1:08:25,  3.63s/it, lr: 1.0e-04 loss: 1.839e-01]strawbyte_v1:  62%|######2   | 1870/3000 [1:44:56<1:08:21,  3.63s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  62%|######2   | 1870/3000 [1:44:56<1:08:21,  3.63s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  62%|######2   | 1871/3000 [1:44:56<50:02,  2.66s/it, lr: 1.0e-04 loss: 1.059e-01]  strawbyte_v1:  62%|######2   | 1871/3000 [1:44:56<50:02,  2.66s/it, lr: 1.0e-04 loss: 1.059e-01]  strawbyte_v1:  62%|######2   | 1871/3000 [1:44:59<50:02,  2.66s/it, lr: 1.0e-04 loss: 1.430e-01]strawbyte_v1:  62%|######2   | 1871/3000 [1:44:59<50:02,  2.66s/it, lr: 1.0e-04 loss: 1.430e-01]strawbyte_v1:  62%|######2   | 1872/3000 [1:44:59<51:27,  2.74s/it, lr: 1.0e-04 loss: 1.430e-01]strawbyte_v1:  62%|######2   | 1872/3000 [1:44:59<51:27,  2.74s/it, lr: 1.0e-04 loss: 1.430e-01]strawbyte_v1:  62%|######2   | 1872/3000 [1:45:02<51:27,  2.74s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  62%|######2   | 1872/3000 [1:45:02<51:27,  2.74s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  62%|######2   | 1873/3000 [1:45:02<53:11,  2.83s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  62%|######2   | 1873/3000 [1:45:02<53:11,  2.83s/it, lr: 1.0e-04 loss: 1.840e-01]strawbyte_v1:  62%|######2   | 1873/3000 [1:45:07<53:11,  2.83s/it, lr: 1.0e-04 loss: 2.781e-02]strawbyte_v1:  62%|######2   | 1873/3000 [1:45:07<53:11,  2.83s/it, lr: 1.0e-04 loss: 2.781e-02]strawbyte_v1:  62%|######2   | 1874/3000 [1:45:07<1:01:30,  3.28s/it, lr: 1.0e-04 loss: 2.781e-02]strawbyte_v1:  62%|######2   | 1874/3000 [1:45:07<1:01:30,  3.28s/it, lr: 1.0e-04 loss: 2.781e-02]strawbyte_v1:  62%|######2   | 1874/3000 [1:45:09<1:01:30,  3.28s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  62%|######2   | 1874/3000 [1:45:09<1:01:30,  3.28s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  62%|######2   | 1875/3000 [1:45:09<58:30,  3.12s/it, lr: 1.0e-04 loss: 1.284e-01]  strawbyte_v1:  62%|######2   | 1875/3000 [1:45:09<58:30,  3.12s/it, lr: 1.0e-04 loss: 1.284e-01]  strawbyte_v1:  62%|######2   | 1875/3000 [1:45:14<58:30,  3.12s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  62%|######2   | 1875/3000 [1:45:14<58:30,  3.12s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  63%|######2   | 1876/3000 [1:45:14<1:05:43,  3.51s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  63%|######2   | 1876/3000 [1:45:14<1:05:43,  3.51s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  63%|######2   | 1876/3000 [1:45:17<1:05:43,  3.51s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  63%|######2   | 1876/3000 [1:45:17<1:05:43,  3.51s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  63%|######2   | 1877/3000 [1:45:17<1:04:33,  3.45s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  63%|######2   | 1877/3000 [1:45:17<1:04:33,  3.45s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  63%|######2   | 1877/3000 [1:45:20<1:04:33,  3.45s/it, lr: 1.0e-04 loss: 7.427e-02]strawbyte_v1:  63%|######2   | 1877/3000 [1:45:20<1:04:33,  3.45s/it, lr: 1.0e-04 loss: 7.427e-02]strawbyte_v1:  63%|######2   | 1878/3000 [1:45:20<1:00:26,  3.23s/it, lr: 1.0e-04 loss: 7.427e-02]strawbyte_v1:  63%|######2   | 1878/3000 [1:45:20<1:00:26,  3.23s/it, lr: 1.0e-04 loss: 7.427e-02]strawbyte_v1:  63%|######2   | 1878/3000 [1:45:23<1:00:26,  3.23s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  63%|######2   | 1878/3000 [1:45:23<1:00:26,  3.23s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  63%|######2   | 1879/3000 [1:45:23<57:31,  3.08s/it, lr: 1.0e-04 loss: 1.613e-01]  strawbyte_v1:  63%|######2   | 1879/3000 [1:45:23<57:31,  3.08s/it, lr: 1.0e-04 loss: 1.613e-01]  strawbyte_v1:  63%|######2   | 1879/3000 [1:45:25<57:31,  3.08s/it, lr: 1.0e-04 loss: 1.014e-01]strawbyte_v1:  63%|######2   | 1879/3000 [1:45:25<57:31,  3.08s/it, lr: 1.0e-04 loss: 1.014e-01]strawbyte_v1:  63%|######2   | 1880/3000 [1:45:29<57:28,  3.08s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  63%|######2   | 1880/3000 [1:45:29<57:28,  3.08s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  63%|######2   | 1881/3000 [1:45:29<46:23,  2.49s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  63%|######2   | 1881/3000 [1:45:29<46:23,  2.49s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  63%|######2   | 1881/3000 [1:45:32<46:23,  2.49s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  63%|######2   | 1881/3000 [1:45:32<46:23,  2.49s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  63%|######2   | 1882/3000 [1:45:32<47:31,  2.55s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  63%|######2   | 1882/3000 [1:45:32<47:31,  2.55s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  63%|######2   | 1882/3000 [1:45:36<47:31,  2.55s/it, lr: 1.0e-04 loss: 2.139e-02]strawbyte_v1:  63%|######2   | 1882/3000 [1:45:36<47:31,  2.55s/it, lr: 1.0e-04 loss: 2.139e-02]strawbyte_v1:  63%|######2   | 1883/3000 [1:45:36<56:25,  3.03s/it, lr: 1.0e-04 loss: 2.139e-02]strawbyte_v1:  63%|######2   | 1883/3000 [1:45:36<56:25,  3.03s/it, lr: 1.0e-04 loss: 2.139e-02]strawbyte_v1:  63%|######2   | 1883/3000 [1:45:41<56:25,  3.03s/it, lr: 1.0e-04 loss: 6.529e-02]strawbyte_v1:  63%|######2   | 1883/3000 [1:45:41<56:25,  3.03s/it, lr: 1.0e-04 loss: 6.529e-02]strawbyte_v1:  63%|######2   | 1884/3000 [1:45:41<1:03:45,  3.43s/it, lr: 1.0e-04 loss: 6.529e-02]strawbyte_v1:  63%|######2   | 1884/3000 [1:45:41<1:03:45,  3.43s/it, lr: 1.0e-04 loss: 6.529e-02]strawbyte_v1:  63%|######2   | 1884/3000 [1:45:44<1:03:45,  3.43s/it, lr: 1.0e-04 loss: 4.680e-02]strawbyte_v1:  63%|######2   | 1884/3000 [1:45:44<1:03:45,  3.43s/it, lr: 1.0e-04 loss: 4.680e-02]strawbyte_v1:  63%|######2   | 1885/3000 [1:45:44<1:01:08,  3.29s/it, lr: 1.0e-04 loss: 4.680e-02]strawbyte_v1:  63%|######2   | 1885/3000 [1:45:44<1:01:08,  3.29s/it, lr: 1.0e-04 loss: 4.680e-02]strawbyte_v1:  63%|######2   | 1885/3000 [1:45:48<1:01:08,  3.29s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  63%|######2   | 1885/3000 [1:45:48<1:01:08,  3.29s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  63%|######2   | 1886/3000 [1:45:48<1:06:47,  3.60s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  63%|######2   | 1886/3000 [1:45:48<1:06:47,  3.60s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  63%|######2   | 1886/3000 [1:45:51<1:06:47,  3.60s/it, lr: 1.0e-04 loss: 7.818e-02]strawbyte_v1:  63%|######2   | 1886/3000 [1:45:51<1:06:47,  3.60s/it, lr: 1.0e-04 loss: 7.818e-02]strawbyte_v1:  63%|######2   | 1887/3000 [1:45:51<1:03:02,  3.40s/it, lr: 1.0e-04 loss: 7.818e-02]strawbyte_v1:  63%|######2   | 1887/3000 [1:45:51<1:03:02,  3.40s/it, lr: 1.0e-04 loss: 7.818e-02]strawbyte_v1:  63%|######2   | 1887/3000 [1:45:53<1:03:02,  3.40s/it, lr: 1.0e-04 loss: 2.688e-02]strawbyte_v1:  63%|######2   | 1887/3000 [1:45:53<1:03:02,  3.40s/it, lr: 1.0e-04 loss: 2.688e-02]strawbyte_v1:  63%|######2   | 1888/3000 [1:45:53<57:22,  3.10s/it, lr: 1.0e-04 loss: 2.688e-02]  strawbyte_v1:  63%|######2   | 1888/3000 [1:45:53<57:22,  3.10s/it, lr: 1.0e-04 loss: 2.688e-02]  strawbyte_v1:  63%|######2   | 1888/3000 [1:45:55<57:22,  3.10s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  63%|######2   | 1888/3000 [1:45:55<57:22,  3.10s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  63%|######2   | 1889/3000 [1:45:55<51:57,  2.81s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  63%|######2   | 1889/3000 [1:45:55<51:57,  2.81s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  63%|######2   | 1889/3000 [1:45:58<51:57,  2.81s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  63%|######2   | 1889/3000 [1:45:58<51:57,  2.81s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  63%|######3   | 1890/3000 [1:46:00<51:55,  2.81s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  63%|######3   | 1890/3000 [1:46:00<51:55,  2.81s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  63%|######3   | 1891/3000 [1:46:00<38:16,  2.07s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  63%|######3   | 1891/3000 [1:46:00<38:16,  2.07s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  63%|######3   | 1891/3000 [1:46:02<38:16,  2.07s/it, lr: 1.0e-04 loss: 8.457e-03]strawbyte_v1:  63%|######3   | 1891/3000 [1:46:02<38:16,  2.07s/it, lr: 1.0e-04 loss: 8.457e-03]strawbyte_v1:  63%|######3   | 1892/3000 [1:46:02<38:19,  2.08s/it, lr: 1.0e-04 loss: 8.457e-03]strawbyte_v1:  63%|######3   | 1892/3000 [1:46:02<38:19,  2.08s/it, lr: 1.0e-04 loss: 8.457e-03]strawbyte_v1:  63%|######3   | 1892/3000 [1:46:05<38:19,  2.08s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  63%|######3   | 1892/3000 [1:46:05<38:19,  2.08s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  63%|######3   | 1893/3000 [1:46:05<42:29,  2.30s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  63%|######3   | 1893/3000 [1:46:05<42:29,  2.30s/it, lr: 1.0e-04 loss: 1.216e-01]strawbyte_v1:  63%|######3   | 1893/3000 [1:46:08<42:29,  2.30s/it, lr: 1.0e-04 loss: 8.789e-02]strawbyte_v1:  63%|######3   | 1893/3000 [1:46:08<42:29,  2.30s/it, lr: 1.0e-04 loss: 8.789e-02]strawbyte_v1:  63%|######3   | 1894/3000 [1:46:08<46:03,  2.50s/it, lr: 1.0e-04 loss: 8.789e-02]strawbyte_v1:  63%|######3   | 1894/3000 [1:46:08<46:03,  2.50s/it, lr: 1.0e-04 loss: 8.789e-02]strawbyte_v1:  63%|######3   | 1894/3000 [1:46:11<46:03,  2.50s/it, lr: 1.0e-04 loss: 3.378e-02]strawbyte_v1:  63%|######3   | 1894/3000 [1:46:11<46:03,  2.50s/it, lr: 1.0e-04 loss: 3.378e-02]strawbyte_v1:  63%|######3   | 1895/3000 [1:46:11<49:09,  2.67s/it, lr: 1.0e-04 loss: 3.378e-02]strawbyte_v1:  63%|######3   | 1895/3000 [1:46:11<49:09,  2.67s/it, lr: 1.0e-04 loss: 3.378e-02]strawbyte_v1:  63%|######3   | 1895/3000 [1:46:16<49:09,  2.67s/it, lr: 1.0e-04 loss: 9.855e-02]strawbyte_v1:  63%|######3   | 1895/3000 [1:46:16<49:09,  2.67s/it, lr: 1.0e-04 loss: 9.855e-02]strawbyte_v1:  63%|######3   | 1896/3000 [1:46:16<58:39,  3.19s/it, lr: 1.0e-04 loss: 9.855e-02]strawbyte_v1:  63%|######3   | 1896/3000 [1:46:16<58:39,  3.19s/it, lr: 1.0e-04 loss: 9.855e-02]strawbyte_v1:  63%|######3   | 1896/3000 [1:46:20<58:39,  3.19s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  63%|######3   | 1896/3000 [1:46:20<58:39,  3.19s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  63%|######3   | 1897/3000 [1:46:20<1:05:05,  3.54s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  63%|######3   | 1897/3000 [1:46:20<1:05:05,  3.54s/it, lr: 1.0e-04 loss: 1.251e-01]strawbyte_v1:  63%|######3   | 1897/3000 [1:46:23<1:05:05,  3.54s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  63%|######3   | 1897/3000 [1:46:23<1:05:05,  3.54s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  63%|######3   | 1898/3000 [1:46:23<1:00:31,  3.30s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  63%|######3   | 1898/3000 [1:46:23<1:00:31,  3.30s/it, lr: 1.0e-04 loss: 1.959e-01]strawbyte_v1:  63%|######3   | 1898/3000 [1:46:26<1:00:31,  3.30s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  63%|######3   | 1898/3000 [1:46:26<1:00:31,  3.30s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  63%|######3   | 1899/3000 [1:46:26<1:00:00,  3.27s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  63%|######3   | 1899/3000 [1:46:26<1:00:00,  3.27s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  63%|######3   | 1899/3000 [1:46:29<1:00:00,  3.27s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  63%|######3   | 1899/3000 [1:46:29<1:00:00,  3.27s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  63%|######3   | 1900/3000 [1:46:32<59:57,  3.27s/it, lr: 1.0e-04 loss: 1.415e-01]  strawbyte_v1:  63%|######3   | 1900/3000 [1:46:32<59:57,  3.27s/it, lr: 1.0e-04 loss: 1.415e-01]  strawbyte_v1:  63%|######3   | 1901/3000 [1:46:32<45:11,  2.47s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  63%|######3   | 1901/3000 [1:46:32<45:11,  2.47s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  63%|######3   | 1901/3000 [1:46:35<45:11,  2.47s/it, lr: 1.0e-04 loss: 1.991e-01]strawbyte_v1:  63%|######3   | 1901/3000 [1:46:35<45:11,  2.47s/it, lr: 1.0e-04 loss: 1.991e-01]strawbyte_v1:  63%|######3   | 1902/3000 [1:46:35<47:59,  2.62s/it, lr: 1.0e-04 loss: 1.991e-01]strawbyte_v1:  63%|######3   | 1902/3000 [1:46:35<47:59,  2.62s/it, lr: 1.0e-04 loss: 1.991e-01]strawbyte_v1:  63%|######3   | 1902/3000 [1:46:38<47:59,  2.62s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  63%|######3   | 1902/3000 [1:46:38<47:59,  2.62s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  63%|######3   | 1903/3000 [1:46:38<49:47,  2.72s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  63%|######3   | 1903/3000 [1:46:38<49:47,  2.72s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  63%|######3   | 1903/3000 [1:46:41<49:47,  2.72s/it, lr: 1.0e-04 loss: 4.676e-02]strawbyte_v1:  63%|######3   | 1903/3000 [1:46:41<49:47,  2.72s/it, lr: 1.0e-04 loss: 4.676e-02]strawbyte_v1:  63%|######3   | 1904/3000 [1:46:41<51:17,  2.81s/it, lr: 1.0e-04 loss: 4.676e-02]strawbyte_v1:  63%|######3   | 1904/3000 [1:46:41<51:17,  2.81s/it, lr: 1.0e-04 loss: 4.676e-02]strawbyte_v1:  63%|######3   | 1904/3000 [1:46:44<51:17,  2.81s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  63%|######3   | 1904/3000 [1:46:44<51:17,  2.81s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  64%|######3   | 1905/3000 [1:46:44<52:27,  2.87s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  64%|######3   | 1905/3000 [1:46:44<52:27,  2.87s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  64%|######3   | 1905/3000 [1:46:49<52:27,  2.87s/it, lr: 1.0e-04 loss: 7.321e-02]strawbyte_v1:  64%|######3   | 1905/3000 [1:46:49<52:27,  2.87s/it, lr: 1.0e-04 loss: 7.321e-02]strawbyte_v1:  64%|######3   | 1906/3000 [1:46:49<1:02:13,  3.41s/it, lr: 1.0e-04 loss: 7.321e-02]strawbyte_v1:  64%|######3   | 1906/3000 [1:46:49<1:02:13,  3.41s/it, lr: 1.0e-04 loss: 7.321e-02]strawbyte_v1:  64%|######3   | 1906/3000 [1:46:52<1:02:13,  3.41s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  64%|######3   | 1906/3000 [1:46:52<1:02:13,  3.41s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  64%|######3   | 1907/3000 [1:46:52<1:00:05,  3.30s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  64%|######3   | 1907/3000 [1:46:52<1:00:05,  3.30s/it, lr: 1.0e-04 loss: 1.594e-01]strawbyte_v1:  64%|######3   | 1907/3000 [1:46:54<1:00:05,  3.30s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  64%|######3   | 1907/3000 [1:46:54<1:00:05,  3.30s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  64%|######3   | 1908/3000 [1:46:54<54:47,  3.01s/it, lr: 1.0e-04 loss: 1.623e-01]  strawbyte_v1:  64%|######3   | 1908/3000 [1:46:54<54:47,  3.01s/it, lr: 1.0e-04 loss: 1.623e-01]  strawbyte_v1:  64%|######3   | 1908/3000 [1:46:56<54:47,  3.01s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  64%|######3   | 1908/3000 [1:46:56<54:47,  3.01s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  64%|######3   | 1909/3000 [1:46:56<51:37,  2.84s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  64%|######3   | 1909/3000 [1:46:56<51:37,  2.84s/it, lr: 1.0e-04 loss: 2.009e-01]strawbyte_v1:  64%|######3   | 1909/3000 [1:46:58<51:37,  2.84s/it, lr: 1.0e-04 loss: 9.445e-02]strawbyte_v1:  64%|######3   | 1909/3000 [1:46:58<51:37,  2.84s/it, lr: 1.0e-04 loss: 9.445e-02]strawbyte_v1:  64%|######3   | 1910/3000 [1:47:03<51:34,  2.84s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  64%|######3   | 1910/3000 [1:47:03<51:34,  2.84s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  64%|######3   | 1911/3000 [1:47:03<46:03,  2.54s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  64%|######3   | 1911/3000 [1:47:03<46:03,  2.54s/it, lr: 1.0e-04 loss: 1.132e-01]strawbyte_v1:  64%|######3   | 1911/3000 [1:47:07<46:03,  2.54s/it, lr: 1.0e-04 loss: 7.758e-02]strawbyte_v1:  64%|######3   | 1911/3000 [1:47:07<46:03,  2.54s/it, lr: 1.0e-04 loss: 7.758e-02]strawbyte_v1:  64%|######3   | 1912/3000 [1:47:07<54:10,  2.99s/it, lr: 1.0e-04 loss: 7.758e-02]strawbyte_v1:  64%|######3   | 1912/3000 [1:47:07<54:10,  2.99s/it, lr: 1.0e-04 loss: 7.758e-02]strawbyte_v1:  64%|######3   | 1912/3000 [1:47:10<54:10,  2.99s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  64%|######3   | 1912/3000 [1:47:10<54:10,  2.99s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  64%|######3   | 1913/3000 [1:47:10<51:11,  2.83s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  64%|######3   | 1913/3000 [1:47:10<51:11,  2.83s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  64%|######3   | 1913/3000 [1:47:12<51:11,  2.83s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  64%|######3   | 1913/3000 [1:47:12<51:11,  2.83s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  64%|######3   | 1914/3000 [1:47:12<47:32,  2.63s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  64%|######3   | 1914/3000 [1:47:12<47:32,  2.63s/it, lr: 1.0e-04 loss: 2.150e-01]strawbyte_v1:  64%|######3   | 1914/3000 [1:47:15<47:32,  2.63s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  64%|######3   | 1914/3000 [1:47:15<47:32,  2.63s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  64%|######3   | 1915/3000 [1:47:15<48:45,  2.70s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  64%|######3   | 1915/3000 [1:47:15<48:45,  2.70s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  64%|######3   | 1915/3000 [1:47:17<48:45,  2.70s/it, lr: 1.0e-04 loss: 1.396e-01]strawbyte_v1:  64%|######3   | 1915/3000 [1:47:17<48:45,  2.70s/it, lr: 1.0e-04 loss: 1.396e-01]strawbyte_v1:  64%|######3   | 1916/3000 [1:47:17<49:37,  2.75s/it, lr: 1.0e-04 loss: 1.396e-01]strawbyte_v1:  64%|######3   | 1916/3000 [1:47:17<49:37,  2.75s/it, lr: 1.0e-04 loss: 1.396e-01]strawbyte_v1:  64%|######3   | 1916/3000 [1:47:22<49:37,  2.75s/it, lr: 1.0e-04 loss: 1.515e-01]strawbyte_v1:  64%|######3   | 1916/3000 [1:47:22<49:37,  2.75s/it, lr: 1.0e-04 loss: 1.515e-01]strawbyte_v1:  64%|######3   | 1917/3000 [1:47:22<58:46,  3.26s/it, lr: 1.0e-04 loss: 1.515e-01]strawbyte_v1:  64%|######3   | 1917/3000 [1:47:22<58:46,  3.26s/it, lr: 1.0e-04 loss: 1.515e-01]strawbyte_v1:  64%|######3   | 1917/3000 [1:47:24<58:46,  3.26s/it, lr: 1.0e-04 loss: 1.638e-01]strawbyte_v1:  64%|######3   | 1917/3000 [1:47:24<58:46,  3.26s/it, lr: 1.0e-04 loss: 1.638e-01]strawbyte_v1:  64%|######3   | 1918/3000 [1:47:24<52:39,  2.92s/it, lr: 1.0e-04 loss: 1.638e-01]strawbyte_v1:  64%|######3   | 1918/3000 [1:47:24<52:39,  2.92s/it, lr: 1.0e-04 loss: 1.638e-01]strawbyte_v1:  64%|######3   | 1918/3000 [1:47:28<52:39,  2.92s/it, lr: 1.0e-04 loss: 6.909e-02]strawbyte_v1:  64%|######3   | 1918/3000 [1:47:28<52:39,  2.92s/it, lr: 1.0e-04 loss: 6.909e-02]strawbyte_v1:  64%|######3   | 1919/3000 [1:47:28<1:00:33,  3.36s/it, lr: 1.0e-04 loss: 6.909e-02]strawbyte_v1:  64%|######3   | 1919/3000 [1:47:28<1:00:33,  3.36s/it, lr: 1.0e-04 loss: 6.909e-02]strawbyte_v1:  64%|######3   | 1919/3000 [1:47:32<1:00:33,  3.36s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  64%|######3   | 1919/3000 [1:47:32<1:00:33,  3.36s/it, lr: 1.0e-04 loss: 1.212e-01]strawbyte_v1:  64%|######4   | 1920/3000 [1:47:36<1:00:30,  3.36s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  64%|######4   | 1920/3000 [1:47:36<1:00:30,  3.36s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  64%|######4   | 1921/3000 [1:47:36<51:17,  2.85s/it, lr: 1.0e-04 loss: 1.030e-01]  strawbyte_v1:  64%|######4   | 1921/3000 [1:47:36<51:17,  2.85s/it, lr: 1.0e-04 loss: 1.030e-01]  strawbyte_v1:  64%|######4   | 1921/3000 [1:47:41<51:17,  2.85s/it, lr: 1.0e-04 loss: 9.859e-02]strawbyte_v1:  64%|######4   | 1921/3000 [1:47:41<51:17,  2.85s/it, lr: 1.0e-04 loss: 9.859e-02]strawbyte_v1:  64%|######4   | 1922/3000 [1:47:41<58:25,  3.25s/it, lr: 1.0e-04 loss: 9.859e-02]strawbyte_v1:  64%|######4   | 1922/3000 [1:47:41<58:25,  3.25s/it, lr: 1.0e-04 loss: 9.859e-02]strawbyte_v1:  64%|######4   | 1922/3000 [1:47:43<58:25,  3.25s/it, lr: 1.0e-04 loss: 4.465e-02]strawbyte_v1:  64%|######4   | 1922/3000 [1:47:43<58:25,  3.25s/it, lr: 1.0e-04 loss: 4.465e-02]strawbyte_v1:  64%|######4   | 1923/3000 [1:47:43<55:50,  3.11s/it, lr: 1.0e-04 loss: 4.465e-02]strawbyte_v1:  64%|######4   | 1923/3000 [1:47:43<55:50,  3.11s/it, lr: 1.0e-04 loss: 4.465e-02]strawbyte_v1:  64%|######4   | 1923/3000 [1:47:48<55:50,  3.11s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  64%|######4   | 1923/3000 [1:47:48<55:50,  3.11s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  64%|######4   | 1924/3000 [1:47:48<1:03:42,  3.55s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  64%|######4   | 1924/3000 [1:47:48<1:03:42,  3.55s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  64%|######4   | 1924/3000 [1:47:51<1:03:42,  3.55s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  64%|######4   | 1924/3000 [1:47:51<1:03:42,  3.55s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  64%|######4   | 1925/3000 [1:47:51<1:00:55,  3.40s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  64%|######4   | 1925/3000 [1:47:51<1:00:55,  3.40s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  64%|######4   | 1925/3000 [1:47:54<1:00:55,  3.40s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  64%|######4   | 1925/3000 [1:47:54<1:00:55,  3.40s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  64%|######4   | 1926/3000 [1:47:54<57:30,  3.21s/it, lr: 1.0e-04 loss: 1.692e-01]  strawbyte_v1:  64%|######4   | 1926/3000 [1:47:54<57:30,  3.21s/it, lr: 1.0e-04 loss: 1.692e-01]  strawbyte_v1:  64%|######4   | 1926/3000 [1:47:57<57:30,  3.21s/it, lr: 1.0e-04 loss: 9.695e-03]strawbyte_v1:  64%|######4   | 1926/3000 [1:47:57<57:30,  3.21s/it, lr: 1.0e-04 loss: 9.695e-03]strawbyte_v1:  64%|######4   | 1927/3000 [1:47:57<56:19,  3.15s/it, lr: 1.0e-04 loss: 9.695e-03]strawbyte_v1:  64%|######4   | 1927/3000 [1:47:57<56:19,  3.15s/it, lr: 1.0e-04 loss: 9.695e-03]strawbyte_v1:  64%|######4   | 1927/3000 [1:48:00<56:19,  3.15s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  64%|######4   | 1927/3000 [1:48:00<56:19,  3.15s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  64%|######4   | 1928/3000 [1:48:00<56:00,  3.13s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  64%|######4   | 1928/3000 [1:48:00<56:00,  3.13s/it, lr: 1.0e-04 loss: 1.693e-01]strawbyte_v1:  64%|######4   | 1928/3000 [1:48:03<56:00,  3.13s/it, lr: 1.0e-04 loss: 1.292e-01]strawbyte_v1:  64%|######4   | 1928/3000 [1:48:03<56:00,  3.13s/it, lr: 1.0e-04 loss: 1.292e-01]strawbyte_v1:  64%|######4   | 1929/3000 [1:48:03<53:44,  3.01s/it, lr: 1.0e-04 loss: 1.292e-01]strawbyte_v1:  64%|######4   | 1929/3000 [1:48:03<53:44,  3.01s/it, lr: 1.0e-04 loss: 1.292e-01]strawbyte_v1:  64%|######4   | 1929/3000 [1:48:05<53:44,  3.01s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:  64%|######4   | 1929/3000 [1:48:05<53:44,  3.01s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:  64%|######4   | 1930/3000 [1:48:10<53:41,  3.01s/it, lr: 1.0e-04 loss: 6.958e-02]strawbyte_v1:  64%|######4   | 1930/3000 [1:48:10<53:41,  3.01s/it, lr: 1.0e-04 loss: 6.958e-02]strawbyte_v1:  64%|######4   | 1931/3000 [1:48:10<48:17,  2.71s/it, lr: 1.0e-04 loss: 6.958e-02]strawbyte_v1:  64%|######4   | 1931/3000 [1:48:10<48:17,  2.71s/it, lr: 1.0e-04 loss: 6.958e-02]strawbyte_v1:  64%|######4   | 1931/3000 [1:48:14<48:17,  2.71s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  64%|######4   | 1931/3000 [1:48:14<48:17,  2.71s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  64%|######4   | 1932/3000 [1:48:14<55:30,  3.12s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  64%|######4   | 1932/3000 [1:48:14<55:30,  3.12s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  64%|######4   | 1932/3000 [1:48:17<55:30,  3.12s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  64%|######4   | 1932/3000 [1:48:17<55:30,  3.12s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  64%|######4   | 1933/3000 [1:48:17<54:27,  3.06s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  64%|######4   | 1933/3000 [1:48:17<54:27,  3.06s/it, lr: 1.0e-04 loss: 1.337e-01]strawbyte_v1:  64%|######4   | 1933/3000 [1:48:19<54:27,  3.06s/it, lr: 1.0e-04 loss: 6.492e-02]strawbyte_v1:  64%|######4   | 1933/3000 [1:48:19<54:27,  3.06s/it, lr: 1.0e-04 loss: 6.492e-02]strawbyte_v1:  64%|######4   | 1934/3000 [1:48:19<49:45,  2.80s/it, lr: 1.0e-04 loss: 6.492e-02]strawbyte_v1:  64%|######4   | 1934/3000 [1:48:19<49:45,  2.80s/it, lr: 1.0e-04 loss: 6.492e-02]strawbyte_v1:  64%|######4   | 1934/3000 [1:48:23<49:45,  2.80s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  64%|######4   | 1934/3000 [1:48:23<49:45,  2.80s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  64%|######4   | 1935/3000 [1:48:23<51:14,  2.89s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  64%|######4   | 1935/3000 [1:48:23<51:14,  2.89s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  64%|######4   | 1935/3000 [1:48:27<51:14,  2.89s/it, lr: 1.0e-04 loss: 8.499e-02]strawbyte_v1:  64%|######4   | 1935/3000 [1:48:27<51:14,  2.89s/it, lr: 1.0e-04 loss: 8.499e-02]strawbyte_v1:  65%|######4   | 1936/3000 [1:48:27<58:21,  3.29s/it, lr: 1.0e-04 loss: 8.499e-02]strawbyte_v1:  65%|######4   | 1936/3000 [1:48:27<58:21,  3.29s/it, lr: 1.0e-04 loss: 8.499e-02]strawbyte_v1:  65%|######4   | 1936/3000 [1:48:31<58:21,  3.29s/it, lr: 1.0e-04 loss: 8.543e-02]strawbyte_v1:  65%|######4   | 1936/3000 [1:48:31<58:21,  3.29s/it, lr: 1.0e-04 loss: 8.543e-02]strawbyte_v1:  65%|######4   | 1937/3000 [1:48:31<1:03:38,  3.59s/it, lr: 1.0e-04 loss: 8.543e-02]strawbyte_v1:  65%|######4   | 1937/3000 [1:48:31<1:03:38,  3.59s/it, lr: 1.0e-04 loss: 8.543e-02]strawbyte_v1:  65%|######4   | 1937/3000 [1:48:36<1:03:38,  3.59s/it, lr: 1.0e-04 loss: 1.473e-01]strawbyte_v1:  65%|######4   | 1937/3000 [1:48:36<1:03:38,  3.59s/it, lr: 1.0e-04 loss: 1.473e-01]strawbyte_v1:  65%|######4   | 1938/3000 [1:48:36<1:08:43,  3.88s/it, lr: 1.0e-04 loss: 1.473e-01]strawbyte_v1:  65%|######4   | 1938/3000 [1:48:36<1:08:43,  3.88s/it, lr: 1.0e-04 loss: 1.473e-01]strawbyte_v1:  65%|######4   | 1938/3000 [1:48:38<1:08:43,  3.88s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  65%|######4   | 1938/3000 [1:48:38<1:08:43,  3.88s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  65%|######4   | 1939/3000 [1:48:38<59:18,  3.35s/it, lr: 1.0e-04 loss: 1.712e-01]  strawbyte_v1:  65%|######4   | 1939/3000 [1:48:38<59:18,  3.35s/it, lr: 1.0e-04 loss: 1.712e-01]  strawbyte_v1:  65%|######4   | 1939/3000 [1:48:42<59:18,  3.35s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  65%|######4   | 1939/3000 [1:48:42<59:18,  3.35s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  65%|######4   | 1940/3000 [1:48:45<59:15,  3.35s/it, lr: 1.0e-04 loss: 1.779e-01]strawbyte_v1:  65%|######4   | 1940/3000 [1:48:45<59:15,  3.35s/it, lr: 1.0e-04 loss: 1.779e-01]strawbyte_v1:  65%|######4   | 1941/3000 [1:48:45<43:44,  2.48s/it, lr: 1.0e-04 loss: 1.779e-01]strawbyte_v1:  65%|######4   | 1941/3000 [1:48:45<43:44,  2.48s/it, lr: 1.0e-04 loss: 1.779e-01]strawbyte_v1:  65%|######4   | 1941/3000 [1:48:50<43:44,  2.48s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######4   | 1941/3000 [1:48:50<43:44,  2.48s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######4   | 1942/3000 [1:48:50<53:10,  3.02s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######4   | 1942/3000 [1:48:50<53:10,  3.02s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######4   | 1942/3000 [1:48:53<53:10,  3.02s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  65%|######4   | 1942/3000 [1:48:53<53:10,  3.02s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  65%|######4   | 1943/3000 [1:48:53<51:52,  2.94s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  65%|######4   | 1943/3000 [1:48:53<51:52,  2.94s/it, lr: 1.0e-04 loss: 1.655e-01]strawbyte_v1:  65%|######4   | 1943/3000 [1:48:56<51:52,  2.94s/it, lr: 1.0e-04 loss: 4.070e-02]strawbyte_v1:  65%|######4   | 1943/3000 [1:48:56<51:52,  2.94s/it, lr: 1.0e-04 loss: 4.070e-02]strawbyte_v1:  65%|######4   | 1944/3000 [1:48:56<52:19,  2.97s/it, lr: 1.0e-04 loss: 4.070e-02]strawbyte_v1:  65%|######4   | 1944/3000 [1:48:56<52:19,  2.97s/it, lr: 1.0e-04 loss: 4.070e-02]strawbyte_v1:  65%|######4   | 1944/3000 [1:49:00<52:19,  2.97s/it, lr: 1.0e-04 loss: 1.797e-03]strawbyte_v1:  65%|######4   | 1944/3000 [1:49:00<52:19,  2.97s/it, lr: 1.0e-04 loss: 1.797e-03]strawbyte_v1:  65%|######4   | 1945/3000 [1:49:00<1:01:00,  3.47s/it, lr: 1.0e-04 loss: 1.797e-03]strawbyte_v1:  65%|######4   | 1945/3000 [1:49:00<1:01:00,  3.47s/it, lr: 1.0e-04 loss: 1.797e-03]strawbyte_v1:  65%|######4   | 1945/3000 [1:49:05<1:01:00,  3.47s/it, lr: 1.0e-04 loss: 8.869e-02]strawbyte_v1:  65%|######4   | 1945/3000 [1:49:05<1:01:00,  3.47s/it, lr: 1.0e-04 loss: 8.869e-02]strawbyte_v1:  65%|######4   | 1946/3000 [1:49:05<1:05:49,  3.75s/it, lr: 1.0e-04 loss: 8.869e-02]strawbyte_v1:  65%|######4   | 1946/3000 [1:49:05<1:05:49,  3.75s/it, lr: 1.0e-04 loss: 8.869e-02]strawbyte_v1:  65%|######4   | 1946/3000 [1:49:08<1:05:49,  3.75s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  65%|######4   | 1946/3000 [1:49:08<1:05:49,  3.75s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  65%|######4   | 1947/3000 [1:49:08<1:02:10,  3.54s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  65%|######4   | 1947/3000 [1:49:08<1:02:10,  3.54s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  65%|######4   | 1947/3000 [1:49:11<1:02:10,  3.54s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  65%|######4   | 1947/3000 [1:49:11<1:02:10,  3.54s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  65%|######4   | 1948/3000 [1:49:11<57:56,  3.30s/it, lr: 1.0e-04 loss: 1.381e-01]  strawbyte_v1:  65%|######4   | 1948/3000 [1:49:11<57:56,  3.30s/it, lr: 1.0e-04 loss: 1.381e-01]  strawbyte_v1:  65%|######4   | 1948/3000 [1:49:14<57:56,  3.30s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  65%|######4   | 1948/3000 [1:49:14<57:56,  3.30s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  65%|######4   | 1949/3000 [1:49:14<57:48,  3.30s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  65%|######4   | 1949/3000 [1:49:14<57:48,  3.30s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  65%|######4   | 1949/3000 [1:49:17<57:48,  3.30s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  65%|######4   | 1949/3000 [1:49:17<57:48,  3.30s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  65%|######5   | 1950/3000 [1:49:20<57:45,  3.30s/it, lr: 1.0e-04 loss: 9.030e-02]strawbyte_v1:  65%|######5   | 1950/3000 [1:49:20<57:45,  3.30s/it, lr: 1.0e-04 loss: 9.030e-02]strawbyte_v1:  65%|######5   | 1951/3000 [1:49:20<42:08,  2.41s/it, lr: 1.0e-04 loss: 9.030e-02]strawbyte_v1:  65%|######5   | 1951/3000 [1:49:20<42:08,  2.41s/it, lr: 1.0e-04 loss: 9.030e-02]strawbyte_v1:  65%|######5   | 1951/3000 [1:49:22<42:08,  2.41s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  65%|######5   | 1951/3000 [1:49:22<42:08,  2.41s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  65%|######5   | 1952/3000 [1:49:22<43:28,  2.49s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  65%|######5   | 1952/3000 [1:49:22<43:28,  2.49s/it, lr: 1.0e-04 loss: 1.613e-01]strawbyte_v1:  65%|######5   | 1952/3000 [1:49:26<43:28,  2.49s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  65%|######5   | 1952/3000 [1:49:26<43:28,  2.49s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  65%|######5   | 1953/3000 [1:49:26<47:16,  2.71s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  65%|######5   | 1953/3000 [1:49:26<47:16,  2.71s/it, lr: 1.0e-04 loss: 1.262e-01]strawbyte_v1:  65%|######5   | 1953/3000 [1:49:30<47:16,  2.71s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######5   | 1953/3000 [1:49:30<47:16,  2.71s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######5   | 1954/3000 [1:49:30<55:38,  3.19s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######5   | 1954/3000 [1:49:30<55:38,  3.19s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  65%|######5   | 1954/3000 [1:49:33<55:38,  3.19s/it, lr: 1.0e-04 loss: 1.654e-01]strawbyte_v1:  65%|######5   | 1954/3000 [1:49:33<55:38,  3.19s/it, lr: 1.0e-04 loss: 1.654e-01]strawbyte_v1:  65%|######5   | 1955/3000 [1:49:33<53:18,  3.06s/it, lr: 1.0e-04 loss: 1.654e-01]strawbyte_v1:  65%|######5   | 1955/3000 [1:49:33<53:18,  3.06s/it, lr: 1.0e-04 loss: 1.654e-01]strawbyte_v1:  65%|######5   | 1955/3000 [1:49:37<53:18,  3.06s/it, lr: 1.0e-04 loss: 1.760e-02]strawbyte_v1:  65%|######5   | 1955/3000 [1:49:37<53:18,  3.06s/it, lr: 1.0e-04 loss: 1.760e-02]strawbyte_v1:  65%|######5   | 1956/3000 [1:49:37<1:01:05,  3.51s/it, lr: 1.0e-04 loss: 1.760e-02]strawbyte_v1:  65%|######5   | 1956/3000 [1:49:37<1:01:05,  3.51s/it, lr: 1.0e-04 loss: 1.760e-02]strawbyte_v1:  65%|######5   | 1956/3000 [1:49:40<1:01:05,  3.51s/it, lr: 1.0e-04 loss: 1.518e-01]strawbyte_v1:  65%|######5   | 1956/3000 [1:49:40<1:01:05,  3.51s/it, lr: 1.0e-04 loss: 1.518e-01]strawbyte_v1:  65%|######5   | 1957/3000 [1:49:40<57:44,  3.32s/it, lr: 1.0e-04 loss: 1.518e-01]  strawbyte_v1:  65%|######5   | 1957/3000 [1:49:40<57:44,  3.32s/it, lr: 1.0e-04 loss: 1.518e-01]  strawbyte_v1:  65%|######5   | 1957/3000 [1:49:43<57:44,  3.32s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  65%|######5   | 1957/3000 [1:49:43<57:44,  3.32s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  65%|######5   | 1958/3000 [1:49:43<55:33,  3.20s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  65%|######5   | 1958/3000 [1:49:43<55:33,  3.20s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  65%|######5   | 1958/3000 [1:49:46<55:33,  3.20s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  65%|######5   | 1958/3000 [1:49:46<55:33,  3.20s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  65%|######5   | 1959/3000 [1:49:46<53:45,  3.10s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  65%|######5   | 1959/3000 [1:49:46<53:45,  3.10s/it, lr: 1.0e-04 loss: 1.389e-01]strawbyte_v1:  65%|######5   | 1959/3000 [1:49:51<53:45,  3.10s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  65%|######5   | 1959/3000 [1:49:51<53:45,  3.10s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  65%|######5   | 1960/3000 [1:49:55<53:42,  3.10s/it, lr: 1.0e-04 loss: 7.517e-02]strawbyte_v1:  65%|######5   | 1960/3000 [1:49:55<53:42,  3.10s/it, lr: 1.0e-04 loss: 7.517e-02]strawbyte_v1:  65%|######5   | 1961/3000 [1:49:55<46:27,  2.68s/it, lr: 1.0e-04 loss: 7.517e-02]strawbyte_v1:  65%|######5   | 1961/3000 [1:49:55<46:27,  2.68s/it, lr: 1.0e-04 loss: 7.517e-02]strawbyte_v1:  65%|######5   | 1961/3000 [1:49:57<46:27,  2.68s/it, lr: 1.0e-04 loss: 1.788e-01]strawbyte_v1:  65%|######5   | 1961/3000 [1:49:57<46:27,  2.68s/it, lr: 1.0e-04 loss: 1.788e-01]strawbyte_v1:  65%|######5   | 1962/3000 [1:49:57<43:51,  2.53s/it, lr: 1.0e-04 loss: 1.788e-01]strawbyte_v1:  65%|######5   | 1962/3000 [1:49:57<43:51,  2.53s/it, lr: 1.0e-04 loss: 1.788e-01]strawbyte_v1:  65%|######5   | 1962/3000 [1:49:59<43:51,  2.53s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  65%|######5   | 1962/3000 [1:49:59<43:51,  2.53s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  65%|######5   | 1963/3000 [1:49:59<41:41,  2.41s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  65%|######5   | 1963/3000 [1:49:59<41:41,  2.41s/it, lr: 1.0e-04 loss: 2.034e-01]strawbyte_v1:  65%|######5   | 1963/3000 [1:50:01<41:41,  2.41s/it, lr: 1.0e-04 loss: 1.819e-01]strawbyte_v1:  65%|######5   | 1963/3000 [1:50:01<41:41,  2.41s/it, lr: 1.0e-04 loss: 1.819e-01]strawbyte_v1:  65%|######5   | 1964/3000 [1:50:01<41:25,  2.40s/it, lr: 1.0e-04 loss: 1.819e-01]strawbyte_v1:  65%|######5   | 1964/3000 [1:50:01<41:25,  2.40s/it, lr: 1.0e-04 loss: 1.819e-01]strawbyte_v1:  65%|######5   | 1964/3000 [1:50:03<41:25,  2.40s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  65%|######5   | 1964/3000 [1:50:03<41:25,  2.40s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  66%|######5   | 1965/3000 [1:50:03<39:44,  2.30s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  66%|######5   | 1965/3000 [1:50:03<39:44,  2.30s/it, lr: 1.0e-04 loss: 1.669e-01]strawbyte_v1:  66%|######5   | 1965/3000 [1:50:06<39:44,  2.30s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  66%|######5   | 1965/3000 [1:50:06<39:44,  2.30s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  66%|######5   | 1966/3000 [1:50:06<41:49,  2.43s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  66%|######5   | 1966/3000 [1:50:06<41:49,  2.43s/it, lr: 1.0e-04 loss: 1.596e-01]strawbyte_v1:  66%|######5   | 1966/3000 [1:50:09<41:49,  2.43s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  66%|######5   | 1966/3000 [1:50:09<41:49,  2.43s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  66%|######5   | 1967/3000 [1:50:09<45:34,  2.65s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  66%|######5   | 1967/3000 [1:50:09<45:34,  2.65s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  66%|######5   | 1967/3000 [1:50:14<45:34,  2.65s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  66%|######5   | 1967/3000 [1:50:14<45:34,  2.65s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  66%|######5   | 1968/3000 [1:50:14<54:44,  3.18s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  66%|######5   | 1968/3000 [1:50:14<54:44,  3.18s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  66%|######5   | 1968/3000 [1:50:17<54:44,  3.18s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  66%|######5   | 1968/3000 [1:50:17<54:44,  3.18s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  66%|######5   | 1969/3000 [1:50:17<53:47,  3.13s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  66%|######5   | 1969/3000 [1:50:17<53:47,  3.13s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  66%|######5   | 1969/3000 [1:50:20<53:47,  3.13s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  66%|######5   | 1969/3000 [1:50:20<53:47,  3.13s/it, lr: 1.0e-04 loss: 1.508e-01]strawbyte_v1:  66%|######5   | 1970/3000 [1:50:25<53:44,  3.13s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  66%|######5   | 1970/3000 [1:50:25<53:44,  3.13s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  66%|######5   | 1971/3000 [1:50:25<47:37,  2.78s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  66%|######5   | 1971/3000 [1:50:25<47:37,  2.78s/it, lr: 1.0e-04 loss: 1.078e-01]strawbyte_v1:  66%|######5   | 1971/3000 [1:50:28<47:37,  2.78s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  66%|######5   | 1971/3000 [1:50:28<47:37,  2.78s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  66%|######5   | 1972/3000 [1:50:28<48:23,  2.82s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  66%|######5   | 1972/3000 [1:50:28<48:23,  2.82s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  66%|######5   | 1972/3000 [1:50:30<48:23,  2.82s/it, lr: 1.0e-04 loss: 2.466e-01]strawbyte_v1:  66%|######5   | 1972/3000 [1:50:30<48:23,  2.82s/it, lr: 1.0e-04 loss: 2.466e-01]strawbyte_v1:  66%|######5   | 1973/3000 [1:50:30<47:49,  2.79s/it, lr: 1.0e-04 loss: 2.466e-01]strawbyte_v1:  66%|######5   | 1973/3000 [1:50:30<47:49,  2.79s/it, lr: 1.0e-04 loss: 2.466e-01]strawbyte_v1:  66%|######5   | 1973/3000 [1:50:35<47:49,  2.79s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  66%|######5   | 1973/3000 [1:50:35<47:49,  2.79s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  66%|######5   | 1974/3000 [1:50:35<55:21,  3.24s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  66%|######5   | 1974/3000 [1:50:35<55:21,  3.24s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  66%|######5   | 1974/3000 [1:50:38<55:21,  3.24s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  66%|######5   | 1974/3000 [1:50:38<55:21,  3.24s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  66%|######5   | 1975/3000 [1:50:38<55:57,  3.28s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  66%|######5   | 1975/3000 [1:50:38<55:57,  3.28s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  66%|######5   | 1975/3000 [1:50:43<55:57,  3.28s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  66%|######5   | 1975/3000 [1:50:43<55:57,  3.28s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  66%|######5   | 1976/3000 [1:50:43<1:01:44,  3.62s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  66%|######5   | 1976/3000 [1:50:43<1:01:44,  3.62s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  66%|######5   | 1976/3000 [1:50:47<1:01:44,  3.62s/it, lr: 1.0e-04 loss: 1.759e-02]strawbyte_v1:  66%|######5   | 1976/3000 [1:50:47<1:01:44,  3.62s/it, lr: 1.0e-04 loss: 1.759e-02]strawbyte_v1:  66%|######5   | 1977/3000 [1:50:47<1:05:53,  3.86s/it, lr: 1.0e-04 loss: 1.759e-02]strawbyte_v1:  66%|######5   | 1977/3000 [1:50:47<1:05:53,  3.86s/it, lr: 1.0e-04 loss: 1.759e-02]strawbyte_v1:  66%|######5   | 1977/3000 [1:50:52<1:05:53,  3.86s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  66%|######5   | 1977/3000 [1:50:52<1:05:53,  3.86s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  66%|######5   | 1978/3000 [1:50:52<1:10:14,  4.12s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  66%|######5   | 1978/3000 [1:50:52<1:10:14,  4.12s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  66%|######5   | 1978/3000 [1:50:56<1:10:14,  4.12s/it, lr: 1.0e-04 loss: 8.890e-02]strawbyte_v1:  66%|######5   | 1978/3000 [1:50:56<1:10:14,  4.12s/it, lr: 1.0e-04 loss: 8.890e-02]strawbyte_v1:  66%|######5   | 1979/3000 [1:50:56<1:11:49,  4.22s/it, lr: 1.0e-04 loss: 8.890e-02]strawbyte_v1:  66%|######5   | 1979/3000 [1:50:56<1:11:49,  4.22s/it, lr: 1.0e-04 loss: 8.890e-02]strawbyte_v1:  66%|######5   | 1979/3000 [1:50:59<1:11:49,  4.22s/it, lr: 1.0e-04 loss: 5.814e-02]strawbyte_v1:  66%|######5   | 1979/3000 [1:50:59<1:11:49,  4.22s/it, lr: 1.0e-04 loss: 5.814e-02]strawbyte_v1:  66%|######6   | 1980/3000 [1:51:04<1:11:45,  4.22s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  66%|######6   | 1980/3000 [1:51:04<1:11:45,  4.22s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  66%|######6   | 1981/3000 [1:51:04<55:46,  3.28s/it, lr: 1.0e-04 loss: 1.166e-01]  strawbyte_v1:  66%|######6   | 1981/3000 [1:51:04<55:46,  3.28s/it, lr: 1.0e-04 loss: 1.166e-01]  strawbyte_v1:  66%|######6   | 1981/3000 [1:51:08<55:46,  3.28s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  66%|######6   | 1981/3000 [1:51:08<55:46,  3.28s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  66%|######6   | 1982/3000 [1:51:08<1:01:41,  3.64s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  66%|######6   | 1982/3000 [1:51:08<1:01:41,  3.64s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  66%|######6   | 1982/3000 [1:51:13<1:01:41,  3.64s/it, lr: 1.0e-04 loss: 9.424e-02]strawbyte_v1:  66%|######6   | 1982/3000 [1:51:13<1:01:41,  3.64s/it, lr: 1.0e-04 loss: 9.424e-02]strawbyte_v1:  66%|######6   | 1983/3000 [1:51:13<1:04:45,  3.82s/it, lr: 1.0e-04 loss: 9.424e-02]strawbyte_v1:  66%|######6   | 1983/3000 [1:51:13<1:04:45,  3.82s/it, lr: 1.0e-04 loss: 9.424e-02]strawbyte_v1:  66%|######6   | 1983/3000 [1:51:16<1:04:45,  3.82s/it, lr: 1.0e-04 loss: 1.917e-02]strawbyte_v1:  66%|######6   | 1983/3000 [1:51:16<1:04:45,  3.82s/it, lr: 1.0e-04 loss: 1.917e-02]strawbyte_v1:  66%|######6   | 1984/3000 [1:51:16<1:00:37,  3.58s/it, lr: 1.0e-04 loss: 1.917e-02]strawbyte_v1:  66%|######6   | 1984/3000 [1:51:16<1:00:37,  3.58s/it, lr: 1.0e-04 loss: 1.917e-02]strawbyte_v1:  66%|######6   | 1984/3000 [1:51:19<1:00:37,  3.58s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  66%|######6   | 1984/3000 [1:51:19<1:00:37,  3.58s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  66%|######6   | 1985/3000 [1:51:19<57:29,  3.40s/it, lr: 1.0e-04 loss: 1.270e-01]  strawbyte_v1:  66%|######6   | 1985/3000 [1:51:19<57:29,  3.40s/it, lr: 1.0e-04 loss: 1.270e-01]  strawbyte_v1:  66%|######6   | 1985/3000 [1:51:23<57:29,  3.40s/it, lr: 1.0e-04 loss: 7.653e-02]strawbyte_v1:  66%|######6   | 1985/3000 [1:51:23<57:29,  3.40s/it, lr: 1.0e-04 loss: 7.653e-02]strawbyte_v1:  66%|######6   | 1986/3000 [1:51:23<1:02:49,  3.72s/it, lr: 1.0e-04 loss: 7.653e-02]strawbyte_v1:  66%|######6   | 1986/3000 [1:51:23<1:02:49,  3.72s/it, lr: 1.0e-04 loss: 7.653e-02]strawbyte_v1:  66%|######6   | 1986/3000 [1:51:25<1:02:49,  3.72s/it, lr: 1.0e-04 loss: 2.223e-01]strawbyte_v1:  66%|######6   | 1986/3000 [1:51:25<1:02:49,  3.72s/it, lr: 1.0e-04 loss: 2.223e-01]strawbyte_v1:  66%|######6   | 1987/3000 [1:51:25<54:41,  3.24s/it, lr: 1.0e-04 loss: 2.223e-01]  strawbyte_v1:  66%|######6   | 1987/3000 [1:51:25<54:41,  3.24s/it, lr: 1.0e-04 loss: 2.223e-01]  strawbyte_v1:  66%|######6   | 1987/3000 [1:51:30<54:41,  3.24s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  66%|######6   | 1987/3000 [1:51:30<54:41,  3.24s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  66%|######6   | 1988/3000 [1:51:30<1:00:47,  3.60s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  66%|######6   | 1988/3000 [1:51:30<1:00:47,  3.60s/it, lr: 1.0e-04 loss: 1.079e-01]strawbyte_v1:  66%|######6   | 1988/3000 [1:51:33<1:00:47,  3.60s/it, lr: 1.0e-04 loss: 4.895e-02]strawbyte_v1:  66%|######6   | 1988/3000 [1:51:33<1:00:47,  3.60s/it, lr: 1.0e-04 loss: 4.895e-02]strawbyte_v1:  66%|######6   | 1989/3000 [1:51:33<59:19,  3.52s/it, lr: 1.0e-04 loss: 4.895e-02]  strawbyte_v1:  66%|######6   | 1989/3000 [1:51:33<59:19,  3.52s/it, lr: 1.0e-04 loss: 4.895e-02]  strawbyte_v1:  66%|######6   | 1989/3000 [1:51:36<59:19,  3.52s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  66%|######6   | 1989/3000 [1:51:36<59:19,  3.52s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  66%|######6   | 1990/3000 [1:51:41<59:15,  3.52s/it, lr: 1.0e-04 loss: 9.143e-02]strawbyte_v1:  66%|######6   | 1990/3000 [1:51:41<59:15,  3.52s/it, lr: 1.0e-04 loss: 9.143e-02]strawbyte_v1:  66%|######6   | 1991/3000 [1:51:41<49:20,  2.93s/it, lr: 1.0e-04 loss: 9.143e-02]strawbyte_v1:  66%|######6   | 1991/3000 [1:51:41<49:20,  2.93s/it, lr: 1.0e-04 loss: 9.143e-02]strawbyte_v1:  66%|######6   | 1991/3000 [1:51:45<49:20,  2.93s/it, lr: 1.0e-04 loss: 8.504e-02]strawbyte_v1:  66%|######6   | 1991/3000 [1:51:45<49:20,  2.93s/it, lr: 1.0e-04 loss: 8.504e-02]strawbyte_v1:  66%|######6   | 1992/3000 [1:51:45<55:56,  3.33s/it, lr: 1.0e-04 loss: 8.504e-02]strawbyte_v1:  66%|######6   | 1992/3000 [1:51:45<55:56,  3.33s/it, lr: 1.0e-04 loss: 8.504e-02]strawbyte_v1:  66%|######6   | 1992/3000 [1:51:48<55:56,  3.33s/it, lr: 1.0e-04 loss: 7.357e-02]strawbyte_v1:  66%|######6   | 1992/3000 [1:51:48<55:56,  3.33s/it, lr: 1.0e-04 loss: 7.357e-02]strawbyte_v1:  66%|######6   | 1993/3000 [1:51:48<56:01,  3.34s/it, lr: 1.0e-04 loss: 7.357e-02]strawbyte_v1:  66%|######6   | 1993/3000 [1:51:48<56:01,  3.34s/it, lr: 1.0e-04 loss: 7.357e-02]strawbyte_v1:  66%|######6   | 1993/3000 [1:51:51<56:01,  3.34s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  66%|######6   | 1993/3000 [1:51:51<56:01,  3.34s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  66%|######6   | 1994/3000 [1:51:51<53:07,  3.17s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  66%|######6   | 1994/3000 [1:51:51<53:07,  3.17s/it, lr: 1.0e-04 loss: 1.652e-01]strawbyte_v1:  66%|######6   | 1994/3000 [1:51:54<53:07,  3.17s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  66%|######6   | 1994/3000 [1:51:54<53:07,  3.17s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  66%|######6   | 1995/3000 [1:51:54<52:33,  3.14s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  66%|######6   | 1995/3000 [1:51:54<52:33,  3.14s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  66%|######6   | 1995/3000 [1:51:57<52:33,  3.14s/it, lr: 1.0e-04 loss: 1.955e-01]strawbyte_v1:  66%|######6   | 1995/3000 [1:51:57<52:33,  3.14s/it, lr: 1.0e-04 loss: 1.955e-01]strawbyte_v1:  67%|######6   | 1996/3000 [1:51:57<52:11,  3.12s/it, lr: 1.0e-04 loss: 1.955e-01]strawbyte_v1:  67%|######6   | 1996/3000 [1:51:57<52:11,  3.12s/it, lr: 1.0e-04 loss: 1.955e-01]strawbyte_v1:  67%|######6   | 1996/3000 [1:52:00<52:11,  3.12s/it, lr: 1.0e-04 loss: 7.116e-03]strawbyte_v1:  67%|######6   | 1996/3000 [1:52:00<52:11,  3.12s/it, lr: 1.0e-04 loss: 7.116e-03]strawbyte_v1:  67%|######6   | 1997/3000 [1:52:00<49:57,  2.99s/it, lr: 1.0e-04 loss: 7.116e-03]strawbyte_v1:  67%|######6   | 1997/3000 [1:52:00<49:57,  2.99s/it, lr: 1.0e-04 loss: 7.116e-03]strawbyte_v1:  67%|######6   | 1997/3000 [1:52:03<49:57,  2.99s/it, lr: 1.0e-04 loss: 2.114e-01]strawbyte_v1:  67%|######6   | 1997/3000 [1:52:03<49:57,  2.99s/it, lr: 1.0e-04 loss: 2.114e-01]strawbyte_v1:  67%|######6   | 1998/3000 [1:52:03<48:21,  2.90s/it, lr: 1.0e-04 loss: 2.114e-01]strawbyte_v1:  67%|######6   | 1998/3000 [1:52:03<48:21,  2.90s/it, lr: 1.0e-04 loss: 2.114e-01]strawbyte_v1:  67%|######6   | 1998/3000 [1:52:07<48:21,  2.90s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  67%|######6   | 1998/3000 [1:52:07<48:21,  2.90s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  67%|######6   | 1999/3000 [1:52:07<55:51,  3.35s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  67%|######6   | 1999/3000 [1:52:07<55:51,  3.35s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  67%|######6   | 1999/3000 [1:52:12<55:51,  3.35s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  67%|######6   | 1999/3000 [1:52:12<55:51,  3.35s/it, lr: 1.0e-04 loss: 1.183e-01]
+Saving at step 2000
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000002000.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+Removing old save: /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001000.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:14<03:42, 74.27s/it]Generating Images:  25%|##5       | 1/4 [01:14<03:42, 74.27s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.16s/it]Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.16s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.15s/it]Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.15s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.11s/it]Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.11s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  67%|######6   | 2000/3000 [1:52:15<55:48,  3.35s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  67%|######6   | 2000/3000 [1:52:15<55:48,  3.35s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  67%|######6   | 2001/3000 [1:52:15<42:53,  2.58s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  67%|######6   | 2001/3000 [1:52:15<42:53,  2.58s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  67%|######6   | 2001/3000 [1:52:18<42:53,  2.58s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  67%|######6   | 2001/3000 [1:52:18<42:53,  2.58s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  67%|######6   | 2002/3000 [1:52:18<44:39,  2.69s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  67%|######6   | 2002/3000 [1:52:18<44:39,  2.69s/it, lr: 1.0e-04 loss: 1.329e-01]strawbyte_v1:  67%|######6   | 2002/3000 [1:52:21<44:39,  2.69s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  67%|######6   | 2002/3000 [1:52:21<44:39,  2.69s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  67%|######6   | 2003/3000 [1:52:21<45:52,  2.76s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  67%|######6   | 2003/3000 [1:52:21<45:52,  2.76s/it, lr: 1.0e-04 loss: 1.628e-01]strawbyte_v1:  67%|######6   | 2003/3000 [1:52:26<45:52,  2.76s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  67%|######6   | 2003/3000 [1:52:26<45:52,  2.76s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  67%|######6   | 2004/3000 [1:52:26<54:38,  3.29s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  67%|######6   | 2004/3000 [1:52:26<54:38,  3.29s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  67%|######6   | 2004/3000 [1:52:28<54:38,  3.29s/it, lr: 1.0e-04 loss: 1.682e-01]strawbyte_v1:  67%|######6   | 2004/3000 [1:52:28<54:38,  3.29s/it, lr: 1.0e-04 loss: 1.682e-01]strawbyte_v1:  67%|######6   | 2005/3000 [1:52:28<51:17,  3.09s/it, lr: 1.0e-04 loss: 1.682e-01]strawbyte_v1:  67%|######6   | 2005/3000 [1:52:28<51:17,  3.09s/it, lr: 1.0e-04 loss: 1.682e-01]strawbyte_v1:  67%|######6   | 2005/3000 [1:52:33<51:17,  3.09s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  67%|######6   | 2005/3000 [1:52:33<51:17,  3.09s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  67%|######6   | 2006/3000 [1:52:33<56:57,  3.44s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  67%|######6   | 2006/3000 [1:52:33<56:57,  3.44s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  67%|######6   | 2006/3000 [1:52:37<56:57,  3.44s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:  67%|######6   | 2006/3000 [1:52:37<56:57,  3.44s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:  67%|######6   | 2007/3000 [1:52:37<1:02:11,  3.76s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:  67%|######6   | 2007/3000 [1:52:37<1:02:11,  3.76s/it, lr: 1.0e-04 loss: 1.018e-01]strawbyte_v1:  67%|######6   | 2007/3000 [1:52:41<1:02:11,  3.76s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  67%|######6   | 2007/3000 [1:52:41<1:02:11,  3.76s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  67%|######6   | 2008/3000 [1:52:42<1:04:09,  3.88s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  67%|######6   | 2008/3000 [1:52:42<1:04:09,  3.88s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  67%|######6   | 2008/3000 [1:52:44<1:04:09,  3.88s/it, lr: 1.0e-04 loss: 8.481e-02]strawbyte_v1:  67%|######6   | 2008/3000 [1:52:44<1:04:09,  3.88s/it, lr: 1.0e-04 loss: 8.481e-02]strawbyte_v1:  67%|######6   | 2009/3000 [1:52:44<59:05,  3.58s/it, lr: 1.0e-04 loss: 8.481e-02]  strawbyte_v1:  67%|######6   | 2009/3000 [1:52:44<59:05,  3.58s/it, lr: 1.0e-04 loss: 8.481e-02]  strawbyte_v1:  67%|######6   | 2009/3000 [1:52:46<59:05,  3.58s/it, lr: 1.0e-04 loss: 1.345e-01]strawbyte_v1:  67%|######6   | 2009/3000 [1:52:46<59:05,  3.58s/it, lr: 1.0e-04 loss: 1.345e-01]strawbyte_v1:  67%|######7   | 2010/3000 [1:52:50<59:01,  3.58s/it, lr: 1.0e-04 loss: 7.243e-02]strawbyte_v1:  67%|######7   | 2010/3000 [1:52:50<59:01,  3.58s/it, lr: 1.0e-04 loss: 7.243e-02]strawbyte_v1:  67%|######7   | 2011/3000 [1:52:50<43:40,  2.65s/it, lr: 1.0e-04 loss: 7.243e-02]strawbyte_v1:  67%|######7   | 2011/3000 [1:52:50<43:40,  2.65s/it, lr: 1.0e-04 loss: 7.243e-02]strawbyte_v1:  67%|######7   | 2011/3000 [1:52:52<43:40,  2.65s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  67%|######7   | 2011/3000 [1:52:52<43:40,  2.65s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  67%|######7   | 2012/3000 [1:52:52<44:44,  2.72s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  67%|######7   | 2012/3000 [1:52:52<44:44,  2.72s/it, lr: 1.0e-04 loss: 1.304e-01]strawbyte_v1:  67%|######7   | 2012/3000 [1:52:55<44:44,  2.72s/it, lr: 1.0e-04 loss: 1.490e-01]strawbyte_v1:  67%|######7   | 2012/3000 [1:52:55<44:44,  2.72s/it, lr: 1.0e-04 loss: 1.490e-01]strawbyte_v1:  67%|######7   | 2013/3000 [1:52:55<41:55,  2.55s/it, lr: 1.0e-04 loss: 1.490e-01]strawbyte_v1:  67%|######7   | 2013/3000 [1:52:55<41:55,  2.55s/it, lr: 1.0e-04 loss: 1.490e-01]strawbyte_v1:  67%|######7   | 2013/3000 [1:52:57<41:55,  2.55s/it, lr: 1.0e-04 loss: 5.432e-04]strawbyte_v1:  67%|######7   | 2013/3000 [1:52:57<41:55,  2.55s/it, lr: 1.0e-04 loss: 5.432e-04]strawbyte_v1:  67%|######7   | 2014/3000 [1:52:57<39:50,  2.42s/it, lr: 1.0e-04 loss: 5.432e-04]strawbyte_v1:  67%|######7   | 2014/3000 [1:52:57<39:50,  2.42s/it, lr: 1.0e-04 loss: 5.432e-04]strawbyte_v1:  67%|######7   | 2014/3000 [1:52:59<39:50,  2.42s/it, lr: 1.0e-04 loss: 1.558e-01]strawbyte_v1:  67%|######7   | 2014/3000 [1:52:59<39:50,  2.42s/it, lr: 1.0e-04 loss: 1.558e-01]strawbyte_v1:  67%|######7   | 2015/3000 [1:52:59<39:34,  2.41s/it, lr: 1.0e-04 loss: 1.558e-01]strawbyte_v1:  67%|######7   | 2015/3000 [1:52:59<39:34,  2.41s/it, lr: 1.0e-04 loss: 1.558e-01]strawbyte_v1:  67%|######7   | 2015/3000 [1:53:02<39:34,  2.41s/it, lr: 1.0e-04 loss: 2.119e-02]strawbyte_v1:  67%|######7   | 2015/3000 [1:53:02<39:34,  2.41s/it, lr: 1.0e-04 loss: 2.119e-02]strawbyte_v1:  67%|######7   | 2016/3000 [1:53:02<41:49,  2.55s/it, lr: 1.0e-04 loss: 2.119e-02]strawbyte_v1:  67%|######7   | 2016/3000 [1:53:02<41:49,  2.55s/it, lr: 1.0e-04 loss: 2.119e-02]strawbyte_v1:  67%|######7   | 2016/3000 [1:53:06<41:49,  2.55s/it, lr: 1.0e-04 loss: 3.312e-02]strawbyte_v1:  67%|######7   | 2016/3000 [1:53:06<41:49,  2.55s/it, lr: 1.0e-04 loss: 3.312e-02]strawbyte_v1:  67%|######7   | 2017/3000 [1:53:06<50:49,  3.10s/it, lr: 1.0e-04 loss: 3.312e-02]strawbyte_v1:  67%|######7   | 2017/3000 [1:53:06<50:49,  3.10s/it, lr: 1.0e-04 loss: 3.312e-02]strawbyte_v1:  67%|######7   | 2017/3000 [1:53:11<50:49,  3.10s/it, lr: 1.0e-04 loss: 7.901e-02]strawbyte_v1:  67%|######7   | 2017/3000 [1:53:11<50:49,  3.10s/it, lr: 1.0e-04 loss: 7.901e-02]strawbyte_v1:  67%|######7   | 2018/3000 [1:53:11<58:41,  3.59s/it, lr: 1.0e-04 loss: 7.901e-02]strawbyte_v1:  67%|######7   | 2018/3000 [1:53:11<58:41,  3.59s/it, lr: 1.0e-04 loss: 7.901e-02]strawbyte_v1:  67%|######7   | 2018/3000 [1:53:14<58:41,  3.59s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  67%|######7   | 2018/3000 [1:53:14<58:41,  3.59s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  67%|######7   | 2019/3000 [1:53:14<54:16,  3.32s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  67%|######7   | 2019/3000 [1:53:14<54:16,  3.32s/it, lr: 1.0e-04 loss: 1.186e-01]strawbyte_v1:  67%|######7   | 2019/3000 [1:53:16<54:16,  3.32s/it, lr: 1.0e-04 loss: 1.515e-01]strawbyte_v1:  67%|######7   | 2019/3000 [1:53:16<54:16,  3.32s/it, lr: 1.0e-04 loss: 1.515e-01]strawbyte_v1:  67%|######7   | 2020/3000 [1:53:19<54:12,  3.32s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  67%|######7   | 2020/3000 [1:53:19<54:12,  3.32s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  67%|######7   | 2021/3000 [1:53:20<40:37,  2.49s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  67%|######7   | 2021/3000 [1:53:20<40:37,  2.49s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  67%|######7   | 2021/3000 [1:53:23<40:37,  2.49s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  67%|######7   | 2021/3000 [1:53:23<40:37,  2.49s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  67%|######7   | 2022/3000 [1:53:23<43:50,  2.69s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  67%|######7   | 2022/3000 [1:53:23<43:50,  2.69s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  67%|######7   | 2022/3000 [1:53:25<43:50,  2.69s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  67%|######7   | 2022/3000 [1:53:25<43:50,  2.69s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  67%|######7   | 2023/3000 [1:53:25<43:46,  2.69s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  67%|######7   | 2023/3000 [1:53:25<43:46,  2.69s/it, lr: 1.0e-04 loss: 1.675e-01]strawbyte_v1:  67%|######7   | 2023/3000 [1:53:29<43:46,  2.69s/it, lr: 1.0e-04 loss: 9.421e-02]strawbyte_v1:  67%|######7   | 2023/3000 [1:53:29<43:46,  2.69s/it, lr: 1.0e-04 loss: 9.421e-02]strawbyte_v1:  67%|######7   | 2024/3000 [1:53:29<45:19,  2.79s/it, lr: 1.0e-04 loss: 9.421e-02]strawbyte_v1:  67%|######7   | 2024/3000 [1:53:29<45:19,  2.79s/it, lr: 1.0e-04 loss: 9.421e-02]strawbyte_v1:  67%|######7   | 2024/3000 [1:53:32<45:19,  2.79s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  67%|######7   | 2024/3000 [1:53:32<45:19,  2.79s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  68%|######7   | 2025/3000 [1:53:32<46:30,  2.86s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  68%|######7   | 2025/3000 [1:53:32<46:30,  2.86s/it, lr: 1.0e-04 loss: 1.427e-01]strawbyte_v1:  68%|######7   | 2025/3000 [1:53:36<46:30,  2.86s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  68%|######7   | 2025/3000 [1:53:36<46:30,  2.86s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  68%|######7   | 2026/3000 [1:53:36<55:12,  3.40s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  68%|######7   | 2026/3000 [1:53:36<55:12,  3.40s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  68%|######7   | 2026/3000 [1:53:41<55:12,  3.40s/it, lr: 1.0e-04 loss: 5.300e-02]strawbyte_v1:  68%|######7   | 2026/3000 [1:53:41<55:12,  3.40s/it, lr: 1.0e-04 loss: 5.300e-02]strawbyte_v1:  68%|######7   | 2027/3000 [1:53:41<1:00:02,  3.70s/it, lr: 1.0e-04 loss: 5.300e-02]strawbyte_v1:  68%|######7   | 2027/3000 [1:53:41<1:00:02,  3.70s/it, lr: 1.0e-04 loss: 5.300e-02]strawbyte_v1:  68%|######7   | 2027/3000 [1:53:43<1:00:02,  3.70s/it, lr: 1.0e-04 loss: 1.865e-01]strawbyte_v1:  68%|######7   | 2027/3000 [1:53:43<1:00:02,  3.70s/it, lr: 1.0e-04 loss: 1.865e-01]strawbyte_v1:  68%|######7   | 2028/3000 [1:53:43<55:07,  3.40s/it, lr: 1.0e-04 loss: 1.865e-01]  strawbyte_v1:  68%|######7   | 2028/3000 [1:53:43<55:07,  3.40s/it, lr: 1.0e-04 loss: 1.865e-01]  strawbyte_v1:  68%|######7   | 2028/3000 [1:53:47<55:07,  3.40s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  68%|######7   | 2028/3000 [1:53:47<55:07,  3.40s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  68%|######7   | 2029/3000 [1:53:47<54:40,  3.38s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  68%|######7   | 2029/3000 [1:53:47<54:40,  3.38s/it, lr: 1.0e-04 loss: 1.445e-01]strawbyte_v1:  68%|######7   | 2029/3000 [1:53:51<54:40,  3.38s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  68%|######7   | 2029/3000 [1:53:51<54:40,  3.38s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  68%|######7   | 2030/3000 [1:53:54<54:36,  3.38s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  68%|######7   | 2030/3000 [1:53:54<54:36,  3.38s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  68%|######7   | 2031/3000 [1:53:54<40:09,  2.49s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  68%|######7   | 2031/3000 [1:53:54<40:09,  2.49s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  68%|######7   | 2031/3000 [1:53:56<40:09,  2.49s/it, lr: 1.0e-04 loss: 1.872e-01]strawbyte_v1:  68%|######7   | 2031/3000 [1:53:56<40:09,  2.49s/it, lr: 1.0e-04 loss: 1.872e-01]strawbyte_v1:  68%|######7   | 2032/3000 [1:53:56<38:31,  2.39s/it, lr: 1.0e-04 loss: 1.872e-01]strawbyte_v1:  68%|######7   | 2032/3000 [1:53:56<38:31,  2.39s/it, lr: 1.0e-04 loss: 1.872e-01]strawbyte_v1:  68%|######7   | 2032/3000 [1:53:59<38:31,  2.39s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  68%|######7   | 2032/3000 [1:53:59<38:31,  2.39s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  68%|######7   | 2033/3000 [1:53:59<41:28,  2.57s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  68%|######7   | 2033/3000 [1:53:59<41:28,  2.57s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  68%|######7   | 2033/3000 [1:54:02<41:28,  2.57s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  68%|######7   | 2033/3000 [1:54:02<41:28,  2.57s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  68%|######7   | 2034/3000 [1:54:02<42:43,  2.65s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  68%|######7   | 2034/3000 [1:54:02<42:43,  2.65s/it, lr: 1.0e-04 loss: 1.085e-01]strawbyte_v1:  68%|######7   | 2034/3000 [1:54:04<42:43,  2.65s/it, lr: 1.0e-04 loss: 2.249e-01]strawbyte_v1:  68%|######7   | 2034/3000 [1:54:04<42:43,  2.65s/it, lr: 1.0e-04 loss: 2.249e-01]strawbyte_v1:  68%|######7   | 2035/3000 [1:54:04<40:03,  2.49s/it, lr: 1.0e-04 loss: 2.249e-01]strawbyte_v1:  68%|######7   | 2035/3000 [1:54:04<40:03,  2.49s/it, lr: 1.0e-04 loss: 2.249e-01]strawbyte_v1:  68%|######7   | 2035/3000 [1:54:07<40:03,  2.49s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  68%|######7   | 2035/3000 [1:54:07<40:03,  2.49s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  68%|######7   | 2036/3000 [1:54:07<41:52,  2.61s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  68%|######7   | 2036/3000 [1:54:07<41:52,  2.61s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  68%|######7   | 2036/3000 [1:54:09<41:52,  2.61s/it, lr: 1.0e-04 loss: 7.335e-02]strawbyte_v1:  68%|######7   | 2036/3000 [1:54:09<41:52,  2.61s/it, lr: 1.0e-04 loss: 7.335e-02]strawbyte_v1:  68%|######7   | 2037/3000 [1:54:09<40:49,  2.54s/it, lr: 1.0e-04 loss: 7.335e-02]strawbyte_v1:  68%|######7   | 2037/3000 [1:54:09<40:49,  2.54s/it, lr: 1.0e-04 loss: 7.335e-02]strawbyte_v1:  68%|######7   | 2037/3000 [1:54:12<40:49,  2.54s/it, lr: 1.0e-04 loss: 1.938e-01]strawbyte_v1:  68%|######7   | 2037/3000 [1:54:12<40:49,  2.54s/it, lr: 1.0e-04 loss: 1.938e-01]strawbyte_v1:  68%|######7   | 2038/3000 [1:54:12<38:39,  2.41s/it, lr: 1.0e-04 loss: 1.938e-01]strawbyte_v1:  68%|######7   | 2038/3000 [1:54:12<38:39,  2.41s/it, lr: 1.0e-04 loss: 1.938e-01]strawbyte_v1:  68%|######7   | 2038/3000 [1:54:16<38:39,  2.41s/it, lr: 1.0e-04 loss: 9.133e-02]strawbyte_v1:  68%|######7   | 2038/3000 [1:54:16<38:39,  2.41s/it, lr: 1.0e-04 loss: 9.133e-02]strawbyte_v1:  68%|######7   | 2039/3000 [1:54:16<47:46,  2.98s/it, lr: 1.0e-04 loss: 9.133e-02]strawbyte_v1:  68%|######7   | 2039/3000 [1:54:16<47:46,  2.98s/it, lr: 1.0e-04 loss: 9.133e-02]strawbyte_v1:  68%|######7   | 2039/3000 [1:54:18<47:46,  2.98s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  68%|######7   | 2039/3000 [1:54:18<47:46,  2.98s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  68%|######8   | 2040/3000 [1:54:23<47:43,  2.98s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  68%|######8   | 2040/3000 [1:54:23<47:43,  2.98s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  68%|######8   | 2041/3000 [1:54:23<41:43,  2.61s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  68%|######8   | 2041/3000 [1:54:23<41:43,  2.61s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  68%|######8   | 2041/3000 [1:54:26<41:43,  2.61s/it, lr: 1.0e-04 loss: 8.383e-02]strawbyte_v1:  68%|######8   | 2041/3000 [1:54:26<41:43,  2.61s/it, lr: 1.0e-04 loss: 8.383e-02]strawbyte_v1:  68%|######8   | 2042/3000 [1:54:26<43:12,  2.71s/it, lr: 1.0e-04 loss: 8.383e-02]strawbyte_v1:  68%|######8   | 2042/3000 [1:54:26<43:12,  2.71s/it, lr: 1.0e-04 loss: 8.383e-02]strawbyte_v1:  68%|######8   | 2042/3000 [1:54:29<43:12,  2.71s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  68%|######8   | 2042/3000 [1:54:29<43:12,  2.71s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  68%|######8   | 2043/3000 [1:54:29<44:27,  2.79s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  68%|######8   | 2043/3000 [1:54:29<44:27,  2.79s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  68%|######8   | 2043/3000 [1:54:32<44:27,  2.79s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  68%|######8   | 2043/3000 [1:54:32<44:27,  2.79s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  68%|######8   | 2044/3000 [1:54:32<45:31,  2.86s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  68%|######8   | 2044/3000 [1:54:32<45:31,  2.86s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  68%|######8   | 2044/3000 [1:54:34<45:31,  2.86s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  68%|######8   | 2044/3000 [1:54:34<45:31,  2.86s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  68%|######8   | 2045/3000 [1:54:34<44:45,  2.81s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  68%|######8   | 2045/3000 [1:54:34<44:45,  2.81s/it, lr: 1.0e-04 loss: 1.834e-01]strawbyte_v1:  68%|######8   | 2045/3000 [1:54:37<44:45,  2.81s/it, lr: 1.0e-04 loss: 1.905e-01]strawbyte_v1:  68%|######8   | 2045/3000 [1:54:37<44:45,  2.81s/it, lr: 1.0e-04 loss: 1.905e-01]strawbyte_v1:  68%|######8   | 2046/3000 [1:54:37<44:09,  2.78s/it, lr: 1.0e-04 loss: 1.905e-01]strawbyte_v1:  68%|######8   | 2046/3000 [1:54:37<44:09,  2.78s/it, lr: 1.0e-04 loss: 1.905e-01]strawbyte_v1:  68%|######8   | 2046/3000 [1:54:40<44:09,  2.78s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  68%|######8   | 2046/3000 [1:54:40<44:09,  2.78s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  68%|######8   | 2047/3000 [1:54:40<45:07,  2.84s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  68%|######8   | 2047/3000 [1:54:40<45:07,  2.84s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  68%|######8   | 2047/3000 [1:54:43<45:07,  2.84s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  68%|######8   | 2047/3000 [1:54:43<45:07,  2.84s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  68%|######8   | 2048/3000 [1:54:43<47:31,  3.00s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  68%|######8   | 2048/3000 [1:54:43<47:31,  3.00s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  68%|######8   | 2048/3000 [1:54:46<47:31,  3.00s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  68%|######8   | 2048/3000 [1:54:46<47:31,  3.00s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  68%|######8   | 2049/3000 [1:54:46<45:54,  2.90s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  68%|######8   | 2049/3000 [1:54:46<45:54,  2.90s/it, lr: 1.0e-04 loss: 1.709e-01]strawbyte_v1:  68%|######8   | 2049/3000 [1:54:49<45:54,  2.90s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  68%|######8   | 2049/3000 [1:54:49<45:54,  2.90s/it, lr: 1.0e-04 loss: 5.571e-02]strawbyte_v1:  68%|######8   | 2050/3000 [1:54:53<45:51,  2.90s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  68%|######8   | 2050/3000 [1:54:53<45:51,  2.90s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  68%|######8   | 2051/3000 [1:54:53<41:49,  2.64s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  68%|######8   | 2051/3000 [1:54:53<41:49,  2.64s/it, lr: 1.0e-04 loss: 1.065e-01]strawbyte_v1:  68%|######8   | 2051/3000 [1:54:56<41:49,  2.64s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  68%|######8   | 2051/3000 [1:54:56<41:49,  2.64s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  68%|######8   | 2052/3000 [1:54:57<43:14,  2.74s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  68%|######8   | 2052/3000 [1:54:57<43:14,  2.74s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1:  68%|######8   | 2052/3000 [1:54:59<43:14,  2.74s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  68%|######8   | 2052/3000 [1:54:59<43:14,  2.74s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  68%|######8   | 2053/3000 [1:54:59<44:14,  2.80s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  68%|######8   | 2053/3000 [1:54:59<44:14,  2.80s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  68%|######8   | 2053/3000 [1:55:02<44:14,  2.80s/it, lr: 1.0e-04 loss: 1.880e-01]strawbyte_v1:  68%|######8   | 2053/3000 [1:55:02<44:14,  2.80s/it, lr: 1.0e-04 loss: 1.880e-01]strawbyte_v1:  68%|######8   | 2054/3000 [1:55:02<43:54,  2.78s/it, lr: 1.0e-04 loss: 1.880e-01]strawbyte_v1:  68%|######8   | 2054/3000 [1:55:02<43:54,  2.78s/it, lr: 1.0e-04 loss: 1.880e-01]strawbyte_v1:  68%|######8   | 2054/3000 [1:55:07<43:54,  2.78s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  68%|######8   | 2054/3000 [1:55:07<43:54,  2.78s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  68%|######8   | 2055/3000 [1:55:07<52:25,  3.33s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  68%|######8   | 2055/3000 [1:55:07<52:25,  3.33s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  68%|######8   | 2055/3000 [1:55:11<52:25,  3.33s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  68%|######8   | 2055/3000 [1:55:11<52:25,  3.33s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  69%|######8   | 2056/3000 [1:55:11<57:13,  3.64s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  69%|######8   | 2056/3000 [1:55:11<57:13,  3.64s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  69%|######8   | 2056/3000 [1:55:13<57:13,  3.64s/it, lr: 1.0e-04 loss: 8.666e-02]strawbyte_v1:  69%|######8   | 2056/3000 [1:55:13<57:13,  3.64s/it, lr: 1.0e-04 loss: 8.666e-02]strawbyte_v1:  69%|######8   | 2057/3000 [1:55:13<50:06,  3.19s/it, lr: 1.0e-04 loss: 8.666e-02]strawbyte_v1:  69%|######8   | 2057/3000 [1:55:13<50:06,  3.19s/it, lr: 1.0e-04 loss: 8.666e-02]strawbyte_v1:  69%|######8   | 2057/3000 [1:55:17<50:06,  3.19s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  69%|######8   | 2057/3000 [1:55:17<50:06,  3.19s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  69%|######8   | 2058/3000 [1:55:17<49:38,  3.16s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  69%|######8   | 2058/3000 [1:55:17<49:38,  3.16s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  69%|######8   | 2058/3000 [1:55:21<49:38,  3.16s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  69%|######8   | 2058/3000 [1:55:21<49:38,  3.16s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  69%|######8   | 2059/3000 [1:55:21<54:49,  3.50s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  69%|######8   | 2059/3000 [1:55:21<54:49,  3.50s/it, lr: 1.0e-04 loss: 1.036e-01]strawbyte_v1:  69%|######8   | 2059/3000 [1:55:23<54:49,  3.50s/it, lr: 1.0e-04 loss: 1.295e-01]strawbyte_v1:  69%|######8   | 2059/3000 [1:55:23<54:49,  3.50s/it, lr: 1.0e-04 loss: 1.295e-01]strawbyte_v1:  69%|######8   | 2060/3000 [1:55:25<54:46,  3.50s/it, lr: 1.0e-04 loss: 1.401e-02]strawbyte_v1:  69%|######8   | 2060/3000 [1:55:25<54:46,  3.50s/it, lr: 1.0e-04 loss: 1.401e-02]strawbyte_v1:  69%|######8   | 2061/3000 [1:55:25<37:10,  2.38s/it, lr: 1.0e-04 loss: 1.401e-02]strawbyte_v1:  69%|######8   | 2061/3000 [1:55:25<37:10,  2.38s/it, lr: 1.0e-04 loss: 1.401e-02]strawbyte_v1:  69%|######8   | 2061/3000 [1:55:27<37:10,  2.38s/it, lr: 1.0e-04 loss: 1.651e-02]strawbyte_v1:  69%|######8   | 2061/3000 [1:55:27<37:10,  2.38s/it, lr: 1.0e-04 loss: 1.651e-02]strawbyte_v1:  69%|######8   | 2062/3000 [1:55:27<37:14,  2.38s/it, lr: 1.0e-04 loss: 1.651e-02]strawbyte_v1:  69%|######8   | 2062/3000 [1:55:27<37:14,  2.38s/it, lr: 1.0e-04 loss: 1.651e-02]strawbyte_v1:  69%|######8   | 2062/3000 [1:55:32<37:14,  2.38s/it, lr: 1.0e-04 loss: 9.218e-02]strawbyte_v1:  69%|######8   | 2062/3000 [1:55:32<37:14,  2.38s/it, lr: 1.0e-04 loss: 9.218e-02]strawbyte_v1:  69%|######8   | 2063/3000 [1:55:32<44:57,  2.88s/it, lr: 1.0e-04 loss: 9.218e-02]strawbyte_v1:  69%|######8   | 2063/3000 [1:55:32<44:57,  2.88s/it, lr: 1.0e-04 loss: 9.218e-02]strawbyte_v1:  69%|######8   | 2063/3000 [1:55:36<44:57,  2.88s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  69%|######8   | 2063/3000 [1:55:36<44:57,  2.88s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  69%|######8   | 2064/3000 [1:55:36<50:58,  3.27s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  69%|######8   | 2064/3000 [1:55:36<50:58,  3.27s/it, lr: 1.0e-04 loss: 1.174e-01]strawbyte_v1:  69%|######8   | 2064/3000 [1:55:39<50:58,  3.27s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  69%|######8   | 2064/3000 [1:55:39<50:58,  3.27s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  69%|######8   | 2065/3000 [1:55:39<49:26,  3.17s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  69%|######8   | 2065/3000 [1:55:39<49:26,  3.17s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  69%|######8   | 2065/3000 [1:55:44<49:26,  3.17s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  69%|######8   | 2065/3000 [1:55:44<49:26,  3.17s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  69%|######8   | 2066/3000 [1:55:44<55:57,  3.59s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  69%|######8   | 2066/3000 [1:55:44<55:57,  3.59s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  69%|######8   | 2066/3000 [1:55:47<55:57,  3.59s/it, lr: 1.0e-04 loss: 1.375e-01]strawbyte_v1:  69%|######8   | 2066/3000 [1:55:47<55:57,  3.59s/it, lr: 1.0e-04 loss: 1.375e-01]strawbyte_v1:  69%|######8   | 2067/3000 [1:55:47<53:09,  3.42s/it, lr: 1.0e-04 loss: 1.375e-01]strawbyte_v1:  69%|######8   | 2067/3000 [1:55:47<53:09,  3.42s/it, lr: 1.0e-04 loss: 1.375e-01]strawbyte_v1:  69%|######8   | 2067/3000 [1:55:49<53:09,  3.42s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  69%|######8   | 2067/3000 [1:55:49<53:09,  3.42s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  69%|######8   | 2068/3000 [1:55:49<49:49,  3.21s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  69%|######8   | 2068/3000 [1:55:49<49:49,  3.21s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  69%|######8   | 2068/3000 [1:55:52<49:49,  3.21s/it, lr: 1.0e-04 loss: 6.050e-04]strawbyte_v1:  69%|######8   | 2068/3000 [1:55:52<49:49,  3.21s/it, lr: 1.0e-04 loss: 6.050e-04]strawbyte_v1:  69%|######8   | 2069/3000 [1:55:52<49:13,  3.17s/it, lr: 1.0e-04 loss: 6.050e-04]strawbyte_v1:  69%|######8   | 2069/3000 [1:55:52<49:13,  3.17s/it, lr: 1.0e-04 loss: 6.050e-04]strawbyte_v1:  69%|######8   | 2069/3000 [1:55:57<49:13,  3.17s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  69%|######8   | 2069/3000 [1:55:57<49:13,  3.17s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  69%|######9   | 2070/3000 [1:56:00<49:10,  3.17s/it, lr: 1.0e-04 loss: 9.688e-02]strawbyte_v1:  69%|######9   | 2070/3000 [1:56:00<49:10,  3.17s/it, lr: 1.0e-04 loss: 9.688e-02]strawbyte_v1:  69%|######9   | 2071/3000 [1:56:00<36:15,  2.34s/it, lr: 1.0e-04 loss: 9.688e-02]strawbyte_v1:  69%|######9   | 2071/3000 [1:56:00<36:15,  2.34s/it, lr: 1.0e-04 loss: 9.688e-02]strawbyte_v1:  69%|######9   | 2071/3000 [1:56:03<36:15,  2.34s/it, lr: 1.0e-04 loss: 5.370e-02]strawbyte_v1:  69%|######9   | 2071/3000 [1:56:03<36:15,  2.34s/it, lr: 1.0e-04 loss: 5.370e-02]strawbyte_v1:  69%|######9   | 2072/3000 [1:56:03<38:35,  2.50s/it, lr: 1.0e-04 loss: 5.370e-02]strawbyte_v1:  69%|######9   | 2072/3000 [1:56:03<38:35,  2.50s/it, lr: 1.0e-04 loss: 5.370e-02]strawbyte_v1:  69%|######9   | 2072/3000 [1:56:07<38:35,  2.50s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  69%|######9   | 2072/3000 [1:56:07<38:35,  2.50s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  69%|######9   | 2073/3000 [1:56:07<47:25,  3.07s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  69%|######9   | 2073/3000 [1:56:07<47:25,  3.07s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  69%|######9   | 2073/3000 [1:56:10<47:25,  3.07s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  69%|######9   | 2073/3000 [1:56:10<47:25,  3.07s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  69%|######9   | 2074/3000 [1:56:10<45:46,  2.97s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  69%|######9   | 2074/3000 [1:56:10<45:46,  2.97s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  69%|######9   | 2074/3000 [1:56:14<45:46,  2.97s/it, lr: 1.0e-04 loss: 1.120e-01]strawbyte_v1:  69%|######9   | 2074/3000 [1:56:14<45:46,  2.97s/it, lr: 1.0e-04 loss: 1.120e-01]strawbyte_v1:  69%|######9   | 2075/3000 [1:56:14<51:54,  3.37s/it, lr: 1.0e-04 loss: 1.120e-01]strawbyte_v1:  69%|######9   | 2075/3000 [1:56:14<51:54,  3.37s/it, lr: 1.0e-04 loss: 1.120e-01]strawbyte_v1:  69%|######9   | 2075/3000 [1:56:19<51:54,  3.37s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  69%|######9   | 2075/3000 [1:56:19<51:54,  3.37s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  69%|######9   | 2076/3000 [1:56:19<56:22,  3.66s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  69%|######9   | 2076/3000 [1:56:19<56:22,  3.66s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  69%|######9   | 2076/3000 [1:56:23<56:22,  3.66s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  69%|######9   | 2076/3000 [1:56:23<56:22,  3.66s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  69%|######9   | 2077/3000 [1:56:23<1:00:33,  3.94s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  69%|######9   | 2077/3000 [1:56:23<1:00:33,  3.94s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  69%|######9   | 2077/3000 [1:56:28<1:00:33,  3.94s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  69%|######9   | 2077/3000 [1:56:28<1:00:33,  3.94s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  69%|######9   | 2078/3000 [1:56:28<1:02:35,  4.07s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  69%|######9   | 2078/3000 [1:56:28<1:02:35,  4.07s/it, lr: 1.0e-04 loss: 1.243e-01]strawbyte_v1:  69%|######9   | 2078/3000 [1:56:30<1:02:35,  4.07s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  69%|######9   | 2078/3000 [1:56:30<1:02:35,  4.07s/it, lr: 1.0e-04 loss: 1.811e-01]strawbyte_v1:  69%|######9   | 2079/3000 [1:56:30<53:58,  3.52s/it, lr: 1.0e-04 loss: 1.811e-01]  strawbyte_v1:  69%|######9   | 2079/3000 [1:56:30<53:58,  3.52s/it, lr: 1.0e-04 loss: 1.811e-01]  strawbyte_v1:  69%|######9   | 2079/3000 [1:56:33<53:58,  3.52s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  69%|######9   | 2079/3000 [1:56:33<53:58,  3.52s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  69%|######9   | 2080/3000 [1:56:35<53:54,  3.52s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  69%|######9   | 2080/3000 [1:56:35<53:54,  3.52s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  69%|######9   | 2081/3000 [1:56:35<36:31,  2.38s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  69%|######9   | 2081/3000 [1:56:35<36:31,  2.38s/it, lr: 1.0e-04 loss: 1.475e-01]strawbyte_v1:  69%|######9   | 2081/3000 [1:56:39<36:31,  2.38s/it, lr: 1.0e-04 loss: 3.300e-02]strawbyte_v1:  69%|######9   | 2081/3000 [1:56:39<36:31,  2.38s/it, lr: 1.0e-04 loss: 3.300e-02]strawbyte_v1:  69%|######9   | 2082/3000 [1:56:39<43:48,  2.86s/it, lr: 1.0e-04 loss: 3.300e-02]strawbyte_v1:  69%|######9   | 2082/3000 [1:56:39<43:48,  2.86s/it, lr: 1.0e-04 loss: 3.300e-02]strawbyte_v1:  69%|######9   | 2082/3000 [1:56:43<43:48,  2.86s/it, lr: 1.0e-04 loss: 6.589e-02]strawbyte_v1:  69%|######9   | 2082/3000 [1:56:43<43:48,  2.86s/it, lr: 1.0e-04 loss: 6.589e-02]strawbyte_v1:  69%|######9   | 2083/3000 [1:56:43<49:25,  3.23s/it, lr: 1.0e-04 loss: 6.589e-02]strawbyte_v1:  69%|######9   | 2083/3000 [1:56:43<49:25,  3.23s/it, lr: 1.0e-04 loss: 6.589e-02]strawbyte_v1:  69%|######9   | 2083/3000 [1:56:48<49:25,  3.23s/it, lr: 1.0e-04 loss: 8.796e-02]strawbyte_v1:  69%|######9   | 2083/3000 [1:56:48<49:25,  3.23s/it, lr: 1.0e-04 loss: 8.796e-02]strawbyte_v1:  69%|######9   | 2084/3000 [1:56:48<54:54,  3.60s/it, lr: 1.0e-04 loss: 8.796e-02]strawbyte_v1:  69%|######9   | 2084/3000 [1:56:48<54:54,  3.60s/it, lr: 1.0e-04 loss: 8.796e-02]strawbyte_v1:  69%|######9   | 2084/3000 [1:56:51<54:54,  3.60s/it, lr: 1.0e-04 loss: 9.665e-02]strawbyte_v1:  69%|######9   | 2084/3000 [1:56:51<54:54,  3.60s/it, lr: 1.0e-04 loss: 9.665e-02]strawbyte_v1:  70%|######9   | 2085/3000 [1:56:51<52:01,  3.41s/it, lr: 1.0e-04 loss: 9.665e-02]strawbyte_v1:  70%|######9   | 2085/3000 [1:56:51<52:01,  3.41s/it, lr: 1.0e-04 loss: 9.665e-02]strawbyte_v1:  70%|######9   | 2085/3000 [1:56:53<52:01,  3.41s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  70%|######9   | 2085/3000 [1:56:53<52:01,  3.41s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  70%|######9   | 2086/3000 [1:56:53<46:16,  3.04s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  70%|######9   | 2086/3000 [1:56:53<46:16,  3.04s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  70%|######9   | 2086/3000 [1:56:55<46:16,  3.04s/it, lr: 1.0e-04 loss: 1.158e-02]strawbyte_v1:  70%|######9   | 2086/3000 [1:56:55<46:16,  3.04s/it, lr: 1.0e-04 loss: 1.158e-02]strawbyte_v1:  70%|######9   | 2087/3000 [1:56:55<43:22,  2.85s/it, lr: 1.0e-04 loss: 1.158e-02]strawbyte_v1:  70%|######9   | 2087/3000 [1:56:55<43:22,  2.85s/it, lr: 1.0e-04 loss: 1.158e-02]strawbyte_v1:  70%|######9   | 2087/3000 [1:56:58<43:22,  2.85s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  70%|######9   | 2087/3000 [1:56:58<43:22,  2.85s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  70%|######9   | 2088/3000 [1:56:58<42:49,  2.82s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  70%|######9   | 2088/3000 [1:56:58<42:49,  2.82s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  70%|######9   | 2088/3000 [1:57:00<42:49,  2.82s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  70%|######9   | 2088/3000 [1:57:00<42:49,  2.82s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  70%|######9   | 2089/3000 [1:57:00<40:09,  2.65s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  70%|######9   | 2089/3000 [1:57:00<40:09,  2.65s/it, lr: 1.0e-04 loss: 1.530e-01]strawbyte_v1:  70%|######9   | 2089/3000 [1:57:05<40:09,  2.65s/it, lr: 1.0e-04 loss: 7.036e-02]strawbyte_v1:  70%|######9   | 2089/3000 [1:57:05<40:09,  2.65s/it, lr: 1.0e-04 loss: 7.036e-02]strawbyte_v1:  70%|######9   | 2090/3000 [1:57:08<40:06,  2.65s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  70%|######9   | 2090/3000 [1:57:08<40:06,  2.65s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  70%|######9   | 2091/3000 [1:57:08<32:19,  2.13s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  70%|######9   | 2091/3000 [1:57:08<32:19,  2.13s/it, lr: 1.0e-04 loss: 1.302e-01]strawbyte_v1:  70%|######9   | 2091/3000 [1:57:11<32:19,  2.13s/it, lr: 1.0e-04 loss: 6.455e-02]strawbyte_v1:  70%|######9   | 2091/3000 [1:57:11<32:19,  2.13s/it, lr: 1.0e-04 loss: 6.455e-02]strawbyte_v1:  70%|######9   | 2092/3000 [1:57:11<34:22,  2.27s/it, lr: 1.0e-04 loss: 6.455e-02]strawbyte_v1:  70%|######9   | 2092/3000 [1:57:11<34:22,  2.27s/it, lr: 1.0e-04 loss: 6.455e-02]strawbyte_v1:  70%|######9   | 2092/3000 [1:57:15<34:22,  2.27s/it, lr: 1.0e-04 loss: 1.014e-01]strawbyte_v1:  70%|######9   | 2092/3000 [1:57:15<34:22,  2.27s/it, lr: 1.0e-04 loss: 1.014e-01]strawbyte_v1:  70%|######9   | 2093/3000 [1:57:15<42:56,  2.84s/it, lr: 1.0e-04 loss: 1.014e-01]strawbyte_v1:  70%|######9   | 2093/3000 [1:57:15<42:56,  2.84s/it, lr: 1.0e-04 loss: 1.014e-01]strawbyte_v1:  70%|######9   | 2093/3000 [1:57:20<42:56,  2.84s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  70%|######9   | 2093/3000 [1:57:20<42:56,  2.84s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  70%|######9   | 2094/3000 [1:57:20<50:34,  3.35s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  70%|######9   | 2094/3000 [1:57:20<50:34,  3.35s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  70%|######9   | 2094/3000 [1:57:24<50:34,  3.35s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  70%|######9   | 2094/3000 [1:57:24<50:34,  3.35s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  70%|######9   | 2095/3000 [1:57:24<55:05,  3.65s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  70%|######9   | 2095/3000 [1:57:24<55:05,  3.65s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  70%|######9   | 2095/3000 [1:57:27<55:05,  3.65s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  70%|######9   | 2095/3000 [1:57:27<55:05,  3.65s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  70%|######9   | 2096/3000 [1:57:27<51:01,  3.39s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  70%|######9   | 2096/3000 [1:57:27<51:01,  3.39s/it, lr: 1.0e-04 loss: 6.480e-02]strawbyte_v1:  70%|######9   | 2096/3000 [1:57:30<51:01,  3.39s/it, lr: 1.0e-04 loss: 2.610e-02]strawbyte_v1:  70%|######9   | 2096/3000 [1:57:30<51:01,  3.39s/it, lr: 1.0e-04 loss: 2.610e-02]strawbyte_v1:  70%|######9   | 2097/3000 [1:57:30<49:09,  3.27s/it, lr: 1.0e-04 loss: 2.610e-02]strawbyte_v1:  70%|######9   | 2097/3000 [1:57:30<49:09,  3.27s/it, lr: 1.0e-04 loss: 2.610e-02]strawbyte_v1:  70%|######9   | 2097/3000 [1:57:33<49:09,  3.27s/it, lr: 1.0e-04 loss: 1.670e-01]strawbyte_v1:  70%|######9   | 2097/3000 [1:57:33<49:09,  3.27s/it, lr: 1.0e-04 loss: 1.670e-01]strawbyte_v1:  70%|######9   | 2098/3000 [1:57:33<48:25,  3.22s/it, lr: 1.0e-04 loss: 1.670e-01]strawbyte_v1:  70%|######9   | 2098/3000 [1:57:33<48:25,  3.22s/it, lr: 1.0e-04 loss: 1.670e-01]strawbyte_v1:  70%|######9   | 2098/3000 [1:57:36<48:25,  3.22s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  70%|######9   | 2098/3000 [1:57:36<48:25,  3.22s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  70%|######9   | 2099/3000 [1:57:36<47:16,  3.15s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  70%|######9   | 2099/3000 [1:57:36<47:16,  3.15s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  70%|######9   | 2099/3000 [1:57:40<47:16,  3.15s/it, lr: 1.0e-04 loss: 4.613e-02]strawbyte_v1:  70%|######9   | 2099/3000 [1:57:40<47:16,  3.15s/it, lr: 1.0e-04 loss: 4.613e-02]strawbyte_v1:  70%|#######   | 2100/3000 [1:57:45<47:13,  3.15s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  70%|#######   | 2100/3000 [1:57:45<47:13,  3.15s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  70%|#######   | 2101/3000 [1:57:45<40:48,  2.72s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  70%|#######   | 2101/3000 [1:57:45<40:48,  2.72s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  70%|#######   | 2101/3000 [1:57:48<40:48,  2.72s/it, lr: 1.0e-04 loss: 4.314e-02]strawbyte_v1:  70%|#######   | 2101/3000 [1:57:48<40:48,  2.72s/it, lr: 1.0e-04 loss: 4.314e-02]strawbyte_v1:  70%|#######   | 2102/3000 [1:57:48<42:05,  2.81s/it, lr: 1.0e-04 loss: 4.314e-02]strawbyte_v1:  70%|#######   | 2102/3000 [1:57:48<42:05,  2.81s/it, lr: 1.0e-04 loss: 4.314e-02]strawbyte_v1:  70%|#######   | 2102/3000 [1:57:52<42:05,  2.81s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  70%|#######   | 2102/3000 [1:57:52<42:05,  2.81s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  70%|#######   | 2103/3000 [1:57:52<48:08,  3.22s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  70%|#######   | 2103/3000 [1:57:52<48:08,  3.22s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  70%|#######   | 2103/3000 [1:57:54<48:08,  3.22s/it, lr: 1.0e-04 loss: 6.193e-02]strawbyte_v1:  70%|#######   | 2103/3000 [1:57:54<48:08,  3.22s/it, lr: 1.0e-04 loss: 6.193e-02]strawbyte_v1:  70%|#######   | 2104/3000 [1:57:54<43:30,  2.91s/it, lr: 1.0e-04 loss: 6.193e-02]strawbyte_v1:  70%|#######   | 2104/3000 [1:57:54<43:30,  2.91s/it, lr: 1.0e-04 loss: 6.193e-02]strawbyte_v1:  70%|#######   | 2104/3000 [1:57:57<43:30,  2.91s/it, lr: 1.0e-04 loss: 5.115e-02]strawbyte_v1:  70%|#######   | 2104/3000 [1:57:57<43:30,  2.91s/it, lr: 1.0e-04 loss: 5.115e-02]strawbyte_v1:  70%|#######   | 2105/3000 [1:57:57<44:13,  2.97s/it, lr: 1.0e-04 loss: 5.115e-02]strawbyte_v1:  70%|#######   | 2105/3000 [1:57:57<44:13,  2.97s/it, lr: 1.0e-04 loss: 5.115e-02]strawbyte_v1:  70%|#######   | 2105/3000 [1:58:02<44:13,  2.97s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  70%|#######   | 2105/3000 [1:58:02<44:13,  2.97s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  70%|#######   | 2106/3000 [1:58:02<50:08,  3.36s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  70%|#######   | 2106/3000 [1:58:02<50:08,  3.36s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  70%|#######   | 2106/3000 [1:58:04<50:08,  3.36s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  70%|#######   | 2106/3000 [1:58:04<50:08,  3.36s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  70%|#######   | 2107/3000 [1:58:04<44:35,  3.00s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  70%|#######   | 2107/3000 [1:58:04<44:35,  3.00s/it, lr: 1.0e-04 loss: 1.453e-01]strawbyte_v1:  70%|#######   | 2107/3000 [1:58:06<44:35,  3.00s/it, lr: 1.0e-04 loss: 1.911e-01]strawbyte_v1:  70%|#######   | 2107/3000 [1:58:06<44:35,  3.00s/it, lr: 1.0e-04 loss: 1.911e-01]strawbyte_v1:  70%|#######   | 2108/3000 [1:58:06<40:34,  2.73s/it, lr: 1.0e-04 loss: 1.911e-01]strawbyte_v1:  70%|#######   | 2108/3000 [1:58:06<40:34,  2.73s/it, lr: 1.0e-04 loss: 1.911e-01]strawbyte_v1:  70%|#######   | 2108/3000 [1:58:10<40:34,  2.73s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  70%|#######   | 2108/3000 [1:58:10<40:34,  2.73s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  70%|#######   | 2109/3000 [1:58:10<48:37,  3.27s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  70%|#######   | 2109/3000 [1:58:10<48:37,  3.27s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  70%|#######   | 2109/3000 [1:58:13<48:37,  3.27s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  70%|#######   | 2109/3000 [1:58:13<48:37,  3.27s/it, lr: 1.0e-04 loss: 1.431e-01]strawbyte_v1:  70%|#######   | 2110/3000 [1:58:15<48:34,  3.27s/it, lr: 1.0e-04 loss: 1.316e-01]strawbyte_v1:  70%|#######   | 2110/3000 [1:58:15<48:34,  3.27s/it, lr: 1.0e-04 loss: 1.316e-01]strawbyte_v1:  70%|#######   | 2111/3000 [1:58:15<33:24,  2.25s/it, lr: 1.0e-04 loss: 1.316e-01]strawbyte_v1:  70%|#######   | 2111/3000 [1:58:15<33:24,  2.25s/it, lr: 1.0e-04 loss: 1.316e-01]strawbyte_v1:  70%|#######   | 2111/3000 [1:58:18<33:24,  2.25s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  70%|#######   | 2111/3000 [1:58:18<33:24,  2.25s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  70%|#######   | 2112/3000 [1:58:18<35:49,  2.42s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  70%|#######   | 2112/3000 [1:58:18<35:49,  2.42s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  70%|#######   | 2112/3000 [1:58:23<35:49,  2.42s/it, lr: 1.0e-04 loss: 7.465e-02]strawbyte_v1:  70%|#######   | 2112/3000 [1:58:23<35:49,  2.42s/it, lr: 1.0e-04 loss: 7.465e-02]strawbyte_v1:  70%|#######   | 2113/3000 [1:58:23<44:01,  2.98s/it, lr: 1.0e-04 loss: 7.465e-02]strawbyte_v1:  70%|#######   | 2113/3000 [1:58:23<44:01,  2.98s/it, lr: 1.0e-04 loss: 7.465e-02]strawbyte_v1:  70%|#######   | 2113/3000 [1:58:26<44:01,  2.98s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  70%|#######   | 2113/3000 [1:58:26<44:01,  2.98s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  70%|#######   | 2114/3000 [1:58:26<44:07,  2.99s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  70%|#######   | 2114/3000 [1:58:26<44:07,  2.99s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  70%|#######   | 2114/3000 [1:58:29<44:07,  2.99s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  70%|#######   | 2114/3000 [1:58:29<44:07,  2.99s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  70%|#######   | 2115/3000 [1:58:29<42:54,  2.91s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  70%|#######   | 2115/3000 [1:58:29<42:54,  2.91s/it, lr: 1.0e-04 loss: 1.270e-01]strawbyte_v1:  70%|#######   | 2115/3000 [1:58:32<42:54,  2.91s/it, lr: 1.0e-04 loss: 1.970e-01]strawbyte_v1:  70%|#######   | 2115/3000 [1:58:32<42:54,  2.91s/it, lr: 1.0e-04 loss: 1.970e-01]strawbyte_v1:  71%|#######   | 2116/3000 [1:58:32<43:40,  2.96s/it, lr: 1.0e-04 loss: 1.970e-01]strawbyte_v1:  71%|#######   | 2116/3000 [1:58:32<43:40,  2.96s/it, lr: 1.0e-04 loss: 1.970e-01]strawbyte_v1:  71%|#######   | 2116/3000 [1:58:34<43:40,  2.96s/it, lr: 1.0e-04 loss: 2.244e-01]strawbyte_v1:  71%|#######   | 2116/3000 [1:58:34<43:40,  2.96s/it, lr: 1.0e-04 loss: 2.244e-01]strawbyte_v1:  71%|#######   | 2117/3000 [1:58:34<42:22,  2.88s/it, lr: 1.0e-04 loss: 2.244e-01]strawbyte_v1:  71%|#######   | 2117/3000 [1:58:34<42:22,  2.88s/it, lr: 1.0e-04 loss: 2.244e-01]strawbyte_v1:  71%|#######   | 2117/3000 [1:58:37<42:22,  2.88s/it, lr: 1.0e-04 loss: 9.777e-02]strawbyte_v1:  71%|#######   | 2117/3000 [1:58:37<42:22,  2.88s/it, lr: 1.0e-04 loss: 9.777e-02]strawbyte_v1:  71%|#######   | 2118/3000 [1:58:37<42:52,  2.92s/it, lr: 1.0e-04 loss: 9.777e-02]strawbyte_v1:  71%|#######   | 2118/3000 [1:58:37<42:52,  2.92s/it, lr: 1.0e-04 loss: 9.777e-02]strawbyte_v1:  71%|#######   | 2118/3000 [1:58:40<42:52,  2.92s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  71%|#######   | 2118/3000 [1:58:40<42:52,  2.92s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  71%|#######   | 2119/3000 [1:58:40<41:55,  2.86s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  71%|#######   | 2119/3000 [1:58:40<41:55,  2.86s/it, lr: 1.0e-04 loss: 1.408e-01]strawbyte_v1:  71%|#######   | 2119/3000 [1:58:45<41:55,  2.86s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  71%|#######   | 2119/3000 [1:58:45<41:55,  2.86s/it, lr: 1.0e-04 loss: 1.239e-01]strawbyte_v1:  71%|#######   | 2120/3000 [1:58:48<41:52,  2.86s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  71%|#######   | 2120/3000 [1:58:48<41:52,  2.86s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  71%|#######   | 2121/3000 [1:58:48<32:45,  2.24s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  71%|#######   | 2121/3000 [1:58:48<32:45,  2.24s/it, lr: 1.0e-04 loss: 1.269e-01]strawbyte_v1:  71%|#######   | 2121/3000 [1:58:52<32:45,  2.24s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  71%|#######   | 2121/3000 [1:58:52<32:45,  2.24s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  71%|#######   | 2122/3000 [1:58:52<40:33,  2.77s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  71%|#######   | 2122/3000 [1:58:52<40:33,  2.77s/it, lr: 1.0e-04 loss: 1.002e-01]strawbyte_v1:  71%|#######   | 2122/3000 [1:58:55<40:33,  2.77s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  71%|#######   | 2122/3000 [1:58:55<40:33,  2.77s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  71%|#######   | 2123/3000 [1:58:55<40:46,  2.79s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  71%|#######   | 2123/3000 [1:58:55<40:46,  2.79s/it, lr: 1.0e-04 loss: 1.267e-01]strawbyte_v1:  71%|#######   | 2123/3000 [1:59:00<40:46,  2.79s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  71%|#######   | 2123/3000 [1:59:00<40:46,  2.79s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  71%|#######   | 2124/3000 [1:59:00<48:29,  3.32s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  71%|#######   | 2124/3000 [1:59:00<48:29,  3.32s/it, lr: 1.0e-04 loss: 1.064e-01]strawbyte_v1:  71%|#######   | 2124/3000 [1:59:04<48:29,  3.32s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  71%|#######   | 2124/3000 [1:59:04<48:29,  3.32s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  71%|#######   | 2125/3000 [1:59:04<53:03,  3.64s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  71%|#######   | 2125/3000 [1:59:04<53:03,  3.64s/it, lr: 1.0e-04 loss: 1.156e-01]strawbyte_v1:  71%|#######   | 2125/3000 [1:59:07<53:03,  3.64s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  71%|#######   | 2125/3000 [1:59:07<53:03,  3.64s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  71%|#######   | 2126/3000 [1:59:07<50:19,  3.45s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  71%|#######   | 2126/3000 [1:59:07<50:19,  3.45s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  71%|#######   | 2126/3000 [1:59:12<50:19,  3.45s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  71%|#######   | 2126/3000 [1:59:12<50:19,  3.45s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  71%|#######   | 2127/3000 [1:59:12<55:34,  3.82s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  71%|#######   | 2127/3000 [1:59:12<55:34,  3.82s/it, lr: 1.0e-04 loss: 1.281e-01]strawbyte_v1:  71%|#######   | 2127/3000 [1:59:14<55:34,  3.82s/it, lr: 1.0e-04 loss: 1.906e-01]strawbyte_v1:  71%|#######   | 2127/3000 [1:59:14<55:34,  3.82s/it, lr: 1.0e-04 loss: 1.906e-01]strawbyte_v1:  71%|#######   | 2128/3000 [1:59:14<48:07,  3.31s/it, lr: 1.0e-04 loss: 1.906e-01]strawbyte_v1:  71%|#######   | 2128/3000 [1:59:14<48:07,  3.31s/it, lr: 1.0e-04 loss: 1.906e-01]strawbyte_v1:  71%|#######   | 2128/3000 [1:59:18<48:07,  3.31s/it, lr: 1.0e-04 loss: 9.284e-02]strawbyte_v1:  71%|#######   | 2128/3000 [1:59:18<48:07,  3.31s/it, lr: 1.0e-04 loss: 9.284e-02]strawbyte_v1:  71%|#######   | 2129/3000 [1:59:18<52:20,  3.61s/it, lr: 1.0e-04 loss: 9.284e-02]strawbyte_v1:  71%|#######   | 2129/3000 [1:59:18<52:20,  3.61s/it, lr: 1.0e-04 loss: 9.284e-02]strawbyte_v1:  71%|#######   | 2129/3000 [1:59:21<52:20,  3.61s/it, lr: 1.0e-04 loss: 1.129e-01]strawbyte_v1:  71%|#######   | 2129/3000 [1:59:21<52:20,  3.61s/it, lr: 1.0e-04 loss: 1.129e-01]strawbyte_v1:  71%|#######1  | 2130/3000 [1:59:24<52:16,  3.61s/it, lr: 1.0e-04 loss: 1.470e-01]strawbyte_v1:  71%|#######1  | 2130/3000 [1:59:24<52:16,  3.61s/it, lr: 1.0e-04 loss: 1.470e-01]strawbyte_v1:  71%|#######1  | 2131/3000 [1:59:24<36:16,  2.50s/it, lr: 1.0e-04 loss: 1.470e-01]strawbyte_v1:  71%|#######1  | 2131/3000 [1:59:24<36:16,  2.50s/it, lr: 1.0e-04 loss: 1.470e-01]strawbyte_v1:  71%|#######1  | 2131/3000 [1:59:28<36:16,  2.50s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  71%|#######1  | 2131/3000 [1:59:28<36:16,  2.50s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  71%|#######1  | 2132/3000 [1:59:28<42:37,  2.95s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  71%|#######1  | 2132/3000 [1:59:28<42:37,  2.95s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  71%|#######1  | 2132/3000 [1:59:31<42:37,  2.95s/it, lr: 1.0e-04 loss: 8.901e-02]strawbyte_v1:  71%|#######1  | 2132/3000 [1:59:31<42:37,  2.95s/it, lr: 1.0e-04 loss: 8.901e-02]strawbyte_v1:  71%|#######1  | 2133/3000 [1:59:31<42:19,  2.93s/it, lr: 1.0e-04 loss: 8.901e-02]strawbyte_v1:  71%|#######1  | 2133/3000 [1:59:31<42:19,  2.93s/it, lr: 1.0e-04 loss: 8.901e-02]strawbyte_v1:  71%|#######1  | 2133/3000 [1:59:35<42:19,  2.93s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  71%|#######1  | 2133/3000 [1:59:35<42:19,  2.93s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  71%|#######1  | 2134/3000 [1:59:35<47:54,  3.32s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  71%|#######1  | 2134/3000 [1:59:35<47:54,  3.32s/it, lr: 1.0e-04 loss: 5.570e-02]strawbyte_v1:  71%|#######1  | 2134/3000 [1:59:40<47:54,  3.32s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  71%|#######1  | 2134/3000 [1:59:40<47:54,  3.32s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  71%|#######1  | 2135/3000 [1:59:40<53:07,  3.68s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  71%|#######1  | 2135/3000 [1:59:40<53:07,  3.68s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  71%|#######1  | 2135/3000 [1:59:43<53:07,  3.68s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  71%|#######1  | 2135/3000 [1:59:43<53:07,  3.68s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  71%|#######1  | 2136/3000 [1:59:43<49:51,  3.46s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  71%|#######1  | 2136/3000 [1:59:43<49:51,  3.46s/it, lr: 1.0e-04 loss: 1.407e-01]strawbyte_v1:  71%|#######1  | 2136/3000 [1:59:47<49:51,  3.46s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  71%|#######1  | 2136/3000 [1:59:47<49:51,  3.46s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  71%|#######1  | 2137/3000 [1:59:47<54:02,  3.76s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  71%|#######1  | 2137/3000 [1:59:47<54:02,  3.76s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  71%|#######1  | 2137/3000 [1:59:50<54:02,  3.76s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:  71%|#######1  | 2137/3000 [1:59:50<54:02,  3.76s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:  71%|#######1  | 2138/3000 [1:59:50<51:04,  3.55s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:  71%|#######1  | 2138/3000 [1:59:50<51:04,  3.55s/it, lr: 1.0e-04 loss: 1.755e-01]strawbyte_v1:  71%|#######1  | 2138/3000 [1:59:53<51:04,  3.55s/it, lr: 1.0e-04 loss: 1.520e-01]strawbyte_v1:  71%|#######1  | 2138/3000 [1:59:53<51:04,  3.55s/it, lr: 1.0e-04 loss: 1.520e-01]strawbyte_v1:  71%|#######1  | 2139/3000 [1:59:53<47:25,  3.31s/it, lr: 1.0e-04 loss: 1.520e-01]strawbyte_v1:  71%|#######1  | 2139/3000 [1:59:53<47:25,  3.31s/it, lr: 1.0e-04 loss: 1.520e-01]strawbyte_v1:  71%|#######1  | 2139/3000 [1:59:56<47:25,  3.31s/it, lr: 1.0e-04 loss: 5.620e-02]strawbyte_v1:  71%|#######1  | 2139/3000 [1:59:56<47:25,  3.31s/it, lr: 1.0e-04 loss: 5.620e-02]strawbyte_v1:  71%|#######1  | 2140/3000 [1:59:59<47:22,  3.31s/it, lr: 1.0e-04 loss: 1.725e-01]strawbyte_v1:  71%|#######1  | 2140/3000 [1:59:59<47:22,  3.31s/it, lr: 1.0e-04 loss: 1.725e-01]strawbyte_v1:  71%|#######1  | 2141/3000 [1:59:59<35:23,  2.47s/it, lr: 1.0e-04 loss: 1.725e-01]strawbyte_v1:  71%|#######1  | 2141/3000 [1:59:59<35:23,  2.47s/it, lr: 1.0e-04 loss: 1.725e-01]strawbyte_v1:  71%|#######1  | 2141/3000 [2:00:02<35:23,  2.47s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  71%|#######1  | 2141/3000 [2:00:02<35:23,  2.47s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  71%|#######1  | 2142/3000 [2:00:02<38:23,  2.68s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  71%|#######1  | 2142/3000 [2:00:02<38:23,  2.68s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  71%|#######1  | 2142/3000 [2:00:07<38:23,  2.68s/it, lr: 1.0e-04 loss: 2.606e-02]strawbyte_v1:  71%|#######1  | 2142/3000 [2:00:07<38:23,  2.68s/it, lr: 1.0e-04 loss: 2.606e-02]strawbyte_v1:  71%|#######1  | 2143/3000 [2:00:07<44:53,  3.14s/it, lr: 1.0e-04 loss: 2.606e-02]strawbyte_v1:  71%|#######1  | 2143/3000 [2:00:07<44:53,  3.14s/it, lr: 1.0e-04 loss: 2.606e-02]strawbyte_v1:  71%|#######1  | 2143/3000 [2:00:10<44:53,  3.14s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  71%|#######1  | 2143/3000 [2:00:10<44:53,  3.14s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  71%|#######1  | 2144/3000 [2:00:10<44:12,  3.10s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  71%|#######1  | 2144/3000 [2:00:10<44:12,  3.10s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  71%|#######1  | 2144/3000 [2:00:13<44:12,  3.10s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  71%|#######1  | 2144/3000 [2:00:13<44:12,  3.10s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  72%|#######1  | 2145/3000 [2:00:13<45:00,  3.16s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  72%|#######1  | 2145/3000 [2:00:13<45:00,  3.16s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  72%|#######1  | 2145/3000 [2:00:16<45:00,  3.16s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  72%|#######1  | 2145/3000 [2:00:16<45:00,  3.16s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  72%|#######1  | 2146/3000 [2:00:16<43:06,  3.03s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  72%|#######1  | 2146/3000 [2:00:16<43:06,  3.03s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  72%|#######1  | 2146/3000 [2:00:19<43:06,  3.03s/it, lr: 1.0e-04 loss: 6.861e-02]strawbyte_v1:  72%|#######1  | 2146/3000 [2:00:19<43:06,  3.03s/it, lr: 1.0e-04 loss: 6.861e-02]strawbyte_v1:  72%|#######1  | 2147/3000 [2:00:19<42:58,  3.02s/it, lr: 1.0e-04 loss: 6.861e-02]strawbyte_v1:  72%|#######1  | 2147/3000 [2:00:19<42:58,  3.02s/it, lr: 1.0e-04 loss: 6.861e-02]strawbyte_v1:  72%|#######1  | 2147/3000 [2:00:22<42:58,  3.02s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  72%|#######1  | 2147/3000 [2:00:22<42:58,  3.02s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  72%|#######1  | 2148/3000 [2:00:22<41:40,  2.93s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  72%|#######1  | 2148/3000 [2:00:22<41:40,  2.93s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  72%|#######1  | 2148/3000 [2:00:25<41:40,  2.93s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  72%|#######1  | 2148/3000 [2:00:25<41:40,  2.93s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  72%|#######1  | 2149/3000 [2:00:25<43:33,  3.07s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  72%|#######1  | 2149/3000 [2:00:25<43:33,  3.07s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  72%|#######1  | 2149/3000 [2:00:29<43:33,  3.07s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:  72%|#######1  | 2149/3000 [2:00:29<43:33,  3.07s/it, lr: 1.0e-04 loss: 1.425e-01]strawbyte_v1:  72%|#######1  | 2150/3000 [2:00:32<43:30,  3.07s/it, lr: 1.0e-04 loss: 3.877e-02]strawbyte_v1:  72%|#######1  | 2150/3000 [2:00:32<43:30,  3.07s/it, lr: 1.0e-04 loss: 3.877e-02]strawbyte_v1:  72%|#######1  | 2151/3000 [2:00:32<33:16,  2.35s/it, lr: 1.0e-04 loss: 3.877e-02]strawbyte_v1:  72%|#######1  | 2151/3000 [2:00:32<33:16,  2.35s/it, lr: 1.0e-04 loss: 3.877e-02]strawbyte_v1:  72%|#######1  | 2151/3000 [2:00:35<33:16,  2.35s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  72%|#######1  | 2151/3000 [2:00:35<33:16,  2.35s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  72%|#######1  | 2152/3000 [2:00:35<35:51,  2.54s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  72%|#######1  | 2152/3000 [2:00:35<35:51,  2.54s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  72%|#######1  | 2152/3000 [2:00:40<35:51,  2.54s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  72%|#######1  | 2152/3000 [2:00:40<35:51,  2.54s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  72%|#######1  | 2153/3000 [2:00:40<42:14,  2.99s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  72%|#######1  | 2153/3000 [2:00:40<42:14,  2.99s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  72%|#######1  | 2153/3000 [2:00:44<42:14,  2.99s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  72%|#######1  | 2153/3000 [2:00:44<42:14,  2.99s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  72%|#######1  | 2154/3000 [2:00:44<47:28,  3.37s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  72%|#######1  | 2154/3000 [2:00:44<47:28,  3.37s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  72%|#######1  | 2154/3000 [2:00:47<47:28,  3.37s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  72%|#######1  | 2154/3000 [2:00:47<47:28,  3.37s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  72%|#######1  | 2155/3000 [2:00:47<45:41,  3.24s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  72%|#######1  | 2155/3000 [2:00:47<45:41,  3.24s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  72%|#######1  | 2155/3000 [2:00:49<45:41,  3.24s/it, lr: 1.0e-04 loss: 2.306e-02]strawbyte_v1:  72%|#######1  | 2155/3000 [2:00:49<45:41,  3.24s/it, lr: 1.0e-04 loss: 2.306e-02]strawbyte_v1:  72%|#######1  | 2156/3000 [2:00:49<42:02,  2.99s/it, lr: 1.0e-04 loss: 2.306e-02]strawbyte_v1:  72%|#######1  | 2156/3000 [2:00:49<42:02,  2.99s/it, lr: 1.0e-04 loss: 2.306e-02]strawbyte_v1:  72%|#######1  | 2156/3000 [2:00:54<42:02,  2.99s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  72%|#######1  | 2156/3000 [2:00:54<42:02,  2.99s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  72%|#######1  | 2157/3000 [2:00:54<47:19,  3.37s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  72%|#######1  | 2157/3000 [2:00:54<47:19,  3.37s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  72%|#######1  | 2157/3000 [2:00:56<47:19,  3.37s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  72%|#######1  | 2157/3000 [2:00:56<47:19,  3.37s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  72%|#######1  | 2158/3000 [2:00:56<41:59,  2.99s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  72%|#######1  | 2158/3000 [2:00:56<41:59,  2.99s/it, lr: 1.0e-04 loss: 2.098e-01]strawbyte_v1:  72%|#######1  | 2158/3000 [2:00:58<41:59,  2.99s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  72%|#######1  | 2158/3000 [2:00:58<41:59,  2.99s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  72%|#######1  | 2159/3000 [2:00:58<38:08,  2.72s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  72%|#######1  | 2159/3000 [2:00:58<38:08,  2.72s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  72%|#######1  | 2159/3000 [2:01:01<38:08,  2.72s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  72%|#######1  | 2159/3000 [2:01:01<38:08,  2.72s/it, lr: 1.0e-04 loss: 1.394e-01]strawbyte_v1:  72%|#######2  | 2160/3000 [2:01:03<38:06,  2.72s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  72%|#######2  | 2160/3000 [2:01:03<38:06,  2.72s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  72%|#######2  | 2161/3000 [2:01:03<27:24,  1.96s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  72%|#######2  | 2161/3000 [2:01:03<27:24,  1.96s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  72%|#######2  | 2161/3000 [2:01:06<27:24,  1.96s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  72%|#######2  | 2161/3000 [2:01:06<27:24,  1.96s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  72%|#######2  | 2162/3000 [2:01:06<31:06,  2.23s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  72%|#######2  | 2162/3000 [2:01:06<31:06,  2.23s/it, lr: 1.0e-04 loss: 1.090e-01]strawbyte_v1:  72%|#######2  | 2162/3000 [2:01:09<31:06,  2.23s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  72%|#######2  | 2162/3000 [2:01:09<31:06,  2.23s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  72%|#######2  | 2163/3000 [2:01:09<33:50,  2.43s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  72%|#######2  | 2163/3000 [2:01:09<33:50,  2.43s/it, lr: 1.0e-04 loss: 1.393e-01]strawbyte_v1:  72%|#######2  | 2163/3000 [2:01:12<33:50,  2.43s/it, lr: 1.0e-04 loss: 7.248e-02]strawbyte_v1:  72%|#######2  | 2163/3000 [2:01:12<33:50,  2.43s/it, lr: 1.0e-04 loss: 7.248e-02]strawbyte_v1:  72%|#######2  | 2164/3000 [2:01:12<37:03,  2.66s/it, lr: 1.0e-04 loss: 7.248e-02]strawbyte_v1:  72%|#######2  | 2164/3000 [2:01:12<37:03,  2.66s/it, lr: 1.0e-04 loss: 7.248e-02]strawbyte_v1:  72%|#######2  | 2164/3000 [2:01:15<37:03,  2.66s/it, lr: 1.0e-04 loss: 5.612e-02]strawbyte_v1:  72%|#######2  | 2164/3000 [2:01:15<37:03,  2.66s/it, lr: 1.0e-04 loss: 5.612e-02]strawbyte_v1:  72%|#######2  | 2165/3000 [2:01:15<38:24,  2.76s/it, lr: 1.0e-04 loss: 5.612e-02]strawbyte_v1:  72%|#######2  | 2165/3000 [2:01:15<38:24,  2.76s/it, lr: 1.0e-04 loss: 5.612e-02]strawbyte_v1:  72%|#######2  | 2165/3000 [2:01:20<38:24,  2.76s/it, lr: 1.0e-04 loss: 7.823e-02]strawbyte_v1:  72%|#######2  | 2165/3000 [2:01:20<38:24,  2.76s/it, lr: 1.0e-04 loss: 7.823e-02]strawbyte_v1:  72%|#######2  | 2166/3000 [2:01:20<44:27,  3.20s/it, lr: 1.0e-04 loss: 7.823e-02]strawbyte_v1:  72%|#######2  | 2166/3000 [2:01:20<44:27,  3.20s/it, lr: 1.0e-04 loss: 7.823e-02]strawbyte_v1:  72%|#######2  | 2166/3000 [2:01:24<44:27,  3.20s/it, lr: 1.0e-04 loss: 5.350e-02]strawbyte_v1:  72%|#######2  | 2166/3000 [2:01:24<44:27,  3.20s/it, lr: 1.0e-04 loss: 5.350e-02]strawbyte_v1:  72%|#######2  | 2167/3000 [2:01:24<50:11,  3.62s/it, lr: 1.0e-04 loss: 5.350e-02]strawbyte_v1:  72%|#######2  | 2167/3000 [2:01:24<50:11,  3.62s/it, lr: 1.0e-04 loss: 5.350e-02]strawbyte_v1:  72%|#######2  | 2167/3000 [2:01:27<50:11,  3.62s/it, lr: 1.0e-04 loss: 5.265e-02]strawbyte_v1:  72%|#######2  | 2167/3000 [2:01:27<50:11,  3.62s/it, lr: 1.0e-04 loss: 5.265e-02]strawbyte_v1:  72%|#######2  | 2168/3000 [2:01:27<47:33,  3.43s/it, lr: 1.0e-04 loss: 5.265e-02]strawbyte_v1:  72%|#######2  | 2168/3000 [2:01:27<47:33,  3.43s/it, lr: 1.0e-04 loss: 5.265e-02]strawbyte_v1:  72%|#######2  | 2168/3000 [2:01:30<47:33,  3.43s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  72%|#######2  | 2168/3000 [2:01:30<47:33,  3.43s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  72%|#######2  | 2169/3000 [2:01:30<45:51,  3.31s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  72%|#######2  | 2169/3000 [2:01:30<45:51,  3.31s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  72%|#######2  | 2169/3000 [2:01:33<45:51,  3.31s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  72%|#######2  | 2169/3000 [2:01:33<45:51,  3.31s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  72%|#######2  | 2170/3000 [2:01:36<45:47,  3.31s/it, lr: 1.0e-04 loss: 8.014e-02]strawbyte_v1:  72%|#######2  | 2170/3000 [2:01:36<45:47,  3.31s/it, lr: 1.0e-04 loss: 8.014e-02]strawbyte_v1:  72%|#######2  | 2171/3000 [2:01:36<34:27,  2.49s/it, lr: 1.0e-04 loss: 8.014e-02]strawbyte_v1:  72%|#######2  | 2171/3000 [2:01:36<34:27,  2.49s/it, lr: 1.0e-04 loss: 8.014e-02]strawbyte_v1:  72%|#######2  | 2171/3000 [2:01:40<34:27,  2.49s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  72%|#######2  | 2171/3000 [2:01:40<34:27,  2.49s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  72%|#######2  | 2172/3000 [2:01:40<40:55,  2.97s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  72%|#######2  | 2172/3000 [2:01:40<40:55,  2.97s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  72%|#######2  | 2172/3000 [2:01:43<40:55,  2.97s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  72%|#######2  | 2172/3000 [2:01:43<40:55,  2.97s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  72%|#######2  | 2173/3000 [2:01:43<41:00,  2.98s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  72%|#######2  | 2173/3000 [2:01:43<41:00,  2.98s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  72%|#######2  | 2173/3000 [2:01:46<41:00,  2.98s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  72%|#######2  | 2173/3000 [2:01:46<41:00,  2.98s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  72%|#######2  | 2174/3000 [2:01:46<40:00,  2.91s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  72%|#######2  | 2174/3000 [2:01:46<40:00,  2.91s/it, lr: 1.0e-04 loss: 1.660e-01]strawbyte_v1:  72%|#######2  | 2174/3000 [2:01:49<40:00,  2.91s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  72%|#######2  | 2174/3000 [2:01:49<40:00,  2.91s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  72%|#######2  | 2175/3000 [2:01:49<40:13,  2.93s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  72%|#######2  | 2175/3000 [2:01:49<40:13,  2.93s/it, lr: 1.0e-04 loss: 1.814e-01]strawbyte_v1:  72%|#######2  | 2175/3000 [2:01:54<40:13,  2.93s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  72%|#######2  | 2175/3000 [2:01:54<40:13,  2.93s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  73%|#######2  | 2176/3000 [2:01:54<45:56,  3.35s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  73%|#######2  | 2176/3000 [2:01:54<45:56,  3.35s/it, lr: 1.0e-04 loss: 1.338e-01]strawbyte_v1:  73%|#######2  | 2176/3000 [2:01:58<45:56,  3.35s/it, lr: 1.0e-04 loss: 7.022e-02]strawbyte_v1:  73%|#######2  | 2176/3000 [2:01:58<45:56,  3.35s/it, lr: 1.0e-04 loss: 7.022e-02]strawbyte_v1:  73%|#######2  | 2177/3000 [2:01:58<49:48,  3.63s/it, lr: 1.0e-04 loss: 7.022e-02]strawbyte_v1:  73%|#######2  | 2177/3000 [2:01:58<49:48,  3.63s/it, lr: 1.0e-04 loss: 7.022e-02]strawbyte_v1:  73%|#######2  | 2177/3000 [2:02:01<49:48,  3.63s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  73%|#######2  | 2177/3000 [2:02:01<49:48,  3.63s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  73%|#######2  | 2178/3000 [2:02:01<45:44,  3.34s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  73%|#######2  | 2178/3000 [2:02:01<45:44,  3.34s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  73%|#######2  | 2178/3000 [2:02:04<45:44,  3.34s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  73%|#######2  | 2178/3000 [2:02:04<45:44,  3.34s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  73%|#######2  | 2179/3000 [2:02:04<43:43,  3.20s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  73%|#######2  | 2179/3000 [2:02:04<43:43,  3.20s/it, lr: 1.0e-04 loss: 1.513e-01]strawbyte_v1:  73%|#######2  | 2179/3000 [2:02:08<43:43,  3.20s/it, lr: 1.0e-04 loss: 9.885e-02]strawbyte_v1:  73%|#######2  | 2179/3000 [2:02:08<43:43,  3.20s/it, lr: 1.0e-04 loss: 9.885e-02]strawbyte_v1:  73%|#######2  | 2180/3000 [2:02:12<43:40,  3.20s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  73%|#######2  | 2180/3000 [2:02:12<43:40,  3.20s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  73%|#######2  | 2181/3000 [2:02:12<37:14,  2.73s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  73%|#######2  | 2181/3000 [2:02:12<37:14,  2.73s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  73%|#######2  | 2181/3000 [2:02:17<37:14,  2.73s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  73%|#######2  | 2181/3000 [2:02:17<37:14,  2.73s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  73%|#######2  | 2182/3000 [2:02:17<43:02,  3.16s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  73%|#######2  | 2182/3000 [2:02:17<43:02,  3.16s/it, lr: 1.0e-04 loss: 1.411e-01]strawbyte_v1:  73%|#######2  | 2182/3000 [2:02:19<43:02,  3.16s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  73%|#######2  | 2182/3000 [2:02:19<43:02,  3.16s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  73%|#######2  | 2183/3000 [2:02:19<39:11,  2.88s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  73%|#######2  | 2183/3000 [2:02:19<39:11,  2.88s/it, lr: 1.0e-04 loss: 1.792e-01]strawbyte_v1:  73%|#######2  | 2183/3000 [2:02:21<39:11,  2.88s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  73%|#######2  | 2183/3000 [2:02:21<39:11,  2.88s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  73%|#######2  | 2184/3000 [2:02:21<36:11,  2.66s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  73%|#######2  | 2184/3000 [2:02:21<36:11,  2.66s/it, lr: 1.0e-04 loss: 1.181e-01]strawbyte_v1:  73%|#######2  | 2184/3000 [2:02:23<36:11,  2.66s/it, lr: 1.0e-04 loss: 5.426e-02]strawbyte_v1:  73%|#######2  | 2184/3000 [2:02:23<36:11,  2.66s/it, lr: 1.0e-04 loss: 5.426e-02]strawbyte_v1:  73%|#######2  | 2185/3000 [2:02:23<33:59,  2.50s/it, lr: 1.0e-04 loss: 5.426e-02]strawbyte_v1:  73%|#######2  | 2185/3000 [2:02:23<33:59,  2.50s/it, lr: 1.0e-04 loss: 5.426e-02]strawbyte_v1:  73%|#######2  | 2185/3000 [2:02:28<33:59,  2.50s/it, lr: 1.0e-04 loss: 1.050e-01]strawbyte_v1:  73%|#######2  | 2185/3000 [2:02:28<33:59,  2.50s/it, lr: 1.0e-04 loss: 1.050e-01]strawbyte_v1:  73%|#######2  | 2186/3000 [2:02:28<42:12,  3.11s/it, lr: 1.0e-04 loss: 1.050e-01]strawbyte_v1:  73%|#######2  | 2186/3000 [2:02:28<42:12,  3.11s/it, lr: 1.0e-04 loss: 1.050e-01]strawbyte_v1:  73%|#######2  | 2186/3000 [2:02:32<42:12,  3.11s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  73%|#######2  | 2186/3000 [2:02:32<42:12,  3.11s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  73%|#######2  | 2187/3000 [2:02:32<47:13,  3.49s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  73%|#######2  | 2187/3000 [2:02:32<47:13,  3.49s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  73%|#######2  | 2187/3000 [2:02:35<47:13,  3.49s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  73%|#######2  | 2187/3000 [2:02:35<47:13,  3.49s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  73%|#######2  | 2188/3000 [2:02:35<44:08,  3.26s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  73%|#######2  | 2188/3000 [2:02:35<44:08,  3.26s/it, lr: 1.0e-04 loss: 1.764e-01]strawbyte_v1:  73%|#######2  | 2188/3000 [2:02:38<44:08,  3.26s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:  73%|#######2  | 2188/3000 [2:02:38<44:08,  3.26s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:  73%|#######2  | 2189/3000 [2:02:38<43:17,  3.20s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:  73%|#######2  | 2189/3000 [2:02:38<43:17,  3.20s/it, lr: 1.0e-04 loss: 1.650e-01]strawbyte_v1:  73%|#######2  | 2189/3000 [2:02:40<43:17,  3.20s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  73%|#######2  | 2189/3000 [2:02:40<43:17,  3.20s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  73%|#######3  | 2190/3000 [2:02:43<43:14,  3.20s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  73%|#######3  | 2190/3000 [2:02:43<43:14,  3.20s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  73%|#######3  | 2191/3000 [2:02:43<31:40,  2.35s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  73%|#######3  | 2191/3000 [2:02:43<31:40,  2.35s/it, lr: 1.0e-04 loss: 1.968e-01]strawbyte_v1:  73%|#######3  | 2191/3000 [2:02:46<31:40,  2.35s/it, lr: 1.0e-04 loss: 9.985e-02]strawbyte_v1:  73%|#######3  | 2191/3000 [2:02:46<31:40,  2.35s/it, lr: 1.0e-04 loss: 9.985e-02]strawbyte_v1:  73%|#######3  | 2192/3000 [2:02:46<33:56,  2.52s/it, lr: 1.0e-04 loss: 9.985e-02]strawbyte_v1:  73%|#######3  | 2192/3000 [2:02:46<33:56,  2.52s/it, lr: 1.0e-04 loss: 9.985e-02]strawbyte_v1:  73%|#######3  | 2192/3000 [2:02:50<33:56,  2.52s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  73%|#######3  | 2192/3000 [2:02:50<33:56,  2.52s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  73%|#######3  | 2193/3000 [2:02:50<36:49,  2.74s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  73%|#######3  | 2193/3000 [2:02:50<36:49,  2.74s/it, lr: 1.0e-04 loss: 1.464e-01]strawbyte_v1:  73%|#######3  | 2193/3000 [2:02:54<36:49,  2.74s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  73%|#######3  | 2193/3000 [2:02:54<36:49,  2.74s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  73%|#######3  | 2194/3000 [2:02:54<43:05,  3.21s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  73%|#######3  | 2194/3000 [2:02:54<43:05,  3.21s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  73%|#######3  | 2194/3000 [2:02:58<43:05,  3.21s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  73%|#######3  | 2194/3000 [2:02:58<43:05,  3.21s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  73%|#######3  | 2195/3000 [2:02:58<47:36,  3.55s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  73%|#######3  | 2195/3000 [2:02:58<47:36,  3.55s/it, lr: 1.0e-04 loss: 1.169e-01]strawbyte_v1:  73%|#######3  | 2195/3000 [2:03:01<47:36,  3.55s/it, lr: 1.0e-04 loss: 1.891e-01]strawbyte_v1:  73%|#######3  | 2195/3000 [2:03:01<47:36,  3.55s/it, lr: 1.0e-04 loss: 1.891e-01]strawbyte_v1:  73%|#######3  | 2196/3000 [2:03:01<44:17,  3.30s/it, lr: 1.0e-04 loss: 1.891e-01]strawbyte_v1:  73%|#######3  | 2196/3000 [2:03:01<44:17,  3.30s/it, lr: 1.0e-04 loss: 1.891e-01]strawbyte_v1:  73%|#######3  | 2196/3000 [2:03:04<44:17,  3.30s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  73%|#######3  | 2196/3000 [2:03:04<44:17,  3.30s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  73%|#######3  | 2197/3000 [2:03:04<44:19,  3.31s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  73%|#######3  | 2197/3000 [2:03:04<44:19,  3.31s/it, lr: 1.0e-04 loss: 1.188e-01]strawbyte_v1:  73%|#######3  | 2197/3000 [2:03:09<44:19,  3.31s/it, lr: 1.0e-04 loss: 1.082e-01]strawbyte_v1:  73%|#######3  | 2197/3000 [2:03:09<44:19,  3.31s/it, lr: 1.0e-04 loss: 1.082e-01]strawbyte_v1:  73%|#######3  | 2198/3000 [2:03:09<48:43,  3.65s/it, lr: 1.0e-04 loss: 1.082e-01]strawbyte_v1:  73%|#######3  | 2198/3000 [2:03:09<48:43,  3.65s/it, lr: 1.0e-04 loss: 1.082e-01]strawbyte_v1:  73%|#######3  | 2198/3000 [2:03:13<48:43,  3.65s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  73%|#######3  | 2198/3000 [2:03:13<48:43,  3.65s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  73%|#######3  | 2199/3000 [2:03:13<51:25,  3.85s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  73%|#######3  | 2199/3000 [2:03:13<51:25,  3.85s/it, lr: 1.0e-04 loss: 1.047e-01]strawbyte_v1:  73%|#######3  | 2199/3000 [2:03:16<51:25,  3.85s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  73%|#######3  | 2199/3000 [2:03:16<51:25,  3.85s/it, lr: 1.0e-04 loss: 1.422e-01]strawbyte_v1:  73%|#######3  | 2200/3000 [2:03:18<51:21,  3.85s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  73%|#######3  | 2200/3000 [2:03:18<51:21,  3.85s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  73%|#######3  | 2201/3000 [2:03:18<34:11,  2.57s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  73%|#######3  | 2201/3000 [2:03:18<34:11,  2.57s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  73%|#######3  | 2201/3000 [2:03:23<34:11,  2.57s/it, lr: 1.0e-04 loss: 8.474e-02]strawbyte_v1:  73%|#######3  | 2201/3000 [2:03:23<34:11,  2.57s/it, lr: 1.0e-04 loss: 8.474e-02]strawbyte_v1:  73%|#######3  | 2202/3000 [2:03:23<39:50,  3.00s/it, lr: 1.0e-04 loss: 8.474e-02]strawbyte_v1:  73%|#######3  | 2202/3000 [2:03:23<39:50,  3.00s/it, lr: 1.0e-04 loss: 8.474e-02]strawbyte_v1:  73%|#######3  | 2202/3000 [2:03:25<39:50,  3.00s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  73%|#######3  | 2202/3000 [2:03:25<39:50,  3.00s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  73%|#######3  | 2203/3000 [2:03:25<36:38,  2.76s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  73%|#######3  | 2203/3000 [2:03:25<36:38,  2.76s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  73%|#######3  | 2203/3000 [2:03:28<36:38,  2.76s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  73%|#######3  | 2203/3000 [2:03:28<36:38,  2.76s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  73%|#######3  | 2204/3000 [2:03:28<37:59,  2.86s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  73%|#######3  | 2204/3000 [2:03:28<37:59,  2.86s/it, lr: 1.0e-04 loss: 1.400e-01]strawbyte_v1:  73%|#######3  | 2204/3000 [2:03:31<37:59,  2.86s/it, lr: 1.0e-04 loss: 8.020e-02]strawbyte_v1:  73%|#######3  | 2204/3000 [2:03:31<37:59,  2.86s/it, lr: 1.0e-04 loss: 8.020e-02]strawbyte_v1:  74%|#######3  | 2205/3000 [2:03:31<38:06,  2.88s/it, lr: 1.0e-04 loss: 8.020e-02]strawbyte_v1:  74%|#######3  | 2205/3000 [2:03:31<38:06,  2.88s/it, lr: 1.0e-04 loss: 8.020e-02]strawbyte_v1:  74%|#######3  | 2205/3000 [2:03:34<38:06,  2.88s/it, lr: 1.0e-04 loss: 7.420e-02]strawbyte_v1:  74%|#######3  | 2205/3000 [2:03:34<38:06,  2.88s/it, lr: 1.0e-04 loss: 7.420e-02]strawbyte_v1:  74%|#######3  | 2206/3000 [2:03:34<37:59,  2.87s/it, lr: 1.0e-04 loss: 7.420e-02]strawbyte_v1:  74%|#######3  | 2206/3000 [2:03:34<37:59,  2.87s/it, lr: 1.0e-04 loss: 7.420e-02]strawbyte_v1:  74%|#######3  | 2206/3000 [2:03:36<37:59,  2.87s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  74%|#######3  | 2206/3000 [2:03:36<37:59,  2.87s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  74%|#######3  | 2207/3000 [2:03:36<34:58,  2.65s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  74%|#######3  | 2207/3000 [2:03:36<34:58,  2.65s/it, lr: 1.0e-04 loss: 1.109e-01]strawbyte_v1:  74%|#######3  | 2207/3000 [2:03:38<34:58,  2.65s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  74%|#######3  | 2207/3000 [2:03:38<34:58,  2.65s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  74%|#######3  | 2208/3000 [2:03:38<33:59,  2.57s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  74%|#######3  | 2208/3000 [2:03:38<33:59,  2.57s/it, lr: 1.0e-04 loss: 1.456e-01]strawbyte_v1:  74%|#######3  | 2208/3000 [2:03:41<33:59,  2.57s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  74%|#######3  | 2208/3000 [2:03:41<33:59,  2.57s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  74%|#######3  | 2209/3000 [2:03:41<35:05,  2.66s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  74%|#######3  | 2209/3000 [2:03:41<35:05,  2.66s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  74%|#######3  | 2209/3000 [2:03:44<35:05,  2.66s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  74%|#######3  | 2209/3000 [2:03:44<35:05,  2.66s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  74%|#######3  | 2210/3000 [2:03:47<35:02,  2.66s/it, lr: 1.0e-04 loss: 8.700e-02]strawbyte_v1:  74%|#######3  | 2210/3000 [2:03:47<35:02,  2.66s/it, lr: 1.0e-04 loss: 8.700e-02]strawbyte_v1:  74%|#######3  | 2211/3000 [2:03:47<28:50,  2.19s/it, lr: 1.0e-04 loss: 8.700e-02]strawbyte_v1:  74%|#######3  | 2211/3000 [2:03:47<28:50,  2.19s/it, lr: 1.0e-04 loss: 8.700e-02]strawbyte_v1:  74%|#######3  | 2211/3000 [2:03:52<28:50,  2.19s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  74%|#######3  | 2211/3000 [2:03:52<28:50,  2.19s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  74%|#######3  | 2212/3000 [2:03:52<36:07,  2.75s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  74%|#######3  | 2212/3000 [2:03:52<36:07,  2.75s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  74%|#######3  | 2212/3000 [2:03:55<36:07,  2.75s/it, lr: 1.0e-04 loss: 9.065e-02]strawbyte_v1:  74%|#######3  | 2212/3000 [2:03:55<36:07,  2.75s/it, lr: 1.0e-04 loss: 9.065e-02]strawbyte_v1:  74%|#######3  | 2213/3000 [2:03:55<36:58,  2.82s/it, lr: 1.0e-04 loss: 9.065e-02]strawbyte_v1:  74%|#######3  | 2213/3000 [2:03:55<36:58,  2.82s/it, lr: 1.0e-04 loss: 9.065e-02]strawbyte_v1:  74%|#######3  | 2213/3000 [2:03:59<36:58,  2.82s/it, lr: 1.0e-04 loss: 8.927e-02]strawbyte_v1:  74%|#######3  | 2213/3000 [2:03:59<36:58,  2.82s/it, lr: 1.0e-04 loss: 8.927e-02]strawbyte_v1:  74%|#######3  | 2214/3000 [2:03:59<42:35,  3.25s/it, lr: 1.0e-04 loss: 8.927e-02]strawbyte_v1:  74%|#######3  | 2214/3000 [2:03:59<42:35,  3.25s/it, lr: 1.0e-04 loss: 8.927e-02]strawbyte_v1:  74%|#######3  | 2214/3000 [2:04:02<42:35,  3.25s/it, lr: 1.0e-04 loss: 1.538e-03]strawbyte_v1:  74%|#######3  | 2214/3000 [2:04:02<42:35,  3.25s/it, lr: 1.0e-04 loss: 1.538e-03]strawbyte_v1:  74%|#######3  | 2215/3000 [2:04:02<41:51,  3.20s/it, lr: 1.0e-04 loss: 1.538e-03]strawbyte_v1:  74%|#######3  | 2215/3000 [2:04:02<41:51,  3.20s/it, lr: 1.0e-04 loss: 1.538e-03]strawbyte_v1:  74%|#######3  | 2215/3000 [2:04:05<41:51,  3.20s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  74%|#######3  | 2215/3000 [2:04:05<41:51,  3.20s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  74%|#######3  | 2216/3000 [2:04:05<41:08,  3.15s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  74%|#######3  | 2216/3000 [2:04:05<41:08,  3.15s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  74%|#######3  | 2216/3000 [2:04:08<41:08,  3.15s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  74%|#######3  | 2216/3000 [2:04:08<41:08,  3.15s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  74%|#######3  | 2217/3000 [2:04:08<39:20,  3.01s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  74%|#######3  | 2217/3000 [2:04:08<39:20,  3.01s/it, lr: 1.0e-04 loss: 1.627e-01]strawbyte_v1:  74%|#######3  | 2217/3000 [2:04:11<39:20,  3.01s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  74%|#######3  | 2217/3000 [2:04:11<39:20,  3.01s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  74%|#######3  | 2218/3000 [2:04:11<39:13,  3.01s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  74%|#######3  | 2218/3000 [2:04:11<39:13,  3.01s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  74%|#######3  | 2218/3000 [2:04:14<39:13,  3.01s/it, lr: 1.0e-04 loss: 3.868e-02]strawbyte_v1:  74%|#######3  | 2218/3000 [2:04:14<39:13,  3.01s/it, lr: 1.0e-04 loss: 3.868e-02]strawbyte_v1:  74%|#######3  | 2219/3000 [2:04:14<40:18,  3.10s/it, lr: 1.0e-04 loss: 3.868e-02]strawbyte_v1:  74%|#######3  | 2219/3000 [2:04:14<40:18,  3.10s/it, lr: 1.0e-04 loss: 3.868e-02]strawbyte_v1:  74%|#######3  | 2219/3000 [2:04:19<40:18,  3.10s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1:  74%|#######3  | 2219/3000 [2:04:19<40:18,  3.10s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1:  74%|#######4  | 2220/3000 [2:04:21<40:15,  3.10s/it, lr: 1.0e-04 loss: 5.286e-02]strawbyte_v1:  74%|#######4  | 2220/3000 [2:04:21<40:15,  3.10s/it, lr: 1.0e-04 loss: 5.286e-02]strawbyte_v1:  74%|#######4  | 2221/3000 [2:04:21<29:49,  2.30s/it, lr: 1.0e-04 loss: 5.286e-02]strawbyte_v1:  74%|#######4  | 2221/3000 [2:04:21<29:49,  2.30s/it, lr: 1.0e-04 loss: 5.286e-02]strawbyte_v1:  74%|#######4  | 2221/3000 [2:04:24<29:49,  2.30s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  74%|#######4  | 2221/3000 [2:04:24<29:49,  2.30s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  74%|#######4  | 2222/3000 [2:04:24<32:08,  2.48s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  74%|#######4  | 2222/3000 [2:04:24<32:08,  2.48s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  74%|#######4  | 2222/3000 [2:04:27<32:08,  2.48s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  74%|#######4  | 2222/3000 [2:04:27<32:08,  2.48s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  74%|#######4  | 2223/3000 [2:04:27<33:56,  2.62s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  74%|#######4  | 2223/3000 [2:04:27<33:56,  2.62s/it, lr: 1.0e-04 loss: 1.549e-01]strawbyte_v1:  74%|#######4  | 2223/3000 [2:04:30<33:56,  2.62s/it, lr: 1.0e-04 loss: 1.354e-01]strawbyte_v1:  74%|#######4  | 2223/3000 [2:04:30<33:56,  2.62s/it, lr: 1.0e-04 loss: 1.354e-01]strawbyte_v1:  74%|#######4  | 2224/3000 [2:04:30<35:18,  2.73s/it, lr: 1.0e-04 loss: 1.354e-01]strawbyte_v1:  74%|#######4  | 2224/3000 [2:04:30<35:18,  2.73s/it, lr: 1.0e-04 loss: 1.354e-01]strawbyte_v1:  74%|#######4  | 2224/3000 [2:04:35<35:18,  2.73s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  74%|#######4  | 2224/3000 [2:04:35<35:18,  2.73s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  74%|#######4  | 2225/3000 [2:04:35<41:23,  3.20s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  74%|#######4  | 2225/3000 [2:04:35<41:23,  3.20s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  74%|#######4  | 2225/3000 [2:04:38<41:23,  3.20s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  74%|#######4  | 2225/3000 [2:04:38<41:23,  3.20s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  74%|#######4  | 2226/3000 [2:04:38<41:09,  3.19s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  74%|#######4  | 2226/3000 [2:04:38<41:09,  3.19s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  74%|#######4  | 2226/3000 [2:04:41<41:09,  3.19s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  74%|#######4  | 2226/3000 [2:04:41<41:09,  3.19s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  74%|#######4  | 2227/3000 [2:04:41<40:08,  3.12s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  74%|#######4  | 2227/3000 [2:04:41<40:08,  3.12s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  74%|#######4  | 2227/3000 [2:04:43<40:08,  3.12s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  74%|#######4  | 2227/3000 [2:04:43<40:08,  3.12s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  74%|#######4  | 2228/3000 [2:04:43<36:21,  2.83s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  74%|#######4  | 2228/3000 [2:04:43<36:21,  2.83s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  74%|#######4  | 2228/3000 [2:04:47<36:21,  2.83s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  74%|#######4  | 2228/3000 [2:04:47<36:21,  2.83s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  74%|#######4  | 2229/3000 [2:04:47<42:08,  3.28s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  74%|#######4  | 2229/3000 [2:04:47<42:08,  3.28s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  74%|#######4  | 2229/3000 [2:04:52<42:08,  3.28s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  74%|#######4  | 2229/3000 [2:04:52<42:08,  3.28s/it, lr: 1.0e-04 loss: 1.108e-01]strawbyte_v1:  74%|#######4  | 2230/3000 [2:04:56<42:04,  3.28s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  74%|#######4  | 2230/3000 [2:04:56<42:04,  3.28s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  74%|#######4  | 2231/3000 [2:04:56<35:36,  2.78s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  74%|#######4  | 2231/3000 [2:04:56<35:36,  2.78s/it, lr: 1.0e-04 loss: 1.131e-01]strawbyte_v1:  74%|#######4  | 2231/3000 [2:05:01<35:36,  2.78s/it, lr: 1.0e-04 loss: 7.662e-02]strawbyte_v1:  74%|#######4  | 2231/3000 [2:05:01<35:36,  2.78s/it, lr: 1.0e-04 loss: 7.662e-02]strawbyte_v1:  74%|#######4  | 2232/3000 [2:05:01<40:24,  3.16s/it, lr: 1.0e-04 loss: 7.662e-02]strawbyte_v1:  74%|#######4  | 2232/3000 [2:05:01<40:24,  3.16s/it, lr: 1.0e-04 loss: 7.662e-02]strawbyte_v1:  74%|#######4  | 2232/3000 [2:05:03<40:24,  3.16s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  74%|#######4  | 2232/3000 [2:05:03<40:24,  3.16s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  74%|#######4  | 2233/3000 [2:05:03<37:49,  2.96s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  74%|#######4  | 2233/3000 [2:05:03<37:49,  2.96s/it, lr: 1.0e-04 loss: 8.592e-02]strawbyte_v1:  74%|#######4  | 2233/3000 [2:05:06<37:49,  2.96s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  74%|#######4  | 2233/3000 [2:05:06<37:49,  2.96s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  74%|#######4  | 2234/3000 [2:05:06<37:34,  2.94s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  74%|#######4  | 2234/3000 [2:05:06<37:34,  2.94s/it, lr: 1.0e-04 loss: 1.372e-01]strawbyte_v1:  74%|#######4  | 2234/3000 [2:05:09<37:34,  2.94s/it, lr: 1.0e-04 loss: 3.536e-02]strawbyte_v1:  74%|#######4  | 2234/3000 [2:05:09<37:34,  2.94s/it, lr: 1.0e-04 loss: 3.536e-02]strawbyte_v1:  74%|#######4  | 2235/3000 [2:05:09<37:37,  2.95s/it, lr: 1.0e-04 loss: 3.536e-02]strawbyte_v1:  74%|#######4  | 2235/3000 [2:05:09<37:37,  2.95s/it, lr: 1.0e-04 loss: 3.536e-02]strawbyte_v1:  74%|#######4  | 2235/3000 [2:05:12<37:37,  2.95s/it, lr: 1.0e-04 loss: 8.933e-02]strawbyte_v1:  74%|#######4  | 2235/3000 [2:05:12<37:37,  2.95s/it, lr: 1.0e-04 loss: 8.933e-02]strawbyte_v1:  75%|#######4  | 2236/3000 [2:05:12<36:43,  2.88s/it, lr: 1.0e-04 loss: 8.933e-02]strawbyte_v1:  75%|#######4  | 2236/3000 [2:05:12<36:43,  2.88s/it, lr: 1.0e-04 loss: 8.933e-02]strawbyte_v1:  75%|#######4  | 2236/3000 [2:05:16<36:43,  2.88s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  75%|#######4  | 2236/3000 [2:05:16<36:43,  2.88s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  75%|#######4  | 2237/3000 [2:05:16<43:40,  3.43s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  75%|#######4  | 2237/3000 [2:05:16<43:40,  3.43s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  75%|#######4  | 2237/3000 [2:05:19<43:40,  3.43s/it, lr: 1.0e-04 loss: 1.500e-01]strawbyte_v1:  75%|#######4  | 2237/3000 [2:05:19<43:40,  3.43s/it, lr: 1.0e-04 loss: 1.500e-01]strawbyte_v1:  75%|#######4  | 2238/3000 [2:05:19<40:52,  3.22s/it, lr: 1.0e-04 loss: 1.500e-01]strawbyte_v1:  75%|#######4  | 2238/3000 [2:05:19<40:52,  3.22s/it, lr: 1.0e-04 loss: 1.500e-01]strawbyte_v1:  75%|#######4  | 2238/3000 [2:05:22<40:52,  3.22s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  75%|#######4  | 2238/3000 [2:05:22<40:52,  3.22s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  75%|#######4  | 2239/3000 [2:05:22<38:49,  3.06s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  75%|#######4  | 2239/3000 [2:05:22<38:49,  3.06s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  75%|#######4  | 2239/3000 [2:05:25<38:49,  3.06s/it, lr: 1.0e-04 loss: 1.806e-01]strawbyte_v1:  75%|#######4  | 2239/3000 [2:05:25<38:49,  3.06s/it, lr: 1.0e-04 loss: 1.806e-01]strawbyte_v1:  75%|#######4  | 2240/3000 [2:05:28<38:46,  3.06s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:  75%|#######4  | 2240/3000 [2:05:28<38:46,  3.06s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:  75%|#######4  | 2241/3000 [2:05:28<29:46,  2.35s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:  75%|#######4  | 2241/3000 [2:05:28<29:46,  2.35s/it, lr: 1.0e-04 loss: 3.054e-02]strawbyte_v1:  75%|#######4  | 2241/3000 [2:05:31<29:46,  2.35s/it, lr: 1.0e-04 loss: 1.428e-01]strawbyte_v1:  75%|#######4  | 2241/3000 [2:05:31<29:46,  2.35s/it, lr: 1.0e-04 loss: 1.428e-01]strawbyte_v1:  75%|#######4  | 2242/3000 [2:05:31<31:38,  2.50s/it, lr: 1.0e-04 loss: 1.428e-01]strawbyte_v1:  75%|#######4  | 2242/3000 [2:05:31<31:38,  2.50s/it, lr: 1.0e-04 loss: 1.428e-01]strawbyte_v1:  75%|#######4  | 2242/3000 [2:05:35<31:38,  2.50s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  75%|#######4  | 2242/3000 [2:05:35<31:38,  2.50s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  75%|#######4  | 2243/3000 [2:05:35<37:59,  3.01s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  75%|#######4  | 2243/3000 [2:05:35<37:59,  3.01s/it, lr: 1.0e-04 loss: 1.094e-01]strawbyte_v1:  75%|#######4  | 2243/3000 [2:05:38<37:59,  3.01s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  75%|#######4  | 2243/3000 [2:05:38<37:59,  3.01s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  75%|#######4  | 2244/3000 [2:05:38<38:18,  3.04s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  75%|#######4  | 2244/3000 [2:05:38<38:18,  3.04s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  75%|#######4  | 2244/3000 [2:05:43<38:18,  3.04s/it, lr: 1.0e-04 loss: 9.199e-02]strawbyte_v1:  75%|#######4  | 2244/3000 [2:05:43<38:18,  3.04s/it, lr: 1.0e-04 loss: 9.199e-02]strawbyte_v1:  75%|#######4  | 2245/3000 [2:05:43<43:04,  3.42s/it, lr: 1.0e-04 loss: 9.199e-02]strawbyte_v1:  75%|#######4  | 2245/3000 [2:05:43<43:04,  3.42s/it, lr: 1.0e-04 loss: 9.199e-02]strawbyte_v1:  75%|#######4  | 2245/3000 [2:05:46<43:04,  3.42s/it, lr: 1.0e-04 loss: 3.892e-02]strawbyte_v1:  75%|#######4  | 2245/3000 [2:05:46<43:04,  3.42s/it, lr: 1.0e-04 loss: 3.892e-02]strawbyte_v1:  75%|#######4  | 2246/3000 [2:05:46<41:25,  3.30s/it, lr: 1.0e-04 loss: 3.892e-02]strawbyte_v1:  75%|#######4  | 2246/3000 [2:05:46<41:25,  3.30s/it, lr: 1.0e-04 loss: 3.892e-02]strawbyte_v1:  75%|#######4  | 2246/3000 [2:05:49<41:25,  3.30s/it, lr: 1.0e-04 loss: 2.602e-02]strawbyte_v1:  75%|#######4  | 2246/3000 [2:05:49<41:25,  3.30s/it, lr: 1.0e-04 loss: 2.602e-02]strawbyte_v1:  75%|#######4  | 2247/3000 [2:05:49<40:26,  3.22s/it, lr: 1.0e-04 loss: 2.602e-02]strawbyte_v1:  75%|#######4  | 2247/3000 [2:05:49<40:26,  3.22s/it, lr: 1.0e-04 loss: 2.602e-02]strawbyte_v1:  75%|#######4  | 2247/3000 [2:05:53<40:26,  3.22s/it, lr: 1.0e-04 loss: 6.426e-02]strawbyte_v1:  75%|#######4  | 2247/3000 [2:05:53<40:26,  3.22s/it, lr: 1.0e-04 loss: 6.426e-02]strawbyte_v1:  75%|#######4  | 2248/3000 [2:05:53<45:52,  3.66s/it, lr: 1.0e-04 loss: 6.426e-02]strawbyte_v1:  75%|#######4  | 2248/3000 [2:05:53<45:52,  3.66s/it, lr: 1.0e-04 loss: 6.426e-02]strawbyte_v1:  75%|#######4  | 2248/3000 [2:05:56<45:52,  3.66s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  75%|#######4  | 2248/3000 [2:05:56<45:52,  3.66s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  75%|#######4  | 2249/3000 [2:05:56<43:13,  3.45s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  75%|#######4  | 2249/3000 [2:05:56<43:13,  3.45s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  75%|#######4  | 2249/3000 [2:05:59<43:13,  3.45s/it, lr: 1.0e-04 loss: 1.112e-01]strawbyte_v1:  75%|#######4  | 2249/3000 [2:05:59<43:13,  3.45s/it, lr: 1.0e-04 loss: 1.112e-01]
+Saving at step 2250
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000002250.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+Removing old save: /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001250.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.95s/it]Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.95s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.07s/it]Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.07s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.18s/it]Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.18s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:55<00:00, 73.68s/it]Generating Images: 100%|##########| 4/4 [04:55<00:00, 73.68s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  75%|#######5  | 2250/3000 [2:06:02<43:09,  3.45s/it, lr: 1.0e-04 loss: 6.814e-02]strawbyte_v1:  75%|#######5  | 2250/3000 [2:06:02<43:09,  3.45s/it, lr: 1.0e-04 loss: 6.814e-02]strawbyte_v1:  75%|#######5  | 2251/3000 [2:06:02<32:08,  2.57s/it, lr: 1.0e-04 loss: 6.814e-02]strawbyte_v1:  75%|#######5  | 2251/3000 [2:06:02<32:08,  2.57s/it, lr: 1.0e-04 loss: 6.814e-02]strawbyte_v1:  75%|#######5  | 2251/3000 [2:06:05<32:08,  2.57s/it, lr: 1.0e-04 loss: 1.283e-02]strawbyte_v1:  75%|#######5  | 2251/3000 [2:06:05<32:08,  2.57s/it, lr: 1.0e-04 loss: 1.283e-02]strawbyte_v1:  75%|#######5  | 2252/3000 [2:06:05<32:21,  2.59s/it, lr: 1.0e-04 loss: 1.283e-02]strawbyte_v1:  75%|#######5  | 2252/3000 [2:06:05<32:21,  2.59s/it, lr: 1.0e-04 loss: 1.283e-02]strawbyte_v1:  75%|#######5  | 2252/3000 [2:06:09<32:21,  2.59s/it, lr: 1.0e-04 loss: 1.385e-01]strawbyte_v1:  75%|#######5  | 2252/3000 [2:06:09<32:21,  2.59s/it, lr: 1.0e-04 loss: 1.385e-01]strawbyte_v1:  75%|#######5  | 2253/3000 [2:06:09<37:58,  3.05s/it, lr: 1.0e-04 loss: 1.385e-01]strawbyte_v1:  75%|#######5  | 2253/3000 [2:06:09<37:58,  3.05s/it, lr: 1.0e-04 loss: 1.385e-01]strawbyte_v1:  75%|#######5  | 2253/3000 [2:06:12<37:58,  3.05s/it, lr: 1.0e-04 loss: 7.679e-02]strawbyte_v1:  75%|#######5  | 2253/3000 [2:06:12<37:58,  3.05s/it, lr: 1.0e-04 loss: 7.679e-02]strawbyte_v1:  75%|#######5  | 2254/3000 [2:06:12<35:46,  2.88s/it, lr: 1.0e-04 loss: 7.679e-02]strawbyte_v1:  75%|#######5  | 2254/3000 [2:06:12<35:46,  2.88s/it, lr: 1.0e-04 loss: 7.679e-02]strawbyte_v1:  75%|#######5  | 2254/3000 [2:06:15<35:46,  2.88s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  75%|#######5  | 2254/3000 [2:06:15<35:46,  2.88s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  75%|#######5  | 2255/3000 [2:06:15<35:49,  2.89s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  75%|#######5  | 2255/3000 [2:06:15<35:49,  2.89s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  75%|#######5  | 2255/3000 [2:06:19<35:49,  2.89s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  75%|#######5  | 2255/3000 [2:06:19<35:49,  2.89s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  75%|#######5  | 2256/3000 [2:06:19<40:59,  3.31s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  75%|#######5  | 2256/3000 [2:06:19<40:59,  3.31s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  75%|#######5  | 2256/3000 [2:06:22<40:59,  3.31s/it, lr: 1.0e-04 loss: 8.275e-02]strawbyte_v1:  75%|#######5  | 2256/3000 [2:06:22<40:59,  3.31s/it, lr: 1.0e-04 loss: 8.275e-02]strawbyte_v1:  75%|#######5  | 2257/3000 [2:06:22<40:16,  3.25s/it, lr: 1.0e-04 loss: 8.275e-02]strawbyte_v1:  75%|#######5  | 2257/3000 [2:06:22<40:16,  3.25s/it, lr: 1.0e-04 loss: 8.275e-02]strawbyte_v1:  75%|#######5  | 2257/3000 [2:06:25<40:16,  3.25s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  75%|#######5  | 2257/3000 [2:06:25<40:16,  3.25s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  75%|#######5  | 2258/3000 [2:06:25<38:52,  3.14s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  75%|#######5  | 2258/3000 [2:06:25<38:52,  3.14s/it, lr: 1.0e-04 loss: 1.233e-01]strawbyte_v1:  75%|#######5  | 2258/3000 [2:06:29<38:52,  3.14s/it, lr: 1.0e-04 loss: 6.537e-02]strawbyte_v1:  75%|#######5  | 2258/3000 [2:06:29<38:52,  3.14s/it, lr: 1.0e-04 loss: 6.537e-02]strawbyte_v1:  75%|#######5  | 2259/3000 [2:06:29<43:06,  3.49s/it, lr: 1.0e-04 loss: 6.537e-02]strawbyte_v1:  75%|#######5  | 2259/3000 [2:06:29<43:06,  3.49s/it, lr: 1.0e-04 loss: 6.537e-02]strawbyte_v1:  75%|#######5  | 2259/3000 [2:06:34<43:06,  3.49s/it, lr: 1.0e-04 loss: 7.862e-02]strawbyte_v1:  75%|#######5  | 2259/3000 [2:06:34<43:06,  3.49s/it, lr: 1.0e-04 loss: 7.862e-02]strawbyte_v1:  75%|#######5  | 2260/3000 [2:06:38<43:02,  3.49s/it, lr: 1.0e-04 loss: 3.027e-02]strawbyte_v1:  75%|#######5  | 2260/3000 [2:06:38<43:02,  3.49s/it, lr: 1.0e-04 loss: 3.027e-02]strawbyte_v1:  75%|#######5  | 2261/3000 [2:06:38<36:09,  2.94s/it, lr: 1.0e-04 loss: 3.027e-02]strawbyte_v1:  75%|#######5  | 2261/3000 [2:06:38<36:09,  2.94s/it, lr: 1.0e-04 loss: 3.027e-02]strawbyte_v1:  75%|#######5  | 2261/3000 [2:06:41<36:09,  2.94s/it, lr: 1.0e-04 loss: 1.434e-01]strawbyte_v1:  75%|#######5  | 2261/3000 [2:06:41<36:09,  2.94s/it, lr: 1.0e-04 loss: 1.434e-01]strawbyte_v1:  75%|#######5  | 2262/3000 [2:06:41<35:20,  2.87s/it, lr: 1.0e-04 loss: 1.434e-01]strawbyte_v1:  75%|#######5  | 2262/3000 [2:06:41<35:20,  2.87s/it, lr: 1.0e-04 loss: 1.434e-01]strawbyte_v1:  75%|#######5  | 2262/3000 [2:06:44<35:20,  2.87s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  75%|#######5  | 2262/3000 [2:06:44<35:20,  2.87s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  75%|#######5  | 2263/3000 [2:06:44<34:51,  2.84s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  75%|#######5  | 2263/3000 [2:06:44<34:51,  2.84s/it, lr: 1.0e-04 loss: 1.823e-01]strawbyte_v1:  75%|#######5  | 2263/3000 [2:06:48<34:51,  2.84s/it, lr: 1.0e-04 loss: 9.196e-02]strawbyte_v1:  75%|#######5  | 2263/3000 [2:06:48<34:51,  2.84s/it, lr: 1.0e-04 loss: 9.196e-02]strawbyte_v1:  75%|#######5  | 2264/3000 [2:06:48<40:15,  3.28s/it, lr: 1.0e-04 loss: 9.196e-02]strawbyte_v1:  75%|#######5  | 2264/3000 [2:06:48<40:15,  3.28s/it, lr: 1.0e-04 loss: 9.196e-02]strawbyte_v1:  75%|#######5  | 2264/3000 [2:06:51<40:15,  3.28s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  75%|#######5  | 2264/3000 [2:06:51<40:15,  3.28s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  76%|#######5  | 2265/3000 [2:06:51<40:20,  3.29s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  76%|#######5  | 2265/3000 [2:06:51<40:20,  3.29s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  76%|#######5  | 2265/3000 [2:06:56<40:20,  3.29s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  76%|#######5  | 2265/3000 [2:06:56<40:20,  3.29s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  76%|#######5  | 2266/3000 [2:06:56<44:10,  3.61s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  76%|#######5  | 2266/3000 [2:06:56<44:10,  3.61s/it, lr: 1.0e-04 loss: 1.203e-01]strawbyte_v1:  76%|#######5  | 2266/3000 [2:07:00<44:10,  3.61s/it, lr: 1.0e-04 loss: 9.798e-02]strawbyte_v1:  76%|#######5  | 2266/3000 [2:07:00<44:10,  3.61s/it, lr: 1.0e-04 loss: 9.798e-02]strawbyte_v1:  76%|#######5  | 2267/3000 [2:07:00<47:06,  3.86s/it, lr: 1.0e-04 loss: 9.798e-02]strawbyte_v1:  76%|#######5  | 2267/3000 [2:07:00<47:06,  3.86s/it, lr: 1.0e-04 loss: 9.798e-02]strawbyte_v1:  76%|#######5  | 2267/3000 [2:07:03<47:06,  3.86s/it, lr: 1.0e-04 loss: 8.005e-02]strawbyte_v1:  76%|#######5  | 2267/3000 [2:07:03<47:06,  3.86s/it, lr: 1.0e-04 loss: 8.005e-02]strawbyte_v1:  76%|#######5  | 2268/3000 [2:07:03<44:17,  3.63s/it, lr: 1.0e-04 loss: 8.005e-02]strawbyte_v1:  76%|#######5  | 2268/3000 [2:07:03<44:17,  3.63s/it, lr: 1.0e-04 loss: 8.005e-02]strawbyte_v1:  76%|#######5  | 2268/3000 [2:07:08<44:17,  3.63s/it, lr: 1.0e-04 loss: 8.823e-02]strawbyte_v1:  76%|#######5  | 2268/3000 [2:07:08<44:17,  3.63s/it, lr: 1.0e-04 loss: 8.823e-02]strawbyte_v1:  76%|#######5  | 2269/3000 [2:07:08<47:10,  3.87s/it, lr: 1.0e-04 loss: 8.823e-02]strawbyte_v1:  76%|#######5  | 2269/3000 [2:07:08<47:10,  3.87s/it, lr: 1.0e-04 loss: 8.823e-02]strawbyte_v1:  76%|#######5  | 2269/3000 [2:07:11<47:10,  3.87s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  76%|#######5  | 2269/3000 [2:07:11<47:10,  3.87s/it, lr: 1.0e-04 loss: 1.358e-01]strawbyte_v1:  76%|#######5  | 2270/3000 [2:07:15<47:06,  3.87s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:  76%|#######5  | 2270/3000 [2:07:15<47:06,  3.87s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:  76%|#######5  | 2271/3000 [2:07:15<37:55,  3.12s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:  76%|#######5  | 2271/3000 [2:07:15<37:55,  3.12s/it, lr: 1.0e-04 loss: 1.025e-01]strawbyte_v1:  76%|#######5  | 2271/3000 [2:07:19<37:55,  3.12s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  76%|#######5  | 2271/3000 [2:07:19<37:55,  3.12s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  76%|#######5  | 2272/3000 [2:07:19<38:30,  3.17s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  76%|#######5  | 2272/3000 [2:07:19<38:30,  3.17s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  76%|#######5  | 2272/3000 [2:07:21<38:30,  3.17s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  76%|#######5  | 2272/3000 [2:07:21<38:30,  3.17s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  76%|#######5  | 2273/3000 [2:07:21<36:54,  3.05s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  76%|#######5  | 2273/3000 [2:07:21<36:54,  3.05s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  76%|#######5  | 2273/3000 [2:07:24<36:54,  3.05s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:  76%|#######5  | 2273/3000 [2:07:24<36:54,  3.05s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:  76%|#######5  | 2274/3000 [2:07:24<35:37,  2.94s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:  76%|#######5  | 2274/3000 [2:07:24<35:37,  2.94s/it, lr: 1.0e-04 loss: 1.113e-01]strawbyte_v1:  76%|#######5  | 2274/3000 [2:07:28<35:37,  2.94s/it, lr: 1.0e-04 loss: 9.090e-02]strawbyte_v1:  76%|#######5  | 2274/3000 [2:07:28<35:37,  2.94s/it, lr: 1.0e-04 loss: 9.090e-02]strawbyte_v1:  76%|#######5  | 2275/3000 [2:07:28<40:21,  3.34s/it, lr: 1.0e-04 loss: 9.090e-02]strawbyte_v1:  76%|#######5  | 2275/3000 [2:07:28<40:21,  3.34s/it, lr: 1.0e-04 loss: 9.090e-02]strawbyte_v1:  76%|#######5  | 2275/3000 [2:07:31<40:21,  3.34s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  76%|#######5  | 2275/3000 [2:07:31<40:21,  3.34s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  76%|#######5  | 2276/3000 [2:07:31<39:37,  3.28s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  76%|#######5  | 2276/3000 [2:07:31<39:37,  3.28s/it, lr: 1.0e-04 loss: 8.975e-02]strawbyte_v1:  76%|#######5  | 2276/3000 [2:07:36<39:37,  3.28s/it, lr: 1.0e-04 loss: 8.807e-02]strawbyte_v1:  76%|#######5  | 2276/3000 [2:07:36<39:37,  3.28s/it, lr: 1.0e-04 loss: 8.807e-02]strawbyte_v1:  76%|#######5  | 2277/3000 [2:07:36<43:19,  3.60s/it, lr: 1.0e-04 loss: 8.807e-02]strawbyte_v1:  76%|#######5  | 2277/3000 [2:07:36<43:19,  3.60s/it, lr: 1.0e-04 loss: 8.807e-02]strawbyte_v1:  76%|#######5  | 2277/3000 [2:07:40<43:19,  3.60s/it, lr: 1.0e-04 loss: 4.348e-02]strawbyte_v1:  76%|#######5  | 2277/3000 [2:07:40<43:19,  3.60s/it, lr: 1.0e-04 loss: 4.348e-02]strawbyte_v1:  76%|#######5  | 2278/3000 [2:07:40<46:03,  3.83s/it, lr: 1.0e-04 loss: 4.348e-02]strawbyte_v1:  76%|#######5  | 2278/3000 [2:07:40<46:03,  3.83s/it, lr: 1.0e-04 loss: 4.348e-02]strawbyte_v1:  76%|#######5  | 2278/3000 [2:07:43<46:03,  3.83s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  76%|#######5  | 2278/3000 [2:07:43<46:03,  3.83s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  76%|#######5  | 2279/3000 [2:07:43<41:26,  3.45s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  76%|#######5  | 2279/3000 [2:07:43<41:26,  3.45s/it, lr: 1.0e-04 loss: 1.414e-01]strawbyte_v1:  76%|#######5  | 2279/3000 [2:07:47<41:26,  3.45s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  76%|#######5  | 2279/3000 [2:07:47<41:26,  3.45s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  76%|#######6  | 2280/3000 [2:07:49<41:22,  3.45s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  76%|#######6  | 2280/3000 [2:07:49<41:22,  3.45s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  76%|#######6  | 2281/3000 [2:07:49<28:12,  2.35s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  76%|#######6  | 2281/3000 [2:07:49<28:12,  2.35s/it, lr: 1.0e-04 loss: 1.234e-01]strawbyte_v1:  76%|#######6  | 2281/3000 [2:07:52<28:12,  2.35s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  76%|#######6  | 2281/3000 [2:07:52<28:12,  2.35s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  76%|#######6  | 2282/3000 [2:07:52<29:48,  2.49s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  76%|#######6  | 2282/3000 [2:07:52<29:48,  2.49s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  76%|#######6  | 2282/3000 [2:07:56<29:48,  2.49s/it, lr: 1.0e-04 loss: 5.474e-02]strawbyte_v1:  76%|#######6  | 2282/3000 [2:07:56<29:48,  2.49s/it, lr: 1.0e-04 loss: 5.474e-02]strawbyte_v1:  76%|#######6  | 2283/3000 [2:07:56<31:42,  2.65s/it, lr: 1.0e-04 loss: 5.474e-02]strawbyte_v1:  76%|#######6  | 2283/3000 [2:07:56<31:42,  2.65s/it, lr: 1.0e-04 loss: 5.474e-02]strawbyte_v1:  76%|#######6  | 2283/3000 [2:07:58<31:42,  2.65s/it, lr: 1.0e-04 loss: 1.386e-01]strawbyte_v1:  76%|#######6  | 2283/3000 [2:07:58<31:42,  2.65s/it, lr: 1.0e-04 loss: 1.386e-01]strawbyte_v1:  76%|#######6  | 2284/3000 [2:07:58<32:37,  2.73s/it, lr: 1.0e-04 loss: 1.386e-01]strawbyte_v1:  76%|#######6  | 2284/3000 [2:07:58<32:37,  2.73s/it, lr: 1.0e-04 loss: 1.386e-01]strawbyte_v1:  76%|#######6  | 2284/3000 [2:08:03<32:37,  2.73s/it, lr: 1.0e-04 loss: 6.274e-02]strawbyte_v1:  76%|#######6  | 2284/3000 [2:08:03<32:37,  2.73s/it, lr: 1.0e-04 loss: 6.274e-02]strawbyte_v1:  76%|#######6  | 2285/3000 [2:08:03<38:09,  3.20s/it, lr: 1.0e-04 loss: 6.274e-02]strawbyte_v1:  76%|#######6  | 2285/3000 [2:08:03<38:09,  3.20s/it, lr: 1.0e-04 loss: 6.274e-02]strawbyte_v1:  76%|#######6  | 2285/3000 [2:08:06<38:09,  3.20s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  76%|#######6  | 2285/3000 [2:08:06<38:09,  3.20s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  76%|#######6  | 2286/3000 [2:08:06<37:21,  3.14s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  76%|#######6  | 2286/3000 [2:08:06<37:21,  3.14s/it, lr: 1.0e-04 loss: 1.554e-01]strawbyte_v1:  76%|#######6  | 2286/3000 [2:08:09<37:21,  3.14s/it, lr: 1.0e-04 loss: 1.969e-01]strawbyte_v1:  76%|#######6  | 2286/3000 [2:08:09<37:21,  3.14s/it, lr: 1.0e-04 loss: 1.969e-01]strawbyte_v1:  76%|#######6  | 2287/3000 [2:08:09<36:57,  3.11s/it, lr: 1.0e-04 loss: 1.969e-01]strawbyte_v1:  76%|#######6  | 2287/3000 [2:08:09<36:57,  3.11s/it, lr: 1.0e-04 loss: 1.969e-01]strawbyte_v1:  76%|#######6  | 2287/3000 [2:08:12<36:57,  3.11s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  76%|#######6  | 2287/3000 [2:08:12<36:57,  3.11s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  76%|#######6  | 2288/3000 [2:08:12<36:31,  3.08s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  76%|#######6  | 2288/3000 [2:08:12<36:31,  3.08s/it, lr: 1.0e-04 loss: 8.442e-02]strawbyte_v1:  76%|#######6  | 2288/3000 [2:08:15<36:31,  3.08s/it, lr: 1.0e-04 loss: 7.530e-02]strawbyte_v1:  76%|#######6  | 2288/3000 [2:08:15<36:31,  3.08s/it, lr: 1.0e-04 loss: 7.530e-02]strawbyte_v1:  76%|#######6  | 2289/3000 [2:08:15<34:56,  2.95s/it, lr: 1.0e-04 loss: 7.530e-02]strawbyte_v1:  76%|#######6  | 2289/3000 [2:08:15<34:56,  2.95s/it, lr: 1.0e-04 loss: 7.530e-02]strawbyte_v1:  76%|#######6  | 2289/3000 [2:08:18<34:56,  2.95s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:  76%|#######6  | 2289/3000 [2:08:18<34:56,  2.95s/it, lr: 1.0e-04 loss: 1.477e-01]strawbyte_v1:  76%|#######6  | 2290/3000 [2:08:22<34:53,  2.95s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  76%|#######6  | 2290/3000 [2:08:22<34:53,  2.95s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  76%|#######6  | 2291/3000 [2:08:22<30:51,  2.61s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  76%|#######6  | 2291/3000 [2:08:22<30:51,  2.61s/it, lr: 1.0e-04 loss: 8.590e-02]strawbyte_v1:  76%|#######6  | 2291/3000 [2:08:25<30:51,  2.61s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  76%|#######6  | 2291/3000 [2:08:25<30:51,  2.61s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  76%|#######6  | 2292/3000 [2:08:25<31:54,  2.70s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  76%|#######6  | 2292/3000 [2:08:25<31:54,  2.70s/it, lr: 1.0e-04 loss: 1.349e-01]strawbyte_v1:  76%|#######6  | 2292/3000 [2:08:28<31:54,  2.70s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  76%|#######6  | 2292/3000 [2:08:28<31:54,  2.70s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  76%|#######6  | 2293/3000 [2:08:28<32:48,  2.78s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  76%|#######6  | 2293/3000 [2:08:28<32:48,  2.78s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  76%|#######6  | 2293/3000 [2:08:32<32:48,  2.78s/it, lr: 1.0e-04 loss: 1.903e-02]strawbyte_v1:  76%|#######6  | 2293/3000 [2:08:32<32:48,  2.78s/it, lr: 1.0e-04 loss: 1.903e-02]strawbyte_v1:  76%|#######6  | 2294/3000 [2:08:32<34:35,  2.94s/it, lr: 1.0e-04 loss: 1.903e-02]strawbyte_v1:  76%|#######6  | 2294/3000 [2:08:32<34:35,  2.94s/it, lr: 1.0e-04 loss: 1.903e-02]strawbyte_v1:  76%|#######6  | 2294/3000 [2:08:35<34:35,  2.94s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  76%|#######6  | 2294/3000 [2:08:35<34:35,  2.94s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  76%|#######6  | 2295/3000 [2:08:35<34:40,  2.95s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  76%|#######6  | 2295/3000 [2:08:35<34:40,  2.95s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  76%|#######6  | 2295/3000 [2:08:38<34:40,  2.95s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  76%|#######6  | 2295/3000 [2:08:38<34:40,  2.95s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  77%|#######6  | 2296/3000 [2:08:38<34:57,  2.98s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  77%|#######6  | 2296/3000 [2:08:38<34:57,  2.98s/it, lr: 1.0e-04 loss: 1.317e-01]strawbyte_v1:  77%|#######6  | 2296/3000 [2:08:40<34:57,  2.98s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  77%|#######6  | 2296/3000 [2:08:40<34:57,  2.98s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  77%|#######6  | 2297/3000 [2:08:40<34:01,  2.90s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  77%|#######6  | 2297/3000 [2:08:40<34:01,  2.90s/it, lr: 1.0e-04 loss: 1.522e-01]strawbyte_v1:  77%|#######6  | 2297/3000 [2:08:43<34:01,  2.90s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  77%|#######6  | 2297/3000 [2:08:43<34:01,  2.90s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  77%|#######6  | 2298/3000 [2:08:43<34:30,  2.95s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  77%|#######6  | 2298/3000 [2:08:43<34:30,  2.95s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  77%|#######6  | 2298/3000 [2:08:48<34:30,  2.95s/it, lr: 1.0e-04 loss: 6.496e-02]strawbyte_v1:  77%|#######6  | 2298/3000 [2:08:48<34:30,  2.95s/it, lr: 1.0e-04 loss: 6.496e-02]strawbyte_v1:  77%|#######6  | 2299/3000 [2:08:48<39:28,  3.38s/it, lr: 1.0e-04 loss: 6.496e-02]strawbyte_v1:  77%|#######6  | 2299/3000 [2:08:48<39:28,  3.38s/it, lr: 1.0e-04 loss: 6.496e-02]strawbyte_v1:  77%|#######6  | 2299/3000 [2:08:52<39:28,  3.38s/it, lr: 1.0e-04 loss: 6.443e-02]strawbyte_v1:  77%|#######6  | 2299/3000 [2:08:52<39:28,  3.38s/it, lr: 1.0e-04 loss: 6.443e-02]strawbyte_v1:  77%|#######6  | 2300/3000 [2:08:57<39:25,  3.38s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1:  77%|#######6  | 2300/3000 [2:08:57<39:25,  3.38s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1:  77%|#######6  | 2301/3000 [2:08:57<33:04,  2.84s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1:  77%|#######6  | 2301/3000 [2:08:57<33:04,  2.84s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1:  77%|#######6  | 2301/3000 [2:08:59<33:04,  2.84s/it, lr: 1.0e-04 loss: 1.075e-01]strawbyte_v1:  77%|#######6  | 2301/3000 [2:08:59<33:04,  2.84s/it, lr: 1.0e-04 loss: 1.075e-01]strawbyte_v1:  77%|#######6  | 2302/3000 [2:08:59<33:14,  2.86s/it, lr: 1.0e-04 loss: 1.075e-01]strawbyte_v1:  77%|#######6  | 2302/3000 [2:08:59<33:14,  2.86s/it, lr: 1.0e-04 loss: 1.075e-01]strawbyte_v1:  77%|#######6  | 2302/3000 [2:09:04<33:14,  2.86s/it, lr: 1.0e-04 loss: 5.604e-02]strawbyte_v1:  77%|#######6  | 2302/3000 [2:09:04<33:14,  2.86s/it, lr: 1.0e-04 loss: 5.604e-02]strawbyte_v1:  77%|#######6  | 2303/3000 [2:09:04<37:39,  3.24s/it, lr: 1.0e-04 loss: 5.604e-02]strawbyte_v1:  77%|#######6  | 2303/3000 [2:09:04<37:39,  3.24s/it, lr: 1.0e-04 loss: 5.604e-02]strawbyte_v1:  77%|#######6  | 2303/3000 [2:09:07<37:39,  3.24s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  77%|#######6  | 2303/3000 [2:09:07<37:39,  3.24s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  77%|#######6  | 2304/3000 [2:09:07<36:31,  3.15s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  77%|#######6  | 2304/3000 [2:09:07<36:31,  3.15s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  77%|#######6  | 2304/3000 [2:09:10<36:31,  3.15s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  77%|#######6  | 2304/3000 [2:09:10<36:31,  3.15s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  77%|#######6  | 2305/3000 [2:09:10<36:16,  3.13s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  77%|#######6  | 2305/3000 [2:09:10<36:16,  3.13s/it, lr: 1.0e-04 loss: 1.415e-01]strawbyte_v1:  77%|#######6  | 2305/3000 [2:09:13<36:16,  3.13s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  77%|#######6  | 2305/3000 [2:09:13<36:16,  3.13s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  77%|#######6  | 2306/3000 [2:09:13<35:23,  3.06s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  77%|#######6  | 2306/3000 [2:09:13<35:23,  3.06s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  77%|#######6  | 2306/3000 [2:09:16<35:23,  3.06s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  77%|#######6  | 2306/3000 [2:09:16<35:23,  3.06s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  77%|#######6  | 2307/3000 [2:09:16<34:57,  3.03s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  77%|#######6  | 2307/3000 [2:09:16<34:57,  3.03s/it, lr: 1.0e-04 loss: 1.305e-01]strawbyte_v1:  77%|#######6  | 2307/3000 [2:09:20<34:57,  3.03s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  77%|#######6  | 2307/3000 [2:09:20<34:57,  3.03s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  77%|#######6  | 2308/3000 [2:09:20<39:21,  3.41s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  77%|#######6  | 2308/3000 [2:09:20<39:21,  3.41s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  77%|#######6  | 2308/3000 [2:09:23<39:21,  3.41s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:  77%|#######6  | 2308/3000 [2:09:23<39:21,  3.41s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:  77%|#######6  | 2309/3000 [2:09:23<38:06,  3.31s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:  77%|#######6  | 2309/3000 [2:09:23<38:06,  3.31s/it, lr: 1.0e-04 loss: 1.962e-01]strawbyte_v1:  77%|#######6  | 2309/3000 [2:09:26<38:06,  3.31s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  77%|#######6  | 2309/3000 [2:09:26<38:06,  3.31s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  77%|#######7  | 2310/3000 [2:09:30<38:02,  3.31s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  77%|#######7  | 2310/3000 [2:09:30<38:02,  3.31s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  77%|#######7  | 2311/3000 [2:09:30<32:18,  2.81s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  77%|#######7  | 2311/3000 [2:09:30<32:18,  2.81s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  77%|#######7  | 2311/3000 [2:09:35<32:18,  2.81s/it, lr: 1.0e-04 loss: 8.121e-02]strawbyte_v1:  77%|#######7  | 2311/3000 [2:09:35<32:18,  2.81s/it, lr: 1.0e-04 loss: 8.121e-02]strawbyte_v1:  77%|#######7  | 2312/3000 [2:09:35<37:40,  3.29s/it, lr: 1.0e-04 loss: 8.121e-02]strawbyte_v1:  77%|#######7  | 2312/3000 [2:09:35<37:40,  3.29s/it, lr: 1.0e-04 loss: 8.121e-02]strawbyte_v1:  77%|#######7  | 2312/3000 [2:09:38<37:40,  3.29s/it, lr: 1.0e-04 loss: 6.511e-02]strawbyte_v1:  77%|#######7  | 2312/3000 [2:09:38<37:40,  3.29s/it, lr: 1.0e-04 loss: 6.511e-02]strawbyte_v1:  77%|#######7  | 2313/3000 [2:09:38<36:48,  3.21s/it, lr: 1.0e-04 loss: 6.511e-02]strawbyte_v1:  77%|#######7  | 2313/3000 [2:09:38<36:48,  3.21s/it, lr: 1.0e-04 loss: 6.511e-02]strawbyte_v1:  77%|#######7  | 2313/3000 [2:09:42<36:48,  3.21s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  77%|#######7  | 2313/3000 [2:09:42<36:48,  3.21s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  77%|#######7  | 2314/3000 [2:09:42<40:37,  3.55s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  77%|#######7  | 2314/3000 [2:09:42<40:37,  3.55s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  77%|#######7  | 2314/3000 [2:09:45<40:37,  3.55s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  77%|#######7  | 2314/3000 [2:09:45<40:37,  3.55s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  77%|#######7  | 2315/3000 [2:09:45<37:44,  3.31s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  77%|#######7  | 2315/3000 [2:09:45<37:44,  3.31s/it, lr: 1.0e-04 loss: 1.320e-01]strawbyte_v1:  77%|#######7  | 2315/3000 [2:09:48<37:44,  3.31s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  77%|#######7  | 2315/3000 [2:09:48<37:44,  3.31s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  77%|#######7  | 2316/3000 [2:09:48<36:50,  3.23s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  77%|#######7  | 2316/3000 [2:09:48<36:50,  3.23s/it, lr: 1.0e-04 loss: 1.750e-01]strawbyte_v1:  77%|#######7  | 2316/3000 [2:09:52<36:50,  3.23s/it, lr: 1.0e-04 loss: 3.516e-02]strawbyte_v1:  77%|#######7  | 2316/3000 [2:09:52<36:50,  3.23s/it, lr: 1.0e-04 loss: 3.516e-02]strawbyte_v1:  77%|#######7  | 2317/3000 [2:09:52<40:40,  3.57s/it, lr: 1.0e-04 loss: 3.516e-02]strawbyte_v1:  77%|#######7  | 2317/3000 [2:09:52<40:40,  3.57s/it, lr: 1.0e-04 loss: 3.516e-02]strawbyte_v1:  77%|#######7  | 2317/3000 [2:09:57<40:40,  3.57s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  77%|#######7  | 2317/3000 [2:09:57<40:40,  3.57s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  77%|#######7  | 2318/3000 [2:09:57<43:22,  3.82s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  77%|#######7  | 2318/3000 [2:09:57<43:22,  3.82s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  77%|#######7  | 2318/3000 [2:10:00<43:22,  3.82s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  77%|#######7  | 2318/3000 [2:10:00<43:22,  3.82s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  77%|#######7  | 2319/3000 [2:10:00<41:31,  3.66s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  77%|#######7  | 2319/3000 [2:10:00<41:31,  3.66s/it, lr: 1.0e-04 loss: 1.381e-01]strawbyte_v1:  77%|#######7  | 2319/3000 [2:10:03<41:31,  3.66s/it, lr: 1.0e-04 loss: 1.510e-02]strawbyte_v1:  77%|#######7  | 2319/3000 [2:10:03<41:31,  3.66s/it, lr: 1.0e-04 loss: 1.510e-02]strawbyte_v1:  77%|#######7  | 2320/3000 [2:10:08<41:27,  3.66s/it, lr: 1.0e-04 loss: 7.684e-02]strawbyte_v1:  77%|#######7  | 2320/3000 [2:10:08<41:27,  3.66s/it, lr: 1.0e-04 loss: 7.684e-02]strawbyte_v1:  77%|#######7  | 2321/3000 [2:10:08<33:54,  3.00s/it, lr: 1.0e-04 loss: 7.684e-02]strawbyte_v1:  77%|#######7  | 2321/3000 [2:10:08<33:54,  3.00s/it, lr: 1.0e-04 loss: 7.684e-02]strawbyte_v1:  77%|#######7  | 2321/3000 [2:10:10<33:54,  3.00s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  77%|#######7  | 2321/3000 [2:10:10<33:54,  3.00s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  77%|#######7  | 2322/3000 [2:10:10<33:07,  2.93s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  77%|#######7  | 2322/3000 [2:10:10<33:07,  2.93s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  77%|#######7  | 2322/3000 [2:10:13<33:07,  2.93s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  77%|#######7  | 2322/3000 [2:10:13<33:07,  2.93s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  77%|#######7  | 2323/3000 [2:10:13<31:22,  2.78s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  77%|#######7  | 2323/3000 [2:10:13<31:22,  2.78s/it, lr: 1.0e-04 loss: 1.136e-01]strawbyte_v1:  77%|#######7  | 2323/3000 [2:10:17<31:22,  2.78s/it, lr: 1.0e-04 loss: 9.114e-02]strawbyte_v1:  77%|#######7  | 2323/3000 [2:10:17<31:22,  2.78s/it, lr: 1.0e-04 loss: 9.114e-02]strawbyte_v1:  77%|#######7  | 2324/3000 [2:10:17<36:08,  3.21s/it, lr: 1.0e-04 loss: 9.114e-02]strawbyte_v1:  77%|#######7  | 2324/3000 [2:10:17<36:08,  3.21s/it, lr: 1.0e-04 loss: 9.114e-02]strawbyte_v1:  77%|#######7  | 2324/3000 [2:10:20<36:08,  3.21s/it, lr: 1.0e-04 loss: 1.255e-01]strawbyte_v1:  77%|#######7  | 2324/3000 [2:10:20<36:08,  3.21s/it, lr: 1.0e-04 loss: 1.255e-01]strawbyte_v1:  78%|#######7  | 2325/3000 [2:10:20<35:00,  3.11s/it, lr: 1.0e-04 loss: 1.255e-01]strawbyte_v1:  78%|#######7  | 2325/3000 [2:10:20<35:00,  3.11s/it, lr: 1.0e-04 loss: 1.255e-01]strawbyte_v1:  78%|#######7  | 2325/3000 [2:10:23<35:00,  3.11s/it, lr: 1.0e-04 loss: 5.825e-02]strawbyte_v1:  78%|#######7  | 2325/3000 [2:10:23<35:00,  3.11s/it, lr: 1.0e-04 loss: 5.825e-02]strawbyte_v1:  78%|#######7  | 2326/3000 [2:10:23<34:19,  3.06s/it, lr: 1.0e-04 loss: 5.825e-02]strawbyte_v1:  78%|#######7  | 2326/3000 [2:10:23<34:19,  3.06s/it, lr: 1.0e-04 loss: 5.825e-02]strawbyte_v1:  78%|#######7  | 2326/3000 [2:10:26<34:19,  3.06s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  78%|#######7  | 2326/3000 [2:10:26<34:19,  3.06s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  78%|#######7  | 2327/3000 [2:10:26<34:27,  3.07s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  78%|#######7  | 2327/3000 [2:10:26<34:27,  3.07s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  78%|#######7  | 2327/3000 [2:10:29<34:27,  3.07s/it, lr: 1.0e-04 loss: 9.344e-02]strawbyte_v1:  78%|#######7  | 2327/3000 [2:10:29<34:27,  3.07s/it, lr: 1.0e-04 loss: 9.344e-02]strawbyte_v1:  78%|#######7  | 2328/3000 [2:10:29<33:45,  3.01s/it, lr: 1.0e-04 loss: 9.344e-02]strawbyte_v1:  78%|#######7  | 2328/3000 [2:10:29<33:45,  3.01s/it, lr: 1.0e-04 loss: 9.344e-02]strawbyte_v1:  78%|#######7  | 2328/3000 [2:10:31<33:45,  3.01s/it, lr: 1.0e-04 loss: 1.971e-02]strawbyte_v1:  78%|#######7  | 2328/3000 [2:10:31<33:45,  3.01s/it, lr: 1.0e-04 loss: 1.971e-02]strawbyte_v1:  78%|#######7  | 2329/3000 [2:10:31<30:33,  2.73s/it, lr: 1.0e-04 loss: 1.971e-02]strawbyte_v1:  78%|#######7  | 2329/3000 [2:10:31<30:33,  2.73s/it, lr: 1.0e-04 loss: 1.971e-02]strawbyte_v1:  78%|#######7  | 2329/3000 [2:10:33<30:33,  2.73s/it, lr: 1.0e-04 loss: 1.112e-01]strawbyte_v1:  78%|#######7  | 2329/3000 [2:10:33<30:33,  2.73s/it, lr: 1.0e-04 loss: 1.112e-01]strawbyte_v1:  78%|#######7  | 2330/3000 [2:10:35<30:30,  2.73s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  78%|#######7  | 2330/3000 [2:10:35<30:30,  2.73s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  78%|#######7  | 2331/3000 [2:10:35<21:47,  1.95s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  78%|#######7  | 2331/3000 [2:10:35<21:47,  1.95s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  78%|#######7  | 2331/3000 [2:10:40<21:47,  1.95s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  78%|#######7  | 2331/3000 [2:10:40<21:47,  1.95s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  78%|#######7  | 2332/3000 [2:10:40<28:33,  2.57s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  78%|#######7  | 2332/3000 [2:10:40<28:33,  2.57s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  78%|#######7  | 2332/3000 [2:10:42<28:33,  2.57s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  78%|#######7  | 2332/3000 [2:10:42<28:33,  2.57s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  78%|#######7  | 2333/3000 [2:10:42<28:48,  2.59s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  78%|#######7  | 2333/3000 [2:10:42<28:48,  2.59s/it, lr: 1.0e-04 loss: 1.378e-01]strawbyte_v1:  78%|#######7  | 2333/3000 [2:10:45<28:48,  2.59s/it, lr: 1.0e-04 loss: 1.124e-01]strawbyte_v1:  78%|#######7  | 2333/3000 [2:10:45<28:48,  2.59s/it, lr: 1.0e-04 loss: 1.124e-01]strawbyte_v1:  78%|#######7  | 2334/3000 [2:10:45<30:03,  2.71s/it, lr: 1.0e-04 loss: 1.124e-01]strawbyte_v1:  78%|#######7  | 2334/3000 [2:10:45<30:03,  2.71s/it, lr: 1.0e-04 loss: 1.124e-01]strawbyte_v1:  78%|#######7  | 2334/3000 [2:10:48<30:03,  2.71s/it, lr: 1.0e-04 loss: 1.691e-01]strawbyte_v1:  78%|#######7  | 2334/3000 [2:10:48<30:03,  2.71s/it, lr: 1.0e-04 loss: 1.691e-01]strawbyte_v1:  78%|#######7  | 2335/3000 [2:10:48<29:51,  2.69s/it, lr: 1.0e-04 loss: 1.691e-01]strawbyte_v1:  78%|#######7  | 2335/3000 [2:10:48<29:51,  2.69s/it, lr: 1.0e-04 loss: 1.691e-01]strawbyte_v1:  78%|#######7  | 2335/3000 [2:10:52<29:51,  2.69s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  78%|#######7  | 2335/3000 [2:10:52<29:51,  2.69s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  78%|#######7  | 2336/3000 [2:10:52<34:49,  3.15s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  78%|#######7  | 2336/3000 [2:10:52<34:49,  3.15s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  78%|#######7  | 2336/3000 [2:10:57<34:49,  3.15s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  78%|#######7  | 2336/3000 [2:10:57<34:49,  3.15s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  78%|#######7  | 2337/3000 [2:10:57<39:00,  3.53s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  78%|#######7  | 2337/3000 [2:10:57<39:00,  3.53s/it, lr: 1.0e-04 loss: 1.139e-01]strawbyte_v1:  78%|#######7  | 2337/3000 [2:11:00<39:00,  3.53s/it, lr: 1.0e-04 loss: 3.826e-02]strawbyte_v1:  78%|#######7  | 2337/3000 [2:11:00<39:00,  3.53s/it, lr: 1.0e-04 loss: 3.826e-02]strawbyte_v1:  78%|#######7  | 2338/3000 [2:11:00<37:21,  3.39s/it, lr: 1.0e-04 loss: 3.826e-02]strawbyte_v1:  78%|#######7  | 2338/3000 [2:11:00<37:21,  3.39s/it, lr: 1.0e-04 loss: 3.826e-02]strawbyte_v1:  78%|#######7  | 2338/3000 [2:11:04<37:21,  3.39s/it, lr: 1.0e-04 loss: 4.352e-02]strawbyte_v1:  78%|#######7  | 2338/3000 [2:11:04<37:21,  3.39s/it, lr: 1.0e-04 loss: 4.352e-02]strawbyte_v1:  78%|#######7  | 2339/3000 [2:11:04<40:44,  3.70s/it, lr: 1.0e-04 loss: 4.352e-02]strawbyte_v1:  78%|#######7  | 2339/3000 [2:11:04<40:44,  3.70s/it, lr: 1.0e-04 loss: 4.352e-02]strawbyte_v1:  78%|#######7  | 2339/3000 [2:11:09<40:44,  3.70s/it, lr: 1.0e-04 loss: 1.299e-01]strawbyte_v1:  78%|#######7  | 2339/3000 [2:11:09<40:44,  3.70s/it, lr: 1.0e-04 loss: 1.299e-01]strawbyte_v1:  78%|#######8  | 2340/3000 [2:11:12<40:41,  3.70s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  78%|#######8  | 2340/3000 [2:11:12<40:41,  3.70s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  78%|#######8  | 2341/3000 [2:11:12<29:42,  2.70s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  78%|#######8  | 2341/3000 [2:11:12<29:42,  2.70s/it, lr: 1.0e-04 loss: 1.719e-01]strawbyte_v1:  78%|#######8  | 2341/3000 [2:11:15<29:42,  2.70s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  78%|#######8  | 2341/3000 [2:11:15<29:42,  2.70s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  78%|#######8  | 2342/3000 [2:11:15<30:30,  2.78s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  78%|#######8  | 2342/3000 [2:11:15<30:30,  2.78s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  78%|#######8  | 2342/3000 [2:11:19<30:30,  2.78s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  78%|#######8  | 2342/3000 [2:11:19<30:30,  2.78s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  78%|#######8  | 2343/3000 [2:11:19<35:02,  3.20s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  78%|#######8  | 2343/3000 [2:11:19<35:02,  3.20s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  78%|#######8  | 2343/3000 [2:11:22<35:02,  3.20s/it, lr: 1.0e-04 loss: 9.334e-02]strawbyte_v1:  78%|#######8  | 2343/3000 [2:11:22<35:02,  3.20s/it, lr: 1.0e-04 loss: 9.334e-02]strawbyte_v1:  78%|#######8  | 2344/3000 [2:11:22<34:20,  3.14s/it, lr: 1.0e-04 loss: 9.334e-02]strawbyte_v1:  78%|#######8  | 2344/3000 [2:11:22<34:20,  3.14s/it, lr: 1.0e-04 loss: 9.334e-02]strawbyte_v1:  78%|#######8  | 2344/3000 [2:11:25<34:20,  3.14s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  78%|#######8  | 2344/3000 [2:11:25<34:20,  3.14s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  78%|#######8  | 2345/3000 [2:11:25<34:00,  3.11s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  78%|#######8  | 2345/3000 [2:11:25<34:00,  3.11s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  78%|#######8  | 2345/3000 [2:11:30<34:00,  3.11s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  78%|#######8  | 2345/3000 [2:11:30<34:00,  3.11s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  78%|#######8  | 2346/3000 [2:11:30<37:46,  3.47s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  78%|#######8  | 2346/3000 [2:11:30<37:46,  3.47s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  78%|#######8  | 2346/3000 [2:11:32<37:46,  3.47s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  78%|#######8  | 2346/3000 [2:11:32<37:46,  3.47s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  78%|#######8  | 2347/3000 [2:11:32<33:21,  3.07s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  78%|#######8  | 2347/3000 [2:11:32<33:21,  3.07s/it, lr: 1.0e-04 loss: 1.240e-01]strawbyte_v1:  78%|#######8  | 2347/3000 [2:11:34<33:21,  3.07s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:  78%|#######8  | 2347/3000 [2:11:34<33:21,  3.07s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:  78%|#######8  | 2348/3000 [2:11:34<31:08,  2.87s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:  78%|#######8  | 2348/3000 [2:11:34<31:08,  2.87s/it, lr: 1.0e-04 loss: 1.951e-01]strawbyte_v1:  78%|#######8  | 2348/3000 [2:11:37<31:08,  2.87s/it, lr: 1.0e-04 loss: 6.987e-02]strawbyte_v1:  78%|#######8  | 2348/3000 [2:11:37<31:08,  2.87s/it, lr: 1.0e-04 loss: 6.987e-02]strawbyte_v1:  78%|#######8  | 2349/3000 [2:11:37<31:04,  2.86s/it, lr: 1.0e-04 loss: 6.987e-02]strawbyte_v1:  78%|#######8  | 2349/3000 [2:11:37<31:04,  2.86s/it, lr: 1.0e-04 loss: 6.987e-02]strawbyte_v1:  78%|#######8  | 2349/3000 [2:11:39<31:04,  2.86s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:  78%|#######8  | 2349/3000 [2:11:39<31:04,  2.86s/it, lr: 1.0e-04 loss: 1.743e-01]strawbyte_v1:  78%|#######8  | 2350/3000 [2:11:42<31:01,  2.86s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  78%|#######8  | 2350/3000 [2:11:42<31:01,  2.86s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  78%|#######8  | 2351/3000 [2:11:42<24:03,  2.22s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  78%|#######8  | 2351/3000 [2:11:42<24:03,  2.22s/it, lr: 1.0e-04 loss: 1.273e-01]strawbyte_v1:  78%|#######8  | 2351/3000 [2:11:46<24:03,  2.22s/it, lr: 1.0e-04 loss: 7.963e-02]strawbyte_v1:  78%|#######8  | 2351/3000 [2:11:46<24:03,  2.22s/it, lr: 1.0e-04 loss: 7.963e-02]strawbyte_v1:  78%|#######8  | 2352/3000 [2:11:46<29:48,  2.76s/it, lr: 1.0e-04 loss: 7.963e-02]strawbyte_v1:  78%|#######8  | 2352/3000 [2:11:46<29:48,  2.76s/it, lr: 1.0e-04 loss: 7.963e-02]strawbyte_v1:  78%|#######8  | 2352/3000 [2:11:51<29:48,  2.76s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  78%|#######8  | 2352/3000 [2:11:51<29:48,  2.76s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  78%|#######8  | 2353/3000 [2:11:51<34:12,  3.17s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  78%|#######8  | 2353/3000 [2:11:51<34:12,  3.17s/it, lr: 1.0e-04 loss: 1.449e-01]strawbyte_v1:  78%|#######8  | 2353/3000 [2:11:55<34:12,  3.17s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  78%|#######8  | 2353/3000 [2:11:55<34:12,  3.17s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  78%|#######8  | 2354/3000 [2:11:55<37:25,  3.48s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  78%|#######8  | 2354/3000 [2:11:55<37:25,  3.48s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  78%|#######8  | 2354/3000 [2:11:59<37:25,  3.48s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  78%|#######8  | 2354/3000 [2:11:59<37:25,  3.48s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  78%|#######8  | 2355/3000 [2:11:59<40:38,  3.78s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  78%|#######8  | 2355/3000 [2:11:59<40:38,  3.78s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  78%|#######8  | 2355/3000 [2:12:02<40:38,  3.78s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  78%|#######8  | 2355/3000 [2:12:02<40:38,  3.78s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  79%|#######8  | 2356/3000 [2:12:02<36:51,  3.43s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  79%|#######8  | 2356/3000 [2:12:02<36:51,  3.43s/it, lr: 1.0e-04 loss: 1.507e-01]strawbyte_v1:  79%|#######8  | 2356/3000 [2:12:05<36:51,  3.43s/it, lr: 1.0e-04 loss: 1.761e-01]strawbyte_v1:  79%|#######8  | 2356/3000 [2:12:05<36:51,  3.43s/it, lr: 1.0e-04 loss: 1.761e-01]strawbyte_v1:  79%|#######8  | 2357/3000 [2:12:05<34:26,  3.21s/it, lr: 1.0e-04 loss: 1.761e-01]strawbyte_v1:  79%|#######8  | 2357/3000 [2:12:05<34:26,  3.21s/it, lr: 1.0e-04 loss: 1.761e-01]strawbyte_v1:  79%|#######8  | 2357/3000 [2:12:07<34:26,  3.21s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  79%|#######8  | 2357/3000 [2:12:07<34:26,  3.21s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  79%|#######8  | 2358/3000 [2:12:07<32:41,  3.06s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  79%|#######8  | 2358/3000 [2:12:07<32:41,  3.06s/it, lr: 1.0e-04 loss: 1.460e-01]strawbyte_v1:  79%|#######8  | 2358/3000 [2:12:11<32:41,  3.06s/it, lr: 1.0e-04 loss: 1.463e-01]strawbyte_v1:  79%|#######8  | 2358/3000 [2:12:11<32:41,  3.06s/it, lr: 1.0e-04 loss: 1.463e-01]strawbyte_v1:  79%|#######8  | 2359/3000 [2:12:11<33:21,  3.12s/it, lr: 1.0e-04 loss: 1.463e-01]strawbyte_v1:  79%|#######8  | 2359/3000 [2:12:11<33:21,  3.12s/it, lr: 1.0e-04 loss: 1.463e-01]strawbyte_v1:  79%|#######8  | 2359/3000 [2:12:13<33:21,  3.12s/it, lr: 1.0e-04 loss: 1.770e-01]strawbyte_v1:  79%|#######8  | 2359/3000 [2:12:13<33:21,  3.12s/it, lr: 1.0e-04 loss: 1.770e-01]strawbyte_v1:  79%|#######8  | 2360/3000 [2:12:16<33:18,  3.12s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  79%|#######8  | 2360/3000 [2:12:16<33:18,  3.12s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  79%|#######8  | 2361/3000 [2:12:16<25:26,  2.39s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  79%|#######8  | 2361/3000 [2:12:16<25:26,  2.39s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  79%|#######8  | 2361/3000 [2:12:19<25:26,  2.39s/it, lr: 1.0e-04 loss: 1.763e-01]strawbyte_v1:  79%|#######8  | 2361/3000 [2:12:19<25:26,  2.39s/it, lr: 1.0e-04 loss: 1.763e-01]strawbyte_v1:  79%|#######8  | 2362/3000 [2:12:19<26:09,  2.46s/it, lr: 1.0e-04 loss: 1.763e-01]strawbyte_v1:  79%|#######8  | 2362/3000 [2:12:19<26:09,  2.46s/it, lr: 1.0e-04 loss: 1.763e-01]strawbyte_v1:  79%|#######8  | 2362/3000 [2:12:22<26:09,  2.46s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  79%|#######8  | 2362/3000 [2:12:22<26:09,  2.46s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  79%|#######8  | 2363/3000 [2:12:22<27:35,  2.60s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  79%|#######8  | 2363/3000 [2:12:22<27:35,  2.60s/it, lr: 1.0e-04 loss: 1.961e-01]strawbyte_v1:  79%|#######8  | 2363/3000 [2:12:25<27:35,  2.60s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  79%|#######8  | 2363/3000 [2:12:25<27:35,  2.60s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  79%|#######8  | 2364/3000 [2:12:25<27:39,  2.61s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  79%|#######8  | 2364/3000 [2:12:25<27:39,  2.61s/it, lr: 1.0e-04 loss: 1.701e-01]strawbyte_v1:  79%|#######8  | 2364/3000 [2:12:29<27:39,  2.61s/it, lr: 1.0e-04 loss: 8.160e-02]strawbyte_v1:  79%|#######8  | 2364/3000 [2:12:29<27:39,  2.61s/it, lr: 1.0e-04 loss: 8.160e-02]strawbyte_v1:  79%|#######8  | 2365/3000 [2:12:29<33:05,  3.13s/it, lr: 1.0e-04 loss: 8.160e-02]strawbyte_v1:  79%|#######8  | 2365/3000 [2:12:29<33:05,  3.13s/it, lr: 1.0e-04 loss: 8.160e-02]strawbyte_v1:  79%|#######8  | 2365/3000 [2:12:32<33:05,  3.13s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  79%|#######8  | 2365/3000 [2:12:32<33:05,  3.13s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  79%|#######8  | 2366/3000 [2:12:32<33:36,  3.18s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  79%|#######8  | 2366/3000 [2:12:32<33:36,  3.18s/it, lr: 1.0e-04 loss: 1.312e-01]strawbyte_v1:  79%|#######8  | 2366/3000 [2:12:37<33:36,  3.18s/it, lr: 1.0e-04 loss: 3.707e-02]strawbyte_v1:  79%|#######8  | 2366/3000 [2:12:37<33:36,  3.18s/it, lr: 1.0e-04 loss: 3.707e-02]strawbyte_v1:  79%|#######8  | 2367/3000 [2:12:37<37:26,  3.55s/it, lr: 1.0e-04 loss: 3.707e-02]strawbyte_v1:  79%|#######8  | 2367/3000 [2:12:37<37:26,  3.55s/it, lr: 1.0e-04 loss: 3.707e-02]strawbyte_v1:  79%|#######8  | 2367/3000 [2:12:40<37:26,  3.55s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  79%|#######8  | 2367/3000 [2:12:40<37:26,  3.55s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  79%|#######8  | 2368/3000 [2:12:40<35:52,  3.41s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  79%|#######8  | 2368/3000 [2:12:40<35:52,  3.41s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  79%|#######8  | 2368/3000 [2:12:44<35:52,  3.41s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  79%|#######8  | 2368/3000 [2:12:44<35:52,  3.41s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  79%|#######8  | 2369/3000 [2:12:44<39:00,  3.71s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  79%|#######8  | 2369/3000 [2:12:44<39:00,  3.71s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  79%|#######8  | 2369/3000 [2:12:47<39:00,  3.71s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  79%|#######8  | 2369/3000 [2:12:47<39:00,  3.71s/it, lr: 1.0e-04 loss: 1.107e-01]strawbyte_v1:  79%|#######9  | 2370/3000 [2:12:52<38:56,  3.71s/it, lr: 1.0e-04 loss: 9.748e-02]strawbyte_v1:  79%|#######9  | 2370/3000 [2:12:52<38:56,  3.71s/it, lr: 1.0e-04 loss: 9.748e-02]strawbyte_v1:  79%|#######9  | 2371/3000 [2:12:52<31:32,  3.01s/it, lr: 1.0e-04 loss: 9.748e-02]strawbyte_v1:  79%|#######9  | 2371/3000 [2:12:52<31:32,  3.01s/it, lr: 1.0e-04 loss: 9.748e-02]strawbyte_v1:  79%|#######9  | 2371/3000 [2:12:54<31:32,  3.01s/it, lr: 1.0e-04 loss: 1.288e-01]strawbyte_v1:  79%|#######9  | 2371/3000 [2:12:54<31:32,  3.01s/it, lr: 1.0e-04 loss: 1.288e-01]strawbyte_v1:  79%|#######9  | 2372/3000 [2:12:54<29:05,  2.78s/it, lr: 1.0e-04 loss: 1.288e-01]strawbyte_v1:  79%|#######9  | 2372/3000 [2:12:54<29:05,  2.78s/it, lr: 1.0e-04 loss: 1.288e-01]strawbyte_v1:  79%|#######9  | 2372/3000 [2:12:58<29:05,  2.78s/it, lr: 1.0e-04 loss: 9.637e-02]strawbyte_v1:  79%|#######9  | 2372/3000 [2:12:58<29:05,  2.78s/it, lr: 1.0e-04 loss: 9.637e-02]strawbyte_v1:  79%|#######9  | 2373/3000 [2:12:58<33:17,  3.19s/it, lr: 1.0e-04 loss: 9.637e-02]strawbyte_v1:  79%|#######9  | 2373/3000 [2:12:58<33:17,  3.19s/it, lr: 1.0e-04 loss: 9.637e-02]strawbyte_v1:  79%|#######9  | 2373/3000 [2:13:01<33:17,  3.19s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  79%|#######9  | 2373/3000 [2:13:01<33:17,  3.19s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  79%|#######9  | 2374/3000 [2:13:01<33:11,  3.18s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  79%|#######9  | 2374/3000 [2:13:01<33:11,  3.18s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  79%|#######9  | 2374/3000 [2:13:03<33:11,  3.18s/it, lr: 1.0e-04 loss: 2.130e-01]strawbyte_v1:  79%|#######9  | 2374/3000 [2:13:03<33:11,  3.18s/it, lr: 1.0e-04 loss: 2.130e-01]strawbyte_v1:  79%|#######9  | 2375/3000 [2:13:03<29:53,  2.87s/it, lr: 1.0e-04 loss: 2.130e-01]strawbyte_v1:  79%|#######9  | 2375/3000 [2:13:03<29:53,  2.87s/it, lr: 1.0e-04 loss: 2.130e-01]strawbyte_v1:  79%|#######9  | 2375/3000 [2:13:07<29:53,  2.87s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  79%|#######9  | 2375/3000 [2:13:07<29:53,  2.87s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  79%|#######9  | 2376/3000 [2:13:07<30:02,  2.89s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  79%|#######9  | 2376/3000 [2:13:07<30:02,  2.89s/it, lr: 1.0e-04 loss: 9.800e-02]strawbyte_v1:  79%|#######9  | 2376/3000 [2:13:10<30:02,  2.89s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  79%|#######9  | 2376/3000 [2:13:10<30:02,  2.89s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  79%|#######9  | 2377/3000 [2:13:10<31:10,  3.00s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  79%|#######9  | 2377/3000 [2:13:10<31:10,  3.00s/it, lr: 1.0e-04 loss: 1.309e-01]strawbyte_v1:  79%|#######9  | 2377/3000 [2:13:13<31:10,  3.00s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  79%|#######9  | 2377/3000 [2:13:13<31:10,  3.00s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  79%|#######9  | 2378/3000 [2:13:13<30:54,  2.98s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  79%|#######9  | 2378/3000 [2:13:13<30:54,  2.98s/it, lr: 1.0e-04 loss: 1.328e-01]strawbyte_v1:  79%|#######9  | 2378/3000 [2:13:16<30:54,  2.98s/it, lr: 1.0e-04 loss: 1.744e-01]strawbyte_v1:  79%|#######9  | 2378/3000 [2:13:16<30:54,  2.98s/it, lr: 1.0e-04 loss: 1.744e-01]strawbyte_v1:  79%|#######9  | 2379/3000 [2:13:16<30:33,  2.95s/it, lr: 1.0e-04 loss: 1.744e-01]strawbyte_v1:  79%|#######9  | 2379/3000 [2:13:16<30:33,  2.95s/it, lr: 1.0e-04 loss: 1.744e-01]strawbyte_v1:  79%|#######9  | 2379/3000 [2:13:20<30:33,  2.95s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  79%|#######9  | 2379/3000 [2:13:20<30:33,  2.95s/it, lr: 1.0e-04 loss: 1.244e-01]strawbyte_v1:  79%|#######9  | 2380/3000 [2:13:23<30:31,  2.95s/it, lr: 1.0e-04 loss: 4.644e-02]strawbyte_v1:  79%|#######9  | 2380/3000 [2:13:23<30:31,  2.95s/it, lr: 1.0e-04 loss: 4.644e-02]strawbyte_v1:  79%|#######9  | 2381/3000 [2:13:23<24:21,  2.36s/it, lr: 1.0e-04 loss: 4.644e-02]strawbyte_v1:  79%|#######9  | 2381/3000 [2:13:23<24:21,  2.36s/it, lr: 1.0e-04 loss: 4.644e-02]strawbyte_v1:  79%|#######9  | 2381/3000 [2:13:28<24:21,  2.36s/it, lr: 1.0e-04 loss: 7.472e-02]strawbyte_v1:  79%|#######9  | 2381/3000 [2:13:28<24:21,  2.36s/it, lr: 1.0e-04 loss: 7.472e-02]strawbyte_v1:  79%|#######9  | 2382/3000 [2:13:28<29:30,  2.87s/it, lr: 1.0e-04 loss: 7.472e-02]strawbyte_v1:  79%|#######9  | 2382/3000 [2:13:28<29:30,  2.87s/it, lr: 1.0e-04 loss: 7.472e-02]strawbyte_v1:  79%|#######9  | 2382/3000 [2:13:31<29:30,  2.87s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  79%|#######9  | 2382/3000 [2:13:31<29:30,  2.87s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  79%|#######9  | 2383/3000 [2:13:31<29:48,  2.90s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  79%|#######9  | 2383/3000 [2:13:31<29:48,  2.90s/it, lr: 1.0e-04 loss: 1.052e-01]strawbyte_v1:  79%|#######9  | 2383/3000 [2:13:33<29:48,  2.90s/it, lr: 1.0e-04 loss: 1.839e-02]strawbyte_v1:  79%|#######9  | 2383/3000 [2:13:33<29:48,  2.90s/it, lr: 1.0e-04 loss: 1.839e-02]strawbyte_v1:  79%|#######9  | 2384/3000 [2:13:33<29:11,  2.84s/it, lr: 1.0e-04 loss: 1.839e-02]strawbyte_v1:  79%|#######9  | 2384/3000 [2:13:33<29:11,  2.84s/it, lr: 1.0e-04 loss: 1.839e-02]strawbyte_v1:  79%|#######9  | 2384/3000 [2:13:36<29:11,  2.84s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  79%|#######9  | 2384/3000 [2:13:36<29:11,  2.84s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  80%|#######9  | 2385/3000 [2:13:36<29:39,  2.89s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  80%|#######9  | 2385/3000 [2:13:36<29:39,  2.89s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  80%|#######9  | 2385/3000 [2:13:39<29:39,  2.89s/it, lr: 1.0e-04 loss: 3.770e-02]strawbyte_v1:  80%|#######9  | 2385/3000 [2:13:39<29:39,  2.89s/it, lr: 1.0e-04 loss: 3.770e-02]strawbyte_v1:  80%|#######9  | 2386/3000 [2:13:39<28:57,  2.83s/it, lr: 1.0e-04 loss: 3.770e-02]strawbyte_v1:  80%|#######9  | 2386/3000 [2:13:39<28:57,  2.83s/it, lr: 1.0e-04 loss: 3.770e-02]strawbyte_v1:  80%|#######9  | 2386/3000 [2:13:42<28:57,  2.83s/it, lr: 1.0e-04 loss: 1.728e-01]strawbyte_v1:  80%|#######9  | 2386/3000 [2:13:42<28:57,  2.83s/it, lr: 1.0e-04 loss: 1.728e-01]strawbyte_v1:  80%|#######9  | 2387/3000 [2:13:42<29:25,  2.88s/it, lr: 1.0e-04 loss: 1.728e-01]strawbyte_v1:  80%|#######9  | 2387/3000 [2:13:42<29:25,  2.88s/it, lr: 1.0e-04 loss: 1.728e-01]strawbyte_v1:  80%|#######9  | 2387/3000 [2:13:45<29:25,  2.88s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:  80%|#######9  | 2387/3000 [2:13:45<29:25,  2.88s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:  80%|#######9  | 2388/3000 [2:13:45<29:50,  2.93s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:  80%|#######9  | 2388/3000 [2:13:45<29:50,  2.93s/it, lr: 1.0e-04 loss: 1.873e-01]strawbyte_v1:  80%|#######9  | 2388/3000 [2:13:48<29:50,  2.93s/it, lr: 1.0e-04 loss: 1.572e-01]strawbyte_v1:  80%|#######9  | 2388/3000 [2:13:48<29:50,  2.93s/it, lr: 1.0e-04 loss: 1.572e-01]strawbyte_v1:  80%|#######9  | 2389/3000 [2:13:48<28:59,  2.85s/it, lr: 1.0e-04 loss: 1.572e-01]strawbyte_v1:  80%|#######9  | 2389/3000 [2:13:48<28:59,  2.85s/it, lr: 1.0e-04 loss: 1.572e-01]strawbyte_v1:  80%|#######9  | 2389/3000 [2:13:50<28:59,  2.85s/it, lr: 1.0e-04 loss: 9.226e-02]strawbyte_v1:  80%|#######9  | 2389/3000 [2:13:50<28:59,  2.85s/it, lr: 1.0e-04 loss: 9.226e-02]strawbyte_v1:  80%|#######9  | 2390/3000 [2:13:53<28:56,  2.85s/it, lr: 1.0e-04 loss: 6.393e-02]strawbyte_v1:  80%|#######9  | 2390/3000 [2:13:53<28:56,  2.85s/it, lr: 1.0e-04 loss: 6.393e-02]strawbyte_v1:  80%|#######9  | 2391/3000 [2:13:53<22:34,  2.22s/it, lr: 1.0e-04 loss: 6.393e-02]strawbyte_v1:  80%|#######9  | 2391/3000 [2:13:53<22:34,  2.22s/it, lr: 1.0e-04 loss: 6.393e-02]strawbyte_v1:  80%|#######9  | 2391/3000 [2:13:56<22:34,  2.22s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  80%|#######9  | 2391/3000 [2:13:56<22:34,  2.22s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  80%|#######9  | 2392/3000 [2:13:56<24:34,  2.42s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  80%|#######9  | 2392/3000 [2:13:56<24:34,  2.42s/it, lr: 1.0e-04 loss: 1.125e-01]strawbyte_v1:  80%|#######9  | 2392/3000 [2:13:59<24:34,  2.42s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  80%|#######9  | 2392/3000 [2:13:59<24:34,  2.42s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  80%|#######9  | 2393/3000 [2:13:59<25:08,  2.49s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  80%|#######9  | 2393/3000 [2:13:59<25:08,  2.49s/it, lr: 1.0e-04 loss: 1.359e-01]strawbyte_v1:  80%|#######9  | 2393/3000 [2:14:02<25:08,  2.49s/it, lr: 1.0e-04 loss: 6.466e-02]strawbyte_v1:  80%|#######9  | 2393/3000 [2:14:02<25:08,  2.49s/it, lr: 1.0e-04 loss: 6.466e-02]strawbyte_v1:  80%|#######9  | 2394/3000 [2:14:02<26:23,  2.61s/it, lr: 1.0e-04 loss: 6.466e-02]strawbyte_v1:  80%|#######9  | 2394/3000 [2:14:02<26:23,  2.61s/it, lr: 1.0e-04 loss: 6.466e-02]strawbyte_v1:  80%|#######9  | 2394/3000 [2:14:05<26:23,  2.61s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  80%|#######9  | 2394/3000 [2:14:05<26:23,  2.61s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  80%|#######9  | 2395/3000 [2:14:05<27:33,  2.73s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  80%|#######9  | 2395/3000 [2:14:05<27:33,  2.73s/it, lr: 1.0e-04 loss: 1.330e-01]strawbyte_v1:  80%|#######9  | 2395/3000 [2:14:08<27:33,  2.73s/it, lr: 1.0e-04 loss: 7.202e-02]strawbyte_v1:  80%|#######9  | 2395/3000 [2:14:08<27:33,  2.73s/it, lr: 1.0e-04 loss: 7.202e-02]strawbyte_v1:  80%|#######9  | 2396/3000 [2:14:08<28:16,  2.81s/it, lr: 1.0e-04 loss: 7.202e-02]strawbyte_v1:  80%|#######9  | 2396/3000 [2:14:08<28:16,  2.81s/it, lr: 1.0e-04 loss: 7.202e-02]strawbyte_v1:  80%|#######9  | 2396/3000 [2:14:10<28:16,  2.81s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  80%|#######9  | 2396/3000 [2:14:10<28:16,  2.81s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  80%|#######9  | 2397/3000 [2:14:10<26:42,  2.66s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  80%|#######9  | 2397/3000 [2:14:10<26:42,  2.66s/it, lr: 1.0e-04 loss: 1.614e-01]strawbyte_v1:  80%|#######9  | 2397/3000 [2:14:13<26:42,  2.66s/it, lr: 1.0e-04 loss: 8.606e-02]strawbyte_v1:  80%|#######9  | 2397/3000 [2:14:13<26:42,  2.66s/it, lr: 1.0e-04 loss: 8.606e-02]strawbyte_v1:  80%|#######9  | 2398/3000 [2:14:13<27:15,  2.72s/it, lr: 1.0e-04 loss: 8.606e-02]strawbyte_v1:  80%|#######9  | 2398/3000 [2:14:13<27:15,  2.72s/it, lr: 1.0e-04 loss: 8.606e-02]strawbyte_v1:  80%|#######9  | 2398/3000 [2:14:16<27:15,  2.72s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:  80%|#######9  | 2398/3000 [2:14:16<27:15,  2.72s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:  80%|#######9  | 2399/3000 [2:14:16<28:29,  2.84s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:  80%|#######9  | 2399/3000 [2:14:16<28:29,  2.84s/it, lr: 1.0e-04 loss: 1.142e-01]strawbyte_v1:  80%|#######9  | 2399/3000 [2:14:21<28:29,  2.84s/it, lr: 1.0e-04 loss: 1.308e-01]strawbyte_v1:  80%|#######9  | 2399/3000 [2:14:21<28:29,  2.84s/it, lr: 1.0e-04 loss: 1.308e-01]strawbyte_v1:  80%|########  | 2400/3000 [2:14:23<28:26,  2.84s/it, lr: 1.0e-04 loss: 1.517e-01]strawbyte_v1:  80%|########  | 2400/3000 [2:14:23<28:26,  2.84s/it, lr: 1.0e-04 loss: 1.517e-01]strawbyte_v1:  80%|########  | 2401/3000 [2:14:23<20:05,  2.01s/it, lr: 1.0e-04 loss: 1.517e-01]strawbyte_v1:  80%|########  | 2401/3000 [2:14:23<20:05,  2.01s/it, lr: 1.0e-04 loss: 1.517e-01]strawbyte_v1:  80%|########  | 2401/3000 [2:14:27<20:05,  2.01s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  80%|########  | 2401/3000 [2:14:27<20:05,  2.01s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  80%|########  | 2402/3000 [2:14:27<26:18,  2.64s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  80%|########  | 2402/3000 [2:14:27<26:18,  2.64s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  80%|########  | 2402/3000 [2:14:29<26:18,  2.64s/it, lr: 1.0e-04 loss: 4.270e-02]strawbyte_v1:  80%|########  | 2402/3000 [2:14:29<26:18,  2.64s/it, lr: 1.0e-04 loss: 4.270e-02]strawbyte_v1:  80%|########  | 2403/3000 [2:14:29<24:46,  2.49s/it, lr: 1.0e-04 loss: 4.270e-02]strawbyte_v1:  80%|########  | 2403/3000 [2:14:29<24:46,  2.49s/it, lr: 1.0e-04 loss: 4.270e-02]strawbyte_v1:  80%|########  | 2403/3000 [2:14:32<24:46,  2.49s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  80%|########  | 2403/3000 [2:14:32<24:46,  2.49s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  80%|########  | 2404/3000 [2:14:32<23:37,  2.38s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  80%|########  | 2404/3000 [2:14:32<23:37,  2.38s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  80%|########  | 2404/3000 [2:14:34<23:37,  2.38s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  80%|########  | 2404/3000 [2:14:34<23:37,  2.38s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  80%|########  | 2405/3000 [2:14:34<22:44,  2.29s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  80%|########  | 2405/3000 [2:14:34<22:44,  2.29s/it, lr: 1.0e-04 loss: 1.920e-01]strawbyte_v1:  80%|########  | 2405/3000 [2:14:38<22:44,  2.29s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  80%|########  | 2405/3000 [2:14:38<22:44,  2.29s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  80%|########  | 2406/3000 [2:14:38<29:06,  2.94s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  80%|########  | 2406/3000 [2:14:38<29:06,  2.94s/it, lr: 1.0e-04 loss: 1.130e-01]strawbyte_v1:  80%|########  | 2406/3000 [2:14:40<29:06,  2.94s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  80%|########  | 2406/3000 [2:14:40<29:06,  2.94s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  80%|########  | 2407/3000 [2:14:40<26:37,  2.69s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  80%|########  | 2407/3000 [2:14:40<26:37,  2.69s/it, lr: 1.0e-04 loss: 1.017e-01]strawbyte_v1:  80%|########  | 2407/3000 [2:14:43<26:37,  2.69s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  80%|########  | 2407/3000 [2:14:43<26:37,  2.69s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  80%|########  | 2408/3000 [2:14:43<25:49,  2.62s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  80%|########  | 2408/3000 [2:14:43<25:49,  2.62s/it, lr: 1.0e-04 loss: 1.452e-01]strawbyte_v1:  80%|########  | 2408/3000 [2:14:46<25:49,  2.62s/it, lr: 1.0e-04 loss: 7.316e-02]strawbyte_v1:  80%|########  | 2408/3000 [2:14:46<25:49,  2.62s/it, lr: 1.0e-04 loss: 7.316e-02]strawbyte_v1:  80%|########  | 2409/3000 [2:14:46<26:48,  2.72s/it, lr: 1.0e-04 loss: 7.316e-02]strawbyte_v1:  80%|########  | 2409/3000 [2:14:46<26:48,  2.72s/it, lr: 1.0e-04 loss: 7.316e-02]strawbyte_v1:  80%|########  | 2409/3000 [2:14:49<26:48,  2.72s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  80%|########  | 2409/3000 [2:14:49<26:48,  2.72s/it, lr: 1.0e-04 loss: 1.592e-01]strawbyte_v1:  80%|########  | 2410/3000 [2:14:53<26:45,  2.72s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  80%|########  | 2410/3000 [2:14:53<26:45,  2.72s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  80%|########  | 2411/3000 [2:14:53<24:31,  2.50s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  80%|########  | 2411/3000 [2:14:53<24:31,  2.50s/it, lr: 1.0e-04 loss: 1.133e-01]strawbyte_v1:  80%|########  | 2411/3000 [2:14:56<24:31,  2.50s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  80%|########  | 2411/3000 [2:14:56<24:31,  2.50s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  80%|########  | 2412/3000 [2:14:56<25:38,  2.62s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  80%|########  | 2412/3000 [2:14:56<25:38,  2.62s/it, lr: 1.0e-04 loss: 1.250e-01]strawbyte_v1:  80%|########  | 2412/3000 [2:14:59<25:38,  2.62s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  80%|########  | 2412/3000 [2:14:59<25:38,  2.62s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  80%|########  | 2413/3000 [2:14:59<26:31,  2.71s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  80%|########  | 2413/3000 [2:14:59<26:31,  2.71s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  80%|########  | 2413/3000 [2:15:03<26:31,  2.71s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  80%|########  | 2413/3000 [2:15:03<26:31,  2.71s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  80%|########  | 2414/3000 [2:15:03<28:14,  2.89s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  80%|########  | 2414/3000 [2:15:03<28:14,  2.89s/it, lr: 1.0e-04 loss: 1.776e-01]strawbyte_v1:  80%|########  | 2414/3000 [2:15:05<28:14,  2.89s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  80%|########  | 2414/3000 [2:15:05<28:14,  2.89s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  80%|########  | 2415/3000 [2:15:05<27:45,  2.85s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  80%|########  | 2415/3000 [2:15:05<27:45,  2.85s/it, lr: 1.0e-04 loss: 1.494e-01]strawbyte_v1:  80%|########  | 2415/3000 [2:15:10<27:45,  2.85s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  80%|########  | 2415/3000 [2:15:10<27:45,  2.85s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  81%|########  | 2416/3000 [2:15:10<32:02,  3.29s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  81%|########  | 2416/3000 [2:15:10<32:02,  3.29s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  81%|########  | 2416/3000 [2:15:13<32:02,  3.29s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  81%|########  | 2416/3000 [2:15:13<32:02,  3.29s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  81%|########  | 2417/3000 [2:15:13<31:58,  3.29s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  81%|########  | 2417/3000 [2:15:13<31:58,  3.29s/it, lr: 1.0e-04 loss: 1.231e-01]strawbyte_v1:  81%|########  | 2417/3000 [2:15:17<31:58,  3.29s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  81%|########  | 2417/3000 [2:15:17<31:58,  3.29s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  81%|########  | 2418/3000 [2:15:17<35:11,  3.63s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  81%|########  | 2418/3000 [2:15:17<35:11,  3.63s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  81%|########  | 2418/3000 [2:15:20<35:11,  3.63s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  81%|########  | 2418/3000 [2:15:20<35:11,  3.63s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  81%|########  | 2419/3000 [2:15:20<32:24,  3.35s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  81%|########  | 2419/3000 [2:15:20<32:24,  3.35s/it, lr: 1.0e-04 loss: 9.575e-02]strawbyte_v1:  81%|########  | 2419/3000 [2:15:23<32:24,  3.35s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  81%|########  | 2419/3000 [2:15:23<32:24,  3.35s/it, lr: 1.0e-04 loss: 9.618e-02]strawbyte_v1:  81%|########  | 2420/3000 [2:15:28<32:21,  3.35s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  81%|########  | 2420/3000 [2:15:28<32:21,  3.35s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  81%|########  | 2421/3000 [2:15:28<27:57,  2.90s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  81%|########  | 2421/3000 [2:15:28<27:57,  2.90s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  81%|########  | 2421/3000 [2:15:31<27:57,  2.90s/it, lr: 1.0e-04 loss: 1.731e-01]strawbyte_v1:  81%|########  | 2421/3000 [2:15:31<27:57,  2.90s/it, lr: 1.0e-04 loss: 1.731e-01]strawbyte_v1:  81%|########  | 2422/3000 [2:15:31<27:58,  2.90s/it, lr: 1.0e-04 loss: 1.731e-01]strawbyte_v1:  81%|########  | 2422/3000 [2:15:31<27:58,  2.90s/it, lr: 1.0e-04 loss: 1.731e-01]strawbyte_v1:  81%|########  | 2422/3000 [2:15:34<27:58,  2.90s/it, lr: 1.0e-04 loss: 9.149e-02]strawbyte_v1:  81%|########  | 2422/3000 [2:15:34<27:58,  2.90s/it, lr: 1.0e-04 loss: 9.149e-02]strawbyte_v1:  81%|########  | 2423/3000 [2:15:34<27:56,  2.91s/it, lr: 1.0e-04 loss: 9.149e-02]strawbyte_v1:  81%|########  | 2423/3000 [2:15:34<27:56,  2.91s/it, lr: 1.0e-04 loss: 9.149e-02]strawbyte_v1:  81%|########  | 2423/3000 [2:15:38<27:56,  2.91s/it, lr: 1.0e-04 loss: 3.036e-02]strawbyte_v1:  81%|########  | 2423/3000 [2:15:38<27:56,  2.91s/it, lr: 1.0e-04 loss: 3.036e-02]strawbyte_v1:  81%|########  | 2424/3000 [2:15:38<31:41,  3.30s/it, lr: 1.0e-04 loss: 3.036e-02]strawbyte_v1:  81%|########  | 2424/3000 [2:15:38<31:41,  3.30s/it, lr: 1.0e-04 loss: 3.036e-02]strawbyte_v1:  81%|########  | 2424/3000 [2:15:41<31:41,  3.30s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  81%|########  | 2424/3000 [2:15:41<31:41,  3.30s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  81%|########  | 2425/3000 [2:15:41<31:10,  3.25s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  81%|########  | 2425/3000 [2:15:41<31:10,  3.25s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  81%|########  | 2425/3000 [2:15:45<31:10,  3.25s/it, lr: 1.0e-04 loss: 1.066e-01]strawbyte_v1:  81%|########  | 2425/3000 [2:15:45<31:10,  3.25s/it, lr: 1.0e-04 loss: 1.066e-01]strawbyte_v1:  81%|########  | 2426/3000 [2:15:45<34:01,  3.56s/it, lr: 1.0e-04 loss: 1.066e-01]strawbyte_v1:  81%|########  | 2426/3000 [2:15:45<34:01,  3.56s/it, lr: 1.0e-04 loss: 1.066e-01]strawbyte_v1:  81%|########  | 2426/3000 [2:15:50<34:01,  3.56s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  81%|########  | 2426/3000 [2:15:50<34:01,  3.56s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  81%|########  | 2427/3000 [2:15:50<36:01,  3.77s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  81%|########  | 2427/3000 [2:15:50<36:01,  3.77s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  81%|########  | 2427/3000 [2:15:54<36:01,  3.77s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  81%|########  | 2427/3000 [2:15:54<36:01,  3.77s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  81%|########  | 2428/3000 [2:15:54<37:44,  3.96s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  81%|########  | 2428/3000 [2:15:54<37:44,  3.96s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  81%|########  | 2428/3000 [2:15:56<37:44,  3.96s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  81%|########  | 2428/3000 [2:15:56<37:44,  3.96s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  81%|########  | 2429/3000 [2:15:56<32:23,  3.40s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  81%|########  | 2429/3000 [2:15:56<32:23,  3.40s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  81%|########  | 2429/3000 [2:16:00<32:23,  3.40s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  81%|########  | 2429/3000 [2:16:00<32:23,  3.40s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  81%|########1 | 2430/3000 [2:16:03<32:20,  3.40s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  81%|########1 | 2430/3000 [2:16:03<32:20,  3.40s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  81%|########1 | 2431/3000 [2:16:03<23:57,  2.53s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  81%|########1 | 2431/3000 [2:16:03<23:57,  2.53s/it, lr: 1.0e-04 loss: 1.364e-01]strawbyte_v1:  81%|########1 | 2431/3000 [2:16:07<23:57,  2.53s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  81%|########1 | 2431/3000 [2:16:07<23:57,  2.53s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  81%|########1 | 2432/3000 [2:16:07<25:46,  2.72s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  81%|########1 | 2432/3000 [2:16:07<25:46,  2.72s/it, lr: 1.0e-04 loss: 1.392e-01]strawbyte_v1:  81%|########1 | 2432/3000 [2:16:09<25:46,  2.72s/it, lr: 1.0e-04 loss: 8.122e-02]strawbyte_v1:  81%|########1 | 2432/3000 [2:16:09<25:46,  2.72s/it, lr: 1.0e-04 loss: 8.122e-02]strawbyte_v1:  81%|########1 | 2433/3000 [2:16:09<25:40,  2.72s/it, lr: 1.0e-04 loss: 8.122e-02]strawbyte_v1:  81%|########1 | 2433/3000 [2:16:09<25:40,  2.72s/it, lr: 1.0e-04 loss: 8.122e-02]strawbyte_v1:  81%|########1 | 2433/3000 [2:16:14<25:40,  2.72s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  81%|########1 | 2433/3000 [2:16:14<25:40,  2.72s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  81%|########1 | 2434/3000 [2:16:14<30:04,  3.19s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  81%|########1 | 2434/3000 [2:16:14<30:04,  3.19s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  81%|########1 | 2434/3000 [2:16:17<30:04,  3.19s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  81%|########1 | 2434/3000 [2:16:17<30:04,  3.19s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  81%|########1 | 2435/3000 [2:16:17<28:47,  3.06s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  81%|########1 | 2435/3000 [2:16:17<28:47,  3.06s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  81%|########1 | 2435/3000 [2:16:21<28:47,  3.06s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  81%|########1 | 2435/3000 [2:16:21<28:47,  3.06s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  81%|########1 | 2436/3000 [2:16:21<33:16,  3.54s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  81%|########1 | 2436/3000 [2:16:21<33:16,  3.54s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  81%|########1 | 2436/3000 [2:16:26<33:16,  3.54s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  81%|########1 | 2436/3000 [2:16:26<33:16,  3.54s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  81%|########1 | 2437/3000 [2:16:26<35:34,  3.79s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  81%|########1 | 2437/3000 [2:16:26<35:34,  3.79s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  81%|########1 | 2437/3000 [2:16:29<35:34,  3.79s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  81%|########1 | 2437/3000 [2:16:29<35:34,  3.79s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  81%|########1 | 2438/3000 [2:16:29<33:23,  3.57s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  81%|########1 | 2438/3000 [2:16:29<33:23,  3.57s/it, lr: 1.0e-04 loss: 1.564e-01]strawbyte_v1:  81%|########1 | 2438/3000 [2:16:34<33:23,  3.57s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  81%|########1 | 2438/3000 [2:16:34<33:23,  3.57s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  81%|########1 | 2439/3000 [2:16:34<36:43,  3.93s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  81%|########1 | 2439/3000 [2:16:34<36:43,  3.93s/it, lr: 1.0e-04 loss: 1.271e-01]strawbyte_v1:  81%|########1 | 2439/3000 [2:16:36<36:43,  3.93s/it, lr: 1.0e-04 loss: 9.748e-02]strawbyte_v1:  81%|########1 | 2439/3000 [2:16:36<36:43,  3.93s/it, lr: 1.0e-04 loss: 9.748e-02]strawbyte_v1:  81%|########1 | 2440/3000 [2:16:39<36:39,  3.93s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  81%|########1 | 2440/3000 [2:16:39<36:39,  3.93s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  81%|########1 | 2441/3000 [2:16:39<26:19,  2.82s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  81%|########1 | 2441/3000 [2:16:39<26:19,  2.82s/it, lr: 1.0e-04 loss: 1.275e-01]strawbyte_v1:  81%|########1 | 2441/3000 [2:16:42<26:19,  2.82s/it, lr: 1.0e-04 loss: 1.217e-01]strawbyte_v1:  81%|########1 | 2441/3000 [2:16:42<26:19,  2.82s/it, lr: 1.0e-04 loss: 1.217e-01]strawbyte_v1:  81%|########1 | 2442/3000 [2:16:42<26:46,  2.88s/it, lr: 1.0e-04 loss: 1.217e-01]strawbyte_v1:  81%|########1 | 2442/3000 [2:16:42<26:46,  2.88s/it, lr: 1.0e-04 loss: 1.217e-01]strawbyte_v1:  81%|########1 | 2442/3000 [2:16:47<26:46,  2.88s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  81%|########1 | 2442/3000 [2:16:47<26:46,  2.88s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  81%|########1 | 2443/3000 [2:16:47<31:08,  3.35s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  81%|########1 | 2443/3000 [2:16:47<31:08,  3.35s/it, lr: 1.0e-04 loss: 1.128e-01]strawbyte_v1:  81%|########1 | 2443/3000 [2:16:50<31:08,  3.35s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  81%|########1 | 2443/3000 [2:16:50<31:08,  3.35s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  81%|########1 | 2444/3000 [2:16:50<30:14,  3.26s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  81%|########1 | 2444/3000 [2:16:50<30:14,  3.26s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  81%|########1 | 2444/3000 [2:16:54<30:14,  3.26s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  81%|########1 | 2444/3000 [2:16:54<30:14,  3.26s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  82%|########1 | 2445/3000 [2:16:54<33:03,  3.57s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  82%|########1 | 2445/3000 [2:16:54<33:03,  3.57s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  82%|########1 | 2445/3000 [2:16:57<33:03,  3.57s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  82%|########1 | 2445/3000 [2:16:57<33:03,  3.57s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  82%|########1 | 2446/3000 [2:16:57<31:10,  3.38s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  82%|########1 | 2446/3000 [2:16:57<31:10,  3.38s/it, lr: 1.0e-04 loss: 1.196e-01]strawbyte_v1:  82%|########1 | 2446/3000 [2:17:02<31:10,  3.38s/it, lr: 1.0e-04 loss: 3.099e-02]strawbyte_v1:  82%|########1 | 2446/3000 [2:17:02<31:10,  3.38s/it, lr: 1.0e-04 loss: 3.099e-02]strawbyte_v1:  82%|########1 | 2447/3000 [2:17:02<34:19,  3.72s/it, lr: 1.0e-04 loss: 3.099e-02]strawbyte_v1:  82%|########1 | 2447/3000 [2:17:02<34:19,  3.72s/it, lr: 1.0e-04 loss: 3.099e-02]strawbyte_v1:  82%|########1 | 2447/3000 [2:17:04<34:19,  3.72s/it, lr: 1.0e-04 loss: 3.524e-02]strawbyte_v1:  82%|########1 | 2447/3000 [2:17:04<34:19,  3.72s/it, lr: 1.0e-04 loss: 3.524e-02]strawbyte_v1:  82%|########1 | 2448/3000 [2:17:04<29:54,  3.25s/it, lr: 1.0e-04 loss: 3.524e-02]strawbyte_v1:  82%|########1 | 2448/3000 [2:17:04<29:54,  3.25s/it, lr: 1.0e-04 loss: 3.524e-02]strawbyte_v1:  82%|########1 | 2448/3000 [2:17:07<29:54,  3.25s/it, lr: 1.0e-04 loss: 1.324e-01]strawbyte_v1:  82%|########1 | 2448/3000 [2:17:07<29:54,  3.25s/it, lr: 1.0e-04 loss: 1.324e-01]strawbyte_v1:  82%|########1 | 2449/3000 [2:17:07<28:55,  3.15s/it, lr: 1.0e-04 loss: 1.324e-01]strawbyte_v1:  82%|########1 | 2449/3000 [2:17:07<28:55,  3.15s/it, lr: 1.0e-04 loss: 1.324e-01]strawbyte_v1:  82%|########1 | 2449/3000 [2:17:09<28:55,  3.15s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:  82%|########1 | 2449/3000 [2:17:09<28:55,  3.15s/it, lr: 1.0e-04 loss: 1.639e-01]strawbyte_v1:  82%|########1 | 2450/3000 [2:17:14<28:52,  3.15s/it, lr: 1.0e-04 loss: 8.986e-02]strawbyte_v1:  82%|########1 | 2450/3000 [2:17:14<28:52,  3.15s/it, lr: 1.0e-04 loss: 8.986e-02]strawbyte_v1:  82%|########1 | 2451/3000 [2:17:14<24:47,  2.71s/it, lr: 1.0e-04 loss: 8.986e-02]strawbyte_v1:  82%|########1 | 2451/3000 [2:17:14<24:47,  2.71s/it, lr: 1.0e-04 loss: 8.986e-02]strawbyte_v1:  82%|########1 | 2451/3000 [2:17:18<24:47,  2.71s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  82%|########1 | 2451/3000 [2:17:18<24:47,  2.71s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  82%|########1 | 2452/3000 [2:17:18<28:28,  3.12s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  82%|########1 | 2452/3000 [2:17:18<28:28,  3.12s/it, lr: 1.0e-04 loss: 1.403e-01]strawbyte_v1:  82%|########1 | 2452/3000 [2:17:21<28:28,  3.12s/it, lr: 1.0e-04 loss: 3.207e-02]strawbyte_v1:  82%|########1 | 2452/3000 [2:17:21<28:28,  3.12s/it, lr: 1.0e-04 loss: 3.207e-02]strawbyte_v1:  82%|########1 | 2453/3000 [2:17:21<27:51,  3.06s/it, lr: 1.0e-04 loss: 3.207e-02]strawbyte_v1:  82%|########1 | 2453/3000 [2:17:21<27:51,  3.06s/it, lr: 1.0e-04 loss: 3.207e-02]strawbyte_v1:  82%|########1 | 2453/3000 [2:17:26<27:51,  3.06s/it, lr: 1.0e-04 loss: 2.387e-02]strawbyte_v1:  82%|########1 | 2453/3000 [2:17:26<27:51,  3.06s/it, lr: 1.0e-04 loss: 2.387e-02]strawbyte_v1:  82%|########1 | 2454/3000 [2:17:26<31:40,  3.48s/it, lr: 1.0e-04 loss: 2.387e-02]strawbyte_v1:  82%|########1 | 2454/3000 [2:17:26<31:40,  3.48s/it, lr: 1.0e-04 loss: 2.387e-02]strawbyte_v1:  82%|########1 | 2454/3000 [2:17:30<31:40,  3.48s/it, lr: 1.0e-04 loss: 6.021e-02]strawbyte_v1:  82%|########1 | 2454/3000 [2:17:30<31:40,  3.48s/it, lr: 1.0e-04 loss: 6.021e-02]strawbyte_v1:  82%|########1 | 2455/3000 [2:17:30<34:05,  3.75s/it, lr: 1.0e-04 loss: 6.021e-02]strawbyte_v1:  82%|########1 | 2455/3000 [2:17:30<34:05,  3.75s/it, lr: 1.0e-04 loss: 6.021e-02]strawbyte_v1:  82%|########1 | 2455/3000 [2:17:33<34:05,  3.75s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  82%|########1 | 2455/3000 [2:17:33<34:05,  3.75s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  82%|########1 | 2456/3000 [2:17:33<31:09,  3.44s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  82%|########1 | 2456/3000 [2:17:33<31:09,  3.44s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  82%|########1 | 2456/3000 [2:17:35<31:09,  3.44s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  82%|########1 | 2456/3000 [2:17:35<31:09,  3.44s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  82%|########1 | 2457/3000 [2:17:35<29:03,  3.21s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  82%|########1 | 2457/3000 [2:17:35<29:03,  3.21s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  82%|########1 | 2457/3000 [2:17:40<29:03,  3.21s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:  82%|########1 | 2457/3000 [2:17:40<29:03,  3.21s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:  82%|########1 | 2458/3000 [2:17:40<32:58,  3.65s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:  82%|########1 | 2458/3000 [2:17:40<32:58,  3.65s/it, lr: 1.0e-04 loss: 1.165e-01]strawbyte_v1:  82%|########1 | 2458/3000 [2:17:45<32:58,  3.65s/it, lr: 1.0e-04 loss: 3.105e-03]strawbyte_v1:  82%|########1 | 2458/3000 [2:17:45<32:58,  3.65s/it, lr: 1.0e-04 loss: 3.105e-03]strawbyte_v1:  82%|########1 | 2459/3000 [2:17:45<35:10,  3.90s/it, lr: 1.0e-04 loss: 3.105e-03]strawbyte_v1:  82%|########1 | 2459/3000 [2:17:45<35:10,  3.90s/it, lr: 1.0e-04 loss: 3.105e-03]strawbyte_v1:  82%|########1 | 2459/3000 [2:17:49<35:10,  3.90s/it, lr: 1.0e-04 loss: 8.468e-02]strawbyte_v1:  82%|########1 | 2459/3000 [2:17:49<35:10,  3.90s/it, lr: 1.0e-04 loss: 8.468e-02]strawbyte_v1:  82%|########2 | 2460/3000 [2:17:54<35:06,  3.90s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  82%|########2 | 2460/3000 [2:17:54<35:06,  3.90s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  82%|########2 | 2461/3000 [2:17:54<28:41,  3.19s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  82%|########2 | 2461/3000 [2:17:54<28:41,  3.19s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  82%|########2 | 2461/3000 [2:17:56<28:41,  3.19s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  82%|########2 | 2461/3000 [2:17:56<28:41,  3.19s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  82%|########2 | 2462/3000 [2:17:56<27:29,  3.07s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  82%|########2 | 2462/3000 [2:17:56<27:29,  3.07s/it, lr: 1.0e-04 loss: 1.692e-01]strawbyte_v1:  82%|########2 | 2462/3000 [2:17:59<27:29,  3.07s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  82%|########2 | 2462/3000 [2:17:59<27:29,  3.07s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  82%|########2 | 2463/3000 [2:17:59<26:25,  2.95s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  82%|########2 | 2463/3000 [2:17:59<26:25,  2.95s/it, lr: 1.0e-04 loss: 1.258e-01]strawbyte_v1:  82%|########2 | 2463/3000 [2:18:02<26:25,  2.95s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  82%|########2 | 2463/3000 [2:18:02<26:25,  2.95s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  82%|########2 | 2464/3000 [2:18:02<25:41,  2.88s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  82%|########2 | 2464/3000 [2:18:02<25:41,  2.88s/it, lr: 1.0e-04 loss: 1.433e-01]strawbyte_v1:  82%|########2 | 2464/3000 [2:18:05<25:41,  2.88s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  82%|########2 | 2464/3000 [2:18:05<25:41,  2.88s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  82%|########2 | 2465/3000 [2:18:05<26:45,  3.00s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  82%|########2 | 2465/3000 [2:18:05<26:45,  3.00s/it, lr: 1.0e-04 loss: 1.374e-01]strawbyte_v1:  82%|########2 | 2465/3000 [2:18:09<26:45,  3.00s/it, lr: 1.0e-04 loss: 3.433e-02]strawbyte_v1:  82%|########2 | 2465/3000 [2:18:09<26:45,  3.00s/it, lr: 1.0e-04 loss: 3.433e-02]strawbyte_v1:  82%|########2 | 2466/3000 [2:18:09<30:18,  3.41s/it, lr: 1.0e-04 loss: 3.433e-02]strawbyte_v1:  82%|########2 | 2466/3000 [2:18:09<30:18,  3.41s/it, lr: 1.0e-04 loss: 3.433e-02]strawbyte_v1:  82%|########2 | 2466/3000 [2:18:14<30:18,  3.41s/it, lr: 1.0e-04 loss: 1.019e-01]strawbyte_v1:  82%|########2 | 2466/3000 [2:18:14<30:18,  3.41s/it, lr: 1.0e-04 loss: 1.019e-01]strawbyte_v1:  82%|########2 | 2467/3000 [2:18:14<32:25,  3.65s/it, lr: 1.0e-04 loss: 1.019e-01]strawbyte_v1:  82%|########2 | 2467/3000 [2:18:14<32:25,  3.65s/it, lr: 1.0e-04 loss: 1.019e-01]strawbyte_v1:  82%|########2 | 2467/3000 [2:18:17<32:25,  3.65s/it, lr: 1.0e-04 loss: 1.180e-02]strawbyte_v1:  82%|########2 | 2467/3000 [2:18:17<32:25,  3.65s/it, lr: 1.0e-04 loss: 1.180e-02]strawbyte_v1:  82%|########2 | 2468/3000 [2:18:17<30:21,  3.42s/it, lr: 1.0e-04 loss: 1.180e-02]strawbyte_v1:  82%|########2 | 2468/3000 [2:18:17<30:21,  3.42s/it, lr: 1.0e-04 loss: 1.180e-02]strawbyte_v1:  82%|########2 | 2468/3000 [2:18:21<30:21,  3.42s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  82%|########2 | 2468/3000 [2:18:21<30:21,  3.42s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  82%|########2 | 2469/3000 [2:18:21<33:10,  3.75s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  82%|########2 | 2469/3000 [2:18:21<33:10,  3.75s/it, lr: 1.0e-04 loss: 1.001e-01]strawbyte_v1:  82%|########2 | 2469/3000 [2:18:24<33:10,  3.75s/it, lr: 1.0e-04 loss: 1.011e-01]strawbyte_v1:  82%|########2 | 2469/3000 [2:18:24<33:10,  3.75s/it, lr: 1.0e-04 loss: 1.011e-01]strawbyte_v1:  82%|########2 | 2470/3000 [2:18:26<33:06,  3.75s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  82%|########2 | 2470/3000 [2:18:26<33:06,  3.75s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  82%|########2 | 2471/3000 [2:18:26<22:05,  2.51s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  82%|########2 | 2471/3000 [2:18:26<22:05,  2.51s/it, lr: 1.0e-04 loss: 1.336e-01]strawbyte_v1:  82%|########2 | 2471/3000 [2:18:31<22:05,  2.51s/it, lr: 1.0e-04 loss: 7.876e-03]strawbyte_v1:  82%|########2 | 2471/3000 [2:18:31<22:05,  2.51s/it, lr: 1.0e-04 loss: 7.876e-03]strawbyte_v1:  82%|########2 | 2472/3000 [2:18:31<26:25,  3.00s/it, lr: 1.0e-04 loss: 7.876e-03]strawbyte_v1:  82%|########2 | 2472/3000 [2:18:31<26:25,  3.00s/it, lr: 1.0e-04 loss: 7.876e-03]strawbyte_v1:  82%|########2 | 2472/3000 [2:18:33<26:25,  3.00s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  82%|########2 | 2472/3000 [2:18:33<26:25,  3.00s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  82%|########2 | 2473/3000 [2:18:33<24:13,  2.76s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  82%|########2 | 2473/3000 [2:18:33<24:13,  2.76s/it, lr: 1.0e-04 loss: 1.679e-01]strawbyte_v1:  82%|########2 | 2473/3000 [2:18:35<24:13,  2.76s/it, lr: 1.0e-04 loss: 8.407e-02]strawbyte_v1:  82%|########2 | 2473/3000 [2:18:35<24:13,  2.76s/it, lr: 1.0e-04 loss: 8.407e-02]strawbyte_v1:  82%|########2 | 2474/3000 [2:18:35<22:33,  2.57s/it, lr: 1.0e-04 loss: 8.407e-02]strawbyte_v1:  82%|########2 | 2474/3000 [2:18:35<22:33,  2.57s/it, lr: 1.0e-04 loss: 8.407e-02]strawbyte_v1:  82%|########2 | 2474/3000 [2:18:38<22:33,  2.57s/it, lr: 1.0e-04 loss: 9.587e-02]strawbyte_v1:  82%|########2 | 2474/3000 [2:18:38<22:33,  2.57s/it, lr: 1.0e-04 loss: 9.587e-02]strawbyte_v1:  82%|########2 | 2475/3000 [2:18:38<23:23,  2.67s/it, lr: 1.0e-04 loss: 9.587e-02]strawbyte_v1:  82%|########2 | 2475/3000 [2:18:38<23:23,  2.67s/it, lr: 1.0e-04 loss: 9.587e-02]strawbyte_v1:  82%|########2 | 2475/3000 [2:18:41<23:23,  2.67s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  82%|########2 | 2475/3000 [2:18:41<23:23,  2.67s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  83%|########2 | 2476/3000 [2:18:41<24:44,  2.83s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  83%|########2 | 2476/3000 [2:18:41<24:44,  2.83s/it, lr: 1.0e-04 loss: 1.177e-01]strawbyte_v1:  83%|########2 | 2476/3000 [2:18:44<24:44,  2.83s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  83%|########2 | 2476/3000 [2:18:44<24:44,  2.83s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  83%|########2 | 2477/3000 [2:18:44<24:56,  2.86s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  83%|########2 | 2477/3000 [2:18:44<24:56,  2.86s/it, lr: 1.0e-04 loss: 1.176e-01]strawbyte_v1:  83%|########2 | 2477/3000 [2:18:48<24:56,  2.86s/it, lr: 1.0e-04 loss: 8.378e-02]strawbyte_v1:  83%|########2 | 2477/3000 [2:18:48<24:56,  2.86s/it, lr: 1.0e-04 loss: 8.378e-02]strawbyte_v1:  83%|########2 | 2478/3000 [2:18:48<28:55,  3.32s/it, lr: 1.0e-04 loss: 8.378e-02]strawbyte_v1:  83%|########2 | 2478/3000 [2:18:48<28:55,  3.32s/it, lr: 1.0e-04 loss: 8.378e-02]strawbyte_v1:  83%|########2 | 2478/3000 [2:18:51<28:55,  3.32s/it, lr: 1.0e-04 loss: 9.645e-02]strawbyte_v1:  83%|########2 | 2478/3000 [2:18:51<28:55,  3.32s/it, lr: 1.0e-04 loss: 9.645e-02]strawbyte_v1:  83%|########2 | 2479/3000 [2:18:51<27:58,  3.22s/it, lr: 1.0e-04 loss: 9.645e-02]strawbyte_v1:  83%|########2 | 2479/3000 [2:18:51<27:58,  3.22s/it, lr: 1.0e-04 loss: 9.645e-02]strawbyte_v1:  83%|########2 | 2479/3000 [2:18:55<27:58,  3.22s/it, lr: 1.0e-04 loss: 1.182e-01]strawbyte_v1:  83%|########2 | 2479/3000 [2:18:55<27:58,  3.22s/it, lr: 1.0e-04 loss: 1.182e-01]strawbyte_v1:  83%|########2 | 2480/3000 [2:18:59<27:54,  3.22s/it, lr: 1.0e-04 loss: 1.295e-01]strawbyte_v1:  83%|########2 | 2480/3000 [2:18:59<27:54,  3.22s/it, lr: 1.0e-04 loss: 1.295e-01]strawbyte_v1:  83%|########2 | 2481/3000 [2:18:59<23:51,  2.76s/it, lr: 1.0e-04 loss: 1.295e-01]strawbyte_v1:  83%|########2 | 2481/3000 [2:18:59<23:51,  2.76s/it, lr: 1.0e-04 loss: 1.295e-01]strawbyte_v1:  83%|########2 | 2481/3000 [2:19:02<23:51,  2.76s/it, lr: 1.0e-04 loss: 9.799e-02]strawbyte_v1:  83%|########2 | 2481/3000 [2:19:02<23:51,  2.76s/it, lr: 1.0e-04 loss: 9.799e-02]strawbyte_v1:  83%|########2 | 2482/3000 [2:19:02<24:18,  2.82s/it, lr: 1.0e-04 loss: 9.799e-02]strawbyte_v1:  83%|########2 | 2482/3000 [2:19:02<24:18,  2.82s/it, lr: 1.0e-04 loss: 9.799e-02]strawbyte_v1:  83%|########2 | 2482/3000 [2:19:07<24:18,  2.82s/it, lr: 1.0e-04 loss: 8.219e-02]strawbyte_v1:  83%|########2 | 2482/3000 [2:19:07<24:18,  2.82s/it, lr: 1.0e-04 loss: 8.219e-02]strawbyte_v1:  83%|########2 | 2483/3000 [2:19:07<28:40,  3.33s/it, lr: 1.0e-04 loss: 8.219e-02]strawbyte_v1:  83%|########2 | 2483/3000 [2:19:07<28:40,  3.33s/it, lr: 1.0e-04 loss: 8.219e-02]strawbyte_v1:  83%|########2 | 2483/3000 [2:19:10<28:40,  3.33s/it, lr: 1.0e-04 loss: 8.897e-02]strawbyte_v1:  83%|########2 | 2483/3000 [2:19:10<28:40,  3.33s/it, lr: 1.0e-04 loss: 8.897e-02]strawbyte_v1:  83%|########2 | 2484/3000 [2:19:10<27:12,  3.16s/it, lr: 1.0e-04 loss: 8.897e-02]strawbyte_v1:  83%|########2 | 2484/3000 [2:19:10<27:12,  3.16s/it, lr: 1.0e-04 loss: 8.897e-02]strawbyte_v1:  83%|########2 | 2484/3000 [2:19:13<27:12,  3.16s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  83%|########2 | 2484/3000 [2:19:13<27:12,  3.16s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  83%|########2 | 2485/3000 [2:19:13<26:52,  3.13s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  83%|########2 | 2485/3000 [2:19:13<26:52,  3.13s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  83%|########2 | 2485/3000 [2:19:16<26:52,  3.13s/it, lr: 1.0e-04 loss: 9.225e-02]strawbyte_v1:  83%|########2 | 2485/3000 [2:19:16<26:52,  3.13s/it, lr: 1.0e-04 loss: 9.225e-02]strawbyte_v1:  83%|########2 | 2486/3000 [2:19:16<26:35,  3.10s/it, lr: 1.0e-04 loss: 9.225e-02]strawbyte_v1:  83%|########2 | 2486/3000 [2:19:16<26:35,  3.10s/it, lr: 1.0e-04 loss: 9.225e-02]strawbyte_v1:  83%|########2 | 2486/3000 [2:19:19<26:35,  3.10s/it, lr: 1.0e-04 loss: 4.318e-02]strawbyte_v1:  83%|########2 | 2486/3000 [2:19:19<26:35,  3.10s/it, lr: 1.0e-04 loss: 4.318e-02]strawbyte_v1:  83%|########2 | 2487/3000 [2:19:19<27:05,  3.17s/it, lr: 1.0e-04 loss: 4.318e-02]strawbyte_v1:  83%|########2 | 2487/3000 [2:19:19<27:05,  3.17s/it, lr: 1.0e-04 loss: 4.318e-02]strawbyte_v1:  83%|########2 | 2487/3000 [2:19:22<27:05,  3.17s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  83%|########2 | 2487/3000 [2:19:22<27:05,  3.17s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  83%|########2 | 2488/3000 [2:19:22<26:36,  3.12s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  83%|########2 | 2488/3000 [2:19:22<26:36,  3.12s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  83%|########2 | 2488/3000 [2:19:26<26:36,  3.12s/it, lr: 1.0e-04 loss: 3.592e-02]strawbyte_v1:  83%|########2 | 2488/3000 [2:19:26<26:36,  3.12s/it, lr: 1.0e-04 loss: 3.592e-02]strawbyte_v1:  83%|########2 | 2489/3000 [2:19:26<29:29,  3.46s/it, lr: 1.0e-04 loss: 3.592e-02]strawbyte_v1:  83%|########2 | 2489/3000 [2:19:26<29:29,  3.46s/it, lr: 1.0e-04 loss: 3.592e-02]strawbyte_v1:  83%|########2 | 2489/3000 [2:19:29<29:29,  3.46s/it, lr: 1.0e-04 loss: 1.483e-01]strawbyte_v1:  83%|########2 | 2489/3000 [2:19:29<29:29,  3.46s/it, lr: 1.0e-04 loss: 1.483e-01]strawbyte_v1:  83%|########2 | 2490/3000 [2:19:34<29:25,  3.46s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  83%|########2 | 2490/3000 [2:19:34<29:25,  3.46s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  83%|########3 | 2491/3000 [2:19:34<25:05,  2.96s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  83%|########3 | 2491/3000 [2:19:34<25:05,  2.96s/it, lr: 1.0e-04 loss: 1.044e-01]strawbyte_v1:  83%|########3 | 2491/3000 [2:19:36<25:05,  2.96s/it, lr: 1.0e-04 loss: 7.889e-02]strawbyte_v1:  83%|########3 | 2491/3000 [2:19:36<25:05,  2.96s/it, lr: 1.0e-04 loss: 7.889e-02]strawbyte_v1:  83%|########3 | 2492/3000 [2:19:36<23:14,  2.75s/it, lr: 1.0e-04 loss: 7.889e-02]strawbyte_v1:  83%|########3 | 2492/3000 [2:19:36<23:14,  2.75s/it, lr: 1.0e-04 loss: 7.889e-02]strawbyte_v1:  83%|########3 | 2492/3000 [2:19:41<23:14,  2.75s/it, lr: 1.0e-04 loss: 8.793e-02]strawbyte_v1:  83%|########3 | 2492/3000 [2:19:41<23:14,  2.75s/it, lr: 1.0e-04 loss: 8.793e-02]strawbyte_v1:  83%|########3 | 2493/3000 [2:19:41<26:45,  3.17s/it, lr: 1.0e-04 loss: 8.793e-02]strawbyte_v1:  83%|########3 | 2493/3000 [2:19:41<26:45,  3.17s/it, lr: 1.0e-04 loss: 8.793e-02]strawbyte_v1:  83%|########3 | 2493/3000 [2:19:44<26:45,  3.17s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  83%|########3 | 2493/3000 [2:19:44<26:45,  3.17s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  83%|########3 | 2494/3000 [2:19:44<26:41,  3.17s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  83%|########3 | 2494/3000 [2:19:44<26:41,  3.17s/it, lr: 1.0e-04 loss: 1.480e-01]strawbyte_v1:  83%|########3 | 2494/3000 [2:19:47<26:41,  3.17s/it, lr: 1.0e-04 loss: 5.926e-02]strawbyte_v1:  83%|########3 | 2494/3000 [2:19:47<26:41,  3.17s/it, lr: 1.0e-04 loss: 5.926e-02]strawbyte_v1:  83%|########3 | 2495/3000 [2:19:47<26:03,  3.10s/it, lr: 1.0e-04 loss: 5.926e-02]strawbyte_v1:  83%|########3 | 2495/3000 [2:19:47<26:03,  3.10s/it, lr: 1.0e-04 loss: 5.926e-02]strawbyte_v1:  83%|########3 | 2495/3000 [2:19:51<26:03,  3.10s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  83%|########3 | 2495/3000 [2:19:51<26:03,  3.10s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  83%|########3 | 2496/3000 [2:19:51<29:07,  3.47s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  83%|########3 | 2496/3000 [2:19:51<29:07,  3.47s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  83%|########3 | 2496/3000 [2:19:55<29:07,  3.47s/it, lr: 1.0e-04 loss: 3.695e-02]strawbyte_v1:  83%|########3 | 2496/3000 [2:19:55<29:07,  3.47s/it, lr: 1.0e-04 loss: 3.695e-02]strawbyte_v1:  83%|########3 | 2497/3000 [2:19:55<31:14,  3.73s/it, lr: 1.0e-04 loss: 3.695e-02]strawbyte_v1:  83%|########3 | 2497/3000 [2:19:55<31:14,  3.73s/it, lr: 1.0e-04 loss: 3.695e-02]strawbyte_v1:  83%|########3 | 2497/3000 [2:19:58<31:14,  3.73s/it, lr: 1.0e-04 loss: 1.260e-01]strawbyte_v1:  83%|########3 | 2497/3000 [2:19:58<31:14,  3.73s/it, lr: 1.0e-04 loss: 1.260e-01]strawbyte_v1:  83%|########3 | 2498/3000 [2:19:58<27:55,  3.34s/it, lr: 1.0e-04 loss: 1.260e-01]strawbyte_v1:  83%|########3 | 2498/3000 [2:19:58<27:55,  3.34s/it, lr: 1.0e-04 loss: 1.260e-01]strawbyte_v1:  83%|########3 | 2498/3000 [2:20:00<27:55,  3.34s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  83%|########3 | 2498/3000 [2:20:00<27:55,  3.34s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  83%|########3 | 2499/3000 [2:20:00<24:48,  2.97s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  83%|########3 | 2499/3000 [2:20:00<24:48,  2.97s/it, lr: 1.0e-04 loss: 1.200e-01]strawbyte_v1:  83%|########3 | 2499/3000 [2:20:03<24:48,  2.97s/it, lr: 1.0e-04 loss: 9.537e-02]strawbyte_v1:  83%|########3 | 2499/3000 [2:20:03<24:48,  2.97s/it, lr: 1.0e-04 loss: 9.537e-02]
+Saving at step 2500
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000002500.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+Removing old save: /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001500.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.90s/it]Generating Images:  25%|##5       | 1/4 [01:13<03:41, 73.90s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.05s/it]Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.05s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:41<01:13, 73.90s/it]Generating Images:  75%|#######5  | 3/4 [03:41<01:13, 73.90s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.22s/it]Generating Images: 100%|##########| 4/4 [04:56<00:00, 74.22s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  83%|########3 | 2500/3000 [2:20:06<24:45,  2.97s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  83%|########3 | 2500/3000 [2:20:06<24:45,  2.97s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  83%|########3 | 2501/3000 [2:20:06<19:29,  2.34s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  83%|########3 | 2501/3000 [2:20:06<19:29,  2.34s/it, lr: 1.0e-04 loss: 1.072e-01]strawbyte_v1:  83%|########3 | 2501/3000 [2:20:10<19:29,  2.34s/it, lr: 1.0e-04 loss: 9.865e-02]strawbyte_v1:  83%|########3 | 2501/3000 [2:20:10<19:29,  2.34s/it, lr: 1.0e-04 loss: 9.865e-02]strawbyte_v1:  83%|########3 | 2502/3000 [2:20:10<23:26,  2.82s/it, lr: 1.0e-04 loss: 9.865e-02]strawbyte_v1:  83%|########3 | 2502/3000 [2:20:10<23:26,  2.82s/it, lr: 1.0e-04 loss: 9.865e-02]strawbyte_v1:  83%|########3 | 2502/3000 [2:20:13<23:26,  2.82s/it, lr: 1.0e-04 loss: 1.772e-01]strawbyte_v1:  83%|########3 | 2502/3000 [2:20:13<23:26,  2.82s/it, lr: 1.0e-04 loss: 1.772e-01]strawbyte_v1:  83%|########3 | 2503/3000 [2:20:13<23:34,  2.85s/it, lr: 1.0e-04 loss: 1.772e-01]strawbyte_v1:  83%|########3 | 2503/3000 [2:20:13<23:34,  2.85s/it, lr: 1.0e-04 loss: 1.772e-01]strawbyte_v1:  83%|########3 | 2503/3000 [2:20:16<23:34,  2.85s/it, lr: 1.0e-04 loss: 7.287e-02]strawbyte_v1:  83%|########3 | 2503/3000 [2:20:16<23:34,  2.85s/it, lr: 1.0e-04 loss: 7.287e-02]strawbyte_v1:  83%|########3 | 2504/3000 [2:20:16<23:49,  2.88s/it, lr: 1.0e-04 loss: 7.287e-02]strawbyte_v1:  83%|########3 | 2504/3000 [2:20:16<23:49,  2.88s/it, lr: 1.0e-04 loss: 7.287e-02]strawbyte_v1:  83%|########3 | 2504/3000 [2:20:19<23:49,  2.88s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  83%|########3 | 2504/3000 [2:20:19<23:49,  2.88s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  84%|########3 | 2505/3000 [2:20:19<23:21,  2.83s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  84%|########3 | 2505/3000 [2:20:19<23:21,  2.83s/it, lr: 1.0e-04 loss: 1.666e-01]strawbyte_v1:  84%|########3 | 2505/3000 [2:20:22<23:21,  2.83s/it, lr: 1.0e-04 loss: 6.481e-02]strawbyte_v1:  84%|########3 | 2505/3000 [2:20:22<23:21,  2.83s/it, lr: 1.0e-04 loss: 6.481e-02]strawbyte_v1:  84%|########3 | 2506/3000 [2:20:22<22:58,  2.79s/it, lr: 1.0e-04 loss: 6.481e-02]strawbyte_v1:  84%|########3 | 2506/3000 [2:20:22<22:58,  2.79s/it, lr: 1.0e-04 loss: 6.481e-02]strawbyte_v1:  84%|########3 | 2506/3000 [2:20:24<22:58,  2.79s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  84%|########3 | 2506/3000 [2:20:24<22:58,  2.79s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  84%|########3 | 2507/3000 [2:20:24<22:43,  2.77s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  84%|########3 | 2507/3000 [2:20:24<22:43,  2.77s/it, lr: 1.0e-04 loss: 1.040e-01]strawbyte_v1:  84%|########3 | 2507/3000 [2:20:28<22:43,  2.77s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  84%|########3 | 2507/3000 [2:20:28<22:43,  2.77s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  84%|########3 | 2508/3000 [2:20:28<24:10,  2.95s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  84%|########3 | 2508/3000 [2:20:28<24:10,  2.95s/it, lr: 1.0e-04 loss: 1.093e-01]strawbyte_v1:  84%|########3 | 2508/3000 [2:20:31<24:10,  2.95s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  84%|########3 | 2508/3000 [2:20:31<24:10,  2.95s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  84%|########3 | 2509/3000 [2:20:31<24:16,  2.97s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  84%|########3 | 2509/3000 [2:20:31<24:16,  2.97s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  84%|########3 | 2509/3000 [2:20:33<24:16,  2.97s/it, lr: 1.0e-04 loss: 1.313e-01]strawbyte_v1:  84%|########3 | 2509/3000 [2:20:33<24:16,  2.97s/it, lr: 1.0e-04 loss: 1.313e-01]strawbyte_v1:  84%|########3 | 2510/3000 [2:20:38<24:13,  2.97s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  84%|########3 | 2510/3000 [2:20:38<24:13,  2.97s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  84%|########3 | 2511/3000 [2:20:38<21:37,  2.65s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  84%|########3 | 2511/3000 [2:20:38<21:37,  2.65s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  84%|########3 | 2511/3000 [2:20:42<21:37,  2.65s/it, lr: 1.0e-04 loss: 6.645e-02]strawbyte_v1:  84%|########3 | 2511/3000 [2:20:42<21:37,  2.65s/it, lr: 1.0e-04 loss: 6.645e-02]strawbyte_v1:  84%|########3 | 2512/3000 [2:20:42<25:14,  3.10s/it, lr: 1.0e-04 loss: 6.645e-02]strawbyte_v1:  84%|########3 | 2512/3000 [2:20:42<25:14,  3.10s/it, lr: 1.0e-04 loss: 6.645e-02]strawbyte_v1:  84%|########3 | 2512/3000 [2:20:47<25:14,  3.10s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  84%|########3 | 2512/3000 [2:20:47<25:14,  3.10s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  84%|########3 | 2513/3000 [2:20:47<27:41,  3.41s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  84%|########3 | 2513/3000 [2:20:47<27:41,  3.41s/it, lr: 1.0e-04 loss: 1.030e-01]strawbyte_v1:  84%|########3 | 2513/3000 [2:20:50<27:41,  3.41s/it, lr: 1.0e-04 loss: 1.247e-01]strawbyte_v1:  84%|########3 | 2513/3000 [2:20:50<27:41,  3.41s/it, lr: 1.0e-04 loss: 1.247e-01]strawbyte_v1:  84%|########3 | 2514/3000 [2:20:50<26:41,  3.30s/it, lr: 1.0e-04 loss: 1.247e-01]strawbyte_v1:  84%|########3 | 2514/3000 [2:20:50<26:41,  3.30s/it, lr: 1.0e-04 loss: 1.247e-01]strawbyte_v1:  84%|########3 | 2514/3000 [2:20:53<26:41,  3.30s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  84%|########3 | 2514/3000 [2:20:53<26:41,  3.30s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  84%|########3 | 2515/3000 [2:20:53<26:09,  3.24s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  84%|########3 | 2515/3000 [2:20:53<26:09,  3.24s/it, lr: 1.0e-04 loss: 1.022e-01]strawbyte_v1:  84%|########3 | 2515/3000 [2:20:56<26:09,  3.24s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  84%|########3 | 2515/3000 [2:20:56<26:09,  3.24s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  84%|########3 | 2516/3000 [2:20:56<25:30,  3.16s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  84%|########3 | 2516/3000 [2:20:56<25:30,  3.16s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  84%|########3 | 2516/3000 [2:21:00<25:30,  3.16s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  84%|########3 | 2516/3000 [2:21:00<25:30,  3.16s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  84%|########3 | 2517/3000 [2:21:00<28:21,  3.52s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  84%|########3 | 2517/3000 [2:21:00<28:21,  3.52s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  84%|########3 | 2517/3000 [2:21:05<28:21,  3.52s/it, lr: 1.0e-04 loss: 2.341e-02]strawbyte_v1:  84%|########3 | 2517/3000 [2:21:05<28:21,  3.52s/it, lr: 1.0e-04 loss: 2.341e-02]strawbyte_v1:  84%|########3 | 2518/3000 [2:21:05<30:58,  3.86s/it, lr: 1.0e-04 loss: 2.341e-02]strawbyte_v1:  84%|########3 | 2518/3000 [2:21:05<30:58,  3.86s/it, lr: 1.0e-04 loss: 2.341e-02]strawbyte_v1:  84%|########3 | 2518/3000 [2:21:09<30:58,  3.86s/it, lr: 1.0e-04 loss: 9.130e-02]strawbyte_v1:  84%|########3 | 2518/3000 [2:21:09<30:58,  3.86s/it, lr: 1.0e-04 loss: 9.130e-02]strawbyte_v1:  84%|########3 | 2519/3000 [2:21:09<31:59,  3.99s/it, lr: 1.0e-04 loss: 9.130e-02]strawbyte_v1:  84%|########3 | 2519/3000 [2:21:09<31:59,  3.99s/it, lr: 1.0e-04 loss: 9.130e-02]strawbyte_v1:  84%|########3 | 2519/3000 [2:21:13<31:59,  3.99s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  84%|########3 | 2519/3000 [2:21:13<31:59,  3.99s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  84%|########4 | 2520/3000 [2:21:16<31:55,  3.99s/it, lr: 1.0e-04 loss: 5.228e-02]strawbyte_v1:  84%|########4 | 2520/3000 [2:21:16<31:55,  3.99s/it, lr: 1.0e-04 loss: 5.228e-02]strawbyte_v1:  84%|########4 | 2521/3000 [2:21:16<22:36,  2.83s/it, lr: 1.0e-04 loss: 5.228e-02]strawbyte_v1:  84%|########4 | 2521/3000 [2:21:16<22:36,  2.83s/it, lr: 1.0e-04 loss: 5.228e-02]strawbyte_v1:  84%|########4 | 2521/3000 [2:21:19<22:36,  2.83s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  84%|########4 | 2521/3000 [2:21:19<22:36,  2.83s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  84%|########4 | 2522/3000 [2:21:19<21:51,  2.74s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  84%|########4 | 2522/3000 [2:21:19<21:51,  2.74s/it, lr: 1.0e-04 loss: 1.314e-01]strawbyte_v1:  84%|########4 | 2522/3000 [2:21:23<21:51,  2.74s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  84%|########4 | 2522/3000 [2:21:23<21:51,  2.74s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  84%|########4 | 2523/3000 [2:21:23<25:12,  3.17s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  84%|########4 | 2523/3000 [2:21:23<25:12,  3.17s/it, lr: 1.0e-04 loss: 1.293e-01]strawbyte_v1:  84%|########4 | 2523/3000 [2:21:26<25:12,  3.17s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  84%|########4 | 2523/3000 [2:21:26<25:12,  3.17s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  84%|########4 | 2524/3000 [2:21:26<24:31,  3.09s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  84%|########4 | 2524/3000 [2:21:26<24:31,  3.09s/it, lr: 1.0e-04 loss: 1.519e-01]strawbyte_v1:  84%|########4 | 2524/3000 [2:21:30<24:31,  3.09s/it, lr: 1.0e-04 loss: 8.670e-02]strawbyte_v1:  84%|########4 | 2524/3000 [2:21:30<24:31,  3.09s/it, lr: 1.0e-04 loss: 8.670e-02]strawbyte_v1:  84%|########4 | 2525/3000 [2:21:30<27:15,  3.44s/it, lr: 1.0e-04 loss: 8.670e-02]strawbyte_v1:  84%|########4 | 2525/3000 [2:21:30<27:15,  3.44s/it, lr: 1.0e-04 loss: 8.670e-02]strawbyte_v1:  84%|########4 | 2525/3000 [2:21:33<27:15,  3.44s/it, lr: 1.0e-04 loss: 1.851e-01]strawbyte_v1:  84%|########4 | 2525/3000 [2:21:33<27:15,  3.44s/it, lr: 1.0e-04 loss: 1.851e-01]strawbyte_v1:  84%|########4 | 2526/3000 [2:21:33<24:51,  3.15s/it, lr: 1.0e-04 loss: 1.851e-01]strawbyte_v1:  84%|########4 | 2526/3000 [2:21:33<24:51,  3.15s/it, lr: 1.0e-04 loss: 1.851e-01]strawbyte_v1:  84%|########4 | 2526/3000 [2:21:35<24:51,  3.15s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  84%|########4 | 2526/3000 [2:21:35<24:51,  3.15s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  84%|########4 | 2527/3000 [2:21:35<23:28,  2.98s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  84%|########4 | 2527/3000 [2:21:35<23:28,  2.98s/it, lr: 1.0e-04 loss: 1.573e-01]strawbyte_v1:  84%|########4 | 2527/3000 [2:21:38<23:28,  2.98s/it, lr: 1.0e-04 loss: 9.305e-02]strawbyte_v1:  84%|########4 | 2527/3000 [2:21:38<23:28,  2.98s/it, lr: 1.0e-04 loss: 9.305e-02]strawbyte_v1:  84%|########4 | 2528/3000 [2:21:38<23:36,  3.00s/it, lr: 1.0e-04 loss: 9.305e-02]strawbyte_v1:  84%|########4 | 2528/3000 [2:21:38<23:36,  3.00s/it, lr: 1.0e-04 loss: 9.305e-02]strawbyte_v1:  84%|########4 | 2528/3000 [2:21:42<23:36,  3.00s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  84%|########4 | 2528/3000 [2:21:42<23:36,  3.00s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  84%|########4 | 2529/3000 [2:21:42<23:48,  3.03s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  84%|########4 | 2529/3000 [2:21:42<23:48,  3.03s/it, lr: 1.0e-04 loss: 1.619e-01]strawbyte_v1:  84%|########4 | 2529/3000 [2:21:44<23:48,  3.03s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  84%|########4 | 2529/3000 [2:21:44<23:48,  3.03s/it, lr: 1.0e-04 loss: 1.332e-01]strawbyte_v1:  84%|########4 | 2530/3000 [2:21:49<23:45,  3.03s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  84%|########4 | 2530/3000 [2:21:49<23:45,  3.03s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  84%|########4 | 2531/3000 [2:21:49<20:45,  2.66s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  84%|########4 | 2531/3000 [2:21:49<20:45,  2.66s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  84%|########4 | 2531/3000 [2:21:52<20:45,  2.66s/it, lr: 1.0e-04 loss: 9.224e-02]strawbyte_v1:  84%|########4 | 2531/3000 [2:21:52<20:45,  2.66s/it, lr: 1.0e-04 loss: 9.224e-02]strawbyte_v1:  84%|########4 | 2532/3000 [2:21:52<21:20,  2.74s/it, lr: 1.0e-04 loss: 9.224e-02]strawbyte_v1:  84%|########4 | 2532/3000 [2:21:52<21:20,  2.74s/it, lr: 1.0e-04 loss: 9.224e-02]strawbyte_v1:  84%|########4 | 2532/3000 [2:21:55<21:20,  2.74s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  84%|########4 | 2532/3000 [2:21:55<21:20,  2.74s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  84%|########4 | 2533/3000 [2:21:55<21:57,  2.82s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  84%|########4 | 2533/3000 [2:21:55<21:57,  2.82s/it, lr: 1.0e-04 loss: 1.543e-01]strawbyte_v1:  84%|########4 | 2533/3000 [2:21:57<21:57,  2.82s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  84%|########4 | 2533/3000 [2:21:57<21:57,  2.82s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  84%|########4 | 2534/3000 [2:21:57<21:39,  2.79s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  84%|########4 | 2534/3000 [2:21:57<21:39,  2.79s/it, lr: 1.0e-04 loss: 1.760e-01]strawbyte_v1:  84%|########4 | 2534/3000 [2:22:00<21:39,  2.79s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  84%|########4 | 2534/3000 [2:22:00<21:39,  2.79s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  84%|########4 | 2535/3000 [2:22:00<21:21,  2.76s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  84%|########4 | 2535/3000 [2:22:00<21:21,  2.76s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  84%|########4 | 2535/3000 [2:22:03<21:21,  2.76s/it, lr: 1.0e-04 loss: 1.218e-01]strawbyte_v1:  84%|########4 | 2535/3000 [2:22:03<21:21,  2.76s/it, lr: 1.0e-04 loss: 1.218e-01]strawbyte_v1:  85%|########4 | 2536/3000 [2:22:03<21:12,  2.74s/it, lr: 1.0e-04 loss: 1.218e-01]strawbyte_v1:  85%|########4 | 2536/3000 [2:22:03<21:12,  2.74s/it, lr: 1.0e-04 loss: 1.218e-01]strawbyte_v1:  85%|########4 | 2536/3000 [2:22:06<21:12,  2.74s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  85%|########4 | 2536/3000 [2:22:06<21:12,  2.74s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  85%|########4 | 2537/3000 [2:22:06<21:55,  2.84s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  85%|########4 | 2537/3000 [2:22:06<21:55,  2.84s/it, lr: 1.0e-04 loss: 1.157e-01]strawbyte_v1:  85%|########4 | 2537/3000 [2:22:09<21:55,  2.84s/it, lr: 1.0e-04 loss: 6.962e-02]strawbyte_v1:  85%|########4 | 2537/3000 [2:22:09<21:55,  2.84s/it, lr: 1.0e-04 loss: 6.962e-02]strawbyte_v1:  85%|########4 | 2538/3000 [2:22:09<21:39,  2.81s/it, lr: 1.0e-04 loss: 6.962e-02]strawbyte_v1:  85%|########4 | 2538/3000 [2:22:09<21:39,  2.81s/it, lr: 1.0e-04 loss: 6.962e-02]strawbyte_v1:  85%|########4 | 2538/3000 [2:22:13<21:39,  2.81s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  85%|########4 | 2538/3000 [2:22:13<21:39,  2.81s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  85%|########4 | 2539/3000 [2:22:13<25:20,  3.30s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  85%|########4 | 2539/3000 [2:22:13<25:20,  3.30s/it, lr: 1.0e-04 loss: 1.029e-01]strawbyte_v1:  85%|########4 | 2539/3000 [2:22:16<25:20,  3.30s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  85%|########4 | 2539/3000 [2:22:16<25:20,  3.30s/it, lr: 1.0e-04 loss: 1.167e-01]strawbyte_v1:  85%|########4 | 2540/3000 [2:22:19<25:17,  3.30s/it, lr: 1.0e-04 loss: 2.045e-01]strawbyte_v1:  85%|########4 | 2540/3000 [2:22:19<25:17,  3.30s/it, lr: 1.0e-04 loss: 2.045e-01]strawbyte_v1:  85%|########4 | 2541/3000 [2:22:19<18:22,  2.40s/it, lr: 1.0e-04 loss: 2.045e-01]strawbyte_v1:  85%|########4 | 2541/3000 [2:22:19<18:22,  2.40s/it, lr: 1.0e-04 loss: 2.045e-01]strawbyte_v1:  85%|########4 | 2541/3000 [2:22:23<18:22,  2.40s/it, lr: 1.0e-04 loss: 1.087e-01]strawbyte_v1:  85%|########4 | 2541/3000 [2:22:23<18:22,  2.40s/it, lr: 1.0e-04 loss: 1.087e-01]strawbyte_v1:  85%|########4 | 2542/3000 [2:22:23<21:59,  2.88s/it, lr: 1.0e-04 loss: 1.087e-01]strawbyte_v1:  85%|########4 | 2542/3000 [2:22:23<21:59,  2.88s/it, lr: 1.0e-04 loss: 1.087e-01]strawbyte_v1:  85%|########4 | 2542/3000 [2:22:26<21:59,  2.88s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  85%|########4 | 2542/3000 [2:22:26<21:59,  2.88s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  85%|########4 | 2543/3000 [2:22:26<21:59,  2.89s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  85%|########4 | 2543/3000 [2:22:26<21:59,  2.89s/it, lr: 1.0e-04 loss: 1.442e-01]strawbyte_v1:  85%|########4 | 2543/3000 [2:22:31<21:59,  2.89s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  85%|########4 | 2543/3000 [2:22:31<21:59,  2.89s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  85%|########4 | 2544/3000 [2:22:31<25:18,  3.33s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  85%|########4 | 2544/3000 [2:22:31<25:18,  3.33s/it, lr: 1.0e-04 loss: 1.206e-01]strawbyte_v1:  85%|########4 | 2544/3000 [2:22:33<25:18,  3.33s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  85%|########4 | 2544/3000 [2:22:33<25:18,  3.33s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  85%|########4 | 2545/3000 [2:22:33<22:39,  2.99s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  85%|########4 | 2545/3000 [2:22:33<22:39,  2.99s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  85%|########4 | 2545/3000 [2:22:35<22:39,  2.99s/it, lr: 1.0e-04 loss: 6.242e-02]strawbyte_v1:  85%|########4 | 2545/3000 [2:22:35<22:39,  2.99s/it, lr: 1.0e-04 loss: 6.242e-02]strawbyte_v1:  85%|########4 | 2546/3000 [2:22:35<20:40,  2.73s/it, lr: 1.0e-04 loss: 6.242e-02]strawbyte_v1:  85%|########4 | 2546/3000 [2:22:35<20:40,  2.73s/it, lr: 1.0e-04 loss: 6.242e-02]strawbyte_v1:  85%|########4 | 2546/3000 [2:22:39<20:40,  2.73s/it, lr: 1.0e-04 loss: 1.584e-01]strawbyte_v1:  85%|########4 | 2546/3000 [2:22:39<20:40,  2.73s/it, lr: 1.0e-04 loss: 1.584e-01]strawbyte_v1:  85%|########4 | 2547/3000 [2:22:39<24:09,  3.20s/it, lr: 1.0e-04 loss: 1.584e-01]strawbyte_v1:  85%|########4 | 2547/3000 [2:22:39<24:09,  3.20s/it, lr: 1.0e-04 loss: 1.584e-01]strawbyte_v1:  85%|########4 | 2547/3000 [2:22:42<24:09,  3.20s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  85%|########4 | 2547/3000 [2:22:42<24:09,  3.20s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  85%|########4 | 2548/3000 [2:22:42<22:20,  2.96s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  85%|########4 | 2548/3000 [2:22:42<22:20,  2.96s/it, lr: 1.0e-04 loss: 1.629e-01]strawbyte_v1:  85%|########4 | 2548/3000 [2:22:45<22:20,  2.96s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  85%|########4 | 2548/3000 [2:22:45<22:20,  2.96s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  85%|########4 | 2549/3000 [2:22:45<22:01,  2.93s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  85%|########4 | 2549/3000 [2:22:45<22:01,  2.93s/it, lr: 1.0e-04 loss: 1.707e-01]strawbyte_v1:  85%|########4 | 2549/3000 [2:22:49<22:01,  2.93s/it, lr: 1.0e-04 loss: 9.315e-02]strawbyte_v1:  85%|########4 | 2549/3000 [2:22:49<22:01,  2.93s/it, lr: 1.0e-04 loss: 9.315e-02]strawbyte_v1:  85%|########5 | 2550/3000 [2:22:52<21:58,  2.93s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  85%|########5 | 2550/3000 [2:22:52<21:58,  2.93s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  85%|########5 | 2551/3000 [2:22:52<17:19,  2.32s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  85%|########5 | 2551/3000 [2:22:52<17:19,  2.32s/it, lr: 1.0e-04 loss: 1.368e-01]strawbyte_v1:  85%|########5 | 2551/3000 [2:22:56<17:19,  2.32s/it, lr: 1.0e-04 loss: 6.561e-02]strawbyte_v1:  85%|########5 | 2551/3000 [2:22:56<17:19,  2.32s/it, lr: 1.0e-04 loss: 6.561e-02]strawbyte_v1:  85%|########5 | 2552/3000 [2:22:56<21:06,  2.83s/it, lr: 1.0e-04 loss: 6.561e-02]strawbyte_v1:  85%|########5 | 2552/3000 [2:22:56<21:06,  2.83s/it, lr: 1.0e-04 loss: 6.561e-02]strawbyte_v1:  85%|########5 | 2552/3000 [2:22:59<21:06,  2.83s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  85%|########5 | 2552/3000 [2:22:59<21:06,  2.83s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  85%|########5 | 2553/3000 [2:22:59<20:48,  2.79s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  85%|########5 | 2553/3000 [2:22:59<20:48,  2.79s/it, lr: 1.0e-04 loss: 2.359e-01]strawbyte_v1:  85%|########5 | 2553/3000 [2:23:02<20:48,  2.79s/it, lr: 1.0e-04 loss: 5.329e-02]strawbyte_v1:  85%|########5 | 2553/3000 [2:23:02<20:48,  2.79s/it, lr: 1.0e-04 loss: 5.329e-02]strawbyte_v1:  85%|########5 | 2554/3000 [2:23:02<20:34,  2.77s/it, lr: 1.0e-04 loss: 5.329e-02]strawbyte_v1:  85%|########5 | 2554/3000 [2:23:02<20:34,  2.77s/it, lr: 1.0e-04 loss: 5.329e-02]strawbyte_v1:  85%|########5 | 2554/3000 [2:23:05<20:34,  2.77s/it, lr: 1.0e-04 loss: 3.252e-02]strawbyte_v1:  85%|########5 | 2554/3000 [2:23:05<20:34,  2.77s/it, lr: 1.0e-04 loss: 3.252e-02]strawbyte_v1:  85%|########5 | 2555/3000 [2:23:05<21:11,  2.86s/it, lr: 1.0e-04 loss: 3.252e-02]strawbyte_v1:  85%|########5 | 2555/3000 [2:23:05<21:11,  2.86s/it, lr: 1.0e-04 loss: 3.252e-02]strawbyte_v1:  85%|########5 | 2555/3000 [2:23:09<21:11,  2.86s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  85%|########5 | 2555/3000 [2:23:09<21:11,  2.86s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  85%|########5 | 2556/3000 [2:23:09<24:25,  3.30s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  85%|########5 | 2556/3000 [2:23:09<24:25,  3.30s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  85%|########5 | 2556/3000 [2:23:12<24:25,  3.30s/it, lr: 1.0e-04 loss: 7.971e-02]strawbyte_v1:  85%|########5 | 2556/3000 [2:23:12<24:25,  3.30s/it, lr: 1.0e-04 loss: 7.971e-02]strawbyte_v1:  85%|########5 | 2557/3000 [2:23:12<23:48,  3.23s/it, lr: 1.0e-04 loss: 7.971e-02]strawbyte_v1:  85%|########5 | 2557/3000 [2:23:12<23:48,  3.23s/it, lr: 1.0e-04 loss: 7.971e-02]strawbyte_v1:  85%|########5 | 2557/3000 [2:23:15<23:48,  3.23s/it, lr: 1.0e-04 loss: 3.096e-02]strawbyte_v1:  85%|########5 | 2557/3000 [2:23:15<23:48,  3.23s/it, lr: 1.0e-04 loss: 3.096e-02]strawbyte_v1:  85%|########5 | 2558/3000 [2:23:15<22:34,  3.06s/it, lr: 1.0e-04 loss: 3.096e-02]strawbyte_v1:  85%|########5 | 2558/3000 [2:23:15<22:34,  3.06s/it, lr: 1.0e-04 loss: 3.096e-02]strawbyte_v1:  85%|########5 | 2558/3000 [2:23:18<22:34,  3.06s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  85%|########5 | 2558/3000 [2:23:18<22:34,  3.06s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  85%|########5 | 2559/3000 [2:23:18<22:31,  3.06s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  85%|########5 | 2559/3000 [2:23:18<22:31,  3.06s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  85%|########5 | 2559/3000 [2:23:21<22:31,  3.06s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  85%|########5 | 2559/3000 [2:23:21<22:31,  3.06s/it, lr: 1.0e-04 loss: 1.553e-01]strawbyte_v1:  85%|########5 | 2560/3000 [2:23:24<22:28,  3.06s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  85%|########5 | 2560/3000 [2:23:24<22:28,  3.06s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  85%|########5 | 2561/3000 [2:23:24<16:39,  2.28s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  85%|########5 | 2561/3000 [2:23:24<16:39,  2.28s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  85%|########5 | 2561/3000 [2:23:29<16:39,  2.28s/it, lr: 1.0e-04 loss: 9.188e-02]strawbyte_v1:  85%|########5 | 2561/3000 [2:23:29<16:39,  2.28s/it, lr: 1.0e-04 loss: 9.188e-02]strawbyte_v1:  85%|########5 | 2562/3000 [2:23:29<20:59,  2.88s/it, lr: 1.0e-04 loss: 9.188e-02]strawbyte_v1:  85%|########5 | 2562/3000 [2:23:29<20:59,  2.88s/it, lr: 1.0e-04 loss: 9.188e-02]strawbyte_v1:  85%|########5 | 2562/3000 [2:23:32<20:59,  2.88s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  85%|########5 | 2562/3000 [2:23:32<20:59,  2.88s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  85%|########5 | 2563/3000 [2:23:32<21:15,  2.92s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  85%|########5 | 2563/3000 [2:23:32<21:15,  2.92s/it, lr: 1.0e-04 loss: 1.257e-01]strawbyte_v1:  85%|########5 | 2563/3000 [2:23:35<21:15,  2.92s/it, lr: 1.0e-04 loss: 7.532e-02]strawbyte_v1:  85%|########5 | 2563/3000 [2:23:35<21:15,  2.92s/it, lr: 1.0e-04 loss: 7.532e-02]strawbyte_v1:  85%|########5 | 2564/3000 [2:23:35<21:26,  2.95s/it, lr: 1.0e-04 loss: 7.532e-02]strawbyte_v1:  85%|########5 | 2564/3000 [2:23:35<21:26,  2.95s/it, lr: 1.0e-04 loss: 7.532e-02]strawbyte_v1:  85%|########5 | 2564/3000 [2:23:39<21:26,  2.95s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  85%|########5 | 2564/3000 [2:23:39<21:26,  2.95s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  86%|########5 | 2565/3000 [2:23:39<24:21,  3.36s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  86%|########5 | 2565/3000 [2:23:39<24:21,  3.36s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  86%|########5 | 2565/3000 [2:23:44<24:21,  3.36s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  86%|########5 | 2565/3000 [2:23:44<24:21,  3.36s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  86%|########5 | 2566/3000 [2:23:44<26:57,  3.73s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  86%|########5 | 2566/3000 [2:23:44<26:57,  3.73s/it, lr: 1.0e-04 loss: 1.020e-01]strawbyte_v1:  86%|########5 | 2566/3000 [2:23:48<26:57,  3.73s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  86%|########5 | 2566/3000 [2:23:48<26:57,  3.73s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  86%|########5 | 2567/3000 [2:23:48<28:12,  3.91s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  86%|########5 | 2567/3000 [2:23:48<28:12,  3.91s/it, lr: 1.0e-04 loss: 1.198e-01]strawbyte_v1:  86%|########5 | 2567/3000 [2:23:51<28:12,  3.91s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  86%|########5 | 2567/3000 [2:23:51<28:12,  3.91s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  86%|########5 | 2568/3000 [2:23:51<25:56,  3.60s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  86%|########5 | 2568/3000 [2:23:51<25:56,  3.60s/it, lr: 1.0e-04 loss: 1.224e-01]strawbyte_v1:  86%|########5 | 2568/3000 [2:23:53<25:56,  3.60s/it, lr: 1.0e-04 loss: 2.026e-02]strawbyte_v1:  86%|########5 | 2568/3000 [2:23:53<25:56,  3.60s/it, lr: 1.0e-04 loss: 2.026e-02]strawbyte_v1:  86%|########5 | 2569/3000 [2:23:53<22:40,  3.16s/it, lr: 1.0e-04 loss: 2.026e-02]strawbyte_v1:  86%|########5 | 2569/3000 [2:23:53<22:40,  3.16s/it, lr: 1.0e-04 loss: 2.026e-02]strawbyte_v1:  86%|########5 | 2569/3000 [2:23:58<22:40,  3.16s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:  86%|########5 | 2569/3000 [2:23:58<22:40,  3.16s/it, lr: 1.0e-04 loss: 1.054e-01]strawbyte_v1:  86%|########5 | 2570/3000 [2:24:00<22:37,  3.16s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  86%|########5 | 2570/3000 [2:24:00<22:37,  3.16s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  86%|########5 | 2571/3000 [2:24:00<15:40,  2.19s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  86%|########5 | 2571/3000 [2:24:00<15:40,  2.19s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  86%|########5 | 2571/3000 [2:24:04<15:40,  2.19s/it, lr: 1.0e-04 loss: 8.600e-02]strawbyte_v1:  86%|########5 | 2571/3000 [2:24:04<15:40,  2.19s/it, lr: 1.0e-04 loss: 8.600e-02]strawbyte_v1:  86%|########5 | 2572/3000 [2:24:04<19:22,  2.72s/it, lr: 1.0e-04 loss: 8.600e-02]strawbyte_v1:  86%|########5 | 2572/3000 [2:24:04<19:22,  2.72s/it, lr: 1.0e-04 loss: 8.600e-02]strawbyte_v1:  86%|########5 | 2572/3000 [2:24:08<19:22,  2.72s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  86%|########5 | 2572/3000 [2:24:08<19:22,  2.72s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  86%|########5 | 2573/3000 [2:24:08<22:38,  3.18s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  86%|########5 | 2573/3000 [2:24:08<22:38,  3.18s/it, lr: 1.0e-04 loss: 1.366e-01]strawbyte_v1:  86%|########5 | 2573/3000 [2:24:13<22:38,  3.18s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  86%|########5 | 2573/3000 [2:24:13<22:38,  3.18s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  86%|########5 | 2574/3000 [2:24:13<24:54,  3.51s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  86%|########5 | 2574/3000 [2:24:13<24:54,  3.51s/it, lr: 1.0e-04 loss: 1.424e-01]strawbyte_v1:  86%|########5 | 2574/3000 [2:24:16<24:54,  3.51s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  86%|########5 | 2574/3000 [2:24:16<24:54,  3.51s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  86%|########5 | 2575/3000 [2:24:16<23:47,  3.36s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  86%|########5 | 2575/3000 [2:24:16<23:47,  3.36s/it, lr: 1.0e-04 loss: 1.013e-01]strawbyte_v1:  86%|########5 | 2575/3000 [2:24:19<23:47,  3.36s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  86%|########5 | 2575/3000 [2:24:19<23:47,  3.36s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  86%|########5 | 2576/3000 [2:24:19<22:59,  3.25s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  86%|########5 | 2576/3000 [2:24:19<22:59,  3.25s/it, lr: 1.0e-04 loss: 1.043e-01]strawbyte_v1:  86%|########5 | 2576/3000 [2:24:23<22:59,  3.25s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  86%|########5 | 2576/3000 [2:24:23<22:59,  3.25s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  86%|########5 | 2577/3000 [2:24:23<23:24,  3.32s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  86%|########5 | 2577/3000 [2:24:23<23:24,  3.32s/it, lr: 1.0e-04 loss: 1.150e-01]strawbyte_v1:  86%|########5 | 2577/3000 [2:24:26<23:24,  3.32s/it, lr: 1.0e-04 loss: 1.210e-01]strawbyte_v1:  86%|########5 | 2577/3000 [2:24:26<23:24,  3.32s/it, lr: 1.0e-04 loss: 1.210e-01]strawbyte_v1:  86%|########5 | 2578/3000 [2:24:26<22:43,  3.23s/it, lr: 1.0e-04 loss: 1.210e-01]strawbyte_v1:  86%|########5 | 2578/3000 [2:24:26<22:43,  3.23s/it, lr: 1.0e-04 loss: 1.210e-01]strawbyte_v1:  86%|########5 | 2578/3000 [2:24:28<22:43,  3.23s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  86%|########5 | 2578/3000 [2:24:28<22:43,  3.23s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  86%|########5 | 2579/3000 [2:24:28<21:34,  3.07s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  86%|########5 | 2579/3000 [2:24:28<21:34,  3.07s/it, lr: 1.0e-04 loss: 1.752e-01]strawbyte_v1:  86%|########5 | 2579/3000 [2:24:33<21:34,  3.07s/it, lr: 1.0e-04 loss: 5.648e-02]strawbyte_v1:  86%|########5 | 2579/3000 [2:24:33<21:34,  3.07s/it, lr: 1.0e-04 loss: 5.648e-02]strawbyte_v1:  86%|########6 | 2580/3000 [2:24:36<21:31,  3.07s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  86%|########6 | 2580/3000 [2:24:36<21:31,  3.07s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  86%|########6 | 2581/3000 [2:24:36<17:04,  2.45s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  86%|########6 | 2581/3000 [2:24:36<17:04,  2.45s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  86%|########6 | 2581/3000 [2:24:39<17:04,  2.45s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  86%|########6 | 2581/3000 [2:24:39<17:04,  2.45s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  86%|########6 | 2582/3000 [2:24:39<17:57,  2.58s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  86%|########6 | 2582/3000 [2:24:39<17:57,  2.58s/it, lr: 1.0e-04 loss: 1.062e-01]strawbyte_v1:  86%|########6 | 2582/3000 [2:24:42<17:57,  2.58s/it, lr: 1.0e-04 loss: 2.165e-02]strawbyte_v1:  86%|########6 | 2582/3000 [2:24:42<17:57,  2.58s/it, lr: 1.0e-04 loss: 2.165e-02]strawbyte_v1:  86%|########6 | 2583/3000 [2:24:42<18:09,  2.61s/it, lr: 1.0e-04 loss: 2.165e-02]strawbyte_v1:  86%|########6 | 2583/3000 [2:24:42<18:09,  2.61s/it, lr: 1.0e-04 loss: 2.165e-02]strawbyte_v1:  86%|########6 | 2583/3000 [2:24:46<18:09,  2.61s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  86%|########6 | 2583/3000 [2:24:46<18:09,  2.61s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  86%|########6 | 2584/3000 [2:24:46<22:04,  3.18s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  86%|########6 | 2584/3000 [2:24:46<22:04,  3.18s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  86%|########6 | 2584/3000 [2:24:49<22:04,  3.18s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  86%|########6 | 2584/3000 [2:24:49<22:04,  3.18s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  86%|########6 | 2585/3000 [2:24:49<21:38,  3.13s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  86%|########6 | 2585/3000 [2:24:49<21:38,  3.13s/it, lr: 1.0e-04 loss: 1.249e-01]strawbyte_v1:  86%|########6 | 2585/3000 [2:24:52<21:38,  3.13s/it, lr: 1.0e-04 loss: 1.818e-01]strawbyte_v1:  86%|########6 | 2585/3000 [2:24:52<21:38,  3.13s/it, lr: 1.0e-04 loss: 1.818e-01]strawbyte_v1:  86%|########6 | 2586/3000 [2:24:52<20:43,  3.00s/it, lr: 1.0e-04 loss: 1.818e-01]strawbyte_v1:  86%|########6 | 2586/3000 [2:24:52<20:43,  3.00s/it, lr: 1.0e-04 loss: 1.818e-01]strawbyte_v1:  86%|########6 | 2586/3000 [2:24:57<20:43,  3.00s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  86%|########6 | 2586/3000 [2:24:57<20:43,  3.00s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  86%|########6 | 2587/3000 [2:24:57<23:37,  3.43s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  86%|########6 | 2587/3000 [2:24:57<23:37,  3.43s/it, lr: 1.0e-04 loss: 1.097e-01]strawbyte_v1:  86%|########6 | 2587/3000 [2:25:01<23:37,  3.43s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  86%|########6 | 2587/3000 [2:25:01<23:37,  3.43s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  86%|########6 | 2588/3000 [2:25:01<26:09,  3.81s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  86%|########6 | 2588/3000 [2:25:01<26:09,  3.81s/it, lr: 1.0e-04 loss: 1.104e-01]strawbyte_v1:  86%|########6 | 2588/3000 [2:25:03<26:09,  3.81s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  86%|########6 | 2588/3000 [2:25:03<26:09,  3.81s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  86%|########6 | 2589/3000 [2:25:03<22:40,  3.31s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  86%|########6 | 2589/3000 [2:25:03<22:40,  3.31s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  86%|########6 | 2589/3000 [2:25:06<22:40,  3.31s/it, lr: 1.0e-04 loss: 1.170e-01]strawbyte_v1:  86%|########6 | 2589/3000 [2:25:06<22:40,  3.31s/it, lr: 1.0e-04 loss: 1.170e-01]strawbyte_v1:  86%|########6 | 2590/3000 [2:25:08<22:37,  3.31s/it, lr: 1.0e-04 loss: 2.029e-01]strawbyte_v1:  86%|########6 | 2590/3000 [2:25:08<22:37,  3.31s/it, lr: 1.0e-04 loss: 2.029e-01]strawbyte_v1:  86%|########6 | 2591/3000 [2:25:08<16:00,  2.35s/it, lr: 1.0e-04 loss: 2.029e-01]strawbyte_v1:  86%|########6 | 2591/3000 [2:25:08<16:00,  2.35s/it, lr: 1.0e-04 loss: 2.029e-01]strawbyte_v1:  86%|########6 | 2591/3000 [2:25:10<16:00,  2.35s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  86%|########6 | 2591/3000 [2:25:10<16:00,  2.35s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  86%|########6 | 2592/3000 [2:25:10<15:33,  2.29s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  86%|########6 | 2592/3000 [2:25:10<15:33,  2.29s/it, lr: 1.0e-04 loss: 1.213e-01]strawbyte_v1:  86%|########6 | 2592/3000 [2:25:13<15:33,  2.29s/it, lr: 1.0e-04 loss: 2.505e-02]strawbyte_v1:  86%|########6 | 2592/3000 [2:25:13<15:33,  2.29s/it, lr: 1.0e-04 loss: 2.505e-02]strawbyte_v1:  86%|########6 | 2593/3000 [2:25:13<16:32,  2.44s/it, lr: 1.0e-04 loss: 2.505e-02]strawbyte_v1:  86%|########6 | 2593/3000 [2:25:13<16:32,  2.44s/it, lr: 1.0e-04 loss: 2.505e-02]strawbyte_v1:  86%|########6 | 2593/3000 [2:25:15<16:32,  2.44s/it, lr: 1.0e-04 loss: 2.168e-01]strawbyte_v1:  86%|########6 | 2593/3000 [2:25:15<16:32,  2.44s/it, lr: 1.0e-04 loss: 2.168e-01]strawbyte_v1:  86%|########6 | 2594/3000 [2:25:15<15:54,  2.35s/it, lr: 1.0e-04 loss: 2.168e-01]strawbyte_v1:  86%|########6 | 2594/3000 [2:25:15<15:54,  2.35s/it, lr: 1.0e-04 loss: 2.168e-01]strawbyte_v1:  86%|########6 | 2594/3000 [2:25:18<15:54,  2.35s/it, lr: 1.0e-04 loss: 8.137e-02]strawbyte_v1:  86%|########6 | 2594/3000 [2:25:18<15:54,  2.35s/it, lr: 1.0e-04 loss: 8.137e-02]strawbyte_v1:  86%|########6 | 2595/3000 [2:25:18<17:23,  2.58s/it, lr: 1.0e-04 loss: 8.137e-02]strawbyte_v1:  86%|########6 | 2595/3000 [2:25:18<17:23,  2.58s/it, lr: 1.0e-04 loss: 8.137e-02]strawbyte_v1:  86%|########6 | 2595/3000 [2:25:20<17:23,  2.58s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  86%|########6 | 2595/3000 [2:25:20<17:23,  2.58s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  87%|########6 | 2596/3000 [2:25:20<16:25,  2.44s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  87%|########6 | 2596/3000 [2:25:20<16:25,  2.44s/it, lr: 1.0e-04 loss: 1.219e-01]strawbyte_v1:  87%|########6 | 2596/3000 [2:25:23<16:25,  2.44s/it, lr: 1.0e-04 loss: 9.786e-02]strawbyte_v1:  87%|########6 | 2596/3000 [2:25:23<16:25,  2.44s/it, lr: 1.0e-04 loss: 9.786e-02]strawbyte_v1:  87%|########6 | 2597/3000 [2:25:23<17:13,  2.57s/it, lr: 1.0e-04 loss: 9.786e-02]strawbyte_v1:  87%|########6 | 2597/3000 [2:25:23<17:13,  2.57s/it, lr: 1.0e-04 loss: 9.786e-02]strawbyte_v1:  87%|########6 | 2597/3000 [2:25:27<17:13,  2.57s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  87%|########6 | 2597/3000 [2:25:27<17:13,  2.57s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  87%|########6 | 2598/3000 [2:25:27<20:36,  3.08s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  87%|########6 | 2598/3000 [2:25:27<20:36,  3.08s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  87%|########6 | 2598/3000 [2:25:32<20:36,  3.08s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  87%|########6 | 2598/3000 [2:25:32<20:36,  3.08s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  87%|########6 | 2599/3000 [2:25:32<23:34,  3.53s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  87%|########6 | 2599/3000 [2:25:32<23:34,  3.53s/it, lr: 1.0e-04 loss: 1.161e-01]strawbyte_v1:  87%|########6 | 2599/3000 [2:25:36<23:34,  3.53s/it, lr: 1.0e-04 loss: 4.881e-02]strawbyte_v1:  87%|########6 | 2599/3000 [2:25:36<23:34,  3.53s/it, lr: 1.0e-04 loss: 4.881e-02]strawbyte_v1:  87%|########6 | 2600/3000 [2:25:39<23:30,  3.53s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  87%|########6 | 2600/3000 [2:25:39<23:30,  3.53s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  87%|########6 | 2601/3000 [2:25:39<17:21,  2.61s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  87%|########6 | 2601/3000 [2:25:39<17:21,  2.61s/it, lr: 1.0e-04 loss: 1.361e-01]strawbyte_v1:  87%|########6 | 2601/3000 [2:25:43<17:21,  2.61s/it, lr: 1.0e-04 loss: 6.955e-02]strawbyte_v1:  87%|########6 | 2601/3000 [2:25:43<17:21,  2.61s/it, lr: 1.0e-04 loss: 6.955e-02]strawbyte_v1:  87%|########6 | 2602/3000 [2:25:43<18:05,  2.73s/it, lr: 1.0e-04 loss: 6.955e-02]strawbyte_v1:  87%|########6 | 2602/3000 [2:25:43<18:05,  2.73s/it, lr: 1.0e-04 loss: 6.955e-02]strawbyte_v1:  87%|########6 | 2602/3000 [2:25:46<18:05,  2.73s/it, lr: 1.0e-04 loss: 5.335e-02]strawbyte_v1:  87%|########6 | 2602/3000 [2:25:46<18:05,  2.73s/it, lr: 1.0e-04 loss: 5.335e-02]strawbyte_v1:  87%|########6 | 2603/3000 [2:25:46<18:29,  2.79s/it, lr: 1.0e-04 loss: 5.335e-02]strawbyte_v1:  87%|########6 | 2603/3000 [2:25:46<18:29,  2.79s/it, lr: 1.0e-04 loss: 5.335e-02]strawbyte_v1:  87%|########6 | 2603/3000 [2:25:49<18:29,  2.79s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  87%|########6 | 2603/3000 [2:25:49<18:29,  2.79s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  87%|########6 | 2604/3000 [2:25:49<18:51,  2.86s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  87%|########6 | 2604/3000 [2:25:49<18:51,  2.86s/it, lr: 1.0e-04 loss: 1.401e-01]strawbyte_v1:  87%|########6 | 2604/3000 [2:25:51<18:51,  2.86s/it, lr: 1.0e-04 loss: 1.903e-01]strawbyte_v1:  87%|########6 | 2604/3000 [2:25:51<18:51,  2.86s/it, lr: 1.0e-04 loss: 1.903e-01]strawbyte_v1:  87%|########6 | 2605/3000 [2:25:51<18:32,  2.82s/it, lr: 1.0e-04 loss: 1.903e-01]strawbyte_v1:  87%|########6 | 2605/3000 [2:25:51<18:32,  2.82s/it, lr: 1.0e-04 loss: 1.903e-01]strawbyte_v1:  87%|########6 | 2605/3000 [2:25:54<18:32,  2.82s/it, lr: 1.0e-04 loss: 5.283e-02]strawbyte_v1:  87%|########6 | 2605/3000 [2:25:54<18:32,  2.82s/it, lr: 1.0e-04 loss: 5.283e-02]strawbyte_v1:  87%|########6 | 2606/3000 [2:25:54<19:02,  2.90s/it, lr: 1.0e-04 loss: 5.283e-02]strawbyte_v1:  87%|########6 | 2606/3000 [2:25:54<19:02,  2.90s/it, lr: 1.0e-04 loss: 5.283e-02]strawbyte_v1:  87%|########6 | 2606/3000 [2:25:57<19:02,  2.90s/it, lr: 1.0e-04 loss: 2.846e-02]strawbyte_v1:  87%|########6 | 2606/3000 [2:25:57<19:02,  2.90s/it, lr: 1.0e-04 loss: 2.846e-02]strawbyte_v1:  87%|########6 | 2607/3000 [2:25:57<18:38,  2.84s/it, lr: 1.0e-04 loss: 2.846e-02]strawbyte_v1:  87%|########6 | 2607/3000 [2:25:57<18:38,  2.84s/it, lr: 1.0e-04 loss: 2.846e-02]strawbyte_v1:  87%|########6 | 2607/3000 [2:26:00<18:38,  2.84s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  87%|########6 | 2607/3000 [2:26:00<18:38,  2.84s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  87%|########6 | 2608/3000 [2:26:00<18:49,  2.88s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  87%|########6 | 2608/3000 [2:26:00<18:49,  2.88s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  87%|########6 | 2608/3000 [2:26:05<18:49,  2.88s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  87%|########6 | 2608/3000 [2:26:05<18:49,  2.88s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  87%|########6 | 2609/3000 [2:26:05<21:48,  3.35s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  87%|########6 | 2609/3000 [2:26:05<21:48,  3.35s/it, lr: 1.0e-04 loss: 1.544e-01]strawbyte_v1:  87%|########6 | 2609/3000 [2:26:08<21:48,  3.35s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  87%|########6 | 2609/3000 [2:26:08<21:48,  3.35s/it, lr: 1.0e-04 loss: 1.000e-01]strawbyte_v1:  87%|########7 | 2610/3000 [2:26:12<21:44,  3.35s/it, lr: 1.0e-04 loss: 5.516e-02]strawbyte_v1:  87%|########7 | 2610/3000 [2:26:12<21:44,  3.35s/it, lr: 1.0e-04 loss: 5.516e-02]strawbyte_v1:  87%|########7 | 2611/3000 [2:26:12<18:28,  2.85s/it, lr: 1.0e-04 loss: 5.516e-02]strawbyte_v1:  87%|########7 | 2611/3000 [2:26:12<18:28,  2.85s/it, lr: 1.0e-04 loss: 5.516e-02]strawbyte_v1:  87%|########7 | 2611/3000 [2:26:17<18:28,  2.85s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  87%|########7 | 2611/3000 [2:26:17<18:28,  2.85s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  87%|########7 | 2612/3000 [2:26:17<21:00,  3.25s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  87%|########7 | 2612/3000 [2:26:17<21:00,  3.25s/it, lr: 1.0e-04 loss: 1.126e-01]strawbyte_v1:  87%|########7 | 2612/3000 [2:26:20<21:00,  3.25s/it, lr: 1.0e-04 loss: 1.737e-01]strawbyte_v1:  87%|########7 | 2612/3000 [2:26:20<21:00,  3.25s/it, lr: 1.0e-04 loss: 1.737e-01]strawbyte_v1:  87%|########7 | 2613/3000 [2:26:20<20:40,  3.21s/it, lr: 1.0e-04 loss: 1.737e-01]strawbyte_v1:  87%|########7 | 2613/3000 [2:26:20<20:40,  3.21s/it, lr: 1.0e-04 loss: 1.737e-01]strawbyte_v1:  87%|########7 | 2613/3000 [2:26:24<20:40,  3.21s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  87%|########7 | 2613/3000 [2:26:24<20:40,  3.21s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  87%|########7 | 2614/3000 [2:26:24<22:44,  3.54s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  87%|########7 | 2614/3000 [2:26:24<22:44,  3.54s/it, lr: 1.0e-04 loss: 1.077e-01]strawbyte_v1:  87%|########7 | 2614/3000 [2:26:28<22:44,  3.54s/it, lr: 1.0e-04 loss: 8.904e-02]strawbyte_v1:  87%|########7 | 2614/3000 [2:26:28<22:44,  3.54s/it, lr: 1.0e-04 loss: 8.904e-02]strawbyte_v1:  87%|########7 | 2615/3000 [2:26:28<24:10,  3.77s/it, lr: 1.0e-04 loss: 8.904e-02]strawbyte_v1:  87%|########7 | 2615/3000 [2:26:28<24:10,  3.77s/it, lr: 1.0e-04 loss: 8.904e-02]strawbyte_v1:  87%|########7 | 2615/3000 [2:26:31<24:10,  3.77s/it, lr: 1.0e-04 loss: 7.101e-02]strawbyte_v1:  87%|########7 | 2615/3000 [2:26:31<24:10,  3.77s/it, lr: 1.0e-04 loss: 7.101e-02]strawbyte_v1:  87%|########7 | 2616/3000 [2:26:31<22:28,  3.51s/it, lr: 1.0e-04 loss: 7.101e-02]strawbyte_v1:  87%|########7 | 2616/3000 [2:26:31<22:28,  3.51s/it, lr: 1.0e-04 loss: 7.101e-02]strawbyte_v1:  87%|########7 | 2616/3000 [2:26:34<22:28,  3.51s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  87%|########7 | 2616/3000 [2:26:34<22:28,  3.51s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  87%|########7 | 2617/3000 [2:26:34<21:49,  3.42s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  87%|########7 | 2617/3000 [2:26:34<21:49,  3.42s/it, lr: 1.0e-04 loss: 1.306e-01]strawbyte_v1:  87%|########7 | 2617/3000 [2:26:37<21:49,  3.42s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  87%|########7 | 2617/3000 [2:26:37<21:49,  3.42s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  87%|########7 | 2618/3000 [2:26:37<20:53,  3.28s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  87%|########7 | 2618/3000 [2:26:37<20:53,  3.28s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  87%|########7 | 2618/3000 [2:26:42<20:53,  3.28s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  87%|########7 | 2618/3000 [2:26:42<20:53,  3.28s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  87%|########7 | 2619/3000 [2:26:42<22:48,  3.59s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  87%|########7 | 2619/3000 [2:26:42<22:48,  3.59s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  87%|########7 | 2619/3000 [2:26:45<22:48,  3.59s/it, lr: 1.0e-04 loss: 6.052e-02]strawbyte_v1:  87%|########7 | 2619/3000 [2:26:45<22:48,  3.59s/it, lr: 1.0e-04 loss: 6.052e-02]strawbyte_v1:  87%|########7 | 2620/3000 [2:26:47<22:45,  3.59s/it, lr: 1.0e-04 loss: 1.455e-01]strawbyte_v1:  87%|########7 | 2620/3000 [2:26:47<22:45,  3.59s/it, lr: 1.0e-04 loss: 1.455e-01]strawbyte_v1:  87%|########7 | 2621/3000 [2:26:47<15:20,  2.43s/it, lr: 1.0e-04 loss: 1.455e-01]strawbyte_v1:  87%|########7 | 2621/3000 [2:26:47<15:20,  2.43s/it, lr: 1.0e-04 loss: 1.455e-01]strawbyte_v1:  87%|########7 | 2621/3000 [2:26:51<15:20,  2.43s/it, lr: 1.0e-04 loss: 9.069e-02]strawbyte_v1:  87%|########7 | 2621/3000 [2:26:51<15:20,  2.43s/it, lr: 1.0e-04 loss: 9.069e-02]strawbyte_v1:  87%|########7 | 2622/3000 [2:26:51<18:16,  2.90s/it, lr: 1.0e-04 loss: 9.069e-02]strawbyte_v1:  87%|########7 | 2622/3000 [2:26:51<18:16,  2.90s/it, lr: 1.0e-04 loss: 9.069e-02]strawbyte_v1:  87%|########7 | 2622/3000 [2:26:54<18:16,  2.90s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  87%|########7 | 2622/3000 [2:26:54<18:16,  2.90s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  87%|########7 | 2623/3000 [2:26:54<18:17,  2.91s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  87%|########7 | 2623/3000 [2:26:54<18:17,  2.91s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  87%|########7 | 2623/3000 [2:26:58<18:17,  2.91s/it, lr: 1.0e-04 loss: 9.253e-02]strawbyte_v1:  87%|########7 | 2623/3000 [2:26:58<18:17,  2.91s/it, lr: 1.0e-04 loss: 9.253e-02]strawbyte_v1:  87%|########7 | 2624/3000 [2:26:58<18:46,  3.00s/it, lr: 1.0e-04 loss: 9.253e-02]strawbyte_v1:  87%|########7 | 2624/3000 [2:26:58<18:46,  3.00s/it, lr: 1.0e-04 loss: 9.253e-02]strawbyte_v1:  87%|########7 | 2624/3000 [2:27:02<18:46,  3.00s/it, lr: 1.0e-04 loss: 9.174e-02]strawbyte_v1:  87%|########7 | 2624/3000 [2:27:02<18:46,  3.00s/it, lr: 1.0e-04 loss: 9.174e-02]strawbyte_v1:  88%|########7 | 2625/3000 [2:27:02<21:11,  3.39s/it, lr: 1.0e-04 loss: 9.174e-02]strawbyte_v1:  88%|########7 | 2625/3000 [2:27:02<21:11,  3.39s/it, lr: 1.0e-04 loss: 9.174e-02]strawbyte_v1:  88%|########7 | 2625/3000 [2:27:06<21:11,  3.39s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  88%|########7 | 2625/3000 [2:27:06<21:11,  3.39s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  88%|########7 | 2626/3000 [2:27:06<23:01,  3.69s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  88%|########7 | 2626/3000 [2:27:06<23:01,  3.69s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  88%|########7 | 2626/3000 [2:27:11<23:01,  3.69s/it, lr: 1.0e-04 loss: 7.657e-02]strawbyte_v1:  88%|########7 | 2626/3000 [2:27:11<23:01,  3.69s/it, lr: 1.0e-04 loss: 7.657e-02]strawbyte_v1:  88%|########7 | 2627/3000 [2:27:11<24:22,  3.92s/it, lr: 1.0e-04 loss: 7.657e-02]strawbyte_v1:  88%|########7 | 2627/3000 [2:27:11<24:22,  3.92s/it, lr: 1.0e-04 loss: 7.657e-02]strawbyte_v1:  88%|########7 | 2627/3000 [2:27:14<24:22,  3.92s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  88%|########7 | 2627/3000 [2:27:14<24:22,  3.92s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  88%|########7 | 2628/3000 [2:27:14<22:47,  3.68s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  88%|########7 | 2628/3000 [2:27:14<22:47,  3.68s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1:  88%|########7 | 2628/3000 [2:27:17<22:47,  3.68s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  88%|########7 | 2628/3000 [2:27:17<22:47,  3.68s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  88%|########7 | 2629/3000 [2:27:17<20:55,  3.39s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  88%|########7 | 2629/3000 [2:27:17<20:55,  3.39s/it, lr: 1.0e-04 loss: 1.478e-01]strawbyte_v1:  88%|########7 | 2629/3000 [2:27:21<20:55,  3.39s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  88%|########7 | 2629/3000 [2:27:21<20:55,  3.39s/it, lr: 1.0e-04 loss: 1.059e-01]strawbyte_v1:  88%|########7 | 2630/3000 [2:27:24<20:52,  3.39s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  88%|########7 | 2630/3000 [2:27:24<20:52,  3.39s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  88%|########7 | 2631/3000 [2:27:24<15:58,  2.60s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  88%|########7 | 2631/3000 [2:27:24<15:58,  2.60s/it, lr: 1.0e-04 loss: 1.204e-01]strawbyte_v1:  88%|########7 | 2631/3000 [2:27:29<15:58,  2.60s/it, lr: 1.0e-04 loss: 9.551e-02]strawbyte_v1:  88%|########7 | 2631/3000 [2:27:29<15:58,  2.60s/it, lr: 1.0e-04 loss: 9.551e-02]strawbyte_v1:  88%|########7 | 2632/3000 [2:27:29<18:41,  3.05s/it, lr: 1.0e-04 loss: 9.551e-02]strawbyte_v1:  88%|########7 | 2632/3000 [2:27:29<18:41,  3.05s/it, lr: 1.0e-04 loss: 9.551e-02]strawbyte_v1:  88%|########7 | 2632/3000 [2:27:33<18:41,  3.05s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  88%|########7 | 2632/3000 [2:27:33<18:41,  3.05s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  88%|########7 | 2633/3000 [2:27:33<20:54,  3.42s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  88%|########7 | 2633/3000 [2:27:33<20:54,  3.42s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  88%|########7 | 2633/3000 [2:27:36<20:54,  3.42s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  88%|########7 | 2633/3000 [2:27:36<20:54,  3.42s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  88%|########7 | 2634/3000 [2:27:36<19:39,  3.22s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  88%|########7 | 2634/3000 [2:27:36<19:39,  3.22s/it, lr: 1.0e-04 loss: 1.603e-01]strawbyte_v1:  88%|########7 | 2634/3000 [2:27:41<19:39,  3.22s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  88%|########7 | 2634/3000 [2:27:41<19:39,  3.22s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  88%|########7 | 2635/3000 [2:27:41<22:13,  3.65s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  88%|########7 | 2635/3000 [2:27:41<22:13,  3.65s/it, lr: 1.0e-04 loss: 1.127e-01]strawbyte_v1:  88%|########7 | 2635/3000 [2:27:44<22:13,  3.65s/it, lr: 1.0e-04 loss: 3.295e-02]strawbyte_v1:  88%|########7 | 2635/3000 [2:27:44<22:13,  3.65s/it, lr: 1.0e-04 loss: 3.295e-02]strawbyte_v1:  88%|########7 | 2636/3000 [2:27:44<21:02,  3.47s/it, lr: 1.0e-04 loss: 3.295e-02]strawbyte_v1:  88%|########7 | 2636/3000 [2:27:44<21:02,  3.47s/it, lr: 1.0e-04 loss: 3.295e-02]strawbyte_v1:  88%|########7 | 2636/3000 [2:27:47<21:02,  3.47s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  88%|########7 | 2636/3000 [2:27:47<21:02,  3.47s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  88%|########7 | 2637/3000 [2:27:47<20:00,  3.31s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  88%|########7 | 2637/3000 [2:27:47<20:00,  3.31s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  88%|########7 | 2637/3000 [2:27:51<20:00,  3.31s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  88%|########7 | 2637/3000 [2:27:51<20:00,  3.31s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  88%|########7 | 2638/3000 [2:27:51<21:42,  3.60s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  88%|########7 | 2638/3000 [2:27:51<21:42,  3.60s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  88%|########7 | 2638/3000 [2:27:53<21:42,  3.60s/it, lr: 1.0e-04 loss: 1.644e-01]strawbyte_v1:  88%|########7 | 2638/3000 [2:27:53<21:42,  3.60s/it, lr: 1.0e-04 loss: 1.644e-01]strawbyte_v1:  88%|########7 | 2639/3000 [2:27:53<19:32,  3.25s/it, lr: 1.0e-04 loss: 1.644e-01]strawbyte_v1:  88%|########7 | 2639/3000 [2:27:53<19:32,  3.25s/it, lr: 1.0e-04 loss: 1.644e-01]strawbyte_v1:  88%|########7 | 2639/3000 [2:27:58<19:32,  3.25s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  88%|########7 | 2639/3000 [2:27:58<19:32,  3.25s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  88%|########8 | 2640/3000 [2:28:01<19:29,  3.25s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  88%|########8 | 2640/3000 [2:28:01<19:29,  3.25s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  88%|########8 | 2641/3000 [2:28:01<14:28,  2.42s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  88%|########8 | 2641/3000 [2:28:01<14:28,  2.42s/it, lr: 1.0e-04 loss: 1.003e-01]strawbyte_v1:  88%|########8 | 2641/3000 [2:28:03<14:28,  2.42s/it, lr: 1.0e-04 loss: 8.876e-02]strawbyte_v1:  88%|########8 | 2641/3000 [2:28:03<14:28,  2.42s/it, lr: 1.0e-04 loss: 8.876e-02]strawbyte_v1:  88%|########8 | 2642/3000 [2:28:03<14:25,  2.42s/it, lr: 1.0e-04 loss: 8.876e-02]strawbyte_v1:  88%|########8 | 2642/3000 [2:28:03<14:25,  2.42s/it, lr: 1.0e-04 loss: 8.876e-02]strawbyte_v1:  88%|########8 | 2642/3000 [2:28:05<14:25,  2.42s/it, lr: 1.0e-04 loss: 8.998e-02]strawbyte_v1:  88%|########8 | 2642/3000 [2:28:05<14:25,  2.42s/it, lr: 1.0e-04 loss: 8.998e-02]strawbyte_v1:  88%|########8 | 2643/3000 [2:28:05<13:52,  2.33s/it, lr: 1.0e-04 loss: 8.998e-02]strawbyte_v1:  88%|########8 | 2643/3000 [2:28:05<13:52,  2.33s/it, lr: 1.0e-04 loss: 8.998e-02]strawbyte_v1:  88%|########8 | 2643/3000 [2:28:07<13:52,  2.33s/it, lr: 1.0e-04 loss: 1.502e-01]strawbyte_v1:  88%|########8 | 2643/3000 [2:28:07<13:52,  2.33s/it, lr: 1.0e-04 loss: 1.502e-01]strawbyte_v1:  88%|########8 | 2644/3000 [2:28:07<13:24,  2.26s/it, lr: 1.0e-04 loss: 1.502e-01]strawbyte_v1:  88%|########8 | 2644/3000 [2:28:07<13:24,  2.26s/it, lr: 1.0e-04 loss: 1.502e-01]strawbyte_v1:  88%|########8 | 2644/3000 [2:28:10<13:24,  2.26s/it, lr: 1.0e-04 loss: 4.219e-02]strawbyte_v1:  88%|########8 | 2644/3000 [2:28:10<13:24,  2.26s/it, lr: 1.0e-04 loss: 4.219e-02]strawbyte_v1:  88%|########8 | 2645/3000 [2:28:10<14:21,  2.43s/it, lr: 1.0e-04 loss: 4.219e-02]strawbyte_v1:  88%|########8 | 2645/3000 [2:28:10<14:21,  2.43s/it, lr: 1.0e-04 loss: 4.219e-02]strawbyte_v1:  88%|########8 | 2645/3000 [2:28:12<14:21,  2.43s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  88%|########8 | 2645/3000 [2:28:12<14:21,  2.43s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  88%|########8 | 2646/3000 [2:28:12<14:08,  2.40s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  88%|########8 | 2646/3000 [2:28:12<14:08,  2.40s/it, lr: 1.0e-04 loss: 1.007e-01]strawbyte_v1:  88%|########8 | 2646/3000 [2:28:14<14:08,  2.40s/it, lr: 1.0e-04 loss: 1.186e-02]strawbyte_v1:  88%|########8 | 2646/3000 [2:28:14<14:08,  2.40s/it, lr: 1.0e-04 loss: 1.186e-02]strawbyte_v1:  88%|########8 | 2647/3000 [2:28:14<13:32,  2.30s/it, lr: 1.0e-04 loss: 1.186e-02]strawbyte_v1:  88%|########8 | 2647/3000 [2:28:14<13:32,  2.30s/it, lr: 1.0e-04 loss: 1.186e-02]strawbyte_v1:  88%|########8 | 2647/3000 [2:28:17<13:32,  2.30s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  88%|########8 | 2647/3000 [2:28:17<13:32,  2.30s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  88%|########8 | 2648/3000 [2:28:17<14:34,  2.48s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  88%|########8 | 2648/3000 [2:28:17<14:34,  2.48s/it, lr: 1.0e-04 loss: 1.118e-01]strawbyte_v1:  88%|########8 | 2648/3000 [2:28:20<14:34,  2.48s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  88%|########8 | 2648/3000 [2:28:20<14:34,  2.48s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  88%|########8 | 2649/3000 [2:28:20<14:51,  2.54s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  88%|########8 | 2649/3000 [2:28:20<14:51,  2.54s/it, lr: 1.0e-04 loss: 1.296e-01]strawbyte_v1:  88%|########8 | 2649/3000 [2:28:23<14:51,  2.54s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  88%|########8 | 2649/3000 [2:28:23<14:51,  2.54s/it, lr: 1.0e-04 loss: 1.222e-01]strawbyte_v1:  88%|########8 | 2650/3000 [2:28:28<14:48,  2.54s/it, lr: 1.0e-04 loss: 3.034e-03]strawbyte_v1:  88%|########8 | 2650/3000 [2:28:28<14:48,  2.54s/it, lr: 1.0e-04 loss: 3.034e-03]strawbyte_v1:  88%|########8 | 2651/3000 [2:28:28<13:56,  2.40s/it, lr: 1.0e-04 loss: 3.034e-03]strawbyte_v1:  88%|########8 | 2651/3000 [2:28:28<13:56,  2.40s/it, lr: 1.0e-04 loss: 3.034e-03]strawbyte_v1:  88%|########8 | 2651/3000 [2:28:31<13:56,  2.40s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  88%|########8 | 2651/3000 [2:28:31<13:56,  2.40s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  88%|########8 | 2652/3000 [2:28:31<14:44,  2.54s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  88%|########8 | 2652/3000 [2:28:31<14:44,  2.54s/it, lr: 1.0e-04 loss: 1.024e-01]strawbyte_v1:  88%|########8 | 2652/3000 [2:28:34<14:44,  2.54s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  88%|########8 | 2652/3000 [2:28:34<14:44,  2.54s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  88%|########8 | 2653/3000 [2:28:34<15:42,  2.72s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  88%|########8 | 2653/3000 [2:28:34<15:42,  2.72s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  88%|########8 | 2653/3000 [2:28:37<15:42,  2.72s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  88%|########8 | 2653/3000 [2:28:37<15:42,  2.72s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  88%|########8 | 2654/3000 [2:28:37<15:33,  2.70s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  88%|########8 | 2654/3000 [2:28:37<15:33,  2.70s/it, lr: 1.0e-04 loss: 1.591e-01]strawbyte_v1:  88%|########8 | 2654/3000 [2:28:41<15:33,  2.70s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  88%|########8 | 2654/3000 [2:28:41<15:33,  2.70s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  88%|########8 | 2655/3000 [2:28:41<18:20,  3.19s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  88%|########8 | 2655/3000 [2:28:41<18:20,  3.19s/it, lr: 1.0e-04 loss: 1.199e-01]strawbyte_v1:  88%|########8 | 2655/3000 [2:28:46<18:20,  3.19s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  88%|########8 | 2655/3000 [2:28:46<18:20,  3.19s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  89%|########8 | 2656/3000 [2:28:46<20:21,  3.55s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  89%|########8 | 2656/3000 [2:28:46<20:21,  3.55s/it, lr: 1.0e-04 loss: 1.185e-01]strawbyte_v1:  89%|########8 | 2656/3000 [2:28:49<20:21,  3.55s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  89%|########8 | 2656/3000 [2:28:49<20:21,  3.55s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  89%|########8 | 2657/3000 [2:28:49<19:50,  3.47s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  89%|########8 | 2657/3000 [2:28:49<19:50,  3.47s/it, lr: 1.0e-04 loss: 1.360e-01]strawbyte_v1:  89%|########8 | 2657/3000 [2:28:51<19:50,  3.47s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  89%|########8 | 2657/3000 [2:28:51<19:50,  3.47s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  89%|########8 | 2658/3000 [2:28:51<18:27,  3.24s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  89%|########8 | 2658/3000 [2:28:51<18:27,  3.24s/it, lr: 1.0e-04 loss: 1.080e-01]strawbyte_v1:  89%|########8 | 2658/3000 [2:28:54<18:27,  3.24s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  89%|########8 | 2658/3000 [2:28:54<18:27,  3.24s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  89%|########8 | 2659/3000 [2:28:54<17:26,  3.07s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  89%|########8 | 2659/3000 [2:28:54<17:26,  3.07s/it, lr: 1.0e-04 loss: 1.576e-01]strawbyte_v1:  89%|########8 | 2659/3000 [2:28:59<17:26,  3.07s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  89%|########8 | 2659/3000 [2:28:59<17:26,  3.07s/it, lr: 1.0e-04 loss: 1.032e-01]strawbyte_v1:  89%|########8 | 2660/3000 [2:29:02<17:23,  3.07s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  89%|########8 | 2660/3000 [2:29:02<17:23,  3.07s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  89%|########8 | 2661/3000 [2:29:02<13:39,  2.42s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  89%|########8 | 2661/3000 [2:29:02<13:39,  2.42s/it, lr: 1.0e-04 loss: 1.183e-01]strawbyte_v1:  89%|########8 | 2661/3000 [2:29:05<13:39,  2.42s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  89%|########8 | 2661/3000 [2:29:05<13:39,  2.42s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  89%|########8 | 2662/3000 [2:29:05<14:19,  2.54s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  89%|########8 | 2662/3000 [2:29:05<14:19,  2.54s/it, lr: 1.0e-04 loss: 1.166e-01]strawbyte_v1:  89%|########8 | 2662/3000 [2:29:09<14:19,  2.54s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  89%|########8 | 2662/3000 [2:29:09<14:19,  2.54s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  89%|########8 | 2663/3000 [2:29:09<16:56,  3.02s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  89%|########8 | 2663/3000 [2:29:09<16:56,  3.02s/it, lr: 1.0e-04 loss: 1.084e-01]strawbyte_v1:  89%|########8 | 2663/3000 [2:29:11<16:56,  3.02s/it, lr: 1.0e-04 loss: 1.709e-02]strawbyte_v1:  89%|########8 | 2663/3000 [2:29:11<16:56,  3.02s/it, lr: 1.0e-04 loss: 1.709e-02]strawbyte_v1:  89%|########8 | 2664/3000 [2:29:11<15:52,  2.83s/it, lr: 1.0e-04 loss: 1.709e-02]strawbyte_v1:  89%|########8 | 2664/3000 [2:29:11<15:52,  2.83s/it, lr: 1.0e-04 loss: 1.709e-02]strawbyte_v1:  89%|########8 | 2664/3000 [2:29:16<15:52,  2.83s/it, lr: 1.0e-04 loss: 7.785e-02]strawbyte_v1:  89%|########8 | 2664/3000 [2:29:16<15:52,  2.83s/it, lr: 1.0e-04 loss: 7.785e-02]strawbyte_v1:  89%|########8 | 2665/3000 [2:29:16<18:06,  3.24s/it, lr: 1.0e-04 loss: 7.785e-02]strawbyte_v1:  89%|########8 | 2665/3000 [2:29:16<18:06,  3.24s/it, lr: 1.0e-04 loss: 7.785e-02]strawbyte_v1:  89%|########8 | 2665/3000 [2:29:18<18:06,  3.24s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  89%|########8 | 2665/3000 [2:29:18<18:06,  3.24s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  89%|########8 | 2666/3000 [2:29:18<16:11,  2.91s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  89%|########8 | 2666/3000 [2:29:18<16:11,  2.91s/it, lr: 1.0e-04 loss: 1.733e-01]strawbyte_v1:  89%|########8 | 2666/3000 [2:29:21<16:11,  2.91s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  89%|########8 | 2666/3000 [2:29:21<16:11,  2.91s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  89%|########8 | 2667/3000 [2:29:21<16:08,  2.91s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  89%|########8 | 2667/3000 [2:29:21<16:08,  2.91s/it, lr: 1.0e-04 loss: 1.904e-01]strawbyte_v1:  89%|########8 | 2667/3000 [2:29:25<16:08,  2.91s/it, lr: 1.0e-04 loss: 8.365e-02]strawbyte_v1:  89%|########8 | 2667/3000 [2:29:25<16:08,  2.91s/it, lr: 1.0e-04 loss: 8.365e-02]strawbyte_v1:  89%|########8 | 2668/3000 [2:29:25<18:42,  3.38s/it, lr: 1.0e-04 loss: 8.365e-02]strawbyte_v1:  89%|########8 | 2668/3000 [2:29:25<18:42,  3.38s/it, lr: 1.0e-04 loss: 8.365e-02]strawbyte_v1:  89%|########8 | 2668/3000 [2:29:27<18:42,  3.38s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  89%|########8 | 2668/3000 [2:29:27<18:42,  3.38s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  89%|########8 | 2669/3000 [2:29:27<16:31,  3.00s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  89%|########8 | 2669/3000 [2:29:27<16:31,  3.00s/it, lr: 1.0e-04 loss: 1.677e-01]strawbyte_v1:  89%|########8 | 2669/3000 [2:29:32<16:31,  3.00s/it, lr: 1.0e-04 loss: 1.066e-01]strawbyte_v1:  89%|########8 | 2669/3000 [2:29:32<16:31,  3.00s/it, lr: 1.0e-04 loss: 1.066e-01]strawbyte_v1:  89%|########9 | 2670/3000 [2:29:36<16:28,  3.00s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  89%|########9 | 2670/3000 [2:29:36<16:28,  3.00s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  89%|########9 | 2671/3000 [2:29:36<14:21,  2.62s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  89%|########9 | 2671/3000 [2:29:36<14:21,  2.62s/it, lr: 1.0e-04 loss: 1.122e-01]strawbyte_v1:  89%|########9 | 2671/3000 [2:29:39<14:21,  2.62s/it, lr: 1.0e-04 loss: 6.339e-02]strawbyte_v1:  89%|########9 | 2671/3000 [2:29:39<14:21,  2.62s/it, lr: 1.0e-04 loss: 6.339e-02]strawbyte_v1:  89%|########9 | 2672/3000 [2:29:39<14:47,  2.71s/it, lr: 1.0e-04 loss: 6.339e-02]strawbyte_v1:  89%|########9 | 2672/3000 [2:29:39<14:47,  2.71s/it, lr: 1.0e-04 loss: 6.339e-02]strawbyte_v1:  89%|########9 | 2672/3000 [2:29:42<14:47,  2.71s/it, lr: 1.0e-04 loss: 7.894e-02]strawbyte_v1:  89%|########9 | 2672/3000 [2:29:42<14:47,  2.71s/it, lr: 1.0e-04 loss: 7.894e-02]strawbyte_v1:  89%|########9 | 2673/3000 [2:29:42<15:00,  2.75s/it, lr: 1.0e-04 loss: 7.894e-02]strawbyte_v1:  89%|########9 | 2673/3000 [2:29:42<15:00,  2.75s/it, lr: 1.0e-04 loss: 7.894e-02]strawbyte_v1:  89%|########9 | 2673/3000 [2:29:45<15:00,  2.75s/it, lr: 1.0e-04 loss: 3.753e-02]strawbyte_v1:  89%|########9 | 2673/3000 [2:29:45<15:00,  2.75s/it, lr: 1.0e-04 loss: 3.753e-02]strawbyte_v1:  89%|########9 | 2674/3000 [2:29:45<15:15,  2.81s/it, lr: 1.0e-04 loss: 3.753e-02]strawbyte_v1:  89%|########9 | 2674/3000 [2:29:45<15:15,  2.81s/it, lr: 1.0e-04 loss: 3.753e-02]strawbyte_v1:  89%|########9 | 2674/3000 [2:29:50<15:15,  2.81s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  89%|########9 | 2674/3000 [2:29:50<15:15,  2.81s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  89%|########9 | 2675/3000 [2:29:50<18:09,  3.35s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  89%|########9 | 2675/3000 [2:29:50<18:09,  3.35s/it, lr: 1.0e-04 loss: 1.089e-01]strawbyte_v1:  89%|########9 | 2675/3000 [2:29:53<18:09,  3.35s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  89%|########9 | 2675/3000 [2:29:53<18:09,  3.35s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  89%|########9 | 2676/3000 [2:29:53<17:36,  3.26s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  89%|########9 | 2676/3000 [2:29:53<17:36,  3.26s/it, lr: 1.0e-04 loss: 1.343e-01]strawbyte_v1:  89%|########9 | 2676/3000 [2:29:57<17:36,  3.26s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  89%|########9 | 2676/3000 [2:29:57<17:36,  3.26s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  89%|########9 | 2677/3000 [2:29:57<19:21,  3.59s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  89%|########9 | 2677/3000 [2:29:57<19:21,  3.59s/it, lr: 1.0e-04 loss: 1.227e-01]strawbyte_v1:  89%|########9 | 2677/3000 [2:30:00<19:21,  3.59s/it, lr: 1.0e-04 loss: 7.982e-02]strawbyte_v1:  89%|########9 | 2677/3000 [2:30:00<19:21,  3.59s/it, lr: 1.0e-04 loss: 7.982e-02]strawbyte_v1:  89%|########9 | 2678/3000 [2:30:00<18:25,  3.43s/it, lr: 1.0e-04 loss: 7.982e-02]strawbyte_v1:  89%|########9 | 2678/3000 [2:30:00<18:25,  3.43s/it, lr: 1.0e-04 loss: 7.982e-02]strawbyte_v1:  89%|########9 | 2678/3000 [2:30:04<18:25,  3.43s/it, lr: 1.0e-04 loss: 1.253e-01]strawbyte_v1:  89%|########9 | 2678/3000 [2:30:04<18:25,  3.43s/it, lr: 1.0e-04 loss: 1.253e-01]strawbyte_v1:  89%|########9 | 2679/3000 [2:30:04<18:08,  3.39s/it, lr: 1.0e-04 loss: 1.253e-01]strawbyte_v1:  89%|########9 | 2679/3000 [2:30:04<18:08,  3.39s/it, lr: 1.0e-04 loss: 1.253e-01]strawbyte_v1:  89%|########9 | 2679/3000 [2:30:07<18:08,  3.39s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  89%|########9 | 2679/3000 [2:30:07<18:08,  3.39s/it, lr: 1.0e-04 loss: 1.225e-01]strawbyte_v1:  89%|########9 | 2680/3000 [2:30:10<18:04,  3.39s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  89%|########9 | 2680/3000 [2:30:10<18:04,  3.39s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  89%|########9 | 2681/3000 [2:30:10<13:27,  2.53s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  89%|########9 | 2681/3000 [2:30:10<13:27,  2.53s/it, lr: 1.0e-04 loss: 1.229e-01]strawbyte_v1:  89%|########9 | 2681/3000 [2:30:13<13:27,  2.53s/it, lr: 1.0e-04 loss: 7.728e-02]strawbyte_v1:  89%|########9 | 2681/3000 [2:30:13<13:27,  2.53s/it, lr: 1.0e-04 loss: 7.728e-02]strawbyte_v1:  89%|########9 | 2682/3000 [2:30:13<14:02,  2.65s/it, lr: 1.0e-04 loss: 7.728e-02]strawbyte_v1:  89%|########9 | 2682/3000 [2:30:13<14:02,  2.65s/it, lr: 1.0e-04 loss: 7.728e-02]strawbyte_v1:  89%|########9 | 2682/3000 [2:30:15<14:02,  2.65s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  89%|########9 | 2682/3000 [2:30:15<14:02,  2.65s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  89%|########9 | 2683/3000 [2:30:15<14:00,  2.65s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  89%|########9 | 2683/3000 [2:30:15<14:00,  2.65s/it, lr: 1.0e-04 loss: 1.579e-01]strawbyte_v1:  89%|########9 | 2683/3000 [2:30:18<14:00,  2.65s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  89%|########9 | 2683/3000 [2:30:18<14:00,  2.65s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  89%|########9 | 2684/3000 [2:30:18<14:01,  2.66s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  89%|########9 | 2684/3000 [2:30:18<14:01,  2.66s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  89%|########9 | 2684/3000 [2:30:21<14:01,  2.66s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  89%|########9 | 2684/3000 [2:30:21<14:01,  2.66s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  90%|########9 | 2685/3000 [2:30:21<14:25,  2.75s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  90%|########9 | 2685/3000 [2:30:21<14:25,  2.75s/it, lr: 1.0e-04 loss: 1.191e-01]strawbyte_v1:  90%|########9 | 2685/3000 [2:30:24<14:25,  2.75s/it, lr: 1.0e-04 loss: 6.750e-02]strawbyte_v1:  90%|########9 | 2685/3000 [2:30:24<14:25,  2.75s/it, lr: 1.0e-04 loss: 6.750e-02]strawbyte_v1:  90%|########9 | 2686/3000 [2:30:24<14:15,  2.73s/it, lr: 1.0e-04 loss: 6.750e-02]strawbyte_v1:  90%|########9 | 2686/3000 [2:30:24<14:15,  2.73s/it, lr: 1.0e-04 loss: 6.750e-02]strawbyte_v1:  90%|########9 | 2686/3000 [2:30:26<14:15,  2.73s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  90%|########9 | 2686/3000 [2:30:26<14:15,  2.73s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  90%|########9 | 2687/3000 [2:30:26<14:25,  2.77s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  90%|########9 | 2687/3000 [2:30:26<14:25,  2.77s/it, lr: 1.0e-04 loss: 1.242e-01]strawbyte_v1:  90%|########9 | 2687/3000 [2:30:31<14:25,  2.77s/it, lr: 1.0e-04 loss: 2.095e-02]strawbyte_v1:  90%|########9 | 2687/3000 [2:30:31<14:25,  2.77s/it, lr: 1.0e-04 loss: 2.095e-02]strawbyte_v1:  90%|########9 | 2688/3000 [2:30:31<16:43,  3.22s/it, lr: 1.0e-04 loss: 2.095e-02]strawbyte_v1:  90%|########9 | 2688/3000 [2:30:31<16:43,  3.22s/it, lr: 1.0e-04 loss: 2.095e-02]strawbyte_v1:  90%|########9 | 2688/3000 [2:30:35<16:43,  3.22s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  90%|########9 | 2688/3000 [2:30:35<16:43,  3.22s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  90%|########9 | 2689/3000 [2:30:35<18:25,  3.55s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  90%|########9 | 2689/3000 [2:30:35<18:25,  3.55s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  90%|########9 | 2689/3000 [2:30:40<18:25,  3.55s/it, lr: 1.0e-04 loss: 7.815e-02]strawbyte_v1:  90%|########9 | 2689/3000 [2:30:40<18:25,  3.55s/it, lr: 1.0e-04 loss: 7.815e-02]strawbyte_v1:  90%|########9 | 2690/3000 [2:30:42<18:22,  3.55s/it, lr: 1.0e-04 loss: 2.834e-02]strawbyte_v1:  90%|########9 | 2690/3000 [2:30:42<18:22,  3.55s/it, lr: 1.0e-04 loss: 2.834e-02]strawbyte_v1:  90%|########9 | 2691/3000 [2:30:42<13:19,  2.59s/it, lr: 1.0e-04 loss: 2.834e-02]strawbyte_v1:  90%|########9 | 2691/3000 [2:30:42<13:19,  2.59s/it, lr: 1.0e-04 loss: 2.834e-02]strawbyte_v1:  90%|########9 | 2691/3000 [2:30:47<13:19,  2.59s/it, lr: 1.0e-04 loss: 4.439e-02]strawbyte_v1:  90%|########9 | 2691/3000 [2:30:47<13:19,  2.59s/it, lr: 1.0e-04 loss: 4.439e-02]strawbyte_v1:  90%|########9 | 2692/3000 [2:30:47<15:33,  3.03s/it, lr: 1.0e-04 loss: 4.439e-02]strawbyte_v1:  90%|########9 | 2692/3000 [2:30:47<15:33,  3.03s/it, lr: 1.0e-04 loss: 4.439e-02]strawbyte_v1:  90%|########9 | 2692/3000 [2:30:51<15:33,  3.03s/it, lr: 1.0e-04 loss: 7.720e-02]strawbyte_v1:  90%|########9 | 2692/3000 [2:30:51<15:33,  3.03s/it, lr: 1.0e-04 loss: 7.720e-02]strawbyte_v1:  90%|########9 | 2693/3000 [2:30:51<17:28,  3.42s/it, lr: 1.0e-04 loss: 7.720e-02]strawbyte_v1:  90%|########9 | 2693/3000 [2:30:51<17:28,  3.42s/it, lr: 1.0e-04 loss: 7.720e-02]strawbyte_v1:  90%|########9 | 2693/3000 [2:30:56<17:28,  3.42s/it, lr: 1.0e-04 loss: 9.276e-02]strawbyte_v1:  90%|########9 | 2693/3000 [2:30:56<17:28,  3.42s/it, lr: 1.0e-04 loss: 9.276e-02]strawbyte_v1:  90%|########9 | 2694/3000 [2:30:56<18:45,  3.68s/it, lr: 1.0e-04 loss: 9.276e-02]strawbyte_v1:  90%|########9 | 2694/3000 [2:30:56<18:45,  3.68s/it, lr: 1.0e-04 loss: 9.276e-02]strawbyte_v1:  90%|########9 | 2694/3000 [2:31:00<18:45,  3.68s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  90%|########9 | 2694/3000 [2:31:00<18:45,  3.68s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  90%|########9 | 2695/3000 [2:31:00<19:43,  3.88s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  90%|########9 | 2695/3000 [2:31:00<19:43,  3.88s/it, lr: 1.0e-04 loss: 1.419e-01]strawbyte_v1:  90%|########9 | 2695/3000 [2:31:03<19:43,  3.88s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  90%|########9 | 2695/3000 [2:31:03<19:43,  3.88s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  90%|########9 | 2696/3000 [2:31:03<17:55,  3.54s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  90%|########9 | 2696/3000 [2:31:03<17:55,  3.54s/it, lr: 1.0e-04 loss: 1.148e-01]strawbyte_v1:  90%|########9 | 2696/3000 [2:31:06<17:55,  3.54s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:  90%|########9 | 2696/3000 [2:31:06<17:55,  3.54s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:  90%|########9 | 2697/3000 [2:31:06<17:25,  3.45s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:  90%|########9 | 2697/3000 [2:31:06<17:25,  3.45s/it, lr: 1.0e-04 loss: 1.226e-01]strawbyte_v1:  90%|########9 | 2697/3000 [2:31:10<17:25,  3.45s/it, lr: 1.0e-04 loss: 3.854e-02]strawbyte_v1:  90%|########9 | 2697/3000 [2:31:10<17:25,  3.45s/it, lr: 1.0e-04 loss: 3.854e-02]strawbyte_v1:  90%|########9 | 2698/3000 [2:31:10<18:45,  3.73s/it, lr: 1.0e-04 loss: 3.854e-02]strawbyte_v1:  90%|########9 | 2698/3000 [2:31:10<18:45,  3.73s/it, lr: 1.0e-04 loss: 3.854e-02]strawbyte_v1:  90%|########9 | 2698/3000 [2:31:13<18:45,  3.73s/it, lr: 1.0e-04 loss: 6.844e-02]strawbyte_v1:  90%|########9 | 2698/3000 [2:31:13<18:45,  3.73s/it, lr: 1.0e-04 loss: 6.844e-02]strawbyte_v1:  90%|########9 | 2699/3000 [2:31:13<17:09,  3.42s/it, lr: 1.0e-04 loss: 6.844e-02]strawbyte_v1:  90%|########9 | 2699/3000 [2:31:13<17:09,  3.42s/it, lr: 1.0e-04 loss: 6.844e-02]strawbyte_v1:  90%|########9 | 2699/3000 [2:31:16<17:09,  3.42s/it, lr: 1.0e-04 loss: 9.703e-02]strawbyte_v1:  90%|########9 | 2699/3000 [2:31:16<17:09,  3.42s/it, lr: 1.0e-04 loss: 9.703e-02]strawbyte_v1:  90%|######### | 2700/3000 [2:31:19<17:06,  3.42s/it, lr: 1.0e-04 loss: 8.358e-02]strawbyte_v1:  90%|######### | 2700/3000 [2:31:19<17:06,  3.42s/it, lr: 1.0e-04 loss: 8.358e-02]strawbyte_v1:  90%|######### | 2701/3000 [2:31:19<12:59,  2.61s/it, lr: 1.0e-04 loss: 8.358e-02]strawbyte_v1:  90%|######### | 2701/3000 [2:31:19<12:59,  2.61s/it, lr: 1.0e-04 loss: 8.358e-02]strawbyte_v1:  90%|######### | 2701/3000 [2:31:24<12:59,  2.61s/it, lr: 1.0e-04 loss: 8.456e-02]strawbyte_v1:  90%|######### | 2701/3000 [2:31:24<12:59,  2.61s/it, lr: 1.0e-04 loss: 8.456e-02]strawbyte_v1:  90%|######### | 2702/3000 [2:31:24<15:00,  3.02s/it, lr: 1.0e-04 loss: 8.456e-02]strawbyte_v1:  90%|######### | 2702/3000 [2:31:24<15:00,  3.02s/it, lr: 1.0e-04 loss: 8.456e-02]strawbyte_v1:  90%|######### | 2702/3000 [2:31:26<15:00,  3.02s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  90%|######### | 2702/3000 [2:31:26<15:00,  3.02s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  90%|######### | 2703/3000 [2:31:26<14:32,  2.94s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  90%|######### | 2703/3000 [2:31:26<14:32,  2.94s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  90%|######### | 2703/3000 [2:31:31<14:32,  2.94s/it, lr: 1.0e-04 loss: 9.935e-02]strawbyte_v1:  90%|######### | 2703/3000 [2:31:31<14:32,  2.94s/it, lr: 1.0e-04 loss: 9.935e-02]strawbyte_v1:  90%|######### | 2704/3000 [2:31:31<16:46,  3.40s/it, lr: 1.0e-04 loss: 9.935e-02]strawbyte_v1:  90%|######### | 2704/3000 [2:31:31<16:46,  3.40s/it, lr: 1.0e-04 loss: 9.935e-02]strawbyte_v1:  90%|######### | 2704/3000 [2:31:34<16:46,  3.40s/it, lr: 1.0e-04 loss: 6.110e-02]strawbyte_v1:  90%|######### | 2704/3000 [2:31:34<16:46,  3.40s/it, lr: 1.0e-04 loss: 6.110e-02]strawbyte_v1:  90%|######### | 2705/3000 [2:31:34<16:13,  3.30s/it, lr: 1.0e-04 loss: 6.110e-02]strawbyte_v1:  90%|######### | 2705/3000 [2:31:34<16:13,  3.30s/it, lr: 1.0e-04 loss: 6.110e-02]strawbyte_v1:  90%|######### | 2705/3000 [2:31:39<16:13,  3.30s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  90%|######### | 2705/3000 [2:31:39<16:13,  3.30s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  90%|######### | 2706/3000 [2:31:39<17:47,  3.63s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  90%|######### | 2706/3000 [2:31:39<17:47,  3.63s/it, lr: 1.0e-04 loss: 1.060e-01]strawbyte_v1:  90%|######### | 2706/3000 [2:31:43<17:47,  3.63s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  90%|######### | 2706/3000 [2:31:43<17:47,  3.63s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  90%|######### | 2707/3000 [2:31:43<18:47,  3.85s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  90%|######### | 2707/3000 [2:31:43<18:47,  3.85s/it, lr: 1.0e-04 loss: 1.114e-01]strawbyte_v1:  90%|######### | 2707/3000 [2:31:46<18:47,  3.85s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  90%|######### | 2707/3000 [2:31:46<18:47,  3.85s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  90%|######### | 2708/3000 [2:31:46<17:36,  3.62s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  90%|######### | 2708/3000 [2:31:46<17:36,  3.62s/it, lr: 1.0e-04 loss: 1.153e-01]strawbyte_v1:  90%|######### | 2708/3000 [2:31:50<17:36,  3.62s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  90%|######### | 2708/3000 [2:31:50<17:36,  3.62s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  90%|######### | 2709/3000 [2:31:50<18:36,  3.84s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  90%|######### | 2709/3000 [2:31:50<18:36,  3.84s/it, lr: 1.0e-04 loss: 1.821e-02]strawbyte_v1:  90%|######### | 2709/3000 [2:31:55<18:36,  3.84s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  90%|######### | 2709/3000 [2:31:55<18:36,  3.84s/it, lr: 1.0e-04 loss: 1.284e-01]strawbyte_v1:  90%|######### | 2710/3000 [2:31:57<18:32,  3.84s/it, lr: 1.0e-04 loss: 2.560e-02]strawbyte_v1:  90%|######### | 2710/3000 [2:31:57<18:32,  3.84s/it, lr: 1.0e-04 loss: 2.560e-02]strawbyte_v1:  90%|######### | 2711/3000 [2:31:57<12:35,  2.61s/it, lr: 1.0e-04 loss: 2.560e-02]strawbyte_v1:  90%|######### | 2711/3000 [2:31:57<12:35,  2.61s/it, lr: 1.0e-04 loss: 2.560e-02]strawbyte_v1:  90%|######### | 2711/3000 [2:32:01<12:35,  2.61s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  90%|######### | 2711/3000 [2:32:01<12:35,  2.61s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  90%|######### | 2712/3000 [2:32:01<14:37,  3.05s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  90%|######### | 2712/3000 [2:32:01<14:37,  3.05s/it, lr: 1.0e-04 loss: 1.116e-01]strawbyte_v1:  90%|######### | 2712/3000 [2:32:04<14:37,  3.05s/it, lr: 1.0e-04 loss: 5.784e-02]strawbyte_v1:  90%|######### | 2712/3000 [2:32:04<14:37,  3.05s/it, lr: 1.0e-04 loss: 5.784e-02]strawbyte_v1:  90%|######### | 2713/3000 [2:32:04<14:11,  2.97s/it, lr: 1.0e-04 loss: 5.784e-02]strawbyte_v1:  90%|######### | 2713/3000 [2:32:04<14:11,  2.97s/it, lr: 1.0e-04 loss: 5.784e-02]strawbyte_v1:  90%|######### | 2713/3000 [2:32:06<14:11,  2.97s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  90%|######### | 2713/3000 [2:32:06<14:11,  2.97s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  90%|######### | 2714/3000 [2:32:06<12:59,  2.73s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  90%|######### | 2714/3000 [2:32:06<12:59,  2.73s/it, lr: 1.0e-04 loss: 1.676e-01]strawbyte_v1:  90%|######### | 2714/3000 [2:32:11<12:59,  2.73s/it, lr: 1.0e-04 loss: 9.685e-02]strawbyte_v1:  90%|######### | 2714/3000 [2:32:11<12:59,  2.73s/it, lr: 1.0e-04 loss: 9.685e-02]strawbyte_v1:  90%|######### | 2715/3000 [2:32:11<15:06,  3.18s/it, lr: 1.0e-04 loss: 9.685e-02]strawbyte_v1:  90%|######### | 2715/3000 [2:32:11<15:06,  3.18s/it, lr: 1.0e-04 loss: 9.685e-02]strawbyte_v1:  90%|######### | 2715/3000 [2:32:13<15:06,  3.18s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  90%|######### | 2715/3000 [2:32:13<15:06,  3.18s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  91%|######### | 2716/3000 [2:32:13<13:32,  2.86s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  91%|######### | 2716/3000 [2:32:13<13:32,  2.86s/it, lr: 1.0e-04 loss: 1.556e-01]strawbyte_v1:  91%|######### | 2716/3000 [2:32:16<13:32,  2.86s/it, lr: 1.0e-04 loss: 6.182e-02]strawbyte_v1:  91%|######### | 2716/3000 [2:32:16<13:32,  2.86s/it, lr: 1.0e-04 loss: 6.182e-02]strawbyte_v1:  91%|######### | 2717/3000 [2:32:16<13:36,  2.89s/it, lr: 1.0e-04 loss: 6.182e-02]strawbyte_v1:  91%|######### | 2717/3000 [2:32:16<13:36,  2.89s/it, lr: 1.0e-04 loss: 6.182e-02]strawbyte_v1:  91%|######### | 2717/3000 [2:32:19<13:36,  2.89s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  91%|######### | 2717/3000 [2:32:19<13:36,  2.89s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  91%|######### | 2718/3000 [2:32:19<13:46,  2.93s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  91%|######### | 2718/3000 [2:32:19<13:46,  2.93s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  91%|######### | 2718/3000 [2:32:22<13:46,  2.93s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  91%|######### | 2718/3000 [2:32:22<13:46,  2.93s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  91%|######### | 2719/3000 [2:32:22<13:45,  2.94s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  91%|######### | 2719/3000 [2:32:22<13:45,  2.94s/it, lr: 1.0e-04 loss: 1.051e-01]strawbyte_v1:  91%|######### | 2719/3000 [2:32:25<13:45,  2.94s/it, lr: 1.0e-04 loss: 1.437e-01]strawbyte_v1:  91%|######### | 2719/3000 [2:32:25<13:45,  2.94s/it, lr: 1.0e-04 loss: 1.437e-01]strawbyte_v1:  91%|######### | 2720/3000 [2:32:29<13:42,  2.94s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  91%|######### | 2720/3000 [2:32:29<13:42,  2.94s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  91%|######### | 2721/3000 [2:32:29<12:11,  2.62s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  91%|######### | 2721/3000 [2:32:29<12:11,  2.62s/it, lr: 1.0e-04 loss: 1.149e-01]strawbyte_v1:  91%|######### | 2721/3000 [2:32:34<12:11,  2.62s/it, lr: 1.0e-04 loss: 5.411e-02]strawbyte_v1:  91%|######### | 2721/3000 [2:32:34<12:11,  2.62s/it, lr: 1.0e-04 loss: 5.411e-02]strawbyte_v1:  91%|######### | 2722/3000 [2:32:34<14:27,  3.12s/it, lr: 1.0e-04 loss: 5.411e-02]strawbyte_v1:  91%|######### | 2722/3000 [2:32:34<14:27,  3.12s/it, lr: 1.0e-04 loss: 5.411e-02]strawbyte_v1:  91%|######### | 2722/3000 [2:32:36<14:27,  3.12s/it, lr: 1.0e-04 loss: 1.962e-03]strawbyte_v1:  91%|######### | 2722/3000 [2:32:36<14:27,  3.12s/it, lr: 1.0e-04 loss: 1.962e-03]strawbyte_v1:  91%|######### | 2723/3000 [2:32:36<13:52,  3.00s/it, lr: 1.0e-04 loss: 1.962e-03]strawbyte_v1:  91%|######### | 2723/3000 [2:32:36<13:52,  3.00s/it, lr: 1.0e-04 loss: 1.962e-03]strawbyte_v1:  91%|######### | 2723/3000 [2:32:41<13:52,  3.00s/it, lr: 1.0e-04 loss: 8.623e-02]strawbyte_v1:  91%|######### | 2723/3000 [2:32:41<13:52,  3.00s/it, lr: 1.0e-04 loss: 8.623e-02]strawbyte_v1:  91%|######### | 2724/3000 [2:32:41<15:41,  3.41s/it, lr: 1.0e-04 loss: 8.623e-02]strawbyte_v1:  91%|######### | 2724/3000 [2:32:41<15:41,  3.41s/it, lr: 1.0e-04 loss: 8.623e-02]strawbyte_v1:  91%|######### | 2724/3000 [2:32:45<15:41,  3.41s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  91%|######### | 2724/3000 [2:32:45<15:41,  3.41s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  91%|######### | 2725/3000 [2:32:45<17:00,  3.71s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  91%|######### | 2725/3000 [2:32:45<17:00,  3.71s/it, lr: 1.0e-04 loss: 1.123e-01]strawbyte_v1:  91%|######### | 2725/3000 [2:32:49<17:00,  3.71s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  91%|######### | 2725/3000 [2:32:49<17:00,  3.71s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  91%|######### | 2726/3000 [2:32:49<16:29,  3.61s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  91%|######### | 2726/3000 [2:32:49<16:29,  3.61s/it, lr: 1.0e-04 loss: 1.568e-01]strawbyte_v1:  91%|######### | 2726/3000 [2:32:52<16:29,  3.61s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  91%|######### | 2726/3000 [2:32:52<16:29,  3.61s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  91%|######### | 2727/3000 [2:32:52<15:38,  3.44s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  91%|######### | 2727/3000 [2:32:52<15:38,  3.44s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  91%|######### | 2727/3000 [2:32:56<15:38,  3.44s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  91%|######### | 2727/3000 [2:32:56<15:38,  3.44s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  91%|######### | 2728/3000 [2:32:56<16:55,  3.74s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  91%|######### | 2728/3000 [2:32:56<16:55,  3.74s/it, lr: 1.0e-04 loss: 9.944e-02]strawbyte_v1:  91%|######### | 2728/3000 [2:33:01<16:55,  3.74s/it, lr: 1.0e-04 loss: 8.860e-02]strawbyte_v1:  91%|######### | 2728/3000 [2:33:01<16:55,  3.74s/it, lr: 1.0e-04 loss: 8.860e-02]strawbyte_v1:  91%|######### | 2729/3000 [2:33:01<17:50,  3.95s/it, lr: 1.0e-04 loss: 8.860e-02]strawbyte_v1:  91%|######### | 2729/3000 [2:33:01<17:50,  3.95s/it, lr: 1.0e-04 loss: 8.860e-02]strawbyte_v1:  91%|######### | 2729/3000 [2:33:04<17:50,  3.95s/it, lr: 1.0e-04 loss: 8.509e-02]strawbyte_v1:  91%|######### | 2729/3000 [2:33:04<17:50,  3.95s/it, lr: 1.0e-04 loss: 8.509e-02]strawbyte_v1:  91%|#########1| 2730/3000 [2:33:07<17:46,  3.95s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  91%|#########1| 2730/3000 [2:33:07<17:46,  3.95s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  91%|#########1| 2731/3000 [2:33:07<12:35,  2.81s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  91%|#########1| 2731/3000 [2:33:07<12:35,  2.81s/it, lr: 1.0e-04 loss: 9.866e-02]strawbyte_v1:  91%|#########1| 2731/3000 [2:33:11<12:35,  2.81s/it, lr: 1.0e-04 loss: 9.639e-02]strawbyte_v1:  91%|#########1| 2731/3000 [2:33:11<12:35,  2.81s/it, lr: 1.0e-04 loss: 9.639e-02]strawbyte_v1:  91%|#########1| 2732/3000 [2:33:11<14:16,  3.20s/it, lr: 1.0e-04 loss: 9.639e-02]strawbyte_v1:  91%|#########1| 2732/3000 [2:33:11<14:16,  3.20s/it, lr: 1.0e-04 loss: 9.639e-02]strawbyte_v1:  91%|#########1| 2732/3000 [2:33:13<14:16,  3.20s/it, lr: 1.0e-04 loss: 2.858e-02]strawbyte_v1:  91%|#########1| 2732/3000 [2:33:13<14:16,  3.20s/it, lr: 1.0e-04 loss: 2.858e-02]strawbyte_v1:  91%|#########1| 2733/3000 [2:33:13<13:22,  3.00s/it, lr: 1.0e-04 loss: 2.858e-02]strawbyte_v1:  91%|#########1| 2733/3000 [2:33:13<13:22,  3.00s/it, lr: 1.0e-04 loss: 2.858e-02]strawbyte_v1:  91%|#########1| 2733/3000 [2:33:16<13:22,  3.00s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  91%|#########1| 2733/3000 [2:33:16<13:22,  3.00s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  91%|#########1| 2734/3000 [2:33:16<13:00,  2.94s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  91%|#########1| 2734/3000 [2:33:16<13:00,  2.94s/it, lr: 1.0e-04 loss: 1.278e-01]strawbyte_v1:  91%|#########1| 2734/3000 [2:33:20<13:00,  2.94s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  91%|#########1| 2734/3000 [2:33:20<13:00,  2.94s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  91%|#########1| 2735/3000 [2:33:20<14:39,  3.32s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  91%|#########1| 2735/3000 [2:33:20<14:39,  3.32s/it, lr: 1.0e-04 loss: 1.327e-01]strawbyte_v1:  91%|#########1| 2735/3000 [2:33:25<14:39,  3.32s/it, lr: 1.0e-04 loss: 7.039e-02]strawbyte_v1:  91%|#########1| 2735/3000 [2:33:25<14:39,  3.32s/it, lr: 1.0e-04 loss: 7.039e-02]strawbyte_v1:  91%|#########1| 2736/3000 [2:33:25<15:57,  3.63s/it, lr: 1.0e-04 loss: 7.039e-02]strawbyte_v1:  91%|#########1| 2736/3000 [2:33:25<15:57,  3.63s/it, lr: 1.0e-04 loss: 7.039e-02]strawbyte_v1:  91%|#########1| 2736/3000 [2:33:28<15:57,  3.63s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  91%|#########1| 2736/3000 [2:33:28<15:57,  3.63s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  91%|#########1| 2737/3000 [2:33:28<15:07,  3.45s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  91%|#########1| 2737/3000 [2:33:28<15:07,  3.45s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  91%|#########1| 2737/3000 [2:33:32<15:07,  3.45s/it, lr: 1.0e-04 loss: 6.830e-02]strawbyte_v1:  91%|#########1| 2737/3000 [2:33:32<15:07,  3.45s/it, lr: 1.0e-04 loss: 6.830e-02]strawbyte_v1:  91%|#########1| 2738/3000 [2:33:32<16:14,  3.72s/it, lr: 1.0e-04 loss: 6.830e-02]strawbyte_v1:  91%|#########1| 2738/3000 [2:33:32<16:14,  3.72s/it, lr: 1.0e-04 loss: 6.830e-02]strawbyte_v1:  91%|#########1| 2738/3000 [2:33:37<16:14,  3.72s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  91%|#########1| 2738/3000 [2:33:37<16:14,  3.72s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  91%|#########1| 2739/3000 [2:33:37<17:00,  3.91s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  91%|#########1| 2739/3000 [2:33:37<17:00,  3.91s/it, lr: 1.0e-04 loss: 1.151e-01]strawbyte_v1:  91%|#########1| 2739/3000 [2:33:41<17:00,  3.91s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  91%|#########1| 2739/3000 [2:33:41<17:00,  3.91s/it, lr: 1.0e-04 loss: 1.015e-01]strawbyte_v1:  91%|#########1| 2740/3000 [2:33:44<16:56,  3.91s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  91%|#########1| 2740/3000 [2:33:44<16:56,  3.91s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  91%|#########1| 2741/3000 [2:33:44<12:13,  2.83s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  91%|#########1| 2741/3000 [2:33:44<12:13,  2.83s/it, lr: 1.0e-04 loss: 1.498e-01]strawbyte_v1:  91%|#########1| 2741/3000 [2:33:47<12:13,  2.83s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  91%|#########1| 2741/3000 [2:33:47<12:13,  2.83s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  91%|#########1| 2742/3000 [2:33:47<12:22,  2.88s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  91%|#########1| 2742/3000 [2:33:47<12:22,  2.88s/it, lr: 1.0e-04 loss: 8.232e-02]strawbyte_v1:  91%|#########1| 2742/3000 [2:33:51<12:22,  2.88s/it, lr: 1.0e-04 loss: 8.558e-02]strawbyte_v1:  91%|#########1| 2742/3000 [2:33:51<12:22,  2.88s/it, lr: 1.0e-04 loss: 8.558e-02]strawbyte_v1:  91%|#########1| 2743/3000 [2:33:52<13:54,  3.25s/it, lr: 1.0e-04 loss: 8.558e-02]strawbyte_v1:  91%|#########1| 2743/3000 [2:33:52<13:54,  3.25s/it, lr: 1.0e-04 loss: 8.558e-02]strawbyte_v1:  91%|#########1| 2743/3000 [2:33:55<13:54,  3.25s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  91%|#########1| 2743/3000 [2:33:55<13:54,  3.25s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  91%|#########1| 2744/3000 [2:33:55<13:41,  3.21s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  91%|#########1| 2744/3000 [2:33:55<13:41,  3.21s/it, lr: 1.0e-04 loss: 2.016e-01]strawbyte_v1:  91%|#########1| 2744/3000 [2:33:57<13:41,  3.21s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  91%|#########1| 2744/3000 [2:33:57<13:41,  3.21s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  92%|#########1| 2745/3000 [2:33:57<13:02,  3.07s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  92%|#########1| 2745/3000 [2:33:57<13:02,  3.07s/it, lr: 1.0e-04 loss: 6.263e-02]strawbyte_v1:  92%|#########1| 2745/3000 [2:34:00<13:02,  3.07s/it, lr: 1.0e-04 loss: 8.316e-02]strawbyte_v1:  92%|#########1| 2745/3000 [2:34:00<13:02,  3.07s/it, lr: 1.0e-04 loss: 8.316e-02]strawbyte_v1:  92%|#########1| 2746/3000 [2:34:00<12:28,  2.95s/it, lr: 1.0e-04 loss: 8.316e-02]strawbyte_v1:  92%|#########1| 2746/3000 [2:34:00<12:28,  2.95s/it, lr: 1.0e-04 loss: 8.316e-02]strawbyte_v1:  92%|#########1| 2746/3000 [2:34:03<12:28,  2.95s/it, lr: 1.0e-04 loss: 9.831e-02]strawbyte_v1:  92%|#########1| 2746/3000 [2:34:03<12:28,  2.95s/it, lr: 1.0e-04 loss: 9.831e-02]strawbyte_v1:  92%|#########1| 2747/3000 [2:34:03<12:29,  2.96s/it, lr: 1.0e-04 loss: 9.831e-02]strawbyte_v1:  92%|#########1| 2747/3000 [2:34:03<12:29,  2.96s/it, lr: 1.0e-04 loss: 9.831e-02]strawbyte_v1:  92%|#########1| 2747/3000 [2:34:06<12:29,  2.96s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  92%|#########1| 2747/3000 [2:34:06<12:29,  2.96s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  92%|#########1| 2748/3000 [2:34:06<12:33,  2.99s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  92%|#########1| 2748/3000 [2:34:06<12:33,  2.99s/it, lr: 1.0e-04 loss: 1.712e-01]strawbyte_v1:  92%|#########1| 2748/3000 [2:34:09<12:33,  2.99s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  92%|#########1| 2748/3000 [2:34:09<12:33,  2.99s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  92%|#########1| 2749/3000 [2:34:09<12:05,  2.89s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  92%|#########1| 2749/3000 [2:34:09<12:05,  2.89s/it, lr: 1.0e-04 loss: 1.727e-01]strawbyte_v1:  92%|#########1| 2749/3000 [2:34:11<12:05,  2.89s/it, lr: 1.0e-04 loss: 1.138e-01]strawbyte_v1:  92%|#########1| 2749/3000 [2:34:11<12:05,  2.89s/it, lr: 1.0e-04 loss: 1.138e-01]
+Saving at step 2750
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000002750.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
+Removing old save: /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1_000001750.safetensors
+
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s][A[A
+
+Generating Images:  25%|##5       | 1/4 [01:14<03:42, 74.33s/it]Generating Images:  25%|##5       | 1/4 [01:14<03:42, 74.33s/it][A[A
+
+Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.29s/it]Generating Images:  50%|#####     | 2/4 [02:28<02:28, 74.29s/it][A[A
+
+Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.26s/it]Generating Images:  75%|#######5  | 3/4 [03:42<01:14, 74.26s/it][A[A
+
+Generating Images: 100%|##########| 4/4 [04:57<00:00, 74.26s/it]Generating Images: 100%|##########| 4/4 [04:57<00:00, 74.26s/it][A[A
+
+                                                                                                                                [A[Astrawbyte_v1:  92%|#########1| 2750/3000 [2:34:14<12:03,  2.89s/it, lr: 1.0e-04 loss: 4.330e-02]strawbyte_v1:  92%|#########1| 2750/3000 [2:34:14<12:03,  2.89s/it, lr: 1.0e-04 loss: 4.330e-02]strawbyte_v1:  92%|#########1| 2751/3000 [2:34:14<09:26,  2.28s/it, lr: 1.0e-04 loss: 4.330e-02]strawbyte_v1:  92%|#########1| 2751/3000 [2:34:14<09:26,  2.28s/it, lr: 1.0e-04 loss: 4.330e-02]strawbyte_v1:  92%|#########1| 2751/3000 [2:34:17<09:26,  2.28s/it, lr: 1.0e-04 loss: 9.570e-02]strawbyte_v1:  92%|#########1| 2751/3000 [2:34:17<09:26,  2.28s/it, lr: 1.0e-04 loss: 9.570e-02]strawbyte_v1:  92%|#########1| 2752/3000 [2:34:17<09:51,  2.39s/it, lr: 1.0e-04 loss: 9.570e-02]strawbyte_v1:  92%|#########1| 2752/3000 [2:34:17<09:51,  2.39s/it, lr: 1.0e-04 loss: 9.570e-02]strawbyte_v1:  92%|#########1| 2752/3000 [2:34:20<09:51,  2.39s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  92%|#########1| 2752/3000 [2:34:20<09:51,  2.39s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  92%|#########1| 2753/3000 [2:34:20<10:28,  2.54s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  92%|#########1| 2753/3000 [2:34:20<10:28,  2.54s/it, lr: 1.0e-04 loss: 1.418e-01]strawbyte_v1:  92%|#########1| 2753/3000 [2:34:23<10:28,  2.54s/it, lr: 1.0e-04 loss: 1.749e-01]strawbyte_v1:  92%|#########1| 2753/3000 [2:34:23<10:28,  2.54s/it, lr: 1.0e-04 loss: 1.749e-01]strawbyte_v1:  92%|#########1| 2754/3000 [2:34:23<10:59,  2.68s/it, lr: 1.0e-04 loss: 1.749e-01]strawbyte_v1:  92%|#########1| 2754/3000 [2:34:23<10:59,  2.68s/it, lr: 1.0e-04 loss: 1.749e-01]strawbyte_v1:  92%|#########1| 2754/3000 [2:34:26<10:59,  2.68s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########1| 2754/3000 [2:34:26<10:59,  2.68s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########1| 2755/3000 [2:34:26<11:19,  2.77s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########1| 2755/3000 [2:34:26<11:19,  2.77s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########1| 2755/3000 [2:34:29<11:19,  2.77s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  92%|#########1| 2755/3000 [2:34:29<11:19,  2.77s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  92%|#########1| 2756/3000 [2:34:29<11:12,  2.76s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  92%|#########1| 2756/3000 [2:34:29<11:12,  2.76s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  92%|#########1| 2756/3000 [2:34:31<11:12,  2.76s/it, lr: 1.0e-04 loss: 1.653e-01]strawbyte_v1:  92%|#########1| 2756/3000 [2:34:31<11:12,  2.76s/it, lr: 1.0e-04 loss: 1.653e-01]strawbyte_v1:  92%|#########1| 2757/3000 [2:34:31<10:43,  2.65s/it, lr: 1.0e-04 loss: 1.653e-01]strawbyte_v1:  92%|#########1| 2757/3000 [2:34:31<10:43,  2.65s/it, lr: 1.0e-04 loss: 1.653e-01]strawbyte_v1:  92%|#########1| 2757/3000 [2:34:34<10:43,  2.65s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  92%|#########1| 2757/3000 [2:34:34<10:43,  2.65s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  92%|#########1| 2758/3000 [2:34:34<10:22,  2.57s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  92%|#########1| 2758/3000 [2:34:34<10:22,  2.57s/it, lr: 1.0e-04 loss: 1.263e-01]strawbyte_v1:  92%|#########1| 2758/3000 [2:34:37<10:22,  2.57s/it, lr: 1.0e-04 loss: 2.270e-02]strawbyte_v1:  92%|#########1| 2758/3000 [2:34:37<10:22,  2.57s/it, lr: 1.0e-04 loss: 2.270e-02]strawbyte_v1:  92%|#########1| 2759/3000 [2:34:37<10:40,  2.66s/it, lr: 1.0e-04 loss: 2.270e-02]strawbyte_v1:  92%|#########1| 2759/3000 [2:34:37<10:40,  2.66s/it, lr: 1.0e-04 loss: 2.270e-02]strawbyte_v1:  92%|#########1| 2759/3000 [2:34:39<10:40,  2.66s/it, lr: 1.0e-04 loss: 8.796e-02]strawbyte_v1:  92%|#########1| 2759/3000 [2:34:39<10:40,  2.66s/it, lr: 1.0e-04 loss: 8.796e-02]strawbyte_v1:  92%|#########2| 2760/3000 [2:34:42<10:37,  2.66s/it, lr: 1.0e-04 loss: 1.111e-01]strawbyte_v1:  92%|#########2| 2760/3000 [2:34:42<10:37,  2.66s/it, lr: 1.0e-04 loss: 1.111e-01]strawbyte_v1:  92%|#########2| 2761/3000 [2:34:42<08:34,  2.15s/it, lr: 1.0e-04 loss: 1.111e-01]strawbyte_v1:  92%|#########2| 2761/3000 [2:34:42<08:34,  2.15s/it, lr: 1.0e-04 loss: 1.111e-01]strawbyte_v1:  92%|#########2| 2761/3000 [2:34:45<08:34,  2.15s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:  92%|#########2| 2761/3000 [2:34:45<08:34,  2.15s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:  92%|#########2| 2762/3000 [2:34:45<09:16,  2.34s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:  92%|#########2| 2762/3000 [2:34:45<09:16,  2.34s/it, lr: 1.0e-04 loss: 1.448e-01]strawbyte_v1:  92%|#########2| 2762/3000 [2:34:47<09:16,  2.34s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  92%|#########2| 2762/3000 [2:34:47<09:16,  2.34s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  92%|#########2| 2763/3000 [2:34:47<08:58,  2.27s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  92%|#########2| 2763/3000 [2:34:47<08:58,  2.27s/it, lr: 1.0e-04 loss: 1.230e-01]strawbyte_v1:  92%|#########2| 2763/3000 [2:34:50<08:58,  2.27s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  92%|#########2| 2763/3000 [2:34:50<08:58,  2.27s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  92%|#########2| 2764/3000 [2:34:50<09:35,  2.44s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  92%|#########2| 2764/3000 [2:34:50<09:35,  2.44s/it, lr: 1.0e-04 loss: 1.254e-01]strawbyte_v1:  92%|#########2| 2764/3000 [2:34:52<09:35,  2.44s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########2| 2764/3000 [2:34:52<09:35,  2.44s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########2| 2765/3000 [2:34:52<09:30,  2.43s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########2| 2765/3000 [2:34:52<09:30,  2.43s/it, lr: 1.0e-04 loss: 1.067e-01]strawbyte_v1:  92%|#########2| 2765/3000 [2:34:55<09:30,  2.43s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  92%|#########2| 2765/3000 [2:34:55<09:30,  2.43s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  92%|#########2| 2766/3000 [2:34:55<10:00,  2.57s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  92%|#########2| 2766/3000 [2:34:55<10:00,  2.57s/it, lr: 1.0e-04 loss: 1.164e-01]strawbyte_v1:  92%|#########2| 2766/3000 [2:34:59<10:00,  2.57s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  92%|#########2| 2766/3000 [2:34:59<10:00,  2.57s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  92%|#########2| 2767/3000 [2:34:59<12:01,  3.10s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  92%|#########2| 2767/3000 [2:34:59<12:01,  3.10s/it, lr: 1.0e-04 loss: 1.096e-01]strawbyte_v1:  92%|#########2| 2767/3000 [2:35:03<12:01,  3.10s/it, lr: 1.0e-04 loss: 8.333e-02]strawbyte_v1:  92%|#########2| 2767/3000 [2:35:03<12:01,  3.10s/it, lr: 1.0e-04 loss: 8.333e-02]strawbyte_v1:  92%|#########2| 2768/3000 [2:35:03<12:03,  3.12s/it, lr: 1.0e-04 loss: 8.333e-02]strawbyte_v1:  92%|#########2| 2768/3000 [2:35:03<12:03,  3.12s/it, lr: 1.0e-04 loss: 8.333e-02]strawbyte_v1:  92%|#########2| 2768/3000 [2:35:05<12:03,  3.12s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  92%|#########2| 2768/3000 [2:35:05<12:03,  3.12s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  92%|#########2| 2769/3000 [2:35:05<11:33,  3.00s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  92%|#########2| 2769/3000 [2:35:05<11:33,  3.00s/it, lr: 1.0e-04 loss: 1.623e-01]strawbyte_v1:  92%|#########2| 2769/3000 [2:35:10<11:33,  3.00s/it, lr: 1.0e-04 loss: 3.610e-02]strawbyte_v1:  92%|#########2| 2769/3000 [2:35:10<11:33,  3.00s/it, lr: 1.0e-04 loss: 3.610e-02]strawbyte_v1:  92%|#########2| 2770/3000 [2:35:12<11:30,  3.00s/it, lr: 1.0e-04 loss: 1.765e-01]strawbyte_v1:  92%|#########2| 2770/3000 [2:35:12<11:30,  3.00s/it, lr: 1.0e-04 loss: 1.765e-01]strawbyte_v1:  92%|#########2| 2771/3000 [2:35:12<08:34,  2.25s/it, lr: 1.0e-04 loss: 1.765e-01]strawbyte_v1:  92%|#########2| 2771/3000 [2:35:12<08:34,  2.25s/it, lr: 1.0e-04 loss: 1.765e-01]strawbyte_v1:  92%|#########2| 2771/3000 [2:35:16<08:34,  2.25s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  92%|#########2| 2771/3000 [2:35:16<08:34,  2.25s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  92%|#########2| 2772/3000 [2:35:16<09:48,  2.58s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  92%|#########2| 2772/3000 [2:35:16<09:48,  2.58s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  92%|#########2| 2772/3000 [2:35:19<09:48,  2.58s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  92%|#########2| 2772/3000 [2:35:19<09:48,  2.58s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  92%|#########2| 2773/3000 [2:35:19<10:09,  2.68s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  92%|#########2| 2773/3000 [2:35:19<10:09,  2.68s/it, lr: 1.0e-04 loss: 1.685e-01]strawbyte_v1:  92%|#########2| 2773/3000 [2:35:24<10:09,  2.68s/it, lr: 1.0e-04 loss: 9.395e-02]strawbyte_v1:  92%|#########2| 2773/3000 [2:35:24<10:09,  2.68s/it, lr: 1.0e-04 loss: 9.395e-02]strawbyte_v1:  92%|#########2| 2774/3000 [2:35:24<11:52,  3.15s/it, lr: 1.0e-04 loss: 9.395e-02]strawbyte_v1:  92%|#########2| 2774/3000 [2:35:24<11:52,  3.15s/it, lr: 1.0e-04 loss: 9.395e-02]strawbyte_v1:  92%|#########2| 2774/3000 [2:35:28<11:52,  3.15s/it, lr: 1.0e-04 loss: 9.605e-02]strawbyte_v1:  92%|#########2| 2774/3000 [2:35:28<11:52,  3.15s/it, lr: 1.0e-04 loss: 9.605e-02]strawbyte_v1:  92%|#########2| 2775/3000 [2:35:28<13:11,  3.52s/it, lr: 1.0e-04 loss: 9.605e-02]strawbyte_v1:  92%|#########2| 2775/3000 [2:35:28<13:11,  3.52s/it, lr: 1.0e-04 loss: 9.605e-02]strawbyte_v1:  92%|#########2| 2775/3000 [2:35:31<13:11,  3.52s/it, lr: 1.0e-04 loss: 9.545e-02]strawbyte_v1:  92%|#########2| 2775/3000 [2:35:31<13:11,  3.52s/it, lr: 1.0e-04 loss: 9.545e-02]strawbyte_v1:  93%|#########2| 2776/3000 [2:35:31<12:55,  3.46s/it, lr: 1.0e-04 loss: 9.545e-02]strawbyte_v1:  93%|#########2| 2776/3000 [2:35:31<12:55,  3.46s/it, lr: 1.0e-04 loss: 9.545e-02]strawbyte_v1:  93%|#########2| 2776/3000 [2:35:34<12:55,  3.46s/it, lr: 1.0e-04 loss: 1.528e-01]strawbyte_v1:  93%|#########2| 2776/3000 [2:35:34<12:55,  3.46s/it, lr: 1.0e-04 loss: 1.528e-01]strawbyte_v1:  93%|#########2| 2777/3000 [2:35:34<12:23,  3.33s/it, lr: 1.0e-04 loss: 1.528e-01]strawbyte_v1:  93%|#########2| 2777/3000 [2:35:34<12:23,  3.33s/it, lr: 1.0e-04 loss: 1.528e-01]strawbyte_v1:  93%|#########2| 2777/3000 [2:35:39<12:23,  3.33s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  93%|#########2| 2777/3000 [2:35:39<12:23,  3.33s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  93%|#########2| 2778/3000 [2:35:39<13:33,  3.67s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  93%|#########2| 2778/3000 [2:35:39<13:33,  3.67s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  93%|#########2| 2778/3000 [2:35:42<13:33,  3.67s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  93%|#########2| 2778/3000 [2:35:42<13:33,  3.67s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  93%|#########2| 2779/3000 [2:35:42<12:47,  3.47s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  93%|#########2| 2779/3000 [2:35:42<12:47,  3.47s/it, lr: 1.0e-04 loss: 1.026e-01]strawbyte_v1:  93%|#########2| 2779/3000 [2:35:45<12:47,  3.47s/it, lr: 1.0e-04 loss: 1.529e-01]strawbyte_v1:  93%|#########2| 2779/3000 [2:35:45<12:47,  3.47s/it, lr: 1.0e-04 loss: 1.529e-01]strawbyte_v1:  93%|#########2| 2780/3000 [2:35:48<12:44,  3.47s/it, lr: 1.0e-04 loss: 6.715e-02]strawbyte_v1:  93%|#########2| 2780/3000 [2:35:48<12:44,  3.47s/it, lr: 1.0e-04 loss: 6.715e-02]strawbyte_v1:  93%|#########2| 2781/3000 [2:35:48<09:07,  2.50s/it, lr: 1.0e-04 loss: 6.715e-02]strawbyte_v1:  93%|#########2| 2781/3000 [2:35:48<09:07,  2.50s/it, lr: 1.0e-04 loss: 6.715e-02]strawbyte_v1:  93%|#########2| 2781/3000 [2:35:51<09:07,  2.50s/it, lr: 1.0e-04 loss: 9.730e-02]strawbyte_v1:  93%|#########2| 2781/3000 [2:35:51<09:07,  2.50s/it, lr: 1.0e-04 loss: 9.730e-02]strawbyte_v1:  93%|#########2| 2782/3000 [2:35:51<09:28,  2.61s/it, lr: 1.0e-04 loss: 9.730e-02]strawbyte_v1:  93%|#########2| 2782/3000 [2:35:51<09:28,  2.61s/it, lr: 1.0e-04 loss: 9.730e-02]strawbyte_v1:  93%|#########2| 2782/3000 [2:35:54<09:28,  2.61s/it, lr: 1.0e-04 loss: 9.667e-02]strawbyte_v1:  93%|#########2| 2782/3000 [2:35:54<09:28,  2.61s/it, lr: 1.0e-04 loss: 9.667e-02]strawbyte_v1:  93%|#########2| 2783/3000 [2:35:54<09:56,  2.75s/it, lr: 1.0e-04 loss: 9.667e-02]strawbyte_v1:  93%|#########2| 2783/3000 [2:35:54<09:56,  2.75s/it, lr: 1.0e-04 loss: 9.667e-02]strawbyte_v1:  93%|#########2| 2783/3000 [2:35:58<09:56,  2.75s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  93%|#########2| 2783/3000 [2:35:58<09:56,  2.75s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  93%|#########2| 2784/3000 [2:35:58<11:23,  3.16s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  93%|#########2| 2784/3000 [2:35:58<11:23,  3.16s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1:  93%|#########2| 2784/3000 [2:36:00<11:23,  3.16s/it, lr: 1.0e-04 loss: 9.600e-02]strawbyte_v1:  93%|#########2| 2784/3000 [2:36:00<11:23,  3.16s/it, lr: 1.0e-04 loss: 9.600e-02]strawbyte_v1:  93%|#########2| 2785/3000 [2:36:00<10:16,  2.87s/it, lr: 1.0e-04 loss: 9.600e-02]strawbyte_v1:  93%|#########2| 2785/3000 [2:36:00<10:16,  2.87s/it, lr: 1.0e-04 loss: 9.600e-02]strawbyte_v1:  93%|#########2| 2785/3000 [2:36:05<10:16,  2.87s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  93%|#########2| 2785/3000 [2:36:05<10:16,  2.87s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  93%|#########2| 2786/3000 [2:36:05<11:45,  3.29s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  93%|#########2| 2786/3000 [2:36:05<11:45,  3.29s/it, lr: 1.0e-04 loss: 1.081e-01]strawbyte_v1:  93%|#########2| 2786/3000 [2:36:07<11:45,  3.29s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:  93%|#########2| 2786/3000 [2:36:07<11:45,  3.29s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:  93%|#########2| 2787/3000 [2:36:07<10:46,  3.03s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:  93%|#########2| 2787/3000 [2:36:07<10:46,  3.03s/it, lr: 1.0e-04 loss: 1.706e-01]strawbyte_v1:  93%|#########2| 2787/3000 [2:36:11<10:46,  3.03s/it, lr: 1.0e-04 loss: 2.310e-02]strawbyte_v1:  93%|#########2| 2787/3000 [2:36:11<10:46,  3.03s/it, lr: 1.0e-04 loss: 2.310e-02]strawbyte_v1:  93%|#########2| 2788/3000 [2:36:11<12:04,  3.42s/it, lr: 1.0e-04 loss: 2.310e-02]strawbyte_v1:  93%|#########2| 2788/3000 [2:36:11<12:04,  3.42s/it, lr: 1.0e-04 loss: 2.310e-02]strawbyte_v1:  93%|#########2| 2788/3000 [2:36:16<12:04,  3.42s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  93%|#########2| 2788/3000 [2:36:16<12:04,  3.42s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  93%|#########2| 2789/3000 [2:36:16<13:00,  3.70s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  93%|#########2| 2789/3000 [2:36:16<13:00,  3.70s/it, lr: 1.0e-04 loss: 1.245e-01]strawbyte_v1:  93%|#########2| 2789/3000 [2:36:19<13:00,  3.70s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  93%|#########2| 2789/3000 [2:36:19<13:00,  3.70s/it, lr: 1.0e-04 loss: 1.134e-01]strawbyte_v1:  93%|#########3| 2790/3000 [2:36:23<12:56,  3.70s/it, lr: 1.0e-04 loss: 7.336e-02]strawbyte_v1:  93%|#########3| 2790/3000 [2:36:23<12:56,  3.70s/it, lr: 1.0e-04 loss: 7.336e-02]strawbyte_v1:  93%|#########3| 2791/3000 [2:36:23<10:27,  3.00s/it, lr: 1.0e-04 loss: 7.336e-02]strawbyte_v1:  93%|#########3| 2791/3000 [2:36:23<10:27,  3.00s/it, lr: 1.0e-04 loss: 7.336e-02]strawbyte_v1:  93%|#########3| 2791/3000 [2:36:26<10:27,  3.00s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  93%|#########3| 2791/3000 [2:36:26<10:27,  3.00s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  93%|#########3| 2792/3000 [2:36:26<10:08,  2.92s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  93%|#########3| 2792/3000 [2:36:26<10:08,  2.92s/it, lr: 1.0e-04 loss: 1.334e-01]strawbyte_v1:  93%|#########3| 2792/3000 [2:36:29<10:08,  2.92s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  93%|#########3| 2792/3000 [2:36:29<10:08,  2.92s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  93%|#########3| 2793/3000 [2:36:29<09:52,  2.86s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  93%|#########3| 2793/3000 [2:36:29<09:52,  2.86s/it, lr: 1.0e-04 loss: 1.833e-01]strawbyte_v1:  93%|#########3| 2793/3000 [2:36:32<09:52,  2.86s/it, lr: 1.0e-04 loss: 2.000e-01]strawbyte_v1:  93%|#########3| 2793/3000 [2:36:32<09:52,  2.86s/it, lr: 1.0e-04 loss: 2.000e-01]strawbyte_v1:  93%|#########3| 2794/3000 [2:36:32<10:01,  2.92s/it, lr: 1.0e-04 loss: 2.000e-01]strawbyte_v1:  93%|#########3| 2794/3000 [2:36:32<10:01,  2.92s/it, lr: 1.0e-04 loss: 2.000e-01]strawbyte_v1:  93%|#########3| 2794/3000 [2:36:35<10:01,  2.92s/it, lr: 1.0e-04 loss: 9.166e-02]strawbyte_v1:  93%|#########3| 2794/3000 [2:36:35<10:01,  2.92s/it, lr: 1.0e-04 loss: 9.166e-02]strawbyte_v1:  93%|#########3| 2795/3000 [2:36:35<10:03,  2.94s/it, lr: 1.0e-04 loss: 9.166e-02]strawbyte_v1:  93%|#########3| 2795/3000 [2:36:35<10:03,  2.94s/it, lr: 1.0e-04 loss: 9.166e-02]strawbyte_v1:  93%|#########3| 2795/3000 [2:36:38<10:03,  2.94s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  93%|#########3| 2795/3000 [2:36:38<10:03,  2.94s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  93%|#########3| 2796/3000 [2:36:38<10:05,  2.97s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  93%|#########3| 2796/3000 [2:36:38<10:05,  2.97s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  93%|#########3| 2796/3000 [2:36:41<10:05,  2.97s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  93%|#########3| 2796/3000 [2:36:41<10:05,  2.97s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  93%|#########3| 2797/3000 [2:36:41<10:08,  3.00s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  93%|#########3| 2797/3000 [2:36:41<10:08,  3.00s/it, lr: 1.0e-04 loss: 1.294e-01]strawbyte_v1:  93%|#########3| 2797/3000 [2:36:44<10:08,  3.00s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  93%|#########3| 2797/3000 [2:36:44<10:08,  3.00s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  93%|#########3| 2798/3000 [2:36:44<10:25,  3.10s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  93%|#########3| 2798/3000 [2:36:44<10:25,  3.10s/it, lr: 1.0e-04 loss: 1.369e-01]strawbyte_v1:  93%|#########3| 2798/3000 [2:36:49<10:25,  3.10s/it, lr: 1.0e-04 loss: 1.011e-01]strawbyte_v1:  93%|#########3| 2798/3000 [2:36:49<10:25,  3.10s/it, lr: 1.0e-04 loss: 1.011e-01]strawbyte_v1:  93%|#########3| 2799/3000 [2:36:49<11:43,  3.50s/it, lr: 1.0e-04 loss: 1.011e-01]strawbyte_v1:  93%|#########3| 2799/3000 [2:36:49<11:43,  3.50s/it, lr: 1.0e-04 loss: 1.011e-01]strawbyte_v1:  93%|#########3| 2799/3000 [2:36:53<11:43,  3.50s/it, lr: 1.0e-04 loss: 6.786e-02]strawbyte_v1:  93%|#########3| 2799/3000 [2:36:53<11:43,  3.50s/it, lr: 1.0e-04 loss: 6.786e-02]strawbyte_v1:  93%|#########3| 2800/3000 [2:36:56<11:40,  3.50s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  93%|#########3| 2800/3000 [2:36:56<11:40,  3.50s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  93%|#########3| 2801/3000 [2:36:56<08:19,  2.51s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  93%|#########3| 2801/3000 [2:36:56<08:19,  2.51s/it, lr: 1.0e-04 loss: 1.286e-01]strawbyte_v1:  93%|#########3| 2801/3000 [2:36:59<08:19,  2.51s/it, lr: 1.0e-04 loss: 1.501e-01]strawbyte_v1:  93%|#########3| 2801/3000 [2:36:59<08:19,  2.51s/it, lr: 1.0e-04 loss: 1.501e-01]strawbyte_v1:  93%|#########3| 2802/3000 [2:36:59<08:43,  2.64s/it, lr: 1.0e-04 loss: 1.501e-01]strawbyte_v1:  93%|#########3| 2802/3000 [2:36:59<08:43,  2.64s/it, lr: 1.0e-04 loss: 1.501e-01]strawbyte_v1:  93%|#########3| 2802/3000 [2:37:02<08:43,  2.64s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  93%|#########3| 2802/3000 [2:37:02<08:43,  2.64s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  93%|#########3| 2803/3000 [2:37:02<08:57,  2.73s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  93%|#########3| 2803/3000 [2:37:02<08:57,  2.73s/it, lr: 1.0e-04 loss: 1.056e-01]strawbyte_v1:  93%|#########3| 2803/3000 [2:37:06<08:57,  2.73s/it, lr: 1.0e-04 loss: 9.175e-02]strawbyte_v1:  93%|#########3| 2803/3000 [2:37:06<08:57,  2.73s/it, lr: 1.0e-04 loss: 9.175e-02]strawbyte_v1:  93%|#########3| 2804/3000 [2:37:06<10:24,  3.19s/it, lr: 1.0e-04 loss: 9.175e-02]strawbyte_v1:  93%|#########3| 2804/3000 [2:37:06<10:24,  3.19s/it, lr: 1.0e-04 loss: 9.175e-02]strawbyte_v1:  93%|#########3| 2804/3000 [2:37:09<10:24,  3.19s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  93%|#########3| 2804/3000 [2:37:09<10:24,  3.19s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  94%|#########3| 2805/3000 [2:37:09<10:15,  3.16s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  94%|#########3| 2805/3000 [2:37:09<10:15,  3.16s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  94%|#########3| 2805/3000 [2:37:12<10:15,  3.16s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  94%|#########3| 2805/3000 [2:37:12<10:15,  3.16s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  94%|#########3| 2806/3000 [2:37:12<09:37,  2.97s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  94%|#########3| 2806/3000 [2:37:12<09:37,  2.97s/it, lr: 1.0e-04 loss: 1.102e-01]strawbyte_v1:  94%|#########3| 2806/3000 [2:37:15<09:37,  2.97s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  94%|#########3| 2806/3000 [2:37:15<09:37,  2.97s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  94%|#########3| 2807/3000 [2:37:15<09:32,  2.97s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  94%|#########3| 2807/3000 [2:37:15<09:32,  2.97s/it, lr: 1.0e-04 loss: 1.325e-01]strawbyte_v1:  94%|#########3| 2807/3000 [2:37:19<09:32,  2.97s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  94%|#########3| 2807/3000 [2:37:19<09:32,  2.97s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  94%|#########3| 2808/3000 [2:37:19<10:44,  3.36s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  94%|#########3| 2808/3000 [2:37:19<10:44,  3.36s/it, lr: 1.0e-04 loss: 1.110e-01]strawbyte_v1:  94%|#########3| 2808/3000 [2:37:23<10:44,  3.36s/it, lr: 1.0e-04 loss: 9.335e-02]strawbyte_v1:  94%|#########3| 2808/3000 [2:37:23<10:44,  3.36s/it, lr: 1.0e-04 loss: 9.335e-02]strawbyte_v1:  94%|#########3| 2809/3000 [2:37:23<11:48,  3.71s/it, lr: 1.0e-04 loss: 9.335e-02]strawbyte_v1:  94%|#########3| 2809/3000 [2:37:23<11:48,  3.71s/it, lr: 1.0e-04 loss: 9.335e-02]strawbyte_v1:  94%|#########3| 2809/3000 [2:37:26<11:48,  3.71s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  94%|#########3| 2809/3000 [2:37:26<11:48,  3.71s/it, lr: 1.0e-04 loss: 1.826e-01]strawbyte_v1:  94%|#########3| 2810/3000 [2:37:28<11:44,  3.71s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########3| 2810/3000 [2:37:28<11:44,  3.71s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########3| 2811/3000 [2:37:28<07:50,  2.49s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########3| 2811/3000 [2:37:28<07:50,  2.49s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########3| 2811/3000 [2:37:33<07:50,  2.49s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  94%|#########3| 2811/3000 [2:37:33<07:50,  2.49s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  94%|#########3| 2812/3000 [2:37:33<09:22,  2.99s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  94%|#########3| 2812/3000 [2:37:33<09:22,  2.99s/it, lr: 1.0e-04 loss: 1.083e-01]strawbyte_v1:  94%|#########3| 2812/3000 [2:37:37<09:22,  2.99s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  94%|#########3| 2812/3000 [2:37:37<09:22,  2.99s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  94%|#########3| 2813/3000 [2:37:37<10:27,  3.36s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  94%|#########3| 2813/3000 [2:37:37<10:27,  3.36s/it, lr: 1.0e-04 loss: 1.058e-01]strawbyte_v1:  94%|#########3| 2813/3000 [2:37:39<10:27,  3.36s/it, lr: 1.0e-04 loss: 1.633e-01]strawbyte_v1:  94%|#########3| 2813/3000 [2:37:39<10:27,  3.36s/it, lr: 1.0e-04 loss: 1.633e-01]strawbyte_v1:  94%|#########3| 2814/3000 [2:37:39<09:20,  3.02s/it, lr: 1.0e-04 loss: 1.633e-01]strawbyte_v1:  94%|#########3| 2814/3000 [2:37:39<09:20,  3.02s/it, lr: 1.0e-04 loss: 1.633e-01]strawbyte_v1:  94%|#########3| 2814/3000 [2:37:42<09:20,  3.02s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  94%|#########3| 2814/3000 [2:37:42<09:20,  3.02s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  94%|#########3| 2815/3000 [2:37:42<09:11,  2.98s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  94%|#########3| 2815/3000 [2:37:42<09:11,  2.98s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1:  94%|#########3| 2815/3000 [2:37:45<09:11,  2.98s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  94%|#########3| 2815/3000 [2:37:45<09:11,  2.98s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  94%|#########3| 2816/3000 [2:37:45<08:43,  2.85s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  94%|#########3| 2816/3000 [2:37:45<08:43,  2.85s/it, lr: 1.0e-04 loss: 1.620e-01]strawbyte_v1:  94%|#########3| 2816/3000 [2:37:49<08:43,  2.85s/it, lr: 1.0e-04 loss: 7.943e-02]strawbyte_v1:  94%|#########3| 2816/3000 [2:37:49<08:43,  2.85s/it, lr: 1.0e-04 loss: 7.943e-02]strawbyte_v1:  94%|#########3| 2817/3000 [2:37:49<10:05,  3.31s/it, lr: 1.0e-04 loss: 7.943e-02]strawbyte_v1:  94%|#########3| 2817/3000 [2:37:49<10:05,  3.31s/it, lr: 1.0e-04 loss: 7.943e-02]strawbyte_v1:  94%|#########3| 2817/3000 [2:37:54<10:05,  3.31s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  94%|#########3| 2817/3000 [2:37:54<10:05,  3.31s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  94%|#########3| 2818/3000 [2:37:54<11:02,  3.64s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  94%|#########3| 2818/3000 [2:37:54<11:02,  3.64s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  94%|#########3| 2818/3000 [2:37:56<11:02,  3.64s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  94%|#########3| 2818/3000 [2:37:56<11:02,  3.64s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  94%|#########3| 2819/3000 [2:37:56<10:08,  3.36s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  94%|#########3| 2819/3000 [2:37:56<10:08,  3.36s/it, lr: 1.0e-04 loss: 1.344e-01]strawbyte_v1:  94%|#########3| 2819/3000 [2:38:01<10:08,  3.36s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  94%|#########3| 2819/3000 [2:38:01<10:08,  3.36s/it, lr: 1.0e-04 loss: 1.034e-01]strawbyte_v1:  94%|#########3| 2820/3000 [2:38:04<10:05,  3.36s/it, lr: 1.0e-04 loss: 1.137e-01]strawbyte_v1:  94%|#########3| 2820/3000 [2:38:04<10:05,  3.36s/it, lr: 1.0e-04 loss: 1.137e-01]strawbyte_v1:  94%|#########4| 2821/3000 [2:38:04<07:32,  2.53s/it, lr: 1.0e-04 loss: 1.137e-01]strawbyte_v1:  94%|#########4| 2821/3000 [2:38:04<07:32,  2.53s/it, lr: 1.0e-04 loss: 1.137e-01]strawbyte_v1:  94%|#########4| 2821/3000 [2:38:09<07:32,  2.53s/it, lr: 1.0e-04 loss: 2.632e-02]strawbyte_v1:  94%|#########4| 2821/3000 [2:38:09<07:32,  2.53s/it, lr: 1.0e-04 loss: 2.632e-02]strawbyte_v1:  94%|#########4| 2822/3000 [2:38:09<08:52,  2.99s/it, lr: 1.0e-04 loss: 2.632e-02]strawbyte_v1:  94%|#########4| 2822/3000 [2:38:09<08:52,  2.99s/it, lr: 1.0e-04 loss: 2.632e-02]strawbyte_v1:  94%|#########4| 2822/3000 [2:38:12<08:52,  2.99s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  94%|#########4| 2822/3000 [2:38:12<08:52,  2.99s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  94%|#########4| 2823/3000 [2:38:12<08:54,  3.02s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  94%|#########4| 2823/3000 [2:38:12<08:54,  3.02s/it, lr: 1.0e-04 loss: 1.747e-01]strawbyte_v1:  94%|#########4| 2823/3000 [2:38:14<08:54,  3.02s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  94%|#########4| 2823/3000 [2:38:14<08:54,  3.02s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  94%|#########4| 2824/3000 [2:38:14<08:36,  2.94s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  94%|#########4| 2824/3000 [2:38:14<08:36,  2.94s/it, lr: 1.0e-04 loss: 1.539e-01]strawbyte_v1:  94%|#########4| 2824/3000 [2:38:19<08:36,  2.94s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  94%|#########4| 2824/3000 [2:38:19<08:36,  2.94s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  94%|#########4| 2825/3000 [2:38:19<09:40,  3.32s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  94%|#########4| 2825/3000 [2:38:19<09:40,  3.32s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  94%|#########4| 2825/3000 [2:38:23<09:40,  3.32s/it, lr: 1.0e-04 loss: 7.594e-02]strawbyte_v1:  94%|#########4| 2825/3000 [2:38:23<09:40,  3.32s/it, lr: 1.0e-04 loss: 7.594e-02]strawbyte_v1:  94%|#########4| 2826/3000 [2:38:23<10:35,  3.65s/it, lr: 1.0e-04 loss: 7.594e-02]strawbyte_v1:  94%|#########4| 2826/3000 [2:38:23<10:35,  3.65s/it, lr: 1.0e-04 loss: 7.594e-02]strawbyte_v1:  94%|#########4| 2826/3000 [2:38:27<10:35,  3.65s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  94%|#########4| 2826/3000 [2:38:27<10:35,  3.65s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  94%|#########4| 2827/3000 [2:38:27<10:17,  3.57s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  94%|#########4| 2827/3000 [2:38:27<10:17,  3.57s/it, lr: 1.0e-04 loss: 1.135e-01]strawbyte_v1:  94%|#########4| 2827/3000 [2:38:31<10:17,  3.57s/it, lr: 1.0e-04 loss: 3.031e-02]strawbyte_v1:  94%|#########4| 2827/3000 [2:38:31<10:17,  3.57s/it, lr: 1.0e-04 loss: 3.031e-02]strawbyte_v1:  94%|#########4| 2828/3000 [2:38:31<10:58,  3.83s/it, lr: 1.0e-04 loss: 3.031e-02]strawbyte_v1:  94%|#########4| 2828/3000 [2:38:31<10:58,  3.83s/it, lr: 1.0e-04 loss: 3.031e-02]strawbyte_v1:  94%|#########4| 2828/3000 [2:38:34<10:58,  3.83s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  94%|#########4| 2828/3000 [2:38:34<10:58,  3.83s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  94%|#########4| 2829/3000 [2:38:34<10:11,  3.57s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  94%|#########4| 2829/3000 [2:38:34<10:11,  3.57s/it, lr: 1.0e-04 loss: 1.155e-01]strawbyte_v1:  94%|#########4| 2829/3000 [2:38:38<10:11,  3.57s/it, lr: 1.0e-04 loss: 4.310e-02]strawbyte_v1:  94%|#########4| 2829/3000 [2:38:38<10:11,  3.57s/it, lr: 1.0e-04 loss: 4.310e-02]strawbyte_v1:  94%|#########4| 2830/3000 [2:38:41<10:07,  3.57s/it, lr: 1.0e-04 loss: 1.604e-01]strawbyte_v1:  94%|#########4| 2830/3000 [2:38:41<10:07,  3.57s/it, lr: 1.0e-04 loss: 1.604e-01]strawbyte_v1:  94%|#########4| 2831/3000 [2:38:41<07:00,  2.49s/it, lr: 1.0e-04 loss: 1.604e-01]strawbyte_v1:  94%|#########4| 2831/3000 [2:38:41<07:00,  2.49s/it, lr: 1.0e-04 loss: 1.604e-01]strawbyte_v1:  94%|#########4| 2831/3000 [2:38:43<07:00,  2.49s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  94%|#########4| 2831/3000 [2:38:43<07:00,  2.49s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  94%|#########4| 2832/3000 [2:38:43<06:40,  2.38s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  94%|#########4| 2832/3000 [2:38:43<06:40,  2.38s/it, lr: 1.0e-04 loss: 1.571e-01]strawbyte_v1:  94%|#########4| 2832/3000 [2:38:46<06:40,  2.38s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########4| 2832/3000 [2:38:46<06:40,  2.38s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########4| 2833/3000 [2:38:46<07:02,  2.53s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########4| 2833/3000 [2:38:46<07:02,  2.53s/it, lr: 1.0e-04 loss: 1.282e-01]strawbyte_v1:  94%|#########4| 2833/3000 [2:38:50<07:02,  2.53s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  94%|#########4| 2833/3000 [2:38:50<07:02,  2.53s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  94%|#########4| 2834/3000 [2:38:50<08:30,  3.08s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  94%|#########4| 2834/3000 [2:38:50<08:30,  3.08s/it, lr: 1.0e-04 loss: 1.265e-01]strawbyte_v1:  94%|#########4| 2834/3000 [2:38:52<08:30,  3.08s/it, lr: 1.0e-04 loss: 7.578e-02]strawbyte_v1:  94%|#########4| 2834/3000 [2:38:52<08:30,  3.08s/it, lr: 1.0e-04 loss: 7.578e-02]strawbyte_v1:  94%|#########4| 2835/3000 [2:38:52<07:42,  2.80s/it, lr: 1.0e-04 loss: 7.578e-02]strawbyte_v1:  94%|#########4| 2835/3000 [2:38:52<07:42,  2.80s/it, lr: 1.0e-04 loss: 7.578e-02]strawbyte_v1:  94%|#########4| 2835/3000 [2:38:54<07:42,  2.80s/it, lr: 1.0e-04 loss: 1.042e-01]strawbyte_v1:  94%|#########4| 2835/3000 [2:38:54<07:42,  2.80s/it, lr: 1.0e-04 loss: 1.042e-01]strawbyte_v1:  95%|#########4| 2836/3000 [2:38:54<07:04,  2.59s/it, lr: 1.0e-04 loss: 1.042e-01]strawbyte_v1:  95%|#########4| 2836/3000 [2:38:54<07:04,  2.59s/it, lr: 1.0e-04 loss: 1.042e-01]strawbyte_v1:  95%|#########4| 2836/3000 [2:38:59<07:04,  2.59s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  95%|#########4| 2836/3000 [2:38:59<07:04,  2.59s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  95%|#########4| 2837/3000 [2:38:59<08:23,  3.09s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  95%|#########4| 2837/3000 [2:38:59<08:23,  3.09s/it, lr: 1.0e-04 loss: 1.367e-01]strawbyte_v1:  95%|#########4| 2837/3000 [2:39:02<08:23,  3.09s/it, lr: 1.0e-04 loss: 1.095e-01]strawbyte_v1:  95%|#########4| 2837/3000 [2:39:02<08:23,  3.09s/it, lr: 1.0e-04 loss: 1.095e-01]strawbyte_v1:  95%|#########4| 2838/3000 [2:39:02<08:22,  3.10s/it, lr: 1.0e-04 loss: 1.095e-01]strawbyte_v1:  95%|#########4| 2838/3000 [2:39:02<08:22,  3.10s/it, lr: 1.0e-04 loss: 1.095e-01]strawbyte_v1:  95%|#########4| 2838/3000 [2:39:05<08:22,  3.10s/it, lr: 1.0e-04 loss: 4.275e-02]strawbyte_v1:  95%|#########4| 2838/3000 [2:39:05<08:22,  3.10s/it, lr: 1.0e-04 loss: 4.275e-02]strawbyte_v1:  95%|#########4| 2839/3000 [2:39:05<08:14,  3.07s/it, lr: 1.0e-04 loss: 4.275e-02]strawbyte_v1:  95%|#########4| 2839/3000 [2:39:05<08:14,  3.07s/it, lr: 1.0e-04 loss: 4.275e-02]strawbyte_v1:  95%|#########4| 2839/3000 [2:39:08<08:14,  3.07s/it, lr: 1.0e-04 loss: 1.605e-01]strawbyte_v1:  95%|#########4| 2839/3000 [2:39:08<08:14,  3.07s/it, lr: 1.0e-04 loss: 1.605e-01]strawbyte_v1:  95%|#########4| 2840/3000 [2:39:12<08:11,  3.07s/it, lr: 1.0e-04 loss: 6.372e-02]strawbyte_v1:  95%|#########4| 2840/3000 [2:39:12<08:11,  3.07s/it, lr: 1.0e-04 loss: 6.372e-02]strawbyte_v1:  95%|#########4| 2841/3000 [2:39:12<07:05,  2.68s/it, lr: 1.0e-04 loss: 6.372e-02]strawbyte_v1:  95%|#########4| 2841/3000 [2:39:12<07:05,  2.68s/it, lr: 1.0e-04 loss: 6.372e-02]strawbyte_v1:  95%|#########4| 2841/3000 [2:39:17<07:05,  2.68s/it, lr: 1.0e-04 loss: 5.594e-02]strawbyte_v1:  95%|#########4| 2841/3000 [2:39:17<07:05,  2.68s/it, lr: 1.0e-04 loss: 5.594e-02]strawbyte_v1:  95%|#########4| 2842/3000 [2:39:17<08:24,  3.20s/it, lr: 1.0e-04 loss: 5.594e-02]strawbyte_v1:  95%|#########4| 2842/3000 [2:39:17<08:24,  3.20s/it, lr: 1.0e-04 loss: 5.594e-02]strawbyte_v1:  95%|#########4| 2842/3000 [2:39:19<08:24,  3.20s/it, lr: 1.0e-04 loss: 9.744e-02]strawbyte_v1:  95%|#########4| 2842/3000 [2:39:19<08:24,  3.20s/it, lr: 1.0e-04 loss: 9.744e-02]strawbyte_v1:  95%|#########4| 2843/3000 [2:39:19<08:01,  3.07s/it, lr: 1.0e-04 loss: 9.744e-02]strawbyte_v1:  95%|#########4| 2843/3000 [2:39:19<08:01,  3.07s/it, lr: 1.0e-04 loss: 9.744e-02]strawbyte_v1:  95%|#########4| 2843/3000 [2:39:22<08:01,  3.07s/it, lr: 1.0e-04 loss: 9.819e-02]strawbyte_v1:  95%|#########4| 2843/3000 [2:39:22<08:01,  3.07s/it, lr: 1.0e-04 loss: 9.819e-02]strawbyte_v1:  95%|#########4| 2844/3000 [2:39:23<07:56,  3.05s/it, lr: 1.0e-04 loss: 9.819e-02]strawbyte_v1:  95%|#########4| 2844/3000 [2:39:23<07:56,  3.05s/it, lr: 1.0e-04 loss: 9.819e-02]strawbyte_v1:  95%|#########4| 2844/3000 [2:39:26<07:56,  3.05s/it, lr: 1.0e-04 loss: 1.429e-01]strawbyte_v1:  95%|#########4| 2844/3000 [2:39:26<07:56,  3.05s/it, lr: 1.0e-04 loss: 1.429e-01]strawbyte_v1:  95%|#########4| 2845/3000 [2:39:26<08:04,  3.12s/it, lr: 1.0e-04 loss: 1.429e-01]strawbyte_v1:  95%|#########4| 2845/3000 [2:39:26<08:04,  3.12s/it, lr: 1.0e-04 loss: 1.429e-01]strawbyte_v1:  95%|#########4| 2845/3000 [2:39:29<08:04,  3.12s/it, lr: 1.0e-04 loss: 7.442e-03]strawbyte_v1:  95%|#########4| 2845/3000 [2:39:29<08:04,  3.12s/it, lr: 1.0e-04 loss: 7.442e-03]strawbyte_v1:  95%|#########4| 2846/3000 [2:39:29<07:42,  3.01s/it, lr: 1.0e-04 loss: 7.442e-03]strawbyte_v1:  95%|#########4| 2846/3000 [2:39:29<07:42,  3.01s/it, lr: 1.0e-04 loss: 7.442e-03]strawbyte_v1:  95%|#########4| 2846/3000 [2:39:33<07:42,  3.01s/it, lr: 1.0e-04 loss: 3.298e-02]strawbyte_v1:  95%|#########4| 2846/3000 [2:39:33<07:42,  3.01s/it, lr: 1.0e-04 loss: 3.298e-02]strawbyte_v1:  95%|#########4| 2847/3000 [2:39:33<08:42,  3.42s/it, lr: 1.0e-04 loss: 3.298e-02]strawbyte_v1:  95%|#########4| 2847/3000 [2:39:33<08:42,  3.42s/it, lr: 1.0e-04 loss: 3.298e-02]strawbyte_v1:  95%|#########4| 2847/3000 [2:39:36<08:42,  3.42s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  95%|#########4| 2847/3000 [2:39:36<08:42,  3.42s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  95%|#########4| 2848/3000 [2:39:36<08:06,  3.20s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  95%|#########4| 2848/3000 [2:39:36<08:06,  3.20s/it, lr: 1.0e-04 loss: 1.435e-01]strawbyte_v1:  95%|#########4| 2848/3000 [2:39:39<08:06,  3.20s/it, lr: 1.0e-04 loss: 6.327e-02]strawbyte_v1:  95%|#########4| 2848/3000 [2:39:39<08:06,  3.20s/it, lr: 1.0e-04 loss: 6.327e-02]strawbyte_v1:  95%|#########4| 2849/3000 [2:39:39<08:10,  3.25s/it, lr: 1.0e-04 loss: 6.327e-02]strawbyte_v1:  95%|#########4| 2849/3000 [2:39:39<08:10,  3.25s/it, lr: 1.0e-04 loss: 6.327e-02]strawbyte_v1:  95%|#########4| 2849/3000 [2:39:42<08:10,  3.25s/it, lr: 1.0e-04 loss: 5.278e-02]strawbyte_v1:  95%|#########4| 2849/3000 [2:39:42<08:10,  3.25s/it, lr: 1.0e-04 loss: 5.278e-02]strawbyte_v1:  95%|#########5| 2850/3000 [2:39:45<08:07,  3.25s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  95%|#########5| 2850/3000 [2:39:45<08:07,  3.25s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  95%|#########5| 2851/3000 [2:39:45<06:04,  2.44s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  95%|#########5| 2851/3000 [2:39:45<06:04,  2.44s/it, lr: 1.0e-04 loss: 1.698e-01]strawbyte_v1:  95%|#########5| 2851/3000 [2:39:47<06:04,  2.44s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  95%|#########5| 2851/3000 [2:39:47<06:04,  2.44s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  95%|#########5| 2852/3000 [2:39:47<06:11,  2.51s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  95%|#########5| 2852/3000 [2:39:47<06:11,  2.51s/it, lr: 1.0e-04 loss: 1.141e-01]strawbyte_v1:  95%|#########5| 2852/3000 [2:39:52<06:11,  2.51s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  95%|#########5| 2852/3000 [2:39:52<06:11,  2.51s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  95%|#########5| 2853/3000 [2:39:52<07:34,  3.09s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  95%|#########5| 2853/3000 [2:39:52<07:34,  3.09s/it, lr: 1.0e-04 loss: 1.057e-01]strawbyte_v1:  95%|#########5| 2853/3000 [2:39:56<07:34,  3.09s/it, lr: 1.0e-04 loss: 8.765e-02]strawbyte_v1:  95%|#########5| 2853/3000 [2:39:56<07:34,  3.09s/it, lr: 1.0e-04 loss: 8.765e-02]strawbyte_v1:  95%|#########5| 2854/3000 [2:39:56<08:20,  3.43s/it, lr: 1.0e-04 loss: 8.765e-02]strawbyte_v1:  95%|#########5| 2854/3000 [2:39:56<08:20,  3.43s/it, lr: 1.0e-04 loss: 8.765e-02]strawbyte_v1:  95%|#########5| 2854/3000 [2:39:59<08:20,  3.43s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  95%|#########5| 2854/3000 [2:39:59<08:20,  3.43s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  95%|#########5| 2855/3000 [2:39:59<07:54,  3.28s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  95%|#########5| 2855/3000 [2:39:59<07:54,  3.28s/it, lr: 1.0e-04 loss: 1.228e-01]strawbyte_v1:  95%|#########5| 2855/3000 [2:40:02<07:54,  3.28s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  95%|#########5| 2855/3000 [2:40:02<07:54,  3.28s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  95%|#########5| 2856/3000 [2:40:02<07:16,  3.03s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  95%|#########5| 2856/3000 [2:40:02<07:16,  3.03s/it, lr: 1.0e-04 loss: 1.119e-01]strawbyte_v1:  95%|#########5| 2856/3000 [2:40:06<07:16,  3.03s/it, lr: 1.0e-04 loss: 9.638e-02]strawbyte_v1:  95%|#########5| 2856/3000 [2:40:06<07:16,  3.03s/it, lr: 1.0e-04 loss: 9.638e-02]strawbyte_v1:  95%|#########5| 2857/3000 [2:40:06<08:09,  3.42s/it, lr: 1.0e-04 loss: 9.638e-02]strawbyte_v1:  95%|#########5| 2857/3000 [2:40:06<08:09,  3.42s/it, lr: 1.0e-04 loss: 9.638e-02]strawbyte_v1:  95%|#########5| 2857/3000 [2:40:08<08:09,  3.42s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  95%|#########5| 2857/3000 [2:40:08<08:09,  3.42s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  95%|#########5| 2858/3000 [2:40:08<07:10,  3.03s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  95%|#########5| 2858/3000 [2:40:08<07:10,  3.03s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1:  95%|#########5| 2858/3000 [2:40:10<07:10,  3.03s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  95%|#########5| 2858/3000 [2:40:10<07:10,  3.03s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  95%|#########5| 2859/3000 [2:40:10<06:29,  2.76s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  95%|#########5| 2859/3000 [2:40:10<06:29,  2.76s/it, lr: 1.0e-04 loss: 1.462e-01]strawbyte_v1:  95%|#########5| 2859/3000 [2:40:13<06:29,  2.76s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  95%|#########5| 2859/3000 [2:40:13<06:29,  2.76s/it, lr: 1.0e-04 loss: 1.160e-01]strawbyte_v1:  95%|#########5| 2860/3000 [2:40:16<06:26,  2.76s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  95%|#########5| 2860/3000 [2:40:16<06:26,  2.76s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  95%|#########5| 2861/3000 [2:40:16<04:59,  2.15s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  95%|#########5| 2861/3000 [2:40:16<04:59,  2.15s/it, lr: 1.0e-04 loss: 1.259e-01]strawbyte_v1:  95%|#########5| 2861/3000 [2:40:18<04:59,  2.15s/it, lr: 1.0e-04 loss: 6.753e-02]strawbyte_v1:  95%|#########5| 2861/3000 [2:40:18<04:59,  2.15s/it, lr: 1.0e-04 loss: 6.753e-02]strawbyte_v1:  95%|#########5| 2862/3000 [2:40:18<04:55,  2.14s/it, lr: 1.0e-04 loss: 6.753e-02]strawbyte_v1:  95%|#########5| 2862/3000 [2:40:18<04:55,  2.14s/it, lr: 1.0e-04 loss: 6.753e-02]strawbyte_v1:  95%|#########5| 2862/3000 [2:40:22<04:55,  2.14s/it, lr: 1.0e-04 loss: 7.870e-02]strawbyte_v1:  95%|#########5| 2862/3000 [2:40:22<04:55,  2.14s/it, lr: 1.0e-04 loss: 7.870e-02]strawbyte_v1:  95%|#########5| 2863/3000 [2:40:22<05:27,  2.39s/it, lr: 1.0e-04 loss: 7.870e-02]strawbyte_v1:  95%|#########5| 2863/3000 [2:40:22<05:27,  2.39s/it, lr: 1.0e-04 loss: 7.870e-02]strawbyte_v1:  95%|#########5| 2863/3000 [2:40:24<05:27,  2.39s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  95%|#########5| 2863/3000 [2:40:24<05:27,  2.39s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  95%|#########5| 2864/3000 [2:40:24<05:43,  2.53s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  95%|#########5| 2864/3000 [2:40:24<05:43,  2.53s/it, lr: 1.0e-04 loss: 1.246e-01]strawbyte_v1:  95%|#########5| 2864/3000 [2:40:27<05:43,  2.53s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  95%|#########5| 2864/3000 [2:40:27<05:43,  2.53s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  96%|#########5| 2865/3000 [2:40:27<05:56,  2.64s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  96%|#########5| 2865/3000 [2:40:27<05:56,  2.64s/it, lr: 1.0e-04 loss: 8.428e-02]strawbyte_v1:  96%|#########5| 2865/3000 [2:40:32<05:56,  2.64s/it, lr: 1.0e-04 loss: 5.701e-02]strawbyte_v1:  96%|#########5| 2865/3000 [2:40:32<05:56,  2.64s/it, lr: 1.0e-04 loss: 5.701e-02]strawbyte_v1:  96%|#########5| 2866/3000 [2:40:32<06:57,  3.11s/it, lr: 1.0e-04 loss: 5.701e-02]strawbyte_v1:  96%|#########5| 2866/3000 [2:40:32<06:57,  3.11s/it, lr: 1.0e-04 loss: 5.701e-02]strawbyte_v1:  96%|#########5| 2866/3000 [2:40:35<06:57,  3.11s/it, lr: 1.0e-04 loss: 1.861e-01]strawbyte_v1:  96%|#########5| 2866/3000 [2:40:35<06:57,  3.11s/it, lr: 1.0e-04 loss: 1.861e-01]strawbyte_v1:  96%|#########5| 2867/3000 [2:40:35<06:53,  3.11s/it, lr: 1.0e-04 loss: 1.861e-01]strawbyte_v1:  96%|#########5| 2867/3000 [2:40:35<06:53,  3.11s/it, lr: 1.0e-04 loss: 1.861e-01]strawbyte_v1:  96%|#########5| 2867/3000 [2:40:37<06:53,  3.11s/it, lr: 1.0e-04 loss: 2.476e-02]strawbyte_v1:  96%|#########5| 2867/3000 [2:40:37<06:53,  3.11s/it, lr: 1.0e-04 loss: 2.476e-02]strawbyte_v1:  96%|#########5| 2868/3000 [2:40:37<06:34,  2.99s/it, lr: 1.0e-04 loss: 2.476e-02]strawbyte_v1:  96%|#########5| 2868/3000 [2:40:37<06:34,  2.99s/it, lr: 1.0e-04 loss: 2.476e-02]strawbyte_v1:  96%|#########5| 2868/3000 [2:40:42<06:34,  2.99s/it, lr: 1.0e-04 loss: 7.238e-02]strawbyte_v1:  96%|#########5| 2868/3000 [2:40:42<06:34,  2.99s/it, lr: 1.0e-04 loss: 7.238e-02]strawbyte_v1:  96%|#########5| 2869/3000 [2:40:42<07:28,  3.42s/it, lr: 1.0e-04 loss: 7.238e-02]strawbyte_v1:  96%|#########5| 2869/3000 [2:40:42<07:28,  3.42s/it, lr: 1.0e-04 loss: 7.238e-02]strawbyte_v1:  96%|#########5| 2869/3000 [2:40:45<07:28,  3.42s/it, lr: 1.0e-04 loss: 4.308e-02]strawbyte_v1:  96%|#########5| 2869/3000 [2:40:45<07:28,  3.42s/it, lr: 1.0e-04 loss: 4.308e-02]strawbyte_v1:  96%|#########5| 2870/3000 [2:40:48<07:24,  3.42s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  96%|#########5| 2870/3000 [2:40:48<07:24,  3.42s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  96%|#########5| 2871/3000 [2:40:48<05:36,  2.61s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  96%|#########5| 2871/3000 [2:40:48<05:36,  2.61s/it, lr: 1.0e-04 loss: 1.287e-01]strawbyte_v1:  96%|#########5| 2871/3000 [2:40:51<05:36,  2.61s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  96%|#########5| 2871/3000 [2:40:51<05:36,  2.61s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  96%|#########5| 2872/3000 [2:40:51<05:37,  2.64s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  96%|#########5| 2872/3000 [2:40:51<05:37,  2.64s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  96%|#########5| 2872/3000 [2:40:54<05:37,  2.64s/it, lr: 1.0e-04 loss: 1.275e-03]strawbyte_v1:  96%|#########5| 2872/3000 [2:40:54<05:37,  2.64s/it, lr: 1.0e-04 loss: 1.275e-03]strawbyte_v1:  96%|#########5| 2873/3000 [2:40:54<05:36,  2.65s/it, lr: 1.0e-04 loss: 1.275e-03]strawbyte_v1:  96%|#########5| 2873/3000 [2:40:54<05:36,  2.65s/it, lr: 1.0e-04 loss: 1.275e-03]strawbyte_v1:  96%|#########5| 2873/3000 [2:40:57<05:36,  2.65s/it, lr: 1.0e-04 loss: 1.195e-01]strawbyte_v1:  96%|#########5| 2873/3000 [2:40:57<05:36,  2.65s/it, lr: 1.0e-04 loss: 1.195e-01]strawbyte_v1:  96%|#########5| 2874/3000 [2:40:57<05:56,  2.83s/it, lr: 1.0e-04 loss: 1.195e-01]strawbyte_v1:  96%|#########5| 2874/3000 [2:40:57<05:56,  2.83s/it, lr: 1.0e-04 loss: 1.195e-01]strawbyte_v1:  96%|#########5| 2874/3000 [2:41:00<05:56,  2.83s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  96%|#########5| 2874/3000 [2:41:00<05:56,  2.83s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  96%|#########5| 2875/3000 [2:41:00<05:58,  2.87s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  96%|#########5| 2875/3000 [2:41:00<05:58,  2.87s/it, lr: 1.0e-04 loss: 9.733e-02]strawbyte_v1:  96%|#########5| 2875/3000 [2:41:03<05:58,  2.87s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1:  96%|#########5| 2875/3000 [2:41:03<05:58,  2.87s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1:  96%|#########5| 2876/3000 [2:41:03<05:49,  2.82s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1:  96%|#########5| 2876/3000 [2:41:03<05:49,  2.82s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1:  96%|#########5| 2876/3000 [2:41:05<05:49,  2.82s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  96%|#########5| 2876/3000 [2:41:05<05:49,  2.82s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  96%|#########5| 2877/3000 [2:41:05<05:42,  2.79s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  96%|#########5| 2877/3000 [2:41:05<05:42,  2.79s/it, lr: 1.0e-04 loss: 1.280e-01]strawbyte_v1:  96%|#########5| 2877/3000 [2:41:10<05:42,  2.79s/it, lr: 1.0e-04 loss: 8.853e-02]strawbyte_v1:  96%|#########5| 2877/3000 [2:41:10<05:42,  2.79s/it, lr: 1.0e-04 loss: 8.853e-02]strawbyte_v1:  96%|#########5| 2878/3000 [2:41:10<06:48,  3.35s/it, lr: 1.0e-04 loss: 8.853e-02]strawbyte_v1:  96%|#########5| 2878/3000 [2:41:10<06:48,  3.35s/it, lr: 1.0e-04 loss: 8.853e-02]strawbyte_v1:  96%|#########5| 2878/3000 [2:41:14<06:48,  3.35s/it, lr: 1.0e-04 loss: 8.815e-02]strawbyte_v1:  96%|#########5| 2878/3000 [2:41:14<06:48,  3.35s/it, lr: 1.0e-04 loss: 8.815e-02]strawbyte_v1:  96%|#########5| 2879/3000 [2:41:15<07:21,  3.65s/it, lr: 1.0e-04 loss: 8.815e-02]strawbyte_v1:  96%|#########5| 2879/3000 [2:41:15<07:21,  3.65s/it, lr: 1.0e-04 loss: 8.815e-02]strawbyte_v1:  96%|#########5| 2879/3000 [2:41:17<07:21,  3.65s/it, lr: 1.0e-04 loss: 2.922e-02]strawbyte_v1:  96%|#########5| 2879/3000 [2:41:17<07:21,  3.65s/it, lr: 1.0e-04 loss: 2.922e-02]strawbyte_v1:  96%|#########6| 2880/3000 [2:41:22<07:18,  3.65s/it, lr: 1.0e-04 loss: 5.741e-02]strawbyte_v1:  96%|#########6| 2880/3000 [2:41:22<07:18,  3.65s/it, lr: 1.0e-04 loss: 5.741e-02]strawbyte_v1:  96%|#########6| 2881/3000 [2:41:22<05:53,  2.97s/it, lr: 1.0e-04 loss: 5.741e-02]strawbyte_v1:  96%|#########6| 2881/3000 [2:41:22<05:53,  2.97s/it, lr: 1.0e-04 loss: 5.741e-02]strawbyte_v1:  96%|#########6| 2881/3000 [2:41:24<05:53,  2.97s/it, lr: 1.0e-04 loss: 8.761e-02]strawbyte_v1:  96%|#########6| 2881/3000 [2:41:24<05:53,  2.97s/it, lr: 1.0e-04 loss: 8.761e-02]strawbyte_v1:  96%|#########6| 2882/3000 [2:41:24<05:33,  2.83s/it, lr: 1.0e-04 loss: 8.761e-02]strawbyte_v1:  96%|#########6| 2882/3000 [2:41:24<05:33,  2.83s/it, lr: 1.0e-04 loss: 8.761e-02]strawbyte_v1:  96%|#########6| 2882/3000 [2:41:26<05:33,  2.83s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  96%|#########6| 2882/3000 [2:41:26<05:33,  2.83s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  96%|#########6| 2883/3000 [2:41:26<05:08,  2.63s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  96%|#########6| 2883/3000 [2:41:26<05:08,  2.63s/it, lr: 1.0e-04 loss: 1.457e-01]strawbyte_v1:  96%|#########6| 2883/3000 [2:41:30<05:08,  2.63s/it, lr: 1.0e-04 loss: 4.635e-02]strawbyte_v1:  96%|#########6| 2883/3000 [2:41:30<05:08,  2.63s/it, lr: 1.0e-04 loss: 4.635e-02]strawbyte_v1:  96%|#########6| 2884/3000 [2:41:31<05:58,  3.09s/it, lr: 1.0e-04 loss: 4.635e-02]strawbyte_v1:  96%|#########6| 2884/3000 [2:41:31<05:58,  3.09s/it, lr: 1.0e-04 loss: 4.635e-02]strawbyte_v1:  96%|#########6| 2884/3000 [2:41:35<05:58,  3.09s/it, lr: 1.0e-04 loss: 8.852e-02]strawbyte_v1:  96%|#########6| 2884/3000 [2:41:35<05:58,  3.09s/it, lr: 1.0e-04 loss: 8.852e-02]strawbyte_v1:  96%|#########6| 2885/3000 [2:41:35<06:42,  3.50s/it, lr: 1.0e-04 loss: 8.852e-02]strawbyte_v1:  96%|#########6| 2885/3000 [2:41:35<06:42,  3.50s/it, lr: 1.0e-04 loss: 8.852e-02]strawbyte_v1:  96%|#########6| 2885/3000 [2:41:37<06:42,  3.50s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  96%|#########6| 2885/3000 [2:41:37<06:42,  3.50s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  96%|#########6| 2886/3000 [2:41:37<05:53,  3.10s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  96%|#########6| 2886/3000 [2:41:37<05:53,  3.10s/it, lr: 1.0e-04 loss: 1.321e-01]strawbyte_v1:  96%|#########6| 2886/3000 [2:41:39<05:53,  3.10s/it, lr: 1.0e-04 loss: 3.515e-02]strawbyte_v1:  96%|#########6| 2886/3000 [2:41:39<05:53,  3.10s/it, lr: 1.0e-04 loss: 3.515e-02]strawbyte_v1:  96%|#########6| 2887/3000 [2:41:39<05:17,  2.81s/it, lr: 1.0e-04 loss: 3.515e-02]strawbyte_v1:  96%|#########6| 2887/3000 [2:41:39<05:17,  2.81s/it, lr: 1.0e-04 loss: 3.515e-02]strawbyte_v1:  96%|#########6| 2887/3000 [2:41:44<05:17,  2.81s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  96%|#########6| 2887/3000 [2:41:44<05:17,  2.81s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  96%|#########6| 2888/3000 [2:41:44<06:05,  3.26s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  96%|#########6| 2888/3000 [2:41:44<06:05,  3.26s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  96%|#########6| 2888/3000 [2:41:47<06:05,  3.26s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  96%|#########6| 2888/3000 [2:41:47<06:05,  3.26s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  96%|#########6| 2889/3000 [2:41:47<06:00,  3.24s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  96%|#########6| 2889/3000 [2:41:47<06:00,  3.24s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  96%|#########6| 2889/3000 [2:41:51<06:00,  3.24s/it, lr: 1.0e-04 loss: 4.647e-02]strawbyte_v1:  96%|#########6| 2889/3000 [2:41:51<06:00,  3.24s/it, lr: 1.0e-04 loss: 4.647e-02]strawbyte_v1:  96%|#########6| 2890/3000 [2:41:54<05:56,  3.24s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  96%|#########6| 2890/3000 [2:41:54<05:56,  3.24s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  96%|#########6| 2891/3000 [2:41:54<04:18,  2.37s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  96%|#########6| 2891/3000 [2:41:54<04:18,  2.37s/it, lr: 1.0e-04 loss: 1.086e-01]strawbyte_v1:  96%|#########6| 2891/3000 [2:41:57<04:18,  2.37s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  96%|#########6| 2891/3000 [2:41:57<04:18,  2.37s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  96%|#########6| 2892/3000 [2:41:57<04:35,  2.55s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  96%|#########6| 2892/3000 [2:41:57<04:35,  2.55s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  96%|#########6| 2892/3000 [2:42:00<04:35,  2.55s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  96%|#########6| 2892/3000 [2:42:00<04:35,  2.55s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  96%|#########6| 2893/3000 [2:42:00<04:46,  2.67s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  96%|#########6| 2893/3000 [2:42:00<04:46,  2.67s/it, lr: 1.0e-04 loss: 1.197e-01]strawbyte_v1:  96%|#########6| 2893/3000 [2:42:05<04:46,  2.67s/it, lr: 1.0e-04 loss: 9.505e-02]strawbyte_v1:  96%|#########6| 2893/3000 [2:42:05<04:46,  2.67s/it, lr: 1.0e-04 loss: 9.505e-02]strawbyte_v1:  96%|#########6| 2894/3000 [2:42:05<05:35,  3.16s/it, lr: 1.0e-04 loss: 9.505e-02]strawbyte_v1:  96%|#########6| 2894/3000 [2:42:05<05:35,  3.16s/it, lr: 1.0e-04 loss: 9.505e-02]strawbyte_v1:  96%|#########6| 2894/3000 [2:42:08<05:35,  3.16s/it, lr: 1.0e-04 loss: 1.416e-01]strawbyte_v1:  96%|#########6| 2894/3000 [2:42:08<05:35,  3.16s/it, lr: 1.0e-04 loss: 1.416e-01]strawbyte_v1:  96%|#########6| 2895/3000 [2:42:08<05:28,  3.13s/it, lr: 1.0e-04 loss: 1.416e-01]strawbyte_v1:  96%|#########6| 2895/3000 [2:42:08<05:28,  3.13s/it, lr: 1.0e-04 loss: 1.416e-01]strawbyte_v1:  96%|#########6| 2895/3000 [2:42:11<05:28,  3.13s/it, lr: 1.0e-04 loss: 4.892e-02]strawbyte_v1:  96%|#########6| 2895/3000 [2:42:11<05:28,  3.13s/it, lr: 1.0e-04 loss: 4.892e-02]strawbyte_v1:  97%|#########6| 2896/3000 [2:42:11<05:23,  3.11s/it, lr: 1.0e-04 loss: 4.892e-02]strawbyte_v1:  97%|#########6| 2896/3000 [2:42:11<05:23,  3.11s/it, lr: 1.0e-04 loss: 4.892e-02]strawbyte_v1:  97%|#########6| 2896/3000 [2:42:14<05:23,  3.11s/it, lr: 1.0e-04 loss: 1.313e-01]strawbyte_v1:  97%|#########6| 2896/3000 [2:42:14<05:23,  3.11s/it, lr: 1.0e-04 loss: 1.313e-01]strawbyte_v1:  97%|#########6| 2897/3000 [2:42:14<05:16,  3.07s/it, lr: 1.0e-04 loss: 1.313e-01]strawbyte_v1:  97%|#########6| 2897/3000 [2:42:14<05:16,  3.07s/it, lr: 1.0e-04 loss: 1.313e-01]strawbyte_v1:  97%|#########6| 2897/3000 [2:42:16<05:16,  3.07s/it, lr: 1.0e-04 loss: 1.742e-01]strawbyte_v1:  97%|#########6| 2897/3000 [2:42:16<05:16,  3.07s/it, lr: 1.0e-04 loss: 1.742e-01]strawbyte_v1:  97%|#########6| 2898/3000 [2:42:16<05:01,  2.95s/it, lr: 1.0e-04 loss: 1.742e-01]strawbyte_v1:  97%|#########6| 2898/3000 [2:42:16<05:01,  2.95s/it, lr: 1.0e-04 loss: 1.742e-01]strawbyte_v1:  97%|#########6| 2898/3000 [2:42:19<05:01,  2.95s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  97%|#########6| 2898/3000 [2:42:19<05:01,  2.95s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  97%|#########6| 2899/3000 [2:42:19<05:00,  2.97s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  97%|#########6| 2899/3000 [2:42:19<05:00,  2.97s/it, lr: 1.0e-04 loss: 1.527e-01]strawbyte_v1:  97%|#########6| 2899/3000 [2:42:24<05:00,  2.97s/it, lr: 1.0e-04 loss: 1.200e-02]strawbyte_v1:  97%|#########6| 2899/3000 [2:42:24<05:00,  2.97s/it, lr: 1.0e-04 loss: 1.200e-02]strawbyte_v1:  97%|#########6| 2900/3000 [2:42:27<04:57,  2.97s/it, lr: 1.0e-04 loss: 1.426e-01]strawbyte_v1:  97%|#########6| 2900/3000 [2:42:27<04:57,  2.97s/it, lr: 1.0e-04 loss: 1.426e-01]strawbyte_v1:  97%|#########6| 2901/3000 [2:42:27<03:47,  2.29s/it, lr: 1.0e-04 loss: 1.426e-01]strawbyte_v1:  97%|#########6| 2901/3000 [2:42:27<03:47,  2.29s/it, lr: 1.0e-04 loss: 1.426e-01]strawbyte_v1:  97%|#########6| 2901/3000 [2:42:30<03:47,  2.29s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  97%|#########6| 2901/3000 [2:42:30<03:47,  2.29s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  97%|#########6| 2902/3000 [2:42:30<04:02,  2.47s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  97%|#########6| 2902/3000 [2:42:30<04:02,  2.47s/it, lr: 1.0e-04 loss: 1.301e-01]strawbyte_v1:  97%|#########6| 2902/3000 [2:42:33<04:02,  2.47s/it, lr: 1.0e-04 loss: 5.883e-03]strawbyte_v1:  97%|#########6| 2902/3000 [2:42:33<04:02,  2.47s/it, lr: 1.0e-04 loss: 5.883e-03]strawbyte_v1:  97%|#########6| 2903/3000 [2:42:33<04:13,  2.62s/it, lr: 1.0e-04 loss: 5.883e-03]strawbyte_v1:  97%|#########6| 2903/3000 [2:42:33<04:13,  2.62s/it, lr: 1.0e-04 loss: 5.883e-03]strawbyte_v1:  97%|#########6| 2903/3000 [2:42:38<04:13,  2.62s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  97%|#########6| 2903/3000 [2:42:38<04:13,  2.62s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  97%|#########6| 2904/3000 [2:42:38<05:05,  3.18s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  97%|#########6| 2904/3000 [2:42:38<05:05,  3.18s/it, lr: 1.0e-04 loss: 9.142e-02]strawbyte_v1:  97%|#########6| 2904/3000 [2:42:40<05:05,  3.18s/it, lr: 1.0e-04 loss: 5.790e-03]strawbyte_v1:  97%|#########6| 2904/3000 [2:42:40<05:05,  3.18s/it, lr: 1.0e-04 loss: 5.790e-03]strawbyte_v1:  97%|#########6| 2905/3000 [2:42:40<04:32,  2.87s/it, lr: 1.0e-04 loss: 5.790e-03]strawbyte_v1:  97%|#########6| 2905/3000 [2:42:40<04:32,  2.87s/it, lr: 1.0e-04 loss: 5.790e-03]strawbyte_v1:  97%|#########6| 2905/3000 [2:42:43<04:32,  2.87s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  97%|#########6| 2905/3000 [2:42:43<04:32,  2.87s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  97%|#########6| 2906/3000 [2:42:43<04:31,  2.88s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  97%|#########6| 2906/3000 [2:42:43<04:31,  2.88s/it, lr: 1.0e-04 loss: 1.371e-01]strawbyte_v1:  97%|#########6| 2906/3000 [2:42:47<04:31,  2.88s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  97%|#########6| 2906/3000 [2:42:47<04:31,  2.88s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  97%|#########6| 2907/3000 [2:42:47<05:12,  3.36s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  97%|#########6| 2907/3000 [2:42:47<05:12,  3.36s/it, lr: 1.0e-04 loss: 1.363e-01]strawbyte_v1:  97%|#########6| 2907/3000 [2:42:50<05:12,  3.36s/it, lr: 1.0e-04 loss: 6.050e-02]strawbyte_v1:  97%|#########6| 2907/3000 [2:42:50<05:12,  3.36s/it, lr: 1.0e-04 loss: 6.050e-02]strawbyte_v1:  97%|#########6| 2908/3000 [2:42:50<04:57,  3.23s/it, lr: 1.0e-04 loss: 6.050e-02]strawbyte_v1:  97%|#########6| 2908/3000 [2:42:50<04:57,  3.23s/it, lr: 1.0e-04 loss: 6.050e-02]strawbyte_v1:  97%|#########6| 2908/3000 [2:42:53<04:57,  3.23s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  97%|#########6| 2908/3000 [2:42:53<04:57,  3.23s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  97%|#########6| 2909/3000 [2:42:53<04:40,  3.09s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  97%|#########6| 2909/3000 [2:42:53<04:40,  3.09s/it, lr: 1.0e-04 loss: 1.220e-01]strawbyte_v1:  97%|#########6| 2909/3000 [2:42:57<04:40,  3.09s/it, lr: 1.0e-04 loss: 8.070e-02]strawbyte_v1:  97%|#########6| 2909/3000 [2:42:57<04:40,  3.09s/it, lr: 1.0e-04 loss: 8.070e-02]strawbyte_v1:  97%|#########7| 2910/3000 [2:43:02<04:37,  3.09s/it, lr: 1.0e-04 loss: 7.195e-02]strawbyte_v1:  97%|#########7| 2910/3000 [2:43:02<04:37,  3.09s/it, lr: 1.0e-04 loss: 7.195e-02]strawbyte_v1:  97%|#########7| 2911/3000 [2:43:02<04:02,  2.72s/it, lr: 1.0e-04 loss: 7.195e-02]strawbyte_v1:  97%|#########7| 2911/3000 [2:43:02<04:02,  2.72s/it, lr: 1.0e-04 loss: 7.195e-02]strawbyte_v1:  97%|#########7| 2911/3000 [2:43:04<04:02,  2.72s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  97%|#########7| 2911/3000 [2:43:04<04:02,  2.72s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  97%|#########7| 2912/3000 [2:43:04<03:45,  2.56s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  97%|#########7| 2912/3000 [2:43:04<03:45,  2.56s/it, lr: 1.0e-04 loss: 1.681e-01]strawbyte_v1:  97%|#########7| 2912/3000 [2:43:06<03:45,  2.56s/it, lr: 1.0e-04 loss: 8.185e-02]strawbyte_v1:  97%|#########7| 2912/3000 [2:43:06<03:45,  2.56s/it, lr: 1.0e-04 loss: 8.185e-02]strawbyte_v1:  97%|#########7| 2913/3000 [2:43:06<03:31,  2.43s/it, lr: 1.0e-04 loss: 8.185e-02]strawbyte_v1:  97%|#########7| 2913/3000 [2:43:06<03:31,  2.43s/it, lr: 1.0e-04 loss: 8.185e-02]strawbyte_v1:  97%|#########7| 2913/3000 [2:43:09<03:31,  2.43s/it, lr: 1.0e-04 loss: 1.702e-01]strawbyte_v1:  97%|#########7| 2913/3000 [2:43:09<03:31,  2.43s/it, lr: 1.0e-04 loss: 1.702e-01]strawbyte_v1:  97%|#########7| 2914/3000 [2:43:09<03:41,  2.57s/it, lr: 1.0e-04 loss: 1.702e-01]strawbyte_v1:  97%|#########7| 2914/3000 [2:43:09<03:41,  2.57s/it, lr: 1.0e-04 loss: 1.702e-01]strawbyte_v1:  97%|#########7| 2914/3000 [2:43:12<03:41,  2.57s/it, lr: 1.0e-04 loss: 6.270e-02]strawbyte_v1:  97%|#########7| 2914/3000 [2:43:12<03:41,  2.57s/it, lr: 1.0e-04 loss: 6.270e-02]strawbyte_v1:  97%|#########7| 2915/3000 [2:43:12<03:41,  2.61s/it, lr: 1.0e-04 loss: 6.270e-02]strawbyte_v1:  97%|#########7| 2915/3000 [2:43:12<03:41,  2.61s/it, lr: 1.0e-04 loss: 6.270e-02]strawbyte_v1:  97%|#########7| 2915/3000 [2:43:14<03:41,  2.61s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  97%|#########7| 2915/3000 [2:43:14<03:41,  2.61s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  97%|#########7| 2916/3000 [2:43:14<03:40,  2.63s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  97%|#########7| 2916/3000 [2:43:14<03:40,  2.63s/it, lr: 1.0e-04 loss: 1.461e-01]strawbyte_v1:  97%|#########7| 2916/3000 [2:43:17<03:40,  2.63s/it, lr: 1.0e-04 loss: 5.226e-02]strawbyte_v1:  97%|#########7| 2916/3000 [2:43:17<03:40,  2.63s/it, lr: 1.0e-04 loss: 5.226e-02]strawbyte_v1:  97%|#########7| 2917/3000 [2:43:17<03:46,  2.73s/it, lr: 1.0e-04 loss: 5.226e-02]strawbyte_v1:  97%|#########7| 2917/3000 [2:43:17<03:46,  2.73s/it, lr: 1.0e-04 loss: 5.226e-02]strawbyte_v1:  97%|#########7| 2917/3000 [2:43:21<03:46,  2.73s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  97%|#########7| 2917/3000 [2:43:21<03:46,  2.73s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  97%|#########7| 2918/3000 [2:43:21<03:57,  2.90s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  97%|#########7| 2918/3000 [2:43:21<03:57,  2.90s/it, lr: 1.0e-04 loss: 1.023e-01]strawbyte_v1:  97%|#########7| 2918/3000 [2:43:24<03:57,  2.90s/it, lr: 1.0e-04 loss: 7.832e-02]strawbyte_v1:  97%|#########7| 2918/3000 [2:43:24<03:57,  2.90s/it, lr: 1.0e-04 loss: 7.832e-02]strawbyte_v1:  97%|#########7| 2919/3000 [2:43:24<03:56,  2.92s/it, lr: 1.0e-04 loss: 7.832e-02]strawbyte_v1:  97%|#########7| 2919/3000 [2:43:24<03:56,  2.92s/it, lr: 1.0e-04 loss: 7.832e-02]strawbyte_v1:  97%|#########7| 2919/3000 [2:43:28<03:56,  2.92s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  97%|#########7| 2919/3000 [2:43:28<03:56,  2.92s/it, lr: 1.0e-04 loss: 1.045e-01]strawbyte_v1:  97%|#########7| 2920/3000 [2:43:31<03:53,  2.92s/it, lr: 1.0e-04 loss: 6.068e-02]strawbyte_v1:  97%|#########7| 2920/3000 [2:43:31<03:53,  2.92s/it, lr: 1.0e-04 loss: 6.068e-02]strawbyte_v1:  97%|#########7| 2921/3000 [2:43:31<02:59,  2.27s/it, lr: 1.0e-04 loss: 6.068e-02]strawbyte_v1:  97%|#########7| 2921/3000 [2:43:31<02:59,  2.27s/it, lr: 1.0e-04 loss: 6.068e-02]strawbyte_v1:  97%|#########7| 2921/3000 [2:43:34<02:59,  2.27s/it, lr: 1.0e-04 loss: 7.393e-02]strawbyte_v1:  97%|#########7| 2921/3000 [2:43:34<02:59,  2.27s/it, lr: 1.0e-04 loss: 7.393e-02]strawbyte_v1:  97%|#########7| 2922/3000 [2:43:34<03:18,  2.55s/it, lr: 1.0e-04 loss: 7.393e-02]strawbyte_v1:  97%|#########7| 2922/3000 [2:43:34<03:18,  2.55s/it, lr: 1.0e-04 loss: 7.393e-02]strawbyte_v1:  97%|#########7| 2922/3000 [2:43:39<03:18,  2.55s/it, lr: 1.0e-04 loss: 2.292e-02]strawbyte_v1:  97%|#########7| 2922/3000 [2:43:39<03:18,  2.55s/it, lr: 1.0e-04 loss: 2.292e-02]strawbyte_v1:  97%|#########7| 2923/3000 [2:43:39<03:54,  3.04s/it, lr: 1.0e-04 loss: 2.292e-02]strawbyte_v1:  97%|#########7| 2923/3000 [2:43:39<03:54,  3.04s/it, lr: 1.0e-04 loss: 2.292e-02]strawbyte_v1:  97%|#########7| 2923/3000 [2:43:42<03:54,  3.04s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  97%|#########7| 2923/3000 [2:43:42<03:54,  3.04s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  97%|#########7| 2924/3000 [2:43:42<03:50,  3.03s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  97%|#########7| 2924/3000 [2:43:42<03:50,  3.03s/it, lr: 1.0e-04 loss: 1.298e-01]strawbyte_v1:  97%|#########7| 2924/3000 [2:43:47<03:50,  3.03s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  97%|#########7| 2924/3000 [2:43:47<03:50,  3.03s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  98%|#########7| 2925/3000 [2:43:47<04:23,  3.52s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  98%|#########7| 2925/3000 [2:43:47<04:23,  3.52s/it, lr: 1.0e-04 loss: 1.041e-01]strawbyte_v1:  98%|#########7| 2925/3000 [2:43:50<04:23,  3.52s/it, lr: 1.0e-04 loss: 3.115e-02]strawbyte_v1:  98%|#########7| 2925/3000 [2:43:50<04:23,  3.52s/it, lr: 1.0e-04 loss: 3.115e-02]strawbyte_v1:  98%|#########7| 2926/3000 [2:43:50<04:09,  3.36s/it, lr: 1.0e-04 loss: 3.115e-02]strawbyte_v1:  98%|#########7| 2926/3000 [2:43:50<04:09,  3.36s/it, lr: 1.0e-04 loss: 3.115e-02]strawbyte_v1:  98%|#########7| 2926/3000 [2:43:52<04:09,  3.36s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  98%|#########7| 2926/3000 [2:43:52<04:09,  3.36s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  98%|#########7| 2927/3000 [2:43:52<03:50,  3.16s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  98%|#########7| 2927/3000 [2:43:52<03:50,  3.16s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1:  98%|#########7| 2927/3000 [2:43:55<03:50,  3.16s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  98%|#########7| 2927/3000 [2:43:55<03:50,  3.16s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  98%|#########7| 2928/3000 [2:43:55<03:43,  3.11s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  98%|#########7| 2928/3000 [2:43:55<03:43,  3.11s/it, lr: 1.0e-04 loss: 1.068e-01]strawbyte_v1:  98%|#########7| 2928/3000 [2:43:58<03:43,  3.11s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  98%|#########7| 2928/3000 [2:43:58<03:43,  3.11s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  98%|#########7| 2929/3000 [2:43:58<03:25,  2.89s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  98%|#########7| 2929/3000 [2:43:58<03:25,  2.89s/it, lr: 1.0e-04 loss: 1.159e-01]strawbyte_v1:  98%|#########7| 2929/3000 [2:44:00<03:25,  2.89s/it, lr: 1.0e-04 loss: 1.326e-01]strawbyte_v1:  98%|#########7| 2929/3000 [2:44:00<03:25,  2.89s/it, lr: 1.0e-04 loss: 1.326e-01]strawbyte_v1:  98%|#########7| 2930/3000 [2:44:04<03:22,  2.89s/it, lr: 1.0e-04 loss: 9.308e-02]strawbyte_v1:  98%|#########7| 2930/3000 [2:44:04<03:22,  2.89s/it, lr: 1.0e-04 loss: 9.308e-02]strawbyte_v1:  98%|#########7| 2931/3000 [2:44:04<02:56,  2.56s/it, lr: 1.0e-04 loss: 9.308e-02]strawbyte_v1:  98%|#########7| 2931/3000 [2:44:04<02:56,  2.56s/it, lr: 1.0e-04 loss: 9.308e-02]strawbyte_v1:  98%|#########7| 2931/3000 [2:44:07<02:56,  2.56s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  98%|#########7| 2931/3000 [2:44:07<02:56,  2.56s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  98%|#########7| 2932/3000 [2:44:07<02:59,  2.64s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  98%|#########7| 2932/3000 [2:44:07<02:59,  2.64s/it, lr: 1.0e-04 loss: 1.277e-01]strawbyte_v1:  98%|#########7| 2932/3000 [2:44:09<02:59,  2.64s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  98%|#########7| 2932/3000 [2:44:09<02:59,  2.64s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  98%|#########7| 2933/3000 [2:44:09<02:52,  2.57s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  98%|#########7| 2933/3000 [2:44:09<02:52,  2.57s/it, lr: 1.0e-04 loss: 1.033e-01]strawbyte_v1:  98%|#########7| 2933/3000 [2:44:12<02:52,  2.57s/it, lr: 1.0e-04 loss: 6.701e-02]strawbyte_v1:  98%|#########7| 2933/3000 [2:44:12<02:52,  2.57s/it, lr: 1.0e-04 loss: 6.701e-02]strawbyte_v1:  98%|#########7| 2934/3000 [2:44:12<02:55,  2.65s/it, lr: 1.0e-04 loss: 6.701e-02]strawbyte_v1:  98%|#########7| 2934/3000 [2:44:12<02:55,  2.65s/it, lr: 1.0e-04 loss: 6.701e-02]strawbyte_v1:  98%|#########7| 2934/3000 [2:44:17<02:55,  2.65s/it, lr: 1.0e-04 loss: 1.172e-01]strawbyte_v1:  98%|#########7| 2934/3000 [2:44:17<02:55,  2.65s/it, lr: 1.0e-04 loss: 1.172e-01]strawbyte_v1:  98%|#########7| 2935/3000 [2:44:17<03:23,  3.13s/it, lr: 1.0e-04 loss: 1.172e-01]strawbyte_v1:  98%|#########7| 2935/3000 [2:44:17<03:23,  3.13s/it, lr: 1.0e-04 loss: 1.172e-01]strawbyte_v1:  98%|#########7| 2935/3000 [2:44:19<03:23,  3.13s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  98%|#########7| 2935/3000 [2:44:19<03:23,  3.13s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  98%|#########7| 2936/3000 [2:44:19<03:06,  2.91s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  98%|#########7| 2936/3000 [2:44:19<03:06,  2.91s/it, lr: 1.0e-04 loss: 1.715e-01]strawbyte_v1:  98%|#########7| 2936/3000 [2:44:21<03:06,  2.91s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  98%|#########7| 2936/3000 [2:44:21<03:06,  2.91s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  98%|#########7| 2937/3000 [2:44:21<02:48,  2.67s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  98%|#########7| 2937/3000 [2:44:21<02:48,  2.67s/it, lr: 1.0e-04 loss: 1.008e-01]strawbyte_v1:  98%|#########7| 2937/3000 [2:44:25<02:48,  2.67s/it, lr: 1.0e-04 loss: 9.393e-02]strawbyte_v1:  98%|#########7| 2937/3000 [2:44:25<02:48,  2.67s/it, lr: 1.0e-04 loss: 9.393e-02]strawbyte_v1:  98%|#########7| 2938/3000 [2:44:25<03:16,  3.17s/it, lr: 1.0e-04 loss: 9.393e-02]strawbyte_v1:  98%|#########7| 2938/3000 [2:44:25<03:16,  3.17s/it, lr: 1.0e-04 loss: 9.393e-02]strawbyte_v1:  98%|#########7| 2938/3000 [2:44:30<03:16,  3.17s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  98%|#########7| 2938/3000 [2:44:30<03:16,  3.17s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  98%|#########7| 2939/3000 [2:44:30<03:35,  3.53s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  98%|#########7| 2939/3000 [2:44:30<03:35,  3.53s/it, lr: 1.0e-04 loss: 1.201e-01]strawbyte_v1:  98%|#########7| 2939/3000 [2:44:33<03:35,  3.53s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:  98%|#########7| 2939/3000 [2:44:33<03:35,  3.53s/it, lr: 1.0e-04 loss: 1.162e-01]strawbyte_v1:  98%|#########8| 2940/3000 [2:44:36<03:31,  3.53s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  98%|#########8| 2940/3000 [2:44:36<03:31,  3.53s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  98%|#########8| 2941/3000 [2:44:36<02:33,  2.61s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  98%|#########8| 2941/3000 [2:44:36<02:33,  2.61s/it, lr: 1.0e-04 loss: 1.055e-01]strawbyte_v1:  98%|#########8| 2941/3000 [2:44:39<02:33,  2.61s/it, lr: 1.0e-04 loss: 1.383e-01]strawbyte_v1:  98%|#########8| 2941/3000 [2:44:39<02:33,  2.61s/it, lr: 1.0e-04 loss: 1.383e-01]strawbyte_v1:  98%|#########8| 2942/3000 [2:44:39<02:36,  2.70s/it, lr: 1.0e-04 loss: 1.383e-01]strawbyte_v1:  98%|#########8| 2942/3000 [2:44:39<02:36,  2.70s/it, lr: 1.0e-04 loss: 1.383e-01]strawbyte_v1:  98%|#########8| 2942/3000 [2:44:43<02:36,  2.70s/it, lr: 1.0e-04 loss: 9.661e-02]strawbyte_v1:  98%|#########8| 2942/3000 [2:44:43<02:36,  2.70s/it, lr: 1.0e-04 loss: 9.661e-02]strawbyte_v1:  98%|#########8| 2943/3000 [2:44:43<02:59,  3.15s/it, lr: 1.0e-04 loss: 9.661e-02]strawbyte_v1:  98%|#########8| 2943/3000 [2:44:43<02:59,  3.15s/it, lr: 1.0e-04 loss: 9.661e-02]strawbyte_v1:  98%|#########8| 2943/3000 [2:44:47<02:59,  3.15s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:  98%|#########8| 2943/3000 [2:44:47<02:59,  3.15s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:  98%|#########8| 2944/3000 [2:44:47<02:59,  3.21s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:  98%|#########8| 2944/3000 [2:44:47<02:59,  3.21s/it, lr: 1.0e-04 loss: 1.537e-01]strawbyte_v1:  98%|#########8| 2944/3000 [2:44:51<02:59,  3.21s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  98%|#########8| 2944/3000 [2:44:51<02:59,  3.21s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  98%|#########8| 2945/3000 [2:44:51<03:14,  3.54s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  98%|#########8| 2945/3000 [2:44:51<03:14,  3.54s/it, lr: 1.0e-04 loss: 1.010e-01]strawbyte_v1:  98%|#########8| 2945/3000 [2:44:54<03:14,  3.54s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  98%|#########8| 2945/3000 [2:44:54<03:14,  3.54s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  98%|#########8| 2946/3000 [2:44:54<02:58,  3.31s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  98%|#########8| 2946/3000 [2:44:54<02:58,  3.31s/it, lr: 1.0e-04 loss: 1.504e-01]strawbyte_v1:  98%|#########8| 2946/3000 [2:44:57<02:58,  3.31s/it, lr: 1.0e-04 loss: 1.710e-01]strawbyte_v1:  98%|#########8| 2946/3000 [2:44:57<02:58,  3.31s/it, lr: 1.0e-04 loss: 1.710e-01]strawbyte_v1:  98%|#########8| 2947/3000 [2:44:57<02:50,  3.22s/it, lr: 1.0e-04 loss: 1.710e-01]strawbyte_v1:  98%|#########8| 2947/3000 [2:44:57<02:50,  3.22s/it, lr: 1.0e-04 loss: 1.710e-01]strawbyte_v1:  98%|#########8| 2947/3000 [2:45:01<02:50,  3.22s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  98%|#########8| 2947/3000 [2:45:01<02:50,  3.22s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  98%|#########8| 2948/3000 [2:45:01<03:05,  3.57s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  98%|#########8| 2948/3000 [2:45:01<03:05,  3.57s/it, lr: 1.0e-04 loss: 1.202e-01]strawbyte_v1:  98%|#########8| 2948/3000 [2:45:04<03:05,  3.57s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  98%|#########8| 2948/3000 [2:45:04<03:05,  3.57s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  98%|#########8| 2949/3000 [2:45:04<02:53,  3.39s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  98%|#########8| 2949/3000 [2:45:04<02:53,  3.39s/it, lr: 1.0e-04 loss: 1.140e-01]strawbyte_v1:  98%|#########8| 2949/3000 [2:45:09<02:53,  3.39s/it, lr: 1.0e-04 loss: 6.062e-02]strawbyte_v1:  98%|#########8| 2949/3000 [2:45:09<02:53,  3.39s/it, lr: 1.0e-04 loss: 6.062e-02]strawbyte_v1:  98%|#########8| 2950/3000 [2:45:12<02:49,  3.39s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  98%|#########8| 2950/3000 [2:45:12<02:49,  3.39s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  98%|#########8| 2951/3000 [2:45:12<02:03,  2.51s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  98%|#########8| 2951/3000 [2:45:12<02:03,  2.51s/it, lr: 1.0e-04 loss: 1.404e-01]strawbyte_v1:  98%|#########8| 2951/3000 [2:45:14<02:03,  2.51s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  98%|#########8| 2951/3000 [2:45:14<02:03,  2.51s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  98%|#########8| 2952/3000 [2:45:14<02:02,  2.55s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  98%|#########8| 2952/3000 [2:45:14<02:02,  2.55s/it, lr: 1.0e-04 loss: 1.636e-01]strawbyte_v1:  98%|#########8| 2952/3000 [2:45:19<02:02,  2.55s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  98%|#########8| 2952/3000 [2:45:19<02:02,  2.55s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  98%|#########8| 2953/3000 [2:45:19<02:22,  3.04s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  98%|#########8| 2953/3000 [2:45:19<02:22,  3.04s/it, lr: 1.0e-04 loss: 1.192e-01]strawbyte_v1:  98%|#########8| 2953/3000 [2:45:21<02:22,  3.04s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  98%|#########8| 2953/3000 [2:45:21<02:22,  3.04s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  98%|#########8| 2954/3000 [2:45:21<02:08,  2.78s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  98%|#########8| 2954/3000 [2:45:21<02:08,  2.78s/it, lr: 1.0e-04 loss: 1.674e-01]strawbyte_v1:  98%|#########8| 2954/3000 [2:45:25<02:08,  2.78s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  98%|#########8| 2954/3000 [2:45:25<02:08,  2.78s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  98%|#########8| 2955/3000 [2:45:25<02:26,  3.26s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  98%|#########8| 2955/3000 [2:45:25<02:26,  3.26s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  98%|#########8| 2955/3000 [2:45:27<02:26,  3.26s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  98%|#########8| 2955/3000 [2:45:27<02:26,  3.26s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  99%|#########8| 2956/3000 [2:45:27<02:08,  2.92s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  99%|#########8| 2956/3000 [2:45:27<02:08,  2.92s/it, lr: 1.0e-04 loss: 8.983e-02]strawbyte_v1:  99%|#########8| 2956/3000 [2:45:30<02:08,  2.92s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  99%|#########8| 2956/3000 [2:45:30<02:08,  2.92s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  99%|#########8| 2957/3000 [2:45:30<02:05,  2.91s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  99%|#########8| 2957/3000 [2:45:30<02:05,  2.91s/it, lr: 1.0e-04 loss: 1.098e-01]strawbyte_v1:  99%|#########8| 2957/3000 [2:45:33<02:05,  2.91s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  99%|#########8| 2957/3000 [2:45:33<02:05,  2.91s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  99%|#########8| 2958/3000 [2:45:33<02:04,  2.97s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  99%|#########8| 2958/3000 [2:45:33<02:04,  2.97s/it, lr: 1.0e-04 loss: 1.279e-01]strawbyte_v1:  99%|#########8| 2958/3000 [2:45:38<02:04,  2.97s/it, lr: 1.0e-04 loss: 5.387e-02]strawbyte_v1:  99%|#########8| 2958/3000 [2:45:38<02:04,  2.97s/it, lr: 1.0e-04 loss: 5.387e-02]strawbyte_v1:  99%|#########8| 2959/3000 [2:45:38<02:18,  3.39s/it, lr: 1.0e-04 loss: 5.387e-02]strawbyte_v1:  99%|#########8| 2959/3000 [2:45:38<02:18,  3.39s/it, lr: 1.0e-04 loss: 5.387e-02]strawbyte_v1:  99%|#########8| 2959/3000 [2:45:41<02:18,  3.39s/it, lr: 1.0e-04 loss: 8.676e-02]strawbyte_v1:  99%|#########8| 2959/3000 [2:45:41<02:18,  3.39s/it, lr: 1.0e-04 loss: 8.676e-02]strawbyte_v1:  99%|#########8| 2960/3000 [2:45:45<02:15,  3.39s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  99%|#########8| 2960/3000 [2:45:45<02:15,  3.39s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  99%|#########8| 2961/3000 [2:45:45<01:50,  2.83s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  99%|#########8| 2961/3000 [2:45:45<01:50,  2.83s/it, lr: 1.0e-04 loss: 9.592e-02]strawbyte_v1:  99%|#########8| 2961/3000 [2:45:47<01:50,  2.83s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  99%|#########8| 2961/3000 [2:45:47<01:50,  2.83s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  99%|#########8| 2962/3000 [2:45:47<01:42,  2.70s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  99%|#########8| 2962/3000 [2:45:47<01:42,  2.70s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1:  99%|#########8| 2962/3000 [2:45:52<01:42,  2.70s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  99%|#########8| 2962/3000 [2:45:52<01:42,  2.70s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  99%|#########8| 2963/3000 [2:45:52<01:57,  3.16s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  99%|#########8| 2963/3000 [2:45:52<01:57,  3.16s/it, lr: 1.0e-04 loss: 1.076e-01]strawbyte_v1:  99%|#########8| 2963/3000 [2:45:55<01:57,  3.16s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  99%|#########8| 2963/3000 [2:45:55<01:57,  3.16s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  99%|#########8| 2964/3000 [2:45:55<01:49,  3.04s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  99%|#########8| 2964/3000 [2:45:55<01:49,  3.04s/it, lr: 1.0e-04 loss: 1.303e-01]strawbyte_v1:  99%|#########8| 2964/3000 [2:45:58<01:49,  3.04s/it, lr: 1.0e-04 loss: 5.520e-03]strawbyte_v1:  99%|#########8| 2964/3000 [2:45:58<01:49,  3.04s/it, lr: 1.0e-04 loss: 5.520e-03]strawbyte_v1:  99%|#########8| 2965/3000 [2:45:58<01:49,  3.13s/it, lr: 1.0e-04 loss: 5.520e-03]strawbyte_v1:  99%|#########8| 2965/3000 [2:45:58<01:49,  3.13s/it, lr: 1.0e-04 loss: 5.520e-03]strawbyte_v1:  99%|#########8| 2965/3000 [2:46:02<01:49,  3.13s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  99%|#########8| 2965/3000 [2:46:02<01:49,  3.13s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  99%|#########8| 2966/3000 [2:46:02<01:59,  3.51s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  99%|#########8| 2966/3000 [2:46:02<01:59,  3.51s/it, lr: 1.0e-04 loss: 1.421e-01]strawbyte_v1:  99%|#########8| 2966/3000 [2:46:07<01:59,  3.51s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  99%|#########8| 2966/3000 [2:46:07<01:59,  3.51s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  99%|#########8| 2967/3000 [2:46:07<02:04,  3.78s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  99%|#########8| 2967/3000 [2:46:07<02:04,  3.78s/it, lr: 1.0e-04 loss: 1.046e-01]strawbyte_v1:  99%|#########8| 2967/3000 [2:46:11<02:04,  3.78s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  99%|#########8| 2967/3000 [2:46:11<02:04,  3.78s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  99%|#########8| 2968/3000 [2:46:11<02:06,  3.97s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  99%|#########8| 2968/3000 [2:46:11<02:06,  3.97s/it, lr: 1.0e-04 loss: 1.101e-01]strawbyte_v1:  99%|#########8| 2968/3000 [2:46:16<02:06,  3.97s/it, lr: 1.0e-04 loss: 6.239e-02]strawbyte_v1:  99%|#########8| 2968/3000 [2:46:16<02:06,  3.97s/it, lr: 1.0e-04 loss: 6.239e-02]strawbyte_v1:  99%|#########8| 2969/3000 [2:46:16<02:10,  4.22s/it, lr: 1.0e-04 loss: 6.239e-02]strawbyte_v1:  99%|#########8| 2969/3000 [2:46:16<02:10,  4.22s/it, lr: 1.0e-04 loss: 6.239e-02]strawbyte_v1:  99%|#########8| 2969/3000 [2:46:19<02:10,  4.22s/it, lr: 1.0e-04 loss: 7.775e-02]strawbyte_v1:  99%|#########8| 2969/3000 [2:46:19<02:10,  4.22s/it, lr: 1.0e-04 loss: 7.775e-02]strawbyte_v1:  99%|#########9| 2970/3000 [2:46:22<02:06,  4.22s/it, lr: 1.0e-04 loss: 7.057e-02]strawbyte_v1:  99%|#########9| 2970/3000 [2:46:22<02:06,  4.22s/it, lr: 1.0e-04 loss: 7.057e-02]strawbyte_v1:  99%|#########9| 2971/3000 [2:46:22<01:26,  2.99s/it, lr: 1.0e-04 loss: 7.057e-02]strawbyte_v1:  99%|#########9| 2971/3000 [2:46:22<01:26,  2.99s/it, lr: 1.0e-04 loss: 7.057e-02]strawbyte_v1:  99%|#########9| 2971/3000 [2:46:27<01:26,  2.99s/it, lr: 1.0e-04 loss: 8.637e-02]strawbyte_v1:  99%|#########9| 2971/3000 [2:46:27<01:26,  2.99s/it, lr: 1.0e-04 loss: 8.637e-02]strawbyte_v1:  99%|#########9| 2972/3000 [2:46:27<01:33,  3.34s/it, lr: 1.0e-04 loss: 8.637e-02]strawbyte_v1:  99%|#########9| 2972/3000 [2:46:27<01:33,  3.34s/it, lr: 1.0e-04 loss: 8.637e-02]strawbyte_v1:  99%|#########9| 2972/3000 [2:46:32<01:33,  3.34s/it, lr: 1.0e-04 loss: 8.004e-02]strawbyte_v1:  99%|#########9| 2972/3000 [2:46:32<01:33,  3.34s/it, lr: 1.0e-04 loss: 8.004e-02]strawbyte_v1:  99%|#########9| 2973/3000 [2:46:32<01:41,  3.76s/it, lr: 1.0e-04 loss: 8.004e-02]strawbyte_v1:  99%|#########9| 2973/3000 [2:46:32<01:41,  3.76s/it, lr: 1.0e-04 loss: 8.004e-02]strawbyte_v1:  99%|#########9| 2973/3000 [2:46:36<01:41,  3.76s/it, lr: 1.0e-04 loss: 9.579e-02]strawbyte_v1:  99%|#########9| 2973/3000 [2:46:36<01:41,  3.76s/it, lr: 1.0e-04 loss: 9.579e-02]strawbyte_v1:  99%|#########9| 2974/3000 [2:46:36<01:42,  3.93s/it, lr: 1.0e-04 loss: 9.579e-02]strawbyte_v1:  99%|#########9| 2974/3000 [2:46:36<01:42,  3.93s/it, lr: 1.0e-04 loss: 9.579e-02]strawbyte_v1:  99%|#########9| 2974/3000 [2:46:41<01:42,  3.93s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  99%|#########9| 2974/3000 [2:46:41<01:42,  3.93s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  99%|#########9| 2975/3000 [2:46:41<01:41,  4.06s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  99%|#########9| 2975/3000 [2:46:41<01:41,  4.06s/it, lr: 1.0e-04 loss: 1.552e-01]strawbyte_v1:  99%|#########9| 2975/3000 [2:46:44<01:41,  4.06s/it, lr: 1.0e-04 loss: 8.854e-03]strawbyte_v1:  99%|#########9| 2975/3000 [2:46:44<01:41,  4.06s/it, lr: 1.0e-04 loss: 8.854e-03]strawbyte_v1:  99%|#########9| 2976/3000 [2:46:44<01:31,  3.80s/it, lr: 1.0e-04 loss: 8.854e-03]strawbyte_v1:  99%|#########9| 2976/3000 [2:46:44<01:31,  3.80s/it, lr: 1.0e-04 loss: 8.854e-03]strawbyte_v1:  99%|#########9| 2976/3000 [2:46:46<01:31,  3.80s/it, lr: 1.0e-04 loss: 1.689e-01]strawbyte_v1:  99%|#########9| 2976/3000 [2:46:46<01:31,  3.80s/it, lr: 1.0e-04 loss: 1.689e-01]strawbyte_v1:  99%|#########9| 2977/3000 [2:46:46<01:15,  3.30s/it, lr: 1.0e-04 loss: 1.689e-01]strawbyte_v1:  99%|#########9| 2977/3000 [2:46:46<01:15,  3.30s/it, lr: 1.0e-04 loss: 1.689e-01]strawbyte_v1:  99%|#########9| 2977/3000 [2:46:50<01:15,  3.30s/it, lr: 1.0e-04 loss: 6.963e-02]strawbyte_v1:  99%|#########9| 2977/3000 [2:46:50<01:15,  3.30s/it, lr: 1.0e-04 loss: 6.963e-02]strawbyte_v1:  99%|#########9| 2978/3000 [2:46:50<01:19,  3.61s/it, lr: 1.0e-04 loss: 6.963e-02]strawbyte_v1:  99%|#########9| 2978/3000 [2:46:50<01:19,  3.61s/it, lr: 1.0e-04 loss: 6.963e-02]strawbyte_v1:  99%|#########9| 2978/3000 [2:46:55<01:19,  3.61s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  99%|#########9| 2978/3000 [2:46:55<01:19,  3.61s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  99%|#########9| 2979/3000 [2:46:55<01:20,  3.84s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  99%|#########9| 2979/3000 [2:46:55<01:20,  3.84s/it, lr: 1.0e-04 loss: 9.495e-02]strawbyte_v1:  99%|#########9| 2979/3000 [2:46:58<01:20,  3.84s/it, lr: 1.0e-04 loss: 9.018e-02]strawbyte_v1:  99%|#########9| 2979/3000 [2:46:58<01:20,  3.84s/it, lr: 1.0e-04 loss: 9.018e-02]strawbyte_v1:  99%|#########9| 2980/3000 [2:47:02<01:16,  3.84s/it, lr: 1.0e-04 loss: 8.738e-02]strawbyte_v1:  99%|#########9| 2980/3000 [2:47:02<01:16,  3.84s/it, lr: 1.0e-04 loss: 8.738e-02]strawbyte_v1:  99%|#########9| 2981/3000 [2:47:02<00:58,  3.08s/it, lr: 1.0e-04 loss: 8.738e-02]strawbyte_v1:  99%|#########9| 2981/3000 [2:47:02<00:58,  3.08s/it, lr: 1.0e-04 loss: 8.738e-02]strawbyte_v1:  99%|#########9| 2981/3000 [2:47:05<00:58,  3.08s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  99%|#########9| 2981/3000 [2:47:05<00:58,  3.08s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  99%|#########9| 2982/3000 [2:47:05<00:54,  3.03s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  99%|#########9| 2982/3000 [2:47:05<00:54,  3.03s/it, lr: 1.0e-04 loss: 1.143e-01]strawbyte_v1:  99%|#########9| 2982/3000 [2:47:09<00:54,  3.03s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  99%|#########9| 2982/3000 [2:47:09<00:54,  3.03s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  99%|#########9| 2983/3000 [2:47:09<00:56,  3.35s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  99%|#########9| 2983/3000 [2:47:09<00:56,  3.35s/it, lr: 1.0e-04 loss: 1.352e-01]strawbyte_v1:  99%|#########9| 2983/3000 [2:47:13<00:56,  3.35s/it, lr: 1.0e-04 loss: 9.887e-02]strawbyte_v1:  99%|#########9| 2983/3000 [2:47:13<00:56,  3.35s/it, lr: 1.0e-04 loss: 9.887e-02]strawbyte_v1:  99%|#########9| 2984/3000 [2:47:13<00:53,  3.37s/it, lr: 1.0e-04 loss: 9.887e-02]strawbyte_v1:  99%|#########9| 2984/3000 [2:47:13<00:53,  3.37s/it, lr: 1.0e-04 loss: 9.887e-02]strawbyte_v1:  99%|#########9| 2984/3000 [2:47:15<00:53,  3.37s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1:  99%|#########9| 2984/3000 [2:47:15<00:53,  3.37s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1: 100%|#########9| 2985/3000 [2:47:15<00:47,  3.19s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1: 100%|#########9| 2985/3000 [2:47:15<00:47,  3.19s/it, lr: 1.0e-04 loss: 1.339e-01]strawbyte_v1: 100%|#########9| 2985/3000 [2:47:20<00:47,  3.19s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1: 100%|#########9| 2985/3000 [2:47:20<00:47,  3.19s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1: 100%|#########9| 2986/3000 [2:47:20<00:49,  3.57s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1: 100%|#########9| 2986/3000 [2:47:20<00:49,  3.57s/it, lr: 1.0e-04 loss: 1.069e-01]strawbyte_v1: 100%|#########9| 2986/3000 [2:47:23<00:49,  3.57s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1: 100%|#########9| 2986/3000 [2:47:23<00:49,  3.57s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1: 100%|#########9| 2987/3000 [2:47:23<00:45,  3.52s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1: 100%|#########9| 2987/3000 [2:47:23<00:45,  3.52s/it, lr: 1.0e-04 loss: 1.536e-01]strawbyte_v1: 100%|#########9| 2987/3000 [2:47:26<00:45,  3.52s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1: 100%|#########9| 2987/3000 [2:47:26<00:45,  3.52s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1: 100%|#########9| 2988/3000 [2:47:26<00:39,  3.28s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1: 100%|#########9| 2988/3000 [2:47:26<00:39,  3.28s/it, lr: 1.0e-04 loss: 1.342e-01]strawbyte_v1: 100%|#########9| 2988/3000 [2:47:29<00:39,  3.28s/it, lr: 1.0e-04 loss: 5.914e-02]strawbyte_v1: 100%|#########9| 2988/3000 [2:47:29<00:39,  3.28s/it, lr: 1.0e-04 loss: 5.914e-02]strawbyte_v1: 100%|#########9| 2989/3000 [2:47:29<00:34,  3.12s/it, lr: 1.0e-04 loss: 5.914e-02]strawbyte_v1: 100%|#########9| 2989/3000 [2:47:29<00:34,  3.12s/it, lr: 1.0e-04 loss: 5.914e-02]strawbyte_v1: 100%|#########9| 2989/3000 [2:47:31<00:34,  3.12s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1: 100%|#########9| 2989/3000 [2:47:31<00:34,  3.12s/it, lr: 1.0e-04 loss: 1.187e-01]strawbyte_v1: 100%|#########9| 2990/3000 [2:47:36<00:31,  3.12s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1: 100%|#########9| 2990/3000 [2:47:36<00:31,  3.12s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1: 100%|#########9| 2991/3000 [2:47:36<00:25,  2.78s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1: 100%|#########9| 2991/3000 [2:47:36<00:25,  2.78s/it, lr: 1.0e-04 loss: 1.209e-01]strawbyte_v1: 100%|#########9| 2991/3000 [2:47:41<00:25,  2.78s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1: 100%|#########9| 2991/3000 [2:47:41<00:25,  2.78s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1: 100%|#########9| 2992/3000 [2:47:41<00:25,  3.19s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1: 100%|#########9| 2992/3000 [2:47:41<00:25,  3.19s/it, lr: 1.0e-04 loss: 9.167e-02]strawbyte_v1: 100%|#########9| 2992/3000 [2:47:45<00:25,  3.19s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1: 100%|#########9| 2992/3000 [2:47:45<00:25,  3.19s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1: 100%|#########9| 2993/3000 [2:47:45<00:24,  3.51s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1: 100%|#########9| 2993/3000 [2:47:45<00:24,  3.51s/it, lr: 1.0e-04 loss: 1.035e-01]strawbyte_v1: 100%|#########9| 2993/3000 [2:47:48<00:24,  3.51s/it, lr: 1.0e-04 loss: 1.762e-01]strawbyte_v1: 100%|#########9| 2993/3000 [2:47:48<00:24,  3.51s/it, lr: 1.0e-04 loss: 1.762e-01]strawbyte_v1: 100%|#########9| 2994/3000 [2:47:48<00:20,  3.41s/it, lr: 1.0e-04 loss: 1.762e-01]strawbyte_v1: 100%|#########9| 2994/3000 [2:47:48<00:20,  3.41s/it, lr: 1.0e-04 loss: 1.762e-01]strawbyte_v1: 100%|#########9| 2994/3000 [2:47:53<00:20,  3.41s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1: 100%|#########9| 2994/3000 [2:47:53<00:20,  3.41s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1: 100%|#########9| 2995/3000 [2:47:53<00:18,  3.70s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1: 100%|#########9| 2995/3000 [2:47:53<00:18,  3.70s/it, lr: 1.0e-04 loss: 1.163e-01]strawbyte_v1: 100%|#########9| 2995/3000 [2:47:56<00:18,  3.70s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1: 100%|#########9| 2995/3000 [2:47:56<00:18,  3.70s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1: 100%|#########9| 2996/3000 [2:47:56<00:13,  3.49s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1: 100%|#########9| 2996/3000 [2:47:56<00:13,  3.49s/it, lr: 1.0e-04 loss: 1.647e-01]strawbyte_v1: 100%|#########9| 2996/3000 [2:47:58<00:13,  3.49s/it, lr: 1.0e-04 loss: 8.825e-02]strawbyte_v1: 100%|#########9| 2996/3000 [2:47:58<00:13,  3.49s/it, lr: 1.0e-04 loss: 8.825e-02]strawbyte_v1: 100%|#########9| 2997/3000 [2:47:58<00:09,  3.29s/it, lr: 1.0e-04 loss: 8.825e-02]strawbyte_v1: 100%|#########9| 2997/3000 [2:47:58<00:09,  3.29s/it, lr: 1.0e-04 loss: 8.825e-02]strawbyte_v1: 100%|#########9| 2997/3000 [2:48:02<00:09,  3.29s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1: 100%|#########9| 2997/3000 [2:48:02<00:09,  3.29s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1: 100%|#########9| 2998/3000 [2:48:02<00:06,  3.27s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1: 100%|#########9| 2998/3000 [2:48:02<00:06,  3.27s/it, lr: 1.0e-04 loss: 1.413e-01]strawbyte_v1: 100%|#########9| 2998/3000 [2:48:06<00:06,  3.27s/it, lr: 1.0e-04 loss: 3.700e-02]strawbyte_v1: 100%|#########9| 2998/3000 [2:48:06<00:06,  3.27s/it, lr: 1.0e-04 loss: 3.700e-02]strawbyte_v1: 100%|#########9| 2999/3000 [2:48:06<00:03,  3.61s/it, lr: 1.0e-04 loss: 3.700e-02]strawbyte_v1: 100%|#########9| 2999/3000 [2:48:06<00:03,  3.61s/it, lr: 1.0e-04 loss: 3.700e-02]strawbyte_v1: 100%|#########9| 2999/3000 [2:48:06<00:03,  3.36s/it, lr: 1.0e-04 loss: 3.700e-02]strawbyte_v1: 100%|#########9| 2999/3000 [2:48:06<00:03,  3.36s/it, lr: 1.0e-04 loss: 3.700e-02]
+
+Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:   0%|          | 0/4 [00:00<?, ?it/s]Generating Images:  25%|##5       | 1/4 [01:15<03:45, 75.33s/it]Generating Images:  25%|##5       | 1/4 [01:15<03:45, 75.33s/it]Generating Images:  50%|#####     | 2/4 [02:30<02:30, 75.37s/it]Generating Images:  50%|#####     | 2/4 [02:30<02:30, 75.37s/it]Generating Images:  75%|#######5  | 3/4 [03:45<01:15, 75.06s/it]Generating Images:  75%|#######5  | 3/4 [03:45<01:15, 75.06s/it]Generating Images: 100%|##########| 4/4 [04:59<00:00, 74.82s/it]Generating Images: 100%|##########| 4/4 [04:59<00:00, 74.82s/it]                                                                                                                                
+Saved checkpoint to /app/ai-toolkit/output/strawbyte_v1/strawbyte_v1.safetensors
+Saved optimizer to /app/ai-toolkit/output/strawbyte_v1/optimizer.pt
diff --git a/optimizer.pt b/optimizer.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bc8053e49cfcb2f96d0064ab09d2f97331d76ae7
--- /dev/null
+++ b/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bda538773c23c4768a6530bdd25f12330f545b429cb23489de109dcde002f1d2
+size 598613389
diff --git a/pid.txt b/pid.txt
new file mode 100644
index 0000000000000000000000000000000000000000..877f3fc0cf8e6a65b3403cef788a5eea47914b6f
--- /dev/null
+++ b/pid.txt
@@ -0,0 +1 @@
+26460
\ No newline at end of file
diff --git a/samples/1763263613511__000000000_0.jpg b/samples/1763263613511__000000000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..41a9dc093050874167d57836b10e7365c07360b7
Binary files /dev/null and b/samples/1763263613511__000000000_0.jpg differ
diff --git a/samples/1763263683968__000000000_1.jpg b/samples/1763263683968__000000000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..dd786900ae45dca34f305ced6efe363fd372cd5f
Binary files /dev/null and b/samples/1763263683968__000000000_1.jpg differ
diff --git a/samples/1763263755190__000000000_2.jpg b/samples/1763263755190__000000000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..65eb388728e9e29a356973776ae6c43ed388fce2
Binary files /dev/null and b/samples/1763263755190__000000000_2.jpg differ
diff --git a/samples/1763263826178__000000000_3.jpg b/samples/1763263826178__000000000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..27cf9d608cd3bfcd1da5bd6ef3800a6534e447a5
Binary files /dev/null and b/samples/1763263826178__000000000_3.jpg differ
diff --git a/samples/1763264752856__000000250_0.jpg b/samples/1763264752856__000000250_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..2af6e4c7778591fedd9b437123e49a9ab884b7fb
Binary files /dev/null and b/samples/1763264752856__000000250_0.jpg differ
diff --git a/samples/1763264826488__000000250_1.jpg b/samples/1763264826488__000000250_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..0d95c1af9ec4cfaec0b74435035eb39f736009d1
Binary files /dev/null and b/samples/1763264826488__000000250_1.jpg differ
diff --git a/samples/1763264900524__000000250_2.jpg b/samples/1763264900524__000000250_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..7defd966d67c890fffcebe0ab2fee7f8f5b61440
Binary files /dev/null and b/samples/1763264900524__000000250_2.jpg differ
diff --git a/samples/1763264973339__000000250_3.jpg b/samples/1763264973339__000000250_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..4933e3b210cd38831d8e12cfd0da75bc9ee03eac
Binary files /dev/null and b/samples/1763264973339__000000250_3.jpg differ
diff --git a/samples/1763265901328__000000500_0.jpg b/samples/1763265901328__000000500_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..0754b2735f63699d7c2149d7da3302781759e711
Binary files /dev/null and b/samples/1763265901328__000000500_0.jpg differ
diff --git a/samples/1763265976489__000000500_1.jpg b/samples/1763265976489__000000500_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..d6806bdad46a355303bfe8e60b8aa92e38886412
Binary files /dev/null and b/samples/1763265976489__000000500_1.jpg differ
diff --git a/samples/1763266050119__000000500_2.jpg b/samples/1763266050119__000000500_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..06986d4171558b2c42fe09fbf3b2b78e0ef8466a
Binary files /dev/null and b/samples/1763266050119__000000500_2.jpg differ
diff --git a/samples/1763266124378__000000500_3.jpg b/samples/1763266124378__000000500_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..3f099e8f48ca185e7bfb5279bf471c86e331042f
Binary files /dev/null and b/samples/1763266124378__000000500_3.jpg differ
diff --git a/samples/1763267054569__000000750_0.jpg b/samples/1763267054569__000000750_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..3192e83bf299bc0aae58a1f669ce40e3df1aac7a
Binary files /dev/null and b/samples/1763267054569__000000750_0.jpg differ
diff --git a/samples/1763267128024__000000750_1.jpg b/samples/1763267128024__000000750_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..9fa5082032ba01f1663db9d5b6137ae0a7d6b36a
Binary files /dev/null and b/samples/1763267128024__000000750_1.jpg differ
diff --git a/samples/1763267201843__000000750_2.jpg b/samples/1763267201843__000000750_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..ec14c16e7aed041dfc47289503599e879bf8ee67
Binary files /dev/null and b/samples/1763267201843__000000750_2.jpg differ
diff --git a/samples/1763267274767__000000750_3.jpg b/samples/1763267274767__000000750_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..c0a892cf1c01a41bc56bd456be5239b3dbbda849
Binary files /dev/null and b/samples/1763267274767__000000750_3.jpg differ
diff --git a/samples/1763268200359__000001000_0.jpg b/samples/1763268200359__000001000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..5114a1158d03d0654054ddd7ea4e085c8f6fc132
Binary files /dev/null and b/samples/1763268200359__000001000_0.jpg differ
diff --git a/samples/1763268275227__000001000_1.jpg b/samples/1763268275227__000001000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..93592a129725e3854a195cd013f028f60ec8afcb
Binary files /dev/null and b/samples/1763268275227__000001000_1.jpg differ
diff --git a/samples/1763268349526__000001000_2.jpg b/samples/1763268349526__000001000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e3cf715b85849e51c12621d3a0e6220c9a2dea6b
Binary files /dev/null and b/samples/1763268349526__000001000_2.jpg differ
diff --git a/samples/1763268423969__000001000_3.jpg b/samples/1763268423969__000001000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..48fdfc980774d33fb121da8dcc916866713cc22d
Binary files /dev/null and b/samples/1763268423969__000001000_3.jpg differ
diff --git a/samples/1763269357001__000001250_0.jpg b/samples/1763269357001__000001250_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..d0bf10df3b8e05cf73be9a4a3ab62f12e97c98ab
Binary files /dev/null and b/samples/1763269357001__000001250_0.jpg differ
diff --git a/samples/1763269431203__000001250_1.jpg b/samples/1763269431203__000001250_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..67920d03606f52a03a6d6955fc6cf228a785a588
Binary files /dev/null and b/samples/1763269431203__000001250_1.jpg differ
diff --git a/samples/1763269505625__000001250_2.jpg b/samples/1763269505625__000001250_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..747508455fba9fa4a6b5f9c2e807234876514a43
Binary files /dev/null and b/samples/1763269505625__000001250_2.jpg differ
diff --git a/samples/1763269579335__000001250_3.jpg b/samples/1763269579335__000001250_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..6c1a7dcdf2f3f28bf96e87e7234af54fef0d644e
Binary files /dev/null and b/samples/1763269579335__000001250_3.jpg differ
diff --git a/samples/1763270500840__000001500_0.jpg b/samples/1763270500840__000001500_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..8a89cd4f1b206bc51212c9018d1bcacd728916e2
Binary files /dev/null and b/samples/1763270500840__000001500_0.jpg differ
diff --git a/samples/1763270575693__000001500_1.jpg b/samples/1763270575693__000001500_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..f608a4bf9fd09fc78ea2fa3400ecbb86ac7753e3
Binary files /dev/null and b/samples/1763270575693__000001500_1.jpg differ
diff --git a/samples/1763270650698__000001500_2.jpg b/samples/1763270650698__000001500_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..8316d3491bb96c243de2ac22f4a3761ea0b48505
Binary files /dev/null and b/samples/1763270650698__000001500_2.jpg differ
diff --git a/samples/1763270725655__000001500_3.jpg b/samples/1763270725655__000001500_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..988b1d7a7550d484e3e13dc62adf7172ab0010e2
Binary files /dev/null and b/samples/1763270725655__000001500_3.jpg differ
diff --git a/samples/1763271641162__000001750_0.jpg b/samples/1763271641162__000001750_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e0cbc8947fdfb5564818010b023730ae6a9d244c
Binary files /dev/null and b/samples/1763271641162__000001750_0.jpg differ
diff --git a/samples/1763271713558__000001750_1.jpg b/samples/1763271713558__000001750_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..a95cda313dfea6b5d150c4545e71ea009d852fc0
Binary files /dev/null and b/samples/1763271713558__000001750_1.jpg differ
diff --git a/samples/1763271787934__000001750_2.jpg b/samples/1763271787934__000001750_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..52c76af22cd75fbd5413318adacc40830db815da
Binary files /dev/null and b/samples/1763271787934__000001750_2.jpg differ
diff --git a/samples/1763271860875__000001750_3.jpg b/samples/1763271860875__000001750_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..40b21f97a93a534092239463253bdd4ea96610fc
Binary files /dev/null and b/samples/1763271860875__000001750_3.jpg differ
diff --git a/samples/1763272792604__000002000_0.jpg b/samples/1763272792604__000002000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..aceb005b57ef34104475eef55ca428d3b9c3c394
Binary files /dev/null and b/samples/1763272792604__000002000_0.jpg differ
diff --git a/samples/1763272866700__000002000_1.jpg b/samples/1763272866700__000002000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..9b34340d8d43ab616bddb75314d2be90d3056d0e
Binary files /dev/null and b/samples/1763272866700__000002000_1.jpg differ
diff --git a/samples/1763272940835__000002000_2.jpg b/samples/1763272940835__000002000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..7ecac7473d34aa2655ef3960e7adda9f647b647a
Binary files /dev/null and b/samples/1763272940835__000002000_2.jpg differ
diff --git a/samples/1763273014892__000002000_3.jpg b/samples/1763273014892__000002000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..edcb69dbed4fe81d09eebd3b2c3b082522b443e0
Binary files /dev/null and b/samples/1763273014892__000002000_3.jpg differ
diff --git a/samples/1763273926437__000002250_0.jpg b/samples/1763273926437__000002250_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..fac89e53c66478fd37a493ee2f81b85bc6b2b78f
Binary files /dev/null and b/samples/1763273926437__000002250_0.jpg differ
diff --git a/samples/1763274000592__000002250_1.jpg b/samples/1763274000592__000002250_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..890b391807a51a1e1e9af03f2446fd4b0a346173
Binary files /dev/null and b/samples/1763274000592__000002250_1.jpg differ
diff --git a/samples/1763274074823__000002250_2.jpg b/samples/1763274074823__000002250_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..beed56adf6fd41f583ce64c985cb68a9fa08cbcc
Binary files /dev/null and b/samples/1763274074823__000002250_2.jpg differ
diff --git a/samples/1763274147737__000002250_3.jpg b/samples/1763274147737__000002250_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..cdc71f6b74f8bfddaa6a8ce5443c3da5a3baa0cf
Binary files /dev/null and b/samples/1763274147737__000002250_3.jpg differ
diff --git a/samples/1763275077114__000002500_0.jpg b/samples/1763275077114__000002500_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..bfab5c209a5fb7ba90dd1670d724bb409eed1a40
Binary files /dev/null and b/samples/1763275077114__000002500_0.jpg differ
diff --git a/samples/1763275151341__000002500_1.jpg b/samples/1763275151341__000002500_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..65f07bc375582365197fe9ded0d2df61f9303cb3
Binary files /dev/null and b/samples/1763275151341__000002500_1.jpg differ
diff --git a/samples/1763275225060__000002500_2.jpg b/samples/1763275225060__000002500_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..f05df28b25f92ebacae6816549fff5b6490fcce4
Binary files /dev/null and b/samples/1763275225060__000002500_2.jpg differ
diff --git a/samples/1763275299777__000002500_3.jpg b/samples/1763275299777__000002500_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..0ae46d484e8a527be3f02794a35725bc38907b8e
Binary files /dev/null and b/samples/1763275299777__000002500_3.jpg differ
diff --git a/samples/1763276234311__000002750_0.jpg b/samples/1763276234311__000002750_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..5577fd14acc8431af85163e3b898e0acf3b32795
Binary files /dev/null and b/samples/1763276234311__000002750_0.jpg differ
diff --git a/samples/1763276308589__000002750_1.jpg b/samples/1763276308589__000002750_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..60a366b1bb33e1c482e9a37306375a46d1253e92
Binary files /dev/null and b/samples/1763276308589__000002750_1.jpg differ
diff --git a/samples/1763276382811__000002750_2.jpg b/samples/1763276382811__000002750_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..b5a182ad542ff17ddd646dbf58b13ce513b3d8da
Binary files /dev/null and b/samples/1763276382811__000002750_2.jpg differ
diff --git a/samples/1763276457052__000002750_3.jpg b/samples/1763276457052__000002750_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..6cdbaeb17377e0bbf9c1352060150bb611ecc6fe
Binary files /dev/null and b/samples/1763276457052__000002750_3.jpg differ
diff --git a/samples/1763277371122__000003000_0.jpg b/samples/1763277371122__000003000_0.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..7c708f8c15504e4c48989122e99859824746f4b2
Binary files /dev/null and b/samples/1763277371122__000003000_0.jpg differ
diff --git a/samples/1763277446522__000003000_1.jpg b/samples/1763277446522__000003000_1.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..e99eaa9e8dcad6c62113b5b67b023b59aff201e1
Binary files /dev/null and b/samples/1763277446522__000003000_1.jpg differ
diff --git a/samples/1763277521122__000003000_2.jpg b/samples/1763277521122__000003000_2.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..8bd6ebd0e5428ff124259e71f8cc37c4523248e4
Binary files /dev/null and b/samples/1763277521122__000003000_2.jpg differ
diff --git a/samples/1763277595575__000003000_3.jpg b/samples/1763277595575__000003000_3.jpg
new file mode 100644
index 0000000000000000000000000000000000000000..0d02837a8c1e607abf272d0a786d34cd106177c1
Binary files /dev/null and b/samples/1763277595575__000003000_3.jpg differ
diff --git a/strawbyte_v1.safetensors b/strawbyte_v1.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f364ba5c286b0c39e7fa4aee20cad8fda618dc15
--- /dev/null
+++ b/strawbyte_v1.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:da77d7abc34d430d0a325a32e44a5d154c14a12fdd2b0c47be9ee45519cc06c5
+size 590058824
diff --git a/strawbyte_v1_000002000.safetensors b/strawbyte_v1_000002000.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b2fe21edff4802b097e6a68fc4516ffa050d6762
--- /dev/null
+++ b/strawbyte_v1_000002000.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:77c0753f84ac2e4476c88288beaf4830342030083a71e7e26f843435924262e6
+size 590058824
diff --git a/strawbyte_v1_000002250.safetensors b/strawbyte_v1_000002250.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..baf6be1aa68bef041595eeea39c56c151c098c35
--- /dev/null
+++ b/strawbyte_v1_000002250.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb8fe2e27425f990ae6d0df25e596dcef5cdfd5b4624ae25236378d45928fc50
+size 590058824
diff --git a/strawbyte_v1_000002500.safetensors b/strawbyte_v1_000002500.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..214cc8847df54b684469b159c171f5914f79278f
--- /dev/null
+++ b/strawbyte_v1_000002500.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66126b3023ab8e21a1f7f75c61a0d3ad2ae0d636792c0e00f0ce763a503350e0
+size 590058824
diff --git a/strawbyte_v1_000002750.safetensors b/strawbyte_v1_000002750.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..460daebed6787a7bef65bc2dc9943cd99acd7f1b
--- /dev/null
+++ b/strawbyte_v1_000002750.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:abdeb7b6b97ebe4b43c0b71fa7df9310dd4f2b4839393217ae5e1be30653d0ae
+size 590058824