diff --git a/.gitattributes b/.gitattributes
index 5167be1c2d32403222cec29a70185edf980f3f38..dd5450dc7afd2aec66d2967223bad928c264ff50 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -38,3 +38,8 @@ Unicorn/wandb/run-20260114_135552-sjoswxwz/run-sjoswxwz.wandb filter=lfs diff=lf
 Unicorn/wandb/run-20260114_170827-uobkoafb/run-uobkoafb.wandb filter=lfs diff=lfs merge=lfs -text
 Unicorn/wandb/run-20260115_103501-4tsjsu0t/run-4tsjsu0t.wandb filter=lfs diff=lfs merge=lfs -text
 Unicorn/wandb/run-20260115_230712-6c574jt7/run-6c574jt7.wandb filter=lfs diff=lfs merge=lfs -text
+Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/run-idx5bv8k.wandb filter=lfs diff=lfs merge=lfs -text
+Unicorn_dense/wandb/run-20260114_135602-iex36np1/run-iex36np1.wandb filter=lfs diff=lfs merge=lfs -text
+Unicorn_dense/wandb/run-20260114_170827-as22o934/run-as22o934.wandb filter=lfs diff=lfs merge=lfs -text
+Unicorn_dense/wandb/run-20260115_103508-pagdc54a/run-pagdc54a.wandb filter=lfs diff=lfs merge=lfs -text
+Unicorn_dense/wandb/run-20260115_230908-tzltcduc/run-tzltcduc.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/Unicorn_dense/.DS_Store b/Unicorn_dense/.DS_Store
new file mode 100644
index 0000000000000000000000000000000000000000..98415cde298f36a345107bee75c04be6869a8b00
Binary files /dev/null and b/Unicorn_dense/.DS_Store differ
diff --git a/Unicorn_dense/bunny/.DS_Store b/Unicorn_dense/bunny/.DS_Store
new file mode 100644
index 0000000000000000000000000000000000000000..79830bb6f17a58bc4c7e8b13ea6da2f09c09e252
Binary files /dev/null and b/Unicorn_dense/bunny/.DS_Store differ
diff --git a/Unicorn_dense/bunny/__init__.py b/Unicorn_dense/bunny/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Unicorn_dense/bunny/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bd10a168bf8aaa537639a0da88b7c68d301a216c
Binary files /dev/null and b/Unicorn_dense/bunny/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/__pycache__/constants.cpython-310.pyc b/Unicorn_dense/bunny/__pycache__/constants.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..06fda57c782b92a41cf515fa862ace4409b25ae1
Binary files /dev/null and b/Unicorn_dense/bunny/__pycache__/constants.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/__pycache__/conversation.cpython-310.pyc b/Unicorn_dense/bunny/__pycache__/conversation.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..109c040a57f3c7792c50d5f2d5cab999ed702403
Binary files /dev/null and b/Unicorn_dense/bunny/__pycache__/conversation.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/constants.py b/Unicorn_dense/bunny/constants.py
new file mode 100644
index 0000000000000000000000000000000000000000..2ea90e94fbd388819ec785304b852459c3ea2735
--- /dev/null
+++ b/Unicorn_dense/bunny/constants.py
@@ -0,0 +1,7 @@
+# Model Constants
+IGNORE_INDEX = -100
+IMAGE_TOKEN_INDEX = -200
+DEFAULT_IMAGE_TOKEN = "<image>"
+CONTROLLER_HEART_BEAT_EXPIRATION = 30
+LOGDIR = "gradio-logs"
+WORKER_HEART_BEAT_INTERVAL = 15
diff --git a/Unicorn_dense/bunny/conversation.py b/Unicorn_dense/bunny/conversation.py
new file mode 100644
index 0000000000000000000000000000000000000000..f1bad84cef55de74d87dcb2f3fc5852de2e48df7
--- /dev/null
+++ b/Unicorn_dense/bunny/conversation.py
@@ -0,0 +1,239 @@
+import dataclasses
+from enum import auto, Enum
+from typing import List
+
+
+class SeparatorStyle(Enum):
+    """Different separator style."""
+    TWO = auto()
+    PLAIN = auto()
+
+
+@dataclasses.dataclass
+class Conversation:
+    """A class that keeps all conversation history."""
+    system: str
+    roles: List[str]
+    messages: List[List[str]]
+    offset: int
+    sep_style: SeparatorStyle
+    sep: str = "###"
+    sep2: str = None
+    version: str = "Unknown"
+
+    skip_next: bool = False
+
+    def get_prompt(self):
+        messages = self.messages
+        if len(messages) > 0 and type(messages[0][1]) is tuple:
+            messages = self.messages.copy()
+            init_role, init_msg = messages[0].copy()
+            init_msg = init_msg[0].replace("<image>", "").strip()
+            if 'mmtag' in self.version:
+                messages[0] = (init_role, init_msg)
+                messages.insert(0, (self.roles[0], "<Image><image></Image>"))
+                messages.insert(1, (self.roles[1], "Received."))
+            else:
+                messages[0] = (init_role, "<image>\n" + init_msg)
+
+        if self.sep_style == SeparatorStyle.TWO:
+            seps = [self.sep, self.sep2]
+            ret = self.system + seps[0]
+            for i, (role, message) in enumerate(messages):
+                if message:
+                    if type(message) is tuple:
+                        message, _, _ = message
+                    ret += role + ": " + message + seps[i % 2]
+                else:
+                    ret += role + ":"
+
+        elif self.sep_style == SeparatorStyle.PLAIN:
+            seps = [self.sep, self.sep2]
+            ret = self.system
+            for i, (role, message) in enumerate(messages):
+                if message:
+                    if type(message) is tuple:
+                        message, _, _ = message
+                    ret += message + seps[i % 2]
+                else:
+                    ret += ""
+        else:
+            raise ValueError(f"Invalid style: {self.sep_style}")
+
+        return ret
+
+    def append_message(self, role, message):
+        self.messages.append([role, message])
+
+    def get_images(self, return_pil=False):
+        images = []
+        for i, (role, msg) in enumerate(self.messages[self.offset:]):
+            if i % 2 == 0:
+                if type(msg) is tuple:
+                    import base64
+                    from io import BytesIO
+                    from PIL import Image
+                    msg, image, image_process_mode = msg
+                    if image_process_mode == "Pad":
+                        def expand2square(pil_img, background_color=(122, 116, 104)):
+                            width, height = pil_img.size
+                            if width == height:
+                                return pil_img
+                            elif width > height:
+                                result = Image.new(pil_img.mode, (width, width), background_color)
+                                result.paste(pil_img, (0, (width - height) // 2))
+                                return result
+                            else:
+                                result = Image.new(pil_img.mode, (height, height), background_color)
+                                result.paste(pil_img, ((height - width) // 2, 0))
+                                return result
+
+                        image = expand2square(image)
+                    elif image_process_mode in ["Default", "Crop"]:
+                        pass
+                    elif image_process_mode == "Resize":
+                        image = image.resize((336, 336))
+                    else:
+                        raise ValueError(f"Invalid image_process_mode: {image_process_mode}")
+
+                    if return_pil:
+                        images.append(image)
+                    else:
+                        buffered = BytesIO()
+                        image.save(buffered, format="PNG")
+                        img_b64_str = base64.b64encode(buffered.getvalue()).decode()
+                        images.append(img_b64_str)
+        return images
+
+    def to_gradio_chatbot(self):
+        ret = []
+        for i, (role, msg) in enumerate(self.messages[self.offset:]):
+            if i % 2 == 0:
+                if type(msg) is tuple:
+                    import base64
+                    from io import BytesIO
+                    msg, image, image_process_mode = msg
+                    max_hw, min_hw = max(image.size), min(image.size)
+                    aspect_ratio = max_hw / min_hw
+                    max_len, min_len = 800, 400
+                    shortest_edge = int(min(max_len / aspect_ratio, min_len, min_hw))
+                    longest_edge = int(shortest_edge * aspect_ratio)
+                    W, H = image.size
+                    if H > W:
+                        H, W = longest_edge, shortest_edge
+                    else:
+                        H, W = shortest_edge, longest_edge
+                    image = image.resize((W, H))
+                    buffered = BytesIO()
+                    image.save(buffered, format="JPEG")
+                    img_b64_str = base64.b64encode(buffered.getvalue()).decode()
+                    img_str = f'<img src="data:image/png;base64,{img_b64_str}" alt="user upload image" />'
+                    msg = img_str + msg.replace('<image>', '').strip()
+                    ret.append([msg, None])
+                else:
+                    ret.append([msg, None])
+            else:
+                ret[-1][-1] = msg
+        return ret
+
+    def copy(self):
+        return Conversation(
+            system=self.system,
+            roles=self.roles,
+            messages=[[x, y] for x, y in self.messages],
+            offset=self.offset,
+            sep_style=self.sep_style,
+            sep=self.sep,
+            sep2=self.sep2,
+            version=self.version)
+
+    def dict(self):
+        if len(self.get_images()) > 0:
+            return {
+                "system": self.system,
+                "roles": self.roles,
+                "messages": [[x, y[0] if type(y) is tuple else y] for x, y in self.messages],
+                "offset": self.offset,
+                "sep": self.sep,
+                "sep2": self.sep2,
+            }
+        return {
+            "system": self.system,
+            "roles": self.roles,
+            "messages": self.messages,
+            "offset": self.offset,
+            "sep": self.sep,
+            "sep2": self.sep2,
+        }
+
+
+conv_bunny = Conversation(
+    system="A chat between a curious user and an artificial intelligence assistant. "
+           "The assistant gives helpful, detailed, and polite answers to the user's questions.",
+    roles=("USER", "ASSISTANT"),
+    version="bunny",
+    messages=(),
+    offset=0,
+    sep_style=SeparatorStyle.TWO,
+    sep=" ",
+    sep2="<|endoftext|>",
+)
+
+conv_phi3 = Conversation(
+    system="A chat between a curious user and an artificial intelligence assistant. "
+           "The assistant gives helpful, detailed, and polite answers to the user's questions.",
+    roles=("USER", "ASSISTANT"),
+    version="phi3",
+    messages=(),
+    offset=0,
+    sep_style=SeparatorStyle.TWO,
+    sep=" ",
+    sep2="<|endoftext|>",
+)
+
+conv_minicpm = Conversation(
+    system="A chat between a curious user and an artificial intelligence assistant. "
+           "The assistant gives helpful, detailed, and polite answers to the user's questions.",
+    roles=("USER", "ASSISTANT"),
+    version="minicpm",
+    messages=(),
+    offset=0,
+    sep_style=SeparatorStyle.TWO,
+    sep=" ",
+    sep2="</s>",
+)
+
+conv_llama = Conversation(
+    system="A chat between a curious user and an artificial intelligence assistant. "
+           "The assistant gives helpful, detailed, and polite answers to the user's questions.",
+    roles=("USER", "ASSISTANT"),
+    version="llama",
+    messages=(),
+    offset=0,
+    sep_style=SeparatorStyle.TWO,
+    sep=" ",
+    sep2="<|end_of_text|>",
+)
+
+conv_plain = Conversation(
+    system="",
+    roles=("", ""),
+    messages=(
+    ),
+    offset=0,
+    sep_style=SeparatorStyle.PLAIN,
+    sep="\n",
+)
+
+default_conversation = conv_bunny
+conv_templates = {
+    "default": conv_bunny,
+    "bunny": conv_bunny,
+    "phi3": conv_phi3,
+    "plain": conv_plain,
+    'minicpm': conv_minicpm,
+    'llama': conv_llama
+}
+
+if __name__ == "__main__":
+    print(default_conversation.get_prompt())
diff --git a/Unicorn_dense/bunny/model/.DS_Store b/Unicorn_dense/bunny/model/.DS_Store
new file mode 100644
index 0000000000000000000000000000000000000000..1154d90116341ce56c406896462d1046ca85673a
Binary files /dev/null and b/Unicorn_dense/bunny/model/.DS_Store differ
diff --git a/Unicorn_dense/bunny/model/__init__.py b/Unicorn_dense/bunny/model/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..ba67a6176d4a57113002e57408edacde300b7eb7
--- /dev/null
+++ b/Unicorn_dense/bunny/model/__init__.py
@@ -0,0 +1,6 @@
+from .language_model.bunny_phi import BunnyPhiForCausalLM, BunnyPhiConfig
+from .language_model.bunny_stablelm import BunnyStableLMForCausalLM, BunnyStableLMConfig
+from .language_model.bunny_qwen import BunnyQwen2ForCausalLM, BunnyQwen2Config
+from .language_model.bunny_minicpm import BunnyMiniCPMForCausalLM, BunnyMiniCPMConfig
+from .language_model.bunny_llama import BunnyLlamaForCausalLM, BunnyLlamaConfig
+from .language_model.bunny_phi3 import BunnyPhi3ForCausalLM, BunnyPhi3Config
diff --git a/Unicorn_dense/bunny/model/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/model/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c746242b6cd929f3b88b0755ffd47dd5cc7c6873
Binary files /dev/null and b/Unicorn_dense/bunny/model/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/__pycache__/bunny_arch.cpython-310.pyc b/Unicorn_dense/bunny/model/__pycache__/bunny_arch.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3113649d059e3c8ac471a8e48d832038dba5be90
Binary files /dev/null and b/Unicorn_dense/bunny/model/__pycache__/bunny_arch.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/builder.py b/Unicorn_dense/bunny/model/builder.py
new file mode 100644
index 0000000000000000000000000000000000000000..6694855d05c99adcd21bc566c34cba79387c0079
--- /dev/null
+++ b/Unicorn_dense/bunny/model/builder.py
@@ -0,0 +1,49 @@
+import torch
+import transformers
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import warnings
+import transformers
+# disable some warnings
+transformers.logging.set_verbosity_error()
+transformers.logging.disable_progress_bar()
+warnings.filterwarnings('ignore')
+
+import sys
+
+# 把 /data/xmyu/Bunny_text/ 加进 sys.path，以便后续 import
+sys.path.insert(0, "/data/xmyu/Bunny_text")
+from bunny.model.language_model.bunny_llama import BunnyLlamaConfig, BunnyLlamaForCausalLM
+
+
+def load_pretrained_model(model_path, model_base, model_name, model_type, load_8bit=False, load_4bit=False,
+                          device_map="auto", device="cuda", **kwargs):
+
+    # Our Model
+    # model = AutoModelForCausalLM.from_pretrained(
+    #     '/data/xmyu/finished-checkpoints/no-transfer/checkpoints-llama3-8b/bunny-llama3-8b',
+    #     torch_dtype=torch.float16, # float32 for cpu
+    #     trust_remote_code=True
+    #     # device_map='auto'
+    # ).to("cuda")
+
+    # tokenizer = AutoTokenizer.from_pretrained(
+    #     '/data/xmyu/finished-checkpoints/no-transfer/checkpoints-llama3-8b/bunny-llama3-8b',
+    #     trust_remote_code=True
+    #     )
+
+
+    # Our Model
+    model = AutoModelForCausalLM.from_pretrained(
+        '/data/xmyu/finished-checkpoints/mean_shift/checkpoints-llama3-8b/bunny-llama3-8b',
+        torch_dtype=torch.float16, # float32 for cpu
+        trust_remote_code=True
+        # device_map='auto'
+    ).to("cuda")
+
+    tokenizer = AutoTokenizer.from_pretrained(
+        '/data/xmyu/finished-checkpoints/mean_shift/checkpoints-llama3-8b/bunny-llama3-8b',
+        trust_remote_code=True
+        )
+
+
+    return tokenizer, model, 512
diff --git a/Unicorn_dense/bunny/model/bunny_arch.py b/Unicorn_dense/bunny/model/bunny_arch.py
new file mode 100644
index 0000000000000000000000000000000000000000..0c947e0ac7a2abe83cf7d694990efd5257893d97
--- /dev/null
+++ b/Unicorn_dense/bunny/model/bunny_arch.py
@@ -0,0 +1,244 @@
+from abc import ABC, abstractmethod
+import os
+import torch
+from .multimodal_projector.builder import build_vision_projector
+
+from bunny.constants import IGNORE_INDEX, IMAGE_TOKEN_INDEX
+
+
+class BunnyMetaModel:
+
+    def __init__(self, config):
+        super(BunnyMetaModel, self).__init__(config)
+
+        # 修改这里：不要使用 if True
+        # 使用 hasattr 检查配置中是否包含 mm_hidden_size。
+        # 1. 训练开始加载 Base Model 时，没有该属性，跳过构建（防止报错）。
+        #    后续 train.py 会调用 initialize_vision_modules 手动初始化它。
+        # 2. 推理加载训练好的 Bunny Model 时，Config 里有该属性，直接构建。
+        
+        if hasattr(config, "mm_hidden_size"): 
+            if getattr(config, 'continuous_training', False):
+                config.continuous_training = False
+            self.mm_projector = build_vision_projector(config)
+
+    def initialize_vision_modules(self, model_args):
+
+        pretrain_mm_mlp_adapter = model_args.pretrain_mm_mlp_adapter
+
+        self.config.use_mm_proj = True
+        self.config.mm_projector_type = getattr(model_args, 'mm_projector_type')
+        self.config.mm_hidden_size = 1280
+
+        if getattr(self, 'mm_projector', None) is None:
+            self.mm_projector = build_vision_projector(self.config)
+        # else:
+            # In case it is frozen by LoRA
+        #  for p in self.mm_projector.parameters():
+        #        p.requires_grad = True
+
+        if pretrain_mm_mlp_adapter is not None:
+            mm_projector_weights = torch.load(pretrain_mm_mlp_adapter, map_location='cpu')
+
+            def get_w(weights, keyword):
+                return {k.split(keyword + '.')[1]: v for k, v in weights.items() if keyword in k}
+
+            self.mm_projector.load_state_dict(get_w(mm_projector_weights, 'mm_projector'))
+
+
+class BunnyMetaForCausalLM(ABC):
+
+    @abstractmethod
+    def get_model(self):
+        pass
+
+    def get_image_feature(self, embeds):
+
+        # 传给 projector 的 image feature 形状 [batch, 1280]
+
+
+        # print('<get_image_feature1------------------------------------------>')
+        # print(embeds)
+        # print('<get_image_feature1------------------------------------------>')
+
+        # 将 [batch, mm_hidden_size] 扩展为 [batch, seq, mm_hidden_size]
+        seq = 576  
+        embeds = embeds.unsqueeze(1).expand(-1, seq, -1)
+
+        # embeds = self.mm_projector(embeds)
+
+        embeds = self.get_model().mm_projector(embeds)
+
+        # print('embeds2.shape', embeds.shape)
+
+        # print('<get_image_feature--------------------------------->')
+        
+        return embeds # [batch, 1280]
+
+
+    def prepare_inputs_labels_for_multimodal(
+            self, input_ids, position_ids, attention_mask, past_key_values, labels, embeds
+    ):
+
+        # print('<111111------------------------------------------>')
+        # print(embeds)
+        # print('<111111------------------------------------------>')
+
+        if embeds is None or input_ids.shape[1] == 1:
+            if past_key_values is not None and embeds is not None and input_ids.shape[
+                1] == 1:
+                target_shape = past_key_values[-1][-1].shape[-2] + 1
+                attention_mask = torch.cat((attention_mask, torch.ones(
+                    (attention_mask.shape[0], target_shape - attention_mask.shape[1]),
+                    dtype=attention_mask.dtype,
+                    device=attention_mask.device
+                )), dim=1)
+                position_ids = torch.sum(attention_mask, dim=1).unsqueeze(-1) - 1
+            return input_ids, position_ids, attention_mask, past_key_values, None, labels
+        
+
+
+        if embeds is not None:
+
+            # print('<In bunny arch------------------------------------>')
+            # print(embeds)
+            # print('<In bunny arch------------------------------------>')
+            # concat_images = torch.cat([image for image in images], dim=0)
+            image_features = self.get_image_feature(embeds) # [batch, 1280]
+
+            # print('<image_features!!!???---------------------->')
+            # print(image_features.shape)
+            # print('<image_features!!!???---------------------->')
+
+
+
+
+        # Let's just add dummy tensors if they do not exist,
+        # it is a headache to deal with None all the time.
+        # But it is not ideal, and if you have a better idea,
+        # please open an issue / submit a PR, thanks.
+        _labels = labels
+        _position_ids = position_ids
+        _attention_mask = attention_mask
+        if attention_mask is None:
+            attention_mask = torch.ones_like(input_ids, dtype=torch.bool)
+        else:
+            attention_mask = attention_mask.bool()
+        if position_ids is None:
+            position_ids = torch.arange(0, input_ids.shape[1], dtype=torch.long, device=input_ids.device)
+        if labels is None:
+            labels = torch.full_like(input_ids, IGNORE_INDEX)
+
+        input_ids_temp = input_ids # points to the actual input_ids tensor
+
+        # remove the padding using attention_mask -- TODO: double check
+        input_ids = [cur_input_ids[cur_attention_mask] for cur_input_ids, cur_attention_mask in
+                     zip(input_ids, attention_mask)]
+        labels = [cur_labels[cur_attention_mask] for cur_labels, cur_attention_mask in zip(labels, attention_mask)]
+
+        # -- TODO: better implementation?
+        # replace IMAGE_TOKEN_INDEX(-200) with 0 to be compatible with repetition penalty
+        input_ids_temp[input_ids_temp == IMAGE_TOKEN_INDEX] = 0
+
+        new_input_embeds = []
+        new_labels = []
+        cur_image_idx = 0
+        for batch_idx, cur_input_ids in enumerate(input_ids):
+            num_images = (cur_input_ids == IMAGE_TOKEN_INDEX).sum()
+            if num_images == 0:
+                cur_image_features = image_features[cur_image_idx]
+                cur_input_embeds_1 = self.get_model().embed_tokens(cur_input_ids)
+                cur_input_embeds = torch.cat([cur_input_embeds_1, cur_image_features[0:0]], dim=0)
+                new_input_embeds.append(cur_input_embeds)
+                new_labels.append(labels[batch_idx])
+                cur_image_idx += 1
+                continue
+
+            image_token_indices = [-1] + torch.where(cur_input_ids == IMAGE_TOKEN_INDEX)[0].tolist() + [
+                cur_input_ids.shape[0]]
+            cur_input_ids_noim = []
+            cur_labels = labels[batch_idx]
+            cur_labels_noim = []
+            for i in range(len(image_token_indices) - 1):
+                cur_input_ids_noim.append(cur_input_ids[image_token_indices[i] + 1:image_token_indices[i + 1]])
+                cur_labels_noim.append(cur_labels[image_token_indices[i] + 1:image_token_indices[i + 1]])
+            split_sizes = [x.shape[0] for x in cur_labels_noim]
+            cur_input_embeds = self.get_model().embed_tokens(torch.cat(cur_input_ids_noim))
+            cur_input_embeds_no_im = torch.split(cur_input_embeds, split_sizes, dim=0)
+            cur_new_input_embeds = []
+            cur_new_labels = []
+
+            for i in range(num_images + 1):
+                cur_new_input_embeds.append(cur_input_embeds_no_im[i])
+                cur_new_labels.append(cur_labels_noim[i])
+                if i < num_images:
+                    cur_image_features = image_features[cur_image_idx]
+                    cur_image_idx += 1
+                    cur_new_input_embeds.append(cur_image_features)
+                    cur_new_labels.append(
+                        torch.full((cur_image_features.shape[0],), IGNORE_INDEX, device=cur_labels.device,
+                                   dtype=cur_labels.dtype))
+
+            cur_new_input_embeds = torch.cat(cur_new_input_embeds)
+            cur_new_labels = torch.cat(cur_new_labels)
+
+            new_input_embeds.append(cur_new_input_embeds)
+            new_labels.append(cur_new_labels)
+
+        # Truncate sequences to max length as image embeddings can make the sequence longer
+        tokenizer_model_max_length = getattr(self.config, 'tokenizer_model_max_length', None)
+        if tokenizer_model_max_length is not None:
+            new_input_embeds = [x[:tokenizer_model_max_length] for x in new_input_embeds]
+            new_labels = [x[:tokenizer_model_max_length] for x in new_labels]
+
+        # Combine them
+        max_len = max(x.shape[0] for x in new_input_embeds)
+        batch_size = len(new_input_embeds)
+
+        new_input_embeds_padded = []
+        new_labels_padded = torch.full((batch_size, max_len), IGNORE_INDEX, dtype=new_labels[0].dtype,
+                                       device=new_labels[0].device)
+        attention_mask = torch.zeros((batch_size, max_len), dtype=attention_mask.dtype, device=attention_mask.device)
+        position_ids = torch.zeros((batch_size, max_len), dtype=position_ids.dtype, device=position_ids.device)
+
+        for i, (cur_new_embed, cur_new_labels) in enumerate(zip(new_input_embeds, new_labels)):
+            cur_len = cur_new_embed.shape[0]
+            if getattr(self.config, 'tokenizer_padding_side', 'right') == "left":
+                new_input_embeds_padded.append(torch.cat((
+                    torch.zeros((max_len - cur_len, cur_new_embed.shape[1]), dtype=cur_new_embed.dtype,
+                                device=cur_new_embed.device),
+                    cur_new_embed
+                ), dim=0))
+                if cur_len > 0:
+                    new_labels_padded[i, -cur_len:] = cur_new_labels
+                    attention_mask[i, -cur_len:] = True
+                    position_ids[i, -cur_len:] = torch.arange(0, cur_len, dtype=position_ids.dtype,
+                                                              device=position_ids.device)
+            else:
+                new_input_embeds_padded.append(torch.cat((
+                    cur_new_embed,
+                    torch.zeros((max_len - cur_len, cur_new_embed.shape[1]), dtype=cur_new_embed.dtype,
+                                device=cur_new_embed.device)
+                ), dim=0))
+                if cur_len > 0:
+                    new_labels_padded[i, :cur_len] = cur_new_labels
+                    attention_mask[i, :cur_len] = True
+                    position_ids[i, :cur_len] = torch.arange(0, cur_len, dtype=position_ids.dtype,
+                                                             device=position_ids.device)
+
+        new_input_embeds = torch.stack(new_input_embeds_padded, dim=0)
+
+        if _labels is None:
+            new_labels = None
+        else:
+            new_labels = new_labels_padded
+
+        if _attention_mask is None:
+            attention_mask = None
+        else:
+            attention_mask = attention_mask.to(dtype=_attention_mask.dtype)
+
+        if _position_ids is None:
+            position_ids = None
+
+        return None, position_ids, attention_mask, past_key_values, new_input_embeds, new_labels
diff --git a/Unicorn_dense/bunny/model/language_model/__init__.py b/Unicorn_dense/bunny/model/language_model/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Unicorn_dense/bunny/model/language_model/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b039b2aca8c492ca376a43390b8b4edf34179478
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_llama.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_llama.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e985186ff061f3623b80b8ccaec1da32a8197579
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_llama.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_minicpm.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_minicpm.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..57a7c05051219432d3c91572501ab1780ad90bbd
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_minicpm.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_phi.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_phi.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9448f0c76a2a5779ec01071a9ab54e7cb3b39bf5
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_phi.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_phi3.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_phi3.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5547fb62d9439dd1631282773ba68e423b226e6a
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_phi3.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_qwen.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_qwen.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eba018f03b914047a084552c16f49c72325cde50
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_qwen.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_stablelm.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_stablelm.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f8637d7e84613e677589d76423644643bb90deb1
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/__pycache__/bunny_stablelm.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/bunny_llama.py b/Unicorn_dense/bunny/model/language_model/bunny_llama.py
new file mode 100644
index 0000000000000000000000000000000000000000..ad6a30385bb8fe544d3631b998e36a2981e66f96
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/bunny_llama.py
@@ -0,0 +1,103 @@
+from typing import List, Optional, Tuple, Union
+import os
+import pickle
+import torch
+import torch.nn as nn
+from transformers import AutoConfig, AutoModelForCausalLM
+
+from .llama import LlamaModel, LlamaConfig, LlamaForCausalLM
+
+from transformers.modeling_outputs import CausalLMOutputWithPast
+
+from ..bunny_arch import BunnyMetaModel, BunnyMetaForCausalLM
+
+
+class BunnyLlamaConfig(LlamaConfig):
+    model_type = "bunny-llama"
+
+
+class BunnyLlamaModel(BunnyMetaModel, LlamaModel):
+    config_class = BunnyLlamaConfig
+
+    def __init__(self, config: LlamaConfig):
+        super(BunnyLlamaModel, self).__init__(config)
+
+
+class BunnyLlamaForCausalLM(LlamaForCausalLM, BunnyMetaForCausalLM):
+    config_class = BunnyLlamaConfig
+
+    def __init__(self, config):
+        super(LlamaForCausalLM, self).__init__(config)
+        self.model = BunnyLlamaModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_model(self):
+        return self.model
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            labels: Optional[torch.LongTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            embeds: Optional[list] = None,
+            return_dict: Optional[bool] = None,
+            cache_position: Optional[torch.LongTensor] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        if inputs_embeds is None:
+            (
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                inputs_embeds,
+                labels
+            ) = self.prepare_inputs_labels_for_multimodal(
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                labels,
+                embeds
+            )
+
+        return super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            cache_position=None
+        )
+
+    def prepare_inputs_for_generation(self, input_ids, past_key_values=None, inputs_embeds=None, attention_mask=None,
+                                      **kwargs):
+        embeds = kwargs.pop("embeds", None)
+
+        _inputs = super().prepare_inputs_for_generation(
+            input_ids, past_key_values=past_key_values, inputs_embeds=inputs_embeds, attention_mask=attention_mask,
+            **kwargs
+        )
+
+        if embeds is not None:
+            _inputs['embeds'] = embeds
+
+        return _inputs
+
+
+AutoConfig.register("bunny-llama", BunnyLlamaConfig)
+AutoModelForCausalLM.register(BunnyLlamaConfig, BunnyLlamaForCausalLM)
diff --git a/Unicorn_dense/bunny/model/language_model/bunny_minicpm.py b/Unicorn_dense/bunny/model/language_model/bunny_minicpm.py
new file mode 100644
index 0000000000000000000000000000000000000000..4deb84fa3480cff693e24bbc5f6c7863461b9eb7
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/bunny_minicpm.py
@@ -0,0 +1,103 @@
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn as nn
+from transformers import AutoConfig, AutoModelForCausalLM
+
+from bunny.model.language_model.minicpm.modeling_minicpm import MiniCPMModel, MiniCPMForCausalLM
+from bunny.model.language_model.minicpm.configuration_minicpm import MiniCPMConfig
+
+from transformers.modeling_outputs import CausalLMOutputWithPast
+
+from ..bunny_arch import BunnyMetaModel, BunnyMetaForCausalLM
+
+
+class BunnyMiniCPMConfig(MiniCPMConfig):
+    model_type = "bunny-minicpm"
+
+
+class BunnyMiniCPMModel(BunnyMetaModel, MiniCPMModel):
+    config_class = BunnyMiniCPMConfig
+
+    def __init__(self, config: MiniCPMConfig):
+        super(BunnyMiniCPMModel, self).__init__(config)
+
+
+class BunnyMiniCPMForCausalLM(MiniCPMForCausalLM, BunnyMetaForCausalLM):
+    config_class = BunnyMiniCPMConfig
+
+    def __init__(self, config):
+        super(MiniCPMForCausalLM, self).__init__(config)
+        self.model = BunnyMiniCPMModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_model(self):
+        return self.model
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            labels: Optional[torch.LongTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            images: Optional[torch.FloatTensor] = None,
+            return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+
+        if inputs_embeds is None:
+            (
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                inputs_embeds,
+                labels
+            ) = self.prepare_inputs_labels_for_multimodal(
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                labels,
+                images
+            )
+            if inputs_embeds is not None:
+                inputs_embeds *= self.get_model().config.scale_emb
+
+        return super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict
+        )
+
+    def prepare_inputs_for_generation(self, input_ids, past_key_values=None, inputs_embeds=None, attention_mask=None,
+                                      **kwargs):
+        images = kwargs.pop("images", None)
+
+        _inputs = super().prepare_inputs_for_generation(
+            input_ids, past_key_values=past_key_values, inputs_embeds=inputs_embeds, attention_mask=attention_mask,
+            **kwargs
+        )
+
+        if images is not None:
+            _inputs['images'] = images
+        return _inputs
+
+
+AutoConfig.register("bunny-minicpm", BunnyMiniCPMConfig)
+AutoModelForCausalLM.register(BunnyMiniCPMConfig, BunnyMiniCPMForCausalLM)
diff --git a/Unicorn_dense/bunny/model/language_model/bunny_phi.py b/Unicorn_dense/bunny/model/language_model/bunny_phi.py
new file mode 100644
index 0000000000000000000000000000000000000000..fddb262df36aae2c36767c2afe980b59cc26568e
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/bunny_phi.py
@@ -0,0 +1,100 @@
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn as nn
+from transformers import AutoConfig, AutoModelForCausalLM
+
+from .phi import PhiModel, PhiConfig, PhiForCausalLM
+
+from transformers.modeling_outputs import CausalLMOutputWithPast
+
+from ..bunny_arch import BunnyMetaModel, BunnyMetaForCausalLM
+
+
+class BunnyPhiConfig(PhiConfig):
+    model_type = "bunny-phi"
+
+
+class BunnyPhiModel(BunnyMetaModel, PhiModel):
+    config_class = BunnyPhiConfig
+
+    def __init__(self, config: PhiConfig):
+        super(BunnyPhiModel, self).__init__(config)
+
+
+class BunnyPhiForCausalLM(PhiForCausalLM, BunnyMetaForCausalLM):
+    config_class = BunnyPhiConfig
+
+    def __init__(self, config):
+        super(PhiForCausalLM, self).__init__(config)
+        self.model = BunnyPhiModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_model(self):
+        return self.model
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            labels: Optional[torch.LongTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            images: Optional[torch.FloatTensor] = None,
+            return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+
+        if inputs_embeds is None:
+            (
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                inputs_embeds,
+                labels
+            ) = self.prepare_inputs_labels_for_multimodal(
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                labels,
+                images
+            )
+
+        return super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict
+        )
+
+    def prepare_inputs_for_generation(self, input_ids, past_key_values=None, inputs_embeds=None, attention_mask=None,
+                                      **kwargs):
+        images = kwargs.pop("images", None)
+
+        _inputs = super().prepare_inputs_for_generation(
+            input_ids, past_key_values=past_key_values, inputs_embeds=inputs_embeds, attention_mask=attention_mask,
+            **kwargs
+        )
+
+        if images is not None:
+            _inputs['images'] = images
+        return _inputs
+
+
+AutoConfig.register("bunny-phi", BunnyPhiConfig)
+AutoModelForCausalLM.register(BunnyPhiConfig, BunnyPhiForCausalLM)
diff --git a/Unicorn_dense/bunny/model/language_model/bunny_phi3.py b/Unicorn_dense/bunny/model/language_model/bunny_phi3.py
new file mode 100644
index 0000000000000000000000000000000000000000..343b089b19288a66b18ae8784ce04ba710c2e67f
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/bunny_phi3.py
@@ -0,0 +1,100 @@
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn as nn
+from transformers import AutoConfig, AutoModelForCausalLM
+
+from .phi3 import Phi3Model, Phi3Config, Phi3ForCausalLM
+
+from transformers.modeling_outputs import CausalLMOutputWithPast
+
+from ..bunny_arch import BunnyMetaModel, BunnyMetaForCausalLM
+
+
+class BunnyPhi3Config(Phi3Config):
+    model_type = "bunny-phi3"
+
+
+class BunnyPhi3Model(BunnyMetaModel, Phi3Model):
+    config_class = BunnyPhi3Config
+
+    def __init__(self, config: Phi3Config):
+        super(BunnyPhi3Model, self).__init__(config)
+
+
+class BunnyPhi3ForCausalLM(Phi3ForCausalLM, BunnyMetaForCausalLM):
+    config_class = BunnyPhi3Config
+
+    def __init__(self, config):
+        super(Phi3ForCausalLM, self).__init__(config)
+        self.model = BunnyPhi3Model(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_model(self):
+        return self.model
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            labels: Optional[torch.LongTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            images: Optional[torch.FloatTensor] = None,
+            return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+
+        if inputs_embeds is None:
+            (
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                inputs_embeds,
+                labels
+            ) = self.prepare_inputs_labels_for_multimodal(
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                labels,
+                images
+            )
+
+        return super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict
+        )
+
+    def prepare_inputs_for_generation(self, input_ids, past_key_values=None, inputs_embeds=None, attention_mask=None,
+                                      **kwargs):
+        images = kwargs.pop("images", None)
+
+        _inputs = super().prepare_inputs_for_generation(
+            input_ids, past_key_values=past_key_values, inputs_embeds=inputs_embeds, attention_mask=attention_mask,
+            **kwargs
+        )
+
+        if images is not None:
+            _inputs['images'] = images
+        return _inputs
+
+
+AutoConfig.register("bunny-phi3", BunnyPhi3Config)
+AutoModelForCausalLM.register(BunnyPhi3Config, BunnyPhi3ForCausalLM)
diff --git a/Unicorn_dense/bunny/model/language_model/bunny_qwen.py b/Unicorn_dense/bunny/model/language_model/bunny_qwen.py
new file mode 100644
index 0000000000000000000000000000000000000000..ba67a00a72256514120e3627dd8ffa8f39068414
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/bunny_qwen.py
@@ -0,0 +1,100 @@
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn as nn
+from transformers import AutoConfig, AutoModelForCausalLM
+
+from .qwen2 import Qwen2Model, Qwen2Config, Qwen2ForCausalLM
+
+from transformers.modeling_outputs import CausalLMOutputWithPast
+
+from ..bunny_arch import BunnyMetaModel, BunnyMetaForCausalLM
+
+
+class BunnyQwen2Config(Qwen2Config):
+    model_type = "bunny-qwen2"
+
+
+class BunnyQwen2Model(BunnyMetaModel, Qwen2Model):
+    config_class = BunnyQwen2Config
+
+    def __init__(self, config: Qwen2Config):
+        super(BunnyQwen2Model, self).__init__(config)
+
+
+class BunnyQwen2ForCausalLM(Qwen2ForCausalLM, BunnyMetaForCausalLM):
+    config_class = BunnyQwen2Config
+
+    def __init__(self, config):
+        super(Qwen2ForCausalLM, self).__init__(config)
+        self.model = BunnyQwen2Model(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_model(self):
+        return self.model
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            labels: Optional[torch.LongTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            images: Optional[torch.FloatTensor] = None,
+            return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+
+        if inputs_embeds is None:
+            (
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                inputs_embeds,
+                labels
+            ) = self.prepare_inputs_labels_for_multimodal(
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                labels,
+                images
+            )
+
+        return super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict
+        )
+
+    def prepare_inputs_for_generation(self, input_ids, past_key_values=None, inputs_embeds=None, attention_mask=None,
+                                      **kwargs):
+        images = kwargs.pop("images", None)
+
+        _inputs = super().prepare_inputs_for_generation(
+            input_ids, past_key_values=past_key_values, inputs_embeds=inputs_embeds, attention_mask=attention_mask,
+            **kwargs
+        )
+
+        if images is not None:
+            _inputs['images'] = images
+        return _inputs
+
+
+AutoConfig.register("bunny-qwen2", BunnyQwen2Config)
+AutoModelForCausalLM.register(BunnyQwen2Config, BunnyQwen2ForCausalLM)
diff --git a/Unicorn_dense/bunny/model/language_model/bunny_stablelm.py b/Unicorn_dense/bunny/model/language_model/bunny_stablelm.py
new file mode 100644
index 0000000000000000000000000000000000000000..4edcb0ad574fe675ba3bcf4aed7aad0c94dad255
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/bunny_stablelm.py
@@ -0,0 +1,100 @@
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn as nn
+from transformers import AutoConfig, AutoModelForCausalLM
+
+from bunny.model.language_model.stable_lm.modeling_stablelm_epoch import StableLMEpochModel, StableLMEpochConfig, \
+    StableLMEpochForCausalLM
+
+from transformers.modeling_outputs import CausalLMOutputWithPast
+
+from bunny.model.bunny_arch import BunnyMetaModel, BunnyMetaForCausalLM
+
+
+class BunnyStableLMConfig(StableLMEpochConfig):
+    model_type = "bunny-stablelm"
+
+
+class BunnyStableLMModel(BunnyMetaModel, StableLMEpochModel):
+    config_class = BunnyStableLMConfig
+
+    def __init__(self, config: StableLMEpochConfig):
+        super(BunnyStableLMModel, self).__init__(config)
+
+
+class BunnyStableLMForCausalLM(StableLMEpochForCausalLM, BunnyMetaForCausalLM):
+    config_class = BunnyStableLMConfig
+
+    def __init__(self, config):
+        super(StableLMEpochForCausalLM, self).__init__(config)
+        self.model = BunnyStableLMModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_model(self):
+        return self.model
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            labels: Optional[torch.LongTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            images: Optional[torch.FloatTensor] = None,
+            return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        if inputs_embeds is None:
+            (
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                inputs_embeds,
+                labels
+            ) = self.prepare_inputs_labels_for_multimodal(
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                labels,
+                images
+            )
+
+        return super().forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict
+        )
+
+    def prepare_inputs_for_generation(self, input_ids, past_key_values=None, inputs_embeds=None, attention_mask=None,
+                                      **kwargs):
+        images = kwargs.pop("images", None)
+
+        _inputs = super().prepare_inputs_for_generation(
+            input_ids, past_key_values=past_key_values, inputs_embeds=inputs_embeds, attention_mask=attention_mask,
+            **kwargs
+        )
+
+        if images is not None:
+            _inputs['images'] = images
+        return _inputs
+
+
+AutoConfig.register("bunny-stablelm", BunnyStableLMConfig)
+AutoModelForCausalLM.register(BunnyStableLMConfig, BunnyStableLMForCausalLM)
diff --git a/Unicorn_dense/bunny/model/language_model/llama/__init__.py b/Unicorn_dense/bunny/model/language_model/llama/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..5d36246dd8ebe52e7badf1c9f3ca397a65497dba
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/llama/__init__.py
@@ -0,0 +1,114 @@
+# Copyright 2022 EleutherAI and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from typing import TYPE_CHECKING
+
+from transformers.utils import (
+    OptionalDependencyNotAvailable,
+    _LazyModule,
+    is_flax_available,
+    is_sentencepiece_available,
+    is_tokenizers_available,
+    is_torch_available,
+)
+
+
+_import_structure = {
+    "configuration_llama": ["LLAMA_PRETRAINED_CONFIG_ARCHIVE_MAP", "LlamaConfig"],
+}
+
+try:
+    if not is_sentencepiece_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["tokenization_llama"] = ["LlamaTokenizer"]
+
+try:
+    if not is_tokenizers_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["tokenization_llama_fast"] = ["LlamaTokenizerFast"]
+
+try:
+    if not is_torch_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["modeling_llama"] = [
+        "LlamaForCausalLM",
+        "LlamaModel",
+        "LlamaPreTrainedModel",
+        "LlamaForSequenceClassification",
+        "LlamaForQuestionAnswering",
+    ]
+
+try:
+    if not is_flax_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["modeling_flax_llama"] = ["FlaxLlamaForCausalLM", "FlaxLlamaModel", "FlaxLlamaPreTrainedModel"]
+
+
+if TYPE_CHECKING:
+    from .configuration_llama import LLAMA_PRETRAINED_CONFIG_ARCHIVE_MAP, LlamaConfig
+
+    try:
+        if not is_sentencepiece_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .tokenization_llama import LlamaTokenizer
+
+    try:
+        if not is_tokenizers_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .tokenization_llama_fast import LlamaTokenizerFast
+
+    try:
+        if not is_torch_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .modeling_llama import (
+            LlamaForCausalLM,
+            LlamaForQuestionAnswering,
+            LlamaForSequenceClassification,
+            LlamaModel,
+            LlamaPreTrainedModel,
+        )
+
+    try:
+        if not is_flax_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .modeling_flax_llama import FlaxLlamaForCausalLM, FlaxLlamaModel, FlaxLlamaPreTrainedModel
+
+
+else:
+    import sys
+
+    sys.modules[__name__] = _LazyModule(__name__, globals()["__file__"], _import_structure, module_spec=__spec__)
diff --git a/Unicorn_dense/bunny/model/language_model/llama/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/llama/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2a10ebb42ea2c5b90904e535480f1934b2f48fab
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/llama/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/llama/__pycache__/configuration_llama.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/llama/__pycache__/configuration_llama.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..05e972015599338293c9c82739adb320f539e742
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/llama/__pycache__/configuration_llama.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/llama/__pycache__/modeling_llama.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/llama/__pycache__/modeling_llama.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2bc2b94c53e0a47f38a0bbee879f16ab217e0ccb
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/llama/__pycache__/modeling_llama.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/llama/configuration_llama.py b/Unicorn_dense/bunny/model/language_model/llama/configuration_llama.py
new file mode 100644
index 0000000000000000000000000000000000000000..29cab2b8a27ef943877c863b819196036a91bcd9
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/llama/configuration_llama.py
@@ -0,0 +1,191 @@
+# coding=utf-8
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" LLaMA model configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+
+logger = logging.get_logger(__name__)
+
+
+# from ..deprecated._archive_maps import LLAMA_PRETRAINED_CONFIG_ARCHIVE_MAP  # noqa: F401, E402
+
+
+class LlamaConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`LlamaModel`]. It is used to instantiate an LLaMA
+    model according to the specified arguments, defining the model architecture. Instantiating a configuration with the
+    defaults will yield a similar configuration to that of the LLaMA-7B.
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 32000):
+            Vocabulary size of the LLaMA model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`LlamaModel`]
+        hidden_size (`int`, *optional*, defaults to 4096):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 11008):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer decoder.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer decoder.
+        num_key_value_heads (`int`, *optional*):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to
+            `num_attention_heads`.
+        hidden_act (`str` or `function`, *optional*, defaults to `"silu"`):
+            The non-linear activation function (function or string) in the decoder.
+        max_position_embeddings (`int`, *optional*, defaults to 2048):
+            The maximum sequence length that this model might ever be used with. Llama 1 supports up to 2048 tokens,
+            Llama 2 up to 4096, CodeLlama up to 16384.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        rms_norm_eps (`float`, *optional*, defaults to 1e-06):
+            The epsilon used by the rms normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`.
+        pad_token_id (`int`, *optional*):
+            Padding token id.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            Beginning of stream token id.
+        eos_token_id (`int`, *optional*, defaults to 2):
+            End of stream token id.
+        pretraining_tp (`int`, *optional*, defaults to 1):
+            Experimental feature. Tensor parallelism rank used during pretraining. Please refer to [this
+            document](https://huggingface.co/docs/transformers/main/perf_train_gpu_many#tensor-parallelism) to understand more about it. This value is
+            necessary to ensure exact reproducibility of the pretraining results. Please refer to [this
+            issue](https://github.com/pytorch/pytorch/issues/76232).
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether to tie weight embeddings
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        rope_scaling (`Dict`, *optional*):
+            Dictionary containing the scaling configuration for the RoPE embeddings. Currently supports two scaling
+            strategies: linear and dynamic. Their scaling factor must be a float greater than 1. The expected format is
+            `{"type": strategy name, "factor": scaling factor}`. When using this flag, don't update
+            `max_position_embeddings` to the expected new maximum. See the following thread for more information on how
+            these scaling strategies behave:
+            https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/. This is an
+            experimental feature, subject to breaking API changes in future versions.
+        attention_bias (`bool`, defaults to `False`, *optional*, defaults to `False`):
+            Whether to use a bias in the query, key, value and output projection layers during self-attention.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+
+    ```python
+    >>> from transformers import LlamaModel, LlamaConfig
+
+    >>> # Initializing a LLaMA llama-7b style configuration
+    >>> configuration = LlamaConfig()
+
+    >>> # Initializing a model from the llama-7b style configuration
+    >>> model = LlamaModel(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "llama"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=32000,
+        hidden_size=4096,
+        intermediate_size=11008,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        hidden_act="silu",
+        max_position_embeddings=2048,
+        initializer_range=0.02,
+        rms_norm_eps=1e-6,
+        use_cache=True,
+        pad_token_id=None,
+        bos_token_id=1,
+        eos_token_id=2,
+        pretraining_tp=1,
+        tie_word_embeddings=False,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        attention_bias=False,
+        attention_dropout=0.0,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.pretraining_tp = pretraining_tp
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self._rope_scaling_validation()
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    def _rope_scaling_validation(self):
+        """
+        Validate the `rope_scaling` configuration.
+        """
+        if self.rope_scaling is None:
+            return
+
+        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 2:
+            raise ValueError(
+                "`rope_scaling` must be a dictionary with two fields, `type` and `factor`, " f"got {self.rope_scaling}"
+            )
+        rope_scaling_type = self.rope_scaling.get("type", None)
+        rope_scaling_factor = self.rope_scaling.get("factor", None)
+        if rope_scaling_type is None or rope_scaling_type not in ["linear", "dynamic"]:
+            raise ValueError(
+                f"`rope_scaling`'s type field must be one of ['linear', 'dynamic'], got {rope_scaling_type}"
+            )
+        if rope_scaling_factor is None or not isinstance(rope_scaling_factor, float) or rope_scaling_factor <= 1.0:
+            raise ValueError(f"`rope_scaling`'s factor field must be a float > 1, got {rope_scaling_factor}")
diff --git a/Unicorn_dense/bunny/model/language_model/llama/modeling_llama.py b/Unicorn_dense/bunny/model/language_model/llama/modeling_llama.py
new file mode 100644
index 0000000000000000000000000000000000000000..b27c342829cad23e14c8254c63a75e53ab24bf5b
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/llama/modeling_llama.py
@@ -0,0 +1,1844 @@
+# coding=utf-8
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""PyTorch LLaMA model."""
+
+import math
+import warnings
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn.functional as F
+import torch.utils.checkpoint
+from torch import nn
+from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
+
+from transformers.activations import ACT2FN
+from transformers.cache_utils import Cache, DynamicCache, StaticCache
+# from transformers.modeling_attn_mask_utils import AttentionMaskConverter
+from dataclasses import dataclass
+@dataclass
+class AttentionMaskConverter:
+    """
+    A utility attention mask class that allows one to:
+        - Create a causal 4d mask
+        - Create a causal 4d mask with slided window
+        - Convert a 2d attention mask (batch_size, query_length) to a 4d attention mask (batch_size, 1, query_length,
+          key_value_length) that can be multiplied with attention scores
+
+    Examples:
+
+    ```python
+    >>> import torch
+    >>> from transformers.modeling_attn_mask_utils import AttentionMaskConverter
+
+    >>> converter = AttentionMaskConverter(True)
+    >>> converter.to_4d(torch.tensor([[0, 0, 0, 1, 1]]), 5, key_value_length=5, dtype=torch.float32)
+    tensor([[[[-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],
+            [-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],
+            [-3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38, -3.4028e+38],
+            [-3.4028e+38, -3.4028e+38, -3.4028e+38,  0.0000e+00, -3.4028e+38],
+            [-3.4028e+38, -3.4028e+38, -3.4028e+38,  0.0000e+00,  0.0000e+00]]]])
+    ```
+
+    Parameters:
+        is_causal (`bool`):
+            Whether the attention mask should be a uni-directional (causal) or bi-directional mask.
+
+        sliding_window (`int`, *optional*):
+            Optionally, the sliding window masks can be created if `sliding_window` is defined to a positive integer.
+    """
+
+    is_causal: bool
+    sliding_window: int
+
+    def __init__(self, is_causal: bool, sliding_window: Optional[int] = None):
+        self.is_causal = is_causal
+        self.sliding_window = sliding_window
+
+        if self.sliding_window is not None and self.sliding_window <= 0:
+            raise ValueError(
+                f"Make sure that when passing `sliding_window` that its value is a strictly positive integer, not `{self.sliding_window}`"
+            )
+
+    def to_causal_4d(
+        self,
+        batch_size: int,
+        query_length: int,
+        key_value_length: int,
+        dtype: torch.dtype,
+        device: Union[torch.device, "str"] = "cpu",
+    ) -> Optional[torch.Tensor]:
+        """
+        Creates a causal 4D mask of (bsz, head_dim=1, query_length, key_value_length) shape and adds large negative
+        bias to upper right hand triangular matrix (causal mask).
+        """
+        if not self.is_causal:
+            raise ValueError(f"Please use `to_causal_4d` only if {self.__class__} has `is_causal` set to True.")
+
+        # If shape is not cached, create a new causal mask and cache it
+        input_shape = (batch_size, query_length)
+        past_key_values_length = key_value_length - query_length
+
+        # create causal mask
+        # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
+        causal_4d_mask = None
+        if input_shape[-1] > 1 or self.sliding_window is not None:
+            causal_4d_mask = self._make_causal_mask(
+                input_shape,
+                dtype,
+                device=device,
+                past_key_values_length=past_key_values_length,
+                sliding_window=self.sliding_window,
+            )
+
+        return causal_4d_mask
+
+    def to_4d(
+        self,
+        attention_mask_2d: torch.Tensor,
+        query_length: int,
+        dtype: torch.dtype,
+        key_value_length: Optional[int] = None,
+    ) -> torch.Tensor:
+        """
+        Converts 2D attention mask to 4D attention mask by expanding mask to (bsz, head_dim=1, query_length,
+        key_value_length) shape and by adding a large negative bias to not-attended positions. If attention_mask is
+        causal, a causal mask will be added.
+        """
+        input_shape = (attention_mask_2d.shape[0], query_length)
+
+        # create causal mask
+        # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
+        causal_4d_mask = None
+        if (input_shape[-1] > 1 or self.sliding_window is not None) and self.is_causal:
+            if key_value_length is None:
+                raise ValueError(
+                    "This attention mask converter is causal. Make sure to pass `key_value_length` to correctly create a causal mask."
+                )
+
+            past_key_values_length = key_value_length - query_length
+            causal_4d_mask = self._make_causal_mask(
+                input_shape,
+                dtype,
+                device=attention_mask_2d.device,
+                past_key_values_length=past_key_values_length,
+                sliding_window=self.sliding_window,
+            )
+        elif self.sliding_window is not None:
+            raise NotImplementedError("Sliding window is currently only implemented for causal masking")
+
+        # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
+        expanded_attn_mask = self._expand_mask(attention_mask_2d, dtype, tgt_len=input_shape[-1]).to(
+            attention_mask_2d.device
+        )
+
+        if causal_4d_mask is not None:
+            expanded_attn_mask = causal_4d_mask.masked_fill(expanded_attn_mask.bool(), torch.finfo(dtype).min)
+
+        # expanded_attn_mask + causal_4d_mask can cause some overflow
+        expanded_4d_mask = expanded_attn_mask
+
+        return expanded_4d_mask
+
+    @staticmethod
+    def _make_causal_mask(
+        input_ids_shape: torch.Size,
+        dtype: torch.dtype,
+        device: torch.device,
+        past_key_values_length: int = 0,
+        sliding_window: Optional[int] = None,
+    ):
+        """
+        Make causal mask used for bi-directional self-attention.
+        """
+        bsz, tgt_len = input_ids_shape
+        mask = torch.full((tgt_len, tgt_len), torch.finfo(dtype).min, device=device)
+        mask_cond = torch.arange(mask.size(-1), device=device)
+        mask.masked_fill_(mask_cond < (mask_cond + 1).view(mask.size(-1), 1), 0)
+
+        mask = mask.to(dtype)
+
+        if past_key_values_length > 0:
+            mask = torch.cat([torch.zeros(tgt_len, past_key_values_length, dtype=dtype, device=device), mask], dim=-1)
+
+        # add lower triangular sliding window mask if necessary
+        if sliding_window is not None:
+            diagonal = past_key_values_length - sliding_window - 1
+
+            context_mask = torch.tril(torch.ones_like(mask, dtype=torch.bool), diagonal=diagonal)
+            mask.masked_fill_(context_mask, torch.finfo(dtype).min)
+
+        return mask[None, None, :, :].expand(bsz, 1, tgt_len, tgt_len + past_key_values_length)
+
+    @staticmethod
+    def _expand_mask(mask: torch.Tensor, dtype: torch.dtype, tgt_len: Optional[int] = None):
+        """
+        Expands attention_mask from `[bsz, seq_len]` to `[bsz, 1, tgt_seq_len, src_seq_len]`.
+        """
+        bsz, src_len = mask.size()
+        tgt_len = tgt_len if tgt_len is not None else src_len
+
+        expanded_mask = mask[:, None, None, :].expand(bsz, 1, tgt_len, src_len).to(dtype)
+
+        inverted_mask = 1.0 - expanded_mask
+
+        return inverted_mask.masked_fill(inverted_mask.to(torch.bool), torch.finfo(dtype).min)
+
+    @staticmethod
+    def _unmask_unattended(
+        expanded_mask: torch.FloatTensor,
+        min_dtype: float,
+    ):
+        # fmt: off
+        """
+        Attend to all tokens in masked rows from the expanded attention mask, for example the relevant first rows when
+        using left padding. This is required by F.scaled_dot_product_attention memory-efficient attention path.
+        Details: https://github.com/pytorch/pytorch/issues/110213
+
+        `expanded_mask` is [bsz, num_masks, tgt_seq_len, src_seq_len] or [bsz, tgt_seq_len, src_seq_len].
+        `attention_mask` is [bsz, src_seq_len].
+
+        The dimension num_masks of `expanded_mask` is most often 1, but it can also be the number of heads in the case of alibi attention bias.
+
+        For example, if `expanded_mask` is (e.g. here left-padding case)
+        ```
+        [[[[0, 0, 0],
+           [0, 0, 0],
+           [0, 0, 1]]],
+         [[[1, 0, 0],
+           [1, 1, 0],
+           [1, 1, 1]]],
+         [[[0, 0, 0],
+           [0, 1, 0],
+           [0, 1, 1]]]]
+        ```
+        then the modified `expanded_mask` will be
+        ```
+        [[[[1, 1, 1],   <-- modified
+           [1, 1, 1],   <-- modified
+           [0, 0, 1]]],
+         [[[1, 0, 0],
+           [1, 1, 0],
+           [1, 1, 1]]],
+         [[[1, 1, 1],   <-- modified
+           [0, 1, 0],
+           [0, 1, 1]]]]
+        ```
+        """
+        # fmt: on
+        if expanded_mask.dtype == torch.bool:
+            raise ValueError(
+                "AttentionMaskConverter._unmask_unattended expects a float `expanded_mask`, got a BoolTensor."
+            )
+
+        return expanded_mask.mul(~torch.all(expanded_mask == min_dtype, dim=-1, keepdim=True))
+
+    @staticmethod
+    def _ignore_causal_mask_sdpa(
+        attention_mask: Optional[torch.Tensor],
+        inputs_embeds: torch.Tensor,
+        past_key_values_length: int,
+        sliding_window: Optional[int] = None,
+    ) -> bool:
+        """
+        Detects whether the optional user-specified attention_mask & the automatically created causal mask can be ignored in case PyTorch's SDPA is used, rather relying on SDPA's `is_causal` argument.
+
+        In case no token is masked in the `attention_mask` argument, if `query_length == 1` or
+        `key_value_length == query_length`, we rather rely on SDPA `is_causal` argument to use causal/non-causal masks,
+        allowing to dispatch to the flash attention kernel (that can otherwise not be used if a custom `attn_mask` is passed).
+        """
+
+        batch_size, query_length = inputs_embeds.shape[0], inputs_embeds.shape[1]
+        key_value_length = query_length + past_key_values_length
+
+        is_tracing = (
+            torch.jit.is_tracing()
+            or isinstance(inputs_embeds, torch.fx.Proxy)
+            or (hasattr(torch, "_dynamo") and torch._dynamo.is_compiling())
+        )
+
+        ignore_causal_mask = False
+
+        if attention_mask is None:
+            # TODO: When tracing with TorchDynamo with fullgraph=True, the model is recompiled depending on the input shape, thus SDPA's `is_causal` argument is rightfully updated (see https://gist.github.com/fxmarty/1313f39037fc1c112508989628c57363). However, when using `torch.export` or
+            # or `torch.onnx.dynamo_export`, we must pass an example input, and `is_causal` behavior is hard-coded. If a user exports a model with q_len > 1, the exported model will hard-code `is_causal=True` which is in general wrong (see https://github.com/pytorch/pytorch/issues/108108).
+            # Thus, we currently can NOT set `ignore_causal_mask = True` here. We would need a `torch._dynamo.is_exporting()` flag.
+            #
+            # Besides, jit.trace can not handle the `q_len > 1` condition for `is_causal` (`TypeError: scaled_dot_product_attention(): argument 'is_causal' must be bool, not Tensor`).
+            if (
+                not is_tracing
+                and (query_length == 1 or key_value_length == query_length)
+                and (sliding_window is None or key_value_length < sliding_window)
+            ):
+                ignore_causal_mask = True
+        elif sliding_window is None or key_value_length < sliding_window:
+            if len(attention_mask.shape) == 4:
+                expected_shape = (batch_size, 1, query_length, key_value_length)
+                if tuple(attention_mask.shape) != expected_shape:
+                    raise ValueError(
+                        f"Incorrect 4D attention_mask shape: {tuple(attention_mask.shape)}; expected: {expected_shape}."
+                    )
+            elif not is_tracing and torch.all(attention_mask == 1):
+                if query_length == 1 or key_value_length == query_length:
+                    # For query_length == 1, causal attention and bi-directional attention are the same.
+                    ignore_causal_mask = True
+
+                # Unfortunately, for query_length > 1 and key_value_length != query_length, we cannot generally ignore the attention mask, as SDPA causal mask generation
+                # may be wrong. We will set `is_causal=False` in SDPA and rely on Transformers attention_mask instead, hence not setting it to None here.
+                # Reference: https://github.com/pytorch/pytorch/issues/108108
+                # TODO: maybe revisit this with https://github.com/pytorch/pytorch/pull/114823 in PyTorch 2.3.
+
+        return ignore_causal_mask
+
+
+from transformers.modeling_outputs import (
+    BaseModelOutputWithPast,
+    CausalLMOutputWithPast,
+    QuestionAnsweringModelOutput,
+    SequenceClassifierOutputWithPast,
+)
+from transformers.modeling_utils import PreTrainedModel
+from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS
+from transformers.utils import (
+    add_start_docstrings,
+    add_start_docstrings_to_model_forward,
+    is_flash_attn_2_available,
+    is_flash_attn_greater_or_equal_2_10,
+    logging,
+    replace_return_docstrings,
+)
+from .configuration_llama import LlamaConfig
+
+
+if is_flash_attn_2_available():
+    from flash_attn import flash_attn_func, flash_attn_varlen_func
+    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
+
+
+logger = logging.get_logger(__name__)
+
+_CONFIG_FOR_DOC = "LlamaConfig"
+
+
+def _get_unpad_data(attention_mask):
+    seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
+    indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
+    max_seqlen_in_batch = seqlens_in_batch.max().item()
+    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.int32), (1, 0))
+    return (
+        indices,
+        cu_seqlens,
+        max_seqlen_in_batch,
+    )
+
+
+class LlamaRMSNorm(nn.Module):
+    def __init__(self, hidden_size, eps=1e-6):
+        """
+        LlamaRMSNorm is equivalent to T5LayerNorm
+        """
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(hidden_size))
+        self.variance_epsilon = eps
+
+    def forward(self, hidden_states):
+        input_dtype = hidden_states.dtype
+        hidden_states = hidden_states.to(torch.float32)
+        variance = hidden_states.pow(2).mean(-1, keepdim=True)
+        hidden_states = hidden_states * torch.rsqrt(variance + self.variance_epsilon)
+        return self.weight * hidden_states.to(input_dtype)
+
+
+ALL_LAYERNORM_LAYERS.append(LlamaRMSNorm)
+
+
+class LlamaRotaryEmbedding(nn.Module):
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None, scaling_factor=1.0):
+        super().__init__()
+        self.scaling_factor = scaling_factor
+        self.dim = dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, dtype=torch.int64).float().to(device) / self.dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+        # For BC we register cos and sin cached
+        self.max_seq_len_cached = max_position_embeddings
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=torch.int64).type_as(self.inv_freq)
+        t = t / self.scaling_factor
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+        self.register_buffer("_cos_cached", emb.cos().to(torch.get_default_dtype()), persistent=False)
+        self.register_buffer("_sin_cached", emb.sin().to(torch.get_default_dtype()), persistent=False)
+
+    @property
+    def sin_cached(self):
+        logger.warning_once(
+            "The sin_cached attribute will be removed in 4.39. Bear in mind that its contents changed in v4.38. Use "
+            "the forward method of RoPE from now on instead. It is not used in the `LlamaAttention` class"
+        )
+        return self._sin_cached
+
+    @property
+    def cos_cached(self):
+        logger.warning_once(
+            "The cos_cached attribute will be removed in 4.39. Bear in mind that its contents changed in v4.38. Use "
+            "the forward method of RoPE from now on instead. It is not used in the `LlamaAttention` class"
+        )
+        return self._cos_cached
+
+    @torch.no_grad()
+    def forward(self, x, position_ids):
+        # x: [bs, num_attention_heads, seq_len, head_size]
+        inv_freq_expanded = self.inv_freq[None, :, None].float().expand(position_ids.shape[0], -1, 1)
+        position_ids_expanded = position_ids[:, None, :].float()
+        # Force float32 since bfloat16 loses precision on long contexts
+        # See https://github.com/huggingface/transformers/pull/29285
+        device_type = x.device.type
+        device_type = device_type if isinstance(device_type, str) and device_type != "mps" else "cpu"
+        with torch.autocast(device_type=device_type, enabled=False):
+            freqs = (inv_freq_expanded.float() @ position_ids_expanded.float()).transpose(1, 2)
+            emb = torch.cat((freqs, freqs), dim=-1)
+            cos = emb.cos()
+            sin = emb.sin()
+        return cos.to(dtype=x.dtype), sin.to(dtype=x.dtype)
+
+
+class LlamaLinearScalingRotaryEmbedding(LlamaRotaryEmbedding):
+    """LlamaRotaryEmbedding extended with linear scaling. Credits to the Reddit user /u/kaiokendev"""
+
+    def forward(self, x, position_ids):
+        # difference to the original RoPE: a scaling factor is aplied to the position ids
+        position_ids = position_ids.float() / self.scaling_factor
+        cos, sin = super().forward(x, position_ids)
+        return cos, sin
+
+
+class LlamaDynamicNTKScalingRotaryEmbedding(LlamaRotaryEmbedding):
+    """LlamaRotaryEmbedding extended with Dynamic NTK scaling. Credits to the Reddit users /u/bloc97 and /u/emozilla"""
+
+    def forward(self, x, position_ids):
+        # difference to the original RoPE: inv_freq is recomputed when the sequence length > original length
+        seq_len = torch.max(position_ids) + 1
+        if seq_len > self.max_position_embeddings:
+            base = self.base * (
+                (self.scaling_factor * seq_len / self.max_position_embeddings) - (self.scaling_factor - 1)
+            ) ** (self.dim / (self.dim - 2))
+            inv_freq = 1.0 / (
+                base ** (torch.arange(0, self.dim, 2, dtype=torch.int64).float().to(x.device) / self.dim)
+            )
+            self.register_buffer("inv_freq", inv_freq, persistent=False)  # TODO joao: this may break with compilation
+
+        cos, sin = super().forward(x, position_ids)
+        return cos, sin
+
+
+def rotate_half(x):
+    """Rotates half the hidden dims of the input."""
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+
+
+def apply_rotary_pos_emb(q, k, cos, sin, position_ids=None, unsqueeze_dim=1):
+    """Applies Rotary Position Embedding to the query and key tensors.
+
+    Args:
+        q (`torch.Tensor`): The query tensor.
+        k (`torch.Tensor`): The key tensor.
+        cos (`torch.Tensor`): The cosine part of the rotary embedding.
+        sin (`torch.Tensor`): The sine part of the rotary embedding.
+        position_ids (`torch.Tensor`, *optional*):
+            Deprecated and unused.
+        unsqueeze_dim (`int`, *optional*, defaults to 1):
+            The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
+            sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
+            that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
+            k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
+            cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
+            the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
+    Returns:
+        `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
+    """
+    cos = cos.unsqueeze(unsqueeze_dim)
+    sin = sin.unsqueeze(unsqueeze_dim)
+    q_embed = (q * cos) + (rotate_half(q) * sin)
+    k_embed = (k * cos) + (rotate_half(k) * sin)
+    return q_embed, k_embed
+
+
+class LlamaMLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=False)
+        self.act_fn = ACT2FN[config.hidden_act]
+
+    def forward(self, x):
+        if self.config.pretraining_tp > 1:
+            slice = self.intermediate_size // self.config.pretraining_tp
+            gate_proj_slices = self.gate_proj.weight.split(slice, dim=0)
+            up_proj_slices = self.up_proj.weight.split(slice, dim=0)
+            down_proj_slices = self.down_proj.weight.split(slice, dim=1)
+
+            gate_proj = torch.cat(
+                [F.linear(x, gate_proj_slices[i]) for i in range(self.config.pretraining_tp)], dim=-1
+            )
+            up_proj = torch.cat([F.linear(x, up_proj_slices[i]) for i in range(self.config.pretraining_tp)], dim=-1)
+
+            intermediate_states = (self.act_fn(gate_proj) * up_proj).split(slice, dim=2)
+            down_proj = [
+                F.linear(intermediate_states[i], down_proj_slices[i]) for i in range(self.config.pretraining_tp)
+            ]
+            down_proj = sum(down_proj)
+        else:
+            down_proj = self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))
+
+        return down_proj
+
+
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+
+
+class LlamaAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(self, config: LlamaConfig, layer_idx: Optional[int] = None):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        if layer_idx is None:
+            logger.warning_once(
+                f"Instantiating {self.__class__.__name__} without passing a `layer_idx` is not recommended and will "
+                "lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` "
+                "when creating this class."
+            )
+
+        self.attention_dropout = config.attention_dropout
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.num_key_value_heads = config.num_key_value_heads
+        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.is_causal = True
+
+        if (self.head_dim * self.num_heads) != self.hidden_size:
+            raise ValueError(
+                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
+                f" and `num_heads`: {self.num_heads})."
+            )
+
+        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=config.attention_bias)
+        self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.attention_bias)
+        self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.attention_bias)
+        self.o_proj = nn.Linear(self.hidden_size, self.hidden_size, bias=config.attention_bias)
+        self._init_rope()
+
+    def _init_rope(self):
+        if self.config.rope_scaling is None:
+            self.rotary_emb = LlamaRotaryEmbedding(
+                self.head_dim,
+                max_position_embeddings=self.max_position_embeddings,
+                base=self.rope_theta,
+            )
+        else:
+            scaling_type = self.config.rope_scaling["type"]
+            scaling_factor = self.config.rope_scaling["factor"]
+            if scaling_type == "linear":
+                self.rotary_emb = LlamaLinearScalingRotaryEmbedding(
+                    self.head_dim,
+                    max_position_embeddings=self.max_position_embeddings,
+                    scaling_factor=scaling_factor,
+                    base=self.rope_theta,
+                )
+            elif scaling_type == "dynamic":
+                self.rotary_emb = LlamaDynamicNTKScalingRotaryEmbedding(
+                    self.head_dim,
+                    max_position_embeddings=self.max_position_embeddings,
+                    scaling_factor=scaling_factor,
+                    base=self.rope_theta,
+                )
+            else:
+                raise ValueError(f"Unknown RoPE scaling type {scaling_type}")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        cache_position: Optional[torch.LongTensor] = None,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        bsz, q_len, _ = hidden_states.size()
+
+        if self.config.pretraining_tp > 1:
+            key_value_slicing = (self.num_key_value_heads * self.head_dim) // self.config.pretraining_tp
+            query_slices = self.q_proj.weight.split(
+                (self.num_heads * self.head_dim) // self.config.pretraining_tp, dim=0
+            )
+            key_slices = self.k_proj.weight.split(key_value_slicing, dim=0)
+            value_slices = self.v_proj.weight.split(key_value_slicing, dim=0)
+
+            query_states = [F.linear(hidden_states, query_slices[i]) for i in range(self.config.pretraining_tp)]
+            query_states = torch.cat(query_states, dim=-1)
+
+            key_states = [F.linear(hidden_states, key_slices[i]) for i in range(self.config.pretraining_tp)]
+            key_states = torch.cat(key_states, dim=-1)
+
+            value_states = [F.linear(hidden_states, value_slices[i]) for i in range(self.config.pretraining_tp)]
+            value_states = torch.cat(value_states, dim=-1)
+
+        else:
+            query_states = self.q_proj(hidden_states)
+            key_states = self.k_proj(hidden_states)
+            value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        past_key_value = getattr(self, "past_key_value", past_key_value)
+        cos, sin = self.rotary_emb(value_states, position_ids)
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin)
+
+        if past_key_value is not None:
+            # sin and cos are specific to RoPE models; cache_position needed for the static cache
+            cache_kwargs = {"sin": sin, "cos": cos, "cache_position": cache_position}
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
+
+        if attention_mask is not None:  # no matter the length, we just slice it
+            causal_mask = attention_mask[:, :, :, : key_states.shape[-2]]
+            attn_weights = attn_weights + causal_mask
+
+        # upcast attention to fp32
+        attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)
+        attn_weights = nn.functional.dropout(attn_weights, p=self.attention_dropout, training=self.training)
+        attn_output = torch.matmul(attn_weights, value_states)
+
+        if attn_output.size() != (bsz, self.num_heads, q_len, self.head_dim):
+            raise ValueError(
+                f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                f" {attn_output.size()}"
+            )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        if self.config.pretraining_tp > 1:
+            attn_output = attn_output.split(self.hidden_size // self.config.pretraining_tp, dim=2)
+            o_proj_slices = self.o_proj.weight.split(self.hidden_size // self.config.pretraining_tp, dim=1)
+            attn_output = sum([F.linear(attn_output[i], o_proj_slices[i]) for i in range(self.config.pretraining_tp)])
+        else:
+            attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+
+class LlamaFlashAttention2(LlamaAttention):
+    """
+    Llama flash attention module. This module inherits from `LlamaAttention` as the weights of the module stays
+    untouched. The only required change would be on the forward pass where it needs to correctly call the public API of
+    flash attention and deal with padding tokens in case the input contains any of them.
+    """
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        # TODO: Should be removed once Flash Attention for RoCm is bumped to 2.1.
+        # flash_attn<2.1 generates top-left aligned causal mask, while what is needed here is bottom-right alignement, that was made default for flash_attn>=2.1. This attribute is used to handle this difference. Reference: https://github.com/Dao-AILab/flash-attention/releases/tag/v2.1.0.
+        # Beware that with flash_attn<2.1, using q_seqlen != k_seqlen (except for the case q_seqlen == 1) produces a wrong mask (top-left).
+        self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.LongTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        cache_position: Optional[torch.LongTensor] = None,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        output_attentions = False
+
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        # Flash attention requires the input to have the shape
+        # batch_size x seq_length x head_dim x hidden_dim
+        # therefore we just need to keep the original shape
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        cos, sin = self.rotary_emb(value_states, position_ids)
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin)
+
+        past_key_value = getattr(self, "past_key_value", past_key_value)
+
+        if past_key_value is not None:
+            # sin and cos are specific to RoPE models; cache_position needed for the static cache
+            cache_kwargs = {"sin": sin, "cos": cos, "cache_position": cache_position}
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # TODO: These transpose are quite inefficient but Flash Attention requires the layout [batch_size, sequence_length, num_heads, head_dim]. We would need to refactor the KV cache
+        # to be able to avoid many of these transpose/reshape/view.
+        query_states = query_states.transpose(1, 2)
+        key_states = key_states.transpose(1, 2)
+        value_states = value_states.transpose(1, 2)
+
+        dropout_rate = self.attention_dropout if self.training else 0.0
+
+        # In PEFT, usually we cast the layer norms in float32 for training stability reasons
+        # therefore the input hidden states gets silently casted in float32. Hence, we need
+        # cast them back in the correct dtype just to be sure everything works as expected.
+        # This might slowdown training & inference so it is recommended to not cast the LayerNorms
+        # in fp32. (LlamaRMSNorm handles it correctly)
+
+        input_dtype = query_states.dtype
+        if input_dtype == torch.float32:
+            if torch.is_autocast_enabled():
+                target_dtype = torch.get_autocast_gpu_dtype()
+            # Handle the case where the model is quantized
+            elif hasattr(self.config, "_pre_quantization_dtype"):
+                target_dtype = self.config._pre_quantization_dtype
+            else:
+                target_dtype = self.q_proj.weight.dtype
+
+            logger.warning_once(
+                f"The input hidden states seems to be silently casted in float32, this might be related to"
+                f" the fact you have upcasted embedding or layer norm layers in float32. We will cast back the input in"
+                f" {target_dtype}."
+            )
+
+            query_states = query_states.to(target_dtype)
+            key_states = key_states.to(target_dtype)
+            value_states = value_states.to(target_dtype)
+
+        attn_output = self._flash_attention_forward(
+            query_states, key_states, value_states, attention_mask, q_len, dropout=dropout_rate
+        )
+
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size).contiguous()
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+    def _flash_attention_forward(
+        self, query_states, key_states, value_states, attention_mask, query_length, dropout=0.0, softmax_scale=None
+    ):
+        """
+        Calls the forward method of Flash Attention - if the input hidden states contain at least one padding token
+        first unpad the input, then computes the attention scores and pad the final attention scores.
+
+        Args:
+            query_states (`torch.Tensor`):
+                Input query states to be passed to Flash Attention API
+            key_states (`torch.Tensor`):
+                Input key states to be passed to Flash Attention API
+            value_states (`torch.Tensor`):
+                Input value states to be passed to Flash Attention API
+            attention_mask (`torch.Tensor`):
+                The padding mask - corresponds to a tensor of size `(batch_size, seq_len)` where 0 stands for the
+                position of padding tokens and 1 for the position of non-padding tokens.
+            dropout (`float`):
+                Attention dropout
+            softmax_scale (`float`, *optional*):
+                The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim)
+        """
+        if not self._flash_attn_uses_top_left_mask:
+            causal = self.is_causal
+        else:
+            # TODO: Remove the `query_length != 1` check once Flash Attention for RoCm is bumped to 2.1. For details, please see the comment in LlamaFlashAttention2 __init__.
+            causal = self.is_causal and query_length != 1
+
+        # Contains at least one padding token in the sequence
+        if attention_mask is not None:
+            batch_size = query_states.shape[0]
+            query_states, key_states, value_states, indices_q, cu_seq_lens, max_seq_lens = self._upad_input(
+                query_states, key_states, value_states, attention_mask, query_length
+            )
+
+            cu_seqlens_q, cu_seqlens_k = cu_seq_lens
+            max_seqlen_in_batch_q, max_seqlen_in_batch_k = max_seq_lens
+
+            attn_output_unpad = flash_attn_varlen_func(
+                query_states,
+                key_states,
+                value_states,
+                cu_seqlens_q=cu_seqlens_q,
+                cu_seqlens_k=cu_seqlens_k,
+                max_seqlen_q=max_seqlen_in_batch_q,
+                max_seqlen_k=max_seqlen_in_batch_k,
+                dropout_p=dropout,
+                softmax_scale=softmax_scale,
+                causal=causal,
+            )
+
+            attn_output = pad_input(attn_output_unpad, indices_q, batch_size, query_length)
+        else:
+            attn_output = flash_attn_func(
+                query_states, key_states, value_states, dropout, softmax_scale=softmax_scale, causal=causal
+            )
+
+        return attn_output
+
+    def _upad_input(self, query_layer, key_layer, value_layer, attention_mask, query_length):
+        indices_k, cu_seqlens_k, max_seqlen_in_batch_k = _get_unpad_data(attention_mask)
+        batch_size, kv_seq_len, num_key_value_heads, head_dim = key_layer.shape
+
+        key_layer = index_first_axis(
+            key_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        value_layer = index_first_axis(
+            value_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        if query_length == kv_seq_len:
+            query_layer = index_first_axis(
+                query_layer.reshape(batch_size * kv_seq_len, self.num_heads, head_dim), indices_k
+            )
+            cu_seqlens_q = cu_seqlens_k
+            max_seqlen_in_batch_q = max_seqlen_in_batch_k
+            indices_q = indices_k
+        elif query_length == 1:
+            max_seqlen_in_batch_q = 1
+            cu_seqlens_q = torch.arange(
+                batch_size + 1, dtype=torch.int32, device=query_layer.device
+            )  # There is a memcpy here, that is very bad.
+            indices_q = cu_seqlens_q[:-1]
+            query_layer = query_layer.squeeze(1)
+        else:
+            # The -q_len: slice assumes left padding.
+            attention_mask = attention_mask[:, -query_length:]
+            query_layer, indices_q, cu_seqlens_q, max_seqlen_in_batch_q = unpad_input(query_layer, attention_mask)
+
+        return (
+            query_layer,
+            key_layer,
+            value_layer,
+            indices_q,
+            (cu_seqlens_q, cu_seqlens_k),
+            (max_seqlen_in_batch_q, max_seqlen_in_batch_k),
+        )
+
+
+class LlamaSdpaAttention(LlamaAttention):
+    """
+    Llama attention module using torch.nn.functional.scaled_dot_product_attention. This module inherits from
+    `LlamaAttention` as the weights of the module stays untouched. The only changes are on the forward pass to adapt to
+    SDPA API.
+    """
+
+    # Adapted from LlamaAttention.forward
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        cache_position: Optional[torch.LongTensor] = None,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        if output_attentions:
+            # TODO: Improve this warning with e.g. `model.config.attn_implementation = "manual"` once this is implemented.
+            logger.warning_once(
+                "LlamaModel is using LlamaSdpaAttention, but `torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to the manual attention implementation, "
+                'but specifying the manual implementation will be required from Transformers version v5.0.0 onwards. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.'
+            )
+            return super().forward(
+                hidden_states=hidden_states,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                past_key_value=past_key_value,
+                output_attentions=output_attentions,
+                use_cache=use_cache,
+                cache_position=cache_position,
+            )
+
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        cos, sin = self.rotary_emb(value_states, position_ids)
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin)
+
+        # In case static cache is used, it is an instance attribute.
+        past_key_value = getattr(self, "past_key_value", past_key_value)
+
+        if past_key_value is not None:
+            # sin and cos are specific to RoPE models; cache_position needed for the static cache
+            cache_kwargs = {"sin": sin, "cos": cos, "cache_position": cache_position}
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        causal_mask = attention_mask
+        if attention_mask is not None:
+            causal_mask = causal_mask[:, :, :, : key_states.shape[-2]]
+
+        # SDPA with memory-efficient backend is currently (torch==2.1.2) bugged with non-contiguous inputs with custom attn_mask,
+        # Reference: https://github.com/pytorch/pytorch/issues/112577.
+        if query_states.device.type == "cuda" and causal_mask is not None:
+            query_states = query_states.contiguous()
+            key_states = key_states.contiguous()
+            value_states = value_states.contiguous()
+
+        # In case we are not compiling, we may set `causal_mask` to None, which is required to dispatch to SDPA's Flash Attention 2 backend, rather
+        # relying on the `is_causal` argument.
+        attn_output = torch.nn.functional.scaled_dot_product_attention(
+            query_states,
+            key_states,
+            value_states,
+            attn_mask=causal_mask,
+            dropout_p=self.attention_dropout if self.training else 0.0,
+            is_causal=causal_mask is None and q_len > 1,
+        )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.view(bsz, q_len, self.hidden_size)
+
+        attn_output = self.o_proj(attn_output)
+
+        return attn_output, None, past_key_value
+
+
+LLAMA_ATTENTION_CLASSES = {
+    "eager": LlamaAttention,
+    "flash_attention_2": LlamaFlashAttention2,
+    "sdpa": LlamaSdpaAttention,
+}
+
+
+class LlamaDecoderLayer(nn.Module):
+    def __init__(self, config: LlamaConfig, layer_idx: int):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+
+        self.self_attn = LLAMA_ATTENTION_CLASSES[config._attn_implementation](config=config, layer_idx=layer_idx)
+
+        self.mlp = LlamaMLP(config)
+        self.input_layernorm = LlamaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = LlamaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: Optional[bool] = False,
+        use_cache: Optional[bool] = False,
+        cache_position: Optional[torch.LongTensor] = None,
+        **kwargs,
+    ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
+        """
+        Args:
+            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
+            attention_mask (`torch.FloatTensor`, *optional*):
+                attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
+                query_sequence_length, key_sequence_length)` if default attention is used.
+            output_attentions (`bool`, *optional*):
+                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
+                returned tensors for more detail.
+            use_cache (`bool`, *optional*):
+                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
+                (see `past_key_values`).
+            past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
+        """
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self Attention
+        hidden_states, self_attn_weights, present_key_value = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+            cache_position=cache_position,
+            **kwargs,
+        )
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        outputs = (hidden_states,)
+
+        if output_attentions:
+            outputs += (self_attn_weights,)
+
+        if use_cache:
+            outputs += (present_key_value,)
+
+        return outputs
+
+
+LLAMA_START_DOCSTRING = r"""
+    This model inherits from [`PreTrainedModel`]. Check the superclass documentation for the generic methods the
+    library implements for all its model (such as downloading or saving, resizing the input embeddings, pruning heads
+    etc.)
+
+    This model is also a PyTorch [torch.nn.Module](https://pytorch.org/docs/stable/nn.html#torch.nn.Module) subclass.
+    Use it as a regular PyTorch Module and refer to the PyTorch documentation for all matter related to general usage
+    and behavior.
+
+    Parameters:
+        config ([`LlamaConfig`]):
+            Model configuration class with all the parameters of the model. Initializing with a config file does not
+            load the weights associated with the model, only the configuration. Check out the
+            [`~PreTrainedModel.from_pretrained`] method to load the model weights.
+"""
+
+
+@add_start_docstrings(
+    "The bare LLaMA Model outputting raw hidden-states without any specific head on top.",
+    LLAMA_START_DOCSTRING,
+)
+class LlamaPreTrainedModel(PreTrainedModel):
+    config_class = LlamaConfig
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["LlamaDecoderLayer"]
+    _skip_keys_device_placement = ["past_key_values"]
+    _supports_flash_attn_2 = True
+    _supports_sdpa = True
+    _supports_cache_class = True
+
+    def _init_weights(self, module):
+        std = self.config.initializer_range
+        if isinstance(module, nn.Linear):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+
+    def _setup_cache(self, cache_cls, max_batch_size, max_cache_len: Optional[int] = None):
+        if self.config._attn_implementation == "flash_attention_2" and cache_cls == StaticCache:
+            raise ValueError(
+                "`static` cache implementation is not compatible with `attn_implementation==flash_attention_2` "
+                "make sure to use `sdpa` in the mean time, and open an issue at https://github.com/huggingface/transformers"
+            )
+
+        for layer in self.model.layers:
+            device = layer.input_layernorm.weight.device
+            if hasattr(self.config, "_pre_quantization_dtype"):
+                dtype = self.config._pre_quantization_dtype
+            else:
+                dtype = layer.self_attn.o_proj.weight.dtype
+            layer.self_attn.past_key_value = cache_cls(
+                self.config, max_batch_size, max_cache_len, device=device, dtype=dtype
+            )
+
+    def _reset_cache(self):
+        for layer in self.model.layers:
+            layer.self_attn.past_key_value = None
+
+
+LLAMA_INPUTS_DOCSTRING = r"""
+    Args:
+        input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
+            Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you provide
+            it.
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            [What are input IDs?](../glossary#input-ids)
+        attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
+
+            - 1 for tokens that are **not masked**,
+            - 0 for tokens that are **masked**.
+
+            [What are attention masks?](../glossary#attention-mask)
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            If `past_key_values` is used, optionally only the last `input_ids` have to be input (see
+            `past_key_values`).
+
+            If you want to change padding behavior, you should read [`modeling_opt._prepare_decoder_attention_mask`]
+            and modify to your needs. See diagram 1 in [the paper](https://arxiv.org/abs/1910.13461) for more
+            information on the default strategy.
+
+            - 1 indicates the head is **not masked**,
+            - 0 indicates the head is **masked**.
+        position_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
+            config.n_positions - 1]`.
+
+            [What are position IDs?](../glossary#position-ids)
+        past_key_values (`Cache` or `tuple(tuple(torch.FloatTensor))`, *optional*):
+            Pre-computed hidden-states (key and values in the self-attention blocks and in the cross-attention
+            blocks) that can be used to speed up sequential decoding. This typically consists in the `past_key_values`
+            returned by the model at a previous stage of decoding, when `use_cache=True` or `config.use_cache=True`.
+
+            Two formats are allowed:
+            - a [`~cache_utils.Cache`] instance;
+            - Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
+            shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`). This is also known as the legacy
+            cache format.
+
+            The model will output the same cache format that is fed as input. If no `past_key_values` are passed, the
+            legacy cache format will be returned.
+
+            If `past_key_values` are used, the user can optionally input only the last `input_ids` (those that don't
+            have their past key value states given to this model) of shape `(batch_size, 1)` instead of all `input_ids`
+            of shape `(batch_size, sequence_length)`.
+        inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
+            Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
+            is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
+            model's internal embedding lookup matrix.
+        use_cache (`bool`, *optional*):
+            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
+            `past_key_values`).
+        output_attentions (`bool`, *optional*):
+            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
+            tensors for more detail.
+        output_hidden_states (`bool`, *optional*):
+            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
+            more detail.
+        return_dict (`bool`, *optional*):
+            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
+        cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
+            Indices depicting the position of the input sequence tokens in the sequence. Contrarily to `position_ids`,
+            this tensor is not affected by padding. It is used to update the cache in the correct position and to infer
+            the complete sequence length.
+"""
+
+
+@add_start_docstrings(
+    "The bare LLaMA Model outputting raw hidden-states without any specific head on top.",
+    LLAMA_START_DOCSTRING,
+)
+class LlamaModel(LlamaPreTrainedModel):
+    """
+    Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`LlamaDecoderLayer`]
+
+    Args:
+        config: LlamaConfig
+    """
+
+    def __init__(self, config: LlamaConfig):
+        super().__init__(config)
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
+        self.layers = nn.ModuleList(
+            [LlamaDecoderLayer(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
+        )
+        self.norm = LlamaRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.gradient_checkpointing = False
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        if (input_ids is None) ^ (inputs_embeds is not None):
+            raise ValueError(
+                "You cannot specify both input_ids and inputs_embeds at the same time, and must specify either one"
+            )
+
+        if self.gradient_checkpointing and self.training and use_cache:
+            logger.warning_once(
+                "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`."
+            )
+            use_cache = False
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+
+        past_seen_tokens = 0
+        if use_cache:  # kept for BC (cache positions)
+            if not isinstance(past_key_values, StaticCache):
+                past_key_values = DynamicCache.from_legacy_cache(past_key_values)
+                past_seen_tokens = past_key_values.get_seq_length()
+
+        if cache_position is None:
+            if isinstance(past_key_values, StaticCache):
+                raise ValueError("cache_position is a required argument when using StaticCache.")
+            cache_position = torch.arange(
+                past_seen_tokens, past_seen_tokens + inputs_embeds.shape[1], device=inputs_embeds.device
+            )
+
+        if position_ids is None:
+            position_ids = cache_position.unsqueeze(0)
+
+        causal_mask = self._update_causal_mask(attention_mask, inputs_embeds, cache_position, past_seen_tokens)
+
+        # embed positions
+        hidden_states = inputs_embeds
+
+        # decoder layers
+        all_hidden_states = () if output_hidden_states else None
+        all_self_attns = () if output_attentions else None
+        next_decoder_cache = None
+
+        for decoder_layer in self.layers:
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+
+            if self.gradient_checkpointing and self.training:
+                layer_outputs = self._gradient_checkpointing_func(
+                    decoder_layer.__call__,
+                    hidden_states,
+                    causal_mask,
+                    position_ids,
+                    past_key_values,
+                    output_attentions,
+                    use_cache,
+                    cache_position,
+                )
+            else:
+                layer_outputs = decoder_layer(
+                    hidden_states,
+                    attention_mask=causal_mask,
+                    position_ids=position_ids,
+                    past_key_value=past_key_values,
+                    output_attentions=output_attentions,
+                    use_cache=use_cache,
+                    cache_position=cache_position,
+                )
+
+            hidden_states = layer_outputs[0]
+
+            if use_cache:
+                next_decoder_cache = layer_outputs[2 if output_attentions else 1]
+
+            if output_attentions:
+                all_self_attns += (layer_outputs[1],)
+
+        hidden_states = self.norm(hidden_states)
+
+        # add hidden states from the last decoder layer
+        if output_hidden_states:
+            all_hidden_states += (hidden_states,)
+
+        next_cache = None
+        if use_cache:
+            next_cache = (
+                next_decoder_cache.to_legacy_cache() if isinstance(next_decoder_cache, Cache) else next_decoder_cache
+            )
+        if not return_dict:
+            return tuple(v for v in [hidden_states, next_cache, all_hidden_states, all_self_attns] if v is not None)
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=next_cache,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attns,
+        )
+
+    def _update_causal_mask(
+        self,
+        attention_mask: torch.Tensor,
+        input_tensor: torch.Tensor,
+        cache_position: torch.Tensor,
+        past_seen_tokens: int,
+    ):
+        # TODO: As of torch==2.2.0, the `attention_mask` passed to the model in `generate` is 2D and of dynamic length even when the static
+        # KV cache is used. This is an issue for torch.compile which then recaptures cudagraphs at each decode steps due to the dynamic shapes.
+        # (`recording cudagraph tree for symint key 13`, etc.), which is VERY slow. A workaround is `@torch.compiler.disable`, but this prevents using
+        # `fullgraph=True`. See more context in https://github.com/huggingface/transformers/pull/29114
+
+        if self.config._attn_implementation == "flash_attention_2":
+            if attention_mask is not None and 0.0 in attention_mask:
+                return attention_mask
+            return None
+
+        if self.config._attn_implementation == "sdpa":
+            # For SDPA, when possible, we will rely on its `is_causal` argument instead of its `attn_mask` argument,
+            # in order to dispatch on Flash Attention 2.
+            if AttentionMaskConverter._ignore_causal_mask_sdpa(
+                attention_mask, inputs_embeds=input_tensor, past_key_values_length=past_seen_tokens
+            ):
+                return None
+
+        dtype, device = input_tensor.dtype, input_tensor.device
+        min_dtype = torch.finfo(dtype).min
+        sequence_length = input_tensor.shape[1]
+        if hasattr(getattr(self.layers[0], "self_attn", {}), "past_key_value"):  # static cache
+            target_length = self.config.max_position_embeddings
+        else:  # dynamic cache
+            target_length = (
+                attention_mask.shape[-1]
+                if isinstance(attention_mask, torch.Tensor)
+                else past_seen_tokens + sequence_length + 1
+            )
+
+        causal_mask = torch.full((sequence_length, target_length), fill_value=min_dtype, dtype=dtype, device=device)
+        if sequence_length != 1:
+            causal_mask = torch.triu(causal_mask, diagonal=1)
+        causal_mask *= torch.arange(target_length, device=device) > cache_position.reshape(-1, 1)
+        causal_mask = causal_mask[None, None, :, :].expand(input_tensor.shape[0], 1, -1, -1)
+        if attention_mask is not None:
+            causal_mask = causal_mask.clone()  # copy to contiguous memory for in-place edit
+            if attention_mask.dim() == 2:
+                mask_length = attention_mask.shape[-1]
+                padding_mask = causal_mask[..., :mask_length].eq(0.0) * attention_mask[:, None, None, :].eq(0.0)
+                causal_mask[..., :mask_length] = causal_mask[..., :mask_length].masked_fill(padding_mask, min_dtype)
+            elif attention_mask.dim() == 4:
+                # backwards compatibility: we allow passing a 4D attention mask shorter than the input length with
+                # cache. In that case, the 4D attention mask attends to the newest tokens only.
+                if attention_mask.shape[-2] < cache_position[0] + sequence_length:
+                    offset = cache_position[0]
+                else:
+                    offset = 0
+                mask_shape = attention_mask.shape
+                mask_slice = (attention_mask.eq(0.0)).to(dtype=dtype) * min_dtype
+                causal_mask[
+                    : mask_shape[0], : mask_shape[1], offset : mask_shape[2] + offset, : mask_shape[3]
+                ] = mask_slice
+
+        if (
+            self.config._attn_implementation == "sdpa"
+            and attention_mask is not None
+            and attention_mask.device.type == "cuda"
+        ):
+            # Attend to all tokens in fully masked rows in the causal_mask, for example the relevant first rows when
+            # using left padding. This is required by F.scaled_dot_product_attention memory-efficient attention path.
+            # Details: https://github.com/pytorch/pytorch/issues/110213
+            causal_mask = AttentionMaskConverter._unmask_unattended(causal_mask, min_dtype)
+
+        return causal_mask
+
+
+class LlamaForCausalLM(LlamaPreTrainedModel):
+    _tied_weights_keys = ["lm_head.weight"]
+
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = LlamaModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    def get_output_embeddings(self):
+        return self.lm_head
+
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head = new_embeddings
+
+    def set_decoder(self, decoder):
+        self.model = decoder
+
+    def get_decoder(self):
+        return self.model
+
+    @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
+    @replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        r"""
+        Args:
+            labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+                Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+                config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+                (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+
+        Returns:
+
+        Example:
+
+        ```python
+        >>> from transformers import AutoTokenizer, LlamaForCausalLM
+
+        >>> model = LlamaForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf")
+        >>> tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
+
+        >>> prompt = "Hey, are you conscious? Can you talk to me?"
+        >>> inputs = tokenizer(prompt, return_tensors="pt")
+
+        >>> # Generate
+        >>> generate_ids = model.generate(inputs.input_ids, max_length=30)
+        >>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        "Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
+        ```"""
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.model(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            cache_position=cache_position,
+        )
+
+        hidden_states = outputs[0]
+        if self.config.pretraining_tp > 1:
+            lm_head_slices = self.lm_head.weight.split(self.vocab_size // self.config.pretraining_tp, dim=0)
+            logits = [F.linear(hidden_states, lm_head_slices[i]) for i in range(self.config.pretraining_tp)]
+            logits = torch.cat(logits, dim=-1)
+        else:
+            logits = self.lm_head(hidden_states)
+        logits = logits.float()
+
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = CrossEntropyLoss()
+            shift_logits = shift_logits.view(-1, self.config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+
+    def prepare_inputs_for_generation(
+        self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, cache_position=None, **kwargs
+    ):
+        # With static cache, the `past_key_values` is None
+        # TODO joao: standardize interface for the different Cache classes and remove of this if
+        has_static_cache = False
+        if past_key_values is None:
+            past_key_values = getattr(getattr(self.model.layers[0], "self_attn", {}), "past_key_value", None)
+            has_static_cache = past_key_values is not None
+
+        past_length = 0
+        if past_key_values is not None:
+            if isinstance(past_key_values, Cache):
+                past_length = cache_position[0] if cache_position is not None else past_key_values.get_seq_length()
+                max_cache_length = (
+                    torch.tensor(past_key_values.get_max_length(), device=input_ids.device)
+                    if past_key_values.get_max_length() is not None
+                    else None
+                )
+                cache_length = past_length if max_cache_length is None else torch.min(max_cache_length, past_length)
+            # TODO joao: remove this `else` after `generate` prioritizes `Cache` objects
+            else:
+                cache_length = past_length = past_key_values[0][0].shape[2]
+                max_cache_length = None
+
+            # Keep only the unprocessed tokens:
+            # 1 - If the length of the attention_mask exceeds the length of input_ids, then we are in a setting where
+            # some of the inputs are exclusively passed as part of the cache (e.g. when passing input_embeds as
+            # input)
+            if attention_mask is not None and attention_mask.shape[1] > input_ids.shape[1]:
+                input_ids = input_ids[:, -(attention_mask.shape[1] - past_length) :]
+            # 2 - If the past_length is smaller than input_ids', then input_ids holds all input tokens. We can discard
+            # input_ids based on the past_length.
+            elif past_length < input_ids.shape[1]:
+                input_ids = input_ids[:, past_length:]
+            # 3 - Otherwise (past_length >= input_ids.shape[1]), let's assume input_ids only has unprocessed tokens.
+            else:
+                remove_prefix_length = input_ids.shape[1] - 1
+                input_ids = input_ids[:, remove_prefix_length:]
+            # If we are about to go beyond the maximum cache length, we need to crop the input attention mask.
+            if (
+                max_cache_length is not None
+                and attention_mask is not None
+                and cache_length + input_ids.shape[1] > max_cache_length
+            ):
+                attention_mask = attention_mask[:, -max_cache_length:]
+
+        position_ids = kwargs.get("position_ids", None)
+        if attention_mask is not None and position_ids is None:
+            # create position_ids on the fly for batch generation
+            position_ids = attention_mask.long().cumsum(-1) - 1
+            position_ids.masked_fill_(attention_mask == 0, 1)
+            if past_key_values:
+                position_ids = position_ids[:, -input_ids.shape[1] :]
+
+        # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            # The `contiguous()` here is necessary to have a static stride during decoding. torchdynamo otherwise
+            # recompiles graphs as the stride of the inputs is a guard. Ref: https://github.com/huggingface/transformers/pull/29114
+            # TODO: use `next_tokens` directly instead.
+            model_inputs = {"input_ids": input_ids.contiguous()}
+
+        input_length = position_ids.shape[-1] if position_ids is not None else input_ids.shape[-1]
+        if cache_position is None:
+            cache_position = torch.arange(past_length, past_length + input_length, device=input_ids.device)
+        else:
+            cache_position = cache_position[-input_length:]
+
+        if has_static_cache:
+            past_key_values = None
+
+        model_inputs.update(
+            {
+                "position_ids": position_ids,
+                "cache_position": cache_position,
+                "past_key_values": past_key_values,
+                "use_cache": kwargs.get("use_cache"),
+                "attention_mask": attention_mask,
+            }
+        )
+        return model_inputs
+
+    @staticmethod
+    def _reorder_cache(past_key_values, beam_idx):
+        reordered_past = ()
+        for layer_past in past_key_values:
+            reordered_past += (
+                tuple(past_state.index_select(0, beam_idx.to(past_state.device)) for past_state in layer_past),
+            )
+        return reordered_past
+
+
+@add_start_docstrings(
+    """
+    The LLaMa Model transformer with a sequence classification head on top (linear layer).
+
+    [`LlamaForSequenceClassification`] uses the last token in order to do the classification, as other causal models
+    (e.g. GPT-2) do.
+
+    Since it does classification on the last token, it requires to know the position of the last token. If a
+    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
+    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
+    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
+    each row of the batch).
+    """,
+    LLAMA_START_DOCSTRING,
+)
+class LlamaForSequenceClassification(LlamaPreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        self.model = LlamaModel(config)
+        self.score = nn.Linear(config.hidden_size, self.num_labels, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, SequenceClassifierOutputWithPast]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
+            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
+            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        transformer_outputs = self.model(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        hidden_states = transformer_outputs[0]
+        logits = self.score(hidden_states)
+
+        if input_ids is not None:
+            batch_size = input_ids.shape[0]
+        else:
+            batch_size = inputs_embeds.shape[0]
+
+        if self.config.pad_token_id is None and batch_size != 1:
+            raise ValueError("Cannot handle batch sizes > 1 if no padding token is defined.")
+        if self.config.pad_token_id is None:
+            sequence_lengths = -1
+        else:
+            if input_ids is not None:
+                # if no pad token found, use modulo instead of reverse indexing for ONNX compatibility
+                sequence_lengths = torch.eq(input_ids, self.config.pad_token_id).int().argmax(-1) - 1
+                sequence_lengths = sequence_lengths % input_ids.shape[-1]
+                sequence_lengths = sequence_lengths.to(logits.device)
+            else:
+                sequence_lengths = -1
+
+        pooled_logits = logits[torch.arange(batch_size, device=logits.device), sequence_lengths]
+
+        loss = None
+        if labels is not None:
+            labels = labels.to(logits.device)
+            if self.config.problem_type is None:
+                if self.num_labels == 1:
+                    self.config.problem_type = "regression"
+                elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
+                    self.config.problem_type = "single_label_classification"
+                else:
+                    self.config.problem_type = "multi_label_classification"
+
+            if self.config.problem_type == "regression":
+                loss_fct = MSELoss()
+                if self.num_labels == 1:
+                    loss = loss_fct(pooled_logits.squeeze(), labels.squeeze())
+                else:
+                    loss = loss_fct(pooled_logits, labels)
+            elif self.config.problem_type == "single_label_classification":
+                loss_fct = CrossEntropyLoss()
+                loss = loss_fct(pooled_logits.view(-1, self.num_labels), labels.view(-1))
+            elif self.config.problem_type == "multi_label_classification":
+                loss_fct = BCEWithLogitsLoss()
+                loss = loss_fct(pooled_logits, labels)
+        if not return_dict:
+            output = (pooled_logits,) + transformer_outputs[1:]
+            return ((loss,) + output) if loss is not None else output
+
+        return SequenceClassifierOutputWithPast(
+            loss=loss,
+            logits=pooled_logits,
+            past_key_values=transformer_outputs.past_key_values,
+            hidden_states=transformer_outputs.hidden_states,
+            attentions=transformer_outputs.attentions,
+        )
+
+
+@add_start_docstrings(
+    """
+The Llama Model transformer with a span classification head on top for extractive question-answering tasks like
+SQuAD (a linear layer on top of the hidden-states output to compute `span start logits` and `span end logits`).
+    """,
+    LLAMA_START_DOCSTRING,
+)
+class LlamaForQuestionAnswering(LlamaPreTrainedModel):
+    base_model_prefix = "transformer"
+
+    # Copied from transformers.models.bloom.modeling_bloom.BloomForQuestionAnswering.__init__ with Bloom->Llama
+    def __init__(self, config):
+        super().__init__(config)
+        self.transformer = LlamaModel(config)
+        self.qa_outputs = nn.Linear(config.hidden_size, 2)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.transformer.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.transformer.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        attention_mask: Optional[torch.FloatTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        start_positions: Optional[torch.LongTensor] = None,
+        end_positions: Optional[torch.LongTensor] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, QuestionAnsweringModelOutput]:
+        r"""
+        start_positions (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for position (index) of the start of the labelled span for computing the token classification loss.
+            Positions are clamped to the length of the sequence (`sequence_length`). Position outside of the sequence
+            are not taken into account for computing the loss.
+        end_positions (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for position (index) of the end of the labelled span for computing the token classification loss.
+            Positions are clamped to the length of the sequence (`sequence_length`). Position outside of the sequence
+            are not taken into account for computing the loss.
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        outputs = self.transformer(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        sequence_output = outputs[0]
+
+        logits = self.qa_outputs(sequence_output)
+        start_logits, end_logits = logits.split(1, dim=-1)
+        start_logits = start_logits.squeeze(-1).contiguous()
+        end_logits = end_logits.squeeze(-1).contiguous()
+
+        total_loss = None
+        if start_positions is not None and end_positions is not None:
+            # If we are on multi-GPU, split add a dimension
+            if len(start_positions.size()) > 1:
+                start_positions = start_positions.squeeze(-1).to(start_logits.device)
+            if len(end_positions.size()) > 1:
+                end_positions = end_positions.squeeze(-1).to(end_logits.device)
+            # sometimes the start/end positions are outside our model inputs, we ignore these terms
+            ignored_index = start_logits.size(1)
+            start_positions = start_positions.clamp(0, ignored_index)
+            end_positions = end_positions.clamp(0, ignored_index)
+
+            loss_fct = CrossEntropyLoss(ignore_index=ignored_index)
+            start_loss = loss_fct(start_logits, start_positions)
+            end_loss = loss_fct(end_logits, end_positions)
+            total_loss = (start_loss + end_loss) / 2
+
+        if not return_dict:
+            output = (start_logits, end_logits) + outputs[2:]
+            return ((total_loss,) + output) if total_loss is not None else output
+
+        return QuestionAnsweringModelOutput(
+            loss=total_loss,
+            start_logits=start_logits,
+            end_logits=end_logits,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
diff --git a/Unicorn_dense/bunny/model/language_model/llama/tokenization_llama.py b/Unicorn_dense/bunny/model/language_model/llama/tokenization_llama.py
new file mode 100644
index 0000000000000000000000000000000000000000..a2eb7e157c5f6f076b0d30ca6c00ff24c71fb6b4
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/llama/tokenization_llama.py
@@ -0,0 +1,471 @@
+# coding=utf-8
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+"""Tokenization classes for LLaMA."""
+import os
+from shutil import copyfile
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Tuple
+
+import sentencepiece as spm
+
+from transformers.convert_slow_tokenizer import import_protobuf
+from transformers.tokenization_utils import AddedToken, PreTrainedTokenizer
+from transformers.utils import logging
+
+
+if TYPE_CHECKING:
+    from transformers.tokenization_utils_base import TextInput
+
+logger = logging.get_logger(__name__)
+
+VOCAB_FILES_NAMES = {"vocab_file": "tokenizer.model"}
+
+SPIECE_UNDERLINE = "▁"
+
+B_INST, E_INST = "[INST]", "[/INST]"
+B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
+
+# fmt: off
+DEFAULT_SYSTEM_PROMPT = """You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your \
+answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure\
+ that your responses are socially unbiased and positive in nature.
+
+If a question does not make any sense, or is not factually coherent, explain why instead of answering something not \
+correct. If you don't know the answer to a question, please don't share false information."""
+# fmt: on
+
+
+class LlamaTokenizer(PreTrainedTokenizer):
+    """
+    Construct a Llama tokenizer. Based on byte-level Byte-Pair-Encoding. The default padding token is unset as there is
+    no padding token in the original model.
+
+    Args:
+        vocab_file (`str`):
+            Path to the vocabulary file.
+        unk_token (`str` or `tokenizers.AddedToken`, *optional*, defaults to `"<unk>"`):
+            The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this
+            token instead.
+        bos_token (`str` or `tokenizers.AddedToken`, *optional*, defaults to `"<s>"`):
+            The beginning of sequence token that was used during pretraining. Can be used a sequence classifier token.
+        eos_token (`str` or `tokenizers.AddedToken`, *optional*, defaults to `"</s>"`):
+            The end of sequence token.
+        pad_token (`str` or `tokenizers.AddedToken`, *optional*):
+            A special token used to make arrays of tokens the same size for batching purpose. Will then be ignored by
+            attention mechanisms or loss computation.
+        sp_model_kwargs (`Dict[str, Any]`, `Optional`, *optional*):
+            Will be passed to the `SentencePieceProcessor.__init__()` method. The [Python wrapper for
+            SentencePiece](https://github.com/google/sentencepiece/tree/master/python) can be used, among other things,
+            to set:
+
+            - `enable_sampling`: Enable subword regularization.
+            - `nbest_size`: Sampling parameters for unigram. Invalid for BPE-Dropout.
+
+              - `nbest_size = {0,1}`: No sampling is performed.
+              - `nbest_size > 1`: samples from the nbest_size results.
+              - `nbest_size < 0`: assuming that nbest_size is infinite and samples from the all hypothesis (lattice)
+                using forward-filtering-and-backward-sampling algorithm.
+
+            - `alpha`: Smoothing parameter for unigram sampling, and dropout probability of merge operations for
+              BPE-dropout.
+
+        add_bos_token (`bool`, *optional*, defaults to `True`):
+            Whether or not to add an `bos_token` at the start of sequences.
+        add_eos_token (`bool`, *optional*, defaults to `False`):
+            Whether or not to add an `eos_token` at the end of sequences.
+        clean_up_tokenization_spaces (`bool`, *optional*, defaults to `False`):
+            Whether or not to cleanup spaces after decoding, cleanup consists in removing potential artifacts like
+            extra spaces.
+        use_default_system_prompt (`bool`, *optional*, defaults to `False`):
+            Whether or not the default system prompt for Llama should be used.
+        spaces_between_special_tokens (`bool`, *optional*, defaults to `False`):
+            Whether or not to add spaces between special tokens.
+        legacy (`bool`, *optional*):
+            Whether or not the `legacy` behavior of the tokenizer should be used. Legacy is before the merge of #24622
+            and #25224 which includes fixes to properly handle tokens that appear after special tokens. A simple
+            example:
+
+            - `legacy=True`:
+            ```python
+            >>> from transformers import T5Tokenizer
+
+            >>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-base", legacy=True)
+            >>> tokenizer.encode("Hello <extra_id_0>.")
+            [8774, 32099, 3, 5, 1]
+            ```
+            - `legacy=False`:
+            ```python
+            >>> from transformers import T5Tokenizer
+
+            >>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-base", legacy=False)
+            >>> tokenizer.encode("Hello <extra_id_0>.")  # the extra space `[3]` is no longer here
+            [8774, 32099, 5, 1]
+            ```
+            Checkout the [pull request](https://github.com/huggingface/transformers/pull/24565) for more details.
+        add_prefix_space (`bool`, *optional*, defaults to `True`):
+            Whether or not to add an initial space to the input. This allows to treat the leading word just as any
+            other word.
+
+    """
+
+    vocab_files_names = VOCAB_FILES_NAMES
+    model_input_names = ["input_ids", "attention_mask"]
+
+    def __init__(
+        self,
+        vocab_file,
+        unk_token="<unk>",
+        bos_token="<s>",
+        eos_token="</s>",
+        pad_token=None,
+        sp_model_kwargs: Optional[Dict[str, Any]] = None,
+        add_bos_token=True,
+        add_eos_token=False,
+        clean_up_tokenization_spaces=False,
+        use_default_system_prompt=False,
+        spaces_between_special_tokens=False,
+        legacy=None,
+        add_prefix_space=True,
+        **kwargs,
+    ):
+        self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
+        bos_token = AddedToken(bos_token, normalized=False, special=True) if isinstance(bos_token, str) else bos_token
+        eos_token = AddedToken(eos_token, normalized=False, special=True) if isinstance(eos_token, str) else eos_token
+        unk_token = AddedToken(unk_token, normalized=False, special=True) if isinstance(unk_token, str) else unk_token
+        pad_token = AddedToken(pad_token, normalized=False, special=True) if isinstance(pad_token, str) else pad_token
+
+        if legacy is None:
+            logger.warning_once(
+                f"You are using the default legacy behaviour of the {self.__class__}. This is"
+                " expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you."
+                " If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it"
+                " means, and thoroughly read the reason why this was added as explained in"
+                " https://github.com/huggingface/transformers/pull/24565"
+            )
+            legacy = True
+
+        self.legacy = legacy
+        self.vocab_file = vocab_file
+        self.add_bos_token = add_bos_token
+        self.add_eos_token = add_eos_token
+        self.use_default_system_prompt = use_default_system_prompt
+        self.sp_model = self.get_spm_processor(kwargs.pop("from_slow", False))
+        self.add_prefix_space = add_prefix_space
+
+        super().__init__(
+            bos_token=bos_token,
+            eos_token=eos_token,
+            unk_token=unk_token,
+            pad_token=pad_token,
+            add_bos_token=add_bos_token,
+            add_eos_token=add_eos_token,
+            sp_model_kwargs=self.sp_model_kwargs,
+            clean_up_tokenization_spaces=clean_up_tokenization_spaces,
+            use_default_system_prompt=use_default_system_prompt,
+            spaces_between_special_tokens=spaces_between_special_tokens,
+            legacy=legacy,
+            add_prefix_space=add_prefix_space,
+            **kwargs,
+        )
+
+    @property
+    def unk_token_length(self):
+        return len(self.sp_model.encode(str(self.unk_token)))
+
+    # Copied from transformers.models.t5.tokenization_t5.T5Tokenizer.get_spm_processor
+    def get_spm_processor(self, from_slow=False):
+        tokenizer = spm.SentencePieceProcessor(**self.sp_model_kwargs)
+        if self.legacy or from_slow:  # no dependency on protobuf
+            tokenizer.Load(self.vocab_file)
+            return tokenizer
+
+        with open(self.vocab_file, "rb") as f:
+            sp_model = f.read()
+            model_pb2 = import_protobuf(f"The new behaviour of {self.__class__.__name__} (with `self.legacy = False`)")
+            model = model_pb2.ModelProto.FromString(sp_model)
+            normalizer_spec = model_pb2.NormalizerSpec()
+            normalizer_spec.add_dummy_prefix = False
+            model.normalizer_spec.MergeFrom(normalizer_spec)
+            sp_model = model.SerializeToString()
+            tokenizer.LoadFromSerializedProto(sp_model)
+        return tokenizer
+
+    def __getstate__(self):
+        state = self.__dict__.copy()
+        state["sp_model"] = None
+        state["sp_model_proto"] = self.sp_model.serialized_model_proto()
+        return state
+
+    def __setstate__(self, d):
+        self.__dict__ = d
+        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
+        self.sp_model.LoadFromSerializedProto(self.sp_model_proto)
+
+    @property
+    def vocab_size(self):
+        """Returns vocab size"""
+        return self.sp_model.get_piece_size()
+
+    def get_vocab(self):
+        """Returns vocab as a dict"""
+        vocab = {self.convert_ids_to_tokens(i): i for i in range(self.vocab_size)}
+        vocab.update(self.added_tokens_encoder)
+        return vocab
+
+    # Copied from transformers.models.t5.tokenization_t5.T5Tokenizer.tokenize
+    def tokenize(self, text: "TextInput", **kwargs) -> List[str]:
+        """
+        Converts a string to a list of tokens. If `self.legacy` is set to `False`, a prefix token is added unless the
+        first token is special.
+        """
+        if self.legacy or len(text) == 0:
+            return super().tokenize(text, **kwargs)
+
+        text = text.replace(SPIECE_UNDERLINE, " ")
+        if self.add_prefix_space:
+            text = SPIECE_UNDERLINE + text
+
+        tokens = super().tokenize(text, **kwargs)
+
+        if len(tokens) > 1 and tokens[0] == SPIECE_UNDERLINE and tokens[1] in self.all_special_tokens:
+            tokens = tokens[1:]
+        return tokens
+
+    # Copied from transformers.models.t5.tokenization_t5.T5Tokenizer._tokenize
+    def _tokenize(self, text, **kwargs):
+        """
+        Returns a tokenized string.
+
+        We de-activated the `add_dummy_prefix` option, thus the sentencepiece internals will always strip any
+        SPIECE_UNDERLINE. For example: `self.sp_model.encode(f"{SPIECE_UNDERLINE}Hey", out_type = str)` will give
+        `['H', 'e', 'y']` instead of `['▁He', 'y']`. Thus we always encode `f"{unk_token}text"` and strip the
+        `unk_token`. Here is an example with `unk_token = "<unk>"` and `unk_token_length = 4`.
+        `self.tokenizer.sp_model.encode("<unk> Hey", out_type = str)[4:]`.
+        """
+        tokens = self.sp_model.encode(text, out_type=str)
+        if self.legacy or not text.startswith((SPIECE_UNDERLINE, " ")):
+            return tokens
+
+        # 1. Encode string + prefix ex: "<unk> Hey"
+        tokens = self.sp_model.encode(self.unk_token + text, out_type=str)
+        # 2. Remove self.unk_token from ['<','unk','>', '▁Hey']
+        return tokens[self.unk_token_length :] if len(tokens) >= self.unk_token_length else tokens
+
+    def _convert_token_to_id(self, token):
+        """Converts a token (str) in an id using the vocab."""
+        return self.sp_model.piece_to_id(token)
+
+    def _convert_id_to_token(self, index):
+        """Converts an index (integer) in a token (str) using the vocab."""
+        token = self.sp_model.IdToPiece(index)
+        return token
+
+    def convert_tokens_to_string(self, tokens):
+        """Converts a sequence of tokens (string) in a single string."""
+        # since we manually add the prefix space, we have to remove it when decoding
+        if tokens[0].startswith(SPIECE_UNDERLINE) and self.add_prefix_space:
+            tokens[0] = tokens[0][1:]
+
+        current_sub_tokens = []
+        out_string = ""
+        prev_is_special = False
+        for i, token in enumerate(tokens):
+            # make sure that special tokens are not decoded using sentencepiece model
+            if token in self.all_special_tokens:
+                if not prev_is_special and i != 0 and self.legacy:
+                    out_string += " "
+                out_string += self.sp_model.decode(current_sub_tokens) + token
+                prev_is_special = True
+                current_sub_tokens = []
+            else:
+                if prev_is_special and i == 1 and self.add_prefix_space and not token.startswith(SPIECE_UNDERLINE):
+                    out_string += " "
+                current_sub_tokens.append(token)
+                prev_is_special = False
+        out_string += self.sp_model.decode(current_sub_tokens)
+        return out_string
+
+    def save_vocabulary(self, save_directory, filename_prefix: Optional[str] = None) -> Tuple[str]:
+        """
+        Save the vocabulary and special tokens file to a directory.
+
+        Args:
+            save_directory (`str`):
+                The directory in which to save the vocabulary.
+
+        Returns:
+            `Tuple(str)`: Paths to the files saved.
+        """
+        if not os.path.isdir(save_directory):
+            logger.error(f"Vocabulary path ({save_directory}) should be a directory")
+            return
+        out_vocab_file = os.path.join(
+            save_directory, (filename_prefix + "-" if filename_prefix else "") + VOCAB_FILES_NAMES["vocab_file"]
+        )
+
+        if os.path.abspath(self.vocab_file) != os.path.abspath(out_vocab_file) and os.path.isfile(self.vocab_file):
+            copyfile(self.vocab_file, out_vocab_file)
+        elif not os.path.isfile(self.vocab_file):
+            with open(out_vocab_file, "wb") as fi:
+                content_spiece_model = self.sp_model.serialized_model_proto()
+                fi.write(content_spiece_model)
+
+        return (out_vocab_file,)
+
+    def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
+        bos_token_id = [self.bos_token_id] if self.add_bos_token else []
+        eos_token_id = [self.eos_token_id] if self.add_eos_token else []
+
+        output = bos_token_id + token_ids_0 + eos_token_id
+
+        if token_ids_1 is not None:
+            output = output + bos_token_id + token_ids_1 + eos_token_id
+
+        return output
+
+    def get_special_tokens_mask(
+        self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None, already_has_special_tokens: bool = False
+    ) -> List[int]:
+        """
+        Retrieve sequence ids from a token list that has no special tokens added. This method is called when adding
+        special tokens using the tokenizer `prepare_for_model` method.
+
+        Args:
+            token_ids_0 (`List[int]`):
+                List of IDs.
+            token_ids_1 (`List[int]`, *optional*):
+                Optional second list of IDs for sequence pairs.
+            already_has_special_tokens (`bool`, *optional*, defaults to `False`):
+                Whether or not the token list is already formatted with special tokens for the model.
+
+        Returns:
+            `List[int]`: A list of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token.
+        """
+        if already_has_special_tokens:
+            return super().get_special_tokens_mask(
+                token_ids_0=token_ids_0, token_ids_1=token_ids_1, already_has_special_tokens=True
+            )
+
+        bos_token_id = [1] if self.add_bos_token else []
+        eos_token_id = [1] if self.add_eos_token else []
+
+        if token_ids_1 is None:
+            return bos_token_id + ([0] * len(token_ids_0)) + eos_token_id
+        return (
+            bos_token_id
+            + ([0] * len(token_ids_0))
+            + eos_token_id
+            + bos_token_id
+            + ([0] * len(token_ids_1))
+            + eos_token_id
+        )
+
+    def create_token_type_ids_from_sequences(
+        self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None
+    ) -> List[int]:
+        """
+        Creates a mask from the two sequences passed to be used in a sequence-pair classification task. An ALBERT
+        sequence pair mask has the following format:
+
+        ```
+        0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
+        | first sequence    | second sequence |
+        ```
+
+        if token_ids_1 is None, only returns the first portion of the mask (0s).
+
+        Args:
+            token_ids_0 (`List[int]`):
+                List of ids.
+            token_ids_1 (`List[int]`, *optional*):
+                Optional second list of IDs for sequence pairs.
+
+        Returns:
+            `List[int]`: List of [token type IDs](../glossary#token-type-ids) according to the given sequence(s).
+        """
+        bos_token_id = [self.bos_token_id] if self.add_bos_token else []
+        eos_token_id = [self.eos_token_id] if self.add_eos_token else []
+
+        output = [0] * len(bos_token_id + token_ids_0 + eos_token_id)
+
+        if token_ids_1 is not None:
+            output += [1] * len(bos_token_id + token_ids_1 + eos_token_id)
+
+        return output
+
+    @property
+    def default_chat_template(self):
+        """
+        LLaMA uses [INST] and [/INST] to indicate user messages, and <<SYS>> and <</SYS>> to indicate system messages.
+        Assistant messages do not have special tokens, because LLaMA chat models are generally trained with strict
+        user/assistant/user/assistant message ordering, and so assistant messages can be identified from the ordering
+        rather than needing special tokens. The system message is partly 'embedded' in the first user message, which
+        results in an unusual token ordering when it is present. This template should definitely be changed if you wish
+        to fine-tune a model with more flexible role ordering!
+
+        The output should look something like:
+
+        <bos>[INST] B_SYS SystemPrompt E_SYS Prompt [/INST] Answer <eos><bos>[INST] Prompt [/INST] Answer <eos>
+        <bos>[INST] Prompt [/INST]
+
+        The reference for this chat template is [this code
+        snippet](https://github.com/facebookresearch/llama/blob/556949fdfb72da27c2f4a40b7f0e4cf0b8153a28/llama/generation.py#L320-L362)
+        in the original repository.
+        """
+        logger.warning_once(
+            "\nNo chat template is defined for this tokenizer - using the default template "
+            f"for the {self.__class__.__name__} class. If the default is not appropriate for "
+            "your model, please set `tokenizer.chat_template` to an appropriate template. "
+            "See https://huggingface.co/docs/transformers/main/chat_templating for more information.\n"
+        )
+        template = (
+            "{% if messages[0]['role'] == 'system' %}"
+            "{% set loop_messages = messages[1:] %}"  # Extract system message if it's present
+            "{% set system_message = messages[0]['content'] %}"
+            "{% elif USE_DEFAULT_PROMPT == true and not '<<SYS>>' in messages[0]['content'] %}"
+            "{% set loop_messages = messages %}"  # Or use the default system message if the flag is set
+            "{% set system_message = 'DEFAULT_SYSTEM_MESSAGE' %}"
+            "{% else %}"
+            "{% set loop_messages = messages %}"
+            "{% set system_message = false %}"
+            "{% endif %}"
+            "{% for message in loop_messages %}"  # Loop over all non-system messages
+            "{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}"
+            "{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}"
+            "{% endif %}"
+            "{% if loop.index0 == 0 and system_message != false %}"  # Embed system message in first message
+            "{% set content = '<<SYS>>\\n' + system_message + '\\n<</SYS>>\\n\\n' + message['content'] %}"
+            "{% else %}"
+            "{% set content = message['content'] %}"
+            "{% endif %}"
+            "{% if message['role'] == 'user' %}"  # After all of that, handle messages/roles in a fairly normal way
+            "{{ bos_token + '[INST] ' + content.strip() + ' [/INST]' }}"
+            "{% elif message['role'] == 'system' %}"
+            "{{ '<<SYS>>\\n' + content.strip() + '\\n<</SYS>>\\n\\n' }}"
+            "{% elif message['role'] == 'assistant' %}"
+            "{{ ' '  + content.strip() + ' ' + eos_token }}"
+            "{% endif %}"
+            "{% endfor %}"
+        )
+        template = template.replace("USE_DEFAULT_PROMPT", "true" if self.use_default_system_prompt else "false")
+        default_message = DEFAULT_SYSTEM_PROMPT.replace("\n", "\\n").replace("'", "\\'")
+        template = template.replace("DEFAULT_SYSTEM_MESSAGE", default_message)
+
+        return template
diff --git a/Unicorn_dense/bunny/model/language_model/llama/tokenization_llama_fast.py b/Unicorn_dense/bunny/model/language_model/llama/tokenization_llama_fast.py
new file mode 100644
index 0000000000000000000000000000000000000000..cd3d5acf9db5b20969983341cd7a7e0c0c72ad68
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/llama/tokenization_llama_fast.py
@@ -0,0 +1,281 @@
+# coding=utf-8
+# Copyright 2020 The HuggingFace Inc. team.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import os
+from shutil import copyfile
+from typing import Optional, Tuple
+
+from tokenizers import processors
+
+from transformers.tokenization_utils_fast import PreTrainedTokenizerFast
+from transformers.utils import is_sentencepiece_available, logging
+from transformers.utils.versions import require_version
+
+
+require_version("tokenizers>=0.13.3")
+
+if is_sentencepiece_available():
+    from .tokenization_llama import LlamaTokenizer
+else:
+    LlamaTokenizer = None
+
+logger = logging.get_logger(__name__)
+VOCAB_FILES_NAMES = {"vocab_file": "tokenizer.model", "tokenizer_file": "tokenizer.json"}
+
+B_INST, E_INST = "[INST]", "[/INST]"
+B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
+
+# fmt: off
+DEFAULT_SYSTEM_PROMPT = """You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your \
+answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure\
+ that your responses are socially unbiased and positive in nature.
+
+If a question does not make any sense, or is not factually coherent, explain why instead of answering something not \
+correct. If you don't know the answer to a question, please don't share false information."""
+# fmt: on
+
+
+class LlamaTokenizerFast(PreTrainedTokenizerFast):
+    """
+    Construct a Llama tokenizer. Based on byte-level Byte-Pair-Encoding.
+
+    This uses notably ByteFallback and no normalization.
+
+    ```python
+    >>> from transformers import LlamaTokenizerFast
+
+    >>> tokenizer = LlamaTokenizerFast.from_pretrained("hf-internal-testing/llama-tokenizer")
+    >>> tokenizer.encode("Hello this is a test")
+    [1, 15043, 445, 338, 263, 1243]
+    ```
+
+    If you want to change the `bos_token` or the `eos_token`, make sure to specify them when initializing the model, or
+    call `tokenizer.update_post_processor()` to make sure that the post-processing is correctly done (otherwise the
+    values of the first token and final token of an encoded sequence will not be correct). For more details, checkout
+    [post-processors] (https://huggingface.co/docs/tokenizers/api/post-processors) documentation.
+
+
+    This tokenizer inherits from [`PreTrainedTokenizerFast`] which contains most of the main methods. Users should
+    refer to this superclass for more information regarding those methods.
+
+    Args:
+        vocab_file (`str`, *optional*):
+            [SentencePiece](https://github.com/google/sentencepiece) file (generally has a .model extension) that
+            contains the vocabulary necessary to instantiate a tokenizer.
+        tokenizer_file (`str`, *optional*):
+            [tokenizers](https://github.com/huggingface/tokenizers) file (generally has a .json extension) that
+            contains everything needed to load the tokenizer.
+        clean_up_tokenization_spaces (`bool`, *optional*, defaults to `False`):
+            Whether or not to cleanup spaces after decoding, cleanup consists in removing potential artifacts like
+            extra spaces.
+        unk_token (`str` or `tokenizers.AddedToken`, *optional*, defaults to `"<unk>"`):
+            The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this
+            token instead.
+        bos_token (`str` or `tokenizers.AddedToken`, *optional*, defaults to `"<s>"`):
+            The beginning of sequence token that was used during pretraining. Can be used a sequence classifier token.
+        eos_token (`str` or `tokenizers.AddedToken`, *optional*, defaults to `"</s>"`):
+            The end of sequence token.
+        add_bos_token (`bool`, *optional*, defaults to `True`):
+            Whether or not to add an `bos_token` at the start of sequences.
+        add_eos_token (`bool`, *optional*, defaults to `False`):
+            Whether or not to add an `eos_token` at the end of sequences.
+        use_default_system_prompt (`bool`, *optional*, defaults to `False`):
+            Whether or not the default system prompt for Llama should be used.
+        add_prefix_space (`bool`, *optional*):
+            Whether or not the tokenizer should automatically add a prefix space
+    """
+
+    vocab_files_names = VOCAB_FILES_NAMES
+    slow_tokenizer_class = LlamaTokenizer
+    padding_side = "left"
+    model_input_names = ["input_ids", "attention_mask"]
+
+    def __init__(
+        self,
+        vocab_file=None,
+        tokenizer_file=None,
+        clean_up_tokenization_spaces=False,
+        unk_token="<unk>",
+        bos_token="<s>",
+        eos_token="</s>",
+        add_bos_token=True,
+        add_eos_token=False,
+        use_default_system_prompt=False,
+        add_prefix_space=None,
+        **kwargs,
+    ):
+        if add_prefix_space is not None:
+            logger.warning_once(
+                "You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers"
+            )
+            kwargs["from_slow"] = True
+
+        super().__init__(
+            vocab_file=vocab_file,
+            tokenizer_file=tokenizer_file,
+            clean_up_tokenization_spaces=clean_up_tokenization_spaces,
+            unk_token=unk_token,
+            bos_token=bos_token,
+            eos_token=eos_token,
+            add_bos_token=add_bos_token,
+            add_eos_token=add_eos_token,
+            use_default_system_prompt=use_default_system_prompt,
+            **kwargs,
+        )
+        self._add_bos_token = add_bos_token
+        self._add_eos_token = add_eos_token
+        self.update_post_processor()
+        self.use_default_system_prompt = use_default_system_prompt
+        self.vocab_file = vocab_file
+
+    @property
+    def can_save_slow_tokenizer(self) -> bool:
+        return os.path.isfile(self.vocab_file) if self.vocab_file else False
+
+    def update_post_processor(self):
+        """
+        Updates the underlying post processor with the current `bos_token` and `eos_token`.
+        """
+        bos = self.bos_token
+        bos_token_id = self.bos_token_id
+        if bos is None and self.add_bos_token:
+            raise ValueError("add_bos_token = True but bos_token = None")
+
+        eos = self.eos_token
+        eos_token_id = self.eos_token_id
+        if eos is None and self.add_eos_token:
+            raise ValueError("add_eos_token = True but eos_token = None")
+
+        single = f"{(bos+':0 ') if self.add_bos_token else ''}$A:0{(' '+eos+':0') if self.add_eos_token else ''}"
+        pair = f"{single}{(' '+bos+':1') if self.add_bos_token else ''} $B:1{(' '+eos+':1') if self.add_eos_token else ''}"
+
+        special_tokens = []
+        if self.add_bos_token:
+            special_tokens.append((bos, bos_token_id))
+        if self.add_eos_token:
+            special_tokens.append((eos, eos_token_id))
+        self._tokenizer.post_processor = processors.TemplateProcessing(
+            single=single, pair=pair, special_tokens=special_tokens
+        )
+
+    @property
+    def add_eos_token(self):
+        return self._add_eos_token
+
+    @property
+    def add_bos_token(self):
+        return self._add_bos_token
+
+    @add_eos_token.setter
+    def add_eos_token(self, value):
+        self._add_eos_token = value
+        self.update_post_processor()
+
+    @add_bos_token.setter
+    def add_bos_token(self, value):
+        self._add_bos_token = value
+        self.update_post_processor()
+
+    def save_vocabulary(self, save_directory: str, filename_prefix: Optional[str] = None) -> Tuple[str]:
+        if not self.can_save_slow_tokenizer:
+            raise ValueError(
+                "Your fast tokenizer does not have the necessary information to save the vocabulary for a slow "
+                "tokenizer."
+            )
+
+        if not os.path.isdir(save_directory):
+            logger.error(f"Vocabulary path ({save_directory}) should be a directory")
+            return
+        out_vocab_file = os.path.join(
+            save_directory, (filename_prefix + "-" if filename_prefix else "") + VOCAB_FILES_NAMES["vocab_file"]
+        )
+
+        if os.path.abspath(self.vocab_file) != os.path.abspath(out_vocab_file):
+            copyfile(self.vocab_file, out_vocab_file)
+
+        return (out_vocab_file,)
+
+    @property
+    # Copied from transformers.models.llama.tokenization_llama.LlamaTokenizer.default_chat_template
+    def default_chat_template(self):
+        """
+        LLaMA uses [INST] and [/INST] to indicate user messages, and <<SYS>> and <</SYS>> to indicate system messages.
+        Assistant messages do not have special tokens, because LLaMA chat models are generally trained with strict
+        user/assistant/user/assistant message ordering, and so assistant messages can be identified from the ordering
+        rather than needing special tokens. The system message is partly 'embedded' in the first user message, which
+        results in an unusual token ordering when it is present. This template should definitely be changed if you wish
+        to fine-tune a model with more flexible role ordering!
+
+        The output should look something like:
+
+        <bos>[INST] B_SYS SystemPrompt E_SYS Prompt [/INST] Answer <eos><bos>[INST] Prompt [/INST] Answer <eos>
+        <bos>[INST] Prompt [/INST]
+
+        The reference for this chat template is [this code
+        snippet](https://github.com/facebookresearch/llama/blob/556949fdfb72da27c2f4a40b7f0e4cf0b8153a28/llama/generation.py#L320-L362)
+        in the original repository.
+        """
+        logger.warning_once(
+            "\nNo chat template is defined for this tokenizer - using the default template "
+            f"for the {self.__class__.__name__} class. If the default is not appropriate for "
+            "your model, please set `tokenizer.chat_template` to an appropriate template. "
+            "See https://huggingface.co/docs/transformers/main/chat_templating for more information.\n"
+        )
+        template = (
+            "{% if messages[0]['role'] == 'system' %}"
+            "{% set loop_messages = messages[1:] %}"  # Extract system message if it's present
+            "{% set system_message = messages[0]['content'] %}"
+            "{% elif USE_DEFAULT_PROMPT == true and not '<<SYS>>' in messages[0]['content'] %}"
+            "{% set loop_messages = messages %}"  # Or use the default system message if the flag is set
+            "{% set system_message = 'DEFAULT_SYSTEM_MESSAGE' %}"
+            "{% else %}"
+            "{% set loop_messages = messages %}"
+            "{% set system_message = false %}"
+            "{% endif %}"
+            "{% for message in loop_messages %}"  # Loop over all non-system messages
+            "{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}"
+            "{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}"
+            "{% endif %}"
+            "{% if loop.index0 == 0 and system_message != false %}"  # Embed system message in first message
+            "{% set content = '<<SYS>>\\n' + system_message + '\\n<</SYS>>\\n\\n' + message['content'] %}"
+            "{% else %}"
+            "{% set content = message['content'] %}"
+            "{% endif %}"
+            "{% if message['role'] == 'user' %}"  # After all of that, handle messages/roles in a fairly normal way
+            "{{ bos_token + '[INST] ' + content.strip() + ' [/INST]' }}"
+            "{% elif message['role'] == 'system' %}"
+            "{{ '<<SYS>>\\n' + content.strip() + '\\n<</SYS>>\\n\\n' }}"
+            "{% elif message['role'] == 'assistant' %}"
+            "{{ ' '  + content.strip() + ' ' + eos_token }}"
+            "{% endif %}"
+            "{% endfor %}"
+        )
+        template = template.replace("USE_DEFAULT_PROMPT", "true" if self.use_default_system_prompt else "false")
+        default_message = DEFAULT_SYSTEM_PROMPT.replace("\n", "\\n").replace("'", "\\'")
+        template = template.replace("DEFAULT_SYSTEM_MESSAGE", default_message)
+
+        return template
+
+    # TODO ArthurZ let's rely on the template processor instead, refactor all fast tokenizers
+    # Copied from transformers.models.llama.tokenization_llama.LlamaTokenizer.build_inputs_with_special_tokens
+    def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
+        bos_token_id = [self.bos_token_id] if self.add_bos_token else []
+        eos_token_id = [self.eos_token_id] if self.add_eos_token else []
+
+        output = bos_token_id + token_ids_0 + eos_token_id
+
+        if token_ids_1 is not None:
+            output = output + bos_token_id + token_ids_1 + eos_token_id
+
+        return output
diff --git a/Unicorn_dense/bunny/model/language_model/minicpm/__pycache__/configuration_minicpm.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/minicpm/__pycache__/configuration_minicpm.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3a61fbe84e6187921916a8c8a99505dd5fbcad99
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/minicpm/__pycache__/configuration_minicpm.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/minicpm/__pycache__/modeling_minicpm.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/minicpm/__pycache__/modeling_minicpm.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..caec93d61ca390f4737d5c997cfd45f04b62e946
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/minicpm/__pycache__/modeling_minicpm.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/minicpm/configuration_minicpm.py b/Unicorn_dense/bunny/model/language_model/minicpm/configuration_minicpm.py
new file mode 100644
index 0000000000000000000000000000000000000000..21eb158572ad0cfbfdf51072106d5018c2ff8ca5
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/minicpm/configuration_minicpm.py
@@ -0,0 +1,202 @@
+# coding=utf-8
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" MiniCPM model configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+
+logger = logging.get_logger(__name__)
+
+MINICPM_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
+
+
+class MiniCPMConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`MiniCPMModel`]. It is used to instantiate an MiniCPM
+    model according to the specified arguments, defining the model architecture. Instantiating a configuration with the
+    defaults will yield a similar configuration to that of the MiniCPM-7B.
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 32000):
+            Vocabulary size of the MiniCPM model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`MiniCPMModel`]
+        hidden_size (`int`, *optional*, defaults to 4096):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 11008):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer decoder.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer decoder.
+        num_key_value_heads (`int`, *optional*):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to
+            `num_attention_heads`.
+        hidden_act (`str` or `function`, *optional*, defaults to `"silu"`):
+            The non-linear activation function (function or string) in the decoder.
+        max_position_embeddings (`int`, *optional*, defaults to 2048):
+            The maximum sequence length that this model might ever be used with. MiniCPM 1 supports up to 2048 tokens,
+            MiniCPM 2 up to 4096, CodeMiniCPM up to 16384.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        rms_norm_eps (`float`, *optional*, defaults to 1e-06):
+            The epsilon used by the rms normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`.
+        pad_token_id (`int`, *optional*):
+            Padding token id.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            Beginning of stream token id.
+        eos_token_id (`int`, *optional*, defaults to 2):
+            End of stream token id.
+        pretraining_tp (`int`, *optional*, defaults to 1):
+            Experimental feature. Tensor parallelism rank used during pretraining. Please refer to [this
+            document](https://huggingface.co/docs/transformers/parallelism) to understand more about it. This value is
+            necessary to ensure exact reproducibility of the pretraining results. Please refer to [this
+            issue](https://github.com/pytorch/pytorch/issues/76232).
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether to tie weight embeddings
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        rope_scaling (`Dict`, *optional*):
+            Dictionary containing the scaling configuration for the RoPE embeddings. Currently supports two scaling
+            strategies: linear and dynamic. Their scaling factor must be a float greater than 1. The expected format is
+            `{"type": strategy name, "factor": scaling factor}`. When using this flag, don't update
+            `max_position_embeddings` to the expected new maximum. See the following thread for more information on how
+            these scaling strategies behave:
+            https://www.reddit.com/r/LocalMiniCPM/comments/14mrgpr/dynamically_scaled_rope_further_increases/. This is an
+            experimental feature, subject to breaking API changes in future versions.
+        attention_bias (`bool`, defaults to `False`, *optional*, defaults to `False`):
+            Whether to use a bias in the query, key, value and output projection layers during self-attention.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+
+    ```python
+    >>> from transformers import MiniCPMModel, MiniCPMConfig
+
+    >>> # Initializing a MiniCPM minicpm-7b style configuration
+    >>> configuration = MiniCPMConfig()
+
+    >>> # Initializing a model from the minicpm-7b style configuration
+    >>> model = MiniCPMModel(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "minicpm"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=32000,
+        hidden_size=4096,
+        intermediate_size=11008,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        hidden_act="silu",
+        max_position_embeddings=2048,
+        initializer_range=0.02,
+        rms_norm_eps=1e-6,
+        use_cache=True,
+        pad_token_id=None,
+        bos_token_id=1,
+        eos_token_id=2,
+        pretraining_tp=1,
+        tie_word_embeddings=True,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        attention_bias=False,
+        attention_dropout=0.0,
+        scale_emb=1,
+        dim_model_base=1,
+        scale_depth=1,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.pretraining_tp = pretraining_tp
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self._rope_scaling_validation()
+        self.attention_bias = attention_bias
+        self.attention_dropout = attention_dropout
+        self.scale_emb = scale_emb
+        self.dim_model_base = dim_model_base
+        self.scale_depth = scale_depth
+
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+        try:
+            import flash_attn
+            self._attn_implementation = "flash_attention_2"
+        except:
+            pass
+
+    def _rope_scaling_validation(self):
+        """
+        Validate the `rope_scaling` configuration.
+        """
+        if self.rope_scaling is None:
+            return
+
+        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 2:
+            raise ValueError(
+                "`rope_scaling` must be a dictionary with with two fields, `type` and `factor`, "
+                f"got {self.rope_scaling}"
+            )
+        rope_scaling_type = self.rope_scaling.get("type", None)
+        rope_scaling_factor = self.rope_scaling.get("factor", None)
+        if rope_scaling_type is None or rope_scaling_type not in ["linear", "dynamic"]:
+            raise ValueError(
+                f"`rope_scaling`'s type field must be one of ['linear', 'dynamic'], got {rope_scaling_type}"
+            )
+        if rope_scaling_factor is None or not isinstance(rope_scaling_factor, float) or rope_scaling_factor <= 1.0:
+            raise ValueError(f"`rope_scaling`'s factor field must be a float > 1, got {rope_scaling_factor}")
diff --git a/Unicorn_dense/bunny/model/language_model/minicpm/modeling_minicpm.py b/Unicorn_dense/bunny/model/language_model/minicpm/modeling_minicpm.py
new file mode 100644
index 0000000000000000000000000000000000000000..acb19fbd03f3faa82e450ecc5384130ff38a9b27
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/minicpm/modeling_minicpm.py
@@ -0,0 +1,1456 @@
+# coding=utf-8
+# Copyright 2022 EleutherAI and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" PyTorch MiniCPM model."""
+import math
+import warnings
+from typing import List, Optional, Tuple, Union, Dict
+
+import torch
+import torch.nn.functional as F
+import torch.utils.checkpoint
+from torch import nn
+from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
+
+from transformers.activations import ACT2FN
+from transformers.cache_utils import Cache, DynamicCache
+from transformers.modeling_attn_mask_utils import (
+    AttentionMaskConverter,
+    _prepare_4d_attention_mask,
+    _prepare_4d_causal_attention_mask,
+    _prepare_4d_causal_attention_mask_for_sdpa,
+)
+from transformers.modeling_outputs import BaseModelOutputWithPast, CausalLMOutputWithPast, SequenceClassifierOutputWithPast
+from transformers.modeling_utils import PreTrainedModel
+from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS, is_torch_greater_or_equal_than_1_13
+from transformers.utils import (
+    add_start_docstrings,
+    add_start_docstrings_to_model_forward,
+    is_flash_attn_2_available,
+    is_flash_attn_greater_or_equal_2_10,
+    logging,
+    replace_return_docstrings,
+)
+from transformers.utils.import_utils import is_torch_fx_available
+from .configuration_minicpm import MiniCPMConfig
+import re
+
+try:
+    from flash_attn import flash_attn_func, flash_attn_varlen_func
+    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
+except:
+    pass
+
+
+# This makes `_prepare_4d_causal_attention_mask` a leaf function in the FX graph.
+# It means that the function will not be traced through and simply appear as a node in the graph.
+if is_torch_fx_available():
+    if not is_torch_greater_or_equal_than_1_13:
+        import torch.fx
+
+    _prepare_4d_causal_attention_mask = torch.fx.wrap(_prepare_4d_causal_attention_mask)
+
+
+logger = logging.get_logger(__name__)
+
+_CONFIG_FOR_DOC = "MiniCPMConfig"
+
+
+def _get_unpad_data(attention_mask):
+    seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
+    indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
+    max_seqlen_in_batch = seqlens_in_batch.max().item()
+    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.torch.int32), (1, 0))
+    return (
+        indices,
+        cu_seqlens,
+        max_seqlen_in_batch,
+    )
+
+
+def _expand_mask(mask: torch.Tensor, dtype: torch.dtype, tgt_len: Optional[int] = None):
+    warnings.warn(
+        "Calling `transformers.models.minicpm.modeling_minicpm._prepare_4d_attention_mask` is deprecated and will be removed in v4.37. Use `transformers.modeling_attn_mask_utils._prepare_4d_attention_mask"
+    )
+    return _prepare_4d_attention_mask(mask=mask, dtype=dtype, tgt_len=tgt_len)
+
+
+def _make_causal_mask(
+    input_ids_shape: torch.Size, dtype: torch.dtype, device: torch.device, past_key_values_length: int = 0
+):
+    warnings.warn(
+        "Calling `transformers.models.minicpm.modeling_minicpm._make_causal_mask` is deprecated and will be removed in v4.37. Use `transformers.models.minicpm.modeling_minicpm.AttentionMaskConverter._make_causal_mask"
+    )
+    return AttentionMaskConverter._make_causal_mask(
+        input_ids_shape=input_ids_shape, dtype=dtype, device=device, past_key_values_length=past_key_values_length
+    )
+
+# @torch.jit.script  # type: ignore
+def rms_layernorm(hidden: torch.Tensor, weight: torch.Tensor, eps: float):
+    old_dtype = hidden.dtype
+    variance = hidden.to(torch.float32).pow(2).mean(dim=-1, keepdim=True)
+    hidden = (hidden * torch.rsqrt(variance + eps)).to(old_dtype)
+    return hidden * weight
+
+
+class MiniCPMRMSNorm(nn.Module):
+    def __init__(self, hidden_size, eps=1e-6):
+        """
+        MiniCPMRMSNorm is equivalent to T5LayerNorm
+        """
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(hidden_size))
+        self.variance_epsilon = eps
+
+    def forward(self, hidden_states):
+        return rms_layernorm(hidden_states, self.weight, self.variance_epsilon)
+
+
+ALL_LAYERNORM_LAYERS.append(MiniCPMRMSNorm)
+
+
+class MiniCPMRotaryEmbedding(nn.Module):
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
+        super().__init__()
+
+        self.dim = dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2).float().to(device) / self.dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+        # Build here to make `torch.jit.trace` work.
+        self._set_cos_sin_cache(
+            # seq_len=max_position_embeddings, device=self.inv_freq.device, dtype=torch.get_default_dtype()
+            seq_len=max_position_embeddings, device=self.inv_freq.device, dtype=torch.float32
+        )
+
+    def _set_cos_sin_cache(self, seq_len, device, dtype):
+        self.max_seq_len_cached = seq_len
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=self.inv_freq.dtype)
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+
+        self.register_buffer("cos_cached", emb.cos().to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin().to(dtype), persistent=False)
+
+    def forward(self, x, seq_len=None):
+        # x: [bs, num_attention_heads, seq_len, head_size]
+        if seq_len > self.max_seq_len_cached:
+            self._set_cos_sin_cache(seq_len=seq_len, device=x.device, dtype=x.dtype)
+
+        return (
+            self.cos_cached[:seq_len].to(dtype=x.dtype),
+            self.sin_cached[:seq_len].to(dtype=x.dtype),
+        )
+
+
+class MiniCPMLinearScalingRotaryEmbedding(MiniCPMRotaryEmbedding):
+    """MiniCPMRotaryEmbedding extended with linear scaling. Credits to the Reddit user /u/kaiokendev"""
+
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None, scaling_factor=1.0):
+        self.scaling_factor = scaling_factor
+        super().__init__(dim, max_position_embeddings, base, device)
+
+    def _set_cos_sin_cache(self, seq_len, device, dtype):
+        self.max_seq_len_cached = seq_len
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=self.inv_freq.dtype)
+        t = t / self.scaling_factor
+
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+        self.register_buffer("cos_cached", emb.cos().to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin().to(dtype), persistent=False)
+
+
+class MiniCPMDynamicNTKScalingRotaryEmbedding(MiniCPMRotaryEmbedding):
+    """MiniCPMRotaryEmbedding extended with Dynamic NTK scaling. Credits to the Reddit users /u/bloc97 and /u/emozilla"""
+
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None, scaling_factor=1.0):
+        self.scaling_factor = scaling_factor
+        super().__init__(dim, max_position_embeddings, base, device)
+
+    def _set_cos_sin_cache(self, seq_len, device, dtype):
+        self.max_seq_len_cached = seq_len
+
+        if seq_len > self.max_position_embeddings:
+            base = self.base * (
+                (self.scaling_factor * seq_len / self.max_position_embeddings) - (self.scaling_factor - 1)
+            ) ** (self.dim / (self.dim - 2))
+            inv_freq = 1.0 / (base ** (torch.arange(0, self.dim, 2).float().to(device) / self.dim))
+            self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=self.inv_freq.dtype)
+
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+
+        self.register_buffer("cos_cached", emb.cos().to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin().to(dtype), persistent=False)
+
+
+def rotate_half(x):
+    """Rotates half the hidden dims of the input."""
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+
+
+def apply_rotary_pos_emb(q, k, cos, sin, position_ids, unsqueeze_dim=1):
+    """Applies Rotary Position Embedding to the query and key tensors.
+
+    Args:
+        q (`torch.Tensor`): The query tensor.
+        k (`torch.Tensor`): The key tensor.
+        cos (`torch.Tensor`): The cosine part of the rotary embedding.
+        sin (`torch.Tensor`): The sine part of the rotary embedding.
+        position_ids (`torch.Tensor`):
+            The position indices of the tokens corresponding to the query and key tensors. For example, this can be
+            used to pass offsetted position ids when working with a KV-cache.
+        unsqueeze_dim (`int`, *optional*, defaults to 1):
+            The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
+            sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
+            that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
+            k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
+            cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
+            the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
+    Returns:
+        `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
+    """
+    # cos = cos[position_ids].unsqueeze(unsqueeze_dim)
+    # sin = sin[position_ids].unsqueeze(unsqueeze_dim)
+    # q_embed = (q * cos) + (rotate_half(q) * sin)
+    # k_embed = (k * cos) + (rotate_half(k) * sin)
+    orig_dtype = k.dtype
+    cos = cos[position_ids].unsqueeze(unsqueeze_dim)  # [bs, 1, seq_len, dim]
+    sin = sin[position_ids].unsqueeze(unsqueeze_dim)  # [bs, 1, seq_len, dim]
+    q_fp32 = q.to(dtype=torch.float32, device=q.device)
+    k_fp32 = k.to(dtype=torch.float32, device=k.device)
+    q_embed = (q_fp32 * cos) + (rotate_half(q_fp32) * sin)
+    k_embed = (k_fp32 * cos) + (rotate_half(k_fp32) * sin)
+    return q_embed.to(dtype=orig_dtype), k_embed.to(dtype=orig_dtype)
+
+class MiniCPMMLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=False)
+        self.act_fn = ACT2FN[config.hidden_act]
+
+    def forward(self, x):
+        if self.config.pretraining_tp > 1:
+            slice = self.intermediate_size // self.config.pretraining_tp
+            gate_proj_slices = self.gate_proj.weight.split(slice, dim=0)
+            up_proj_slices = self.up_proj.weight.split(slice, dim=0)
+            down_proj_slices = self.down_proj.weight.split(slice, dim=1)
+
+            gate_proj = torch.cat(
+                [F.linear(x, gate_proj_slices[i]) for i in range(self.config.pretraining_tp)], dim=-1
+            )
+            up_proj = torch.cat([F.linear(x, up_proj_slices[i]) for i in range(self.config.pretraining_tp)], dim=-1)
+
+            intermediate_states = (self.act_fn(gate_proj) * up_proj).split(slice, dim=2)
+            down_proj = [
+                F.linear(intermediate_states[i], down_proj_slices[i]) for i in range(self.config.pretraining_tp)
+            ]
+            down_proj = sum(down_proj)
+        else:
+            down_proj = self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))
+
+        return down_proj
+
+
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+
+
+
+class MiniCPMAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(self, config: MiniCPMConfig, layer_idx: Optional[int] = None):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        if layer_idx is None:
+            logger.warning_once(
+                f"Instantiating {self.__class__.__name__} without passing `layer_idx` is not recommended and will "
+                "to errors during the forward call, if caching is used. Please make sure to provide a `layer_idx` "
+                "when creating this class."
+            )
+
+        self.attention_dropout = config.attention_dropout
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.num_key_value_heads = config.num_key_value_heads
+        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.is_causal = True
+
+        if (self.head_dim * self.num_heads) != self.hidden_size:
+            raise ValueError(
+                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
+                f" and `num_heads`: {self.num_heads})."
+            )
+
+        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=config.attention_bias)
+        self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.attention_bias)
+        self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.attention_bias)
+        self.o_proj = nn.Linear(self.num_heads * self.head_dim, self.hidden_size, bias=config.attention_bias)
+        self._init_rope()
+
+    def _init_rope(self):
+        if self.config.rope_scaling is None:
+            self.rotary_emb = MiniCPMRotaryEmbedding(
+                self.head_dim,
+                max_position_embeddings=self.max_position_embeddings,
+                base=self.rope_theta,
+            )
+        else:
+            scaling_type = self.config.rope_scaling["type"]
+            scaling_factor = self.config.rope_scaling["factor"]
+            if scaling_type == "linear":
+                self.rotary_emb = MiniCPMLinearScalingRotaryEmbedding(
+                    self.head_dim,
+                    max_position_embeddings=self.max_position_embeddings,
+                    scaling_factor=scaling_factor,
+                    base=self.rope_theta,
+                )
+            elif scaling_type == "dynamic":
+                self.rotary_emb = MiniCPMDynamicNTKScalingRotaryEmbedding(
+                    self.head_dim,
+                    max_position_embeddings=self.max_position_embeddings,
+                    scaling_factor=scaling_factor,
+                    base=self.rope_theta,
+                )
+            else:
+                raise ValueError(f"Unknown RoPE scaling type {scaling_type}")
+
+    def _shape(self, tensor: torch.Tensor, seq_len: int, bsz: int):
+        return tensor.view(bsz, seq_len, self.num_heads, self.head_dim).transpose(1, 2).contiguous()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+
+        bsz, q_len, _ = hidden_states.size()
+
+        if self.config.pretraining_tp > 1:
+            key_value_slicing = (self.num_key_value_heads * self.head_dim) // self.config.pretraining_tp
+            query_slices = self.q_proj.weight.split(
+                (self.num_heads * self.head_dim) // self.config.pretraining_tp, dim=0
+            )
+            key_slices = self.k_proj.weight.split(key_value_slicing, dim=0)
+            value_slices = self.v_proj.weight.split(key_value_slicing, dim=0)
+
+            query_states = [F.linear(hidden_states, query_slices[i]) for i in range(self.config.pretraining_tp)]
+            query_states = torch.cat(query_states, dim=-1)
+
+            key_states = [F.linear(hidden_states, key_slices[i]) for i in range(self.config.pretraining_tp)]
+            key_states = torch.cat(key_states, dim=-1)
+
+            value_states = [F.linear(hidden_states, value_slices[i]) for i in range(self.config.pretraining_tp)]
+            value_states = torch.cat(value_states, dim=-1)
+
+        else:
+            query_states = self.q_proj(hidden_states)
+            key_states = self.k_proj(hidden_states)
+            value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            if self.layer_idx is None:
+                raise ValueError(
+                    f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
+                    "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
+                    "with a layer index."
+                )
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states.to(torch.float32), seq_len=kv_seq_len)
+
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
+        if attn_weights.size() != (bsz, self.num_heads, q_len, kv_seq_len):
+            raise ValueError(
+                f"Attention weights should be of size {(bsz, self.num_heads, q_len, kv_seq_len)}, but is"
+                f" {attn_weights.size()}"
+            )
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+            attn_weights = attn_weights + attention_mask
+
+        # upcast attention to fp32
+        attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)
+        attn_weights = nn.functional.dropout(attn_weights, p=self.attention_dropout, training=self.training)
+        attn_output = torch.matmul(attn_weights, value_states)
+
+        if attn_output.size() != (bsz, self.num_heads, q_len, self.head_dim):
+            raise ValueError(
+                f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                f" {attn_output.size()}"
+            )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        if self.config.pretraining_tp > 1:
+            attn_output = attn_output.split(self.hidden_size // self.config.pretraining_tp, dim=2)
+            o_proj_slices = self.o_proj.weight.split(self.hidden_size // self.config.pretraining_tp, dim=1)
+            attn_output = sum([F.linear(attn_output[i], o_proj_slices[i]) for i in range(self.config.pretraining_tp)])
+        else:
+            attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+        
+        return attn_output, attn_weights, past_key_value
+
+
+class MiniCPMFlashAttention2(MiniCPMAttention):
+    """
+    MiniCPM flash attention module. This module inherits from `MiniCPMAttention` as the weights of the module stays
+    untouched. The only required change would be on the forward pass where it needs to correctly call the public API of
+    flash attention and deal with padding tokens in case the input contains any of them.
+    """
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        # TODO: Should be removed once Flash Attention for RoCm is bumped to 2.1.
+        # flash_attn<2.1 generates top-left aligned causal mask, while what is needed here is bottom-right alignement, that was made default for flash_attn>=2.1. This attribute is used to handle this difference. Reference: https://github.com/Dao-AILab/flash-attention/releases/tag/v2.1.0.
+        # Beware that with flash_attn<2.1, using q_seqlen != k_seqlen (except for the case q_seqlen == 1) produces a wrong mask (top-left).
+        self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.LongTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        # MiniCPMFlashAttention2 attention does not support output_attentions
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+
+            # overwrite attention_mask with padding_mask
+            attention_mask = kwargs.pop("padding_mask")
+
+        output_attentions = False
+
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        # Flash attention requires the input to have the shape
+        # batch_size x seq_length x head_dim x hidden_dim
+        # therefore we just need to keep the original shape
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states.to(torch.float32), seq_len=kv_seq_len)
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # TODO: These transpose are quite inefficient but Flash Attention requires the layout [batch_size, sequence_length, num_heads, head_dim]. We would need to refactor the KV cache
+        # to be able to avoid many of these transpose/reshape/view.
+        query_states = query_states.transpose(1, 2)
+        key_states = key_states.transpose(1, 2)
+        value_states = value_states.transpose(1, 2)
+
+        dropout_rate = self.attention_dropout if self.training else 0.0
+
+        # In PEFT, usually we cast the layer norms in float32 for training stability reasons
+        # therefore the input hidden states gets silently casted in float32. Hence, we need
+        # cast them back in the correct dtype just to be sure everything works as expected.
+        # This might slowdown training & inference so it is recommended to not cast the LayerNorms
+        # in fp32. (MiniCPMRMSNorm handles it correctly)
+
+        input_dtype = query_states.dtype
+        if input_dtype == torch.float32:
+            # Handle the case where the model is quantized
+            if hasattr(self.config, "_pre_quantization_dtype"):
+                target_dtype = self.config._pre_quantization_dtype
+            else:
+                target_dtype = self.q_proj.weight.dtype
+
+            logger.warning_once(
+                f"The input hidden states seems to be silently casted in float32, this might be related to"
+                f" the fact you have upcasted embedding or layer norm layers in float32. We will cast back the input in"
+                f" {target_dtype}."
+            )
+
+            query_states = query_states.to(target_dtype)
+            key_states = key_states.to(target_dtype)
+            value_states = value_states.to(target_dtype)
+
+        attn_output = self._flash_attention_forward(
+            query_states, key_states, value_states, attention_mask, q_len, dropout=dropout_rate
+        )
+
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size).contiguous()
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+    def _flash_attention_forward(
+        self, query_states, key_states, value_states, attention_mask, query_length, dropout=0.0, softmax_scale=None
+    ):
+        """
+        Calls the forward method of Flash Attention - if the input hidden states contain at least one padding token
+        first unpad the input, then computes the attention scores and pad the final attention scores.
+
+        Args:
+            query_states (`torch.Tensor`):
+                Input query states to be passed to Flash Attention API
+            key_states (`torch.Tensor`):
+                Input key states to be passed to Flash Attention API
+            value_states (`torch.Tensor`):
+                Input value states to be passed to Flash Attention API
+            attention_mask (`torch.Tensor`):
+                The padding mask - corresponds to a tensor of size `(batch_size, seq_len)` where 0 stands for the
+                position of padding tokens and 1 for the position of non-padding tokens.
+            dropout (`int`, *optional*):
+                Attention dropout
+            softmax_scale (`float`, *optional*):
+                The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim)
+        """
+        if not self._flash_attn_uses_top_left_mask:
+            causal = self.is_causal
+        else:
+            # TODO: Remove the `query_length != 1` check once Flash Attention for RoCm is bumped to 2.1. For details, please see the comment in MiniCPMFlashAttention2 __init__.
+            causal = self.is_causal and query_length != 1
+        # Contains at least one padding token in the sequence
+        if attention_mask is not None:
+            batch_size = query_states.shape[0]
+            query_states, key_states, value_states, indices_q, cu_seq_lens, max_seq_lens = self._upad_input(
+                query_states, key_states, value_states, attention_mask, query_length
+            )
+
+            cu_seqlens_q, cu_seqlens_k = cu_seq_lens
+            max_seqlen_in_batch_q, max_seqlen_in_batch_k = max_seq_lens
+            attn_output_unpad = flash_attn_varlen_func(
+                query_states,
+                key_states,
+                value_states,
+                cu_seqlens_q=cu_seqlens_q,
+                cu_seqlens_k=cu_seqlens_k,
+                max_seqlen_q=max_seqlen_in_batch_q,
+                max_seqlen_k=max_seqlen_in_batch_k,
+                dropout_p=dropout,
+                softmax_scale=softmax_scale,
+                causal=causal,
+            )
+
+            attn_output = pad_input(attn_output_unpad, indices_q, batch_size, query_length)
+        else:
+            attn_output = flash_attn_func(
+                query_states, key_states, value_states, dropout, softmax_scale=softmax_scale, causal=causal
+            )
+
+        return attn_output
+
+    def _upad_input(self, query_layer, key_layer, value_layer, attention_mask, query_length):
+        indices_k, cu_seqlens_k, max_seqlen_in_batch_k = _get_unpad_data(attention_mask)
+        batch_size, kv_seq_len, num_key_value_heads, head_dim = key_layer.shape
+
+        key_layer = index_first_axis(
+            key_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        value_layer = index_first_axis(
+            value_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        if query_length == kv_seq_len:
+            query_layer = index_first_axis(
+                query_layer.reshape(batch_size * kv_seq_len, self.num_heads, head_dim), indices_k
+            )
+            cu_seqlens_q = cu_seqlens_k
+            max_seqlen_in_batch_q = max_seqlen_in_batch_k
+            indices_q = indices_k
+        elif query_length == 1:
+            max_seqlen_in_batch_q = 1
+            cu_seqlens_q = torch.arange(
+                batch_size + 1, dtype=torch.int32, device=query_layer.device
+            )  # There is a memcpy here, that is very bad.
+            indices_q = cu_seqlens_q[:-1]
+            query_layer = query_layer.squeeze(1)
+        else:
+            # The -q_len: slice assumes left padding.
+            attention_mask = attention_mask[:, -query_length:]
+            query_layer, indices_q, cu_seqlens_q, max_seqlen_in_batch_q = unpad_input(query_layer, attention_mask)
+
+        return (
+            query_layer,
+            key_layer,
+            value_layer,
+            indices_q,
+            (cu_seqlens_q, cu_seqlens_k),
+            (max_seqlen_in_batch_q, max_seqlen_in_batch_k),
+        )
+
+
+class MiniCPMSdpaAttention(MiniCPMAttention):
+    """
+    MiniCPM attention module using torch.nn.functional.scaled_dot_product_attention. This module inherits from
+    `MiniCPMAttention` as the weights of the module stays untouched. The only changes are on the forward pass to adapt to
+    SDPA API.
+    """
+
+    # Adapted from MiniCPMAttention.forward
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        if output_attentions:
+            # TODO: Improve this warning with e.g. `model.config.attn_implementation = "manual"` once this is implemented.
+            logger.warning_once(
+                "MiniCPMModel is using MiniCPMSdpaAttention, but `torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to the manual attention implementation, "
+                'but specifying the manual implementation will be required from Transformers version v5.0.0 onwards. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.'
+            )
+            return super().forward(
+                hidden_states=hidden_states,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                past_key_value=past_key_value,
+                output_attentions=output_attentions,
+                use_cache=use_cache,
+            )
+
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
+
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+
+        # SDPA with memory-efficient backend is currently (torch==2.1.2) bugged with non-contiguous inputs with custom attn_mask,
+        # Reference: https://github.com/pytorch/pytorch/issues/112577.
+        if query_states.device.type == "cuda" and attention_mask is not None:
+            query_states = query_states.contiguous()
+            key_states = key_states.contiguous()
+            value_states = value_states.contiguous()
+
+        attn_output = torch.nn.functional.scaled_dot_product_attention(
+            query_states,
+            key_states,
+            value_states,
+            attn_mask=attention_mask,
+            dropout_p=self.attention_dropout if self.training else 0.0,
+            # The q_len > 1 is necessary to match with AttentionMaskConverter.to_causal_4d that does not create a causal mask in case q_len == 1.
+            is_causal=self.is_causal and attention_mask is None and q_len > 1,
+        )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        attn_output = self.o_proj(attn_output)
+
+        return attn_output, None, past_key_value
+
+
+MINICPM_ATTENTION_CLASSES = {
+    "eager": MiniCPMAttention,
+    "flash_attention_2": MiniCPMFlashAttention2,
+    "sdpa": MiniCPMSdpaAttention,
+}
+
+
+class MiniCPMDecoderLayer(nn.Module):
+    def __init__(self, config: MiniCPMConfig, layer_idx: int):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = MINICPM_ATTENTION_CLASSES[config._attn_implementation](config=config, layer_idx=layer_idx)
+
+        self.mlp = MiniCPMMLP(config)
+        self.input_layernorm = MiniCPMRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = MiniCPMRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.scale_depth = config.scale_depth
+        self.num_hidden_layers = config.num_hidden_layers
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: Optional[bool] = False,
+        use_cache: Optional[bool] = False,
+        **kwargs,
+    ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
+        """
+        Args:
+            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
+            attention_mask (`torch.FloatTensor`, *optional*):
+                attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
+                query_sequence_length, key_sequence_length)` if default attention is used.
+            output_attentions (`bool`, *optional*):
+                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
+                returned tensors for more detail.
+            use_cache (`bool`, *optional*):
+                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
+                (see `past_key_values`).
+            past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
+        """
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        # Self Attention
+        hidden_states, self_attn_weights, present_key_value = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+            **kwargs,
+        )
+        
+        hidden_states = residual + hidden_states * (self.scale_depth / math.sqrt(self.num_hidden_layers))
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states * (self.scale_depth / math.sqrt(self.num_hidden_layers))
+
+        outputs = (hidden_states,)
+
+        if output_attentions:
+            outputs += (self_attn_weights,)
+
+        if use_cache:
+            outputs += (present_key_value,)
+
+        return outputs
+
+
+MINICPM_START_DOCSTRING = r"""
+    This model inherits from [`PreTrainedModel`]. Check the superclass documentation for the generic methods the
+    library implements for all its model (such as downloading or saving, resizing the input embeddings, pruning heads
+    etc.)
+
+    This model is also a PyTorch [torch.nn.Module](https://pytorch.org/docs/stable/nn.html#torch.nn.Module) subclass.
+    Use it as a regular PyTorch Module and refer to the PyTorch documentation for all matter related to general usage
+    and behavior.
+
+    Parameters:
+        config ([`MiniCPMConfig`]):
+            Model configuration class with all the parameters of the model. Initializing with a config file does not
+            load the weights associated with the model, only the configuration. Check out the
+            [`~PreTrainedModel.from_pretrained`] method to load the model weights.
+"""
+
+
+@add_start_docstrings(
+    "The bare MiniCPM Model outputting raw hidden-states without any specific head on top.",
+    MINICPM_START_DOCSTRING,
+)
+class MiniCPMPreTrainedModel(PreTrainedModel):
+    config_class = MiniCPMConfig
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["MiniCPMDecoderLayer"]
+    _skip_keys_device_placement = "past_key_values"
+    _supports_flash_attn_2 = True
+    _supports_sdpa = True
+    _supports_cache_class = True
+
+    def _init_weights(self, module):
+        std = self.config.initializer_range
+        if isinstance(module, nn.Linear):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+
+
+MINICPM_INPUTS_DOCSTRING = r"""
+    Args:
+        input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
+            Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you provide
+            it.
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            [What are input IDs?](../glossary#input-ids)
+        attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
+
+            - 1 for tokens that are **not masked**,
+            - 0 for tokens that are **masked**.
+
+            [What are attention masks?](../glossary#attention-mask)
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            If `past_key_values` is used, optionally only the last `input_ids` have to be input (see
+            `past_key_values`).
+
+            If you want to change padding behavior, you should read [`modeling_opt._prepare_decoder_attention_mask`]
+            and modify to your needs. See diagram 1 in [the paper](https://arxiv.org/abs/1910.13461) for more
+            information on the default strategy.
+
+            - 1 indicates the head is **not masked**,
+            - 0 indicates the head is **masked**.
+        position_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
+            config.n_positions - 1]`.
+
+            [What are position IDs?](../glossary#position-ids)
+        past_key_values (`Cache` or `tuple(tuple(torch.FloatTensor))`, *optional*):
+            Pre-computed hidden-states (key and values in the self-attention blocks and in the cross-attention
+            blocks) that can be used to speed up sequential decoding. This typically consists in the `past_key_values`
+            returned by the model at a previous stage of decoding, when `use_cache=True` or `config.use_cache=True`.
+
+            Two formats are allowed:
+            - a [`~cache_utils.Cache`] instance;
+            - Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
+            shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`). This is also known as the legacy
+            cache format.
+
+            The model will output the same cache format that is fed as input. If no `past_key_values` are passed, the
+            legacy cache format will be returned.
+
+            If `past_key_values` are used, the user can optionally input only the last `input_ids` (those that don't
+            have their past key value states given to this model) of shape `(batch_size, 1)` instead of all `input_ids`
+            of shape `(batch_size, sequence_length)`.
+        inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
+            Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
+            is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
+            model's internal embedding lookup matrix.
+        use_cache (`bool`, *optional*):
+            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
+            `past_key_values`).
+        output_attentions (`bool`, *optional*):
+            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
+            tensors for more detail.
+        output_hidden_states (`bool`, *optional*):
+            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
+            more detail.
+        return_dict (`bool`, *optional*):
+            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
+"""
+
+
+@add_start_docstrings(
+    "The bare MiniCPM Model outputting raw hidden-states without any specific head on top.",
+    MINICPM_START_DOCSTRING,
+)
+class MiniCPMModel(MiniCPMPreTrainedModel):
+    """
+    Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`MiniCPMDecoderLayer`]
+
+    Args:
+        config: MiniCPMConfig
+    """
+
+    def __init__(self, config: MiniCPMConfig):
+        super().__init__(config)
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
+        self.layers = nn.ModuleList(
+            [MiniCPMDecoderLayer(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
+        )
+        self._use_sdpa = config._attn_implementation == "sdpa"
+        self._use_flash_attention_2 = config._attn_implementation == "flash_attention_2"
+
+        self.norm = MiniCPMRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.gradient_checkpointing = False
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(MINICPM_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # retrieve input_ids and inputs_embeds
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both input_ids and inputs_embeds at the same time")
+        elif input_ids is not None:
+            batch_size, seq_length = input_ids.shape[:2]
+        elif inputs_embeds is not None:
+            batch_size, seq_length = inputs_embeds.shape[:2]
+        else:
+            raise ValueError("You have to specify either input_ids or inputs_embeds")
+
+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
+        past_key_values_length = 0
+        if use_cache:
+            use_legacy_cache = not isinstance(past_key_values, Cache)
+            if use_legacy_cache:
+                past_key_values = DynamicCache.from_legacy_cache(past_key_values)
+            past_key_values_length = past_key_values.get_usable_length(seq_length)
+
+        if position_ids is None:
+            device = input_ids.device if input_ids is not None else inputs_embeds.device
+            position_ids = torch.arange(
+                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=device
+            )
+            position_ids = position_ids.unsqueeze(0)
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids) * self.config.scale_emb
+
+
+        if self._use_flash_attention_2:
+            # 2d mask is passed through the layers
+            attention_mask = attention_mask if (attention_mask is not None and 0 in attention_mask) else None
+        elif self._use_sdpa and not output_attentions:
+            # output_attentions=True can not be supported when using SDPA, and we fall back on
+            # the manual implementation that requires a 4D causal mask in all cases.
+            attention_mask = _prepare_4d_causal_attention_mask_for_sdpa(
+                attention_mask,
+                (batch_size, seq_length),
+                inputs_embeds,
+                past_key_values_length,
+            )
+        else:
+            # 4d mask is passed through the layers
+            attention_mask = _prepare_4d_causal_attention_mask(
+                attention_mask, (batch_size, seq_length), inputs_embeds, past_key_values_length
+            )
+
+        # embed positions
+        hidden_states = inputs_embeds
+
+        # decoder layers
+        all_hidden_states = () if output_hidden_states else None
+        all_self_attns = () if output_attentions else None
+        next_decoder_cache = None
+
+        for decoder_layer in self.layers:
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+
+            if self.gradient_checkpointing and self.training:
+                layer_outputs = self._gradient_checkpointing_func(
+                    decoder_layer.__call__,
+                    hidden_states,
+                    attention_mask,
+                    position_ids,
+                    past_key_values,
+                    output_attentions,
+                    use_cache,
+                )
+            else:
+                layer_outputs = decoder_layer(
+                    hidden_states,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_value=past_key_values,
+                    output_attentions=output_attentions,
+                    use_cache=use_cache,
+                )
+
+            hidden_states = layer_outputs[0]
+
+            if use_cache:
+                next_decoder_cache = layer_outputs[2 if output_attentions else 1]
+
+            if output_attentions:
+                all_self_attns += (layer_outputs[1],)
+
+        hidden_states = self.norm(hidden_states)
+
+        # add hidden states from the last decoder layer
+        if output_hidden_states:
+            all_hidden_states += (hidden_states,)
+
+        next_cache = None
+        if use_cache:
+            next_cache = next_decoder_cache.to_legacy_cache() if use_legacy_cache else next_decoder_cache
+        if not return_dict:
+            return tuple(v for v in [hidden_states, next_cache, all_hidden_states, all_self_attns] if v is not None)
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=next_cache,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attns,
+        )
+
+
+class MiniCPMForCausalLM(MiniCPMPreTrainedModel):
+    _tied_weights_keys = ["lm_head.weight"]
+
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = MiniCPMModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    def get_output_embeddings(self):
+        return self.lm_head
+
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head = new_embeddings
+
+    def set_decoder(self, decoder):
+        self.model = decoder
+
+    def get_decoder(self):
+        return self.model
+
+    @add_start_docstrings_to_model_forward(MINICPM_INPUTS_DOCSTRING)
+    @replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        r"""
+        Args:
+            labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+                Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+                config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+                (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+
+        Returns:
+
+        Example:
+
+        ```python
+        >>> from transformers import AutoTokenizer, MiniCPMForCausalLM
+
+        >>> model = MiniCPMForCausalLM.from_pretrained(PATH_TO_CONVERTED_WEIGHTS)
+        >>> tokenizer = AutoTokenizer.from_pretrained(PATH_TO_CONVERTED_TOKENIZER)
+
+        >>> prompt = "Hey, are you conscious? Can you talk to me?"
+        >>> inputs = tokenizer(prompt, return_tensors="pt")
+
+        >>> # Generate
+        >>> generate_ids = model.generate(inputs.input_ids, max_length=30)
+        >>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        "Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
+        ```"""
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.model(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = outputs[0]
+        if self.config.pretraining_tp > 1:
+            lm_head_slices = self.lm_head.weight.split(self.vocab_size // self.config.pretraining_tp, dim=0)
+            logits = [F.linear(hidden_states, lm_head_slices[i]) for i in range(self.config.pretraining_tp)]
+            logits = torch.cat(logits, dim=-1)
+        else:
+            logits = self.lm_head(hidden_states / (self.config.hidden_size / self.config.dim_model_base))
+        logits = logits.float()
+
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = CrossEntropyLoss()
+            shift_logits = shift_logits.view(-1, self.config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+
+    def prepare_inputs_for_generation(
+        self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
+    ):
+        if past_key_values is not None:
+            if isinstance(past_key_values, Cache):
+                cache_length = past_key_values.get_seq_length()
+                past_length = past_key_values.seen_tokens
+                max_cache_length = past_key_values.get_max_length()
+            else:
+                cache_length = past_length = past_key_values[0][0].shape[2]
+                max_cache_length = None
+
+            # Keep only the unprocessed tokens:
+            # 1 - If the length of the attention_mask exceeds the length of input_ids, then we are in a setting where
+            # some of the inputs are exclusivelly passed as part of the cache (e.g. when passing input_embeds as
+            # input)
+            if attention_mask is not None and attention_mask.shape[1] > input_ids.shape[1]:
+                input_ids = input_ids[:, -(attention_mask.shape[1] - past_length) :]
+            # 2 - If the past_length is smaller than input_ids', then input_ids holds all input tokens. We can discard
+            # input_ids based on the past_length.
+            elif past_length < input_ids.shape[1]:
+                input_ids = input_ids[:, past_length:]
+            # 3 - Otherwise (past_length >= input_ids.shape[1]), let's assume input_ids only has unprocessed tokens.
+            else:
+                remove_prefix_length = input_ids.shape[1] - 1
+                input_ids = input_ids[:, remove_prefix_length:]
+            # If we are about to go beyond the maximum cache length, we need to crop the input attention mask.
+            if (
+                max_cache_length is not None
+                and attention_mask is not None
+                and cache_length + input_ids.shape[1] > max_cache_length
+            ):
+                attention_mask = attention_mask[:, -max_cache_length:]
+
+        position_ids = kwargs.get("position_ids", None)
+        if attention_mask is not None and position_ids is None:
+            # create position_ids on the fly for batch generation
+            position_ids = attention_mask.long().cumsum(-1) - 1
+            position_ids.masked_fill_(attention_mask == 0, 1)
+            if past_key_values:
+                position_ids = position_ids[:, -input_ids.shape[1] :]
+
+        # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids}
+
+        model_inputs.update(
+            {
+                "position_ids": position_ids,
+                "past_key_values": past_key_values,
+                "use_cache": kwargs.get("use_cache"),
+                "attention_mask": attention_mask,
+            }
+        )
+        return model_inputs
+
+    @staticmethod
+    def _reorder_cache(past_key_values, beam_idx):
+        reordered_past = ()
+        for layer_past in past_key_values:
+            reordered_past += (
+                tuple(past_state.index_select(0, beam_idx.to(past_state.device)) for past_state in layer_past),
+            )
+        return reordered_past
+    
+    @torch.inference_mode()
+    def chat(self, tokenizer, query: str, history: List[Dict] = None, role: str = "user",
+             max_length: int = 4096, num_beams=1, do_sample=True, top_p=0.8, temperature=0.3, logits_processor=None,
+             **kwargs):
+        if history is None:
+            history = []
+        if logits_processor:
+            gen_kwargs = {"max_length": max_length, "num_beams": num_beams, "do_sample": do_sample, "top_p": top_p,
+                        "temperature": temperature, "logits_processor": logits_processor, **kwargs}
+        else:
+            gen_kwargs = {"max_length": max_length, "num_beams": num_beams, "do_sample": do_sample, "top_p": top_p,
+                        "temperature": temperature, "logits_processor": logits_processor, **kwargs}
+        
+        history.append({"role": role, "content": query})
+        history_str = tokenizer.apply_chat_template(history, tokenize=False, add_generation_prompt=False)
+        inputs = tokenizer(history_str, return_tensors='pt').to(self.device)
+        outputs = self.generate(**inputs, **gen_kwargs)
+        outputs = outputs.tolist()[0][len(inputs["input_ids"][0]):-1]
+        response = tokenizer.decode(outputs)
+        pattern = re.compile(r".*?(?=<AI>|<用户>)", re.DOTALL)
+        matches = pattern.findall(response)
+        if len(matches) > 0:
+            response = matches[0]
+        history.append({"role": "assistant", "content": response})
+        return response, history
+
+
+@add_start_docstrings(
+    """
+    The MiniCPM Model transformer with a sequence classification head on top (linear layer).
+
+    [`MiniCPMForSequenceClassification`] uses the last token in order to do the classification, as other causal models
+    (e.g. GPT-2) do.
+
+    Since it does classification on the last token, it requires to know the position of the last token. If a
+    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
+    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
+    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
+    each row of the batch).
+    """,
+    MINICPM_START_DOCSTRING,
+)
+class MiniCPMForSequenceClassification(MiniCPMPreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        self.model = MiniCPMModel(config)
+        self.score = nn.Linear(config.hidden_size, self.num_labels, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(MINICPM_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, SequenceClassifierOutputWithPast]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
+            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
+            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        transformer_outputs = self.model(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        hidden_states = transformer_outputs[0]
+        logits = self.score(hidden_states)
+
+        if input_ids is not None:
+            batch_size = input_ids.shape[0]
+        else:
+            batch_size = inputs_embeds.shape[0]
+
+        if self.config.pad_token_id is None and batch_size != 1:
+            raise ValueError("Cannot handle batch sizes > 1 if no padding token is defined.")
+        if self.config.pad_token_id is None:
+            sequence_lengths = -1
+        else:
+            if input_ids is not None:
+                sequence_lengths = (torch.eq(input_ids, self.config.pad_token_id).int().argmax(-1) - 1).to(
+                    logits.device
+                )
+            else:
+                sequence_lengths = -1
+
+        pooled_logits = logits[torch.arange(batch_size, device=logits.device), sequence_lengths]
+
+        loss = None
+        if labels is not None:
+            labels = labels.to(logits.device)
+            if self.config.problem_type is None:
+                if self.num_labels == 1:
+                    self.config.problem_type = "regression"
+                elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
+                    self.config.problem_type = "single_label_classification"
+                else:
+                    self.config.problem_type = "multi_label_classification"
+
+            if self.config.problem_type == "regression":
+                loss_fct = MSELoss()
+                if self.num_labels == 1:
+                    loss = loss_fct(pooled_logits.squeeze(), labels.squeeze())
+                else:
+                    loss = loss_fct(pooled_logits, labels)
+            elif self.config.problem_type == "single_label_classification":
+                loss_fct = CrossEntropyLoss()
+                loss = loss_fct(pooled_logits.view(-1, self.num_labels), labels.view(-1))
+            elif self.config.problem_type == "multi_label_classification":
+                loss_fct = BCEWithLogitsLoss()
+                loss = loss_fct(pooled_logits, labels)
+        if not return_dict:
+            output = (pooled_logits,) + transformer_outputs[1:]
+            return ((loss,) + output) if loss is not None else output
+
+        return SequenceClassifierOutputWithPast(
+            loss=loss,
+            logits=pooled_logits,
+            past_key_values=transformer_outputs.past_key_values,
+            hidden_states=transformer_outputs.hidden_states,
+            attentions=transformer_outputs.attentions,
+        )
diff --git a/Unicorn_dense/bunny/model/language_model/phi/__init__.py b/Unicorn_dense/bunny/model/language_model/phi/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..68f18405e1c7041317605e937d420c94891602f5
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/phi/__init__.py
@@ -0,0 +1,69 @@
+# Copyright 2023 Microsoft and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+
+from typing import TYPE_CHECKING
+
+from transformers.utils import (
+    OptionalDependencyNotAvailable,
+    _LazyModule,
+    is_sentencepiece_available,
+    is_tokenizers_available,
+    is_torch_available,
+)
+
+
+_import_structure = {
+    "configuration_phi": ["PHI_PRETRAINED_CONFIG_ARCHIVE_MAP", "PhiConfig"],
+}
+
+try:
+    if not is_torch_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["modeling_phi"] = [
+        "PHI_PRETRAINED_MODEL_ARCHIVE_LIST",
+        "PhiPreTrainedModel",
+        "PhiModel",
+        "PhiForCausalLM",
+        "PhiForSequenceClassification",
+        "PhiForTokenClassification",
+    ]
+
+
+if TYPE_CHECKING:
+    from .configuration_phi import PHI_PRETRAINED_CONFIG_ARCHIVE_MAP, PhiConfig
+
+    try:
+        if not is_torch_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .modeling_phi import (
+            PHI_PRETRAINED_MODEL_ARCHIVE_LIST,
+            PhiForCausalLM,
+            PhiForSequenceClassification,
+            PhiForTokenClassification,
+            PhiModel,
+            PhiPreTrainedModel,
+        )
+
+
+else:
+    import sys
+
+    sys.modules[__name__] = _LazyModule(__name__, globals()["__file__"], _import_structure, module_spec=__spec__)
diff --git a/Unicorn_dense/bunny/model/language_model/phi/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/phi/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..aed5baf9e532dc2d6080023e91b1bcce9761673e
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/phi/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/phi/__pycache__/configuration_phi.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/phi/__pycache__/configuration_phi.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cfc38d86489148c7a27d2ae8864a657bc7aef3a2
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/phi/__pycache__/configuration_phi.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/phi/__pycache__/modeling_phi.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/phi/__pycache__/modeling_phi.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..87c7b26bebfecbcbf9a4eba672fd92d8932a1ac6
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/phi/__pycache__/modeling_phi.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/phi/configuration_phi.py b/Unicorn_dense/bunny/model/language_model/phi/configuration_phi.py
new file mode 100644
index 0000000000000000000000000000000000000000..eda2bc23d8ff8f4345af575f5cde98bae4813191
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/phi/configuration_phi.py
@@ -0,0 +1,195 @@
+# coding=utf-8
+# Copyright 2023 Microsoft and the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+""" Phi model configuration"""
+
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+
+logger = logging.get_logger(__name__)
+
+PHI_PRETRAINED_CONFIG_ARCHIVE_MAP = {
+    "microsoft/phi-1": "https://huggingface.co/microsoft/phi-1/resolve/main/config.json",
+    "microsoft/phi-1_5": "https://huggingface.co/microsoft/phi-1_5/resolve/main/config.json",
+    "microsoft/phi-2": "https://huggingface.co/microsoft/phi-2/resolve/main/config.json",
+}
+
+
+class PhiConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`PhiModel`]. It is used to instantiate an Phi
+    model according to the specified arguments, defining the model architecture. Instantiating a configuration with the
+    defaults will yield a similar configuration to that of the Phi
+    [microsoft/phi-1](https://huggingface.co/microsoft/phi-1).
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 51200):
+            Vocabulary size of the Phi model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`PhiModel`].
+        hidden_size (`int`, *optional*, defaults to 2048):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 8192):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 24):
+            Number of hidden layers in the Transformer decoder.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer decoder.
+        num_key_value_heads (`int`, *optional*):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to
+            `num_attention_heads`.
+        resid_pdrop (`float`, *optional*, defaults to 0.0):
+            Dropout probability for mlp outputs.
+        embd_pdrop (`int`, *optional*, defaults to 0.0):
+            The dropout ratio for the embeddings.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio after computing the attention scores.
+        hidden_act (`str` or `function`, *optional*, defaults to `"gelu_new"`):
+            The non-linear activation function (function or string) in the decoder.
+        max_position_embeddings (`int`, *optional*, defaults to 2048):
+            The maximum sequence length that this model might ever be used with. Phi-1 and Phi-1.5 supports up to 2048
+            tokens.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        layer_norm_eps (`float`, *optional*, defaults to 1e-05):
+            The epsilon used by the rms normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`. Whether to tie weight embeddings or not.
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether to tie weight embeddings
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        rope_scaling (`Dict`, *optional*):
+            Dictionary containing the scaling configuration for the RoPE embeddings. Currently supports two scaling
+            strategies: linear and dynamic. Their scaling factor must be an float greater than 1. The expected format
+            is `{"type": strategy name, "factor": scaling factor}`. When using this flag, don't update
+            `max_position_embeddings` to the expected new maximum. See the following thread for more information on how
+            these scaling strategies behave:
+            https://www.reddit.com/r/LocalPersimmon/comments/14mrgpr/dynamically_scaled_rope_further_increases/. This
+            is an experimental feature, subject to breaking API changes in future versions.
+        partial_rotary_factor (`float`, *optional*, defaults to 0.5):
+            Percentage of the query and keys which will have rotary embedding.
+        qk_layernorm (`bool`, *optional*, defaults to `False`):
+            Whether or not to normalize the Queries and Keys after projecting the hidden states.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            Denotes beginning of sequences token id.
+        eos_token_id (`int`, *optional*, defaults to 2):
+            Denotes end of sequences token id.
+
+    Example:
+
+    ```python
+    >>> from transformers import PhiModel, PhiConfig
+
+    >>> # Initializing a Phi-1 style configuration
+    >>> configuration = PhiConfig.from_pretrained("microsoft/phi-1")
+
+    >>> # Initializing a model from the configuration
+    >>> model = PhiModel(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "phi"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=51200,
+        hidden_size=2048,
+        intermediate_size=8192,
+        num_hidden_layers=24,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        resid_pdrop=0.0,
+        embd_pdrop=0.0,
+        attention_dropout=0.0,
+        hidden_act="gelu_new",
+        max_position_embeddings=2048,
+        initializer_range=0.02,
+        layer_norm_eps=1e-5,
+        use_cache=True,
+        tie_word_embeddings=False,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        partial_rotary_factor=0.5,
+        qk_layernorm=False,
+        bos_token_id=1,
+        eos_token_id=2,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.resid_pdrop = resid_pdrop
+        self.embd_pdrop = embd_pdrop
+        self.attention_dropout = attention_dropout
+        self.hidden_act = hidden_act
+        self.max_position_embeddings = max_position_embeddings
+        self.initializer_range = initializer_range
+        self.layer_norm_eps = layer_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self.partial_rotary_factor = partial_rotary_factor
+        self.qk_layernorm = qk_layernorm
+        self._rope_scaling_validation()
+
+        super().__init__(
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    # Copied from transformers.models.llama.configuration_llama.LlamaConfig._rope_scaling_validation
+    def _rope_scaling_validation(self):
+        """
+        Validate the `rope_scaling` configuration.
+        """
+        if self.rope_scaling is None:
+            return
+
+        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 2:
+            raise ValueError(
+                "`rope_scaling` must be a dictionary with with two fields, `type` and `factor`, "
+                f"got {self.rope_scaling}"
+            )
+        rope_scaling_type = self.rope_scaling.get("type", None)
+        rope_scaling_factor = self.rope_scaling.get("factor", None)
+        if rope_scaling_type is None or rope_scaling_type not in ["linear", "dynamic"]:
+            raise ValueError(
+                f"`rope_scaling`'s type field must be one of ['linear', 'dynamic'], got {rope_scaling_type}"
+            )
+        if rope_scaling_factor is None or not isinstance(rope_scaling_factor, float) or rope_scaling_factor <= 1.0:
+            raise ValueError(f"`rope_scaling`'s factor field must be a float > 1, got {rope_scaling_factor}")
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/language_model/phi/modeling_phi.py b/Unicorn_dense/bunny/model/language_model/phi/modeling_phi.py
new file mode 100644
index 0000000000000000000000000000000000000000..8f14944b03c52bfc6e3442c901a8e3c6ad694c7c
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/phi/modeling_phi.py
@@ -0,0 +1,1374 @@
+# coding=utf-8
+# Copyright 2023 Microsoft and the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+""" PyTorch Phi model."""
+
+
+import math
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn.functional as F
+import torch.utils.checkpoint
+from torch import nn
+from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
+
+from transformers.activations import ACT2FN
+from transformers.cache_utils import Cache, DynamicCache
+from transformers.modeling_attn_mask_utils import _prepare_4d_causal_attention_mask
+from transformers.modeling_outputs import (
+    BaseModelOutputWithPast,
+    CausalLMOutputWithPast,
+    SequenceClassifierOutputWithPast,
+    TokenClassifierOutput,
+)
+from transformers.modeling_utils import PreTrainedModel
+from transformers.utils import (
+    add_code_sample_docstrings,
+    add_start_docstrings,
+    add_start_docstrings_to_model_forward,
+    is_flash_attn_2_available,
+    is_flash_attn_greater_or_equal_2_10,
+    logging,
+    replace_return_docstrings,
+)
+from .configuration_phi import PhiConfig
+
+
+if is_flash_attn_2_available():
+    from flash_attn import flash_attn_func, flash_attn_varlen_func
+    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
+
+
+logger = logging.get_logger(__name__)
+
+_CHECKPOINT_FOR_DOC = "microsoft/phi-1"
+_CONFIG_FOR_DOC = "PhiConfig"
+
+PHI_PRETRAINED_MODEL_ARCHIVE_LIST = [
+    "microsoft/phi-1",
+    "microsoft/phi-1_5",
+    "microsoft/phi-2",
+    # See all Phi models at https://huggingface.co/models?filter=phi
+]
+
+
+# Copied from transformers.models.llama.modeling_llama._get_unpad_data
+def _get_unpad_data(attention_mask):
+    seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
+    indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
+    max_seqlen_in_batch = seqlens_in_batch.max().item()
+    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.int32), (1, 0))
+    return (
+        indices,
+        cu_seqlens,
+        max_seqlen_in_batch,
+    )
+
+
+# Copied from transformers.models.mistral.modeling_mistral.MistralRotaryEmbedding with Mistral->Phi
+class PhiRotaryEmbedding(nn.Module):
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
+        super().__init__()
+
+        self.dim = dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, dtype=torch.int64).float().to(device) / self.dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+        # Build here to make `torch.jit.trace` work.
+        self._set_cos_sin_cache(
+            seq_len=max_position_embeddings, device=self.inv_freq.device, dtype=torch.get_default_dtype()
+        )
+
+    def _set_cos_sin_cache(self, seq_len, device, dtype):
+        self.max_seq_len_cached = seq_len
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=torch.int64).type_as(self.inv_freq)
+
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+        self.register_buffer("cos_cached", emb.cos().to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin().to(dtype), persistent=False)
+
+    def forward(self, x, seq_len=None):
+        # x: [bs, num_attention_heads, seq_len, head_size]
+        if seq_len > self.max_seq_len_cached:
+            self._set_cos_sin_cache(seq_len=seq_len, device=x.device, dtype=x.dtype)
+
+        return (
+            self.cos_cached[:seq_len].to(dtype=x.dtype),
+            self.sin_cached[:seq_len].to(dtype=x.dtype),
+        )
+
+
+# Copied from transformers.models.llama.modeling_llama.LlamaLinearScalingRotaryEmbedding with Llama->Phi
+class PhiLinearScalingRotaryEmbedding(PhiRotaryEmbedding):
+    """PhiRotaryEmbedding extended with linear scaling. Credits to the Reddit user /u/kaiokendev"""
+
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None, scaling_factor=1.0):
+        self.scaling_factor = scaling_factor
+        super().__init__(dim, max_position_embeddings, base, device)
+
+    def _set_cos_sin_cache(self, seq_len, device, dtype):
+        self.max_seq_len_cached = seq_len
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=torch.int64).type_as(self.inv_freq)
+        t = t / self.scaling_factor
+
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+        self.register_buffer("cos_cached", emb.cos().to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin().to(dtype), persistent=False)
+
+
+# Copied from transformers.models.llama.modeling_llama.LlamaDynamicNTKScalingRotaryEmbedding with Llama->Phi
+class PhiDynamicNTKScalingRotaryEmbedding(PhiRotaryEmbedding):
+    """PhiRotaryEmbedding extended with Dynamic NTK scaling. Credits to the Reddit users /u/bloc97 and /u/emozilla"""
+
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None, scaling_factor=1.0):
+        self.scaling_factor = scaling_factor
+        super().__init__(dim, max_position_embeddings, base, device)
+
+    def _set_cos_sin_cache(self, seq_len, device, dtype):
+        self.max_seq_len_cached = seq_len
+
+        if seq_len > self.max_position_embeddings:
+            base = self.base * (
+                (self.scaling_factor * seq_len / self.max_position_embeddings) - (self.scaling_factor - 1)
+            ) ** (self.dim / (self.dim - 2))
+            inv_freq = 1.0 / (base ** (torch.arange(0, self.dim, 2, dtype=torch.int64).float().to(device) / self.dim))
+            self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=torch.int64).type_as(self.inv_freq)
+
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+        self.register_buffer("cos_cached", emb.cos().to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin().to(dtype), persistent=False)
+
+
+# Copied from transformers.models.llama.modeling_llama.rotate_half
+def rotate_half(x):
+    """Rotates half the hidden dims of the input."""
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+
+
+# Copied from transformers.models.mistral.modeling_mistral.apply_rotary_pos_emb
+def apply_rotary_pos_emb(q, k, cos, sin, position_ids, unsqueeze_dim=1):
+    """Applies Rotary Position Embedding to the query and key tensors.
+
+    Args:
+        q (`torch.Tensor`): The query tensor.
+        k (`torch.Tensor`): The key tensor.
+        cos (`torch.Tensor`): The cosine part of the rotary embedding.
+        sin (`torch.Tensor`): The sine part of the rotary embedding.
+        position_ids (`torch.Tensor`):
+            The position indices of the tokens corresponding to the query and key tensors. For example, this can be
+            used to pass offsetted position ids when working with a KV-cache.
+        unsqueeze_dim (`int`, *optional*, defaults to 1):
+            The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
+            sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
+            that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
+            k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
+            cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
+            the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
+    Returns:
+        `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
+    """
+    cos = cos[position_ids].unsqueeze(unsqueeze_dim)
+    sin = sin[position_ids].unsqueeze(unsqueeze_dim)
+    q_embed = (q * cos) + (rotate_half(q) * sin)
+    k_embed = (k * cos) + (rotate_half(k) * sin)
+    return q_embed, k_embed
+
+
+# Copied from transformers.models.clip.modeling_clip.CLIPMLP with CLIP->Phi
+class PhiMLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.activation_fn = ACT2FN[config.hidden_act]
+        self.fc1 = nn.Linear(config.hidden_size, config.intermediate_size)
+        self.fc2 = nn.Linear(config.intermediate_size, config.hidden_size)
+
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.fc1(hidden_states)
+        hidden_states = self.activation_fn(hidden_states)
+        hidden_states = self.fc2(hidden_states)
+        return hidden_states
+
+
+# Copied from transformers.models.llama.modeling_llama.repeat_kv with llama->phi
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+
+
+class PhiAttention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(self, config: PhiConfig, layer_idx: Optional[int] = None):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        if layer_idx is None:
+            logger.warning_once(
+                f"Instantiating {self.__class__.__name__} without passing a `layer_idx` is not recommended and will "
+                "lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` "
+                "when creating this class."
+            )
+
+        self.attention_dropout = config.attention_dropout
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.num_key_value_heads = config.num_key_value_heads
+        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.partial_rotary_factor = config.partial_rotary_factor
+        self.is_causal = True
+
+        if (self.head_dim * self.num_heads) != self.hidden_size:
+            raise ValueError(
+                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
+                f" and `num_heads`: {self.num_heads})."
+            )
+
+        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=True)
+        self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=True)
+        self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=True)
+        self.dense = nn.Linear(self.num_heads * self.head_dim, self.hidden_size, bias=True)
+
+        self.qk_layernorm = config.qk_layernorm
+        if self.qk_layernorm:
+            self.q_layernorm = nn.LayerNorm(
+                config.hidden_size // self.num_heads, eps=config.layer_norm_eps, elementwise_affine=True
+            )
+            self.k_layernorm = nn.LayerNorm(
+                config.hidden_size // self.num_heads, eps=config.layer_norm_eps, elementwise_affine=True
+            )
+
+        self._init_rope()
+
+    def _init_rope(self):
+        if self.config.rope_scaling is None:
+            self.rotary_emb = PhiRotaryEmbedding(
+                int(self.partial_rotary_factor * self.head_dim),
+                max_position_embeddings=self.max_position_embeddings,
+                base=self.rope_theta,
+            )
+        else:
+            scaling_type = self.config.rope_scaling["type"]
+            scaling_factor = self.config.rope_scaling["factor"]
+            if scaling_type == "linear":
+                self.rotary_emb = PhiLinearScalingRotaryEmbedding(
+                    int(self.partial_rotary_factor * self.head_dim),
+                    max_position_embeddings=self.max_position_embeddings,
+                    scaling_factor=scaling_factor,
+                    base=self.rope_theta,
+                )
+            elif scaling_type == "dynamic":
+                self.rotary_emb = PhiDynamicNTKScalingRotaryEmbedding(
+                    int(self.partial_rotary_factor * self.head_dim),
+                    max_position_embeddings=self.max_position_embeddings,
+                    scaling_factor=scaling_factor,
+                    base=self.rope_theta,
+                )
+            else:
+                raise ValueError(f"Unknown RoPE scaling type {scaling_type}")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        if self.qk_layernorm:
+            query_states = self.q_layernorm(query_states)
+            key_states = self.k_layernorm(key_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            if self.layer_idx is None:
+                raise ValueError(
+                    f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
+                    "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
+                    "with a layer index."
+                )
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
+
+        # Partial rotary embedding
+        query_rot, query_pass = (
+            query_states[..., : self.rotary_emb.dim],
+            query_states[..., self.rotary_emb.dim :],
+        )
+        key_rot, key_pass = (
+            key_states[..., : self.rotary_emb.dim],
+            key_states[..., self.rotary_emb.dim :],
+        )
+        # [batch_size, seq_length, num_heads, head_dim // config.partial_rotary_factor]
+        query_rot, key_rot = apply_rotary_pos_emb(query_rot, key_rot, cos, sin, position_ids)
+
+        # [batch_size, seq_length, num_heads, head_dim]
+        query_states = torch.cat((query_rot, query_pass), dim=-1)
+        key_states = torch.cat((key_rot, key_pass), dim=-1)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos, "partial_rotation_size": self.rotary_emb.dim}
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        # Queries and keys upcast to fp32 is required by Phi-2 to avoid overflow
+        attn_weights = torch.matmul(
+            query_states.to(torch.float32), key_states.to(torch.float32).transpose(2, 3)
+        ) / math.sqrt(self.head_dim)
+
+        if attn_weights.size() != (bsz, self.num_heads, q_len, kv_seq_len):
+            raise ValueError(
+                f"Attention weights should be of size {(bsz, self.num_heads, q_len, kv_seq_len)}, but is"
+                f" {attn_weights.size()}"
+            )
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+            attn_weights = attn_weights + attention_mask
+
+        # upcast attention to fp32
+        attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(value_states.dtype)
+        attn_weights = nn.functional.dropout(attn_weights, p=self.attention_dropout, training=self.training)
+
+        attn_output = torch.matmul(attn_weights, value_states)
+
+        if attn_output.size() != (bsz, self.num_heads, q_len, self.head_dim):
+            raise ValueError(
+                f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                f" {attn_output.size()}"
+            )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        attn_output = self.dense(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+
+class PhiFlashAttention2(PhiAttention):
+    """
+    Phi flash attention module. This module inherits from `PhiAttention` as the weights of the module stays
+    untouched. The only required change would be on the forward pass where it needs to correctly call the public API of
+    flash attention and deal with padding tokens in case the input contains any of them.
+    """
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaFlashAttention2.__init__
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        # TODO: Should be removed once Flash Attention for RoCm is bumped to 2.1.
+        # flash_attn<2.1 generates top-left aligned causal mask, while what is needed here is bottom-right alignement, that was made default for flash_attn>=2.1. This attribute is used to handle this difference. Reference: https://github.com/Dao-AILab/flash-attention/releases/tag/v2.1.0.
+        # Beware that with flash_attn<2.1, using q_seqlen != k_seqlen (except for the case q_seqlen == 1) produces a wrong mask (top-left).
+        self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.LongTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        # PhiFlashAttention2 attention does not support output_attentions
+
+        output_attentions = False
+
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        if self.qk_layernorm:
+            query_states = self.q_layernorm(query_states)
+            key_states = self.k_layernorm(key_states)
+
+        # Flash attention requires the input to have the shape
+        # batch_size x seq_length x head_dim x hidden_dim
+        # therefore we just need to keep the original shape
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
+
+        # Partial rotary embedding
+        query_rot, query_pass = (
+            query_states[..., : self.rotary_emb.dim],
+            query_states[..., self.rotary_emb.dim :],
+        )
+        key_rot, key_pass = (
+            key_states[..., : self.rotary_emb.dim],
+            key_states[..., self.rotary_emb.dim :],
+        )
+        # [batch_size, seq_length, num_heads, head_dim // config.partial_rotary_factor]
+        query_rot, key_rot = apply_rotary_pos_emb(query_rot, key_rot, cos, sin, position_ids)
+
+        # [batch_size, seq_length, num_heads, head_dim]
+        query_states = torch.cat((query_rot, query_pass), dim=-1)
+        key_states = torch.cat((key_rot, key_pass), dim=-1)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos, "partial_rotation_size": self.rotary_emb.dim}
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # TODO: These transpose are quite inefficient but Flash Attention requires the layout [batch_size, sequence_length, num_heads, head_dim]. We would need to refactor the KV cache
+        # to be able to avoid many of these transpose/reshape/view.
+        query_states = query_states.transpose(1, 2)
+        key_states = key_states.transpose(1, 2)
+        value_states = value_states.transpose(1, 2)
+
+        attn_dropout = self.attention_dropout if self.training else 0.0
+
+        # In PEFT, usually we cast the layer norms in float32 for training stability reasons
+        # therefore the input hidden states gets silently casted in float32. Hence, we need
+        # cast them back in the correct dtype just to be sure everything works as expected.
+        # This might slowdown training & inference so it is recommended to not cast the LayerNorms
+        # in fp32.
+
+        if query_states.dtype == torch.float32:
+            if torch.is_autocast_enabled():
+                target_dtype = torch.get_autocast_gpu_dtype()
+            # Handle the case where the model is quantized
+            elif hasattr(self.config, "_pre_quantization_dtype"):
+                target_dtype = self.config._pre_quantization_dtype
+            else:
+                target_dtype = self.q_proj.weight.dtype
+
+            logger.warning_once(
+                f"The input hidden states seems to be silently casted in float32, this might be related to"
+                f" the fact you have upcasted embedding or layer norm layers in float32. We will cast back the input in"
+                f" {target_dtype}."
+            )
+
+            query_states = query_states.to(target_dtype)
+            key_states = key_states.to(target_dtype)
+            value_states = value_states.to(target_dtype)
+
+        attn_output = self._flash_attention_forward(
+            query_states, key_states, value_states, attention_mask, q_len, dropout=attn_dropout, softmax_scale=None
+        )
+
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size).contiguous()
+        attn_output = self.dense(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaFlashAttention2._flash_attention_forward
+    def _flash_attention_forward(
+        self, query_states, key_states, value_states, attention_mask, query_length, dropout=0.0, softmax_scale=None
+    ):
+        """
+        Calls the forward method of Flash Attention - if the input hidden states contain at least one padding token
+        first unpad the input, then computes the attention scores and pad the final attention scores.
+
+        Args:
+            query_states (`torch.Tensor`):
+                Input query states to be passed to Flash Attention API
+            key_states (`torch.Tensor`):
+                Input key states to be passed to Flash Attention API
+            value_states (`torch.Tensor`):
+                Input value states to be passed to Flash Attention API
+            attention_mask (`torch.Tensor`):
+                The padding mask - corresponds to a tensor of size `(batch_size, seq_len)` where 0 stands for the
+                position of padding tokens and 1 for the position of non-padding tokens.
+            dropout (`int`, *optional*):
+                Attention dropout
+            softmax_scale (`float`, *optional*):
+                The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim)
+        """
+        if not self._flash_attn_uses_top_left_mask:
+            causal = self.is_causal
+        else:
+            # TODO: Remove the `query_length != 1` check once Flash Attention for RoCm is bumped to 2.1. For details, please see the comment in LlamaFlashAttention2 __init__.
+            causal = self.is_causal and query_length != 1
+
+        # Contains at least one padding token in the sequence
+        if attention_mask is not None:
+            batch_size = query_states.shape[0]
+            query_states, key_states, value_states, indices_q, cu_seq_lens, max_seq_lens = self._upad_input(
+                query_states, key_states, value_states, attention_mask, query_length
+            )
+
+            cu_seqlens_q, cu_seqlens_k = cu_seq_lens
+            max_seqlen_in_batch_q, max_seqlen_in_batch_k = max_seq_lens
+
+            attn_output_unpad = flash_attn_varlen_func(
+                query_states,
+                key_states,
+                value_states,
+                cu_seqlens_q=cu_seqlens_q,
+                cu_seqlens_k=cu_seqlens_k,
+                max_seqlen_q=max_seqlen_in_batch_q,
+                max_seqlen_k=max_seqlen_in_batch_k,
+                dropout_p=dropout,
+                softmax_scale=softmax_scale,
+                causal=causal,
+            )
+
+            attn_output = pad_input(attn_output_unpad, indices_q, batch_size, query_length)
+        else:
+            attn_output = flash_attn_func(
+                query_states, key_states, value_states, dropout, softmax_scale=softmax_scale, causal=causal
+            )
+
+        return attn_output
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaFlashAttention2._upad_input
+    def _upad_input(self, query_layer, key_layer, value_layer, attention_mask, query_length):
+        indices_k, cu_seqlens_k, max_seqlen_in_batch_k = _get_unpad_data(attention_mask)
+        batch_size, kv_seq_len, num_key_value_heads, head_dim = key_layer.shape
+
+        key_layer = index_first_axis(
+            key_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        value_layer = index_first_axis(
+            value_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        if query_length == kv_seq_len:
+            query_layer = index_first_axis(
+                query_layer.reshape(batch_size * kv_seq_len, self.num_heads, head_dim), indices_k
+            )
+            cu_seqlens_q = cu_seqlens_k
+            max_seqlen_in_batch_q = max_seqlen_in_batch_k
+            indices_q = indices_k
+        elif query_length == 1:
+            max_seqlen_in_batch_q = 1
+            cu_seqlens_q = torch.arange(
+                batch_size + 1, dtype=torch.int32, device=query_layer.device
+            )  # There is a memcpy here, that is very bad.
+            indices_q = cu_seqlens_q[:-1]
+            query_layer = query_layer.squeeze(1)
+        else:
+            # The -q_len: slice assumes left padding.
+            attention_mask = attention_mask[:, -query_length:]
+            query_layer, indices_q, cu_seqlens_q, max_seqlen_in_batch_q = unpad_input(query_layer, attention_mask)
+
+        return (
+            query_layer,
+            key_layer,
+            value_layer,
+            indices_q,
+            (cu_seqlens_q, cu_seqlens_k),
+            (max_seqlen_in_batch_q, max_seqlen_in_batch_k),
+        )
+
+
+PHI_ATTENTION_CLASSES = {
+    "eager": PhiAttention,
+    "flash_attention_2": PhiFlashAttention2,
+}
+
+
+class PhiDecoderLayer(nn.Module):
+    def __init__(self, config: PhiConfig, layer_idx: int):
+        super().__init__()
+        self.self_attn = PHI_ATTENTION_CLASSES[config._attn_implementation](config, layer_idx=layer_idx)
+        self.mlp = PhiMLP(config)
+        self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.resid_dropout = nn.Dropout(config.resid_pdrop)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        output_attentions: Optional[bool] = False,
+        use_cache: Optional[bool] = False,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+    ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
+        """
+        Args:
+            hidden_states (`torch.FloatTensor`):
+                input to the layer of shape `(batch, seq_len, embed_dim)`
+            attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
+                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
+            position_ids (`torch.LongTensor` of shape `({0})`, *optional*):
+                Indices of positions of each input sequence tokens in the position embeddings. Selected in the range
+                `[0, config.n_positions - 1]`. [What are position IDs?](../glossary#position-ids)
+            output_attentions (`bool`, *optional*):
+                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
+                returned tensors for more detail.
+            use_cache (`bool`, *optional*):
+                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
+                (see `past_key_values`).
+            past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
+        """
+
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self Attention
+        attn_outputs, self_attn_weights, present_key_value = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+        )
+        attn_outputs = self.resid_dropout(attn_outputs)
+
+        feed_forward_hidden_states = self.resid_dropout(self.mlp(hidden_states))
+        hidden_states = attn_outputs + feed_forward_hidden_states + residual
+        outputs = (hidden_states,)
+
+        if output_attentions:
+            outputs += (self_attn_weights,)
+
+        if use_cache:
+            outputs += (present_key_value,)
+
+        return outputs
+
+
+PHI_START_DOCSTRING = r"""
+    This model inherits from [`PreTrainedModel`]. Check the superclass documentation for the generic methods the
+    library implements for all its model (such as downloading or saving, resizing the input embeddings, pruning heads
+    etc.)
+
+    This model is also a PyTorch [torch.nn.Module](https://pytorch.org/docs/stable/nn.html#torch.nn.Module) subclass.
+    Use it as a regular PyTorch Module and refer to the PyTorch documentation for all matter related to general usage
+    and behavior.
+
+    Parameters:
+        config ([`PhiConfig`]):
+            Model configuration class with all the parameters of the model. Initializing with a config file does not
+            load the weights associated with the model, only the configuration. Check out the
+            [`~PreTrainedModel.from_pretrained`] method to load the model weights.
+"""
+
+
+@add_start_docstrings(
+    "The bare Phi Model outputting raw hidden-states without any specific head on top.",
+    PHI_START_DOCSTRING,
+)
+class PhiPreTrainedModel(PreTrainedModel):
+    config_class = PhiConfig
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["PhiDecoderLayer"]
+    _skip_keys_device_placement = "past_key_values"
+    _supports_flash_attn_2 = True
+    _supports_cache_class = True
+
+    def _init_weights(self, module):
+        std = self.config.initializer_range
+        if isinstance(module, nn.Linear):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+
+
+PHI_INPUTS_DOCSTRING = r"""
+    Args:
+        input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
+            Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you provide
+            it.
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            [What are input IDs?](../glossary#input-ids)
+        attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
+
+            - 1 for tokens that are **not masked**,
+            - 0 for tokens that are **masked**.
+
+            [What are attention masks?](../glossary#attention-mask)
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            If `past_key_values` is used, optionally only the last `input_ids` have to be input (see
+            `past_key_values`).
+
+            If you want to change padding behavior, you should read [`modeling_opt._prepare_decoder_attention_mask`]
+            and modify to your needs. See diagram 1 in [the paper](https://arxiv.org/abs/1910.13461) for more
+            information on the default strategy.
+
+            - 1 indicates the head is **not masked**,
+            - 0 indicates the head is **masked**.
+        position_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
+            config.n_positions - 1]`.
+
+            [What are position IDs?](../glossary#position-ids)
+        past_key_values (`Cache` or `tuple(tuple(torch.FloatTensor))`, *optional*):
+            Pre-computed hidden-states (key and values in the self-attention blocks and in the cross-attention
+            blocks) that can be used to speed up sequential decoding. This typically consists in the `past_key_values`
+            returned by the model at a previous stage of decoding, when `use_cache=True` or `config.use_cache=True`.
+
+            Two formats are allowed:
+            - a [`~cache_utils.Cache`] instance;
+            - Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
+            shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`). This is also known as the legacy
+            cache format.
+
+            The model will output the same cache format that is fed as input. If no `past_key_values` are passed, the
+            legacy cache format will be returned.
+
+            If `past_key_values` are used, the user can optionally input only the last `input_ids` (those that don't
+            have their past key value states given to this model) of shape `(batch_size, 1)` instead of all `input_ids`
+            of shape `(batch_size, sequence_length)`.
+        inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
+            Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
+            is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
+            model's internal embedding lookup matrix.
+        use_cache (`bool`, *optional*):
+            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
+            `past_key_values`).
+        output_attentions (`bool`, *optional*):
+            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
+            tensors for more detail.
+        output_hidden_states (`bool`, *optional*):
+            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
+            more detail.
+        return_dict (`bool`, *optional*):
+            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
+"""
+
+
+@add_start_docstrings(
+    "The bare Phi Model outputting raw hidden-states without any specific head on top.",
+    PHI_START_DOCSTRING,
+)
+class PhiModel(PhiPreTrainedModel):
+    """
+    Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`PhiDecoderLayer`]
+
+    Args:
+        config: PhiConfig
+    """
+
+    def __init__(self, config: PhiConfig):
+        super().__init__(config)
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
+        self.embed_dropout = nn.Dropout(config.embd_pdrop)
+        self.layers = nn.ModuleList(
+            [PhiDecoderLayer(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
+        )
+        self.final_layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self._use_flash_attention_2 = config._attn_implementation == "flash_attention_2"
+
+        self.gradient_checkpointing = False
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(PHI_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # retrieve input_ids and inputs_embeds
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both input_ids and inputs_embeds at the same time")
+        elif input_ids is not None:
+            batch_size, seq_length = input_ids.shape[:2]
+        elif inputs_embeds is not None:
+            batch_size, seq_length = inputs_embeds.shape[:2]
+        else:
+            raise ValueError("You have to specify either input_ids or inputs_embeds")
+
+        past_key_values_length = 0
+
+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
+        if use_cache:
+            use_legacy_cache = not isinstance(past_key_values, Cache)
+            if use_legacy_cache:
+                past_key_values = DynamicCache.from_legacy_cache(past_key_values)
+            past_key_values_length = past_key_values.get_usable_length(seq_length)
+
+        if position_ids is None:
+            device = input_ids.device if input_ids is not None else inputs_embeds.device
+            position_ids = torch.arange(
+                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=device
+            )
+            position_ids = position_ids.unsqueeze(0)
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+
+        inputs_embeds = self.embed_dropout(inputs_embeds)
+
+        # Attention mask.
+        if self._use_flash_attention_2:
+            # 2d mask is passed through the layers
+            attention_mask = attention_mask if (attention_mask is not None and 0 in attention_mask) else None
+        else:
+            # 4d mask is passed through the layers
+            attention_mask = _prepare_4d_causal_attention_mask(
+                attention_mask, (batch_size, seq_length), inputs_embeds, past_key_values_length
+            )
+
+        hidden_states = inputs_embeds
+
+        # decoder layers
+        all_hidden_states = () if output_hidden_states else None
+        all_self_attns = () if output_attentions else None
+        next_decoder_cache = None
+
+        for decoder_layer in self.layers:
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+
+            if self.gradient_checkpointing and self.training:
+                layer_outputs = self._gradient_checkpointing_func(
+                    decoder_layer.__call__,
+                    hidden_states,
+                    attention_mask,
+                    position_ids,
+                    past_key_values,
+                    output_attentions,
+                )
+            else:
+                layer_outputs = decoder_layer(
+                    hidden_states,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_value=past_key_values,
+                    output_attentions=output_attentions,
+                    use_cache=use_cache,
+                )
+
+            hidden_states = layer_outputs[0]
+
+            if use_cache:
+                next_decoder_cache = layer_outputs[2 if output_attentions else 1]
+
+            if output_attentions:
+                all_self_attns += (layer_outputs[1],)
+
+        hidden_states = self.final_layernorm(hidden_states)
+
+        # add hidden states from the last decoder layer
+        if output_hidden_states:
+            all_hidden_states += (hidden_states,)
+
+        next_cache = None
+        if use_cache:
+            next_cache = next_decoder_cache.to_legacy_cache() if use_legacy_cache else next_decoder_cache
+        if not return_dict:
+            return tuple(v for v in [hidden_states, next_cache, all_hidden_states, all_self_attns] if v is not None)
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=next_cache,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attns,
+        )
+
+
+class PhiForCausalLM(PhiPreTrainedModel):
+    _tied_weights_keys = ["lm_head.weight"]
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.__init__ with Llama->Phi,bias=False->bias=True
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = PhiModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=True)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.get_input_embeddings
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.set_input_embeddings
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.get_output_embeddings
+    def get_output_embeddings(self):
+        return self.lm_head
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.set_output_embeddings
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head = new_embeddings
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.set_decoder
+    def set_decoder(self, decoder):
+        self.model = decoder
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.get_decoder
+    def get_decoder(self):
+        return self.model
+
+    @add_start_docstrings_to_model_forward(PHI_INPUTS_DOCSTRING)
+    @replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        r"""
+        Args:
+            labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+                Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+                config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+                (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+
+        Returns:
+
+        Example:
+
+        ```python
+        >>> from transformers import AutoTokenizer, PhiForCausalLM
+
+        >>> model = PhiForCausalLM.from_pretrained("microsoft/phi-1")
+        >>> tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-1")
+
+        >>> prompt = "This is an example script ."
+        >>> inputs = tokenizer(prompt, return_tensors="pt")
+
+        >>> # Generate
+        >>> generate_ids = model.generate(inputs.input_ids, max_length=30)
+        >>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        'This is an example script .\n\n\n\nfrom typing import List\n\ndef find_most_common_letter(words: List[str'
+        ```"""
+
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.model(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = outputs[0]
+        logits = self.lm_head(hidden_states)
+        logits = logits.float()
+
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = CrossEntropyLoss()
+            shift_logits = shift_logits.view(-1, self.config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.prepare_inputs_for_generation
+    def prepare_inputs_for_generation(
+        self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
+    ):
+        if past_key_values is not None:
+            if isinstance(past_key_values, Cache):
+                cache_length = past_key_values.get_seq_length()
+                past_length = past_key_values.seen_tokens
+                max_cache_length = past_key_values.get_max_length()
+            else:
+                cache_length = past_length = past_key_values[0][0].shape[2]
+                max_cache_length = None
+
+            # Keep only the unprocessed tokens:
+            # 1 - If the length of the attention_mask exceeds the length of input_ids, then we are in a setting where
+            # some of the inputs are exclusively passed as part of the cache (e.g. when passing input_embeds as
+            # input)
+            if attention_mask is not None and attention_mask.shape[1] > input_ids.shape[1]:
+                input_ids = input_ids[:, -(attention_mask.shape[1] - past_length) :]
+            # 2 - If the past_length is smaller than input_ids', then input_ids holds all input tokens. We can discard
+            # input_ids based on the past_length.
+            elif past_length < input_ids.shape[1]:
+                input_ids = input_ids[:, past_length:]
+            # 3 - Otherwise (past_length >= input_ids.shape[1]), let's assume input_ids only has unprocessed tokens.
+            else:
+                remove_prefix_length = input_ids.shape[1] - 1
+                input_ids = input_ids[:, remove_prefix_length:]
+            # If we are about to go beyond the maximum cache length, we need to crop the input attention mask.
+            if (
+                max_cache_length is not None
+                and attention_mask is not None
+                and cache_length + input_ids.shape[1] > max_cache_length
+            ):
+                attention_mask = attention_mask[:, -max_cache_length:]
+
+        position_ids = kwargs.get("position_ids", None)
+        if attention_mask is not None and position_ids is None:
+            # create position_ids on the fly for batch generation
+            position_ids = attention_mask.long().cumsum(-1) - 1
+            position_ids.masked_fill_(attention_mask == 0, 1)
+            if past_key_values:
+                position_ids = position_ids[:, -input_ids.shape[1] :]
+
+        if past_key_value := getattr(self.model.layers[0].self_attn, "past_key_value", None):
+            # generation with static cache
+            seen_tokens = past_key_value.get_seq_length()
+            input_ids = input_ids[:, seen_tokens:]
+            position_ids = position_ids[:, seen_tokens:]
+
+        # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids}
+
+        model_inputs.update(
+            {
+                "position_ids": position_ids,
+                "past_key_values": past_key_values,
+                "use_cache": kwargs.get("use_cache"),
+                "attention_mask": attention_mask,
+            }
+        )
+        return model_inputs
+
+    @staticmethod
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM._reorder_cache
+    def _reorder_cache(past_key_values, beam_idx):
+        reordered_past = ()
+        for layer_past in past_key_values:
+            reordered_past += (
+                tuple(past_state.index_select(0, beam_idx.to(past_state.device)) for past_state in layer_past),
+            )
+        return reordered_past
+
+
+@add_start_docstrings(
+    """
+    The PhiModel with a sequence classification head on top (linear layer).
+
+    [`PhiForSequenceClassification`] uses the last token in order to do the classification, as other causal models
+    (e.g. GPT-2) do.
+
+    Since it does classification on the last token, it requires to know the position of the last token. If a
+    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
+    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
+    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
+    each row of the batch).
+    """,
+    PHI_START_DOCSTRING,
+)
+# Copied from transformers.models.llama.modeling_llama.LlamaForSequenceClassification with LLAMA->PHI,Llama->Phi with self.transformer->self.model, transformer_outputs->model_outputs
+class PhiForSequenceClassification(PhiPreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        self.model = PhiModel(config)
+        self.score = nn.Linear(config.hidden_size, self.num_labels, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(PHI_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, SequenceClassifierOutputWithPast]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
+            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
+            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        model_outputs = self.model(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        hidden_states = model_outputs[0]
+        logits = self.score(hidden_states)
+
+        if input_ids is not None:
+            batch_size = input_ids.shape[0]
+        else:
+            batch_size = inputs_embeds.shape[0]
+
+        if self.config.pad_token_id is None and batch_size != 1:
+            raise ValueError("Cannot handle batch sizes > 1 if no padding token is defined.")
+        if self.config.pad_token_id is None:
+            sequence_lengths = -1
+        else:
+            if input_ids is not None:
+                # if no pad token found, use modulo instead of reverse indexing for ONNX compatibility
+                sequence_lengths = torch.eq(input_ids, self.config.pad_token_id).int().argmax(-1) - 1
+                sequence_lengths = sequence_lengths % input_ids.shape[-1]
+                sequence_lengths = sequence_lengths.to(logits.device)
+            else:
+                sequence_lengths = -1
+
+        pooled_logits = logits[torch.arange(batch_size, device=logits.device), sequence_lengths]
+
+        loss = None
+        if labels is not None:
+            labels = labels.to(logits.device)
+            if self.config.problem_type is None:
+                if self.num_labels == 1:
+                    self.config.problem_type = "regression"
+                elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
+                    self.config.problem_type = "single_label_classification"
+                else:
+                    self.config.problem_type = "multi_label_classification"
+
+            if self.config.problem_type == "regression":
+                loss_fct = MSELoss()
+                if self.num_labels == 1:
+                    loss = loss_fct(pooled_logits.squeeze(), labels.squeeze())
+                else:
+                    loss = loss_fct(pooled_logits, labels)
+            elif self.config.problem_type == "single_label_classification":
+                loss_fct = CrossEntropyLoss()
+                loss = loss_fct(pooled_logits.view(-1, self.num_labels), labels.view(-1))
+            elif self.config.problem_type == "multi_label_classification":
+                loss_fct = BCEWithLogitsLoss()
+                loss = loss_fct(pooled_logits, labels)
+        if not return_dict:
+            output = (pooled_logits,) + model_outputs[1:]
+            return ((loss,) + output) if loss is not None else output
+
+        return SequenceClassifierOutputWithPast(
+            loss=loss,
+            logits=pooled_logits,
+            past_key_values=model_outputs.past_key_values,
+            hidden_states=model_outputs.hidden_states,
+            attentions=model_outputs.attentions,
+        )
+
+
+@add_start_docstrings(
+    """
+    PhiModel with a token classification head on top (a linear layer on top of the hidden-states output) e.g. for
+    Named-Entity-Recognition (NER) tasks.
+    """,
+    PHI_START_DOCSTRING,
+)
+# Copied from transformers.models.mpt.modeling_mpt.MptForTokenClassification with MPT->PHI,Mpt->Phi,self.transformer->self.model,transformer_outputs->model_outputs
+class PhiForTokenClassification(PhiPreTrainedModel):
+    def __init__(self, config: PhiConfig):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+
+        self.model = PhiModel(config)
+        if hasattr(config, "classifier_dropout") and config.classifier_dropout is not None:
+            classifier_dropout = config.classifier_dropout
+        elif hasattr(config, "hidden_dropout") and config.hidden_dropout is not None:
+            classifier_dropout = config.hidden_dropout
+        else:
+            classifier_dropout = 0.1
+        self.dropout = nn.Dropout(classifier_dropout)
+        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    @add_start_docstrings_to_model_forward(PHI_INPUTS_DOCSTRING)
+    @add_code_sample_docstrings(
+        checkpoint=_CHECKPOINT_FOR_DOC,
+        output_type=TokenClassifierOutput,
+        config_class=_CONFIG_FOR_DOC,
+    )
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.Tensor, torch.Tensor], ...]] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        labels: Optional[torch.Tensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        **deprecated_arguments,
+    ) -> Union[Tuple[torch.Tensor], TokenClassifierOutput]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
+            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
+            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        model_outputs = self.model(
+            input_ids,
+            past_key_values=past_key_values,
+            attention_mask=attention_mask,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = model_outputs[0]
+        hidden_states = self.dropout(hidden_states)
+        logits = self.classifier(hidden_states)
+
+        loss = None
+        if labels is not None:
+            # move labels to correct device to enable model parallelism
+            labels = labels.to(logits.device)
+            batch_size, seq_length = labels.shape
+            loss_fct = CrossEntropyLoss()
+            loss = loss_fct(
+                logits.view(batch_size * seq_length, self.num_labels), labels.view(batch_size * seq_length)
+            )
+
+        if not return_dict:
+            output = (logits,) + model_outputs[2:]
+            return ((loss,) + output) if loss is not None else output
+
+        return TokenClassifierOutput(
+            loss=loss,
+            logits=logits,
+            hidden_states=model_outputs.hidden_states,
+            attentions=model_outputs.attentions,
+        )
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/language_model/phi3/__init__.py b/Unicorn_dense/bunny/model/language_model/phi3/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..b738e2b977d45e662f61aca1b569c16f0597e443
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/phi3/__init__.py
@@ -0,0 +1,69 @@
+# Copyright 2024 Microsoft and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+
+from typing import TYPE_CHECKING
+
+from transformers.utils import (
+    OptionalDependencyNotAvailable,
+    _LazyModule,
+    is_sentencepiece_available,
+    is_tokenizers_available,
+    is_torch_available,
+)
+
+
+_import_structure = {
+    "configuration_phi3": ["PHI3_PRETRAINED_CONFIG_ARCHIVE_MAP", "Phi3Config"],
+}
+
+try:
+    if not is_torch_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["modeling_phi3"] = [
+        "PHI3_PRETRAINED_MODEL_ARCHIVE_LIST",
+        "Phi3PreTrainedModel",
+        "Phi3Model",
+        "Phi3ForCausalLM",
+        "Phi3ForSequenceClassification",
+        "Phi3ForTokenClassification",
+    ]
+
+
+if TYPE_CHECKING:
+    from .configuration_phi3 import PHI3_PRETRAINED_CONFIG_ARCHIVE_MAP, Phi3Config
+
+    try:
+        if not is_torch_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .modeling_phi3 import (
+            PHI3_PRETRAINED_MODEL_ARCHIVE_LIST,
+            Phi3ForCausalLM,
+            Phi3ForSequenceClassification,
+            Phi3ForTokenClassification,
+            Phi3Model,
+            Phi3PreTrainedModel,
+        )
+
+
+else:
+    import sys
+
+    sys.modules[__name__] = _LazyModule(__name__, globals()["__file__"], _import_structure, module_spec=__spec__)
diff --git a/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..01ba5d639ecf7b93077f2cb45be2b15b06f36795
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/configuration_phi3.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/configuration_phi3.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..789f15687beebe56537411b4dba50648e23ad7f6
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/configuration_phi3.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/modeling_phi3.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/modeling_phi3.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b7fff402d1e405120aecf8c93fe82ad4e07c885d
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/phi3/__pycache__/modeling_phi3.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/phi3/configuration_phi3.py b/Unicorn_dense/bunny/model/language_model/phi3/configuration_phi3.py
new file mode 100644
index 0000000000000000000000000000000000000000..f4553db23ac65c608fd150a14acbd04d3ff80a0f
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/phi3/configuration_phi3.py
@@ -0,0 +1,213 @@
+# coding=utf-8
+# Copyright 2024 Microsoft and the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+""" Phi-3 model configuration"""
+
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+
+logger = logging.get_logger(__name__)
+
+PHI3_PRETRAINED_CONFIG_ARCHIVE_MAP = {
+    "microsoft/Phi-3-mini-4k-instruct": "https://huggingface.co/microsoft/Phi-3-mini-4k-instruct/resolve/main/config.json",
+    "microsoft/Phi-3-mini-128k-instruct": "https://huggingface.co/microsoft/Phi-3-mini-128k-instruct/resolve/main/config.json",
+}
+
+
+class Phi3Config(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`Phi3Model`]. It is used to instantiate a Phi-3
+    model according to the specified arguments, defining the model architecture. Instantiating a configuration with the
+    defaults will yield a similar configuration to that of the
+    [microsoft/Phi-3-mini-4k-instruct](https://huggingface.co/microsoft/Phi-3-mini-4k-instruct).
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 32064):
+            Vocabulary size of the Phi-3 model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`Phi3Model`].
+        hidden_size (`int`, *optional*, defaults to 3072):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 8192):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer decoder.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer decoder.
+        num_key_value_heads (`int`, *optional*):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to
+            `num_attention_heads`.
+        resid_pdrop (`float`, *optional*, defaults to 0.0):
+            Dropout probability for mlp outputs.
+        embd_pdrop (`int`, *optional*, defaults to 0.0):
+            The dropout ratio for the embeddings.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio after computing the attention scores.
+        hidden_act (`str` or `function`, *optional*, defaults to `"silu"`):
+            The non-linear activation function (function or string) in the decoder.
+        max_position_embeddings (`int`, *optional*, defaults to 4096):
+            The maximum sequence length that this model might ever be used with.
+        original_max_position_embeddings (`int`, *optional*, defaults to 4096):
+            The maximum sequence length that this model was trained with. This is used to determine the size of the
+            original RoPE embeddings when using long scaling.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        rms_norm_eps (`float`, *optional*, defaults to 1e-05):
+            The epsilon value used for the RMSNorm.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`. Whether to tie weight embeddings or not.
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether to tie weight embeddings
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        rope_scaling (`dict`, *optional*):
+            The scaling strategy for the RoPE embeddings. If `None`, no scaling is applied. If a dictionary, it must
+            contain the following keys: `type`, `short_factor` and `long_factor`. The `type` must be either `su` or `yarn` and
+            the `short_factor` and `long_factor` must be lists of numbers with the same length as the hidden size
+            divided by the number of attention heads divided by 2.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            The id of the "beginning-of-sequence" token.
+        eos_token_id (`int`, *optional*, defaults to 32000):
+            The id of the "end-of-sequence" token.
+        pad_token_id (`int`, *optional*, defaults to 32000):
+            The id of the padding token.
+        sliding_window (`int`, *optional*):
+            Sliding window attention window size. If `None`, no sliding window is applied.
+
+    Example:
+
+    ```python
+    >>> from transformers import Phi3Model, Phi3Config
+
+    >>> # Initializing a Phi-3 style configuration
+    >>> configuration = Phi3Config.from_pretrained("microsoft/Phi-3-mini-4k-instruct")
+
+    >>> # Initializing a model from the configuration
+    >>> model = Phi3Model(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "phi3"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=32064,
+        hidden_size=3072,
+        intermediate_size=8192,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=None,
+        resid_pdrop=0.0,
+        embd_pdrop=0.0,
+        attention_dropout=0.0,
+        hidden_act="silu",
+        max_position_embeddings=4096,
+        original_max_position_embeddings=4096,
+        initializer_range=0.02,
+        rms_norm_eps=1e-5,
+        use_cache=True,
+        tie_word_embeddings=False,
+        rope_theta=10000.0,
+        rope_scaling=None,
+        bos_token_id=1,
+        eos_token_id=32000,
+        pad_token_id=32000,
+        sliding_window=None,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.resid_pdrop = resid_pdrop
+        self.embd_pdrop = embd_pdrop
+        self.attention_dropout = attention_dropout
+        self.hidden_act = hidden_act
+        self.max_position_embeddings = max_position_embeddings
+        self.original_max_position_embeddings = original_max_position_embeddings
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.rope_scaling = rope_scaling
+        self._rope_scaling_validation()
+        self.sliding_window = sliding_window
+
+        super().__init__(
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            pad_token_id=pad_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+
+    def _rope_scaling_validation(self):
+        """
+        Validate the `rope_scaling` configuration.
+        """
+        if self.rope_scaling is None:
+            return
+
+        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 3:
+            raise ValueError(
+                "`rope_scaling` must be a dictionary with three fields, `type`, `short_factor` and `long_factor`, "
+                f"got {self.rope_scaling}"
+            )
+        rope_scaling_type = self.rope_scaling.get("type", None)
+        rope_scaling_short_factor = self.rope_scaling.get("short_factor", None)
+        rope_scaling_long_factor = self.rope_scaling.get("long_factor", None)
+        if rope_scaling_type is None or rope_scaling_type not in ["su", "yarn"]:
+            raise ValueError(f"`rope_scaling`'s type field must be one of ['su', 'yarn'], got {rope_scaling_type}")
+        if not (
+            isinstance(rope_scaling_short_factor, list)
+            and all(isinstance(x, (int, float)) for x in rope_scaling_short_factor)
+        ):
+            raise ValueError(
+                f"`rope_scaling`'s short_factor field must be a list of numbers, got {rope_scaling_short_factor}"
+            )
+        if not len(rope_scaling_short_factor) == self.hidden_size // self.num_attention_heads // 2:
+            raise ValueError(
+                f"`rope_scaling`'s short_factor field must have length {self.hidden_size // self.num_attention_heads // 2}, got {len(rope_scaling_short_factor)}"
+            )
+        if not (
+            isinstance(rope_scaling_long_factor, list)
+            and all(isinstance(x, (int, float)) for x in rope_scaling_long_factor)
+        ):
+            raise ValueError(
+                f"`rope_scaling`'s long_factor field must be a list of numbers, got {rope_scaling_long_factor}"
+            )
+        if not len(rope_scaling_long_factor) == self.hidden_size // self.num_attention_heads // 2:
+            raise ValueError(
+                f"`rope_scaling`'s long_factor field must have length {self.hidden_size // self.num_attention_heads // 2}, got {len(rope_scaling_long_factor)}"
+            )
diff --git a/Unicorn_dense/bunny/model/language_model/phi3/modeling_phi3.py b/Unicorn_dense/bunny/model/language_model/phi3/modeling_phi3.py
new file mode 100644
index 0000000000000000000000000000000000000000..0f001e5721d31cd7448dc1c5630baedc90d7ca82
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/phi3/modeling_phi3.py
@@ -0,0 +1,1597 @@
+# coding=utf-8
+# Copyright 2024 Microsoft and the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+""" PyTorch Phi-3 model."""
+
+import inspect
+import math
+import warnings
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn.functional as F
+import torch.utils.checkpoint
+from torch import nn
+from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
+
+from transformers.activations import ACT2FN
+from transformers.cache_utils import Cache, DynamicCache
+from transformers.modeling_attn_mask_utils import _prepare_4d_causal_attention_mask
+from transformers.modeling_outputs import (
+    BaseModelOutputWithPast,
+    CausalLMOutputWithPast,
+    SequenceClassifierOutputWithPast,
+    TokenClassifierOutput,
+)
+from transformers.modeling_utils import PreTrainedModel
+from transformers.utils import (
+    add_code_sample_docstrings,
+    add_start_docstrings,
+    add_start_docstrings_to_model_forward,
+    is_flash_attn_2_available,
+    is_flash_attn_greater_or_equal_2_10,
+    logging,
+    replace_return_docstrings,
+)
+from .configuration_phi3 import Phi3Config
+
+
+if is_flash_attn_2_available():
+    from flash_attn import flash_attn_func, flash_attn_varlen_func
+    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
+
+    _flash_supports_window_size = "window_size" in list(inspect.signature(flash_attn_func).parameters)
+
+logger = logging.get_logger(__name__)
+
+_CHECKPOINT_FOR_DOC = "microsoft/Phi-3-mini-4k-instruct"
+_CONFIG_FOR_DOC = "Phi3Config"
+
+PHI3_PRETRAINED_MODEL_ARCHIVE_LIST = [
+    "microsoft/Phi-3-mini-4k-instruct",
+    "microsoft/Phi-3-mini-128k-instruct",
+    # See all Phi-3 models at https://huggingface.co/models?filter=Phi-3
+]
+
+
+# Copied from transformers.models.llama.modeling_llama.LlamaRMSNorm with Llama->Phi3
+class Phi3RMSNorm(nn.Module):
+    def __init__(self, hidden_size, eps=1e-6):
+        """
+        Phi3RMSNorm is equivalent to T5LayerNorm
+        """
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(hidden_size))
+        self.variance_epsilon = eps
+
+    def forward(self, hidden_states):
+        input_dtype = hidden_states.dtype
+        hidden_states = hidden_states.to(torch.float32)
+        variance = hidden_states.pow(2).mean(-1, keepdim=True)
+        hidden_states = hidden_states * torch.rsqrt(variance + self.variance_epsilon)
+        return self.weight * hidden_states.to(input_dtype)
+
+
+# Copied from transformers.models.llama.modeling_llama._get_unpad_data
+def _get_unpad_data(attention_mask):
+    seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
+    indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
+    max_seqlen_in_batch = seqlens_in_batch.max().item()
+    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.int32), (1, 0))
+    return (
+        indices,
+        cu_seqlens,
+        max_seqlen_in_batch,
+    )
+
+
+# Copied from transformers.models.gemma.modeling_gemma.GemmaRotaryEmbedding with gemma->phi3, Gemma->Phi3
+class Phi3RotaryEmbedding(nn.Module):
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
+        super().__init__()
+
+        self.dim = dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        self.register_buffer("inv_freq", None, persistent=False)
+
+    @torch.no_grad()
+    def forward(self, x, position_ids, seq_len=None):
+        # x: [bs, num_attention_heads, seq_len, head_size]
+        if self.inv_freq is None:
+            self.inv_freq = 1.0 / (
+                self.base ** (torch.arange(0, self.dim, 2, dtype=torch.int64, device=x.device).float() / self.dim)
+            )
+        inv_freq_expanded = self.inv_freq[None, :, None].float().expand(position_ids.shape[0], -1, 1)
+        position_ids_expanded = position_ids[:, None, :].float()
+        # Force float32 since bfloat16 loses precision on long contexts
+        # See https://github.com/huggingface/transformers/pull/29285
+        device_type = x.device.type
+        device_type = device_type if isinstance(device_type, str) and device_type != "mps" else "cpu"
+        with torch.autocast(device_type=device_type, enabled=False):
+            freqs = (inv_freq_expanded.float() @ position_ids_expanded.float()).transpose(1, 2)
+            emb = torch.cat((freqs, freqs), dim=-1)
+            cos = emb.cos()
+            sin = emb.sin()
+        return cos.to(dtype=x.dtype), sin.to(dtype=x.dtype)
+
+
+class Phi3SuScaledRotaryEmbedding(Phi3RotaryEmbedding):
+    def __init__(self, dim, config, device=None):
+        super().__init__(dim, config.max_position_embeddings, config.rope_theta, device)
+
+        self.short_factor = config.rope_scaling["short_factor"]
+        self.long_factor = config.rope_scaling["long_factor"]
+        self.original_max_position_embeddings = config.original_max_position_embeddings
+
+    @torch.no_grad()
+    def forward(self, x, position_ids, seq_len=None):
+        seq_len = torch.max(position_ids) + 1
+        if seq_len > self.original_max_position_embeddings:
+            ext_factors = torch.tensor(self.long_factor, dtype=torch.float32, device=x.device)
+        else:
+            ext_factors = torch.tensor(self.short_factor, dtype=torch.float32, device=x.device)
+
+        inv_freq_shape = torch.arange(0, self.dim, 2, dtype=torch.int64, device=x.device).float() / self.dim
+        self.inv_freq = 1.0 / (ext_factors * self.base**inv_freq_shape)
+
+        inv_freq_expanded = self.inv_freq[None, :, None].float().expand(position_ids.shape[0], -1, 1)
+        position_ids_expanded = position_ids[:, None, :].float()
+
+        # Force float32 since bfloat16 loses precision on long contexts
+        # See https://github.com/huggingface/transformers/pull/29285
+        device_type = x.device.type
+        device_type = device_type if isinstance(device_type, str) and device_type != "mps" else "cpu"
+        with torch.autocast(device_type=device_type, enabled=False):
+            freqs = (inv_freq_expanded.float() @ position_ids_expanded.float()).transpose(1, 2)
+            emb = torch.cat((freqs, freqs), dim=-1)
+
+            scale = self.max_position_embeddings / self.original_max_position_embeddings
+            if scale <= 1.0:
+                scaling_factor = 1.0
+            else:
+                scaling_factor = math.sqrt(1 + math.log(scale) / math.log(self.original_max_position_embeddings))
+
+            cos = emb.cos() * scaling_factor
+            sin = emb.sin() * scaling_factor
+        return cos.to(dtype=x.dtype), sin.to(dtype=x.dtype)
+
+
+class Phi3YarnScaledRotaryEmbedding(Phi3RotaryEmbedding):
+    def __init__(self, dim, config, device=None):
+        super().__init__(dim, config.max_position_embeddings, config.rope_theta, device)
+
+        self.short_factor = config.rope_scaling["short_factor"]
+        self.long_factor = config.rope_scaling["long_factor"]
+        self.original_max_position_embeddings = config.original_max_position_embeddings
+
+    @torch.no_grad()
+    def forward(self, x, position_ids, seq_len=None):
+        seq_len = torch.max(position_ids) + 1
+        if seq_len > self.original_max_position_embeddings:
+            ext_factors = torch.tensor(self.long_factor, dtype=torch.float32, device=x.device)
+        else:
+            ext_factors = torch.tensor(self.short_factor, dtype=torch.float32, device=x.device)
+
+        inv_freq_shape = torch.arange(0, self.dim, 2, dtype=torch.int64, device=x.device).float() / self.dim
+        self.inv_freq = 1.0 / (ext_factors * self.base**inv_freq_shape)
+
+        inv_freq_expanded = self.inv_freq[None, :, None].float().expand(position_ids.shape[0], -1, 1)
+        position_ids_expanded = position_ids[:, None, :].float()
+
+        # Force float32 since bfloat16 loses precision on long contexts
+        # See https://github.com/huggingface/transformers/pull/29285
+        device_type = x.device.type
+        device_type = device_type if isinstance(device_type, str) and device_type != "mps" else "cpu"
+        with torch.autocast(device_type=device_type, enabled=False):
+            freqs = (inv_freq_expanded.float() @ position_ids_expanded.float()).transpose(1, 2)
+            emb = torch.cat((freqs, freqs), dim=-1)
+
+            scale = self.max_position_embeddings / self.original_max_position_embeddings
+            if scale <= 1.0:
+                scaling_factor = 1.0
+            else:
+                scaling_factor = 0.1 * math.log(scale) + 1.0
+
+            cos = emb.cos() * scaling_factor
+            sin = emb.sin() * scaling_factor
+        return cos.to(dtype=x.dtype), sin.to(dtype=x.dtype)
+
+
+# Copied from transformers.models.llama.modeling_llama.rotate_half
+def rotate_half(x):
+    """Rotates half the hidden dims of the input."""
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+
+
+# Copied from transformers.models.llama.modeling_llama.apply_rotary_pos_emb
+def apply_rotary_pos_emb(q, k, cos, sin, position_ids=None, unsqueeze_dim=1):
+    """Applies Rotary Position Embedding to the query and key tensors.
+
+    Args:
+        q (`torch.Tensor`): The query tensor.
+        k (`torch.Tensor`): The key tensor.
+        cos (`torch.Tensor`): The cosine part of the rotary embedding.
+        sin (`torch.Tensor`): The sine part of the rotary embedding.
+        position_ids (`torch.Tensor`, *optional*):
+            Deprecated and unused.
+        unsqueeze_dim (`int`, *optional*, defaults to 1):
+            The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
+            sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
+            that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
+            k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
+            cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
+            the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
+    Returns:
+        `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
+    """
+    cos = cos.unsqueeze(unsqueeze_dim)
+    sin = sin.unsqueeze(unsqueeze_dim)
+    q_embed = (q * cos) + (rotate_half(q) * sin)
+    k_embed = (k * cos) + (rotate_half(k) * sin)
+    return q_embed, k_embed
+
+
+class Phi3MLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+
+        self.config = config
+        self.gate_up_proj = nn.Linear(config.hidden_size, 2 * config.intermediate_size, bias=False)
+        self.down_proj = nn.Linear(config.intermediate_size, config.hidden_size, bias=False)
+
+        self.activation_fn = ACT2FN[config.hidden_act]
+
+    def forward(self, hidden_states: torch.FloatTensor) -> torch.FloatTensor:
+        up_states = self.gate_up_proj(hidden_states)
+
+        gate, up_states = up_states.chunk(2, dim=-1)
+        up_states = up_states * self.activation_fn(gate)
+
+        return self.down_proj(up_states)
+
+
+# Copied from transformers.models.llama.modeling_llama.repeat_kv with llama->phi
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+
+
+class Phi3Attention(nn.Module):
+    """Multi-headed attention from 'Attention Is All You Need' paper"""
+
+    def __init__(self, config: Phi3Config, layer_idx: Optional[int] = None):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        if layer_idx is None:
+            logger.warning_once(
+                f"Instantiating {self.__class__.__name__} without passing a `layer_idx` is not recommended and will "
+                "lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` "
+                "when creating this class."
+            )
+
+        self.attention_dropout = config.attention_dropout
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.num_key_value_heads = config.num_key_value_heads
+        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.original_max_position_embeddings = config.original_max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.rope_scaling = config.rope_scaling
+        self.is_causal = True
+
+        if (self.head_dim * self.num_heads) != self.hidden_size:
+            raise ValueError(
+                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
+                f" and `num_heads`: {self.num_heads})."
+            )
+
+        op_size = self.num_heads * self.head_dim + 2 * (self.num_key_value_heads * self.head_dim)
+        self.o_proj = nn.Linear(self.num_heads * self.head_dim, self.hidden_size, bias=False)
+        self.qkv_proj = nn.Linear(self.hidden_size, op_size, bias=False)
+        self._init_rope()
+
+    def _init_rope(self):
+        if self.rope_scaling is None:
+            self.rotary_emb = Phi3RotaryEmbedding(
+                self.head_dim,
+                max_position_embeddings=self.max_position_embeddings,
+                base=self.rope_theta,
+            )
+        else:
+            scaling_type = self.config.rope_scaling["type"]
+            if scaling_type == "su":
+                self.rotary_emb = Phi3SuScaledRotaryEmbedding(self.head_dim, self.config)
+            elif scaling_type == "yarn":
+                self.rotary_emb = Phi3YarnScaledRotaryEmbedding(self.head_dim, self.config)
+            else:
+                raise ValueError(f"Unknown RoPE scaling type {scaling_type}")
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        logger.warning_once("You are not running the flash-attention implementation, expect numerical differences.")
+
+        bsz, q_len, _ = hidden_states.size()
+
+        qkv = self.qkv_proj(hidden_states)
+        query_pos = self.num_heads * self.head_dim
+        query_states = qkv[..., :query_pos]
+        key_states = qkv[..., query_pos : query_pos + self.num_key_value_heads * self.head_dim]
+        value_states = qkv[..., query_pos + self.num_key_value_heads * self.head_dim :]
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            if self.layer_idx is None:
+                raise ValueError(
+                    f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
+                    "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
+                    "with a layer index."
+                )
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, position_ids, seq_len=kv_seq_len)
+
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # repeat k/v heads if n_kv_heads < n_heads
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
+
+        if attn_weights.size() != (bsz, self.num_heads, q_len, kv_seq_len):
+            raise ValueError(
+                f"Attention weights should be of size {(bsz, self.num_heads, q_len, kv_seq_len)}, but is"
+                f" {attn_weights.size()}"
+            )
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+            attn_weights = attn_weights + attention_mask
+
+        # upcast attention to fp32
+        attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(value_states.dtype)
+        attn_weights = nn.functional.dropout(attn_weights, p=self.attention_dropout, training=self.training)
+
+        attn_output = torch.matmul(attn_weights, value_states)
+
+        if attn_output.size() != (bsz, self.num_heads, q_len, self.head_dim):
+            raise ValueError(
+                f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                f" {attn_output.size()}"
+            )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+
+class Phi3FlashAttention2(Phi3Attention):
+    """
+    Phi-3 flash attention module. This module inherits from `Phi3Attention` as the weights of the module stays
+    untouched. The only required change would be on the forward pass where it needs to correctly call the public API of
+    flash attention and deal with padding tokens in case the input contains any of them.
+    """
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaFlashAttention2.__init__
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        # TODO: Should be removed once Flash Attention for RoCm is bumped to 2.1.
+        # flash_attn<2.1 generates top-left aligned causal mask, while what is needed here is bottom-right alignement, that was made default for flash_attn>=2.1. This attribute is used to handle this difference. Reference: https://github.com/Dao-AILab/flash-attention/releases/tag/v2.1.0.
+        # Beware that with flash_attn<2.1, using q_seqlen != k_seqlen (except for the case q_seqlen == 1) produces a wrong mask (top-left).
+        self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.LongTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        # Phi3FlashAttention2 attention does not support output_attentions
+
+        if not _flash_supports_window_size:
+            logger.warning_once(
+                "The current flash attention version does not support sliding window attention. Please use `attn_implementation='eager'` or upgrade flash-attn library."
+            )
+            raise ValueError("The current flash attention version does not support sliding window attention.")
+
+        output_attentions = False
+
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+
+            # overwrite attention_mask with padding_mask
+            attention_mask = kwargs.pop("padding_mask")
+
+        bsz, q_len, _ = hidden_states.size()
+
+        qkv = self.qkv_proj(hidden_states)
+        query_pos = self.num_heads * self.head_dim
+        query_states = qkv[..., :query_pos]
+        key_states = qkv[..., query_pos : query_pos + self.num_key_value_heads * self.head_dim]
+        value_states = qkv[..., query_pos + self.num_key_value_heads * self.head_dim :]
+
+        # Flash attention requires the input to have the shape
+        # batch_size x seq_length x head_dim x hidden_dim
+        # therefore we just need to keep the original shape
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            if self.layer_idx is None:
+                raise ValueError(
+                    f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
+                    "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
+                    "with a layer index."
+                )
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+
+        # Because the input can be padded, the absolute sequence length depends on the max position id.
+        rotary_seq_len = max(kv_seq_len, position_ids[:, -1].max().item()) + 1
+        cos, sin = self.rotary_emb(value_states, position_ids, seq_len=rotary_seq_len)
+
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        use_sliding_windows = (
+            _flash_supports_window_size
+            and getattr(self.config, "sliding_window", None) is not None
+            and kv_seq_len > self.config.sliding_window
+        )
+
+        if past_key_value is not None:
+            # Activate slicing cache only if the config has a value `sliding_windows` attribute
+            cache_has_contents = past_key_value.get_seq_length(self.layer_idx) > 0
+            if (
+                getattr(self.config, "sliding_window", None) is not None
+                and kv_seq_len > self.config.sliding_window
+                and cache_has_contents
+            ):
+                slicing_tokens = 1 - self.config.sliding_window
+
+                past_key = past_key_value[self.layer_idx][0]
+                past_value = past_key_value[self.layer_idx][1]
+
+                past_key = past_key[:, :, slicing_tokens:, :].contiguous()
+                past_value = past_value[:, :, slicing_tokens:, :].contiguous()
+
+                if past_key.shape[-2] != self.config.sliding_window - 1:
+                    raise ValueError(
+                        f"past key must have a shape of (`batch_size, num_heads, self.config.sliding_window-1, head_dim`), got"
+                        f" {past_key.shape}"
+                    )
+
+                if attention_mask is not None:
+                    attention_mask = attention_mask[:, slicing_tokens:]
+                    attention_mask = torch.cat([attention_mask, torch.ones_like(attention_mask[:, -1:])], dim=-1)
+
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # repeat k/v heads if n_kv_heads < n_heads
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        attn_dropout = self.attention_dropout if self.training else 0.0
+
+        # In PEFT, usually we cast the layer norms in float32 for training stability reasons
+        # therefore the input hidden states gets silently casted in float32. Hence, we need
+        # cast them back in the correct dtype just to be sure everything works as expected.
+        # This might slowdown training & inference so it is recommended to not cast the LayerNorms
+        # in fp32.
+
+        if query_states.dtype == torch.float32:
+            if torch.is_autocast_enabled():
+                target_dtype = torch.get_autocast_gpu_dtype()
+            # Handle the case where the model is quantized
+            elif hasattr(self.config, "_pre_quantization_dtype"):
+                target_dtype = self.config._pre_quantization_dtype
+            else:
+                target_dtype = self.qkv_proj.weight.dtype
+
+            logger.warning_once(
+                f"The input hidden states seems to be silently casted in float32, this might be related to"
+                f" the fact you have upcasted embedding or layer norm layers in float32. We will cast back the input in"
+                f" {target_dtype}."
+            )
+
+            query_states = query_states.to(target_dtype)
+            key_states = key_states.to(target_dtype)
+            value_states = value_states.to(target_dtype)
+
+        # Reashape to the expected shape for Flash Attention
+        query_states = query_states.transpose(1, 2)
+        key_states = key_states.transpose(1, 2)
+        value_states = value_states.transpose(1, 2)
+
+        attn_output = self._flash_attention_forward(
+            query_states,
+            key_states,
+            value_states,
+            attention_mask,
+            q_len,
+            dropout=attn_dropout,
+            use_sliding_windows=use_sliding_windows,
+        )
+
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size).contiguous()
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+    # Copied from transformers.models.mistral.modeling_mistral.MistralFlashAttention2._flash_attention_forward
+    def _flash_attention_forward(
+        self,
+        query_states,
+        key_states,
+        value_states,
+        attention_mask,
+        query_length,
+        dropout=0.0,
+        softmax_scale=None,
+        use_sliding_windows=False,
+    ):
+        """
+        Calls the forward method of Flash Attention - if the input hidden states contain at least one padding token
+        first unpad the input, then computes the attention scores and pad the final attention scores.
+
+        Args:
+            query_states (`torch.Tensor`):
+                Input query states to be passed to Flash Attention API
+            key_states (`torch.Tensor`):
+                Input key states to be passed to Flash Attention API
+            value_states (`torch.Tensor`):
+                Input value states to be passed to Flash Attention API
+            attention_mask (`torch.Tensor`):
+                The padding mask - corresponds to a tensor of size `(batch_size, seq_len)` where 0 stands for the
+                position of padding tokens and 1 for the position of non-padding tokens.
+            dropout (`float`):
+                Attention dropout
+            softmax_scale (`float`, *optional*):
+                The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim)
+            use_sliding_windows (`bool`, *optional*):
+                Whether to activate sliding window attention.
+        """
+        if not self._flash_attn_uses_top_left_mask:
+            causal = self.is_causal
+        else:
+            # TODO: Remove the `query_length != 1` check once Flash Attention for RoCm is bumped to 2.1. For details, please see the comment in LlamaFlashAttention2 __init__.
+            causal = self.is_causal and query_length != 1
+
+        # Contains at least one padding token in the sequence
+        if attention_mask is not None:
+            batch_size = query_states.shape[0]
+            query_states, key_states, value_states, indices_q, cu_seq_lens, max_seq_lens = self._upad_input(
+                query_states, key_states, value_states, attention_mask, query_length
+            )
+
+            cu_seqlens_q, cu_seqlens_k = cu_seq_lens
+            max_seqlen_in_batch_q, max_seqlen_in_batch_k = max_seq_lens
+
+            if not use_sliding_windows:
+                attn_output_unpad = flash_attn_varlen_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    cu_seqlens_q=cu_seqlens_q,
+                    cu_seqlens_k=cu_seqlens_k,
+                    max_seqlen_q=max_seqlen_in_batch_q,
+                    max_seqlen_k=max_seqlen_in_batch_k,
+                    dropout_p=dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                )
+            else:
+                attn_output_unpad = flash_attn_varlen_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    cu_seqlens_q=cu_seqlens_q,
+                    cu_seqlens_k=cu_seqlens_k,
+                    max_seqlen_q=max_seqlen_in_batch_q,
+                    max_seqlen_k=max_seqlen_in_batch_k,
+                    dropout_p=dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                    window_size=(self.config.sliding_window, self.config.sliding_window),
+                )
+
+            attn_output = pad_input(attn_output_unpad, indices_q, batch_size, query_length)
+        else:
+            if not use_sliding_windows:
+                attn_output = flash_attn_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                )
+            else:
+                attn_output = flash_attn_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                    window_size=(self.config.sliding_window, self.config.sliding_window),
+                )
+
+        return attn_output
+
+    # Copied from transformers.models.mistral.modeling_mistral.MistralFlashAttention2._upad_input
+    def _upad_input(self, query_layer, key_layer, value_layer, attention_mask, query_length):
+        batch_size, kv_seq_len, num_heads, head_dim = key_layer.shape
+
+        # On the first iteration we need to properly re-create the padding mask
+        # by slicing it on the proper place
+        if kv_seq_len != attention_mask.shape[-1]:
+            attention_mask_num_tokens = attention_mask.shape[-1]
+            attention_mask = attention_mask[:, attention_mask_num_tokens - kv_seq_len :]
+
+        indices_k, cu_seqlens_k, max_seqlen_in_batch_k = _get_unpad_data(attention_mask)
+
+        key_layer = index_first_axis(key_layer.reshape(batch_size * kv_seq_len, num_heads, head_dim), indices_k)
+        value_layer = index_first_axis(value_layer.reshape(batch_size * kv_seq_len, num_heads, head_dim), indices_k)
+
+        if query_length == kv_seq_len:
+            query_layer = index_first_axis(
+                query_layer.reshape(batch_size * kv_seq_len, num_heads, head_dim), indices_k
+            )
+            cu_seqlens_q = cu_seqlens_k
+            max_seqlen_in_batch_q = max_seqlen_in_batch_k
+            indices_q = indices_k
+        elif query_length == 1:
+            max_seqlen_in_batch_q = 1
+            cu_seqlens_q = torch.arange(
+                batch_size + 1, dtype=torch.int32, device=query_layer.device
+            )  # There is a memcpy here, that is very bad.
+            indices_q = cu_seqlens_q[:-1]
+            query_layer = query_layer.squeeze(1)
+        else:
+            # The -q_len: slice assumes left padding.
+            attention_mask = attention_mask[:, -query_length:]
+            query_layer, indices_q, cu_seqlens_q, max_seqlen_in_batch_q = unpad_input(query_layer, attention_mask)
+
+        return (
+            query_layer,
+            key_layer,
+            value_layer,
+            indices_q,
+            (cu_seqlens_q, cu_seqlens_k),
+            (max_seqlen_in_batch_q, max_seqlen_in_batch_k),
+        )
+
+
+# copied from transformers.models.llama.modeling_llama.LlamaSdpaAttention with Llama->Phi3
+# TODO @Arthur no longer copied from LLama after static cache
+class Phi3SdpaAttention(Phi3Attention):
+    """
+    Phi3 attention module using torch.nn.functional.scaled_dot_product_attention. This module inherits from
+    `Phi3Attention` as the weights of the module stays untouched. The only changes are on the forward pass to adapt to
+    SDPA API.
+    """
+
+    # Adapted from Phi3Attention.forward
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        if output_attentions:
+            # TODO: Improve this warning with e.g. `model.config.attn_implementation = "manual"` once this is implemented.
+            logger.warning_once(
+                "Phi3Model is using Phi3SdpaAttention, but `torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to the manual attention implementation, "
+                'but specifying the manual implementation will be required from Transformers version v5.0.0 onwards. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.'
+            )
+            return super().forward(
+                hidden_states=hidden_states,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                past_key_value=past_key_value,
+                output_attentions=output_attentions,
+                use_cache=use_cache,
+            )
+
+        bsz, q_len, _ = hidden_states.size()
+
+        qkv = self.qkv_proj(hidden_states)
+        query_pos = self.num_heads * self.head_dim
+        query_states = qkv[..., :query_pos]
+        key_states = qkv[..., query_pos : query_pos + self.num_key_value_heads * self.head_dim]
+        value_states = qkv[..., query_pos + self.num_key_value_heads * self.head_dim :]
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, position_ids, seq_len=kv_seq_len)
+
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+
+        # SDPA with memory-efficient backend is currently (torch==2.1.2) bugged with non-contiguous inputs with custom attn_mask,
+        # Reference: https://github.com/pytorch/pytorch/issues/112577.
+        if query_states.device.type == "cuda" and attention_mask is not None:
+            query_states = query_states.contiguous()
+            key_states = key_states.contiguous()
+            value_states = value_states.contiguous()
+
+        attn_output = torch.nn.functional.scaled_dot_product_attention(
+            query_states,
+            key_states,
+            value_states,
+            attn_mask=attention_mask,
+            dropout_p=self.attention_dropout if self.training else 0.0,
+            # The q_len > 1 is necessary to match with AttentionMaskConverter.to_causal_4d that does not create a causal mask in case q_len == 1.
+            is_causal=self.is_causal and attention_mask is None and q_len > 1,
+        )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.view(bsz, q_len, self.hidden_size)
+
+        attn_output = self.o_proj(attn_output)
+
+        return attn_output, None, past_key_value
+
+
+PHI3_ATTENTION_CLASSES = {
+    "eager": Phi3Attention,
+    "flash_attention_2": Phi3FlashAttention2,
+    "sdpa": Phi3SdpaAttention,
+}
+
+
+class Phi3DecoderLayer(nn.Module):
+    def __init__(self, config: Phi3Config, layer_idx: int):
+        super().__init__()
+
+        self.config = config
+        self.self_attn = PHI3_ATTENTION_CLASSES[config._attn_implementation](config, layer_idx=layer_idx)
+
+        self.mlp = Phi3MLP(config)
+        self.input_layernorm = Phi3RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.resid_attn_dropout = nn.Dropout(config.resid_pdrop)
+        self.resid_mlp_dropout = nn.Dropout(config.resid_pdrop)
+        self.post_attention_layernorm = Phi3RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: Optional[bool] = False,
+        use_cache: Optional[bool] = False,
+        **kwargs,
+    ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+        """
+        Args:
+            hidden_states (`torch.FloatTensor`):
+                input to the layer of shape `(batch, seq_len, embed_dim)`
+            attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
+                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
+            position_ids (`torch.LongTensor` of shape `({0})`, *optional*):
+                Indices of positions of each input sequence tokens in the position embeddings. Selected in the range
+                `[0, config.n_positions - 1]`. [What are position IDs?](../glossary#position-ids)
+            output_attentions (`bool`, *optional*):
+                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
+                returned tensors for more detail.
+            use_cache (`bool`, *optional*):
+                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
+                (see `past_key_values`).
+            past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
+        """
+
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self Attention
+        attn_outputs, self_attn_weights, present_key_value = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+        )
+
+        hidden_states = residual + self.resid_attn_dropout(attn_outputs)
+
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + self.resid_mlp_dropout(hidden_states)
+
+        outputs = (hidden_states,)
+
+        if output_attentions:
+            outputs += (self_attn_weights,)
+
+        if use_cache:
+            outputs += (present_key_value,)
+
+        return outputs
+
+
+PHI3_START_DOCSTRING = r"""
+    This model inherits from [`PreTrainedModel`]. Check the superclass documentation for the generic methods the
+    library implements for all its model (such as downloading or saving, resizing the input embeddings, pruning heads
+    etc.)
+
+    This model is also a PyTorch [torch.nn.Module](https://pytorch.org/docs/stable/nn.html#torch.nn.Module) subclass.
+    Use it as a regular PyTorch Module and refer to the PyTorch documentation for all matter related to general usage
+    and behavior.
+
+    Parameters:
+        config ([`Phi3Config`]):
+            Model configuration class with all the parameters of the model. Initializing with a config file does not
+            load the weights associated with the model, only the configuration. Check out the
+            [`~PreTrainedModel.from_pretrained`] method to load the model weights.
+"""
+
+
+@add_start_docstrings(
+    "The bare Phi-3 model outputting raw hidden-states without any specific head on top.",
+    PHI3_START_DOCSTRING,
+)
+class Phi3PreTrainedModel(PreTrainedModel):
+    config_class = Phi3Config
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["Phi3DecoderLayer"]
+    _skip_keys_device_placement = "past_key_values"
+    _supports_flash_attn_2 = True
+    _supports_sdpa = False
+    _supports_cache_class = True
+
+    _version = "0.0.5"
+
+    def _init_weights(self, module):
+        std = self.config.initializer_range
+        if isinstance(module, nn.Linear):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+
+
+PHI3_INPUTS_DOCSTRING = r"""
+    Args:
+        input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
+            Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you provide
+            it.
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            [What are input IDs?](../glossary#input-ids)
+        attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
+
+            - 1 for tokens that are **not masked**,
+            - 0 for tokens that are **masked**.
+
+            [What are attention masks?](../glossary#attention-mask)
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            If `past_key_values` is used, optionally only the last `input_ids` have to be input (see
+            `past_key_values`).
+
+            If you want to change padding behavior, you should read [`modeling_opt._prepare_decoder_attention_mask`]
+            and modify to your needs. See diagram 1 in [the paper](https://arxiv.org/abs/1910.13461) for more
+            information on the default strategy.
+
+            - 1 indicates the head is **not masked**,
+            - 0 indicates the head is **masked**.
+        position_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
+            config.n_positions - 1]`.
+
+            [What are position IDs?](../glossary#position-ids)
+        past_key_values (`Cache` or `tuple(tuple(torch.FloatTensor))`, *optional*):
+            Pre-computed hidden-states (key and values in the self-attention blocks and in the cross-attention
+            blocks) that can be used to speed up sequential decoding. This typically consists in the `past_key_values`
+            returned by the model at a previous stage of decoding, when `use_cache=True` or `config.use_cache=True`.
+
+            Two formats are allowed:
+            - a [`~cache_utils.Cache`] instance;
+            - Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
+            shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`). This is also known as the legacy
+            cache format.
+
+            The model will output the same cache format that is fed as input. If no `past_key_values` are passed, the
+            legacy cache format will be returned.
+
+            If `past_key_values` are used, the user can optionally input only the last `input_ids` (those that don't
+            have their past key value states given to this model) of shape `(batch_size, 1)` instead of all `input_ids`
+            of shape `(batch_size, sequence_length)`.
+        inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
+            Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
+            is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
+            model's internal embedding lookup matrix.
+        use_cache (`bool`, *optional*):
+            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
+            `past_key_values`).
+        output_attentions (`bool`, *optional*):
+            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
+            tensors for more detail.
+        output_hidden_states (`bool`, *optional*):
+            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
+            more detail.
+        return_dict (`bool`, *optional*):
+            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
+"""
+
+
+@add_start_docstrings(
+    "The bare Phi-3 model outputting raw hidden-states without any specific head on top.",
+    PHI3_START_DOCSTRING,
+)
+class Phi3Model(Phi3PreTrainedModel):
+    """
+    Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`Phi3DecoderLayer`]
+
+    Args:
+        config: Phi3Config
+    """
+
+    def __init__(self, config: Phi3Config):
+        super().__init__(config)
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
+        self.embed_dropout = nn.Dropout(config.embd_pdrop)
+        self.layers = nn.ModuleList(
+            [Phi3DecoderLayer(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
+        )
+        self._attn_implementation = config._attn_implementation
+        self.norm = Phi3RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.gradient_checkpointing = False
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(PHI3_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # retrieve input_ids and inputs_embeds
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both input_ids and inputs_embeds at the same time")
+        elif input_ids is not None:
+            batch_size, seq_length = input_ids.shape[:2]
+        elif inputs_embeds is not None:
+            batch_size, seq_length = inputs_embeds.shape[:2]
+        else:
+            raise ValueError("You have to specify either input_ids or inputs_embeds")
+
+        past_key_values_length = 0
+
+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
+        if use_cache:
+            use_legacy_cache = not isinstance(past_key_values, Cache)
+            if use_legacy_cache:
+                past_key_values = DynamicCache.from_legacy_cache(past_key_values)
+            past_key_values_length = past_key_values.get_usable_length(seq_length)
+
+        if position_ids is None:
+            device = input_ids.device if input_ids is not None else inputs_embeds.device
+            position_ids = torch.arange(
+                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=device
+            )
+            position_ids = position_ids.unsqueeze(0).view(-1, seq_length)
+        else:
+            position_ids = position_ids.view(-1, seq_length).long()
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+
+        if attention_mask is not None and self._attn_implementation == "flash_attention_2" and use_cache:
+            is_padding_right = attention_mask[:, -1].sum().item() != batch_size
+            if is_padding_right:
+                raise ValueError(
+                    "You are attempting to perform batched generation with padding_side='right'"
+                    " this may lead to unexpected behaviour for Flash Attention version of Phi3. Make sure to "
+                    " call `tokenizer.padding_side  = 'left'` before tokenizing the input. "
+                )
+
+        if self._attn_implementation == "flash_attention_2":
+            # 2d mask is passed through the layers
+            attention_mask = attention_mask if (attention_mask is not None and 0 in attention_mask) else None
+        else:
+            # 4d mask is passed through the layers
+            attention_mask = _prepare_4d_causal_attention_mask(
+                attention_mask,
+                (batch_size, seq_length),
+                inputs_embeds,
+                past_key_values_length,
+                sliding_window=self.config.sliding_window,
+            )
+
+        hidden_states = inputs_embeds
+
+        # decoder layers
+        all_hidden_states = () if output_hidden_states else None
+        all_self_attns = () if output_attentions else None
+        next_decoder_cache = None
+
+        for decoder_layer in self.layers:
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+
+            if self.gradient_checkpointing and self.training:
+                layer_outputs = self._gradient_checkpointing_func(
+                    decoder_layer.__call__,
+                    hidden_states,
+                    attention_mask,
+                    position_ids,
+                    past_key_values,
+                    output_attentions,
+                    use_cache,
+                )
+            else:
+                layer_outputs = decoder_layer(
+                    hidden_states,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_value=past_key_values,
+                    output_attentions=output_attentions,
+                    use_cache=use_cache,
+                )
+
+            hidden_states = layer_outputs[0]
+
+            if use_cache:
+                next_decoder_cache = layer_outputs[2 if output_attentions else 1]
+
+            if output_attentions:
+                all_self_attns += (layer_outputs[1],)
+
+        hidden_states = self.norm(hidden_states)
+
+        # add hidden states from the last decoder layer
+        if output_hidden_states:
+            all_hidden_states += (hidden_states,)
+
+        next_cache = None
+        if use_cache:
+            next_cache = next_decoder_cache.to_legacy_cache() if use_legacy_cache else next_decoder_cache
+        if not return_dict:
+            return tuple(v for v in [hidden_states, next_cache, all_hidden_states, all_self_attns] if v is not None)
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=next_cache,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attns,
+        )
+
+
+class Phi3ForCausalLM(Phi3PreTrainedModel):
+    _tied_weights_keys = ["lm_head.weight"]
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.__init__ with Llama->Phi3
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = Phi3Model(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.get_input_embeddings
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.set_input_embeddings
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.get_output_embeddings
+    def get_output_embeddings(self):
+        return self.lm_head
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.set_output_embeddings
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head = new_embeddings
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.set_decoder
+    def set_decoder(self, decoder):
+        self.model = decoder
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM.get_decoder
+    def get_decoder(self):
+        return self.model
+
+    # Ignore copy
+    @add_start_docstrings_to_model_forward(PHI3_INPUTS_DOCSTRING)
+    @replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        r"""
+        Args:
+            labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+                Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+                config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+                (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+
+        Returns:
+
+        Example:
+
+        ```python
+        >>> from transformers import AutoTokenizer, Phi3ForCausalLM
+
+        >>> model = Phi3ForCausalLM.from_pretrained("microsoft/phi-3-mini-4k-instruct")
+        >>> tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-3-mini-4k-instruct")
+
+        >>> prompt = "This is an example script ."
+        >>> inputs = tokenizer(prompt, return_tensors="pt")
+
+        >>> # Generate
+        >>> generate_ids = model.generate(inputs.input_ids, max_length=30)
+        >>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        'This is an example script .\n Certainly! Below is a sample script that demonstrates a simple task, such as calculating the sum'
+        ```"""
+
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.model(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = outputs[0]
+        logits = self.lm_head(hidden_states)
+        logits = logits.float()
+
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = CrossEntropyLoss()
+            shift_logits = shift_logits.view(-1, self.config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+
+    # Copied from transformers.models.persimmon.modeling_persimmon.PersimmonForCausalLM.prepare_inputs_for_generation
+    def prepare_inputs_for_generation(
+        self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
+    ):
+        if past_key_values is not None:
+            if isinstance(past_key_values, Cache):
+                cache_length = past_key_values.get_seq_length()
+                past_length = past_key_values.seen_tokens
+                max_cache_length = past_key_values.get_max_length()
+            else:
+                cache_length = past_length = past_key_values[0][0].shape[2]
+                max_cache_length = None
+
+            # Keep only the unprocessed tokens:
+            # 1 - If the length of the attention_mask exceeds the length of input_ids, then we are in a setting where
+            # some of the inputs are exclusively passed as part of the cache (e.g. when passing input_embeds as
+            # input)
+            if attention_mask is not None and attention_mask.shape[1] > input_ids.shape[1]:
+                input_ids = input_ids[:, -(attention_mask.shape[1] - past_length) :]
+            # 2 - If the past_length is smaller than input_ids', then input_ids holds all input tokens. We can discard
+            # input_ids based on the past_length.
+            elif past_length < input_ids.shape[1]:
+                input_ids = input_ids[:, past_length:]
+            # 3 - Otherwise (past_length >= input_ids.shape[1]), let's assume input_ids only has unprocessed tokens.
+            else:
+                remove_prefix_length = input_ids.shape[1] - 1
+                input_ids = input_ids[:, remove_prefix_length:]
+            # If we are about to go beyond the maximum cache length, we need to crop the input attention mask.
+            if (
+                max_cache_length is not None
+                and attention_mask is not None
+                and cache_length + input_ids.shape[1] > max_cache_length
+            ):
+                attention_mask = attention_mask[:, -max_cache_length:]
+
+        position_ids = kwargs.get("position_ids", None)
+        if attention_mask is not None and position_ids is None:
+            # create position_ids on the fly for batch generation
+            position_ids = attention_mask.long().cumsum(-1) - 1
+            position_ids.masked_fill_(attention_mask == 0, 1)
+            if past_key_values:
+                position_ids = position_ids[:, -input_ids.shape[1] :]
+
+        # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids}
+
+        model_inputs.update(
+            {
+                "position_ids": position_ids,
+                "past_key_values": past_key_values,
+                "use_cache": kwargs.get("use_cache"),
+                "attention_mask": attention_mask,
+            }
+        )
+        return model_inputs
+
+    @staticmethod
+    # Copied from transformers.models.llama.modeling_llama.LlamaForCausalLM._reorder_cache
+    def _reorder_cache(past_key_values, beam_idx):
+        reordered_past = ()
+        for layer_past in past_key_values:
+            reordered_past += (
+                tuple(past_state.index_select(0, beam_idx.to(past_state.device)) for past_state in layer_past),
+            )
+        return reordered_past
+
+
+@add_start_docstrings(
+    """
+    The [`Phi3Model`] with a sequence classification head on top (linear layer).
+
+    [`Phi3ForSequenceClassification`] uses the last token in order to do the classification, as other causal models
+    (e.g. GPT-2) do.
+
+    Since it does classification on the last token, it requires to know the position of the last token. If a
+    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
+    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
+    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
+    each row of the batch).
+    """,
+    PHI3_START_DOCSTRING,
+)
+# Copied from transformers.models.llama.modeling_llama.LlamaForSequenceClassification with Llama->Phi3, LLAMA->PHI3, self.transformer->self.model, transformer_outputs->model_outputs
+class Phi3ForSequenceClassification(Phi3PreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        self.model = Phi3Model(config)
+        self.score = nn.Linear(config.hidden_size, self.num_labels, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(PHI3_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, SequenceClassifierOutputWithPast]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
+            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
+            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        model_outputs = self.model(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        hidden_states = model_outputs[0]
+        logits = self.score(hidden_states)
+
+        if input_ids is not None:
+            batch_size = input_ids.shape[0]
+        else:
+            batch_size = inputs_embeds.shape[0]
+
+        if self.config.pad_token_id is None and batch_size != 1:
+            raise ValueError("Cannot handle batch sizes > 1 if no padding token is defined.")
+        if self.config.pad_token_id is None:
+            sequence_lengths = -1
+        else:
+            if input_ids is not None:
+                # if no pad token found, use modulo instead of reverse indexing for ONNX compatibility
+                sequence_lengths = torch.eq(input_ids, self.config.pad_token_id).int().argmax(-1) - 1
+                sequence_lengths = sequence_lengths % input_ids.shape[-1]
+                sequence_lengths = sequence_lengths.to(logits.device)
+            else:
+                sequence_lengths = -1
+
+        pooled_logits = logits[torch.arange(batch_size, device=logits.device), sequence_lengths]
+
+        loss = None
+        if labels is not None:
+            labels = labels.to(logits.device)
+            if self.config.problem_type is None:
+                if self.num_labels == 1:
+                    self.config.problem_type = "regression"
+                elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
+                    self.config.problem_type = "single_label_classification"
+                else:
+                    self.config.problem_type = "multi_label_classification"
+
+            if self.config.problem_type == "regression":
+                loss_fct = MSELoss()
+                if self.num_labels == 1:
+                    loss = loss_fct(pooled_logits.squeeze(), labels.squeeze())
+                else:
+                    loss = loss_fct(pooled_logits, labels)
+            elif self.config.problem_type == "single_label_classification":
+                loss_fct = CrossEntropyLoss()
+                loss = loss_fct(pooled_logits.view(-1, self.num_labels), labels.view(-1))
+            elif self.config.problem_type == "multi_label_classification":
+                loss_fct = BCEWithLogitsLoss()
+                loss = loss_fct(pooled_logits, labels)
+        if not return_dict:
+            output = (pooled_logits,) + model_outputs[1:]
+            return ((loss,) + output) if loss is not None else output
+
+        return SequenceClassifierOutputWithPast(
+            loss=loss,
+            logits=pooled_logits,
+            past_key_values=model_outputs.past_key_values,
+            hidden_states=model_outputs.hidden_states,
+            attentions=model_outputs.attentions,
+        )
+
+
+@add_start_docstrings(
+    """
+    [`Phi3Model`] with a token classification head on top (a linear layer on top of the hidden-states output) e.g. for
+    Named-Entity-Recognition (NER) tasks.
+    """,
+    PHI3_START_DOCSTRING,
+)
+# Copied from transformers.models.mpt.modeling_mpt.MptForTokenClassification with Mpt->Phi3,MPT->PHI3,self.transformer->self.model,transformer_outputs->model_outputs
+class Phi3ForTokenClassification(Phi3PreTrainedModel):
+    def __init__(self, config: Phi3Config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+
+        self.model = Phi3Model(config)
+        if hasattr(config, "classifier_dropout") and config.classifier_dropout is not None:
+            classifier_dropout = config.classifier_dropout
+        elif hasattr(config, "hidden_dropout") and config.hidden_dropout is not None:
+            classifier_dropout = config.hidden_dropout
+        else:
+            classifier_dropout = 0.1
+        self.dropout = nn.Dropout(classifier_dropout)
+        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    @add_start_docstrings_to_model_forward(PHI3_INPUTS_DOCSTRING)
+    @add_code_sample_docstrings(
+        checkpoint=_CHECKPOINT_FOR_DOC,
+        output_type=TokenClassifierOutput,
+        config_class=_CONFIG_FOR_DOC,
+    )
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.Tensor, torch.Tensor], ...]] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        labels: Optional[torch.Tensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        **deprecated_arguments,
+    ) -> Union[Tuple[torch.Tensor], TokenClassifierOutput]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
+            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
+            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        model_outputs = self.model(
+            input_ids,
+            past_key_values=past_key_values,
+            attention_mask=attention_mask,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = model_outputs[0]
+        hidden_states = self.dropout(hidden_states)
+        logits = self.classifier(hidden_states)
+
+        loss = None
+        if labels is not None:
+            # move labels to correct device to enable model parallelism
+            labels = labels.to(logits.device)
+            batch_size, seq_length = labels.shape
+            loss_fct = CrossEntropyLoss()
+            loss = loss_fct(
+                logits.view(batch_size * seq_length, self.num_labels), labels.view(batch_size * seq_length)
+            )
+
+        if not return_dict:
+            output = (logits,) + model_outputs[2:]
+            return ((loss,) + output) if loss is not None else output
+
+        return TokenClassifierOutput(
+            loss=loss,
+            logits=logits,
+            hidden_states=model_outputs.hidden_states,
+            attentions=model_outputs.attentions,
+        )
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/__init__.py b/Unicorn_dense/bunny/model/language_model/qwen2/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..b739f931448214584fffbdc5ffa8c36473001035
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/qwen2/__init__.py
@@ -0,0 +1,80 @@
+# Copyright 2024 The Qwen Team and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from typing import TYPE_CHECKING
+
+from transformers.utils import (
+    OptionalDependencyNotAvailable,
+    _LazyModule,
+    is_tokenizers_available,
+    is_torch_available,
+)
+
+
+_import_structure = {
+    "configuration_qwen2": ["QWEN2_PRETRAINED_CONFIG_ARCHIVE_MAP", "Qwen2Config"],
+    "tokenization_qwen2": ["Qwen2Tokenizer"],
+}
+
+try:
+    if not is_tokenizers_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["tokenization_qwen2_fast"] = ["Qwen2TokenizerFast"]
+
+try:
+    if not is_torch_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["modeling_qwen2"] = [
+        "Qwen2ForCausalLM",
+        "Qwen2Model",
+        "Qwen2PreTrainedModel",
+        "Qwen2ForSequenceClassification",
+    ]
+
+
+if TYPE_CHECKING:
+    from .configuration_qwen2 import QWEN2_PRETRAINED_CONFIG_ARCHIVE_MAP, Qwen2Config
+    from .tokenization_qwen2 import Qwen2Tokenizer
+
+    try:
+        if not is_tokenizers_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .tokenization_qwen2_fast import Qwen2TokenizerFast
+
+    try:
+        if not is_torch_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .modeling_qwen2 import (
+            Qwen2ForCausalLM,
+            Qwen2ForSequenceClassification,
+            Qwen2Model,
+            Qwen2PreTrainedModel,
+        )
+
+
+else:
+    import sys
+
+    sys.modules[__name__] = _LazyModule(__name__, globals()["__file__"], _import_structure, module_spec=__spec__)
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fa378bd44767b387408631c5c356718eb44c49f4
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/configuration_qwen2.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/configuration_qwen2.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..432b6ed02fce610207d8aaee70d9b8b7e58e2041
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/configuration_qwen2.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/modeling_qwen2.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/modeling_qwen2.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..832a6bd2b158b44141ea736a3b7f493b51a30651
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/qwen2/__pycache__/modeling_qwen2.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/configuration_qwen2.py b/Unicorn_dense/bunny/model/language_model/qwen2/configuration_qwen2.py
new file mode 100644
index 0000000000000000000000000000000000000000..c3d72b298d2f10ce17458198058237a0784ad26b
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/qwen2/configuration_qwen2.py
@@ -0,0 +1,144 @@
+# coding=utf-8
+# Copyright 2024 The Qwen team, Alibaba Group and the HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" Qwen2 model configuration"""
+
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+
+
+logger = logging.get_logger(__name__)
+
+QWEN2_PRETRAINED_CONFIG_ARCHIVE_MAP = {
+    "Qwen/Qwen2-7B-beta": "https://huggingface.co/Qwen/Qwen2-7B-beta/resolve/main/config.json",
+}
+
+
+class Qwen2Config(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`Qwen2Model`]. It is used to instantiate a
+    Qwen2 model according to the specified arguments, defining the model architecture. Instantiating a configuration
+    with the defaults will yield a similar configuration to that of
+    Qwen2-7B-beta [Qwen/Qwen2-7B-beta](https://huggingface.co/Qwen/Qwen2-7B-beta).
+
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 151936):
+            Vocabulary size of the Qwen2 model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`Qwen2Model`]
+        hidden_size (`int`, *optional*, defaults to 4096):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 22016):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer encoder.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        num_key_value_heads (`int`, *optional*, defaults to 32):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to `32`.
+        hidden_act (`str` or `function`, *optional*, defaults to `"silu"`):
+            The non-linear activation function (function or string) in the decoder.
+        max_position_embeddings (`int`, *optional*, defaults to 32768):
+            The maximum sequence length that this model might ever be used with.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        rms_norm_eps (`float`, *optional*, defaults to 1e-06):
+            The epsilon used by the rms normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`.
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether the model's input and output word embeddings should be tied.
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        use_sliding_window (`bool`, *optional*, defaults to `False`):
+            Whether to use sliding window attention.
+        sliding_window (`int`, *optional*, defaults to 4096):
+            Sliding window attention (SWA) window size. If not specified, will default to `4096`.
+        max_window_layers (`int`, *optional*, defaults to 28):
+            The number of layers that use SWA (Sliding Window Attention). The bottom layers use SWA while the top use full attention.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+
+    ```python
+    >>> from transformers import Qwen2Model, Qwen2Config
+
+    >>> # Initializing a Qwen2 style configuration
+    >>> configuration = Qwen2Config()
+
+    >>> # Initializing a model from the Qwen2-7B style configuration
+    >>> model = Qwen2Model(configuration)
+
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```"""
+
+    model_type = "qwen2"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=151936,
+        hidden_size=4096,
+        intermediate_size=22016,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=32,
+        hidden_act="silu",
+        max_position_embeddings=32768,
+        initializer_range=0.02,
+        rms_norm_eps=1e-6,
+        use_cache=True,
+        tie_word_embeddings=False,
+        rope_theta=10000.0,
+        use_sliding_window=False,
+        sliding_window=4096,
+        max_window_layers=28,
+        attention_dropout=0.0,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.use_sliding_window = use_sliding_window
+        self.sliding_window = sliding_window
+        self.max_window_layers = max_window_layers
+
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.rms_norm_eps = rms_norm_eps
+        self.use_cache = use_cache
+        self.rope_theta = rope_theta
+        self.attention_dropout = attention_dropout
+
+        super().__init__(
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/modeling_qwen2.py b/Unicorn_dense/bunny/model/language_model/qwen2/modeling_qwen2.py
new file mode 100644
index 0000000000000000000000000000000000000000..fed91276a28ae23072c31f15c86d5334989c2366
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/qwen2/modeling_qwen2.py
@@ -0,0 +1,1403 @@
+# coding=utf-8
+# Copyright 2024 The Qwen team, Alibaba Group and the HuggingFace Inc. team. All rights reserved.
+#
+# This code is based on EleutherAI's GPT-NeoX library and the GPT-NeoX
+# and OPT implementations in this library. It has been modified from its
+# original forms to accommodate minor architectural differences compared
+# to GPT-NeoX and OPT used by the Meta AI team that trained the model.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" PyTorch Qwen2 model."""
+import inspect
+import math
+import warnings
+from typing import List, Optional, Tuple, Union
+
+import torch
+import torch.nn.functional as F
+import torch.utils.checkpoint
+from torch import nn
+from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
+
+from transformers.activations import ACT2FN
+from transformers.cache_utils import Cache, DynamicCache
+from transformers.modeling_attn_mask_utils import _prepare_4d_causal_attention_mask, _prepare_4d_causal_attention_mask_for_sdpa
+from transformers.modeling_outputs import BaseModelOutputWithPast, CausalLMOutputWithPast, SequenceClassifierOutputWithPast
+from transformers.modeling_utils import PreTrainedModel
+from transformers.utils import (
+    add_start_docstrings,
+    add_start_docstrings_to_model_forward,
+    is_flash_attn_2_available,
+    is_flash_attn_greater_or_equal_2_10,
+    logging,
+    replace_return_docstrings,
+)
+from .configuration_qwen2 import Qwen2Config
+
+
+if is_flash_attn_2_available():
+    from flash_attn import flash_attn_func, flash_attn_varlen_func
+    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
+
+    _flash_supports_window_size = "window_size" in list(inspect.signature(flash_attn_func).parameters)
+
+
+logger = logging.get_logger(__name__)
+
+
+_CHECKPOINT_FOR_DOC = "Qwen/Qwen2-7B-beta"
+_CONFIG_FOR_DOC = "Qwen2Config"
+
+QWEN2_PRETRAINED_MODEL_ARCHIVE_LIST = [
+    "Qwen/Qwen2-7B-beta",
+    # See all Qwen2 models at https://huggingface.co/models?filter=qwen2
+]
+
+
+# Copied from transformers.models.llama.modeling_llama._get_unpad_data
+def _get_unpad_data(attention_mask):
+    seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
+    indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
+    max_seqlen_in_batch = seqlens_in_batch.max().item()
+    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.int32), (1, 0))
+    return (
+        indices,
+        cu_seqlens,
+        max_seqlen_in_batch,
+    )
+
+
+# Copied from transformers.models.llama.modeling_llama.LlamaRMSNorm with Llama->Qwen2
+class Qwen2RMSNorm(nn.Module):
+    def __init__(self, hidden_size, eps=1e-6):
+        """
+        Qwen2RMSNorm is equivalent to T5LayerNorm
+        """
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(hidden_size))
+        self.variance_epsilon = eps
+
+    def forward(self, hidden_states):
+        input_dtype = hidden_states.dtype
+        hidden_states = hidden_states.to(torch.float32)
+        variance = hidden_states.pow(2).mean(-1, keepdim=True)
+        hidden_states = hidden_states * torch.rsqrt(variance + self.variance_epsilon)
+        return self.weight * hidden_states.to(input_dtype)
+
+
+# Copied from transformers.models.mistral.modeling_mistral.MistralRotaryEmbedding with Mistral->Qwen2
+class Qwen2RotaryEmbedding(nn.Module):
+    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
+        super().__init__()
+
+        self.dim = dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, dtype=torch.int64).float().to(device) / self.dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+        # Build here to make `torch.jit.trace` work.
+        self._set_cos_sin_cache(
+            seq_len=max_position_embeddings, device=self.inv_freq.device, dtype=torch.get_default_dtype()
+        )
+
+    def _set_cos_sin_cache(self, seq_len, device, dtype):
+        self.max_seq_len_cached = seq_len
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=torch.int64).type_as(self.inv_freq)
+
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+        self.register_buffer("cos_cached", emb.cos().to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin().to(dtype), persistent=False)
+
+    def forward(self, x, seq_len=None):
+        # x: [bs, num_attention_heads, seq_len, head_size]
+        if seq_len > self.max_seq_len_cached:
+            self._set_cos_sin_cache(seq_len=seq_len, device=x.device, dtype=x.dtype)
+
+        return (
+            self.cos_cached[:seq_len].to(dtype=x.dtype),
+            self.sin_cached[:seq_len].to(dtype=x.dtype),
+        )
+
+
+# Copied from transformers.models.llama.modeling_llama.rotate_half
+def rotate_half(x):
+    """Rotates half the hidden dims of the input."""
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2 :]
+    return torch.cat((-x2, x1), dim=-1)
+
+
+# Copied from transformers.models.mistral.modeling_mistral.apply_rotary_pos_emb
+def apply_rotary_pos_emb(q, k, cos, sin, position_ids, unsqueeze_dim=1):
+    """Applies Rotary Position Embedding to the query and key tensors.
+
+    Args:
+        q (`torch.Tensor`): The query tensor.
+        k (`torch.Tensor`): The key tensor.
+        cos (`torch.Tensor`): The cosine part of the rotary embedding.
+        sin (`torch.Tensor`): The sine part of the rotary embedding.
+        position_ids (`torch.Tensor`):
+            The position indices of the tokens corresponding to the query and key tensors. For example, this can be
+            used to pass offsetted position ids when working with a KV-cache.
+        unsqueeze_dim (`int`, *optional*, defaults to 1):
+            The 'unsqueeze_dim' argument specifies the dimension along which to unsqueeze cos[position_ids] and
+            sin[position_ids] so that they can be properly broadcasted to the dimensions of q and k. For example, note
+            that cos[position_ids] and sin[position_ids] have the shape [batch_size, seq_len, head_dim]. Then, if q and
+            k have the shape [batch_size, heads, seq_len, head_dim], then setting unsqueeze_dim=1 makes
+            cos[position_ids] and sin[position_ids] broadcastable to the shapes of q and k. Similarly, if q and k have
+            the shape [batch_size, seq_len, heads, head_dim], then set unsqueeze_dim=2.
+    Returns:
+        `tuple(torch.Tensor)` comprising of the query and key tensors rotated using the Rotary Position Embedding.
+    """
+    cos = cos[position_ids].unsqueeze(unsqueeze_dim)
+    sin = sin[position_ids].unsqueeze(unsqueeze_dim)
+    q_embed = (q * cos) + (rotate_half(q) * sin)
+    k_embed = (k * cos) + (rotate_half(k) * sin)
+    return q_embed, k_embed
+
+
+# Copied from transformers.models.mistral.modeling_mistral.MistralMLP with Mistral->Qwen2
+class Qwen2MLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=False)
+        self.act_fn = ACT2FN[config.hidden_act]
+
+    def forward(self, x):
+        return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))
+
+
+# Copied from transformers.models.llama.modeling_llama.repeat_kv
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+
+
+class Qwen2Attention(nn.Module):
+    """
+    Multi-headed attention from 'Attention Is All You Need' paper. Modified to use sliding window attention: Longformer
+    and "Generating Long Sequences with Sparse Transformers".
+    """
+
+    def __init__(self, config: Qwen2Config, layer_idx: Optional[int] = None):
+        super().__init__()
+        self.config = config
+        self.layer_idx = layer_idx
+        if layer_idx is None:
+            logger.warning_once(
+                f"Instantiating {self.__class__.__name__} without passing `layer_idx` is not recommended and will "
+                "to errors during the forward call, if caching is used. Please make sure to provide a `layer_idx` "
+                "when creating this class."
+            )
+
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.num_key_value_heads = config.num_key_value_heads
+        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = config.rope_theta
+        self.is_causal = True
+        self.attention_dropout = config.attention_dropout
+
+        if (self.head_dim * self.num_heads) != self.hidden_size:
+            raise ValueError(
+                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
+                f" and `num_heads`: {self.num_heads})."
+            )
+        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=True)
+        self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=True)
+        self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=True)
+        self.o_proj = nn.Linear(self.num_heads * self.head_dim, self.hidden_size, bias=False)
+
+        self.rotary_emb = Qwen2RotaryEmbedding(
+            self.head_dim,
+            max_position_embeddings=self.max_position_embeddings,
+            base=self.rope_theta,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            if self.layer_idx is None:
+                raise ValueError(
+                    f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
+                    "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
+                    "with a layer index."
+                )
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # repeat k/v heads if n_kv_heads < n_heads
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
+
+        if attn_weights.size() != (bsz, self.num_heads, q_len, kv_seq_len):
+            raise ValueError(
+                f"Attention weights should be of size {(bsz, self.num_heads, q_len, kv_seq_len)}, but is"
+                f" {attn_weights.size()}"
+            )
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+
+            attn_weights = attn_weights + attention_mask
+
+        # upcast attention to fp32
+        attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)
+        attn_weights = nn.functional.dropout(attn_weights, p=self.attention_dropout, training=self.training)
+        attn_output = torch.matmul(attn_weights, value_states)
+
+        if attn_output.size() != (bsz, self.num_heads, q_len, self.head_dim):
+            raise ValueError(
+                f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                f" {attn_output.size()}"
+            )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+
+class Qwen2FlashAttention2(Qwen2Attention):
+    """
+    Qwen2 flash attention module, following Qwen2 attention module. This module inherits from `Qwen2Attention`
+    as the weights of the module stays untouched. The only required change would be on the forward pass
+    where it needs to correctly call the public API of flash attention and deal with padding tokens
+    in case the input contains any of them. Additionally, for sliding window attention, we apply SWA only to the bottom
+    config.max_window_layers layers.
+    """
+
+    # Copied from transformers.models.llama.modeling_llama.LlamaFlashAttention2.__init__
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        # TODO: Should be removed once Flash Attention for RoCm is bumped to 2.1.
+        # flash_attn<2.1 generates top-left aligned causal mask, while what is needed here is bottom-right alignement, that was made default for flash_attn>=2.1. This attribute is used to handle this difference. Reference: https://github.com/Dao-AILab/flash-attention/releases/tag/v2.1.0.
+        # Beware that with flash_attn<2.1, using q_seqlen != k_seqlen (except for the case q_seqlen == 1) produces a wrong mask (top-left).
+        self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ):
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+
+            # overwrite attention_mask with padding_mask
+            attention_mask = kwargs.pop("padding_mask")
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            if self.layer_idx is None:
+                raise ValueError(
+                    f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
+                    "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
+                    "with a layer index."
+                )
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+
+        # Because the input can be padded, the absolute sequence length depends on the max position id.
+        rotary_seq_len = max(kv_seq_len, position_ids[:, -1].max().item()) + 1
+        cos, sin = self.rotary_emb(value_states, seq_len=rotary_seq_len)
+
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        use_sliding_windows = (
+            _flash_supports_window_size
+            and getattr(self.config, "sliding_window", None) is not None
+            and kv_seq_len > self.config.sliding_window
+            and self.config.use_sliding_window
+        )
+
+        if not _flash_supports_window_size:
+            logger.warning_once(
+                "The current flash attention version does not support sliding window attention, for a more memory efficient implementation"
+                " make sure to upgrade flash-attn library."
+            )
+
+        if past_key_value is not None:
+            # Activate slicing cache only if the config has a value `sliding_windows` attribute
+            cache_has_contents = past_key_value.get_seq_length(self.layer_idx) > 0
+            if (
+                getattr(self.config, "sliding_window", None) is not None
+                and kv_seq_len > self.config.sliding_window
+                and cache_has_contents
+            ):
+                slicing_tokens = 1 - self.config.sliding_window
+
+                past_key = past_key_value[self.layer_idx][0]
+                past_value = past_key_value[self.layer_idx][1]
+
+                past_key = past_key[:, :, slicing_tokens:, :].contiguous()
+                past_value = past_value[:, :, slicing_tokens:, :].contiguous()
+
+                if past_key.shape[-2] != self.config.sliding_window - 1:
+                    raise ValueError(
+                        f"past key must have a shape of (`batch_size, num_heads, self.config.sliding_window-1, head_dim`), got"
+                        f" {past_key.shape}"
+                    )
+
+                if attention_mask is not None:
+                    attention_mask = attention_mask[:, slicing_tokens:]
+                    attention_mask = torch.cat([attention_mask, torch.ones_like(attention_mask[:, -1:])], dim=-1)
+
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # repeat k/v heads if n_kv_heads < n_heads
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+        dropout_rate = 0.0 if not self.training else self.attention_dropout
+
+        # In PEFT, usually we cast the layer norms in float32 for training stability reasons
+        # therefore the input hidden states gets silently casted in float32. Hence, we need
+        # cast them back in float16 just to be sure everything works as expected.
+        input_dtype = query_states.dtype
+        if input_dtype == torch.float32:
+            if torch.is_autocast_enabled():
+                target_dtype = torch.get_autocast_gpu_dtype()
+            # Handle the case where the model is quantized
+            elif hasattr(self.config, "_pre_quantization_dtype"):
+                target_dtype = self.config._pre_quantization_dtype
+            else:
+                target_dtype = self.q_proj.weight.dtype
+
+            logger.warning_once(
+                f"The input hidden states seems to be silently casted in float32, this might be related to"
+                f" the fact you have upcasted embedding or layer norm layers in float32. We will cast back the input in"
+                f" {target_dtype}."
+            )
+
+            query_states = query_states.to(target_dtype)
+            key_states = key_states.to(target_dtype)
+            value_states = value_states.to(target_dtype)
+
+        # Reashape to the expected shape for Flash Attention
+        query_states = query_states.transpose(1, 2)
+        key_states = key_states.transpose(1, 2)
+        value_states = value_states.transpose(1, 2)
+
+        attn_output = self._flash_attention_forward(
+            query_states,
+            key_states,
+            value_states,
+            attention_mask,
+            q_len,
+            dropout=dropout_rate,
+            use_sliding_windows=use_sliding_windows,
+        )
+
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size).contiguous()
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+    def _flash_attention_forward(
+        self,
+        query_states,
+        key_states,
+        value_states,
+        attention_mask,
+        query_length,
+        dropout=0.0,
+        softmax_scale=None,
+        use_sliding_windows=False,
+    ):
+        """
+        Calls the forward method of Flash Attention - if the input hidden states contain at least one padding token
+        first unpad the input, then computes the attention scores and pad the final attention scores.
+
+        Args:
+            query_states (`torch.Tensor`):
+                Input query states to be passed to Flash Attention API
+            key_states (`torch.Tensor`):
+                Input key states to be passed to Flash Attention API
+            value_states (`torch.Tensor`):
+                Input value states to be passed to Flash Attention API
+            attention_mask (`torch.Tensor`):
+                The padding mask - corresponds to a tensor of size `(batch_size, seq_len)` where 0 stands for the
+                position of padding tokens and 1 for the position of non-padding tokens.
+            dropout (`float`):
+                Attention dropout
+            softmax_scale (`float`, *optional*):
+                The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim)
+            use_sliding_windows (`bool`, *optional*):
+                Whether to activate sliding window attention.
+        """
+        if not self._flash_attn_uses_top_left_mask:
+            causal = self.is_causal
+        else:
+            # TODO: Remove the `query_length != 1` check once Flash Attention for RoCm is bumped to 2.1. For details, please see the comment in LlamaFlashAttention2 __init__.
+            causal = self.is_causal and query_length != 1
+
+        # Decide whether to use SWA or not by layer index.
+        if use_sliding_windows and self.layer_idx >= self.config.max_window_layers:
+            use_sliding_windows = False
+
+        # Contains at least one padding token in the sequence
+        if attention_mask is not None:
+            batch_size = query_states.shape[0]
+            query_states, key_states, value_states, indices_q, cu_seq_lens, max_seq_lens = self._upad_input(
+                query_states, key_states, value_states, attention_mask, query_length
+            )
+
+            cu_seqlens_q, cu_seqlens_k = cu_seq_lens
+            max_seqlen_in_batch_q, max_seqlen_in_batch_k = max_seq_lens
+
+            if not use_sliding_windows:
+                attn_output_unpad = flash_attn_varlen_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    cu_seqlens_q=cu_seqlens_q,
+                    cu_seqlens_k=cu_seqlens_k,
+                    max_seqlen_q=max_seqlen_in_batch_q,
+                    max_seqlen_k=max_seqlen_in_batch_k,
+                    dropout_p=dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                )
+            else:
+                attn_output_unpad = flash_attn_varlen_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    cu_seqlens_q=cu_seqlens_q,
+                    cu_seqlens_k=cu_seqlens_k,
+                    max_seqlen_q=max_seqlen_in_batch_q,
+                    max_seqlen_k=max_seqlen_in_batch_k,
+                    dropout_p=dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                    window_size=(self.config.sliding_window, self.config.sliding_window),
+                )
+
+            attn_output = pad_input(attn_output_unpad, indices_q, batch_size, query_length)
+        else:
+            if not use_sliding_windows:
+                attn_output = flash_attn_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                )
+            else:
+                attn_output = flash_attn_func(
+                    query_states,
+                    key_states,
+                    value_states,
+                    dropout,
+                    softmax_scale=softmax_scale,
+                    causal=causal,
+                    window_size=(self.config.sliding_window, self.config.sliding_window),
+                )
+
+        return attn_output
+
+    # Copied from transformers.models.mistral.modeling_mistral.MistralFlashAttention2._upad_input
+    def _upad_input(self, query_layer, key_layer, value_layer, attention_mask, query_length):
+        batch_size, kv_seq_len, num_heads, head_dim = key_layer.shape
+
+        # On the first iteration we need to properly re-create the padding mask
+        # by slicing it on the proper place
+        if kv_seq_len != attention_mask.shape[-1]:
+            attention_mask_num_tokens = attention_mask.shape[-1]
+            attention_mask = attention_mask[:, attention_mask_num_tokens - kv_seq_len :]
+
+        indices_k, cu_seqlens_k, max_seqlen_in_batch_k = _get_unpad_data(attention_mask)
+
+        key_layer = index_first_axis(key_layer.reshape(batch_size * kv_seq_len, num_heads, head_dim), indices_k)
+        value_layer = index_first_axis(value_layer.reshape(batch_size * kv_seq_len, num_heads, head_dim), indices_k)
+
+        if query_length == kv_seq_len:
+            query_layer = index_first_axis(
+                query_layer.reshape(batch_size * kv_seq_len, num_heads, head_dim), indices_k
+            )
+            cu_seqlens_q = cu_seqlens_k
+            max_seqlen_in_batch_q = max_seqlen_in_batch_k
+            indices_q = indices_k
+        elif query_length == 1:
+            max_seqlen_in_batch_q = 1
+            cu_seqlens_q = torch.arange(
+                batch_size + 1, dtype=torch.int32, device=query_layer.device
+            )  # There is a memcpy here, that is very bad.
+            indices_q = cu_seqlens_q[:-1]
+            query_layer = query_layer.squeeze(1)
+        else:
+            # The -q_len: slice assumes left padding.
+            attention_mask = attention_mask[:, -query_length:]
+            query_layer, indices_q, cu_seqlens_q, max_seqlen_in_batch_q = unpad_input(query_layer, attention_mask)
+
+        return (
+            query_layer,
+            key_layer,
+            value_layer,
+            indices_q,
+            (cu_seqlens_q, cu_seqlens_k),
+            (max_seqlen_in_batch_q, max_seqlen_in_batch_k),
+        )
+
+
+# Copied from transformers.models.mistral.modeling_mistral.MistralSdpaAttention with Mistral->Qwen2
+class Qwen2SdpaAttention(Qwen2Attention):
+    """
+    Qwen2 attention module using torch.nn.functional.scaled_dot_product_attention. This module inherits from
+    `Qwen2Attention` as the weights of the module stays untouched. The only changes are on the forward pass to adapt to
+    SDPA API.
+    """
+
+    # Adapted from Qwen2Attention.forward
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        if output_attentions:
+            # TODO: Improve this warning with e.g. `model.config.attn_implementation = "manual"` once this is implemented.
+            logger.warning_once(
+                "Qwen2Model is using Qwen2SdpaAttention, but `torch.nn.functional.scaled_dot_product_attention` does not support `output_attentions=True`. Falling back to the manual attention implementation, "
+                'but specifying the manual implementation will be required from Transformers version v5.0.0 onwards. This warning can be removed using the argument `attn_implementation="eager"` when loading the model.'
+            )
+            return super().forward(
+                hidden_states=hidden_states,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                past_key_value=past_key_value,
+                output_attentions=output_attentions,
+                use_cache=use_cache,
+            )
+
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
+
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+
+        # SDPA with memory-efficient backend is currently (torch==2.1.2) bugged with non-contiguous inputs with custom attn_mask,
+        # Reference: https://github.com/pytorch/pytorch/issues/112577.
+        if query_states.device.type == "cuda" and attention_mask is not None:
+            query_states = query_states.contiguous()
+            key_states = key_states.contiguous()
+            value_states = value_states.contiguous()
+
+        attn_output = torch.nn.functional.scaled_dot_product_attention(
+            query_states,
+            key_states,
+            value_states,
+            attn_mask=attention_mask,
+            dropout_p=self.attention_dropout if self.training else 0.0,
+            # The q_len > 1 is necessary to match with AttentionMaskConverter.to_causal_4d that does not create a causal mask in case q_len == 1.
+            is_causal=self.is_causal and attention_mask is None and q_len > 1,
+        )
+
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.view(bsz, q_len, self.hidden_size)
+
+        attn_output = self.o_proj(attn_output)
+
+        return attn_output, None, past_key_value
+
+
+QWEN2_ATTENTION_CLASSES = {
+    "eager": Qwen2Attention,
+    "flash_attention_2": Qwen2FlashAttention2,
+    "sdpa": Qwen2SdpaAttention,
+}
+
+
+class Qwen2DecoderLayer(nn.Module):
+    def __init__(self, config: Qwen2Config, layer_idx: int):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+
+        if config.use_sliding_window and config._attn_implementation != "flash_attention_2":
+            logger.warning_once(
+                f"Sliding Window Attention is enabled but not implemented for `{config._attn_implementation}`; "
+                "unexpected results may be encountered."
+            )
+        self.self_attn = QWEN2_ATTENTION_CLASSES[config._attn_implementation](config, layer_idx)
+
+        self.mlp = Qwen2MLP(config)
+        self.input_layernorm = Qwen2RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = Qwen2RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: Optional[bool] = False,
+        use_cache: Optional[bool] = False,
+        **kwargs,
+    ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. "
+                "Please make sure use `attention_mask` instead.`"
+            )
+        """
+        Args:
+            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
+            attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
+                `(batch, sequence_length)` where padding elements are indicated by 0.
+            output_attentions (`bool`, *optional*):
+                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
+                returned tensors for more detail.
+            use_cache (`bool`, *optional*):
+                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
+                (see `past_key_values`).
+            past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
+        """
+
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self Attention
+        hidden_states, self_attn_weights, present_key_value = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+        )
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        outputs = (hidden_states,)
+
+        if output_attentions:
+            outputs += (self_attn_weights,)
+
+        if use_cache:
+            outputs += (present_key_value,)
+
+        return outputs
+
+
+QWEN2_START_DOCSTRING = r"""
+    This model inherits from [`PreTrainedModel`]. Check the superclass documentation for the generic methods the
+    library implements for all its model (such as downloading or saving, resizing the input embeddings, pruning heads
+    etc.)
+
+    This model is also a PyTorch [torch.nn.Module](https://pytorch.org/docs/stable/nn.html#torch.nn.Module) subclass.
+    Use it as a regular PyTorch Module and refer to the PyTorch documentation for all matter related to general usage
+    and behavior.
+
+    Parameters:
+        config ([`Qwen2Config`]):
+            Model configuration class with all the parameters of the model. Initializing with a config file does not
+            load the weights associated with the model, only the configuration. Check out the
+            [`~PreTrainedModel.from_pretrained`] method to load the model weights.
+"""
+
+
+@add_start_docstrings(
+    "The bare Qwen2 Model outputting raw hidden-states without any specific head on top.",
+    QWEN2_START_DOCSTRING,
+)
+class Qwen2PreTrainedModel(PreTrainedModel):
+    config_class = Qwen2Config
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["Qwen2DecoderLayer"]
+    _skip_keys_device_placement = "past_key_values"
+    _supports_flash_attn_2 = True
+    _supports_sdpa = True
+    _supports_cache_class = True
+
+    def _init_weights(self, module):
+        std = self.config.initializer_range
+        if isinstance(module, nn.Linear):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+
+
+QWEN2_INPUTS_DOCSTRING = r"""
+    Args:
+        input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):
+            Indices of input sequence tokens in the vocabulary. Padding will be ignored by default should you provide
+            it.
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            [What are input IDs?](../glossary#input-ids)
+        attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:
+
+            - 1 for tokens that are **not masked**,
+            - 0 for tokens that are **masked**.
+
+            [What are attention masks?](../glossary#attention-mask)
+
+            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
+            [`PreTrainedTokenizer.__call__`] for details.
+
+            If `past_key_values` is used, optionally only the last `decoder_input_ids` have to be input (see
+            `past_key_values`).
+
+            If you want to change padding behavior, you should read [`modeling_opt._prepare_decoder_attention_mask`]
+            and modify to your needs. See diagram 1 in [the paper](https://arxiv.org/abs/1910.13461) for more
+            information on the default strategy.
+
+            - 1 indicates the head is **not masked**,
+            - 0 indicates the head is **masked**.
+        position_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Indices of positions of each input sequence tokens in the position embeddings. Selected in the range `[0,
+            config.n_positions - 1]`.
+
+            [What are position IDs?](../glossary#position-ids)
+        past_key_values (`Cache` or `tuple(tuple(torch.FloatTensor))`, *optional*):
+            Pre-computed hidden-states (key and values in the self-attention blocks and in the cross-attention
+            blocks) that can be used to speed up sequential decoding. This typically consists in the `past_key_values`
+            returned by the model at a previous stage of decoding, when `use_cache=True` or `config.use_cache=True`.
+
+            Two formats are allowed:
+            - a [`~cache_utils.Cache`] instance;
+            - Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of
+            shape `(batch_size, num_heads, sequence_length, embed_size_per_head)`). This is also known as the legacy
+            cache format.
+
+            The model will output the same cache format that is fed as input. If no `past_key_values` are passed, the
+            legacy cache format will be returned.
+
+            If `past_key_values` are used, the user can optionally input only the last `input_ids` (those that don't
+            have their past key value states given to this model) of shape `(batch_size, 1)` instead of all `input_ids`
+            of shape `(batch_size, sequence_length)`.
+        inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
+            Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation. This
+            is useful if you want more control over how to convert `input_ids` indices into associated vectors than the
+            model's internal embedding lookup matrix.
+        use_cache (`bool`, *optional*):
+            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
+            `past_key_values`).
+        output_attentions (`bool`, *optional*):
+            Whether or not to return the attentions tensors of all attention layers. See `attentions` under returned
+            tensors for more detail.
+        output_hidden_states (`bool`, *optional*):
+            Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors for
+            more detail.
+        return_dict (`bool`, *optional*):
+            Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.
+"""
+
+
+@add_start_docstrings(
+    "The bare Qwen2 Model outputting raw hidden-states without any specific head on top.",
+    QWEN2_START_DOCSTRING,
+)
+class Qwen2Model(Qwen2PreTrainedModel):
+    """
+    Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`Qwen2DecoderLayer`]
+
+    Args:
+        config: Qwen2Config
+    """
+
+    def __init__(self, config: Qwen2Config):
+        super().__init__(config)
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
+        self.layers = nn.ModuleList(
+            [Qwen2DecoderLayer(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
+        )
+        self._attn_implementation = config._attn_implementation
+        self.norm = Qwen2RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.gradient_checkpointing = False
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(QWEN2_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # retrieve input_ids and inputs_embeds
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both decoder_input_ids and decoder_inputs_embeds at the same time")
+        elif input_ids is not None:
+            batch_size, seq_length = input_ids.shape
+        elif inputs_embeds is not None:
+            batch_size, seq_length, _ = inputs_embeds.shape
+        else:
+            raise ValueError("You have to specify either decoder_input_ids or decoder_inputs_embeds")
+
+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning_once(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
+        past_key_values_length = 0
+
+        if use_cache:
+            use_legacy_cache = not isinstance(past_key_values, Cache)
+            if use_legacy_cache:
+                past_key_values = DynamicCache.from_legacy_cache(past_key_values)
+            past_key_values_length = past_key_values.get_usable_length(seq_length)
+
+        if position_ids is None:
+            device = input_ids.device if input_ids is not None else inputs_embeds.device
+            position_ids = torch.arange(
+                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=device
+            )
+            position_ids = position_ids.unsqueeze(0).view(-1, seq_length)
+        else:
+            position_ids = position_ids.view(-1, seq_length).long()
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+
+        if attention_mask is not None and self._attn_implementation == "flash_attention_2" and use_cache:
+            is_padding_right = attention_mask[:, -1].sum().item() != batch_size
+            if is_padding_right:
+                raise ValueError(
+                    "You are attempting to perform batched generation with padding_side='right'"
+                    " this may lead to unexpected behaviour for Flash Attention version of Qwen2. Make sure to "
+                    " call `tokenizer.padding_side  = 'left'` before tokenizing the input. "
+                )
+
+        if self._attn_implementation == "flash_attention_2":
+            # 2d mask is passed through the layers
+            attention_mask = attention_mask if (attention_mask is not None and 0 in attention_mask) else None
+        elif self._attn_implementation == "sdpa" and not output_attentions:
+            # output_attentions=True can not be supported when using SDPA, and we fall back on
+            # the manual implementation that requires a 4D causal mask in all cases.
+            attention_mask = _prepare_4d_causal_attention_mask_for_sdpa(
+                attention_mask,
+                (batch_size, seq_length),
+                inputs_embeds,
+                past_key_values_length,
+            )
+        else:
+            # 4d mask is passed through the layers
+            attention_mask = _prepare_4d_causal_attention_mask(
+                attention_mask,
+                (batch_size, seq_length),
+                inputs_embeds,
+                past_key_values_length,
+                sliding_window=self.config.sliding_window,
+            )
+
+        hidden_states = inputs_embeds
+
+        # decoder layers
+        all_hidden_states = () if output_hidden_states else None
+        all_self_attns = () if output_attentions else None
+        next_decoder_cache = None
+
+        for decoder_layer in self.layers:
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+
+            if self.gradient_checkpointing and self.training:
+                layer_outputs = self._gradient_checkpointing_func(
+                    decoder_layer.__call__,
+                    hidden_states,
+                    attention_mask,
+                    position_ids,
+                    past_key_values,
+                    output_attentions,
+                    use_cache,
+                )
+            else:
+                layer_outputs = decoder_layer(
+                    hidden_states,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_value=past_key_values,
+                    output_attentions=output_attentions,
+                    use_cache=use_cache,
+                )
+
+            hidden_states = layer_outputs[0]
+
+            if use_cache:
+                next_decoder_cache = layer_outputs[2 if output_attentions else 1]
+
+            if output_attentions:
+                all_self_attns += (layer_outputs[1],)
+
+        hidden_states = self.norm(hidden_states)
+
+        # add hidden states from the last decoder layer
+        if output_hidden_states:
+            all_hidden_states += (hidden_states,)
+
+        next_cache = None
+        if use_cache:
+            next_cache = next_decoder_cache.to_legacy_cache() if use_legacy_cache else next_decoder_cache
+
+        if not return_dict:
+            return tuple(v for v in [hidden_states, next_cache, all_hidden_states, all_self_attns] if v is not None)
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=next_cache,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attns,
+        )
+
+
+class Qwen2ForCausalLM(Qwen2PreTrainedModel):
+    _tied_weights_keys = ["lm_head.weight"]
+
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = Qwen2Model(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    def get_output_embeddings(self):
+        return self.lm_head
+
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head = new_embeddings
+
+    def set_decoder(self, decoder):
+        self.model = decoder
+
+    def get_decoder(self):
+        return self.model
+
+    @add_start_docstrings_to_model_forward(QWEN2_INPUTS_DOCSTRING)
+    @replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        r"""
+        Args:
+            labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+                Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+                config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+                (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+
+        Returns:
+
+        Example:
+
+        ```python
+        >>> from transformers import AutoTokenizer, Qwen2ForCausalLM
+
+        >>> model = Qwen2ForCausalLM.from_pretrained(PATH_TO_CONVERTED_WEIGHTS)
+        >>> tokenizer = AutoTokenizer.from_pretrained(PATH_TO_CONVERTED_TOKENIZER)
+
+        >>> prompt = "Hey, are you conscious? Can you talk to me?"
+        >>> inputs = tokenizer(prompt, return_tensors="pt")
+
+        >>> # Generate
+        >>> generate_ids = model.generate(inputs.input_ids, max_length=30)
+        >>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        "Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
+        ```"""
+
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.model(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = outputs[0]
+        logits = self.lm_head(hidden_states)
+        logits = logits.float()
+
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = CrossEntropyLoss()
+            shift_logits = shift_logits.view(-1, self.config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+
+    def prepare_inputs_for_generation(
+        self, input_ids, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
+    ):
+        # Omit tokens covered by past_key_values
+        if past_key_values is not None:
+            if isinstance(past_key_values, Cache):
+                cache_length = past_key_values.get_seq_length()
+                past_length = past_key_values.seen_tokens
+                max_cache_length = past_key_values.get_max_length()
+            else:
+                cache_length = past_length = past_key_values[0][0].shape[2]
+                max_cache_length = None
+
+            # Keep only the unprocessed tokens:
+            # 1 - If the length of the attention_mask exceeds the length of input_ids, then we are in a setting where
+            # some of the inputs are exclusively passed as part of the cache (e.g. when passing input_embeds as
+            # input)
+            if attention_mask is not None and attention_mask.shape[1] > input_ids.shape[1]:
+                input_ids = input_ids[:, -(attention_mask.shape[1] - past_length) :]
+            # 2 - If the past_length is smaller than input_ids', then input_ids holds all input tokens. We can discard
+            # input_ids based on the past_length.
+            elif past_length < input_ids.shape[1]:
+                input_ids = input_ids[:, past_length:]
+            # 3 - Otherwise (past_length >= input_ids.shape[1]), let's assume input_ids only has unprocessed tokens.
+            else:
+                remove_prefix_length = input_ids.shape[1] - 1
+                input_ids = input_ids[:, remove_prefix_length:]
+            # If we are about to go beyond the maximum cache length, we need to crop the input attention mask.
+            if (
+                max_cache_length is not None
+                and attention_mask is not None
+                and cache_length + input_ids.shape[1] > max_cache_length
+            ):
+                attention_mask = attention_mask[:, -max_cache_length:]
+
+        position_ids = kwargs.get("position_ids", None)
+        if attention_mask is not None and position_ids is None:
+            # create position_ids on the fly for batch generation
+            position_ids = attention_mask.long().cumsum(-1) - 1
+            position_ids.masked_fill_(attention_mask == 0, 1)
+            if past_key_values:
+                position_ids = position_ids[:, -input_ids.shape[1] :]
+
+        # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids}
+
+        model_inputs.update(
+            {
+                "position_ids": position_ids,
+                "past_key_values": past_key_values,
+                "use_cache": kwargs.get("use_cache"),
+                "attention_mask": attention_mask,
+            }
+        )
+        return model_inputs
+
+    @staticmethod
+    def _reorder_cache(past_key_values, beam_idx):
+        reordered_past = ()
+        for layer_past in past_key_values:
+            reordered_past += (
+                tuple(past_state.index_select(0, beam_idx.to(past_state.device)) for past_state in layer_past),
+            )
+        return reordered_past
+
+
+@add_start_docstrings(
+    """
+    The Qwen2 Model transformer with a sequence classification head on top (linear layer).
+
+    [`Qwen2ForSequenceClassification`] uses the last token in order to do the classification, as other causal models
+    (e.g. GPT-2) do.
+
+    Since it does classification on the last token, it requires to know the position of the last token. If a
+    `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in each row. If
+    no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot guess the
+    padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last value in
+    each row of the batch).
+    """,
+    QWEN2_START_DOCSTRING,
+)
+class Qwen2ForSequenceClassification(Qwen2PreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        self.model = Qwen2Model(config)
+        self.score = nn.Linear(config.hidden_size, self.num_labels, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    @add_start_docstrings_to_model_forward(QWEN2_INPUTS_DOCSTRING)
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, SequenceClassifierOutputWithPast]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
+            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
+            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
+            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).
+        """
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        transformer_outputs = self.model(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        hidden_states = transformer_outputs[0]
+        logits = self.score(hidden_states)
+
+        if input_ids is not None:
+            batch_size = input_ids.shape[0]
+        else:
+            batch_size = inputs_embeds.shape[0]
+
+        if self.config.pad_token_id is None and batch_size != 1:
+            raise ValueError("Cannot handle batch sizes > 1 if no padding token is defined.")
+        if self.config.pad_token_id is None:
+            sequence_lengths = -1
+        else:
+            if input_ids is not None:
+                # if no pad token found, use modulo instead of reverse indexing for ONNX compatibility
+                sequence_lengths = torch.eq(input_ids, self.config.pad_token_id).int().argmax(-1) - 1
+                sequence_lengths = sequence_lengths % input_ids.shape[-1]
+                sequence_lengths = sequence_lengths.to(logits.device)
+            else:
+                sequence_lengths = -1
+
+        pooled_logits = logits[torch.arange(batch_size, device=logits.device), sequence_lengths]
+
+        loss = None
+        if labels is not None:
+            labels = labels.to(logits.device)
+            if self.config.problem_type is None:
+                if self.num_labels == 1:
+                    self.config.problem_type = "regression"
+                elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
+                    self.config.problem_type = "single_label_classification"
+                else:
+                    self.config.problem_type = "multi_label_classification"
+
+            if self.config.problem_type == "regression":
+                loss_fct = MSELoss()
+                if self.num_labels == 1:
+                    loss = loss_fct(pooled_logits.squeeze(), labels.squeeze())
+                else:
+                    loss = loss_fct(pooled_logits, labels)
+            elif self.config.problem_type == "single_label_classification":
+                loss_fct = CrossEntropyLoss()
+                loss = loss_fct(pooled_logits.view(-1, self.num_labels), labels.view(-1))
+            elif self.config.problem_type == "multi_label_classification":
+                loss_fct = BCEWithLogitsLoss()
+                loss = loss_fct(pooled_logits, labels)
+        if not return_dict:
+            output = (pooled_logits,) + transformer_outputs[1:]
+            return ((loss,) + output) if loss is not None else output
+
+        return SequenceClassifierOutputWithPast(
+            loss=loss,
+            logits=pooled_logits,
+            past_key_values=transformer_outputs.past_key_values,
+            hidden_states=transformer_outputs.hidden_states,
+            attentions=transformer_outputs.attentions,
+        )
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/tokenization_qwen2.py b/Unicorn_dense/bunny/model/language_model/qwen2/tokenization_qwen2.py
new file mode 100644
index 0000000000000000000000000000000000000000..37f18030e8ef58d0e8d4aed466a91fc75cc44359
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/qwen2/tokenization_qwen2.py
@@ -0,0 +1,345 @@
+# coding=utf-8
+# Copyright 2024 The Qwen team, Alibaba Group and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Tokenization classes for Qwen2."""
+
+import json
+import os
+import unicodedata
+from functools import lru_cache
+from typing import Optional, Tuple
+
+import regex as re
+
+from transformers.tokenization_utils import AddedToken, PreTrainedTokenizer
+from transformers.utils import logging
+
+
+logger = logging.get_logger(__name__)
+
+VOCAB_FILES_NAMES = {
+    "vocab_file": "vocab.json",
+    "merges_file": "merges.txt",
+}
+
+PRETRAINED_VOCAB_FILES_MAP = {
+    "vocab_file": {"qwen/qwen-tokenizer": "https://huggingface.co/qwen/qwen-tokenizer/resolve/main/vocab.json"},
+    "merges_file": {"qwen/qwen-tokenizer": "https://huggingface.co/qwen/qwen-tokenizer/resolve/main/merges.txt"},
+}
+
+MAX_MODEL_INPUT_SIZES = {"qwen/qwen-tokenizer": 32768}
+
+PRETOKENIZE_REGEX = r"""(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+"""
+
+
+@lru_cache()
+# Copied from transformers.models.gpt2.tokenization_gpt2.bytes_to_unicode
+def bytes_to_unicode():
+    """
+    Returns list of utf-8 byte and a mapping to unicode strings. We specifically avoids mapping to whitespace/control
+    characters the bpe code barfs on.
+
+    The reversible bpe codes work on unicode strings. This means you need a large # of unicode characters in your vocab
+    if you want to avoid UNKs. When you're at something like a 10B token dataset you end up needing around 5K for
+    decent coverage. This is a significant percentage of your normal, say, 32K bpe vocab. To avoid that, we want lookup
+    tables between utf-8 bytes and unicode strings.
+    """
+    bs = (
+        list(range(ord("!"), ord("~") + 1)) + list(range(ord("¡"), ord("¬") + 1)) + list(range(ord("®"), ord("ÿ") + 1))
+    )
+    cs = bs[:]
+    n = 0
+    for b in range(2**8):
+        if b not in bs:
+            bs.append(b)
+            cs.append(2**8 + n)
+            n += 1
+    cs = [chr(n) for n in cs]
+    return dict(zip(bs, cs))
+
+
+# Copied from transformers.models.gpt2.tokenization_gpt2.get_pairs
+def get_pairs(word):
+    """
+    Return set of symbol pairs in a word.
+
+    Word is represented as tuple of symbols (symbols being variable-length strings).
+    """
+    pairs = set()
+    prev_char = word[0]
+    for char in word[1:]:
+        pairs.add((prev_char, char))
+        prev_char = char
+    return pairs
+
+
+class Qwen2Tokenizer(PreTrainedTokenizer):
+    """
+    Construct a Qwen2 tokenizer. Based on byte-level Byte-Pair-Encoding.
+
+    Same with GPT2Tokenizer, this tokenizer has been trained to treat spaces like parts of the tokens so a word will
+    be encoded differently whether it is at the beginning of the sentence (without space) or not:
+
+    ```python
+    >>> from transformers import Qwen2Tokenizer
+
+    >>> tokenizer = Qwen2Tokenizer.from_pretrained("Qwen/Qwen-tokenizer")
+    >>> tokenizer("Hello world")["input_ids"]
+    [9707, 1879]
+
+    >>> tokenizer(" Hello world")["input_ids"]
+    [21927, 1879]
+    ```
+    This is expected.
+
+    You should not use GPT2Tokenizer instead, because of the different pretokenization rules.
+
+    This tokenizer inherits from [`PreTrainedTokenizer`] which contains most of the main methods. Users should refer to
+    this superclass for more information regarding those methods.
+
+    Args:
+        vocab_file (`str`):
+            Path to the vocabulary file.
+        merges_file (`str`):
+            Path to the merges file.
+        errors (`str`, *optional*, defaults to `"replace"`):
+            Paradigm to follow when decoding bytes to UTF-8. See
+            [bytes.decode](https://docs.python.org/3/library/stdtypes.html#bytes.decode) for more information.
+        unk_token (`str`, *optional*, defaults to `"<|endoftext|>"`):
+            The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this
+            token instead.
+        bos_token (`str`, *optional*):
+            The beginning of sequence token. Not applicable for this tokenizer.
+        eos_token (`str`, *optional*, defaults to `"<|endoftext|>"`):
+            The end of sequence token.
+        pad_token (`str`, *optional*, defaults to `"<|endoftext|>"`):
+            The token used for padding, for example when batching sequences of different lengths.
+        clean_up_tokenization_spaces (`bool`, *optional*, defaults to `False`):
+            Whether or not the model should cleanup the spaces that were added when splitting the input text during the
+            tokenization process. Not applicable to this tokenizer, since tokenization does not add spaces.
+        split_special_tokens (`bool`, *optional*, defaults to `False`):
+            Whether or not the special tokens should be split during the tokenization process. The default behavior is
+            to not split special tokens. This means that if `<|endoftext|>` is the `eos_token`, then `tokenizer.tokenize("<|endoftext|>") =
+            ['<|endoftext|>`]. Otherwise, if `split_special_tokens=True`, then `tokenizer.tokenize("<|endoftext|>")` will be give `['<',
+            '|', 'endo', 'ft', 'ext', '|', '>']`. This argument is only supported for `slow` tokenizers for the moment.
+    """
+
+    vocab_files_names = VOCAB_FILES_NAMES
+    pretrained_vocab_files_map = PRETRAINED_VOCAB_FILES_MAP
+    max_model_input_sizes = MAX_MODEL_INPUT_SIZES
+    model_input_names = ["input_ids", "attention_mask"]
+
+    def __init__(
+        self,
+        vocab_file,
+        merges_file,
+        errors="replace",
+        unk_token="<|endoftext|>",
+        bos_token=None,
+        eos_token="<|endoftext|>",
+        pad_token="<|endoftext|>",
+        clean_up_tokenization_spaces=False,
+        split_special_tokens=False,
+        **kwargs,
+    ):
+        # Qwen vocab does not contain control tokens; added tokens need to be special
+        bos_token = (
+            AddedToken(bos_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(bos_token, str)
+            else bos_token
+        )
+        eos_token = (
+            AddedToken(eos_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(eos_token, str)
+            else eos_token
+        )
+        unk_token = (
+            AddedToken(unk_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(unk_token, str)
+            else unk_token
+        )
+        pad_token = (
+            AddedToken(pad_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(pad_token, str)
+            else pad_token
+        )
+
+        with open(vocab_file, encoding="utf-8") as vocab_handle:
+            self.encoder = json.load(vocab_handle)
+        self.decoder = {v: k for k, v in self.encoder.items()}
+        self.errors = errors  # how to handle errors in decoding
+        self.byte_encoder = bytes_to_unicode()
+        self.byte_decoder = {v: k for k, v in self.byte_encoder.items()}
+        bpe_merges = []
+        with open(merges_file, encoding="utf-8") as merges_handle:
+            for line in merges_handle:
+                line = line.strip()
+                if not line or line.startswith("#"):
+                    continue
+                bpe_merges.append(tuple(line.split()))
+        self.bpe_ranks = dict(zip(bpe_merges, range(len(bpe_merges))))
+        # NOTE: the cache can grow without bound and will get really large for long running processes
+        # (esp. for texts of language that do not use space between word, e.g. Chinese); technically
+        # not a memory leak but appears as one.
+        # GPT2Tokenizer has the same problem, so let's be consistent.
+        self.cache = {}
+
+        self.pat = re.compile(PRETOKENIZE_REGEX)
+
+        if kwargs.get("add_prefix_space", False):
+            logger.warning_once(
+                f"{self.__class__.__name} does not support `add_prefix_space`, setting it to True has no effect."
+            )
+
+        super().__init__(
+            errors=errors,
+            bos_token=bos_token,
+            eos_token=eos_token,
+            pad_token=pad_token,
+            unk_token=unk_token,
+            clean_up_tokenization_spaces=clean_up_tokenization_spaces,
+            split_special_tokens=split_special_tokens,
+            **kwargs,
+        )
+
+    @property
+    def vocab_size(self) -> int:
+        return len(self.encoder)
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer.get_vocab
+    def get_vocab(self):
+        return dict(self.encoder, **self.added_tokens_encoder)
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer.bpe
+    def bpe(self, token):
+        if token in self.cache:
+            return self.cache[token]
+        word = tuple(token)
+        pairs = get_pairs(word)
+
+        if not pairs:
+            return token
+
+        while True:
+            bigram = min(pairs, key=lambda pair: self.bpe_ranks.get(pair, float("inf")))
+            if bigram not in self.bpe_ranks:
+                break
+            first, second = bigram
+            new_word = []
+            i = 0
+            while i < len(word):
+                try:
+                    j = word.index(first, i)
+                except ValueError:
+                    new_word.extend(word[i:])
+                    break
+                else:
+                    new_word.extend(word[i:j])
+                    i = j
+
+                if word[i] == first and i < len(word) - 1 and word[i + 1] == second:
+                    new_word.append(first + second)
+                    i += 2
+                else:
+                    new_word.append(word[i])
+                    i += 1
+            new_word = tuple(new_word)
+            word = new_word
+            if len(word) == 1:
+                break
+            else:
+                pairs = get_pairs(word)
+        word = " ".join(word)
+        self.cache[token] = word
+        return word
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer._tokenize
+    def _tokenize(self, text):
+        """Tokenize a string."""
+        bpe_tokens = []
+        for token in re.findall(self.pat, text):
+            token = "".join(
+                self.byte_encoder[b] for b in token.encode("utf-8")
+            )  # Maps all our bytes to unicode strings, avoiding control tokens of the BPE (spaces in our case)
+            bpe_tokens.extend(bpe_token for bpe_token in self.bpe(token).split(" "))
+        return bpe_tokens
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer._convert_token_to_id
+    def _convert_token_to_id(self, token):
+        """Converts a token (str) in an id using the vocab."""
+        return self.encoder.get(token, self.encoder.get(self.unk_token))
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer._convert_id_to_token
+    def _convert_id_to_token(self, index):
+        """Converts an index (integer) in a token (str) using the vocab."""
+        return self.decoder.get(index)
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer.convert_tokens_to_string
+    def convert_tokens_to_string(self, tokens):
+        """Converts a sequence of tokens (string) in a single string."""
+        text = "".join(tokens)
+        text = bytearray([self.byte_decoder[c] for c in text]).decode("utf-8", errors=self.errors)
+        return text
+
+    def decode(
+        self,
+        token_ids,
+        skip_special_tokens: bool = False,
+        clean_up_tokenization_spaces: Optional[bool] = False,
+        spaces_between_special_tokens: bool = False,
+        **kwargs,
+    ) -> str:
+        # `spaces_between_special_tokens` defaults to True for _decode in slow tokenizers
+        # and cannot be configured elsewhere, but it should default to False for Qwen2Tokenizer
+        return super().decode(
+            token_ids,
+            skip_special_tokens=skip_special_tokens,
+            clean_up_tokenization_spaces=clean_up_tokenization_spaces,
+            spaces_between_special_tokens=spaces_between_special_tokens,
+            **kwargs,
+        )
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2.GPT2Tokenizer.save_vocabulary
+    def save_vocabulary(self, save_directory: str, filename_prefix: Optional[str] = None) -> Tuple[str]:
+        if not os.path.isdir(save_directory):
+            logger.error(f"Vocabulary path ({save_directory}) should be a directory")
+            return
+        vocab_file = os.path.join(
+            save_directory, (filename_prefix + "-" if filename_prefix else "") + VOCAB_FILES_NAMES["vocab_file"]
+        )
+        merge_file = os.path.join(
+            save_directory, (filename_prefix + "-" if filename_prefix else "") + VOCAB_FILES_NAMES["merges_file"]
+        )
+
+        with open(vocab_file, "w", encoding="utf-8") as f:
+            f.write(json.dumps(self.encoder, indent=2, sort_keys=True, ensure_ascii=False) + "\n")
+
+        index = 0
+        with open(merge_file, "w", encoding="utf-8") as writer:
+            writer.write("#version: 0.2\n")
+            for bpe_tokens, token_index in sorted(self.bpe_ranks.items(), key=lambda kv: kv[1]):
+                if index != token_index:
+                    logger.warning(
+                        f"Saving vocabulary to {merge_file}: BPE merge indices are not consecutive."
+                        " Please check that the tokenizer is not corrupted!"
+                    )
+                    index = token_index
+                writer.write(" ".join(bpe_tokens) + "\n")
+                index += 1
+
+        return vocab_file, merge_file
+
+    def prepare_for_tokenization(self, text, **kwargs):
+        text = unicodedata.normalize("NFC", text)
+        return (text, kwargs)
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/language_model/qwen2/tokenization_qwen2_fast.py b/Unicorn_dense/bunny/model/language_model/qwen2/tokenization_qwen2_fast.py
new file mode 100644
index 0000000000000000000000000000000000000000..dda95588b84c4ef5a3098e5e655d86ad142675bf
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/qwen2/tokenization_qwen2_fast.py
@@ -0,0 +1,143 @@
+# coding=utf-8
+# Copyright 2024 The Qwen team, Alibaba Group and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Tokenization classes for Qwen2."""
+
+from typing import Optional, Tuple
+
+from transformers.tokenization_utils import AddedToken
+from transformers.tokenization_utils_fast import PreTrainedTokenizerFast
+from transformers.utils import logging
+from .tokenization_qwen2 import Qwen2Tokenizer
+
+
+logger = logging.get_logger(__name__)
+
+VOCAB_FILES_NAMES = {
+    "vocab_file": "vocab.json",
+    "merges_file": "merges.txt",
+    "tokenizer_file": "tokenizer.json",
+}
+
+PRETRAINED_VOCAB_FILES_MAP = {
+    "vocab_file": {"qwen/qwen-tokenizer": "https://huggingface.co/qwen/qwen-tokenizer/resolve/main/vocab.json"},
+    "merges_file": {"qwen/qwen-tokenizer": "https://huggingface.co/qwen/qwen-tokenizer/resolve/main/merges.txt"},
+    "tokenizer_file": {
+        "qwen/qwen-tokenizer": "https://huggingface.co/qwen/qwen-tokenizer/resolve/main/tokenizer.json"
+    },
+}
+
+MAX_MODEL_INPUT_SIZES = {"qwen/qwen-tokenizer": 32768}
+
+
+class Qwen2TokenizerFast(PreTrainedTokenizerFast):
+    """
+    Construct a "fast" Qwen2 tokenizer (backed by HuggingFace's *tokenizers* library). Based on byte-level
+    Byte-Pair-Encoding.
+
+    Same with GPT2Tokenizer, this tokenizer has been trained to treat spaces like parts of the tokens so a word will
+    be encoded differently whether it is at the beginning of the sentence (without space) or not:
+
+    ```python
+    >>> from transformers import Qwen2TokenizerFast
+
+    >>> tokenizer = Qwen2TokenizerFast.from_pretrained("Qwen/Qwen-tokenizer")
+    >>> tokenizer("Hello world")["input_ids"]
+    [9707, 1879]
+
+    >>> tokenizer(" Hello world")["input_ids"]
+    [21927, 1879]
+    ```
+    This is expected.
+
+    This tokenizer inherits from [`PreTrainedTokenizerFast`] which contains most of the main methods. Users should
+    refer to this superclass for more information regarding those methods.
+
+    Args:
+        vocab_file (`str`, *optional*):
+            Path to the vocabulary file.
+        merges_file (`str`, *optional*):
+            Path to the merges file.
+        tokenizer_file (`str`, *optional*):
+            Path to [tokenizers](https://github.com/huggingface/tokenizers) file (generally has a .json extension) that
+            contains everything needed to load the tokenizer.
+        unk_token (`str`, *optional*, defaults to `"<|endoftext|>"`):
+            The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this
+            token instead. Not applicable to this tokenizer.
+        bos_token (`str`, *optional*):
+            The beginning of sequence token. Not applicable for this tokenizer.
+        eos_token (`str`, *optional*, defaults to `"<|endoftext|>"`):
+            The end of sequence token.
+        pad_token (`str`, *optional*, defaults to `"<|endoftext|>"`):
+            The token used for padding, for example when batching sequences of different lengths.
+    """
+
+    vocab_files_names = VOCAB_FILES_NAMES
+    pretrained_vocab_files_map = PRETRAINED_VOCAB_FILES_MAP
+    max_model_input_sizes = MAX_MODEL_INPUT_SIZES
+    model_input_names = ["input_ids", "attention_mask"]
+    slow_tokenizer_class = Qwen2Tokenizer
+
+    def __init__(
+        self,
+        vocab_file=None,
+        merges_file=None,
+        tokenizer_file=None,
+        unk_token="<|endoftext|>",
+        bos_token=None,
+        eos_token="<|endoftext|>",
+        pad_token="<|endoftext|>",
+        **kwargs,
+    ):
+        # We need to at least pass vocab_file and merges_file to base class
+        # in case a slow tokenizer needs to be initialized; other can be
+        # configured through files.
+        # following GPT2TokenizerFast, also adding unk_token, bos_token, and eos_token
+
+        bos_token = (
+            AddedToken(bos_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(bos_token, str)
+            else bos_token
+        )
+        eos_token = (
+            AddedToken(eos_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(eos_token, str)
+            else eos_token
+        )
+        unk_token = (
+            AddedToken(unk_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(unk_token, str)
+            else unk_token
+        )
+        pad_token = (
+            AddedToken(pad_token, lstrip=False, rstrip=False, special=True, normalized=False)
+            if isinstance(pad_token, str)
+            else pad_token
+        )
+
+        super().__init__(
+            vocab_file,
+            merges_file,
+            tokenizer_file=tokenizer_file,
+            unk_token=unk_token,
+            bos_token=bos_token,
+            eos_token=eos_token,
+            pad_token=pad_token,
+            **kwargs,
+        )
+
+    # Copied from transformers.models.gpt2.tokenization_gpt2_fast.GPT2TokenizerFast.save_vocabulary
+    def save_vocabulary(self, save_directory: str, filename_prefix: Optional[str] = None) -> Tuple[str]:
+        files = self._tokenizer.model.save(save_directory, name=filename_prefix)
+        return tuple(files)
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/language_model/stable_lm/__pycache__/configuration_stablelm_epoch.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/stable_lm/__pycache__/configuration_stablelm_epoch.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b0cee389ddfcc87a6f959cb7a4cf3fd32c545d5a
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/stable_lm/__pycache__/configuration_stablelm_epoch.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/stable_lm/__pycache__/modeling_stablelm_epoch.cpython-310.pyc b/Unicorn_dense/bunny/model/language_model/stable_lm/__pycache__/modeling_stablelm_epoch.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..164008cde8d3ad477ef9d95c3d1598770e62fbb2
Binary files /dev/null and b/Unicorn_dense/bunny/model/language_model/stable_lm/__pycache__/modeling_stablelm_epoch.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/language_model/stable_lm/configuration_stablelm_epoch.py b/Unicorn_dense/bunny/model/language_model/stable_lm/configuration_stablelm_epoch.py
new file mode 100644
index 0000000000000000000000000000000000000000..ea24f38659d600c66dc00767eb52d9a7115cffe9
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/stable_lm/configuration_stablelm_epoch.py
@@ -0,0 +1,113 @@
+# Copyright 2023 Stability and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" StableLM Epoch model configuration"""
+from transformers import PretrainedConfig
+from transformers.utils import logging
+
+
+logger = logging.get_logger(__name__)
+
+
+class StableLMEpochConfig(PretrainedConfig):
+    r"""
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+
+    Args:
+        vocab_size (`int`, *optional*, defaults to 50_304):
+            Vocabulary size of the StableLM model. Defines the number of different tokens that
+            can be represented by the `inputs_ids` passed when calling [`StableLMEpochModel`].
+        intermediate_size (`int`, *optional*, defaults to 6912):
+            Dimension of the MLP representations.
+        hidden_size (`int`, *optional*, defaults to 2560):
+            Dimension of the decoder layers and the pooler layer.
+        num_hidden_layers (`int`, *optional*, defaults to 32):
+            Number of hidden layers in the Transformer decoder.
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        num_key_value_heads (`int`, *optional*):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used. When
+            converting a multi-head checkpoint to a GQA checkpoint, each group key and value head should be constructed
+            by meanpooling all the original heads within that group. For more details checkout [this
+            paper](https://arxiv.org/pdf/2305.13245.pdf). If it is not specified, will default to
+            `num_attention_heads`.
+        hidden_act (`str` or `function`, *optional*, defaults to `"silu"`):
+            The non-linear activation function (function or string).
+        rope_pct (`float`, *optional*, defaults to 1.0):
+            Percentage of hidden dimensions to allocate to rotary embeddings.
+        rope_theta (`float`, *optional*, defaults to 10000.0):
+            The base period of the RoPE embeddings.
+        max_position_embeddings (`int`, *optional*, defaults to 2048):
+            The maximum sequence length that this model might ever be used with.
+            Typically set this to something large just in case (e.g., 512 or 1024 or 2048).
+        initializer_range (`float`, *optional*, defaults to 1e-5):
+            The standard deviation of the truncated_normal_initializer for initializing
+             all weight matrices.
+        norm_eps (`float`, *optional*, defaults to 1e-8):
+            The epsilon used by the normalization layers.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions
+            (not used by all models). Only relevant if `config.is_decoder=True`.
+        use_qkv_bias (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should use bias for qkv layers.
+        tie_word_embeddings(`bool`, *optional*, defaults to `False`):
+            Whether to tie weight embeddings
+    """
+    model_type = "stablelm_epoch"
+    keys_to_ignore_at_inference = ["past_key_values"]
+
+    def __init__(
+        self,
+        vocab_size=50_304,
+        intermediate_size=6912,
+        hidden_size=2560,
+        num_hidden_layers=32,
+        num_attention_heads=32,
+        num_key_value_heads=32,
+        hidden_act="silu",
+        rope_pct=0.25,
+        rope_theta=10_000,
+        max_position_embeddings=4096,
+        initializer_range=0.02,
+        norm_eps=1.0e-5,
+        use_cache=True,
+        use_qkv_bias=True,
+        bos_token_id=0,
+        eos_token_id=2,
+        tie_word_embeddings=False,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.max_position_embeddings = max_position_embeddings
+        self.intermediate_size = intermediate_size
+        self.hidden_size = hidden_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads
+        self.hidden_act = hidden_act
+        self.rope_pct = rope_pct
+        self.rope_theta = rope_theta
+        self.initializer_range = initializer_range
+        self.norm_eps = norm_eps
+        self.use_cache = use_cache
+        self.use_qkv_bias = use_qkv_bias
+        self.tie_word_embeddings = tie_word_embeddings
+        super().__init__(
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
diff --git a/Unicorn_dense/bunny/model/language_model/stable_lm/modeling_stablelm_epoch.py b/Unicorn_dense/bunny/model/language_model/stable_lm/modeling_stablelm_epoch.py
new file mode 100644
index 0000000000000000000000000000000000000000..930b98f91a1b53d8a1cac67f6a030ab5cb078f32
--- /dev/null
+++ b/Unicorn_dense/bunny/model/language_model/stable_lm/modeling_stablelm_epoch.py
@@ -0,0 +1,917 @@
+# coding=utf-8
+# Copyright 2023 Stability AI, EleutherAI, and The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+# This code is based off the following work:
+# https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/modeling_llama.py
+# https://github.com/huggingface/transformers/blob/main/src/transformers/models/gpt_neox/modeling_gpt_neox.py
+""" PyTorch StableLM Epoch model. """
+from typing import Optional, Tuple, Union
+import math
+import warnings
+
+import torch
+import torch.nn.functional as F
+import torch.utils.checkpoint
+from torch import nn
+from torch.nn import CrossEntropyLoss
+
+from transformers.cache_utils import Cache
+from transformers.modeling_outputs import (
+    BaseModelOutputWithPast,
+    CausalLMOutputWithPast,
+)
+from transformers.modeling_utils import PreTrainedModel
+from transformers.utils import logging, is_flash_attn_greater_or_equal_2_10
+
+from .configuration_stablelm_epoch import StableLMEpochConfig
+
+try:
+    from flash_attn import flash_attn_func, flash_attn_varlen_func
+    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input
+except:
+    flash_attn_func, flash_attn_varlen_func = None, None
+    index_first_axis, pad_input, unpad_input = None, None, None
+
+
+logger = logging.get_logger(__name__)
+
+
+# Copied from transformers.models.llama.modeling_llama._get_unpad_data
+def _get_unpad_data(attention_mask):
+    seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
+    indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
+    max_seqlen_in_batch = seqlens_in_batch.max().item()
+    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.torch.int32), (1, 0))
+    return (
+        indices,
+        cu_seqlens,
+        max_seqlen_in_batch,
+    )
+
+
+# Copied from transformers.models.bart.modeling_bart._make_causal_mask
+def _make_causal_mask(
+    input_ids_shape: torch.Size,
+    dtype: torch.dtype,
+    device: torch.device,
+    past_key_values_length: int = 0,
+):
+    """Make causal mask used for bi-directional self-attention."""
+    batch_size, tgt_len = input_ids_shape
+    mask = torch.full((tgt_len, tgt_len), torch.finfo(torch.float16).min, device=device)
+    mask_cond = torch.arange(mask.size(-1), device=device)
+    mask.masked_fill_(mask_cond < (mask_cond + 1).view(mask.size(-1), 1), 0)
+    mask = mask.to(dtype)
+    if past_key_values_length > 0:
+        mask = torch.cat([torch.zeros(tgt_len, past_key_values_length, dtype=dtype, device=device), mask], dim=-1)
+    return mask[None, None, :, :].expand(batch_size, 1, tgt_len, tgt_len + past_key_values_length)
+
+
+# Copied from transformers.models.bart.modeling_bart._expand_mask
+def _expand_mask(mask: torch.Tensor, dtype: torch.dtype, tgt_len: Optional[int] = None):
+    """Expands attention_mask from `[batch_size, seq_len]` to `[batch_size, 1, tgt_seq_len, src_seq_len]`."""
+    batch_size, src_len = mask.size()
+    tgt_len = tgt_len if tgt_len is not None else src_len
+
+    expanded_mask = mask[:, None, None, :].expand(batch_size, 1, tgt_len, src_len).to(dtype)
+    inverted_mask = 1.0 - expanded_mask
+
+    return inverted_mask.masked_fill(
+        inverted_mask.to(torch.bool), torch.finfo(dtype).min
+    )
+
+
+class RotaryEmbedding(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        max_position_embeddings: int,
+        base: int = 10_000,
+        device: Optional[torch.device] = None,
+    ):
+        super().__init__()
+
+        self.dim = dim
+        self.max_position_embeddings = max_position_embeddings
+        self.base = base
+        inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, device=device, dtype=torch.float32) / self.dim))
+        self.register_buffer("inv_freq", inv_freq, persistent=False)
+
+        # Build here to make `torch.jit.trace` work.
+        self._set_cos_sin_cache(
+            seq_len=max_position_embeddings, device=self.inv_freq.device, dtype=torch.get_default_dtype(),
+        )
+
+    def _set_cos_sin_cache(self, seq_len: int, device: torch.device, dtype: torch.dtype):
+        self.max_seq_len_cached = seq_len
+        t = torch.arange(self.max_seq_len_cached, device=device, dtype=torch.float32)
+
+        # Don't do einsum, it converts fp32 to fp16 under AMP
+        # freqs = torch.einsum("i,j->ij", t, self.inv_freq)
+        freqs = torch.outer(t, self.inv_freq)
+        # Different from paper, but it uses a different permutation in order to obtain the same calculation
+        emb = torch.cat((freqs, freqs), dim=-1)
+        self.register_buffer("cos_cached", emb.cos()[None, None, :, :].to(dtype), persistent=False)
+        self.register_buffer("sin_cached", emb.sin()[None, None, :, :].to(dtype), persistent=False)
+
+    def forward(self, x: torch.Tensor, seq_len: Optional[int] = None):
+        # x: [batch_size, num_heads, seq_len, head_size]
+        if seq_len > self.max_seq_len_cached:
+            self._set_cos_sin_cache(seq_len=seq_len, device=x.device, dtype=torch.get_default_dtype())
+        return (
+            self.cos_cached[:, :, :seq_len, ...].to(dtype=x.dtype),
+            self.sin_cached[:, :, :seq_len, ...].to(dtype=x.dtype),
+        )
+
+
+def rotate_half(x: torch.Tensor):
+    """Rotates half the hidden dims of the input."""
+    x1, x2 = torch.chunk(x, 2, dim=-1)
+    return torch.cat((-x2, x1), dim=-1)
+
+
+def apply_rotary_pos_emb(q, k, cos, sin, position_ids):
+    # The first two dimensions of cos and sin are always 1, so we can `squeeze` them.
+    cos = cos.squeeze(1).squeeze(0)  # [seq_len, dim]
+    sin = sin.squeeze(1).squeeze(0)  # [seq_len, dim]
+    cos = cos[position_ids].unsqueeze(1)  # [batch_size, 1, seq_len, dim]
+    sin = sin[position_ids].unsqueeze(1)  # [batch_size, 1, seq_len, dim]
+    q_embed = (q * cos) + (rotate_half(q) * sin)
+    k_embed = (k * cos) + (rotate_half(k) * sin)
+    return q_embed, k_embed
+
+
+class MLP(nn.Module):
+    def __init__(self, config: StableLMEpochConfig):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_proj = nn.Linear(config.hidden_size, config.intermediate_size, bias=False)
+        self.up_proj = nn.Linear(config.hidden_size, config.intermediate_size, bias=False)
+        self.down_proj = nn.Linear(config.intermediate_size, config.hidden_size, bias=False)
+        self.act_fn = nn.SiLU()
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))
+
+
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+
+
+class Attention(nn.Module):
+    def __init__(self, config: StableLMEpochConfig):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.num_key_value_heads = config.num_key_value_heads
+        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
+        self.max_position_embeddings = config.max_position_embeddings
+        self.is_causal = True
+
+        if (self.head_dim * self.num_heads) != self.hidden_size:
+            raise ValueError(
+                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
+                f" and `num_heads`: {self.num_heads})."
+            )
+
+        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=config.use_qkv_bias)
+        self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.use_qkv_bias)
+        self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.use_qkv_bias)
+        self.o_proj = nn.Linear(self.hidden_size, self.hidden_size, bias=False)
+
+        self._init_rope()
+
+    def _init_rope(self):
+        self.rotary_ndims = int(self.head_dim * self.config.rope_pct)
+        self.rotary_emb = RotaryEmbedding(
+            self.rotary_ndims,
+            max_position_embeddings=self.config.max_position_embeddings,
+            base=self.config.rope_theta,
+        )
+
+    def forward(
+        self,
+        hidden_states: torch.FloatTensor,
+        attention_mask: torch.FloatTensor,
+        position_ids: torch.LongTensor,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: Optional[bool] = False,
+        use_cache: Optional[bool] = False,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        query_rot = query_states[..., : self.rotary_ndims]
+        query_pass = query_states[..., self.rotary_ndims :]
+        key_rot = key_states[..., : self.rotary_ndims]
+        key_pass = key_states[..., self.rotary_ndims :]
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value[0].shape[-2]
+        cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
+        query_states, key_states = apply_rotary_pos_emb(query_rot, key_rot, cos, sin, position_ids)
+
+        # [batch_size, num_heads, seq_len, head_dim]
+        query_states = torch.cat((query_states, query_pass), dim=-1)
+        key_states = torch.cat((key_states, key_pass), dim=-1)
+
+        if past_key_value is not None:
+            # Reuse k, v, self_attention
+            key_states = torch.cat((past_key_value[0], key_states), dim=2)
+            value_states = torch.cat((past_key_value[1], value_states), dim=2)
+
+        past_key_value = (key_states, value_states) if use_cache else None
+
+        # Repeat k/v heads if n_kv_heads < n_heads
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
+
+        if attn_weights.size() != (bsz, self.num_heads, q_len, kv_seq_len):
+            raise ValueError(
+                f"Attention weights should be of size {(bsz, self.num_heads, q_len, kv_seq_len)}, but is"
+                f" {attn_weights.size()}"
+            )
+
+        if attention_mask is not None:
+            if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                )
+            attn_weights = attn_weights + attention_mask
+
+        # Upcast attention to fp32
+        attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)
+        attn_output = torch.matmul(attn_weights, value_states)
+
+        if attn_output.size() != (bsz, self.num_heads, q_len, self.head_dim):
+            raise ValueError(
+                f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                f" {attn_output.size()}"
+            )
+
+        # Merge heads
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        # Final linear projection
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+
+class FlashAttention2(Attention):
+    """
+    Reference: https://github.com/huggingface/transformers/blob/5d36025ca13d05151b7a0c761e90d429c4644a30/src/transformers/models/llama/modeling_llama.py#L456
+    """
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        # TODO: Should be removed once Flash Attention for RoCm is bumped to 2.1.
+        # flash_attn<2.1 generates top-left aligned causal mask, while what is needed here is bottom-right alignement, that was made default for flash_attn>=2.1. This attribute is used to handle this difference. Reference: https://github.com/Dao-AILab/flash-attention/releases/tag/v2.1.0.
+        # Beware that with flash_attn<2.1, using q_seqlen != k_seqlen (except for the case q_seqlen == 1) produces a wrong mask (top-left).
+        self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.LongTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Cache] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        # FlashAttention2 attention does not support output_attentions
+        if "padding_mask" in kwargs:
+            warnings.warn(
+                "Passing `padding_mask` is deprecated and will be removed in v4.37. Please make sure use `attention_mask` instead.`"
+            )
+
+            # overwrite attention_mask with padding_mask
+            attention_mask = kwargs.pop("padding_mask")
+
+        output_attentions = False
+
+        bsz, q_len, _ = hidden_states.size()
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+
+        # Flash attention requires the input to have the shape
+        # batch_size x seq_length x head_dim x hidden_dim
+        # therefore we just need to keep the original shape
+        query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
+
+        query_rot = query_states[..., : self.rotary_ndims]
+        query_pass = query_states[..., self.rotary_ndims :]
+        key_rot = key_states[..., : self.rotary_ndims]
+        key_pass = key_states[..., self.rotary_ndims :]
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value[0].shape[-2]
+        cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
+        query_states, key_states = apply_rotary_pos_emb(query_rot, key_rot, cos, sin, position_ids)
+
+        # [batch_size, num_heads, seq_len, head_dim]
+        query_states = torch.cat((query_states, query_pass), dim=-1)
+        key_states = torch.cat((key_states, key_pass), dim=-1)
+
+        if past_key_value is not None:
+            # Reuse k, v, self_attention
+            key_states = torch.cat((past_key_value[0], key_states), dim=2)
+            value_states = torch.cat((past_key_value[1], value_states), dim=2)
+
+        past_key_value = (key_states, value_states) if use_cache else None
+
+        # TODO: These transpose are quite inefficient but Flash Attention requires the layout [batch_size, sequence_length, num_heads, head_dim]. We would need to refactor the KV cache
+        # to be able to avoid many of these transpose/reshape/view.
+        query_states = query_states.transpose(1, 2)
+        key_states = key_states.transpose(1, 2)
+        value_states = value_states.transpose(1, 2)
+
+        dropout_rate = self.attention_dropout if self.training else 0.0
+
+        attn_output = self._flash_attention_forward(
+            query_states, key_states, value_states, attention_mask, q_len, dropout=dropout_rate
+        )
+        attn_output = attn_output.reshape(bsz, q_len, self.hidden_size).contiguous()
+        attn_output = self.o_proj(attn_output)
+
+        if not output_attentions:
+            attn_weights = None
+
+        return attn_output, attn_weights, past_key_value
+
+    def _flash_attention_forward(
+        self, query_states, key_states, value_states, attention_mask, query_length, dropout=0.0, softmax_scale=None
+    ):
+        """
+        Calls the forward method of Flash Attention - if the input hidden states contain at least one padding token
+        first unpad the input, then computes the attention scores and pad the final attention scores.
+
+        Args:
+            query_states (`torch.Tensor`):
+                Input query states to be passed to Flash Attention API
+            key_states (`torch.Tensor`):
+                Input key states to be passed to Flash Attention API
+            value_states (`torch.Tensor`):
+                Input value states to be passed to Flash Attention API
+            attention_mask (`torch.Tensor`):
+                The padding mask - corresponds to a tensor of size `(batch_size, seq_len)` where 0 stands for the
+                position of padding tokens and 1 for the position of non-padding tokens.
+            dropout (`int`, *optional*):
+                Attention dropout
+            softmax_scale (`float`, *optional*):
+                The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim)
+        """
+        if not self._flash_attn_uses_top_left_mask:
+            causal = self.is_causal
+        else:
+            # TODO: Remove the `query_length != 1` check once Flash Attention for RoCm is bumped to 2.1. For details, please see the comment in FlashAttention2 __init__.
+            causal = self.is_causal and query_length != 1
+
+        # Contains at least one padding token in the sequence
+        if attention_mask is not None:
+            batch_size = query_states.shape[0]
+            query_states, key_states, value_states, indices_q, cu_seq_lens, max_seq_lens = self._upad_input(
+                query_states, key_states, value_states, attention_mask, query_length
+            )
+
+            cu_seqlens_q, cu_seqlens_k = cu_seq_lens
+            max_seqlen_in_batch_q, max_seqlen_in_batch_k = max_seq_lens
+
+            attn_output_unpad = flash_attn_varlen_func(
+                query_states,
+                key_states,
+                value_states,
+                cu_seqlens_q=cu_seqlens_q,
+                cu_seqlens_k=cu_seqlens_k,
+                max_seqlen_q=max_seqlen_in_batch_q,
+                max_seqlen_k=max_seqlen_in_batch_k,
+                dropout_p=dropout,
+                softmax_scale=softmax_scale,
+                causal=causal,
+            )
+
+            attn_output = pad_input(attn_output_unpad, indices_q, batch_size, query_length)
+        else:
+            attn_output = flash_attn_func(
+                query_states, key_states, value_states, dropout, softmax_scale=softmax_scale, causal=causal
+            )
+
+        return attn_output
+
+    def _upad_input(self, query_layer, key_layer, value_layer, attention_mask, query_length):
+        indices_k, cu_seqlens_k, max_seqlen_in_batch_k = _get_unpad_data(attention_mask)
+        batch_size, kv_seq_len, num_key_value_heads, head_dim = key_layer.shape
+
+        key_layer = index_first_axis(
+            key_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        value_layer = index_first_axis(
+            value_layer.reshape(batch_size * kv_seq_len, num_key_value_heads, head_dim), indices_k
+        )
+        if query_length == kv_seq_len:
+            query_layer = index_first_axis(
+                query_layer.reshape(batch_size * kv_seq_len, self.num_heads, head_dim), indices_k
+            )
+            cu_seqlens_q = cu_seqlens_k
+            max_seqlen_in_batch_q = max_seqlen_in_batch_k
+            indices_q = indices_k
+        elif query_length == 1:
+            max_seqlen_in_batch_q = 1
+            cu_seqlens_q = torch.arange(
+                batch_size + 1, dtype=torch.int32, device=query_layer.device
+            )  # There is a memcpy here, that is very bad.
+            indices_q = cu_seqlens_q[:-1]
+            query_layer = query_layer.squeeze(1)
+        else:
+            # The -q_len: slice assumes left padding.
+            attention_mask = attention_mask[:, -query_length:]
+            query_layer, indices_q, cu_seqlens_q, max_seqlen_in_batch_q = unpad_input(query_layer, attention_mask)
+
+        return (
+            query_layer,
+            key_layer,
+            value_layer,
+            indices_q,
+            (cu_seqlens_q, cu_seqlens_k),
+            (max_seqlen_in_batch_q, max_seqlen_in_batch_k),
+        )
+
+
+ATTENTION_CLASSES = {
+    "eager": Attention,
+    "flash_attention_2": FlashAttention2,
+}
+
+
+class DecoderLayer(nn.Module):
+    def __init__(self, config: StableLMEpochConfig):
+        super().__init__()
+        self.self_attn = ATTENTION_CLASSES[config._attn_implementation](config=config)
+        self.mlp = MLP(config)
+        self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=config.norm_eps)
+        self.post_attention_layernorm = nn.LayerNorm(config.hidden_size, eps=config.norm_eps)
+
+    def forward(
+        self,
+        hidden_states: Optional[torch.FloatTensor],
+        attention_mask: Optional[torch.FloatTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: Optional[bool] = False,
+        use_cache: Optional[bool] = False,
+    ) -> Union[Tuple[torch.Tensor], Optional[Tuple[torch.Tensor, Tuple[torch.FloatTensor, ...]]]]:
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self Attention
+        hidden_states, self_attn_weights, present_key_value = self.self_attn(
+            hidden_states=hidden_states,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+        )
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+
+        outputs = (hidden_states,)
+
+        if output_attentions:
+            outputs += (self_attn_weights,)
+
+        if use_cache:
+            outputs += (present_key_value,)
+
+        return outputs
+
+
+class StableLMEpochPreTrainedModel(PreTrainedModel):
+    """An abstract class to handle weights initialization and a simple interface
+    for downloading and loading pretrained models.
+    """
+
+    config_class = StableLMEpochConfig
+    base_model_prefix = "transformer"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["DecoderLayer"]
+    _skip_keys_device_placement = "past_key_values"
+    _supports_flash_attn_2 = True
+
+    def _init_weights(self, module: nn.Module):
+        """Initialize the weights"""
+        if isinstance(module, nn.Linear):
+            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+        elif isinstance(module, nn.LayerNorm):
+            module.bias.data.zero_()
+            module.weight.data.fill_(1.0)
+
+    def _set_gradient_checkpointing(self, module: nn.Module, value=False):
+        if isinstance(module, StableLMEpochModel):
+            module.gradient_checkpointing = value
+
+
+class StableLMEpochModel(StableLMEpochPreTrainedModel):
+    def __init__(self, config: StableLMEpochConfig):
+        super().__init__(config)
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, config.pad_token_id)
+        self.layers = nn.ModuleList([DecoderLayer(config) for _ in range(config.num_hidden_layers)])
+        self.norm = nn.LayerNorm(config.hidden_size, eps=config.norm_eps)
+
+        self._use_flash_attention_2 = config._attn_implementation == "flash_attention_2"
+        self.gradient_checkpointing = False
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def set_input_embeddings(self, value: nn.Module):
+        self.embed_tokens = value
+
+    # Copied from transformers.models.bart.modeling_bart.BartDecoder._prepare_decoder_attention_mask
+    def _prepare_decoder_attention_mask(
+        self,
+        attention_mask: torch.Tensor,
+        input_shape: torch.Size,
+        inputs_embeds: torch.Tensor,
+        past_key_values_length: int,
+    ):
+        # Create causal mask
+        # [batch_size, seq_len] -> [batch_size, 1, tgt_seq_len, src_seq_len]
+        combined_attention_mask = None
+        if input_shape[-1] > 1:
+            combined_attention_mask = _make_causal_mask(
+                input_shape,
+                inputs_embeds.dtype,
+                device=inputs_embeds.device,
+                past_key_values_length=past_key_values_length,
+            )
+
+        if attention_mask is not None:
+            # [batch_size, seq_len] -> [batch_size, 1, tgt_seq_len, src_seq_len]
+            expanded_attn_mask = _expand_mask(
+                attention_mask, inputs_embeds.dtype, tgt_len=input_shape[-1]
+            ).to(inputs_embeds.device)
+            combined_attention_mask = expanded_attn_mask if combined_attention_mask is None else expanded_attn_mask + combined_attention_mask
+
+        return combined_attention_mask
+
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        attention_mask: Optional[torch.FloatTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.FloatTensor]]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # Retrieve input_ids and inputs_embeds
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError(
+                "You cannot specify both decoder_input_ids and decoder_inputs_embeds at the same time"
+            )
+        elif input_ids is not None:
+            batch_size, seq_length = input_ids.shape
+        elif inputs_embeds is not None:
+            batch_size, seq_length, _ = inputs_embeds.shape
+        else:
+            raise ValueError(
+                "You have to specify either decoder_input_ids or decoder_inputs_embeds"
+            )
+
+        seq_length_with_past = seq_length
+        past_key_values_length = 0
+
+        if position_ids is None:
+            device = input_ids.device if input_ids is not None else inputs_embeds.device
+            position_ids = torch.arange(
+                past_key_values_length,
+                seq_length + past_key_values_length,
+                dtype=torch.long,
+                device=device,
+            )
+            position_ids = position_ids.unsqueeze(0).view(-1, seq_length)
+        else:
+            position_ids = position_ids.view(-1, seq_length).long()
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        # Embed positions
+        if self._use_flash_attention_2:
+            # 2d mask is passed through the layers
+            attention_mask = attention_mask if (attention_mask is not None and 0 in attention_mask) else None
+        else:
+            if attention_mask is None:
+                attention_mask = torch.ones(
+                    (batch_size, seq_length_with_past),
+                    dtype=torch.bool,
+                    device=inputs_embeds.device,
+                )
+            attention_mask = self._prepare_decoder_attention_mask(
+                attention_mask,
+                (batch_size, seq_length),
+                inputs_embeds,
+                past_key_values_length,
+            )
+
+        hidden_states = inputs_embeds
+
+        if self.gradient_checkpointing and self.training:
+            if use_cache:
+                logger.warning(
+                    "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`..."
+                )
+                use_cache = False
+
+        # Decoder layers
+        all_hidden_states = () if output_hidden_states else None
+        all_self_attns = () if output_attentions else None
+        next_decoder_cache = () if use_cache else None
+
+        for idx, decoder_layer in enumerate(self.layers):
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+
+            past_key_value = (
+                past_key_values[idx] if past_key_values is not None else None
+            )
+
+            if self.gradient_checkpointing and self.training:
+
+                def create_custom_forward(module):
+                    def custom_forward(*inputs):
+                        # None for past_key_value
+                        return module(*inputs, past_key_value, output_attentions)
+
+                    return custom_forward
+
+                layer_outputs = torch.utils.checkpoint.checkpoint(
+                    create_custom_forward(decoder_layer),
+                    hidden_states,
+                    attention_mask,
+                    position_ids,
+                )
+            else:
+                layer_outputs = decoder_layer(
+                    hidden_states,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_value=past_key_value,
+                    output_attentions=output_attentions,
+                    use_cache=use_cache,
+                )
+
+            hidden_states = layer_outputs[0]
+
+            if use_cache:
+                next_decoder_cache += (layer_outputs[2 if output_attentions else 1],)
+
+            if output_attentions:
+                all_self_attns += (layer_outputs[1],)
+
+        hidden_states = self.norm(hidden_states)
+
+        # Add hidden states from the last decoder layer
+        if output_hidden_states:
+            all_hidden_states += (hidden_states,)
+
+        next_cache = next_decoder_cache if use_cache else None
+        if not return_dict:
+            return tuple(
+                v
+                for v in [hidden_states, next_cache, all_hidden_states, all_self_attns]
+                if v is not None
+            )
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=next_cache,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attns,
+        )
+
+
+class StableLMEpochForCausalLM(StableLMEpochPreTrainedModel):
+    _tied_weights_keys = ["lm_head.weight"]
+
+    def __init__(self, config: StableLMEpochConfig):
+        super().__init__(config)
+
+        self.model = StableLMEpochModel(config)
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    def get_output_embeddings(self):
+        return self.lm_head
+
+    def set_output_embeddings(self, new_embeddings: nn.Module):
+        self.lm_head = new_embeddings
+
+    def get_decoder(self):
+        return self.model
+
+    def set_decoder(self, decoder):
+        self.model = decoder
+
+    def forward(
+        self,
+        input_ids: Optional[torch.LongTensor] = None,
+        attention_mask: Optional[torch.FloatTensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.FloatTensor]]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        output_attentions = (
+            output_attentions
+            if output_attentions is not None
+            else self.config.output_attentions
+        )
+        output_hidden_states = (
+            output_hidden_states
+            if output_hidden_states is not None
+            else self.config.output_hidden_states
+        )
+        return_dict = (
+            return_dict if return_dict is not None else self.config.use_return_dict
+        )
+
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.model(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = outputs[0]
+        logits = self.lm_head(hidden_states).float()
+
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = CrossEntropyLoss()
+            shift_logits = shift_logits.view(-1, self.config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+
+    def prepare_inputs_for_generation(
+        self,
+        input_ids,
+        past_key_values: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        **kwargs,
+    ):
+        # Trim decoder_input_ids if past is used
+        if past_key_values is not None:
+            past_length = past_key_values[0][0].shape[2]
+
+            # Some generation methods already pass only the last input ID
+            if input_ids.shape[1] > past_length:
+                remove_prefix_length = past_length
+            else:
+                # Default to old behavior: keep only final ID
+                remove_prefix_length = input_ids.shape[1] - 1
+
+            input_ids = input_ids[:, remove_prefix_length:]
+
+        position_ids = kwargs.get("position_ids", None)
+        if attention_mask is not None and position_ids is None:
+            # Create position_ids on the fly for batch generation
+            position_ids = attention_mask.long().cumsum(-1) - 1
+            position_ids.masked_fill_(attention_mask == 0, 1)
+            if past_key_values:
+                position_ids = position_ids[:, -1].unsqueeze(-1)
+
+        # If `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids}
+
+        model_inputs.update(
+            {
+                "attention_mask": attention_mask,
+                "past_key_values": past_key_values,
+                "use_cache": kwargs.get("use_cache"),
+                "position_ids": position_ids,
+            }
+        )
+        return model_inputs
+
+    @staticmethod
+    def _reorder_cache(past_key_values, beam_idx):
+        reordered_past = ()
+        for layer_past in past_key_values:
+            reordered_past += (
+                tuple(
+                    past_state.index_select(0, beam_idx.to(past_state.device))
+                    for past_state in layer_past
+                ),
+            )
+        return reordered_past
+
+
+StableLMEpochConfig.register_for_auto_class()
+StableLMEpochForCausalLM.register_for_auto_class("AutoModelForCausalLM")
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/builder.py b/Unicorn_dense/bunny/model/multimodal_encoder/builder.py
new file mode 100644
index 0000000000000000000000000000000000000000..dbec1c6db823e7bc810465dddb28eff952eac0b7
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_encoder/builder.py
@@ -0,0 +1,122 @@
+import torch
+import torch.nn as nn
+
+import os
+import pickle
+
+
+# class LLM2CLIPTextTower(nn.Module):
+#     def __init__(self):
+#         super().__init__()
+
+#         self.image_processor = CLIPImageProcessor.from_pretrained("/data/xmyu/Bunny_all/checkpoints/clip-vit-large-patch14-336")
+#         self.model = AutoModel.from_pretrained(
+#             "/data/xmyu/Bunny_all/checkpoints/LLM2CLIP-Openai-L-14-336", 
+#             torch_dtype=torch.bfloat16,
+#             trust_remote_code=True).to('cuda').eval()
+        
+#         self.model.requires_grad_(False)
+        
+
+#         self.llm_model_name = '/data/xmyu/Bunny_all/checkpoints/LLM2CLIP-Llama-3-8B-Instruct-CC-Finetuned'
+#         config = AutoConfig.from_pretrained(
+#             self.llm_model_name, trust_remote_code=True
+#         )
+#         self.llm_model = AutoModel.from_pretrained(self.llm_model_name, torch_dtype=torch.bfloat16, config=config, trust_remote_code=True)
+#         self.llm2clip_tokenizer = AutoTokenizer.from_pretrained(self.llm_model_name)
+#         self.llm_model.config._name_or_path = '/data/xmyu/Bunny_all/checkpoints/Meta-Llama-3-8B-Instruct' #  Workaround for LLM2VEC
+#         self.l2v = LLM2Vec(self.llm_model, self.llm2clip_tokenizer, pooling_mode="mean", max_length=512, doc_max_length=512)
+
+#         self.is_loaded = True
+
+#     def forward_img(self, images):
+#         if type(images) is list:
+#             image_features = []
+#             for image in images:
+#                 image_feature = self.vision_tower(image.to(device=self.device, dtype=self.dtype).unsqueeze(0),
+#                                                       output_hidden_states=True)
+#                 image_features.append(image_feature)
+#         else:
+#             image_features = self.vision_tower(images.to(device=self.device, dtype=self.dtype),
+#                                                    output_hidden_states=True)
+
+#         return image_features
+    
+#     def forward(self, captions):
+
+#         if type(captions) is list:
+#             caption_features = self.l2v.encode(captions, convert_to_tensor=True).to('cuda')
+
+#         with torch.no_grad(), torch.cuda.amp.autocast():
+
+#             caption_features = self.model.get_text_features(caption_features)
+#             caption_features /= caption_features.norm(dim=-1, keepdim=True)
+
+#         print('<-------------------------->')
+#         print(caption_features.shape)
+#         print('<-------------------------->')
+        
+#         return caption_features
+
+#     @property
+#     def dummy_feature(self):
+#         return torch.zeros(1, self.hidden_size, device=self.device, dtype=self.dtype)
+
+#     @property
+#     def dtype(self):
+#         return self.vision_tower.dtype
+
+#     @property
+#     def device(self):
+#         return self.vision_tower.device
+
+#     @property
+#     def hidden_size(self):
+#         return 1280
+
+# def build_vision_tower(vision_tower_cfg, **kwargs):
+
+#     return LLM2CLIPTextTower()
+
+
+class LLM2CLIPTextTower(nn.Module):
+    def __init__(self):
+        super().__init__()
+
+        folder_path = '/data/xmyu/Bunny_all/data/embeddings/pkl/captions'  # 替换为实际的文件夹路径
+        self.embeddings = []
+
+        for filename in os.listdir(folder_path):
+            if filename.endswith('.pkl'):
+                file_path = os.path.join(folder_path, filename)
+                with open(file_path, 'rb') as f:
+                    self.embeddings.extend(pickle.load(f))
+    
+    def forward(self, ids):
+        embeds = []
+        for id_ in ids:
+            embed = next((d['embed'] for d in self.embeddings if d['id'] == id_), None)
+            if embed is None:
+                raise KeyError(f"ID {id_} not found in embeddings.")
+            embeds.append(embed)
+        return embeds
+
+    @property
+    def dummy_feature(self):
+        return torch.zeros(1, 1280, device=self.device, dtype=self.dtype)
+
+    # @property
+    # def dtype(self):
+    #     return self.vision_tower.dtype
+
+    # @property
+    # def device(self):
+    #     return self.vision_tower.device
+
+    @property
+    def hidden_size(self):
+        return 1280
+
+def build_vision_tower(vision_tower_cfg, **kwargs):
+
+    return LLM2CLIPTextTower()
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/clip/__pycache__/clip_encoder.cpython-310.pyc b/Unicorn_dense/bunny/model/multimodal_encoder/clip/__pycache__/clip_encoder.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f2941645f955d154af544b6837c3a344ba38e47a
Binary files /dev/null and b/Unicorn_dense/bunny/model/multimodal_encoder/clip/__pycache__/clip_encoder.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/clip/clip_encoder.py b/Unicorn_dense/bunny/model/multimodal_encoder/clip/clip_encoder.py
new file mode 100644
index 0000000000000000000000000000000000000000..b499817af1cecf4b000eda5415d0436a691519c5
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_encoder/clip/clip_encoder.py
@@ -0,0 +1,77 @@
+import torch
+import torch.nn as nn
+
+from transformers import CLIPVisionModel, CLIPImageProcessor, CLIPVisionConfig
+
+
+class CLIPVisionTower(nn.Module):
+    def __init__(self, vision_tower, args, delay_load=False):
+        super().__init__()
+
+        self.is_loaded = False
+
+        self.vision_tower_name = vision_tower
+        self.select_layer = -2
+
+        if not delay_load:
+            self.load_model()
+        else:
+            self.cfg_only = CLIPVisionConfig.from_pretrained(self.vision_tower_name)
+
+    def load_model(self):
+        if self.is_loaded:
+            return
+        self.image_processor = CLIPImageProcessor.from_pretrained(self.vision_tower_name)
+        self.vision_tower = CLIPVisionModel.from_pretrained(self.vision_tower_name)
+        self.vision_tower.requires_grad_(False)
+
+        self.is_loaded = True
+
+    def feature_select(self, image_forward_outs):
+        image_features = image_forward_outs.hidden_states[self.select_layer]
+
+        image_features = image_features[:, 1:]
+
+        return image_features
+
+    def forward(self, images):
+        if type(images) is list:
+            image_features = []
+            for image in images:
+                image_forward_out = self.vision_tower(image.to(device=self.device, dtype=self.dtype).unsqueeze(0),
+                                                      output_hidden_states=True)
+                image_feature = self.feature_select(image_forward_out).to(image.dtype)
+                image_features.append(image_feature)
+        else:
+            image_forward_outs = self.vision_tower(images.to(device=self.device, dtype=self.dtype),
+                                                   output_hidden_states=True)
+            image_features = self.feature_select(image_forward_outs).to(images.dtype)
+
+        return image_features
+
+    @property
+    def dummy_feature(self):
+        return torch.zeros(1, self.hidden_size, device=self.device, dtype=self.dtype)
+
+    @property
+    def dtype(self):
+        return self.vision_tower.dtype
+
+    @property
+    def device(self):
+        return self.vision_tower.device
+
+    @property
+    def config(self):
+        if self.is_loaded:
+            return self.vision_tower.config
+        else:
+            return self.cfg_only
+
+    @property
+    def hidden_size(self):
+        return self.config.hidden_size
+
+    @property
+    def num_patches(self):
+        return (self.config.image_size // self.config.patch_size) ** 2
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_clip_encoder.cpython-310.pyc b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_clip_encoder.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3df5b8586d80f9c1c94ea43e5f129b4fe5cf7666
Binary files /dev/null and b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_clip_encoder.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_clip_processors.cpython-310.pyc b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_clip_processors.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2f49409090618ab5bf4131d6e81ff81df0cc7f60
Binary files /dev/null and b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_clip_processors.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_vit.cpython-310.pyc b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_vit.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..277ee98e8470ab6a93b48fa440541d097a089ea1
Binary files /dev/null and b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/__pycache__/eva_vit.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_clip_encoder.py b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_clip_encoder.py
new file mode 100644
index 0000000000000000000000000000000000000000..adba2b21b105fe49a3a6a3c93114c9daaa30b5e4
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_clip_encoder.py
@@ -0,0 +1,64 @@
+import torch
+import torch.nn as nn
+
+from .eva_clip_processors import EvaClipImageTrainProcessor
+from .eva_vit import Eva2LargePlusEncoder
+
+
+class EvaClipVisionTower(nn.Module):
+    def __init__(self, vision_tower, args, delay_load=False):
+        super().__init__()
+
+        self.is_loaded = False
+
+        self.vision_tower_path = vision_tower
+        self.config = VisionTowerConfig()
+
+        if not delay_load:
+            self.load_model()
+        else:
+            self.cfg_only = self.config
+
+    def load_model(self):
+        if self.is_loaded:
+            return
+        self.image_processor = EvaClipImageTrainProcessor(self.config.image_size)
+        self.vision_tower = Eva2LargePlusEncoder(self.vision_tower_path)
+        self.vision_tower.requires_grad_(False)
+
+        self.is_loaded = True
+
+    def forward(self, images):
+        if type(images) is list:
+            image_features = []
+            for image in images:
+                image_feature = self.vision_tower(image.to(device=self.device, dtype=self.dtype).unsqueeze(0)).to(
+                    image.dtype)
+                image_features.append(image_feature)
+        else:
+            image_features = self.vision_tower(images.to(device=self.device, dtype=self.dtype)).to(images.dtype)
+
+        return image_features
+
+    @property
+    def dtype(self):
+        return self.vision_tower.dtype
+
+    @property
+    def device(self):
+        return self.vision_tower.device
+
+    @property
+    def hidden_size(self):
+        return self.config.hidden_size
+
+    @property
+    def num_patches(self):
+        return (self.config.image_size // self.config.patch_size) ** 2
+
+
+class VisionTowerConfig():
+    def __init__(self):
+        self.image_size = 336
+        self.patch_size = 14
+        self.hidden_size = 1024
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_clip_processors.py b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_clip_processors.py
new file mode 100644
index 0000000000000000000000000000000000000000..26a56fa06462bf36a476a1fb3ce9285107884fcb
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_clip_processors.py
@@ -0,0 +1,68 @@
+'''
+# Adapted from https://github.com/baaivision/EVA/tree/master/EVA-CLIP
+'''
+
+from torchvision import transforms
+from torchvision.transforms.functional import InterpolationMode
+from transformers.image_processing_utils import BatchFeature
+from PIL import Image
+from transformers.image_transforms import convert_to_rgb
+
+
+class BaseProcessor:
+    def __init__(self):
+        self.transform = lambda x: x
+        return
+
+    def __call__(self, item):
+        return self.transform(item)
+
+
+class EvaClipImageBaseProcessor(BaseProcessor):
+    def __init__(self, mean=None, std=None):
+        self.mean = (0.48145466, 0.4578275, 0.40821073) if mean is None else mean
+        self.std = (0.26862954, 0.26130258, 0.27577711) if std is None else std
+
+        self.normalize = transforms.Normalize(self.mean, self.std)
+
+    @property
+    def image_mean(self):
+        return self.mean
+
+
+class EvaClipImageTrainProcessor(EvaClipImageBaseProcessor):
+    def __init__(self, image_size=224, mean=None, std=None, min_scale=0.5, max_scale=1.0):
+        super().__init__(mean=mean, std=std)
+
+        self.transform = transforms.Compose(
+            [
+                convert_to_rgb,
+                transforms.Resize(
+                    image_size,
+                    interpolation=InterpolationMode.BICUBIC,
+                ),
+                transforms.CenterCrop(image_size),
+                transforms.ToTensor(),
+                self.normalize,
+            ]
+        )
+
+        self.image_size = image_size
+
+    def preprocess(self, images, return_tensors):
+        if isinstance(images, Image.Image):
+            images = [images]
+        else:
+            assert isinstance(images, list)
+
+        transformed_images = [self.transform(image).numpy() for image in images]
+        data = {"pixel_values": transformed_images}
+
+        return BatchFeature(data=data, tensor_type=return_tensors)
+
+    def __call__(self, item):
+        return self.transform(item)
+
+    @property
+    def crop_size(self):
+        return {'height': self.image_size, 'width': self.image_size}
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_vit.py b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_vit.py
new file mode 100644
index 0000000000000000000000000000000000000000..3fe293c70d72911f2ac3b94c68bd58176e72a126
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_encoder/eva_clip/eva_vit.py
@@ -0,0 +1,851 @@
+'''
+# Adapted from https://github.com/baaivision/EVA/tree/master/EVA-CLIP
+'''
+
+from math import pi
+import torch
+from torch import nn
+from einops import rearrange, repeat
+import logging
+
+
+def broadcat(tensors, dim=-1):
+    num_tensors = len(tensors)
+    shape_lens = set(list(map(lambda t: len(t.shape), tensors)))
+    assert len(shape_lens) == 1, 'tensors must all have the same number of dimensions'
+    shape_len = list(shape_lens)[0]
+    dim = (dim + shape_len) if dim < 0 else dim
+    dims = list(zip(*map(lambda t: list(t.shape), tensors)))
+    expandable_dims = [(i, val) for i, val in enumerate(dims) if i != dim]
+    assert all(
+        [*map(lambda t: len(set(t[1])) <= 2, expandable_dims)]), 'invalid dimensions for broadcastable concatentation'
+    max_dims = list(map(lambda t: (t[0], max(t[1])), expandable_dims))
+    expanded_dims = list(map(lambda t: (t[0], (t[1],) * num_tensors), max_dims))
+    expanded_dims.insert(dim, (dim, dims[dim]))
+    expandable_shapes = list(zip(*map(lambda t: t[1], expanded_dims)))
+    tensors = list(map(lambda t: t[0].expand(*t[1]), zip(tensors, expandable_shapes)))
+    return torch.cat(tensors, dim=dim)
+
+
+def rotate_half(x):
+    x = rearrange(x, '... (d r) -> ... d r', r=2)
+    x1, x2 = x.unbind(dim=-1)
+    x = torch.stack((-x2, x1), dim=-1)
+    return rearrange(x, '... d r -> ... (d r)')
+
+
+class VisionRotaryEmbeddingFast(nn.Module):
+    def __init__(
+            self,
+            dim,
+            pt_seq_len,
+            ft_seq_len=None,
+            custom_freqs=None,
+            freqs_for='lang',
+            theta=10000,
+            max_freq=10,
+            num_freqs=1,
+            patch_dropout=0.
+    ):
+        super().__init__()
+        if custom_freqs:
+            freqs = custom_freqs
+        elif freqs_for == 'lang':
+            freqs = 1. / (theta ** (torch.arange(0, dim, 2)[:(dim // 2)].float() / dim))
+        elif freqs_for == 'pixel':
+            freqs = torch.linspace(1., max_freq / 2, dim // 2) * pi
+        elif freqs_for == 'constant':
+            freqs = torch.ones(num_freqs).float()
+        else:
+            raise ValueError(f'unknown modality {freqs_for}')
+
+        if ft_seq_len is None: ft_seq_len = pt_seq_len
+        t = torch.arange(ft_seq_len) / ft_seq_len * pt_seq_len
+
+        freqs = torch.einsum('..., f -> ... f', t, freqs)
+        freqs = repeat(freqs, '... n -> ... (n r)', r=2)
+        freqs = broadcat((freqs[:, None, :], freqs[None, :, :]), dim=-1)
+
+        freqs_cos = freqs.cos().view(-1, freqs.shape[-1])
+        freqs_sin = freqs.sin().view(-1, freqs.shape[-1])
+
+        self.patch_dropout = patch_dropout
+
+        self.register_buffer("freqs_cos", freqs_cos)
+        self.register_buffer("freqs_sin", freqs_sin)
+
+        logging.info(f'Shape of rope freq: {self.freqs_cos.shape}')
+
+    def forward(self, t, patch_indices_keep=None):
+        if patch_indices_keep is not None:
+            batch = t.size()[0]
+            batch_indices = torch.arange(batch)
+            batch_indices = batch_indices[..., None]
+
+            freqs_cos = repeat(self.freqs_cos, 'i j -> n i m j', n=t.shape[0], m=t.shape[1])
+            freqs_sin = repeat(self.freqs_sin, 'i j -> n i m j', n=t.shape[0], m=t.shape[1])
+
+            freqs_cos = freqs_cos[batch_indices, patch_indices_keep]
+            freqs_cos = rearrange(freqs_cos, 'n i m j -> n m i j')
+            freqs_sin = freqs_sin[batch_indices, patch_indices_keep]
+            freqs_sin = rearrange(freqs_sin, 'n i m j -> n m i j')
+
+            return t * freqs_cos + rotate_half(t) * freqs_sin
+
+        return t * self.freqs_cos + rotate_half(t) * self.freqs_sin
+
+
+class LayerNorm(nn.LayerNorm):
+    """Subclass torch's LayerNorm (with cast back to input dtype)."""
+
+    def forward(self, x: torch.Tensor):
+        orig_type = x.dtype
+        x = F.layer_norm(x, self.normalized_shape, self.weight, self.bias, self.eps)
+        return x.to(orig_type)
+
+
+class PatchDropout(nn.Module):
+    """
+    https://arxiv.org/abs/2212.00794
+    """
+
+    def __init__(self, prob, exclude_first_token=True):
+        super().__init__()
+        assert 0 <= prob < 1.
+        self.prob = prob
+        self.exclude_first_token = exclude_first_token  # exclude CLS token
+        logging.info(f"os.getenv('RoPE')={os.getenv('RoPE')}")
+
+    def forward(self, x):
+        if not self.training or self.prob == 0.:
+            return x
+
+        if self.exclude_first_token:
+            cls_tokens, x = x[:, :1], x[:, 1:]
+        else:
+            cls_tokens = torch.jit.annotate(torch.Tensor, x[:, :1])
+
+        batch = x.size()[0]
+        num_tokens = x.size()[1]
+
+        batch_indices = torch.arange(batch)
+        batch_indices = batch_indices[..., None]
+
+        keep_prob = 1 - self.prob
+        num_patches_keep = max(1, int(num_tokens * keep_prob))
+
+        rand = torch.randn(batch, num_tokens)
+        patch_indices_keep = rand.topk(num_patches_keep, dim=-1).indices
+
+        x = x[batch_indices, patch_indices_keep]
+
+        if self.exclude_first_token:
+            x = torch.cat((cls_tokens, x), dim=1)
+
+        if self.training and os.getenv('RoPE') == '1':
+            return x, patch_indices_keep
+
+        return x
+
+
+# --------------------------------------------------------
+# Adapted from  https://github.com/microsoft/unilm/tree/master/beit
+# --------------------------------------------------------
+import math
+import os
+from functools import partial
+import torch.nn as nn
+import torch.nn.functional as F
+
+try:
+    from timm.models.layers import drop_path, to_2tuple, trunc_normal_
+except:
+    from timm.layers import drop_path, to_2tuple, trunc_normal_
+
+if os.getenv('ENV_TYPE') == 'deepspeed':
+    try:
+        from deepspeed.runtime.activation_checkpointing.checkpointing import checkpoint
+    except:
+        from torch.utils.checkpoint import checkpoint
+else:
+    from torch.utils.checkpoint import checkpoint
+
+import xformers.ops as xops
+
+
+class DropPath(nn.Module):
+    """Drop paths (Stochastic Depth) per sample  (when applied in main path of residual blocks).
+    """
+
+    def __init__(self, drop_prob=None):
+        super(DropPath, self).__init__()
+        self.drop_prob = drop_prob
+
+    def forward(self, x):
+        return drop_path(x, self.drop_prob, self.training)
+
+    def extra_repr(self) -> str:
+        return 'p={}'.format(self.drop_prob)
+
+
+class Mlp(nn.Module):
+    def __init__(
+            self,
+            in_features,
+            hidden_features=None,
+            out_features=None,
+            act_layer=nn.GELU,
+            norm_layer=nn.LayerNorm,
+            drop=0.,
+            subln=False,
+
+    ):
+        super().__init__()
+        out_features = out_features or in_features
+        hidden_features = hidden_features or in_features
+        self.fc1 = nn.Linear(in_features, hidden_features)
+        self.act = act_layer()
+
+        self.ffn_ln = norm_layer(hidden_features) if subln else nn.Identity()
+
+        self.fc2 = nn.Linear(hidden_features, out_features)
+        self.drop = nn.Dropout(drop)
+
+    def forward(self, x):
+        x = self.fc1(x)
+        x = self.act(x)
+        # x = self.drop(x)
+        # commit this for the orignal BERT implement 
+        x = self.ffn_ln(x)
+
+        x = self.fc2(x)
+        x = self.drop(x)
+        return x
+
+
+class SwiGLU(nn.Module):
+    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.SiLU, drop=0.,
+                 norm_layer=nn.LayerNorm, subln=False):
+        super().__init__()
+        out_features = out_features or in_features
+        hidden_features = hidden_features or in_features
+
+        self.w1 = nn.Linear(in_features, hidden_features)
+        self.w2 = nn.Linear(in_features, hidden_features)
+
+        self.act = act_layer()
+        self.ffn_ln = norm_layer(hidden_features) if subln else nn.Identity()
+        self.w3 = nn.Linear(hidden_features, out_features)
+
+        self.drop = nn.Dropout(drop)
+
+    def forward(self, x):
+        x1 = self.w1(x)
+        x2 = self.w2(x)
+        hidden = self.act(x1) * x2
+        x = self.ffn_ln(hidden)
+        x = self.w3(x)
+        x = self.drop(x)
+        return x
+
+
+class Attention(nn.Module):
+    def __init__(
+            self, dim, num_heads=8, qkv_bias=False, qk_scale=None, attn_drop=0.,
+            proj_drop=0., window_size=None, attn_head_dim=None, xattn=False, rope=None, subln=False,
+            norm_layer=nn.LayerNorm):
+        super().__init__()
+        self.num_heads = num_heads
+        head_dim = dim // num_heads
+        if attn_head_dim is not None:
+            head_dim = attn_head_dim
+        all_head_dim = head_dim * self.num_heads
+        self.scale = qk_scale or head_dim ** -0.5
+
+        self.subln = subln
+        if self.subln:
+            self.q_proj = nn.Linear(dim, all_head_dim, bias=False)
+            self.k_proj = nn.Linear(dim, all_head_dim, bias=False)
+            self.v_proj = nn.Linear(dim, all_head_dim, bias=False)
+        else:
+            self.qkv = nn.Linear(dim, all_head_dim * 3, bias=False)
+
+        if qkv_bias:
+            self.q_bias = nn.Parameter(torch.zeros(all_head_dim))
+            self.v_bias = nn.Parameter(torch.zeros(all_head_dim))
+        else:
+            self.q_bias = None
+            self.v_bias = None
+
+        if window_size:
+            self.window_size = window_size
+            self.num_relative_distance = (2 * window_size[0] - 1) * (2 * window_size[1] - 1) + 3
+            self.relative_position_bias_table = nn.Parameter(
+                torch.zeros(self.num_relative_distance, num_heads))  # 2*Wh-1 * 2*Ww-1, nH
+            # cls to token & token 2 cls & cls to cls
+
+            # get pair-wise relative position index for each token inside the window
+            coords_h = torch.arange(window_size[0])
+            coords_w = torch.arange(window_size[1])
+            coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww
+            coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww
+            relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # 2, Wh*Ww, Wh*Ww
+            relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2
+            relative_coords[:, :, 0] += window_size[0] - 1  # shift to start from 0
+            relative_coords[:, :, 1] += window_size[1] - 1
+            relative_coords[:, :, 0] *= 2 * window_size[1] - 1
+            relative_position_index = \
+                torch.zeros(size=(window_size[0] * window_size[1] + 1,) * 2, dtype=relative_coords.dtype)
+            relative_position_index[1:, 1:] = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww
+            relative_position_index[0, 0:] = self.num_relative_distance - 3
+            relative_position_index[0:, 0] = self.num_relative_distance - 2
+            relative_position_index[0, 0] = self.num_relative_distance - 1
+
+            self.register_buffer("relative_position_index", relative_position_index)
+        else:
+            self.window_size = None
+            self.relative_position_bias_table = None
+            self.relative_position_index = None
+
+        self.attn_drop = nn.Dropout(attn_drop)
+        self.inner_attn_ln = norm_layer(all_head_dim) if subln else nn.Identity()
+        # self.proj = nn.Linear(all_head_dim, all_head_dim)
+        self.proj = nn.Linear(all_head_dim, dim)
+        self.proj_drop = nn.Dropout(proj_drop)
+        self.xattn = xattn
+        self.xattn_drop = attn_drop
+
+        self.rope = rope
+
+    def forward(self, x, rel_pos_bias=None, attn_mask=None):
+        B, N, C = x.shape
+        if self.subln:
+            q = F.linear(input=x, weight=self.q_proj.weight, bias=self.q_bias)
+            k = F.linear(input=x, weight=self.k_proj.weight, bias=None)
+            v = F.linear(input=x, weight=self.v_proj.weight, bias=self.v_bias)
+
+            q = q.reshape(B, N, self.num_heads, -1).permute(0, 2, 1, 3)  # B, num_heads, N, C
+            k = k.reshape(B, N, self.num_heads, -1).permute(0, 2, 1, 3)
+            v = v.reshape(B, N, self.num_heads, -1).permute(0, 2, 1, 3)
+        else:
+
+            qkv_bias = None
+            if self.q_bias is not None:
+                qkv_bias = torch.cat((self.q_bias, torch.zeros_like(self.v_bias, requires_grad=False), self.v_bias))
+
+            qkv = F.linear(input=x, weight=self.qkv.weight, bias=qkv_bias)
+            qkv = qkv.reshape(B, N, 3, self.num_heads, -1).permute(2, 0, 3, 1, 4)  # 3, B, num_heads, N, C
+            q, k, v = qkv[0], qkv[1], qkv[2]
+
+        if self.rope:
+            # slightly fast impl
+            q_t = q[:, :, 1:, :]
+            ro_q_t = self.rope(q_t)
+            q = torch.cat((q[:, :, :1, :], ro_q_t), -2).type_as(v)
+
+            k_t = k[:, :, 1:, :]
+            ro_k_t = self.rope(k_t)
+            k = torch.cat((k[:, :, :1, :], ro_k_t), -2).type_as(v)
+
+        if self.xattn:
+            q = q.permute(0, 2, 1, 3)  # B, num_heads, N, C -> B, N, num_heads, C
+            k = k.permute(0, 2, 1, 3)
+            v = v.permute(0, 2, 1, 3)
+
+            x = xops.memory_efficient_attention(
+                q, k, v,
+                p=self.xattn_drop,
+                scale=self.scale,
+            )
+            x = x.reshape(B, N, -1)
+            x = self.inner_attn_ln(x)
+            x = self.proj(x)
+            x = self.proj_drop(x)
+        else:
+            q = q * self.scale
+            attn = (q @ k.transpose(-2, -1))
+
+            if self.relative_position_bias_table is not None:
+                relative_position_bias = \
+                    self.relative_position_bias_table[self.relative_position_index.view(-1)].view(
+                        self.window_size[0] * self.window_size[1] + 1,
+                        self.window_size[0] * self.window_size[1] + 1, -1)  # Wh*Ww,Wh*Ww,nH
+                relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww
+                attn = attn + relative_position_bias.unsqueeze(0).type_as(attn)
+
+            if rel_pos_bias is not None:
+                attn = attn + rel_pos_bias.type_as(attn)
+
+            if attn_mask is not None:
+                attn_mask = attn_mask.bool()
+                attn = attn.masked_fill(~attn_mask[:, None, None, :], float("-inf"))
+
+            attn = attn.softmax(dim=-1)
+            attn = self.attn_drop(attn)
+
+            x = (attn @ v).transpose(1, 2).reshape(B, N, -1)
+            x = self.inner_attn_ln(x)
+            x = self.proj(x)
+            x = self.proj_drop(x)
+        return x
+
+
+class Block(nn.Module):
+
+    def __init__(self, dim, num_heads, mlp_ratio=4., qkv_bias=False, qk_scale=None, drop=0., attn_drop=0.,
+                 drop_path=0., init_values=None, act_layer=nn.GELU, norm_layer=nn.LayerNorm,
+                 window_size=None, attn_head_dim=None, xattn=False, rope=None, postnorm=False,
+                 subln=False, naiveswiglu=False):
+        super().__init__()
+        self.norm1 = norm_layer(dim)
+        self.attn = Attention(
+            dim, num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale,
+            attn_drop=attn_drop, proj_drop=drop, window_size=window_size, attn_head_dim=attn_head_dim,
+            xattn=xattn, rope=rope, subln=subln, norm_layer=norm_layer)
+        # NOTE: drop path for stochastic depth, we shall see if this is better than dropout here
+        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
+        self.norm2 = norm_layer(dim)
+        mlp_hidden_dim = int(dim * mlp_ratio)
+
+        if naiveswiglu:
+            self.mlp = SwiGLU(
+                in_features=dim,
+                hidden_features=mlp_hidden_dim,
+                subln=subln,
+                norm_layer=norm_layer,
+            )
+        else:
+            self.mlp = Mlp(
+                in_features=dim,
+                hidden_features=mlp_hidden_dim,
+                act_layer=act_layer,
+                subln=subln,
+                drop=drop
+            )
+
+        if init_values is not None and init_values > 0:
+            self.gamma_1 = nn.Parameter(init_values * torch.ones((dim)), requires_grad=True)
+            self.gamma_2 = nn.Parameter(init_values * torch.ones((dim)), requires_grad=True)
+        else:
+            self.gamma_1, self.gamma_2 = None, None
+
+        self.postnorm = postnorm
+
+    def forward(self, x, rel_pos_bias=None, attn_mask=None):
+        if self.gamma_1 is None:
+            if self.postnorm:
+                x = x + self.drop_path(self.norm1(self.attn(x, rel_pos_bias=rel_pos_bias, attn_mask=attn_mask)))
+                x = x + self.drop_path(self.norm2(self.mlp(x)))
+            else:
+                x = x + self.drop_path(self.attn(self.norm1(x), rel_pos_bias=rel_pos_bias, attn_mask=attn_mask))
+                x = x + self.drop_path(self.mlp(self.norm2(x)))
+        else:
+            if self.postnorm:
+                x = x + self.drop_path(
+                    self.gamma_1 * self.norm1(self.attn(x, rel_pos_bias=rel_pos_bias, attn_mask=attn_mask)))
+                x = x + self.drop_path(self.gamma_2 * self.norm2(self.mlp(x)))
+            else:
+                x = x + self.drop_path(
+                    self.gamma_1 * self.attn(self.norm1(x), rel_pos_bias=rel_pos_bias, attn_mask=attn_mask))
+                x = x + self.drop_path(self.gamma_2 * self.mlp(self.norm2(x)))
+        return x
+
+
+class PatchEmbed(nn.Module):
+    """ Image to Patch Embedding
+    """
+
+    def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768):
+        super().__init__()
+        img_size = to_2tuple(img_size)
+        patch_size = to_2tuple(patch_size)
+        num_patches = (img_size[1] // patch_size[1]) * (img_size[0] // patch_size[0])
+        self.patch_shape = (img_size[0] // patch_size[0], img_size[1] // patch_size[1])
+        self.img_size = img_size
+        self.patch_size = patch_size
+        self.num_patches = num_patches
+
+        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
+
+    def forward(self, x, **kwargs):
+        B, C, H, W = x.shape
+        # FIXME look at relaxing size constraints
+        assert H == self.img_size[0] and W == self.img_size[1], \
+            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."
+        x = self.proj(x).flatten(2).transpose(1, 2)
+        return x
+
+
+class RelativePositionBias(nn.Module):
+
+    def __init__(self, window_size, num_heads):
+        super().__init__()
+        self.window_size = window_size
+        self.num_relative_distance = (2 * window_size[0] - 1) * (2 * window_size[1] - 1) + 3
+        self.relative_position_bias_table = nn.Parameter(
+            torch.zeros(self.num_relative_distance, num_heads))  # 2*Wh-1 * 2*Ww-1, nH
+        # cls to token & token 2 cls & cls to cls
+
+        # get pair-wise relative position index for each token inside the window
+        coords_h = torch.arange(window_size[0])
+        coords_w = torch.arange(window_size[1])
+        coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww
+        coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww
+        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # 2, Wh*Ww, Wh*Ww
+        relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2
+        relative_coords[:, :, 0] += window_size[0] - 1  # shift to start from 0
+        relative_coords[:, :, 1] += window_size[1] - 1
+        relative_coords[:, :, 0] *= 2 * window_size[1] - 1
+        relative_position_index = \
+            torch.zeros(size=(window_size[0] * window_size[1] + 1,) * 2, dtype=relative_coords.dtype)
+        relative_position_index[1:, 1:] = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww
+        relative_position_index[0, 0:] = self.num_relative_distance - 3
+        relative_position_index[0:, 0] = self.num_relative_distance - 2
+        relative_position_index[0, 0] = self.num_relative_distance - 1
+
+        self.register_buffer("relative_position_index", relative_position_index)
+
+    def forward(self):
+        relative_position_bias = \
+            self.relative_position_bias_table[self.relative_position_index.view(-1)].view(
+                self.window_size[0] * self.window_size[1] + 1,
+                self.window_size[0] * self.window_size[1] + 1, -1)  # Wh*Ww,Wh*Ww,nH
+        return relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww
+
+
+class EVAVisionTransformer(nn.Module):
+    """ Vision Transformer with support for patch or hybrid CNN input stage
+    """
+
+    def __init__(self, img_size=224, patch_size=16, in_chans=3, num_classes=1000, embed_dim=768, depth=12,
+                 num_heads=12, mlp_ratio=4., qkv_bias=False, qk_scale=None, drop_rate=0., attn_drop_rate=0.,
+                 drop_path_rate=0., norm_layer=nn.LayerNorm, init_values=None, patch_dropout=0.,
+                 use_abs_pos_emb=True, use_rel_pos_bias=False, use_shared_rel_pos_bias=False, rope=False,
+                 use_mean_pooling=True, init_scale=0.001, grad_checkpointing=False, xattn=False, postnorm=False,
+                 pt_hw_seq_len=16, intp_freq=False, naiveswiglu=False, subln=False):
+        super().__init__()
+        self.image_size = img_size
+        self.num_classes = num_classes
+        self.num_features = self.embed_dim = embed_dim  # num_features for consistency with other models
+
+        self.patch_embed = PatchEmbed(
+            img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim)
+        num_patches = self.patch_embed.num_patches
+
+        self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
+        # self.mask_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
+        if use_abs_pos_emb:
+            self.pos_embed = nn.Parameter(torch.zeros(1, num_patches + 1, embed_dim))
+        else:
+            self.pos_embed = None
+        self.pos_drop = nn.Dropout(p=drop_rate)
+
+        if use_shared_rel_pos_bias:
+            self.rel_pos_bias = RelativePositionBias(window_size=self.patch_embed.patch_shape, num_heads=num_heads)
+        else:
+            self.rel_pos_bias = None
+
+        if rope:
+            half_head_dim = embed_dim // num_heads // 2
+            hw_seq_len = img_size // patch_size
+            self.rope = VisionRotaryEmbeddingFast(
+                dim=half_head_dim,
+                pt_seq_len=pt_hw_seq_len,
+                ft_seq_len=hw_seq_len if intp_freq else None,
+                # patch_dropout=patch_dropout
+            )
+        else:
+            self.rope = None
+
+        self.naiveswiglu = naiveswiglu
+
+        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, depth)]  # stochastic depth decay rule
+        self.use_rel_pos_bias = use_rel_pos_bias
+        self.blocks = nn.ModuleList([
+            Block(
+                dim=embed_dim, num_heads=num_heads, mlp_ratio=mlp_ratio, qkv_bias=qkv_bias, qk_scale=qk_scale,
+                drop=drop_rate, attn_drop=attn_drop_rate, drop_path=dpr[i], norm_layer=norm_layer,
+                init_values=init_values, window_size=self.patch_embed.patch_shape if use_rel_pos_bias else None,
+                xattn=xattn, rope=self.rope, postnorm=postnorm, subln=subln, naiveswiglu=naiveswiglu)
+            for i in range(depth)])
+        self.norm = nn.Identity() if use_mean_pooling else norm_layer(embed_dim)
+        self.fc_norm = norm_layer(embed_dim) if use_mean_pooling else None
+        self.head = nn.Linear(embed_dim, num_classes) if num_classes > 0 else nn.Identity()
+
+        if self.pos_embed is not None:
+            trunc_normal_(self.pos_embed, std=.02)
+
+        trunc_normal_(self.cls_token, std=.02)
+        # trunc_normal_(self.mask_token, std=.02)
+
+        self.apply(self._init_weights)
+        self.fix_init_weight()
+
+        if isinstance(self.head, nn.Linear):
+            trunc_normal_(self.head.weight, std=.02)
+            self.head.weight.data.mul_(init_scale)
+            self.head.bias.data.mul_(init_scale)
+
+        # setting a patch_dropout of 0. would mean it is disabled and this function would be the identity fn
+        self.patch_dropout = PatchDropout(patch_dropout) if patch_dropout > 0. else nn.Identity()
+
+        self.grad_checkpointing = grad_checkpointing
+
+    def fix_init_weight(self):
+        def rescale(param, layer_id):
+            param.div_(math.sqrt(2.0 * layer_id))
+
+        for layer_id, layer in enumerate(self.blocks):
+            rescale(layer.attn.proj.weight.data, layer_id + 1)
+            if self.naiveswiglu:
+                rescale(layer.mlp.w3.weight.data, layer_id + 1)
+            else:
+                rescale(layer.mlp.fc2.weight.data, layer_id + 1)
+
+    def get_cast_dtype(self) -> torch.dtype:
+        return self.blocks[0].mlp.fc2.weight.dtype
+
+    def _init_weights(self, m):
+        if isinstance(m, nn.Linear):
+            trunc_normal_(m.weight, std=.02)
+            if m.bias is not None:
+                nn.init.constant_(m.bias, 0)
+        elif isinstance(m, nn.LayerNorm):
+            nn.init.constant_(m.bias, 0)
+            nn.init.constant_(m.weight, 1.0)
+
+    def get_num_layers(self):
+        return len(self.blocks)
+
+    def lock(self, unlocked_groups=0, freeze_bn_stats=False):
+        assert unlocked_groups == 0, 'partial locking not currently supported for this model'
+        for param in self.parameters():
+            param.requires_grad = False
+
+    @torch.jit.ignore
+    def set_grad_checkpointing(self, enable=True):
+        self.grad_checkpointing = enable
+
+    @torch.jit.ignore
+    def no_weight_decay(self):
+        return {'pos_embed', 'cls_token'}
+
+    def get_classifier(self):
+        return self.head
+
+    def reset_classifier(self, num_classes, global_pool=''):
+        self.num_classes = num_classes
+        self.head = nn.Linear(self.embed_dim, num_classes) if num_classes > 0 else nn.Identity()
+
+    def forward_features(self, x, return_all_features=False):
+
+        x = self.patch_embed(x)
+        batch_size, seq_len, _ = x.size()
+
+        cls_tokens = self.cls_token.expand(batch_size, -1, -1)  # stole cls_tokens impl from Phil Wang, thanks
+        x = torch.cat((cls_tokens, x), dim=1)
+        if self.pos_embed is not None:
+            x = x + self.pos_embed
+        x = self.pos_drop(x)
+
+        # a patch_dropout of 0. would mean it is disabled and this function would do nothing but return what was passed in
+        if os.getenv('RoPE') == '1':
+            if self.training and not isinstance(self.patch_dropout, nn.Identity):
+                x, patch_indices_keep = self.patch_dropout(x)
+                self.rope.forward = partial(self.rope.forward, patch_indices_keep=patch_indices_keep)
+            else:
+                self.rope.forward = partial(self.rope.forward, patch_indices_keep=None)
+                x = self.patch_dropout(x)
+        else:
+            x = self.patch_dropout(x)
+
+        rel_pos_bias = self.rel_pos_bias() if self.rel_pos_bias is not None else None
+        for i, blk in enumerate(self.blocks):
+            if i == len(self.blocks) - 1:
+                continue
+            if self.grad_checkpointing:
+                x = checkpoint(blk, x, (rel_pos_bias,))
+            else:
+                x = blk(x, rel_pos_bias=rel_pos_bias)
+
+        if not return_all_features:
+            x = self.norm(x)
+            if self.fc_norm is not None:
+                return self.fc_norm(x.mean(1))
+            else:
+                return x[:, 0]
+        return x
+
+    def forward(self, x, return_all_features=False):
+        if return_all_features:
+            return self.forward_features(x, return_all_features)
+        x = self.forward_features(x)
+        x = self.head(x)
+        return x
+
+
+def load_state_dict(checkpoint_path: str, map_location: str = 'cpu', model_key: str = 'model|module|state_dict',
+                    is_openai: bool = False, skip_list: list = []):
+    if is_openai:
+        model = torch.jit.load(checkpoint_path, map_location="cpu").eval()
+        state_dict = model.state_dict()
+        for key in ["input_resolution", "context_length", "vocab_size"]:
+            state_dict.pop(key, None)
+    else:
+        checkpoint = torch.load(checkpoint_path, map_location=map_location)
+        for mk in model_key.split('|'):
+            if isinstance(checkpoint, dict) and mk in checkpoint:
+                state_dict = checkpoint[mk]
+                break
+            else:
+                state_dict = checkpoint
+        if next(iter(state_dict.items()))[0].startswith('module'):
+            state_dict = {k[7:]: v for k, v in state_dict.items()}
+
+    for k in skip_list:
+        if k in list(state_dict.keys()):
+            logging.info(f"Removing key {k} from pretrained checkpoint")
+            del state_dict[k]
+
+    if os.getenv('RoPE') == '1':
+        for k in list(state_dict.keys()):
+            if 'freqs_cos' in k or 'freqs_sin' in k:
+                del state_dict[k]
+    return state_dict
+
+
+def load_clip_visual_state_dict(checkpoint_path: str, map_location: str = 'cpu', is_openai: bool = False,
+                                skip_list: list = []):
+    state_dict = load_state_dict(checkpoint_path, map_location=map_location, is_openai=is_openai, skip_list=skip_list)
+
+    for k in list(state_dict.keys()):
+        if not k.startswith('visual.'):
+            del state_dict[k]
+    for k in list(state_dict.keys()):
+        if k.startswith('visual.'):
+            new_k = k[7:]
+            state_dict[new_k] = state_dict[k]
+            del state_dict[k]
+    return state_dict
+
+
+from dataclasses import dataclass
+from typing import Optional, Tuple, Union
+
+try:
+    from apex.normalization import FusedLayerNorm
+except:
+    FusedLayerNorm = LayerNorm
+    print(
+        "Please build and install Nvidia apex package with option '--cuda_ext' according to https://github.com/NVIDIA/apex#from-source .")
+
+
+@dataclass
+class CLIPVisionCfg:
+    layers: Union[Tuple[int, int, int, int], int] = 12
+    width: int = 768
+    head_width: int = 64
+    mlp_ratio: float = 4.0
+    patch_size: int = 16
+    image_size: Union[Tuple[int, int], int] = 224
+    ls_init_value: Optional[float] = None  # layer scale initial value
+    patch_dropout: float = 0.  # what fraction of patches to dropout during training (0 would mean disabled and no patches dropped) - 0.5 to 0.75 recommended in the paper for optimal results
+    global_average_pool: bool = False  # whether to global average pool the last embedding layer, instead of using CLS token (https://arxiv.org/abs/2205.01580)
+    drop_path_rate: Optional[float] = None  # drop path rate
+    timm_model_name: str = None  # a valid model name overrides layers, width, patch_size
+    timm_model_pretrained: bool = False  # use (imagenet) pretrained weights for named model
+    timm_pool: str = 'avg'  # feature pooling for timm model ('abs_attn', 'rot_attn', 'avg', '')
+    timm_proj: str = 'linear'  # linear projection for timm model output ('linear', 'mlp', '')
+    timm_proj_bias: bool = False  # enable bias final projection
+    eva_model_name: str = None  # a valid eva model name overrides layers, width, patch_size
+    qkv_bias: bool = True
+    fusedLN: bool = False
+    xattn: bool = False
+    postnorm: bool = False
+    rope: bool = False
+    pt_hw_seq_len: int = 16  # 224/14
+    intp_freq: bool = False
+    naiveswiglu: bool = False
+    subln: bool = False
+
+
+def _build_vision_tower(
+        vision_tower_path: str,
+        embed_dim: int,
+        vision_cfg: CLIPVisionCfg
+):
+    if isinstance(vision_cfg, dict):
+        vision_cfg = CLIPVisionCfg(**vision_cfg)
+
+    if vision_cfg.eva_model_name:
+        vision_heads = vision_cfg.width // vision_cfg.head_width
+        norm_layer = LayerNorm
+
+        visual = EVAVisionTransformer(
+            img_size=vision_cfg.image_size,
+            patch_size=vision_cfg.patch_size,
+            num_classes=embed_dim,
+            use_mean_pooling=vision_cfg.global_average_pool,  # False
+            init_values=vision_cfg.ls_init_value,
+            patch_dropout=vision_cfg.patch_dropout,
+            embed_dim=vision_cfg.width,
+            depth=vision_cfg.layers,
+            num_heads=vision_heads,
+            mlp_ratio=vision_cfg.mlp_ratio,
+            qkv_bias=vision_cfg.qkv_bias,
+            drop_path_rate=vision_cfg.drop_path_rate,
+            norm_layer=partial(FusedLayerNorm, eps=1e-6) if vision_cfg.fusedLN else partial(norm_layer, eps=1e-6),
+            xattn=vision_cfg.xattn,
+            rope=vision_cfg.rope,
+            postnorm=vision_cfg.postnorm,
+            pt_hw_seq_len=vision_cfg.pt_hw_seq_len,  # 224/14
+            intp_freq=vision_cfg.intp_freq,
+            naiveswiglu=vision_cfg.naiveswiglu,
+            subln=vision_cfg.subln
+        )
+
+        state_dict = load_clip_visual_state_dict(vision_tower_path)
+        incompatible_keys = visual.load_state_dict(state_dict, strict=False)
+        print('EVA-CLIP incompatible_keys:', incompatible_keys)
+
+    return visual
+
+
+class Eva2LargePlusEncoder(nn.Module):
+    def __init__(self, vision_tower_path):
+        super(Eva2LargePlusEncoder, self).__init__()
+        self.config = {
+            "embed_dim": 768,
+            "vision_cfg": {
+                "image_size": 336,
+                "layers": 24,
+                "width": 1024,
+                "drop_path_rate": 0,
+                "head_width": 64,
+                "mlp_ratio": 2.6667,
+                "patch_size": 14,
+                "eva_model_name": "eva-clip-l-14-336",
+                "xattn": True,
+                "fusedLN": True,
+                "rope": True,
+                "pt_hw_seq_len": 16,
+                "intp_freq": True,
+                "naiveswiglu": True,
+                "subln": True
+            }
+        }
+
+        self.config['vision_tower_path'] = vision_tower_path
+        self.model = _build_vision_tower(**self.config)
+
+    def forward(self, image, **kwargs):
+        encode = self.model(image, return_all_features=True)[:, 1:, :]
+        return encode
+
+    @property
+    def dtype(self):
+        return list(self.parameters())[-1].dtype
+
+    @property
+    def device(self):
+        return list(self.parameters())[-1].device
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/llm2clip/llm2clip_encoder b/Unicorn_dense/bunny/model/multimodal_encoder/llm2clip/llm2clip_encoder
new file mode 100644
index 0000000000000000000000000000000000000000..f93d071318637d3ba738cd6e75d39fceb61f57ee
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_encoder/llm2clip/llm2clip_encoder
@@ -0,0 +1,62 @@
+import torch
+import torch.nn as nn
+
+from PIL import Image
+from transformers import AutoModel, AutoConfig, AutoTokenizer
+from transformers import CLIPImageProcessor
+import torch
+from llm2vec import LLM2Vec
+
+
+class LLM2CLIPTextTower(nn.Module):
+    def __init__(self):
+        super().__init__()
+
+        self.image_processor = CLIPImageProcessor.from_pretrained("/data/xmyu/Bunny_all/checkpoints/clip-vit-large-patch14-336")
+        self.vision_tower = AutoModel.from_pretrained(
+            "/data/xmyu/Bunny_all/checkpoints/LLM2CLIP-Openai-L-14-336", 
+            torch_dtype=torch.bfloat16,
+            trust_remote_code=True).to('cuda').eval()
+        
+        self.vision_tower.requires_grad_(False)
+        
+
+        self.llm_model_name = '/data/xmyu/Bunny_all/checkpoints/LLM2CLIP-Llama-3-8B-Instruct-CC-Finetuned'
+        config = AutoConfig.from_pretrained(
+            self.llm_model_name, trust_remote_code=True
+        )
+        self.llm_model = AutoModel.from_pretrained(self.llm_model_name, torch_dtype=torch.bfloat16, config=config, trust_remote_code=True)
+        self.llm2clip_tokenizer = AutoTokenizer.from_pretrained(self.llm_model_name)
+        self.llm_model.config._name_or_path = '/data/xmyu/Bunny_all/checkpoints/Meta-Llama-3-8B-Instruct' #  Workaround for LLM2VEC
+        self.l2v = LLM2Vec(self.llm_model, self.llm2clip_tokenizer, pooling_mode="mean", max_length=512, doc_max_length=512)
+
+        self.is_loaded = True
+
+    def forward(self, images):
+        if type(images) is list:
+            image_features = []
+            for image in images:
+                image_feature = self.vision_tower(image.to(device=self.device, dtype=self.dtype).unsqueeze(0),
+                                                      output_hidden_states=True)
+                image_features.append(image_feature)
+        else:
+            image_features = self.vision_tower(images.to(device=self.device, dtype=self.dtype),
+                                                   output_hidden_states=True)
+
+        return image_features
+
+    @property
+    def dummy_feature(self):
+        return torch.zeros(1, self.hidden_size, device=self.device, dtype=self.dtype)
+
+    @property
+    def dtype(self):
+        return self.vision_tower.dtype
+
+    @property
+    def device(self):
+        return self.vision_tower.device
+
+    @property
+    def hidden_size(self):
+        return 1280
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/siglip/__pycache__/siglip_encoder.cpython-310.pyc b/Unicorn_dense/bunny/model/multimodal_encoder/siglip/__pycache__/siglip_encoder.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0c34427aaa8a9567ba09d42ac0b4f6d9ecad88e9
Binary files /dev/null and b/Unicorn_dense/bunny/model/multimodal_encoder/siglip/__pycache__/siglip_encoder.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/multimodal_encoder/siglip/siglip_encoder.py b/Unicorn_dense/bunny/model/multimodal_encoder/siglip/siglip_encoder.py
new file mode 100644
index 0000000000000000000000000000000000000000..4f297e25d92412bfc16da6108751c3cc147f0ebc
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_encoder/siglip/siglip_encoder.py
@@ -0,0 +1,130 @@
+import torch
+import torch.nn as nn
+
+from transformers import SiglipVisionModel, SiglipImageProcessor, SiglipVisionConfig
+from bunny.util.s2wrapper import forward as multiscale_forward
+
+
+class SiglipVisionTower(nn.Module):
+    def __init__(self, vision_tower, args, delay_load=False):
+        super().__init__()
+
+        self.is_loaded = False
+
+        self.vision_tower_name = vision_tower
+        self.select_layer = -2
+
+        if not delay_load:
+            self.load_model()
+        else:
+            self.cfg_only = SiglipVisionConfig.from_pretrained(self.vision_tower_name)
+
+    def load_model(self):
+        if self.is_loaded:
+            return
+        self.image_processor = SiglipImageProcessor.from_pretrained(self.vision_tower_name)
+        self.image_processor.crop_size = self.image_processor.size
+        self.vision_tower = SiglipVisionModel.from_pretrained(self.vision_tower_name)
+        self.vision_tower.requires_grad_(False)
+
+        self.is_loaded = True
+
+    def feature_select(self, image_forward_outs):
+        image_features = image_forward_outs.hidden_states[self.select_layer]
+
+        return image_features
+
+    def forward(self, images):
+        if type(images) is list:
+            image_features = []
+            for image in images:
+                image_forward_out = self.vision_tower(image.to(device=self.device, dtype=self.dtype).unsqueeze(0),
+                                                      output_hidden_states=True)
+                image_feature = self.feature_select(image_forward_out).to(image.dtype)
+                image_features.append(image_feature)
+        else:
+            image_forward_outs = self.vision_tower(images.to(device=self.device, dtype=self.dtype),
+                                                   output_hidden_states=True)
+            image_features = self.feature_select(image_forward_outs).to(images.dtype)
+
+        return image_features
+
+    @property
+    def dummy_feature(self):
+        return torch.zeros(1, self.hidden_size, device=self.device, dtype=self.dtype)
+
+    @property
+    def dtype(self):
+        return self.vision_tower.dtype
+
+    @property
+    def device(self):
+        return self.vision_tower.device
+
+    @property
+    def config(self):
+        if self.is_loaded:
+            return self.vision_tower.config
+        else:
+            return self.cfg_only
+
+    @property
+    def hidden_size(self):
+        return self.config.hidden_size
+
+    @property
+    def num_patches(self):
+        return (self.config.image_size // self.config.patch_size) ** 2
+
+
+class SiglipVisionTowerS2(SiglipVisionTower):
+    def __init__(self, vision_tower, args, delay_load=False):
+        self.s2_scales = getattr(args, 's2_scales', '384,768,1152')
+        self.s2_scales = list(map(int, self.s2_scales.split(',')))
+        self.s2_scales.sort()
+        self.s2_split_size = self.s2_scales[0]
+        self.s2_image_size = self.s2_scales[-1]
+
+        super().__init__(vision_tower, args, delay_load)
+
+        self.multiscale_forward = multiscale_forward
+
+        if not delay_load:
+            self.image_processor.size['height'] = self.image_processor.size['width'] = self.s2_image_size
+            self.image_processor.crop_size['height'] = self.image_processor.crop_size['width'] = self.s2_image_size
+
+    def load_model(self):
+        if self.is_loaded:
+            return
+        self.image_processor = SiglipImageProcessor.from_pretrained(self.vision_tower_name)
+        self.image_processor.crop_size = self.image_processor.size
+        self.vision_tower = SiglipVisionModel.from_pretrained(self.vision_tower_name)
+        self.vision_tower.requires_grad_(False)
+
+        self.image_processor.size['height'] = self.image_processor.size['width'] = self.s2_image_size
+        self.image_processor.crop_size['height'] = self.image_processor.crop_size['width'] = self.s2_image_size
+
+        self.is_loaded = True
+
+    def forward_feature(self, images):
+        image_forward_outs = self.vision_tower(images.to(device=self.device, dtype=self.dtype),
+                                               output_hidden_states=True)
+        image_features = self.feature_select(image_forward_outs).to(images.dtype)
+        return image_features
+
+    def forward(self, images):
+        if type(images) is list:
+            image_features = []
+            for image in images:
+                image_feature = self.multiscale_forward(self.forward_feature, image.unsqueeze(0),
+                                                        img_sizes=self.s2_scales, max_split_size=self.s2_split_size)
+                image_features.append(image_feature)
+        else:
+            image_features = self.multiscale_forward(self.forward_feature, images, img_sizes=self.s2_scales,
+                                                     max_split_size=self.s2_split_size)
+
+        return image_features
+
+    @property
+    def hidden_size(self):
+        return self.config.hidden_size * len(self.s2_scales)
diff --git a/Unicorn_dense/bunny/model/multimodal_projector/__pycache__/builder.cpython-310.pyc b/Unicorn_dense/bunny/model/multimodal_projector/__pycache__/builder.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..32d0c8278f44a1042daf9b39c1645ed5e1482ee7
Binary files /dev/null and b/Unicorn_dense/bunny/model/multimodal_projector/__pycache__/builder.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/model/multimodal_projector/builder.py b/Unicorn_dense/bunny/model/multimodal_projector/builder.py
new file mode 100644
index 0000000000000000000000000000000000000000..51eb0955cff95e1ef9405497dee0063a4a17c52d
--- /dev/null
+++ b/Unicorn_dense/bunny/model/multimodal_projector/builder.py
@@ -0,0 +1,194 @@
+import re
+import math
+from torch import nn
+from functools import partial
+from timm.layers.norm_act import LayerNormAct2d
+from torchvision.ops.misc import SqueezeExcitation as SELayer
+from torchvision.models.mobilenetv3 import InvertedResidual, InvertedResidualConfig
+
+
+class IdentityMap(nn.Module):
+    def __init__(self):
+        super().__init__()
+
+    def forward(self, x, *args, **kwargs):
+        print('<Linear------------------------------------------>')
+        return x
+
+    @property
+    def config(self):
+        return {"mm_projector_type": 'identity'}
+
+
+class Minigpt(nn.Module):
+    def __init__(self, config=None):
+        super(Minigpt, self).__init__()
+        # c*4 is the input size, and c is the output size for the linear layer
+        inc, ouc = config.mm_hidden_size, config.hidden_size
+        self.linear = nn.Linear(inc * 4, ouc)
+
+    def forward(self, x):
+        print('<Linear------------------------------------------>')
+        # x is the input tensor with shape [b, num_tokens, c]
+        b, num_tokens, c = x.shape
+
+        # Check if num_tokens is divisible by 4
+        if num_tokens % 4 != 0:
+            raise ValueError("num_tokens must be divisible by 4")
+
+        # Reshape x to [b, num_tokens/4, c*4]
+        x = x.view(b, num_tokens // 4, c * 4)
+
+        # Apply the linear transformation
+        x = self.linear(x)
+        return x
+
+
+class Vanilla(nn.Module):
+    def __init__(self, config=None):
+        super(Vanilla, self).__init__()
+        # c*4 is the input size, and c is the output size for the linear layer
+        inc, ouc = config.mm_hidden_size, config.hidden_size
+        self.linear = nn.Linear(inc * 4, ouc)
+
+    def forward(self, x):
+        print('<Linear------------------------------------------>')
+        b, num_tokens, c = x.shape
+
+        # Check if num_tokens is divisible by 4
+        if num_tokens % 4 != 0:
+            raise ValueError("num_tokens must be divisible by 4")
+
+        # First, reshape to [b, num_tokens//4, 4, c]
+        x = x.view(b, num_tokens // 4, 4, c)
+
+        # Then, permute to interleave the tokens
+        x = x.permute(0, 1, 3, 2).contiguous()
+
+        # Finally, reshape to [b, num_tokens//4, c*4] to interleave features of 4 tokens
+        x = x.view(b, num_tokens // 4, c * 4)
+
+        # Apply the linear transformation
+        x = self.linear(x)
+        return x
+
+
+class LDPBlock(nn.Module):
+    # Lightweight Downsample Projector Block
+
+    def __init__(self, config=None):
+        super().__init__()
+
+        inc, ouc = config.mm_hidden_size, config.hidden_size
+        layer_norm = partial(LayerNormAct2d, act_layer=None)
+        se_layer = partial(SELayer, scale_activation=nn.Hardsigmoid)
+        self.mlp = nn.Sequential(
+            nn.Identity(), nn.Linear(inc, ouc), nn.GELU(), nn.Linear(ouc, ouc)
+        )
+        self.mb_block = nn.Sequential(
+            nn.Identity(),
+            InvertedResidual(InvertedResidualConfig(ouc, 3, ouc, ouc, True, "HS", 1, 1, 1), layer_norm, se_layer),
+            InvertedResidual(InvertedResidualConfig(ouc, 3, ouc, ouc, True, "HS", 2, 1, 1), layer_norm, se_layer)
+        )
+
+    def forward(self, x):
+
+        print('<Linear------------------------------------------>')
+        b, num_tokens, c = x.shape
+        h = int(math.sqrt(num_tokens))
+        x = self.mlp(x)
+        x = x.permute(0, 2, 1).reshape(b, -1, h, h)
+        x = self.mb_block(x)
+        x = x.flatten(2).permute(0, 2, 1)
+        return x
+
+
+class LDPNetProjector(nn.Module):
+
+    def __init__(self, config=None):
+        super().__init__()
+        self.model = LDPBlock(config)
+
+    def forward(self, x):
+        print('<Linear------------------------------------------>')
+        return self.model(x)
+
+
+class SPP(nn.Module):
+
+    def __init__(self, config=None, projector_type='v1'):
+        super().__init__()
+
+        self.projector_type = projector_type
+
+        inc, ouc = config.mm_hidden_size, config.hidden_size
+        self.linear_0 = nn.Linear(inc, inc)
+
+        self.linear_1 = nn.Linear(inc, ouc)
+
+        self.pooling = nn.AvgPool2d(kernel_size=2)
+
+        self.linear_2 = nn.Linear(ouc, ouc)
+
+    def forward(self, x):
+        print('<Linear------------------------------------------>')
+        b, num_tokens, c = x.shape
+        h = int(math.sqrt(num_tokens))
+        if 'v1' in self.projector_type:
+            x = self.linear_1(x)
+            x = x.permute(0, 2, 1).reshape(b, -1, h, h)
+            x = self.pooling(x)
+            x = x.flatten(2).permute(0, 2, 1)
+            x = self.linear_2(x)
+        elif 'v2' in self.projector_type:
+            x = self.linear_1(x)
+            x = self.linear_2(x)
+            x = x.permute(0, 2, 1).reshape(b, -1, h, h)
+            x = self.pooling(x)
+            x = x.flatten(2).permute(0, 2, 1)
+        elif 'v3' in self.projector_type:
+            x = self.linear_0(x)
+            x = x.permute(0, 2, 1).reshape(b, -1, h, h)
+            x = self.pooling(x)
+            x = x.flatten(2).permute(0, 2, 1)
+            x = self.linear_1(x)
+            x = self.linear_2(x)
+        return x
+
+
+def build_vision_projector(config, delay_load=False, **kwargs):
+
+    # print('<Linear Class------------------------------------------>')
+
+    projector_type = getattr(config, 'mm_projector_type', 'mlp2x_gelu')
+
+    if projector_type == 'linear':
+        return nn.Linear(config.mm_hidden_size, config.hidden_size)
+
+    elif projector_type.startswith('mlp'):
+        # print('<Linear------------------------------------------>')
+        mlp_gelu_match = re.match(r'^mlp(\d+)x_gelu$', projector_type)
+        if mlp_gelu_match:
+            mlp_depth = int(mlp_gelu_match.group(1))
+            modules = [nn.Linear(config.mm_hidden_size, config.hidden_size)]
+            for _ in range(1, mlp_depth):
+                modules.append(nn.GELU())
+                modules.append(nn.Linear(config.hidden_size, config.hidden_size))
+            return nn.Sequential(*modules)
+
+    elif projector_type.startswith('spp'):
+        return SPP(config, projector_type)
+
+    elif projector_type == 'ldp':
+        return LDPNetProjector(config)
+
+    elif projector_type == 'vanilla':
+        return Vanilla(config)
+
+    elif projector_type == 'minigpt':
+        return Minigpt(config)
+
+    elif projector_type == 'identity':
+        return IdentityMap()
+
+    raise ValueError(f'Unknown projector type: {projector_type}')
diff --git a/Unicorn_dense/bunny/train/.DS_Store b/Unicorn_dense/bunny/train/.DS_Store
new file mode 100644
index 0000000000000000000000000000000000000000..5008ddfcf53c02e82d7eee2e57c38e5672ef89f6
Binary files /dev/null and b/Unicorn_dense/bunny/train/.DS_Store differ
diff --git a/Unicorn_dense/bunny/train/__pycache__/bunny_trainer.cpython-310.pyc b/Unicorn_dense/bunny/train/__pycache__/bunny_trainer.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a4c12fbdb4abf687a44efc67db4bd8612c272031
Binary files /dev/null and b/Unicorn_dense/bunny/train/__pycache__/bunny_trainer.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/train/bunny_trainer.py b/Unicorn_dense/bunny/train/bunny_trainer.py
new file mode 100644
index 0000000000000000000000000000000000000000..840e9421c674b011bed81589c86f27665cb70e70
--- /dev/null
+++ b/Unicorn_dense/bunny/train/bunny_trainer.py
@@ -0,0 +1,257 @@
+import os
+import torch
+
+from torch.utils.data import Sampler
+from torch import nn
+from transformers import Trainer
+from transformers.trainer import is_sagemaker_mp_enabled, get_parameter_names, has_length, ALL_LAYERNORM_LAYERS, logger
+
+from typing import List, Optional
+
+
+def maybe_zero_3(param, ignore_status=False, name=None):
+    from deepspeed import zero
+    from deepspeed.runtime.zero.partition_parameters import ZeroParamStatus
+    if hasattr(param, "ds_id"):
+        if param.ds_status == ZeroParamStatus.NOT_AVAILABLE:
+            if not ignore_status:
+                print(name, 'no ignore status')
+        with zero.GatheredParameters([param]):
+            param = param.data.detach().cpu().clone()
+    else:
+        param = param.detach().cpu().clone()
+    return param
+
+
+def get_mm_adapter_state_maybe_zero_3(named_params, keys_to_match):
+    to_return = {k: t for k, t in named_params if any(key_match in k for key_match in keys_to_match)}
+    to_return = {k: maybe_zero_3(v, ignore_status=True, name=k).cpu() for k, v in to_return.items()}
+    return to_return
+
+
+def split_to_even_chunks(indices, lengths, num_chunks):
+    """
+    Split a list of indices into `chunks` chunks of roughly equal lengths.
+    """
+
+    if len(indices) % num_chunks != 0:
+        return [indices[i::num_chunks] for i in range(num_chunks)]
+
+    num_indices_per_chunk = len(indices) // num_chunks
+
+    chunks = [[] for _ in range(num_chunks)]
+    chunks_lengths = [0 for _ in range(num_chunks)]
+    for index in indices:
+        shortest_chunk = chunks_lengths.index(min(chunks_lengths))
+        chunks[shortest_chunk].append(index)
+        chunks_lengths[shortest_chunk] += lengths[index]
+        if len(chunks[shortest_chunk]) == num_indices_per_chunk:
+            chunks_lengths[shortest_chunk] = float("inf")
+
+    return chunks
+
+
+def get_modality_length_grouped_indices(lengths, batch_size, world_size, generator=None):
+    # We need to use torch for the random part as a distributed sampler will set the random seed for torch.
+    assert all(l != 0 for l in lengths), "Should not have zero length."
+    if all(l > 0 for l in lengths) or all(l < 0 for l in lengths):
+        # all samples are in the same modality
+        return get_length_grouped_indices(lengths, batch_size, world_size, generator=generator)
+    mm_indices, mm_lengths = zip(*[(i, l) for i, l in enumerate(lengths) if l > 0])
+    lang_indices, lang_lengths = zip(*[(i, -l) for i, l in enumerate(lengths) if l < 0])
+
+    mm_shuffle = [mm_indices[i] for i in get_length_grouped_indices(mm_lengths, batch_size, world_size, generator=None)]
+    lang_shuffle = [lang_indices[i] for i in
+                    get_length_grouped_indices(lang_lengths, batch_size, world_size, generator=None)]
+    megabatch_size = world_size * batch_size
+    mm_megabatches = [mm_shuffle[i: i + megabatch_size] for i in range(0, len(mm_shuffle), megabatch_size)]
+    lang_megabatches = [lang_shuffle[i: i + megabatch_size] for i in range(0, len(lang_shuffle), megabatch_size)]
+
+    last_mm = mm_megabatches[-1]
+    last_lang = lang_megabatches[-1]
+    additional_batch = last_mm + last_lang
+    megabatches = mm_megabatches[:-1] + lang_megabatches[:-1]
+    megabatch_indices = torch.randperm(len(megabatches), generator=generator)
+    megabatches = [megabatches[i] for i in megabatch_indices]
+
+    if len(additional_batch) > 0:
+        megabatches.append(sorted(additional_batch))
+
+    return [i for megabatch in megabatches for i in megabatch]
+
+
+def get_length_grouped_indices(lengths, batch_size, world_size, generator=None, merge=True):
+    # We need to use torch for the random part as a distributed sampler will set the random seed for torch.
+    indices = torch.randperm(len(lengths), generator=generator)
+    megabatch_size = world_size * batch_size
+    megabatches = [indices[i: i + megabatch_size].tolist() for i in range(0, len(lengths), megabatch_size)]
+    megabatches = [sorted(megabatch, key=lambda i: lengths[i], reverse=True) for megabatch in megabatches]
+    megabatches = [split_to_even_chunks(megabatch, lengths, world_size) for megabatch in megabatches]
+
+    return [i for megabatch in megabatches for batch in megabatch for i in batch]
+
+
+class LengthGroupedSampler(Sampler):
+    r"""
+    Sampler that samples indices in a way that groups together features of the dataset of roughly the same length while
+    keeping a bit of randomness.
+    """
+
+    def __init__(
+            self,
+            batch_size: int,
+            world_size: int,
+            lengths: Optional[List[int]] = None,
+            generator=None,
+            group_by_modality: bool = False,
+    ):
+        if lengths is None:
+            raise ValueError("Lengths must be provided.")
+
+        self.batch_size = batch_size
+        self.world_size = world_size
+        self.lengths = lengths
+        self.generator = generator
+        self.group_by_modality = group_by_modality
+
+    def __len__(self):
+        return len(self.lengths)
+
+    def __iter__(self):
+        if self.group_by_modality:
+            indices = get_modality_length_grouped_indices(self.lengths, self.batch_size, self.world_size,
+                                                          generator=self.generator)
+        else:
+            indices = get_length_grouped_indices(self.lengths, self.batch_size, self.world_size,
+                                                 generator=self.generator)
+        return iter(indices)
+
+
+class BunnyTrainer(Trainer):
+
+    def _get_train_sampler(self) -> Optional[torch.utils.data.Sampler]:
+        if self.train_dataset is None or not has_length(self.train_dataset):
+            return None
+
+        if self.args.group_by_modality_length:
+            lengths = self.train_dataset.modality_lengths
+            return LengthGroupedSampler(
+                self.args.train_batch_size,
+                world_size=self.args.world_size * self.args.gradient_accumulation_steps,
+                lengths=lengths,
+                group_by_modality=True,
+            )
+        else:
+            return super()._get_train_sampler()
+
+    def create_optimizer(self):
+        """
+        Setup the optimizer.
+
+        We provide a reasonable default that works well. If you want to use something else, you can pass a tuple in the
+        Trainer's init through `optimizers`, or subclass and override this method in a subclass.
+        """
+        if is_sagemaker_mp_enabled():
+            return super().create_optimizer()
+
+        opt_model = self.model
+
+        if self.optimizer is None:
+            decay_parameters = get_parameter_names(opt_model, ALL_LAYERNORM_LAYERS)
+            decay_parameters = [name for name in decay_parameters if "bias" not in name]
+            if self.args.mm_projector_lr is not None:
+                projector_parameters = [name for name, _ in opt_model.named_parameters() if "mm_projector" in name or "vision_tower" in name]
+                optimizer_grouped_parameters = [
+                    {
+                        "params": [
+                            p for n, p in opt_model.named_parameters() if
+                            (n in decay_parameters and n not in projector_parameters and p.requires_grad)
+                        ],
+                        "weight_decay": self.args.weight_decay,
+                    },
+                    {
+                        "params": [
+                            p for n, p in opt_model.named_parameters() if
+                            (n not in decay_parameters and n not in projector_parameters and p.requires_grad)
+                        ],
+                        "weight_decay": 0.0,
+                    },
+                    {
+                        "params": [
+                            p for n, p in opt_model.named_parameters() if
+                            (n in decay_parameters and n in projector_parameters and p.requires_grad)
+                        ],
+                        "weight_decay": self.args.weight_decay,
+                        "lr": self.args.mm_projector_lr,
+                    },
+                    {
+                        "params": [
+                            p for n, p in opt_model.named_parameters() if
+                            (n not in decay_parameters and n in projector_parameters and p.requires_grad)
+                        ],
+                        "weight_decay": 0.0,
+                        "lr": self.args.mm_projector_lr,
+                    },
+                ]
+            else:
+                optimizer_grouped_parameters = [
+                    {
+                        "params": [
+                            p for n, p in opt_model.named_parameters() if (n in decay_parameters and p.requires_grad)
+                        ],
+                        "weight_decay": self.args.weight_decay,
+                    },
+                    {
+                        "params": [
+                            p for n, p in opt_model.named_parameters() if
+                            (n not in decay_parameters and p.requires_grad)
+                        ],
+                        "weight_decay": 0.0,
+                    },
+                ]
+
+            optimizer_cls, optimizer_kwargs = Trainer.get_optimizer_cls_and_kwargs(self.args)
+
+            self.optimizer = optimizer_cls(optimizer_grouped_parameters, **optimizer_kwargs)
+            if optimizer_cls.__name__ == "Adam8bit":
+                import bitsandbytes
+
+                manager = bitsandbytes.optim.GlobalOptimManager.get_instance()
+
+                skipped = 0
+                for module in opt_model.modules():
+                    if isinstance(module, nn.Embedding):
+                        skipped += sum({p.data_ptr(): p.numel() for p in module.parameters()}.values())
+                        logger.info(f"skipped {module}: {skipped / 2 ** 20}M params")
+                        manager.register_module_override(module, "weight", {"optim_bits": 32})
+                        logger.debug(f"bitsandbytes: will optimize {module} in fp32")
+                logger.info(f"skipped: {skipped / 2 ** 20}M params")
+
+        return self.optimizer
+
+    def _save_checkpoint(self, model, trial, metrics=None):
+        if getattr(self.args, 'tune_mm_mlp_adapter', False):
+            from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
+            checkpoint_folder = f"{PREFIX_CHECKPOINT_DIR}-{self.state.global_step}"
+
+            run_dir = self._get_output_dir(trial=trial)
+            output_dir = os.path.join(run_dir, checkpoint_folder)
+
+            # Only save Adapter
+            keys_to_match = ['mm_projector', 'vision_resampler']
+            if getattr(self.args, "use_im_start_end", False):
+                keys_to_match.extend(['embed_tokens', 'embed_in'])
+
+            weight_to_save = get_mm_adapter_state_maybe_zero_3(self.model.named_parameters(), keys_to_match)
+
+            if self.args.local_rank == 0 or self.args.local_rank == -1:
+                self.model.config.save_pretrained(output_dir)
+                torch.save(weight_to_save, os.path.join(output_dir, f'mm_projector.bin'))
+        else:
+            super(BunnyTrainer, self)._save_checkpoint(model, trial, metrics)
+
+    def _save(self, output_dir: Optional[str] = None, state_dict=None):
+        if getattr(self.args, 'tune_mm_mlp_adapter', False):
+            pass
+        else:
+            super(BunnyTrainer, self)._save(output_dir, state_dict)
diff --git a/Unicorn_dense/bunny/train/train.py b/Unicorn_dense/bunny/train/train.py
new file mode 100644
index 0000000000000000000000000000000000000000..fa78c90ca9026af5d114e8ca2ac5cc0b55e17675
--- /dev/null
+++ b/Unicorn_dense/bunny/train/train.py
@@ -0,0 +1,231 @@
+import os
+import logging
+import pathlib
+from dataclasses import dataclass, field
+from typing import Dict, Optional, Sequence
+
+import torch
+import transformers
+from torch.utils.data import Dataset
+
+from bunny.train.bunny_trainer import BunnyTrainer
+from bunny import conversation as conversation_lib
+# 只保留通用的和 Llama 相关的模型类
+from bunny.model import BunnyLlamaForCausalLM
+# 确保使用支持 embedding_path 的修改版 data_utils
+from bunny.util.data_utils import make_supervised_data_module, DataArguments
+
+local_rank = None
+
+def rank0_print(*args):
+    if local_rank == 0:
+        print(*args)
+
+@dataclass
+class ModelArguments:
+    model_name_or_path: Optional[str] = field(default=None)
+    model_type: Optional[str] = field(default=None)
+    version: Optional[str] = field(default=None)
+    freeze_backbone: bool = field(default=False)
+    tune_mm_mlp_adapter: bool = field(default=False)
+    
+    # 保留定义但设为 None，防止底层 builder 报错
+    vision_tower: Optional[str] = field(default=None)
+    unfreeze_vision_tower: bool = field(default=False)
+    
+    use_s2: bool = field(default=False)
+    pretrain_mm_mlp_adapter: Optional[str] = field(default=None)
+    mm_projector_type: Optional[str] = field(default='mlp2x_gelu')
+
+
+@dataclass
+class TrainingArguments(transformers.TrainingArguments):
+    cache_dir: Optional[str] = field(default=None)
+    optim: str = field(default="adamw_torch")
+    remove_unused_columns: bool = field(default=False)
+    freeze_mm_mlp_adapter: bool = field(default=False)
+    mpt_attn_impl: Optional[str] = field(default="triton")
+    model_max_length: int = field(
+        default=512,
+        metadata={
+            "help": "Maximum sequence length. Sequences will be right padded (and possibly truncated)."
+        },
+    )
+    # 删除所有 bits, quantization, lora 参数
+    mm_projector_lr: Optional[float] = None
+    group_by_modality_length: bool = field(default=False)
+
+
+def maybe_zero_3(param, ignore_status=False, name=None):
+    from deepspeed import zero
+    from deepspeed.runtime.zero.partition_parameters import ZeroParamStatus
+    if hasattr(param, "ds_id"):
+        if param.ds_status == ZeroParamStatus.NOT_AVAILABLE:
+            if not ignore_status:
+                logging.warning(f"{name}: param.ds_status != ZeroParamStatus.NOT_AVAILABLE: {param.ds_status}")
+        with zero.GatheredParameters([param]):
+            param = param.data.detach().cpu().clone()
+    else:
+        param = param.detach().cpu().clone()
+    return param
+
+
+def get_mm_adapter_state_maybe_zero_3(named_params, keys_to_match):
+    to_return = {k: t for k, t in named_params if any(key_match in k for key_match in keys_to_match)}
+    to_return = {k: maybe_zero_3(v, ignore_status=True).cpu() for k, v in to_return.items()}
+    return to_return
+
+
+def safe_save_model_for_hf_trainer(trainer: transformers.Trainer, output_dir: str):
+    """Collects the state dict and dump to disk."""
+    # Pretrain 阶段：只保存 Projector (Adapter)
+    if getattr(trainer.args, "tune_mm_mlp_adapter", False):
+        keys_to_match = ['mm_projector']
+        if getattr(trainer.args, "use_im_start_end", False):
+            keys_to_match.extend(['embed_tokens', 'embed_in'])
+
+        weight_to_save = get_mm_adapter_state_maybe_zero_3(trainer.model.named_parameters(), keys_to_match)
+        trainer.model.config.save_pretrained(output_dir)
+
+        current_folder = output_dir.split('/')[-1]
+        parent_folder = os.path.dirname(output_dir)
+        if trainer.args.local_rank == 0 or trainer.args.local_rank == -1:
+            if current_folder.startswith('checkpoint-'):
+                mm_projector_folder = os.path.join(parent_folder, "mm_projector")
+                os.makedirs(mm_projector_folder, exist_ok=True)
+                torch.save(weight_to_save, os.path.join(mm_projector_folder, f'{current_folder}.bin'))
+            else:
+                torch.save(weight_to_save, os.path.join(output_dir, f'mm_projector.bin'))
+        return
+
+    # SFT (Full Finetune) 阶段：保存完整模型
+    if trainer.deepspeed:
+        torch.cuda.synchronize()
+        trainer.save_model(output_dir)
+        return
+
+    state_dict = trainer.model.state_dict()
+    if trainer.args.should_save:
+        cpu_state_dict = {
+            key: value.cpu()
+            for key, value in state_dict.items()
+        }
+        del state_dict
+        trainer._save(output_dir, state_dict=cpu_state_dict)  # noqa
+
+
+def train():
+    global local_rank
+
+    parser = transformers.HfArgumentParser((ModelArguments, DataArguments, TrainingArguments))
+    model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+    local_rank = training_args.local_rank
+
+    # 1. Tokenizer Setup
+    # 针对 Llama3-8B 的设置
+    if model_args.model_type == 'llama3-8b':
+        tokenizer = transformers.AutoTokenizer.from_pretrained(
+            model_args.model_name_or_path,
+            cache_dir=training_args.cache_dir,
+            model_max_length=training_args.model_max_length,
+            padding_side="right",
+            use_fast=True,
+        )
+        tokenizer.eos_token_id = 128001
+        tokenizer.pad_token = tokenizer.eos_token
+    else:
+        # 通用 Fallback
+        tokenizer = transformers.AutoTokenizer.from_pretrained(
+            model_args.model_name_or_path,
+            cache_dir=training_args.cache_dir,
+            model_max_length=training_args.model_max_length,
+            padding_side="right",
+            use_fast=True,
+        )
+        if tokenizer.unk_token is not None and tokenizer.pad_token is None:
+            tokenizer.pad_token = tokenizer.unk_token
+
+    # 2. Model Loading (Only Full Precision / BF16)
+    if model_args.model_type == 'llama3-8b':
+        model = BunnyLlamaForCausalLM.from_pretrained(
+            model_args.model_name_or_path,
+            cache_dir=training_args.cache_dir,
+            bos_token_id=tokenizer.bos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            torch_dtype=(torch.bfloat16 if training_args.bf16 else torch.float32)
+        )
+    else:
+        raise ValueError(f"This script is cleaned for Llama3. Unknown Model Type {model_args.model_type}")
+
+    model.config.use_cache = False
+
+    if model_args.freeze_backbone:
+        model.model.requires_grad_(False)
+
+    # Gradient Checkpointing
+    if training_args.gradient_checkpointing:
+        if hasattr(model, "enable_input_require_grads"):
+            model.enable_input_require_grads()
+        else:
+            def make_inputs_require_grad(module, input, output):
+                output.requires_grad_(True)
+            model.get_input_embeddings().register_forward_hook(make_inputs_require_grad)
+
+    # Chat Template Setup
+    if model_args.version in conversation_lib.conv_templates:
+        conversation_lib.default_conversation = conversation_lib.conv_templates[model_args.version]
+    else:
+        conversation_lib.default_conversation = conversation_lib.conv_templates["default"]
+
+    # 3. Initialize Vision Modules (For Unicorn this sets up the Projector)
+    rank0_print('Initializing Vision Modules (Projector)...')
+    model.get_model().initialize_vision_modules(model_args=model_args)
+
+    # Unicorn Configs
+    model.config.image_aspect_ratio = data_args.image_aspect_ratio
+    model.config.tokenizer_padding_side = tokenizer.padding_side
+    model.config.tokenizer_model_max_length = tokenizer.model_max_length
+
+    # 4. Freeze / Unfreeze Logic
+    # Case A: Pretrain (Tune Adapter Only)
+    model.config.tune_mm_mlp_adapter = training_args.tune_mm_mlp_adapter = model_args.tune_mm_mlp_adapter
+    if model_args.tune_mm_mlp_adapter:
+        model.requires_grad_(False)
+        for p in model.get_model().mm_projector.parameters():
+            p.requires_grad = True
+
+    # Case B: Explicit Freeze
+    model.config.freeze_mm_mlp_adapter = training_args.freeze_mm_mlp_adapter
+    if training_args.freeze_mm_mlp_adapter:
+        for p in model.get_model().mm_projector.parameters():
+            p.requires_grad = False
+
+    model.config.mm_projector_lr = training_args.mm_projector_lr
+    model.config.use_s2 = model_args.use_s2
+
+    # 5. Data & Training
+    data_module = make_supervised_data_module(tokenizer=tokenizer,
+                                              data_args=data_args)
+    
+    trainer = BunnyTrainer(model=model,
+                           tokenizer=tokenizer,
+                           args=training_args,
+                           **data_module)
+
+    if list(pathlib.Path(training_args.output_dir).glob("checkpoint-*")):
+        trainer.train(resume_from_checkpoint=True)
+    else:
+        trainer.train()
+    
+    trainer.save_state()
+
+    model.config.use_cache = True
+
+    # 6. Save Model
+    # 只要不是 LoRA，都走这个通用保存逻辑
+    safe_save_model_for_hf_trainer(trainer=trainer,
+                                   output_dir=training_args.output_dir)
+
+
+if __name__ == "__main__":
+    train()
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/util/.DS_Store b/Unicorn_dense/bunny/util/.DS_Store
new file mode 100644
index 0000000000000000000000000000000000000000..d0ba6a9d0c171e434647d46a80967bfe9a876335
Binary files /dev/null and b/Unicorn_dense/bunny/util/.DS_Store differ
diff --git a/Unicorn_dense/bunny/util/__pycache__/data_utils.cpython-310.pyc b/Unicorn_dense/bunny/util/__pycache__/data_utils.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..469e4b6156eafbcd3ea404e2d8b58dca0392a332
Binary files /dev/null and b/Unicorn_dense/bunny/util/__pycache__/data_utils.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/util/__pycache__/mm_utils.cpython-310.pyc b/Unicorn_dense/bunny/util/__pycache__/mm_utils.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..288060850339c859984d8eb6d45654ec9121bb62
Binary files /dev/null and b/Unicorn_dense/bunny/util/__pycache__/mm_utils.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/util/data_utils.py b/Unicorn_dense/bunny/util/data_utils.py
new file mode 100644
index 0000000000000000000000000000000000000000..3d25911009109ffce6a89c4c4ffe09a4a8421283
--- /dev/null
+++ b/Unicorn_dense/bunny/util/data_utils.py
@@ -0,0 +1,523 @@
+import os
+import copy
+import pickle
+from dataclasses import dataclass, field
+import json
+from typing import Dict, Sequence, Optional
+import torch
+import transformers
+from bunny.constants import IGNORE_INDEX, DEFAULT_IMAGE_TOKEN
+from torch.utils.data import Dataset
+from bunny import conversation as conversation_lib
+from bunny.util.mm_utils import tokenizer_image_token
+
+import random
+
+
+@dataclass
+class DataArguments:
+    data_path: str = field(default=None, metadata={"help": "Path to the training data."})
+    lazy_preprocess: bool = False
+    is_multimodal: bool = True
+    image_aspect_ratio: str = field(default=None)
+
+
+def preprocess_multimodal(
+        sources: Sequence[str],
+        data_args: DataArguments
+) -> Dict:
+    is_multimodal = data_args.is_multimodal
+    if not is_multimodal:
+        return sources
+
+    for source in sources:
+        for sentence in source:
+            if DEFAULT_IMAGE_TOKEN in sentence['value']:
+                sentence['value'] = sentence['value'].replace(DEFAULT_IMAGE_TOKEN, '').strip()
+                sentence['value'] = DEFAULT_IMAGE_TOKEN + '\n' + sentence['value']
+                sentence['value'] = sentence['value'].strip()
+
+            replace_token = DEFAULT_IMAGE_TOKEN
+
+            sentence["value"] = sentence["value"].replace(DEFAULT_IMAGE_TOKEN, replace_token)
+
+    return sources
+
+
+def preprocess_bunny(
+        sources,
+        tokenizer: transformers.PreTrainedTokenizer,
+        has_image: bool = False
+) -> Dict:
+    conv = conversation_lib.default_conversation.copy()
+    roles = {"human": conv.roles[0], "gpt": conv.roles[1]}
+
+    # Apply prompt templates
+    conversations = []
+    for i, source in enumerate(sources):
+        if roles[source[0]["from"]] != conv.roles[0]:
+            # Skip the first one if it is not from human
+            source = source[1:]
+
+        conv.messages = []
+        for j, sentence in enumerate(source):
+            role = roles[sentence["from"]]
+            assert role == conv.roles[j % 2], f"{i}"
+            conv.append_message(role, sentence["value"])
+        conversations.append(conv.get_prompt())
+
+    # Tokenize conversations
+
+    if has_image:
+        input_ids = torch.stack(
+            [tokenizer_image_token(prompt, tokenizer, return_tensors='pt') for prompt in conversations], dim=0)
+    else:
+        input_ids = tokenizer(
+            conversations,
+            return_tensors="pt",
+            padding="longest",
+            max_length=tokenizer.model_max_length,
+            truncation=True,
+        ).input_ids
+
+    targets = input_ids.clone()
+
+    assert conv.sep_style == conversation_lib.SeparatorStyle.TWO
+
+    # Mask targets
+    sep = conv.sep + conv.roles[1] + ": "
+    for conversation, target in zip(conversations, targets):
+        total_len = int(target.ne(tokenizer.pad_token_id).sum())
+
+        rounds = conversation.split(conv.sep2)
+        cur_len = 0
+        end_token_cnt = 0
+
+        for i, rou in enumerate(rounds):
+            # print('<----------------------------------------------->')
+            # print('for111')
+            # print('<----------------------------------------------->')
+            if rou == "":
+                # print('<----------------------------------------------->')
+                # print('for222')
+                # print('<----------------------------------------------->')
+                break
+            
+            # print('<----------------------------------------------->')
+            # print('for444')
+            # print('<----------------------------------------------->')
+
+            parts = rou.split(sep)
+            if len(parts) != 2:
+                # print('<----------------------------------------------->')
+                # print('for333')
+                # print('<----------------------------------------------->')
+                break
+            parts[0] += sep
+
+            # print('<----------------------------------------------->')
+            # print('for555')
+            # print('<----------------------------------------------->')
+
+            if has_image:
+                round_len = len(tokenizer_image_token(rou, tokenizer))
+                instruction_len = len(tokenizer_image_token(parts[0], tokenizer)) - 1
+            else:
+                round_len = len(tokenizer(rou).input_ids)
+                instruction_len = len(tokenizer(parts[0]).input_ids) - 1
+
+            round_len += 1
+            end_token_cnt += 1
+
+            target[cur_len: cur_len + instruction_len] = IGNORE_INDEX
+
+            cur_len += round_len
+        target[cur_len:] = IGNORE_INDEX
+
+        if tokenizer.pad_token_id == tokenizer.eos_token_id:
+            cur_len -= end_token_cnt
+        if cur_len < tokenizer.model_max_length:
+            if cur_len != total_len:
+                target[:] = IGNORE_INDEX
+                print(
+                    f"WARNING: tokenization mismatch: {cur_len} vs. {total_len}."
+                    f" (ignored)"
+                )
+
+    return dict(
+        input_ids=input_ids,
+        labels=targets,
+    )
+
+
+def preprocess_bunny_with_bos(
+        sources,
+        tokenizer: transformers.PreTrainedTokenizer,
+        has_image: bool = False
+) -> Dict:
+    conv = conversation_lib.default_conversation.copy()
+    roles = {"human": conv.roles[0], "gpt": conv.roles[1]}
+
+    # Apply prompt templates
+    conversations = []
+    for i, source in enumerate(sources):
+        if roles[source[0]["from"]] != conv.roles[0]:
+            # Skip the first one if it is not from human
+            source = source[1:]
+
+        conv.messages = []
+        for j, sentence in enumerate(source):
+            role = roles[sentence["from"]]
+            assert role == conv.roles[j % 2], f"{i}"
+            conv.append_message(role, sentence["value"])
+        conversations.append(conv.get_prompt())
+
+    # Tokenize conversations
+
+    if has_image:
+        input_ids = torch.stack(
+            [tokenizer_image_token(prompt, tokenizer, return_tensors='pt') for prompt in conversations], dim=0)
+    else:
+        input_ids = tokenizer(
+            conversations,
+            return_tensors="pt",
+            padding="longest",
+            max_length=tokenizer.model_max_length,
+            truncation=True,
+        ).input_ids
+
+    targets = input_ids.clone()
+
+    assert conv.sep_style == conversation_lib.SeparatorStyle.TWO
+
+    # Mask targets
+    sep = conv.sep + conv.roles[1] + ": "
+    for conversation, target in zip(conversations, targets):
+        total_len = int(target.ne(tokenizer.pad_token_id).sum())
+
+        rounds = conversation.split(conv.sep2)
+        cur_len = 1
+        end_token_cnt = 0
+        target[:cur_len] = IGNORE_INDEX
+
+        for i, rou in enumerate(rounds):
+
+            # print('<----------------------------------------------->')
+            # print('111')
+            # print('<----------------------------------------------->')
+
+            if rou == "":
+                # print('<----------------------------------------------->')
+                # print('222')
+                # print('<----------------------------------------------->')
+                break
+            
+            parts = rou.split(sep)
+            if len(parts) != 2:
+                break
+            parts[0] += sep
+
+            if has_image:
+                round_len = len(tokenizer_image_token(rou, tokenizer))
+                instruction_len = len(tokenizer_image_token(parts[0], tokenizer)) - 2
+            else:
+                round_len = len(tokenizer(rou).input_ids)
+                instruction_len = len(tokenizer(parts[0]).input_ids) - 2
+
+            target[cur_len: cur_len + instruction_len] = IGNORE_INDEX
+
+            end_token_cnt += 1
+            cur_len += round_len
+        target[cur_len:] = IGNORE_INDEX
+
+        if tokenizer.pad_token_id == tokenizer.eos_token_id:
+            cur_len -= end_token_cnt
+        if cur_len < tokenizer.model_max_length:
+            if cur_len != total_len:
+                target[:] = IGNORE_INDEX
+                print(
+                    f"WARNING: tokenization mismatch: {cur_len} vs. {total_len}."
+                    f" (ignored)"
+                )
+
+    return dict(
+        input_ids=input_ids,
+        labels=targets,
+    )
+
+
+def preprocess_plain(
+        sources: Sequence[str],
+        tokenizer: transformers.PreTrainedTokenizer,
+) -> Dict:
+    # add end signal and concatenate together
+    conversations = []
+    for source in sources:
+        assert len(source) == 2
+        assert DEFAULT_IMAGE_TOKEN in source[0]['value']
+        source[0]['value'] = DEFAULT_IMAGE_TOKEN
+        conversation = source[0]['value'] + source[1]['value'] + conversation_lib.default_conversation.sep
+        conversations.append(conversation)
+    # tokenize conversations
+    input_ids = [tokenizer_image_token(prompt, tokenizer, return_tensors='pt') for prompt in conversations]
+    targets = copy.deepcopy(input_ids)
+    for target, source in zip(targets, sources):
+        tokenized_len = len(tokenizer_image_token(source[0]['value'], tokenizer))
+        target[:tokenized_len] = IGNORE_INDEX
+
+    return dict(input_ids=input_ids, labels=targets)
+
+
+def preprocess(
+        sources: Sequence[str],
+        tokenizer: transformers.PreTrainedTokenizer,
+        has_image: bool = False
+) -> Dict:
+    if conversation_lib.default_conversation.sep_style == conversation_lib.SeparatorStyle.PLAIN:
+        # print('00000000000')
+        return preprocess_plain(sources, tokenizer)
+
+    if conversation_lib.default_conversation.version == "bunny":
+        # print('11111111111')
+        return preprocess_bunny(sources, tokenizer, has_image=has_image)
+    elif conversation_lib.default_conversation.version in {"minicpm", "llama"}:
+        # print('22222222222')
+        return preprocess_bunny_with_bos(sources, tokenizer, has_image=has_image)
+    # temporarily fix
+    # Phi-3 June 2024 Update changes bos_token behavior
+    elif conversation_lib.default_conversation.version == "phi3":
+        if len(tokenizer('').input_ids) == 0:
+            # print('33333333333')
+            return preprocess_bunny(sources, tokenizer, has_image=has_image)
+        else:
+            # print('44444444444')
+            return preprocess_bunny_with_bos(sources, tokenizer, has_image=has_image)
+
+
+class LazySupervisedDataset(Dataset):
+    """Dataset for supervised fine-tuning."""
+
+    def __init__(self, data_path: str,
+                 tokenizer: transformers.PreTrainedTokenizer,
+                 data_args: DataArguments):
+        super(LazySupervisedDataset, self).__init__()
+        list_data_dict = json.load(open(data_path, "r"))
+
+        print("Formatting inputs...Skip in lazy mode")
+        self.tokenizer = tokenizer
+        self.data_args = data_args
+
+        # 【修改点2】：预先过滤掉没有 caption 的数据，防止 __getitem__ 返回 None 导致崩溃
+        self.list_data_dict = [x for x in list_data_dict if 'caption' in x]
+        print(f"Loaded {len(list_data_dict)} raw samples, filtered to {len(self.list_data_dict)} valid samples (with captions).")
+
+	# <----------------------------------------------------->
+	# bunny	
+	# <----------------------------------------------------->	
+
+        # ours
+        # folder_path = '/llm-align/liuchonghan/embed_0113/exp_embedding/embedding_bunny/text_ours/ours'
+	
+	# trace
+        # folder_path = '/llm-align/liuchonghan/embed_0113/exp_embedding/embedding_bunny/text_trace/trace'
+
+	# <----------------------------------------------------->
+	# densefusion	
+	# <----------------------------------------------------->
+
+        # ours
+        # folder_path = '/llm-align/liuchonghan/embed_0113/exp_embedding/embedding_densefusion/text_ours/ours'
+
+	# trace
+        folder_path = '/llm-align/liuchonghan/embed_0113/exp_embedding/embedding_densefusion/text_trace/trace'
+
+        print('<----------------------------------------------------->')
+        print(folder_path)
+        print('<----------------------------------------------------->')
+        
+        # 【修改点1】：使用 Dictionary (Hash Map) 代替 List，实现 O(1) 查找
+        self.embeddings = {}
+
+        if os.path.exists(folder_path):
+            print(f"Loading embeddings from {folder_path}...")
+            for filename in os.listdir(folder_path):
+                if filename.endswith('.pkl'):
+                    file_path = os.path.join(folder_path, filename)
+                    try:
+                        with open(file_path, 'rb') as f:
+                            batch_data = pickle.load(f)
+                            # 建立 id -> embed 的映射
+                            for item in batch_data:
+                                self.embeddings[str(item.get('id'))] = item.get('embed')
+                    except Exception as e:
+                        print(f"Error loading {filename}: {e}")
+            print(f"Loaded {len(self.embeddings)} embeddings.")
+        else:
+            print(f"ERROR: Folder path {folder_path} does not exist.")
+
+
+    def __len__(self):
+        return len(self.list_data_dict)
+
+    @property
+    def lengths(self):
+        length_list = []
+        for sample in self.list_data_dict:
+            img_tokens = 128 if 'image' in sample else 0
+            length_list.append(sum(len(conv['value'].split()) for conv in sample['conversations']) + img_tokens)
+        return length_list
+
+    @property
+    def modality_lengths(self):
+        length_list = []
+        for sample in self.list_data_dict:
+            cur_len = sum(len(conv['value'].split()) for conv in sample['conversations'])
+            cur_len = cur_len if 'image' in sample else -cur_len
+            length_list.append(cur_len)
+        return length_list
+
+    def __getitem__(self, i):
+        
+        # sources
+        # {
+        #     "id": "0010278167",
+        #     "caption": ***,  
+        #     "conversations": [
+        #         {
+        #             "from": "human", 
+        #             "value": "<image>\nWhat is this?"
+        #         }, 
+        #         {
+        #             "from": "gpt", 
+        #             "value": "***"
+        #         }
+        #     ]
+        # }
+
+        # caption 有两个作用：
+        # 1. 替代 image
+        # 2. 作为 pretrain 阶段 imaginary image 的 caption 训练数据
+        sources = self.list_data_dict[i]
+
+        # print('<------------------------------------->')
+        # print('sources1: \n')
+        # print(sources)
+        # print('<------------------------------------->')
+
+        # 【修改点2】：由于在 __init__ 已经过滤，这里一定有 caption，无需 else return None
+        # 作用 2：作为 pretrain 阶段 imaginary image 的 caption 训练数据 TODO
+        sources_processed = preprocess_multimodal(
+            copy.deepcopy([e["conversations"] for e in [sources]]), self.data_args)
+
+        # print('<------------------------------------->')
+        # print('sources2: \n')
+        # print(sources)
+        # print('<------------------------------------->')
+        
+        # 由于数据格式一致，所以无需修改 preprocess
+        data_dict = preprocess(
+            sources_processed, # 注意这里使用处理后的 sources_processed
+            self.tokenizer,
+            has_image=True # 既然经过过滤，则认为包含图像信息
+        )
+
+        if isinstance(i, int):
+            data_dict = dict(input_ids=data_dict["input_ids"][0],
+                             labels=data_dict["labels"][0])
+
+
+        # print('<------------------------------------->')
+        # print('self.list_data_dict[i]: \n')
+        # print(self.list_data_dict[i])
+        # print('<------------------------------------->')
+        
+        # 【修改点1】：使用字典 O(1) 查找 embedding
+        sid = str(sources.get('id'))
+        if sid in self.embeddings:
+            # print('IN THERE!')
+            data_dict['embed'] = self.embeddings[sid]
+        
+        # print('<------------------------------------->')
+        # print('data_dict2: \n')
+        # print(data_dict)
+        # print('<------------------------------------->')
+
+        # dict:
+        # {
+        #     input_ids,
+        #     labels,
+        #     embed
+        # }
+
+        return data_dict
+
+
+@dataclass
+class DataCollatorForSupervisedDataset(object):
+    """Collate examples for supervised fine-tuning."""
+
+    tokenizer: transformers.PreTrainedTokenizer
+
+    def __call__(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]:
+        input_ids, labels = tuple([instance[key] for instance in instances]
+                                  for key in ("input_ids", "labels"))
+
+        if self.tokenizer.pad_token_id == self.tokenizer.eos_token_id:
+            for input_id in input_ids:
+                input_id[input_id == self.tokenizer.eos_token_id] = -300
+
+        input_ids = torch.nn.utils.rnn.pad_sequence(
+            input_ids,
+            batch_first=True,
+            padding_value=self.tokenizer.pad_token_id)
+
+        labels = torch.nn.utils.rnn.pad_sequence(
+            labels,
+            batch_first=True,
+            padding_value=IGNORE_INDEX)
+
+        input_ids = input_ids[:, :self.tokenizer.model_max_length]
+
+        attention_mask = input_ids.ne(self.tokenizer.pad_token_id)
+
+        labels = labels[:, :self.tokenizer.model_max_length]
+
+        if self.tokenizer.pad_token_id == self.tokenizer.eos_token_id:
+            for input_id in input_ids:
+                input_id[input_id == -300] = self.tokenizer.eos_token_id
+
+        batch = dict(
+            input_ids=input_ids,
+            labels=labels,
+            attention_mask=attention_mask,
+        )
+
+        # print('<instances---------------------------------------------------->')
+        # print(instances)
+        # print('<---------------------------------------------------->')
+
+        if 'embed' in instances[0]:
+
+            embeds = [instance['embed'] for instance in instances]
+            embeds_tensor = torch.stack([torch.from_numpy(embed) for embed in embeds])
+
+            # print('<In data utils-------------------------------------------->')
+            # print(embeds_tensor)
+            # print('<In data utils-------------------------------------------->')
+
+            # 可选：将数据类型转换为浮点数（如果尚未）
+            # embeds_tensor = embeds_tensor.float()
+            batch['embeds'] = embeds_tensor
+
+        return batch
+
+def make_supervised_data_module(tokenizer: transformers.PreTrainedTokenizer,
+                                data_args) -> Dict:
+    """Make dataset and collator for supervised fine-tuning."""
+    train_dataset = LazySupervisedDataset(tokenizer=tokenizer,
+                                          data_path=data_args.data_path,
+                                          data_args=data_args)
+    data_collator = DataCollatorForSupervisedDataset(tokenizer=tokenizer)
+    return dict(train_dataset=train_dataset,
+                eval_dataset=None,
+                data_collator=data_collator)
diff --git a/Unicorn_dense/bunny/util/mm_utils.py b/Unicorn_dense/bunny/util/mm_utils.py
new file mode 100644
index 0000000000000000000000000000000000000000..5c3d83fc40ea95caa39a66f8f6580468dc8963e1
--- /dev/null
+++ b/Unicorn_dense/bunny/util/mm_utils.py
@@ -0,0 +1,120 @@
+import base64
+import torch
+
+from PIL import Image
+from io import BytesIO
+from transformers import StoppingCriteria
+
+from bunny.constants import IMAGE_TOKEN_INDEX
+
+
+def load_image_from_base64(image):
+    return Image.open(BytesIO(base64.b64decode(image)))
+
+
+def expand2square(pil_img, background_color):
+    width, height = pil_img.size
+    if width == height:
+        return pil_img
+    elif width > height:
+        result = Image.new(pil_img.mode, (width, width), background_color)
+        result.paste(pil_img, (0, (width - height) // 2))
+        return result
+    else:
+        result = Image.new(pil_img.mode, (height, height), background_color)
+        result.paste(pil_img, ((height - width) // 2, 0))
+        return result
+
+
+def process_images(images, image_processor, model_cfg):
+    image_aspect_ratio = getattr(model_cfg, "image_aspect_ratio", None)
+    new_images = []
+    if image_aspect_ratio == 'pad':
+        for image in images:
+            image = expand2square(image, tuple(int(x * 255) for x in image_processor.image_mean))
+            image = image_processor.preprocess(image, return_tensors='pt')['pixel_values'][0]
+            new_images.append(image)
+    else:
+        return image_processor(images, return_tensors='pt')['pixel_values']
+    if all(x.shape == new_images[0].shape for x in new_images):
+        new_images = torch.stack(new_images, dim=0)
+    return new_images
+
+
+def tokenizer_image_token(prompt, tokenizer, image_token_index=IMAGE_TOKEN_INDEX, return_tensors=None):
+    prompt_chunks = [tokenizer(chunk).input_ids for chunk in prompt.split('<image>')]
+
+    def insert_separator(X, sep):
+        return [ele for sublist in zip(X, [sep] * len(X)) for ele in sublist][:-1]
+
+    input_ids = []
+
+    # 处理第一个块，保留 BOS（如果有）
+    if len(prompt_chunks) > 0:
+         input_ids.extend(prompt_chunks[0])
+
+    # 准备分隔符（图片 Token）
+    # 注意：这里不需要像原代码那样根据 offset 动态调整分隔符长度，Unicorn 只需要一个 token
+    image_token_seq = [image_token_index] 
+
+    # 处理后续块
+    # 我们跳过第一个块（因为已经加了），然后插入 图片+后续块
+    for i in range(1, len(prompt_chunks)):
+        input_ids.extend(image_token_seq) # 插入 <image> token
+
+        chunk = prompt_chunks[i]
+        # 关键修复：检查当前这个块是否以 BOS 开头，如果是才去掉
+        if len(chunk) > 0 and chunk[0] == tokenizer.bos_token_id:
+            input_ids.extend(chunk[1:])
+        else:
+            input_ids.extend(chunk)
+
+    if return_tensors is not None:
+        if return_tensors == 'pt':
+            return torch.tensor(input_ids, dtype=torch.long)
+        raise ValueError(f'Unsupported tensor type: {return_tensors}')
+    return input_ids
+
+
+def get_model_name_from_path(model_path):
+    model_path = model_path.strip("/")
+    model_paths = model_path.split("/")
+    if model_paths[-1].startswith('checkpoint-'):
+        return model_paths[-2] + "_" + model_paths[-1]
+    else:
+        return model_paths[-1]
+
+
+class KeywordsStoppingCriteria(StoppingCriteria):
+    def __init__(self, keywords, tokenizer, input_ids):
+        self.keywords = keywords
+        self.keyword_ids = []
+        self.max_keyword_len = 0
+        for keyword in keywords:
+            cur_keyword_ids = tokenizer(keyword).input_ids
+            if len(cur_keyword_ids) > 1 and cur_keyword_ids[0] == tokenizer.bos_token_id:
+                cur_keyword_ids = cur_keyword_ids[1:]
+            if len(cur_keyword_ids) > self.max_keyword_len:
+                self.max_keyword_len = len(cur_keyword_ids)
+            self.keyword_ids.append(torch.tensor(cur_keyword_ids))
+        self.tokenizer = tokenizer
+        self.start_len = input_ids.shape[1]
+
+    def call_for_batch(self, output_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
+        offset = min(output_ids.shape[1] - self.start_len, self.max_keyword_len)
+        self.keyword_ids = [keyword_id.to(output_ids.device) for keyword_id in self.keyword_ids]
+        for keyword_id in self.keyword_ids:
+            truncated_output_ids = output_ids[0, -keyword_id.shape[0]:]
+            if torch.equal(truncated_output_ids, keyword_id):
+                return True
+        outputs = self.tokenizer.batch_decode(output_ids[:, -offset:], skip_special_tokens=True)[0]
+        for keyword in self.keywords:
+            if keyword in outputs:
+                return True
+        return False
+
+    def __call__(self, output_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
+        outputs = []
+        for i in range(output_ids.shape[0]):
+            outputs.append(self.call_for_batch(output_ids[i].unsqueeze(0), scores))
+        return all(outputs)
diff --git a/Unicorn_dense/bunny/util/s2wrapper/__init__.py b/Unicorn_dense/bunny/util/s2wrapper/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..8632e27fd27fde54860dc07dac543d2c2d0334cb
--- /dev/null
+++ b/Unicorn_dense/bunny/util/s2wrapper/__init__.py
@@ -0,0 +1,2 @@
+from .core import *
+from .utils import *
\ No newline at end of file
diff --git a/Unicorn_dense/bunny/util/s2wrapper/__pycache__/__init__.cpython-310.pyc b/Unicorn_dense/bunny/util/s2wrapper/__pycache__/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..14cfdbe1daed9541bd4b0257fa52ae08f12c980c
Binary files /dev/null and b/Unicorn_dense/bunny/util/s2wrapper/__pycache__/__init__.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/util/s2wrapper/__pycache__/core.cpython-310.pyc b/Unicorn_dense/bunny/util/s2wrapper/__pycache__/core.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..48f0caf8eea0bf971d7627a252cecd00dd301733
Binary files /dev/null and b/Unicorn_dense/bunny/util/s2wrapper/__pycache__/core.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/util/s2wrapper/__pycache__/utils.cpython-310.pyc b/Unicorn_dense/bunny/util/s2wrapper/__pycache__/utils.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7dd51088e7998461a5e108460004a010b307fa1e
Binary files /dev/null and b/Unicorn_dense/bunny/util/s2wrapper/__pycache__/utils.cpython-310.pyc differ
diff --git a/Unicorn_dense/bunny/util/s2wrapper/core.py b/Unicorn_dense/bunny/util/s2wrapper/core.py
new file mode 100644
index 0000000000000000000000000000000000000000..d40710d7c836866f60091804657fe14bf9b1251f
--- /dev/null
+++ b/Unicorn_dense/bunny/util/s2wrapper/core.py
@@ -0,0 +1,62 @@
+#  ------------------------------------------------------------------------------------------
+#  Copyright (c) 2024 Baifeng Shi.
+#  All rights reserved.
+#
+#  Licensed under the MIT License (MIT). See LICENSE in the repo root for license information.
+#  ------------------------------------------------------------------------------------------
+
+import math
+import torch
+import torch.nn.functional as F
+from einops import rearrange
+from .utils import split_chessboard, merge_chessboard, batched_forward
+
+def forward(model, input, scales=None, img_sizes=None, max_split_size=None, resize_output_to_idx=0, num_prefix_token=0,
+            output_shape='bnc', split_forward=False):
+
+    assert input.dim() == 4, "Input image must be in the shape of BxCxHxW."
+    assert input.shape[2] == input.shape[3], "Currently only square images are supported."
+    assert output_shape in ['bnc', 'bchw'], "Output shape should be either BxNxC (e.g., ViT) or BxCxHxW (e.g., ConvNet)."
+    assert output_shape == 'bnc' or num_prefix_token == 0, "For ConvNet there shouldn't be any prefix token."
+
+    b, c, input_size, _ = input.shape
+
+    # image size for each scale
+    assert scales is not None or img_sizes is not None, "Please assign either scales or img_sizes."
+    img_sizes = img_sizes or [int(input_size * scale) for scale in scales]
+
+    # prepare multiscale inputs
+    max_split_size = max_split_size or input_size   # The maximum size of each split of image. Set as the input size by default
+    num_splits = [math.ceil(size / max_split_size) for size in img_sizes]   # number of splits each scale
+    input_multiscale = []
+    for size, num_split in zip(img_sizes, num_splits):
+        x = F.interpolate(input.to(torch.float32), size=size, mode='bicubic').to(input.dtype)
+        x = split_chessboard(x, num_split=num_split)
+        input_multiscale.append(x)
+
+    # run feedforward on each scale
+    outs_multiscale = [batched_forward(model, x, b) if split_forward else model(x) for x in input_multiscale]
+    if num_prefix_token > 0:
+        outs_prefix_multiscale = [out[:, :num_prefix_token] for out in outs_multiscale]
+        outs_multiscale = [out[:, num_prefix_token:] for out in outs_multiscale]
+    if output_shape == 'bnc':
+        outs_multiscale = [rearrange(out, 'b (h w) c -> b c h w', h=int(out.shape[1] ** 0.5), w=int(out.shape[1] ** 0.5))
+                           for out in outs_multiscale]
+
+    # merge outputs of different splits for each scale separately
+    outs_multiscale = [merge_chessboard(out, num_split=num_split) for num_split, out in zip(num_splits, outs_multiscale)]
+
+    # interpolate outputs from different scales and concat together
+    output_size = outs_multiscale[resize_output_to_idx].shape[-2]
+    out = torch.cat([F.interpolate(outs_multiscale[i].to(torch.float32), size=output_size,
+                                   mode='area').to(outs_multiscale[i].dtype)
+                     for i in range(len(outs_multiscale))], dim=1)
+    if output_shape == 'bnc':
+        out = rearrange(out, 'b c h w -> b (h w) c')
+    if num_prefix_token > 0:
+        # take the mean of prefix tokens from different splits for each scale
+        outs_prefix_multiscale = [torch.stack(out.split(b, dim=0), dim=0).mean(dim=0) for out in outs_prefix_multiscale]
+        out_prefix_multiscale = torch.cat(outs_prefix_multiscale, dim=-1)
+        out = torch.cat([out_prefix_multiscale, out], dim=1)
+
+    return out
diff --git a/Unicorn_dense/bunny/util/s2wrapper/utils.py b/Unicorn_dense/bunny/util/s2wrapper/utils.py
new file mode 100644
index 0000000000000000000000000000000000000000..f69c8bd94b2f07c88aa8753d9485c2dae8fb3f6f
--- /dev/null
+++ b/Unicorn_dense/bunny/util/s2wrapper/utils.py
@@ -0,0 +1,41 @@
+#  ------------------------------------------------------------------------------------------
+#  Copyright (c) 2024 Baifeng Shi.
+#  All rights reserved.
+#
+#  Licensed under the MIT License (MIT). See LICENSE in the repo root for license information.
+#  ------------------------------------------------------------------------------------------
+
+import torch
+
+def split_chessboard(x, num_split):
+    """
+        x: b * c * h * w
+        Deividing x into num_split**2 sub-squares, and concatenate all the sub-squares on the batch dimension
+    """
+    B, C, H, W = x.shape
+    assert H % num_split == 0 and W % num_split == 0
+    h, w = H // num_split, W // num_split
+    x_split = torch.cat([x[:, :, i*h:(i+1)*h, j*w:(j+1)*w] for i in range(num_split) for j in range(num_split)], dim=0)
+    return x_split
+
+def merge_chessboard(x, num_split):
+    """
+        x: b * c * h * w
+        Assuming x contains num_split**2 sub-squares concatenated along batch dimension, merge the sub-squares back to the original whole square.
+        (inverse of split_chessboard)
+    """
+    B, C, H, W = x.shape
+    assert B % (num_split**2) == 0
+    b = B // (num_split**2)
+    x_merge = torch.cat([torch.cat([x[(i*num_split + j)*b:(i*num_split + j + 1)*b] for j in range(num_split)], dim=-1)
+                         for i in range(num_split)], dim=-2)
+    return x_merge
+
+def batched_forward(model, x, batch_size=-1):
+    if batch_size == -1:
+        return model(x)
+    else:
+        x_batched = x.split(batch_size)
+        outs = [model(x) for x in x_batched]
+        return torch.cat(outs, dim=0)
+
diff --git a/Unicorn_dense/bunny/util/utils.py b/Unicorn_dense/bunny/util/utils.py
new file mode 100644
index 0000000000000000000000000000000000000000..b42887852bb27671b3cf023649245a2ad7cd31e1
--- /dev/null
+++ b/Unicorn_dense/bunny/util/utils.py
@@ -0,0 +1,124 @@
+import logging
+import logging.handlers
+import os
+import sys
+
+from bunny.constants import LOGDIR
+
+server_error_msg = "**NETWORK ERROR DUE TO HIGH TRAFFIC. PLEASE REGENERATE OR REFRESH THIS PAGE.**"
+moderation_msg = "YOUR INPUT VIOLATES OUR CONTENT MODERATION GUIDELINES. PLEASE TRY AGAIN."
+
+handler = None
+
+
+def disable_torch_init():
+    """
+    Disable the redundant torch default initialization to accelerate model creation.
+    """
+    import torch
+    setattr(torch.nn.Linear, "reset_parameters", lambda self: None)
+    setattr(torch.nn.LayerNorm, "reset_parameters", lambda self: None)
+
+
+def build_logger(logger_name, logger_filename):
+    global handler
+
+    formatter = logging.Formatter(
+        fmt="%(asctime)s | %(levelname)s | %(name)s | %(message)s",
+        datefmt="%Y-%m-%d %H:%M:%S",
+    )
+
+    # Set the format of root handlers
+    if not logging.getLogger().handlers:
+        logging.basicConfig(level=logging.INFO)
+    logging.getLogger().handlers[0].setFormatter(formatter)
+
+    # Redirect stdout and stderr to loggers
+    stdout_logger = logging.getLogger("stdout")
+    stdout_logger.setLevel(logging.INFO)
+    sl = StreamToLogger(stdout_logger, logging.INFO)
+    sys.stdout = sl
+
+    stderr_logger = logging.getLogger("stderr")
+    stderr_logger.setLevel(logging.ERROR)
+    sl = StreamToLogger(stderr_logger, logging.ERROR)
+    sys.stderr = sl
+
+    # Get logger
+    logger = logging.getLogger(logger_name)
+    logger.setLevel(logging.INFO)
+
+    # Add a file handler for all loggers
+    if handler is None:
+        os.makedirs(LOGDIR, exist_ok=True)
+        filename = os.path.join(LOGDIR, logger_filename)
+        handler = logging.handlers.TimedRotatingFileHandler(
+            filename, when='D', utc=True, encoding='UTF-8')
+        handler.setFormatter(formatter)
+
+        for name, item in logging.root.manager.loggerDict.items():
+            if isinstance(item, logging.Logger):
+                item.addHandler(handler)
+
+    return logger
+
+
+class StreamToLogger(object):
+    """
+    Fake file-like stream object that redirects writes to a logger instance.
+    """
+
+    def __init__(self, logger, log_level=logging.INFO):
+        self.terminal = sys.stdout
+        self.logger = logger
+        self.log_level = log_level
+        self.linebuf = ''
+
+    def __getattr__(self, attr):
+        return getattr(self.terminal, attr)
+
+    def write(self, buf):
+        temp_linebuf = self.linebuf + buf
+        self.linebuf = ''
+        for line in temp_linebuf.splitlines(True):
+            # From the io.TextIOWrapper docs:
+            #   On output, if newline is None, any '\n' characters written
+            #   are translated to the system default line separator.
+            # By default sys.stdout.write() expects '\n' newlines and then
+            # translates them so this is still cross platform.
+            if line[-1] == '\n':
+                self.logger.log(self.log_level, line.rstrip())
+            else:
+                self.linebuf += line
+
+    def flush(self):
+        if self.linebuf != '':
+            self.logger.log(self.log_level, self.linebuf.rstrip())
+        self.linebuf = ''
+
+
+def violates_moderation(text):
+    """
+    Check whether the text violates OpenAI moderation API.
+    """
+    url = "https://api.openai.com/v1/moderations"
+    headers = {"Content-Type": "application/json",
+               "Authorization": "Bearer " + os.environ["OPENAI_API_KEY"]}
+    text = text.replace("\n", "")
+    data = "{" + '"input": ' + f'"{text}"' + "}"
+    data = data.encode("utf-8")
+    try:
+        ret = requests.post(url, headers=headers, data=data, timeout=5)
+        flagged = ret.json()["results"][0]["flagged"]
+    except requests.exceptions.RequestException as e:
+        flagged = False
+    except KeyError as e:
+        flagged = False
+
+    return flagged
+
+
+def pretty_print_semaphore(semaphore):
+    if semaphore is None:
+        return "None"
+    return f"Semaphore(value={semaphore._value}, locked={semaphore.locked()})"
diff --git a/Unicorn_dense/data/embed_mean.py b/Unicorn_dense/data/embed_mean.py
new file mode 100644
index 0000000000000000000000000000000000000000..95fd7db284eabdddd920d5f837d63bf65299a431
--- /dev/null
+++ b/Unicorn_dense/data/embed_mean.py
@@ -0,0 +1,124 @@
+import pickle
+import torch
+import os
+import logging
+import numpy as np
+
+def setup_logging():
+
+    logging.basicConfig(
+        level=logging.WARNING,
+        format='%(asctime)s - %(levelname)s - %(message)s',
+        handlers=[
+            logging.FileHandler("compute_text_mean.log"),
+            logging.StreamHandler()
+        ]
+    )
+
+def main():
+    setup_logging()
+    
+    TEXT_EMBED_MEAN = "/data/xmyu/data/embeddings/pkl/text_embed_mean_shift_512_47.pkl"
+    input_files = [f"/data/xmyu/data/embeddings/pkl/captions_512_47/caption_embeddings_{i}.pkl" for i in range(1, 8)]
+    output_dir = "/data/xmyu/data/embeddings/pkl/captions_512_47_mean_shift/"
+    
+    if not os.path.exists(output_dir):
+        try:
+            os.makedirs(output_dir)
+            print(f"Output directory created: {output_dir}")
+        except Exception as e:
+            logging.error(f"Failed to create output directory {output_dir}: {e}")
+            return
+    
+    text_mean = torch.zeros(1, 1280)
+    
+    total_captions = 0
+    
+    for file_path in input_files:
+        if not os.path.exists(file_path):
+            logging.warning(f"File does not exist: {file_path}")
+            continue
+        
+        print(f"Loading data from {file_path}")
+        with open(file_path, "rb") as f:
+            try:
+                data = pickle.load(f)
+            except Exception as e:
+                logging.warning(f"Failed to load file {file_path}: {e}")
+                continue
+        
+        for item in data:
+            embed = item.get("embed")
+            if embed is None:
+                logging.warning(f"Missing 'embed' key in item: {item}")
+                continue
+            try:
+                cap_embed = torch.from_numpy(embed).float()
+            except Exception as e:
+                logging.warning(f"Failed to convert 'embed' to tensor: {e}")
+                continue
+            text_mean += cap_embed.unsqueeze(0)
+            total_captions += 1
+    
+    if total_captions == 0:
+        logging.error("No valid text embeddings found for calculation.")
+        return
+    
+    text_mean = text_mean / total_captions
+    
+    try:
+        with open(TEXT_EMBED_MEAN, "wb") as f:
+            pickle.dump(text_mean, f)
+        print(f"Text embedding mean saved to {TEXT_EMBED_MEAN}")
+        print(f"Processed a total of {total_captions} captions.")
+    except Exception as e:
+        logging.error(f"Failed to save mean to file {TEXT_EMBED_MEAN}: {e}")
+        return
+    
+    text_mean_np = text_mean.numpy().squeeze(0)
+    
+    for file_path in input_files:
+        if not os.path.exists(file_path):
+            logging.warning(f"File does not exist: {file_path}")
+            continue
+        
+        print(f"Processing and saving data from {file_path}")
+        with open(file_path, "rb") as f:
+            try:
+                data = pickle.load(f)
+            except Exception as e:
+                logging.warning(f"Failed to load file {file_path} for normalization: {e}")
+                continue
+        
+        modified = False
+        for item in data:
+            embed = item.get("embed")
+            if embed is None:
+                logging.warning(f"Missing 'embed' key in item: {item}")
+                continue
+            try:
+                embed = np.array(embed)
+                if embed.shape != text_mean_np.shape:
+                    logging.warning(f"'embed' shape {embed.shape} does not match mean shape {text_mean_np.shape}, skipping item.")
+                    continue
+                embed_mean_shift = embed - text_mean_np
+                item['embed'] = embed_mean_shift
+                modified = True
+            except Exception as e:
+                logging.warning(f"Failed to normalize 'embed': {e}")
+                continue
+        
+        if modified:
+            file_name = os.path.basename(file_path)
+            new_file_path = os.path.join(output_dir, file_name)
+            try:
+                with open(new_file_path, "wb") as f:
+                    pickle.dump(data, f)
+                print(f"Normalized data saved to {new_file_path}")
+            except Exception as e:
+                logging.warning(f"Failed to save normalized data to file {new_file_path}: {e}")
+        else:
+            logging.warning(f"No 'embed' data to modify in file {file_path}.")
+
+if __name__ == "__main__":
+    main()
diff --git a/Unicorn_dense/inference.py b/Unicorn_dense/inference.py
new file mode 100644
index 0000000000000000000000000000000000000000..5e7c32e3c9786888764e3b6d66a263ff04908172
--- /dev/null
+++ b/Unicorn_dense/inference.py
@@ -0,0 +1,59 @@
+import torch
+import transformers
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from PIL import Image
+import warnings
+import transformers
+import pickle
+
+# disable some warnings
+transformers.logging.set_verbosity_error()
+transformers.logging.disable_progress_bar()
+warnings.filterwarnings('ignore')
+
+# set device
+device = 'cuda'  # or cpu
+torch.set_default_device(device)
+
+import sys
+
+# 把 /data/xmyu/Bunny_text/ 加进 sys.path，以便后续 import
+sys.path.insert(0, "/data/xmyu/Bunny_text")
+from bunny.model.language_model.bunny_llama import BunnyLlamaConfig, BunnyLlamaForCausalLM
+
+
+# create model
+model = AutoModelForCausalLM.from_pretrained(
+    '/data/xmyu/Bunny_text/checkpoints-llama3-8b/bunny-llama3-8b/checkpoint-7364',
+    torch_dtype=torch.float16, # float32 for cpu
+    trust_remote_code=True).to("cuda")
+
+tokenizer = AutoTokenizer.from_pretrained(
+    '/data/xmyu/Bunny_text/checkpoints-llama3-8b/bunny-llama3-8b/checkpoint-7364',
+    trust_remote_code=True)
+
+#  Is this anime style?
+
+# text prompt
+prompt = ""
+text = f"A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <image>\n{prompt} ASSISTANT:"
+text_chunks = [tokenizer(chunk).input_ids for chunk in text.split('<image>')]
+input_ids = torch.tensor(text_chunks[0] + [-200] + text_chunks[1][1:], dtype=torch.long).unsqueeze(0).to(device)
+
+
+pkl_file = "image_features.pkl"
+with open(pkl_file, "rb") as f:
+    loaded_features = pickle.load(f)
+
+image_features = torch.from_numpy(loaded_features).to("cuda")
+
+# generate
+output_ids = model.generate(
+    input_ids,
+    embeds=image_features,
+    max_new_tokens=1024,
+    use_cache=False,
+    repetition_penalty=1.0 # increase this to avoid chattering
+)[0]
+
+print(tokenizer.decode(output_ids[input_ids.shape[1]:], skip_special_tokens=True).strip())
diff --git a/Unicorn_dense/script/.DS_Store b/Unicorn_dense/script/.DS_Store
new file mode 100644
index 0000000000000000000000000000000000000000..3661d5c0b5865e9f10686339af2867fbb38c1a1f
Binary files /dev/null and b/Unicorn_dense/script/.DS_Store differ
diff --git a/Unicorn_dense/script/batch_inference.py b/Unicorn_dense/script/batch_inference.py
new file mode 100644
index 0000000000000000000000000000000000000000..441dcd7f99a836c046b12f46130a716b8eb6c4f0
--- /dev/null
+++ b/Unicorn_dense/script/batch_inference.py
@@ -0,0 +1,69 @@
+import torch
+import transformers
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from PIL import Image
+import warnings
+
+# disable some warnings
+transformers.logging.set_verbosity_error()
+transformers.logging.disable_progress_bar()
+warnings.filterwarnings('ignore')
+
+# set device
+device = 'cuda'  # or cpu
+torch.set_default_device(device)
+
+model_name = 'BAAI/Bunny-v1_1-Llama-3-8B-V'  # or 'BAAI/Bunny-Llama-3-8B-V' or 'BAAI/Bunny-v1_1-4B' or 'BAAI/Bunny-v1_0-4B' or 'BAAI/Bunny-v1_0-3B' or 'BAAI/Bunny-v1_0-3B-zh' or 'BAAI/Bunny-v1_0-2B-zh'
+
+# create model
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,  # float32 for cpu
+    device_map='auto',
+    trust_remote_code=True)
+tokenizer = AutoTokenizer.from_pretrained(
+    model_name,
+    trust_remote_code=True)
+
+# for batch inference
+tokenizer.padding_side = "left"
+tokenizer.pad_token_id = model.generation_config.pad_token_id
+padding_max_length = 128  # customize for your circumstance
+tokenizer.add_tokens(['<image>'])
+image_token_id = tokenizer.convert_tokens_to_ids('<image>')
+
+# text prompts
+prompts = [
+    'What is the astronaut holding in his hand?',
+    'Why is the image funny?',
+    'What is the occupation of the person in the picture?',
+    'What animal is in the picture?'
+]
+texts = [
+    f"A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <image>\n{prompt} ASSISTANT:"
+    for prompt in prompts]
+input_ids = torch.tensor(
+    [tokenizer(text, padding='max_length', max_length=padding_max_length).input_ids for text in texts],
+    dtype=torch.long).to(device)
+input_ids[input_ids == image_token_id] = -200
+
+# images, sample images can be found in https://huggingface.co/BAAI/Bunny-v1_1-Llama-3-8B-V/tree/main/images
+image_paths = [
+    'example_1.png',
+    'example_2.png',
+    'example_1.png',
+    'example_2.png'
+]
+images = [Image.open(image_path) for image_path in image_paths]
+image_tensor = model.process_images(images, model.config).to(dtype=model.dtype, device=device)
+
+# generate
+output_ids = model.generate(
+    input_ids,
+    images=image_tensor,
+    max_new_tokens=100,
+    use_cache=True,
+    repetition_penalty=1.0  # increase this to avoid chattering
+)
+
+print([ans.strip() for ans in tokenizer.batch_decode(output_ids[:, input_ids.shape[1]:], skip_special_tokens=True)])
diff --git a/Unicorn_dense/script/conversion_to_GGUF.md b/Unicorn_dense/script/conversion_to_GGUF.md
new file mode 100644
index 0000000000000000000000000000000000000000..1672387fc0ba8621c6c8e938a550033cefc02ca6
--- /dev/null
+++ b/Unicorn_dense/script/conversion_to_GGUF.md
@@ -0,0 +1,286 @@
+# Conversion to GGUF
+
+* Firstly, prepare a python environment and install the following dependencies:
+
+  ```shell
+  pip install torch transformers gguf sentencepiece
+  ```
+
+* And then install `llama.cpp`.
+
+* Then, edit `llama.cpp/examples/llava/convert-image-encoder-to-gguf.py` to support SigLIP:
+
+  * when importing packages, chage
+
+    ```python
+    from transformers import CLIPModel, CLIPProcessor, CLIPVisionModel
+    ```
+
+    to
+
+    ```python
+    from transformers import SiglipModel as CLIPModel
+    from transformers import SiglipProcessor as CLIPProcessor
+    from transformers import SiglipVisionModel as CLIPVisionModel
+    ```
+
+
+* Then, edit `llama.cpp/convert-hf-to-gguf.py` to skip unknown parts:
+
+  change
+
+  ```python
+      def map_tensor_name(self, name: str, try_suffixes: Sequence[str] = (".weight", ".bias")) -> str:
+          new_name = self.tensor_map.get_name(key=name, try_suffixes=try_suffixes)
+          if new_name is None:
+              raise ValueError(f"Can not map tensor {name!r}")
+          return new_name
+  ```
+
+  to
+
+  ```python
+      def map_tensor_name(self, name: str, try_suffixes: Sequence[str] = (".weight", ".bias")) -> str:
+          new_name = self.tensor_map.get_name(key=name, try_suffixes=try_suffixes)
+          return new_name
+  ```
+
+  change
+
+  ```python
+      def write_tensors(self):
+          max_name_len = max(len(s) for _, s in self.tensor_map.mapping.values()) + len(".weight,")
+  
+          for name, data_torch in self.get_tensors():
+              ...
+  
+              for new_name, data in ((n, d.squeeze().numpy()) for n, d in self.modify_tensors(data_torch, name, bid)):
+                  data: np.ndarray = data  # type hint
+                  n_dims = len(data.shape)
+                  ...
+  ```
+
+  to
+
+  ```python
+      def write_tensors(self):
+          max_name_len = max(len(s) for _, s in self.tensor_map.mapping.values()) + len(".weight,")
+  
+          for name, data_torch in self.get_tensors():
+              ...
+  
+               for new_name, data in ((n, d.squeeze().numpy()) for n, d in self.modify_tensors(data_torch, name, bid)):
+                  if new_name is None:
+                      continue
+                    
+                  data: np.ndarray = data  # type hint
+                  n_dims = len(data.shape)
+                  ...
+  ```
+
+
+
+## converting [Bunny-Llama-3-8B-V](https://huggingface.co/BAAI/Bunny-Llama-3-8B-V)
+
+1. `cd llama.cpp/examples/llava`
+
+2. Download the weights and put under `./`
+
+3. Extract the weights of vision tower and multimodel projector:
+
+   ```shell
+   python llava-surgery-v2.py -C -m Bunny-Llama-3-8B-V
+   ```
+
+   you will find a `llava.projector` and a `llava.clip` file in `Bunny-Llama-3-8B-V`
+
+4. Create the visual gguf model:
+
+   * prepare files
+
+     ```shell
+     cd Bunny-Llama-3-8B-V
+     mkdir vit
+     cp llava.clip vit/pytorch_model.bin
+     cp llava.projector vit/
+     ```
+
+     and put [`config.json`](#appendix) under `vit/`
+
+   * and then:
+   
+     ```shell
+     python ../convert-image-encoder-to-gguf.py -m vit --llava-projector vit/llava.projector --output-dir vit --clip-model-is-vision --image-mean 0.5 0.5 0.5 --image-std 0.5 0.5 0.5
+     cd ..
+     ```
+     
+     you will find a `mmproj-model-f16.gguf` file in `Bunny-Llama-3-8B-V/vit`
+     
+
+
+5. Convert the left language part:
+
+   * edit `Bunny-Llama-3-8B-V/config.json`:
+
+     change
+
+     ```json
+       "architectures": [
+         "BunnyLlamaForCausalLM"
+       ],
+       "auto_map": {
+         "AutoConfig": "configuration_bunny_llama.BunnyLlamaConfig",
+         "AutoModelForCausalLM": "modeling_bunny_llama.BunnyLlamaForCausalLM"
+       },
+     ```
+
+     to
+
+     ```json
+       "architectures": [
+         "LlamaForCausalLM"
+       ],
+     ```
+
+   * And then:
+
+     ```shell
+     python ../../convert-hf-to-gguf.py Bunny-Llama-3-8B-V
+     ```
+     
+     you will find a `ggml-model-f16.gguf` file in `Bunny-Llama-3-8B-V`
+     
+   
+
+
+
+## converting [Bunny-v1_0-4B](https://huggingface.co/BAAI/Bunny-v1_0-4B)
+
+1. `cd llama.cpp/examples/llava`
+
+2. Download the weights and put under `./`
+
+3. Extract the weights of vision tower and multimodel projector:
+
+   ```shell
+   python llava-surgery-v2.py -C -m Bunny-v1_0-4B
+   ```
+
+   you will find a `llava.projector` and a `llava.clip` file in `Bunny-v1_0-4B`
+
+4. Create the visual gguf model:
+
+   * prepare files
+
+     ```shell
+     cd Bunny-v1_0-4B
+     mkdir vit
+     cp llava.clip vit/pytorch_model.bin
+     cp llava.projector vit/
+     ```
+
+     and put [`config.json`](#appendix) under `vit/`
+
+   * and then:
+
+     ```shell
+     python ../convert-image-encoder-to-gguf.py -m vit --llava-projector vit/llava.projector --output-dir vit --clip-model-is-vision --image-mean 0.5 0.5 0.5 --image-std 0.5 0.5 0.5
+     cd ..
+     ```
+     
+     you will find a `mmproj-model-f16.gguf` file in `Bunny-v1_0-4B/vit`
+     
+
+
+5. Convert the left language part:
+
+   * edit `Bunny-v1_0-4B/config.json`:
+
+     change
+
+     ```json
+       "architectures": [
+         "BunnyPhi3ForCausalLM"
+       ],
+       "attention_dropout": 0.0,
+       "auto_map": {
+         "AutoConfig": "configuration_bunny_phi3.BunnyPhi3Config",
+         "AutoModelForCausalLM": "modeling_bunny_phi3.BunnyPhi3ForCausalLM"
+       },
+     ```
+   
+     to
+   
+     ```json
+       "architectures": [
+         "Phi3ForCausalLM"
+       ],
+       "attention_dropout": 0.0,
+       "auto_map": {
+         "AutoConfig": "configuration_phi3.Phi3Config",
+         "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+       },
+     ```
+   
+   * And then:
+   
+     ```shell
+     python ../../convert-hf-to-gguf.py Bunny-v1_0-4B
+     ```
+   
+     you will find a `ggml-model-f16.gguf` file in `Bunny-v1_0-4B`
+
+
+
+
+## Appendix
+
+`vit/config.json`
+
+```json
+{
+  "architectures": [
+    "SiglipVisionModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "freeze_mm_mlp_adapter": false,
+  "hidden_act": "gelu_pytorch_tanh",
+  "hidden_size": 1152,
+  "image_size": 384,
+  "image_aspect_ratio": "pad",
+  "initializer_range": 0.02,
+  "intermediate_size": 4304,
+  "layer_norm_eps": 1e-6,
+  "max_position_embeddings": 8192,
+  "mm_hidden_size": 1152,
+  "mm_projector_lr": 1e-05,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "model_type": "siglip_vision_model",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 27,
+  "num_key_value_heads": 8,
+  "patch_size": 14,
+  "pretraining_tp": 1,
+  "projection_dim": 1152,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 2048,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "float16",
+  "transformers_version": "4.40.0",
+  "tune_mm_mlp_adapter": false,
+  "unfreeze_vision_tower": true,
+  "use_cache": true,
+  "use_mm_proj": true,
+  "vocab_size": 128256
+}
+```
+
+
+
diff --git a/Unicorn_dense/script/deepspeed/zero2.json b/Unicorn_dense/script/deepspeed/zero2.json
new file mode 100644
index 0000000000000000000000000000000000000000..c95ebefe07b7d8d9fd0936a014679d07102cc270
--- /dev/null
+++ b/Unicorn_dense/script/deepspeed/zero2.json
@@ -0,0 +1,23 @@
+{
+    "fp16": {
+        "enabled": "auto",
+        "loss_scale": 0,
+        "loss_scale_window": 1000,
+        "initial_scale_power": 16,
+        "hysteresis": 2,
+        "min_loss_scale": 1
+    },
+    "bf16": {
+        "enabled": "auto"
+    },
+    "train_micro_batch_size_per_gpu": "auto",
+    "train_batch_size": "auto",
+    "gradient_accumulation_steps": "auto",
+    "zero_optimization": {
+        "stage": 2,
+        "overlap_comm": true,
+        "contiguous_gradients": true,
+        "sub_group_size": 1e9,
+        "reduce_bucket_size": "auto"
+    }
+}
\ No newline at end of file
diff --git a/Unicorn_dense/script/deepspeed/zero3.json b/Unicorn_dense/script/deepspeed/zero3.json
new file mode 100644
index 0000000000000000000000000000000000000000..6917317af62da757ca759a92b326ddfa65b203cc
--- /dev/null
+++ b/Unicorn_dense/script/deepspeed/zero3.json
@@ -0,0 +1,28 @@
+{
+    "fp16": {
+        "enabled": "auto",
+        "loss_scale": 0,
+        "loss_scale_window": 1000,
+        "initial_scale_power": 16,
+        "hysteresis": 2,
+        "min_loss_scale": 1
+    },
+    "bf16": {
+        "enabled": "auto"
+    },
+    "train_micro_batch_size_per_gpu": "auto",
+    "train_batch_size": "auto",
+    "gradient_accumulation_steps": "auto",
+    "zero_optimization": {
+        "stage": 3,
+        "overlap_comm": true,
+        "contiguous_gradients": true,
+        "sub_group_size": 1e9,
+        "reduce_bucket_size": "auto",
+        "stage3_prefetch_bucket_size": "auto",
+        "stage3_param_persistence_threshold": "auto",
+        "stage3_max_live_parameters": 1e9,
+        "stage3_max_reuse_distance": 1e9,
+        "stage3_gather_16bit_weights_on_model_save": true
+    }
+}
\ No newline at end of file
diff --git a/Unicorn_dense/script/merge_lora_weights.py b/Unicorn_dense/script/merge_lora_weights.py
new file mode 100644
index 0000000000000000000000000000000000000000..a87959dc3f267b924347b969c834ed5248bc681b
--- /dev/null
+++ b/Unicorn_dense/script/merge_lora_weights.py
@@ -0,0 +1,26 @@
+import argparse
+import os
+from bunny.model.builder import load_pretrained_model
+from bunny.util.mm_utils import get_model_name_from_path
+
+
+def merge_lora(args):
+    model_path = os.path.expanduser(args.model_path)
+    model_name = get_model_name_from_path(model_path)
+    tokenizer, model, image_processor, context_len = load_pretrained_model(model_path, args.model_base, model_name,
+                                                                           args.model_type)
+
+    model.save_pretrained(args.save_model_path)
+    tokenizer.save_pretrained(args.save_model_path)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--model-path", type=str, required=True)
+    parser.add_argument("--model-base", type=str, required=True)
+    parser.add_argument("--model-type", type=str, required=True)
+    parser.add_argument("--save-model-path", type=str, required=True)
+
+    args = parser.parse_args()
+
+    merge_lora(args)
diff --git a/Unicorn_dense/script/train/.DS_Store b/Unicorn_dense/script/train/.DS_Store
new file mode 100644
index 0000000000000000000000000000000000000000..94d9071d93e740f73c3720c2fabd6bc1caab0e86
Binary files /dev/null and b/Unicorn_dense/script/train/.DS_Store differ
diff --git a/Unicorn_dense/script/train/finetune_full.sh b/Unicorn_dense/script/train/finetune_full.sh
new file mode 100644
index 0000000000000000000000000000000000000000..25cfb1dee5dde7a9bd0b2685a78b52a4e118e3c3
--- /dev/null
+++ b/Unicorn_dense/script/train/finetune_full.sh
@@ -0,0 +1,40 @@
+#!/bin/bash
+
+MODEL_TYPE=llama3-8b
+
+PRETRAIN_DIR=bunny-$MODEL_TYPE-pretrain
+OUTPUT_DIR=bunny-$MODEL_TYPE
+
+mkdir -p ./checkpoints-$MODEL_TYPE/$OUTPUT_DIR
+
+deepspeed bunny/train/train.py \
+    --deepspeed ./script/deepspeed/zero3.json \
+    --model_name_or_path /data/xmyu/checkpoints/Meta-Llama-3-8B-Instruct \
+    --model_type $MODEL_TYPE \
+    --version llama \
+    --data_path /data/xmyu/data/Synthetic_Data/Instruction.json \
+    --pretrain_mm_mlp_adapter /data/xmyu/Bunny_text/checkpoints-pretrain/$PRETRAIN_DIR/checkpoint-1450/mm_projector.bin \
+    --mm_projector_type mlp2x_gelu \
+    --image_aspect_ratio pad \
+    --group_by_modality_length False \
+    --bf16 True \
+    --output_dir ./checkpoints-$MODEL_TYPE/$OUTPUT_DIR \
+    --num_train_epochs 1 \
+    --per_device_train_batch_size 4 \
+    --per_device_eval_batch_size 4 \
+    --gradient_accumulation_steps 2 \
+    --evaluation_strategy "no" \
+    --save_strategy "steps" \
+    --save_steps 2200 \
+    --save_total_limit 1 \
+    --learning_rate 1e-5 \
+    --weight_decay 0. \
+    --warmup_ratio 0.03 \
+    --lr_scheduler_type "cosine" \
+    --logging_steps 1 \
+    --tf32 True \
+    --model_max_length 2048 \
+    --gradient_checkpointing True \
+    --dataloader_num_workers 4 \
+    --lazy_preprocess True \
+    --report_to wandb
\ No newline at end of file
diff --git a/Unicorn_dense/script/train/pretrain-bunny.sh b/Unicorn_dense/script/train/pretrain-bunny.sh
new file mode 100644
index 0000000000000000000000000000000000000000..5453e3cc4f96c224742e446dc2f2083790238375
--- /dev/null
+++ b/Unicorn_dense/script/train/pretrain-bunny.sh
@@ -0,0 +1,44 @@
+#!/bin/bash
+export PYTHONPATH=$PYTHONPATH:$(pwd)
+
+export NCCL_SOCKET_IFNAME=eth0
+export GLOO_SOCKET_IFNAME=eth0
+export TP_SOCKET_IFNAME=eth0
+
+PYTHON_CMD="/llm-align/liuchonghan/env/envs/bunny/bin/python"
+MODEL_TYPE=llama3-8b
+Data_TYPE=bunny
+OUTPUT_DIR=bunny-$MODEL_TYPE-pretrain
+
+mkdir -p /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-$Data_TYPE/$OUTPUT_DIR
+
+$PYTHON_CMD -m deepspeed.launcher.runner bunny/train/train.py \
+    --deepspeed ./script/deepspeed/zero2.json \
+    --model_name_or_path /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct \
+    --model_type $MODEL_TYPE \
+    --version plain \
+    --data_path /llm-align/liuchonghan/xiaomin/data/bunny/pretrain/bunny_pretrain_ours.json \
+    --mm_projector_type mlp2x_gelu \
+    --tune_mm_mlp_adapter True \
+    --image_aspect_ratio square \
+    --bf16 True \
+    --output_dir /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-$Data_TYPE/$OUTPUT_DIR \
+    --num_train_epochs 1 \
+    --per_device_train_batch_size 8 \
+    --per_device_eval_batch_size 4 \
+    --gradient_accumulation_steps 4 \
+    --evaluation_strategy "no" \
+    --save_strategy "steps" \
+    --save_steps 100000 \
+    --save_total_limit 1 \
+    --learning_rate 5e-4 \
+    --weight_decay 0. \
+    --warmup_ratio 0.03 \
+    --lr_scheduler_type "cosine" \
+    --logging_steps 1 \
+    --tf32 True \
+    --model_max_length 2048 \
+    --gradient_checkpointing True \
+    --dataloader_num_workers 4 \
+    --lazy_preprocess True \
+    --report_to wandb
diff --git a/Unicorn_dense/script/train/pretrain-densefusion.sh b/Unicorn_dense/script/train/pretrain-densefusion.sh
new file mode 100644
index 0000000000000000000000000000000000000000..cbeb6c086287dd6d7ab9770eb3ab67c3b88b40d5
--- /dev/null
+++ b/Unicorn_dense/script/train/pretrain-densefusion.sh
@@ -0,0 +1,44 @@
+#!/bin/bash
+export PYTHONPATH=$PYTHONPATH:$(pwd)
+
+export NCCL_SOCKET_IFNAME=eth0
+export GLOO_SOCKET_IFNAME=eth0
+export TP_SOCKET_IFNAME=eth0
+
+PYTHON_CMD="/llm-align/liuchonghan/env/envs/bunny/bin/python"
+MODEL_TYPE=llama3-8b
+Data_TYPE=densefusion
+OUTPUT_DIR=densefusion-$MODEL_TYPE-pretrain
+
+mkdir -p /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-$Data_TYPE/$OUTPUT_DIR
+
+$PYTHON_CMD -m deepspeed.launcher.runner bunny/train/train.py \
+    --deepspeed ./script/deepspeed/zero2.json \
+    --model_name_or_path /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct \
+    --model_type $MODEL_TYPE \
+    --version plain \
+    --data_path /llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json \
+    --mm_projector_type mlp2x_gelu \
+    --tune_mm_mlp_adapter True \
+    --image_aspect_ratio square \
+    --bf16 True \
+    --output_dir /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-$Data_TYPE/$OUTPUT_DIR \
+    --num_train_epochs 1 \
+    --per_device_train_batch_size 8 \
+    --per_device_eval_batch_size 4 \
+    --gradient_accumulation_steps 4 \
+    --evaluation_strategy "no" \
+    --save_strategy "steps" \
+    --save_steps 100000 \
+    --save_total_limit 1 \
+    --learning_rate 5e-4 \
+    --weight_decay 0. \
+    --warmup_ratio 0.03 \
+    --lr_scheduler_type "cosine" \
+    --logging_steps 1 \
+    --tf32 True \
+    --model_max_length 2048 \
+    --gradient_checkpointing True \
+    --dataloader_num_workers 4 \
+    --lazy_preprocess True \
+    --report_to wandb
diff --git a/Unicorn_dense/wandb/debug-cli.root.log b/Unicorn_dense/wandb/debug-cli.root.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Unicorn_dense/wandb/debug-internal.log b/Unicorn_dense/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..a9cdab117235c9cd8e5bc6322bae8919a0d4a377
--- /dev/null
+++ b/Unicorn_dense/wandb/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2026-01-15T23:09:09.359519736+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-15T23:09:10.053029159+08:00","level":"INFO","msg":"stream: created new stream","id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053157747+08:00","level":"INFO","msg":"handler: started","stream_id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053614895+08:00","level":"INFO","msg":"stream: started","id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053705975+08:00","level":"INFO","msg":"writer: started","stream_id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053751795+08:00","level":"INFO","msg":"sender: started","stream_id":"tzltcduc"}
+{"time":"2026-01-16T00:58:27.786570434+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T01:01:02.736252069+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T01:50:41.805241062+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T02:31:11.489117871+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T05:47:50.424144962+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T08:17:31.77758427+08:00","level":"INFO","msg":"stream: closing","id":"tzltcduc"}
+{"time":"2026-01-16T08:17:34.163717521+08:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2026-01-16T08:17:34.848919185+08:00","level":"INFO","msg":"handler: closed","stream_id":"tzltcduc"}
+{"time":"2026-01-16T08:17:34.849133266+08:00","level":"INFO","msg":"sender: closed","stream_id":"tzltcduc"}
+{"time":"2026-01-16T08:17:34.84916337+08:00","level":"INFO","msg":"stream: closed","id":"tzltcduc"}
diff --git a/Unicorn_dense/wandb/debug.log b/Unicorn_dense/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..b08e57f53a0cd2ba6a32dccb3c226ce02bfb41e3
--- /dev/null
+++ b/Unicorn_dense/wandb/debug.log
@@ -0,0 +1,26 @@
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Configure stats pid to 443684
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/settings
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug.log
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug-internal.log
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:init():841] calling init triggers
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:init():889] starting backend
+2026-01-15 23:09:09,343 INFO    MainThread:443684 [wandb_init.py:init():892] sending inform_init request
+2026-01-15 23:09:09,356 INFO    MainThread:443684 [wandb_init.py:init():900] backend started and connected
+2026-01-15 23:09:09,358 INFO    MainThread:443684 [wandb_init.py:init():970] updated telemetry
+2026-01-15 23:09:09,359 INFO    MainThread:443684 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2026-01-15 23:09:10,667 INFO    MainThread:443684 [wandb_init.py:init():1041] starting run threads in backend
+2026-01-15 23:09:10,942 INFO    MainThread:443684 [wandb_run.py:_console_start():2521] atexit reg
+2026-01-15 23:09:10,942 INFO    MainThread:443684 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2026-01-15 23:09:10,942 INFO    MainThread:443684 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2026-01-15 23:09:10,943 INFO    MainThread:443684 [wandb_run.py:_redirect():2461] Redirects installed.
+2026-01-15 23:09:10,950 INFO    MainThread:443684 [wandb_init.py:init():1081] run started, returning control to user process
+2026-01-15 23:09:10,953 INFO    MainThread:443684 [wandb_run.py:_config_callback():1396] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 8192, 'hidden_size': 4096, 'intermediate_size': 14336, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': False, 'rope_theta': 500000.0, 'rope_scaling': None, 'attention_bias': False, 'attention_dropout': 0.0, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': '/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct', 'transformers_version': '4.44.0', 'model_type': 'bunny-llama', 'use_mm_proj': True, 'mm_projector_type': 'mlp2x_gelu', 'mm_hidden_size': 1280, 'image_aspect_ratio': 'square', 'tokenizer_padding_side': 'right', 'tokenizer_model_max_length': 2048, 'tune_mm_mlp_adapter': True, 'freeze_mm_mlp_adapter': False, 'mm_projector_lr': None, 'use_s2': False, 'output_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'eval_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0005, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 1.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan15_23-06-00_h-liuchonghan-rler1225-a800-a100-2nodes-m-0', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1.0, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100000, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': True, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': './script/deepspeed/zero2.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': True, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'no', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'eval_use_gather_object': False, 'cache_dir': None, 'mpt_attn_impl': 'triton', 'model_max_length': 2048, 'group_by_modality_length': False}
+2026-01-15 23:09:10,972 INFO    MainThread:443684 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 8052289536 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f7369353f40>>
+2026-01-15 23:09:10,972 INFO    MainThread:443684 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 8052289536 None
+2026-01-16 08:17:31,777 INFO    wandb-AsyncioManager-main:443684 [service_client.py:_forward_responses():80] Reached EOF.
+2026-01-16 08:17:31,777 INFO    wandb-AsyncioManager-main:443684 [mailbox.py:close():137] Closing mailbox, abandoning 2 handles.
diff --git a/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/files/wandb-summary.json b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..1d476fc88692f959c7a899096787abbc21a55dbc
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_runtime":0,"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug-core.log b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..ca6591bad50e9b17916f1b453e59b99efd836e31
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2026-01-13T22:16:17.962684788+08:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmp3yr1jww1/port-1815633.txt","pid":1815633,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false,"enable-dcgm-profiling":false}
+{"time":"2026-01-13T22:16:17.963863817+08:00","level":"INFO","msg":"server: will exit if parent process dies","ppid":1815633}
+{"time":"2026-01-13T22:16:17.963808707+08:00","level":"INFO","msg":"server: accepting connections","addr":{"Name":"/tmp/wandb-1815633-1827091-1557386465/socket","Net":"unix"}}
+{"time":"2026-01-13T22:16:18.125890514+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"1(@)"}
+{"time":"2026-01-13T22:16:18.141567552+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"z92v42uv","id":"1(@)"}
+{"time":"2026-01-13T22:16:19.579149529+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"z92v42uv","id":"1(@)"}
+{"time":"2026-01-13T22:16:19.892230267+08:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"1(@)"}
+{"time":"2026-01-13T22:16:19.892393013+08:00","level":"INFO","msg":"connection: closing","id":"1(@)"}
+{"time":"2026-01-13T22:16:19.892441766+08:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2026-01-13T22:16:19.892479344+08:00","level":"INFO","msg":"connection: closed successfully","id":"1(@)"}
+{"time":"2026-01-13T22:16:19.892677432+08:00","level":"INFO","msg":"server: listener closed","addr":{"Name":"/tmp/wandb-1815633-1827091-1557386465/socket","Net":"unix"}}
+{"time":"2026-01-13T22:16:20.065727075+08:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"1(@)"}
+{"time":"2026-01-13T22:16:20.065776807+08:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"1(@)"}
+{"time":"2026-01-13T22:16:20.065797761+08:00","level":"INFO","msg":"server is closed"}
diff --git a/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..b4d5ec35bc212a9ee747a4d5eb2a3825c6e14291
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug-internal.log
@@ -0,0 +1,15 @@
+{"time":"2026-01-13T22:16:18.142175576+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-13T22:16:19.578338876+08:00","level":"INFO","msg":"stream: created new stream","id":"z92v42uv"}
+{"time":"2026-01-13T22:16:19.578617708+08:00","level":"INFO","msg":"handler: started","stream_id":"z92v42uv"}
+{"time":"2026-01-13T22:16:19.579115722+08:00","level":"INFO","msg":"stream: started","id":"z92v42uv"}
+{"time":"2026-01-13T22:16:19.579181868+08:00","level":"INFO","msg":"writer: started","stream_id":"z92v42uv"}
+{"time":"2026-01-13T22:16:19.579221472+08:00","level":"INFO","msg":"sender: started","stream_id":"z92v42uv"}
+{"time":"2026-01-13T22:16:19.873240213+08:00","level":"ERROR","msg":"HTTP error","status":401,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2026-01-13T22:16:19.87339772+08:00","level":"ERROR","msg":"runupserter: failed to init run","error":"returned error 401: {\"data\":{\"upsertBucket\":null},\"errors\":[{\"message\":\"user is not logged in\",\"path\":[\"upsertBucket\"],\"extensions\":{\"code\":\"PERMISSION_ERROR\"}}]}"}
+{"time":"2026-01-13T22:16:19.892353549+08:00","level":"INFO","msg":"stream: closing","id":"z92v42uv"}
+{"time":"2026-01-13T22:16:20.011837057+08:00","level":"ERROR","msg":"sender: uploadConfigFile: runupserter: run not yet initialized"}
+{"time":"2026-01-13T22:16:20.062252431+08:00","level":"ERROR","msg":"runfiles: runupserter: run not yet initialized"}
+{"time":"2026-01-13T22:16:20.062969767+08:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2026-01-13T22:16:20.063020337+08:00","level":"INFO","msg":"handler: closed","stream_id":"z92v42uv"}
+{"time":"2026-01-13T22:16:20.063117216+08:00","level":"INFO","msg":"sender: closed","stream_id":"z92v42uv"}
+{"time":"2026-01-13T22:16:20.06314285+08:00","level":"INFO","msg":"stream: closed","id":"z92v42uv"}
diff --git a/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug.log b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..6eec9e4766d9fd98834a22deb0610feac3a09924
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/logs/debug.log
@@ -0,0 +1,15 @@
+2026-01-13 22:16:16,920 INFO    MainThread:1815633 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-13 22:16:16,920 INFO    MainThread:1815633 [wandb_setup.py:_flush():80] Configure stats pid to 1815633
+2026-01-13 22:16:16,920 INFO    MainThread:1815633 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-13 22:16:16,921 INFO    MainThread:1815633 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn/wandb/settings
+2026-01-13 22:16:16,921 INFO    MainThread:1815633 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-13 22:16:16,921 INFO    MainThread:1815633 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn/wandb/run-20260113_221616-z92v42uv/logs/debug.log
+2026-01-13 22:16:16,921 INFO    MainThread:1815633 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn/wandb/run-20260113_221616-z92v42uv/logs/debug-internal.log
+2026-01-13 22:16:16,921 INFO    MainThread:1815633 [wandb_init.py:init():841] calling init triggers
+2026-01-13 22:16:16,921 INFO    MainThread:1815633 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-13 22:16:16,921 INFO    MainThread:1815633 [wandb_init.py:init():889] starting backend
+2026-01-13 22:16:18,126 INFO    MainThread:1815633 [wandb_init.py:init():892] sending inform_init request
+2026-01-13 22:16:18,138 INFO    MainThread:1815633 [wandb_init.py:init():900] backend started and connected
+2026-01-13 22:16:18,140 INFO    MainThread:1815633 [wandb_init.py:init():970] updated telemetry
+2026-01-13 22:16:18,141 INFO    MainThread:1815633 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
diff --git a/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/run-z92v42uv.wandb b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/run-z92v42uv.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..de63183409074d3f5ca888a07e5caab6eb1637a2
Binary files /dev/null and b/Unicorn_dense/wandb/run-20260113_221616-z92v42uv/run-z92v42uv.wandb differ
diff --git a/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/files/wandb-summary.json b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..b0a620d0c1047a4dd8a400939b6da246ed8063a7
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0},"_runtime":0}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug-core.log b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..2d493412ace1b2f03a64bebbb31387e45ebc80a7
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2026-01-13T22:19:32.700257007+08:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpx2yylatn/port-1827759.txt","pid":1827759,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false,"enable-dcgm-profiling":false}
+{"time":"2026-01-13T22:19:32.701329938+08:00","level":"INFO","msg":"server: will exit if parent process dies","ppid":1827759}
+{"time":"2026-01-13T22:19:32.70128789+08:00","level":"INFO","msg":"server: accepting connections","addr":{"Name":"/tmp/wandb-1827759-1839217-2342298697/socket","Net":"unix"}}
+{"time":"2026-01-13T22:19:32.866259715+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"1(@)"}
+{"time":"2026-01-13T22:19:32.879698204+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"2mrjbwog","id":"1(@)"}
+{"time":"2026-01-13T22:19:33.578570373+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"2mrjbwog","id":"1(@)"}
+{"time":"2026-01-13T22:19:33.882909043+08:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"1(@)"}
+{"time":"2026-01-13T22:19:33.883055863+08:00","level":"INFO","msg":"connection: closing","id":"1(@)"}
+{"time":"2026-01-13T22:19:33.883117888+08:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2026-01-13T22:19:33.883133045+08:00","level":"INFO","msg":"connection: closed successfully","id":"1(@)"}
+{"time":"2026-01-13T22:19:33.883336791+08:00","level":"INFO","msg":"server: listener closed","addr":{"Name":"/tmp/wandb-1827759-1839217-2342298697/socket","Net":"unix"}}
+{"time":"2026-01-13T22:19:33.93862069+08:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"1(@)"}
+{"time":"2026-01-13T22:19:33.938671818+08:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"1(@)"}
+{"time":"2026-01-13T22:19:33.938690886+08:00","level":"INFO","msg":"server is closed"}
diff --git a/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..4ef18595dee75c15a00ed6e12388a5f1e7f8a285
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug-internal.log
@@ -0,0 +1,15 @@
+{"time":"2026-01-13T22:19:32.880267672+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-13T22:19:33.577878113+08:00","level":"INFO","msg":"stream: created new stream","id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.578075013+08:00","level":"INFO","msg":"handler: started","stream_id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.57853978+08:00","level":"INFO","msg":"stream: started","id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.578623248+08:00","level":"INFO","msg":"writer: started","stream_id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.578652305+08:00","level":"INFO","msg":"sender: started","stream_id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.864921024+08:00","level":"ERROR","msg":"HTTP error","status":401,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2026-01-13T22:19:33.865117646+08:00","level":"ERROR","msg":"runupserter: failed to init run","error":"returned error 401: {\"data\":{\"upsertBucket\":null},\"errors\":[{\"message\":\"user is not logged in\",\"path\":[\"upsertBucket\"],\"extensions\":{\"code\":\"PERMISSION_ERROR\"}}]}"}
+{"time":"2026-01-13T22:19:33.883060263+08:00","level":"INFO","msg":"stream: closing","id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.884066839+08:00","level":"ERROR","msg":"sender: uploadConfigFile: runupserter: run not yet initialized"}
+{"time":"2026-01-13T22:19:33.9353046+08:00","level":"ERROR","msg":"runfiles: runupserter: run not yet initialized"}
+{"time":"2026-01-13T22:19:33.936120142+08:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2026-01-13T22:19:33.936163168+08:00","level":"INFO","msg":"handler: closed","stream_id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.936266752+08:00","level":"INFO","msg":"sender: closed","stream_id":"2mrjbwog"}
+{"time":"2026-01-13T22:19:33.936282817+08:00","level":"INFO","msg":"stream: closed","id":"2mrjbwog"}
diff --git a/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug.log b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..22922cc80ba7e1e8533162194112fefbfe3bff51
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/logs/debug.log
@@ -0,0 +1,15 @@
+2026-01-13 22:19:32,573 INFO    MainThread:1827759 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_setup.py:_flush():80] Configure stats pid to 1827759
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn/wandb/settings
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn/wandb/run-20260113_221932-2mrjbwog/logs/debug.log
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn/wandb/run-20260113_221932-2mrjbwog/logs/debug-internal.log
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_init.py:init():841] calling init triggers
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-13 22:19:32,574 INFO    MainThread:1827759 [wandb_init.py:init():889] starting backend
+2026-01-13 22:19:32,866 INFO    MainThread:1827759 [wandb_init.py:init():892] sending inform_init request
+2026-01-13 22:19:32,876 INFO    MainThread:1827759 [wandb_init.py:init():900] backend started and connected
+2026-01-13 22:19:32,878 INFO    MainThread:1827759 [wandb_init.py:init():970] updated telemetry
+2026-01-13 22:19:32,879 INFO    MainThread:1827759 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
diff --git a/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/run-2mrjbwog.wandb b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/run-2mrjbwog.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..24df7cc7ccb44261231eb061edf6b02948cdb892
Binary files /dev/null and b/Unicorn_dense/wandb/run-20260113_221932-2mrjbwog/run-2mrjbwog.wandb differ
diff --git a/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/output.log b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..b0a6594e02de84e3d354af32327b16230aa6a3cb
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/output.log
@@ -0,0 +1,24 @@
+  0%|                                                                                                                                                                                               | 0/3906 [00:00<?, ?it/s]/llm-align/liuchonghan/env/envs/bunny/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py:745: UserWarning: torch.utils.checkpoint: the use_reentrant parameter should be passed explicitly. In version 2.5 we will raise an exception if use_reentrant is not passed. use_reentrant=False is recommended, but if you need to preserve the current default behavior, you can pass use_reentrant=True. Refer to docs for more details on the differences between the two variants.
+  return fn(*args, **kwargs)
+  1%|▉                                                                                                                                                                                   | 21/3906 [02:00<6:05:06,  5.64s/it]
+{'loss': 5.6241, 'grad_norm': 11.347838401794434, 'learning_rate': 4.23728813559322e-06, 'epoch': 0.0}
+{'loss': 5.7587, 'grad_norm': 10.946662902832031, 'learning_rate': 8.47457627118644e-06, 'epoch': 0.0}
+{'loss': 5.5632, 'grad_norm': 13.11731243133545, 'learning_rate': 1.2711864406779663e-05, 'epoch': 0.0}
+{'loss': 5.4506, 'grad_norm': 11.467521667480469, 'learning_rate': 1.694915254237288e-05, 'epoch': 0.0}
+{'loss': 5.103, 'grad_norm': 6.216278553009033, 'learning_rate': 2.11864406779661e-05, 'epoch': 0.0}
+{'loss': 4.797, 'grad_norm': 2.278395414352417, 'learning_rate': 2.5423728813559325e-05, 'epoch': 0.0}
+{'loss': 4.9041, 'grad_norm': 2.308229446411133, 'learning_rate': 2.9661016949152544e-05, 'epoch': 0.0}
+{'loss': 4.8816, 'grad_norm': 2.1249117851257324, 'learning_rate': 3.389830508474576e-05, 'epoch': 0.0}
+{'loss': 4.6335, 'grad_norm': 1.2620606422424316, 'learning_rate': 3.813559322033899e-05, 'epoch': 0.0}
+{'loss': 4.555, 'grad_norm': 1.239555835723877, 'learning_rate': 4.23728813559322e-05, 'epoch': 0.0}
+{'loss': 4.5803, 'grad_norm': 1.063895583152771, 'learning_rate': 4.6610169491525425e-05, 'epoch': 0.0}
+{'loss': 4.5417, 'grad_norm': 0.8586823344230652, 'learning_rate': 5.084745762711865e-05, 'epoch': 0.0}
+{'loss': 4.5136, 'grad_norm': 0.9026785492897034, 'learning_rate': 5.508474576271186e-05, 'epoch': 0.0}
+{'loss': 4.4239, 'grad_norm': 0.8393678665161133, 'learning_rate': 5.932203389830509e-05, 'epoch': 0.0}
+{'loss': 4.5102, 'grad_norm': 0.8201809525489807, 'learning_rate': 6.35593220338983e-05, 'epoch': 0.0}
+{'loss': 4.4172, 'grad_norm': 0.753767192363739, 'learning_rate': 6.779661016949152e-05, 'epoch': 0.0}
+{'loss': 4.4565, 'grad_norm': 0.6934494376182556, 'learning_rate': 7.203389830508474e-05, 'epoch': 0.0}
+{'loss': 4.3746, 'grad_norm': 0.5810011625289917, 'learning_rate': 7.627118644067798e-05, 'epoch': 0.0}
+{'loss': 4.303, 'grad_norm': 0.9263187050819397, 'learning_rate': 8.050847457627118e-05, 'epoch': 0.0}
+{'loss': 4.4423, 'grad_norm': 0.7738030552864075, 'learning_rate': 8.47457627118644e-05, 'epoch': 0.01}
+{'loss': 4.2819, 'grad_norm': 0.6632834076881409, 'learning_rate': 8.898305084745763e-05, 'epoch': 0.01}
diff --git a/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/requirements.txt b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f47bafa7ba36fa343927f31d466b172f425e32c8
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/requirements.txt
@@ -0,0 +1,125 @@
+nvidia-nvtx-cu11==11.8.86
+nvidia-nvtx-cu12==12.4.127
+pandas==2.3.3
+peft==0.17.1
+nvidia-cufft-cu12==11.2.1.3
+Jinja2==3.1.6
+httpcore==1.0.9
+nvidia-cuda-runtime-cu11==11.8.89
+charset-normalizer==3.4.4
+scikit-learn==1.7.2
+nvidia-cusolver-cu11==11.4.1.48
+timm==1.0.12
+nvidia-cusparse-cu11==11.7.5.86
+aiosignal==1.4.0
+nvidia-curand-cu11==10.3.0.86
+pydantic_core==2.41.5
+mpmath==1.3.0
+async-timeout==5.0.1
+fsspec==2025.10.0
+numpy==2.2.6
+GitPython==3.1.46
+tqdm==4.67.1
+click==8.3.1
+accelerate==1.12.0
+nvidia-cuda-runtime-cu12==12.4.127
+threadpoolctl==3.6.0
+exceptiongroup==1.3.1
+smmap==5.0.2
+xxhash==3.6.0
+nvidia-cusparse-cu12==12.3.1.170
+pytz==2025.2
+aiohappyeyeballs==2.6.1
+requests==2.32.5
+dill==0.4.0
+nvidia-cuda-cupti-cu11==11.8.87
+nvidia-cusparselt-cu12==0.6.2
+torch==2.4.0+cu118
+pillow==12.0.0
+pip==25.3
+wheel==0.45.1
+protobuf==6.33.4
+nvidia-curand-cu12==10.3.5.147
+ninja==1.13.0
+nvidia-cufft-cu11==10.9.0.58
+safetensors==0.7.0
+annotated-types==0.7.0
+hjson==3.1.0
+certifi==2026.1.4
+scipy==1.15.3
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-nvrtc-cu11==11.8.89
+typing-inspection==0.4.2
+urllib3==2.6.3
+torchaudio==2.6.0+cu124
+torch==2.6.0+cu124
+networkx==3.4.2
+deepspeed==0.18.4
+yarl==1.22.0
+sympy==1.13.1
+packaging==25.0
+h11==0.16.0
+nvidia-nvjitlink-cu12==12.4.127
+gitdb==4.0.12
+nvidia-cudnn-cu11==9.1.0.70
+nvidia-cudnn-cu12==9.1.0.70
+sentry-sdk==2.49.0
+tzdata==2025.3
+setuptools==80.9.0
+hf-xet==1.2.0
+MarkupSafe==2.1.5
+pyarrow==22.0.0
+httpx==0.28.1
+py-cpuinfo==9.0.0
+nvidia-nccl-cu12==2.21.5
+huggingface-hub==0.36.0
+xformers==0.0.29.post3
+evaluate==0.4.6
+python-dateutil==2.9.0.post0
+idna==3.11
+filelock==3.20.2
+multiprocess==0.70.18
+attrs==25.4.0
+anyio==4.12.1
+pydantic==2.12.5
+nvidia-cuda-cupti-cu12==12.4.127
+typing_extensions==4.15.0
+datasets==4.4.2
+einops==0.8.1
+nvidia-cusolver-cu12==11.6.1.9
+multidict==6.7.0
+regex==2025.11.3
+nvidia-nccl-cu11==2.20.5
+tokenizers==0.19.1
+nvidia-cublas-cu12==12.4.5.8
+psutil==7.2.1
+aiohttp==3.13.3
+propcache==0.4.1
+platformdirs==4.5.1
+triton==3.2.0
+msgpack==1.1.2
+nvidia-cublas-cu11==11.11.3.6
+llm2vec==0.2.3
+torchvision==0.21.0+cu124
+joblib==1.5.3
+wandb==0.23.1
+six==1.17.0
+PyYAML==6.0.3
+frozenlist==1.8.0
+transformers==4.44.0
+zipp==3.19.2
+more-itertools==10.3.0
+importlib_metadata==8.0.0
+jaraco.functools==4.0.1
+inflect==7.3.1
+jaraco.text==3.12.1
+wheel==0.45.1
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+typing_extensions==4.12.2
+typeguard==4.3.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+jaraco.context==5.3.0
+packaging==24.2
diff --git a/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/wandb-metadata.json b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..0dc9ca6018e9fe4bbec83927fb166e5fe92a9cd8
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/files/wandb-metadata.json
@@ -0,0 +1,146 @@
+{
+  "os":  "Linux-5.4.0-42-generic-x86_64-with-glibc2.35",
+  "python":  "CPython 3.10.19",
+  "startedAt":  "2026-01-13T14:24:07.282240Z",
+  "args":  [
+    "--local_rank=0",
+    "--deepspeed",
+    "./script/deepspeed/zero2.json",
+    "--model_name_or_path",
+    "/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct",
+    "--model_type",
+    "llama3-8b",
+    "--version",
+    "plain",
+    "--data_path",
+    "/llm-align/liuchonghan/xiaomin/data/bunny/pretrain/bunny_pretrain_ours.json",
+    "--mm_projector_type",
+    "mlp2x_gelu",
+    "--tune_mm_mlp_adapter",
+    "True",
+    "--image_aspect_ratio",
+    "square",
+    "--bf16",
+    "True",
+    "--output_dir",
+    "/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-bunny/bunny-llama3-8b-pretrain",
+    "--num_train_epochs",
+    "1",
+    "--per_device_train_batch_size",
+    "8",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "4",
+    "--evaluation_strategy",
+    "no",
+    "--save_strategy",
+    "steps",
+    "--save_steps",
+    "100000",
+    "--save_total_limit",
+    "1",
+    "--learning_rate",
+    "5e-4",
+    "--weight_decay",
+    "0.",
+    "--warmup_ratio",
+    "0.03",
+    "--lr_scheduler_type",
+    "cosine",
+    "--logging_steps",
+    "1",
+    "--tf32",
+    "True",
+    "--model_max_length",
+    "2048",
+    "--gradient_checkpointing",
+    "True",
+    "--dataloader_num_workers",
+    "4",
+    "--lazy_preprocess",
+    "True",
+    "--report_to",
+    "wandb"
+  ],
+  "program":  "/llm-align/liuchonghan/xiaomin/Unicorn/bunny/train/train.py",
+  "codePath":  "bunny/train/train.py",
+  "codePathLocal":  "bunny/train/train.py",
+  "email":  "yuxm02@gmail.com",
+  "root":  "/llm-align/liuchonghan/xiaomin/Unicorn",
+  "host":  "h-liuchonghan-rler1225-a800-a100-2nodes-w-0",
+  "executable":  "/llm-align/liuchonghan/env/envs/bunny/bin/python",
+  "cpu_count":  128,
+  "cpu_count_logical":  255,
+  "gpu":  "NVIDIA A800-SXM4-80GB",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "53687091200",
+      "used":  "18824568832"
+    }
+  },
+  "memory":  {
+    "total":  "2164358090752"
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-7552f600-483a-37bf-4f3f-fa27b2066c9f"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-48066ff6-e9d1-f33d-d44c-d9f3b3fe352b"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-b86dc010-e6bd-ac19-dc82-30f394051243"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-702315c9-dc3d-fb1d-122a-2e64f6bb4cd6"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-e9f6992b-5f03-c2c7-28f1-d84d69b155dc"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-db317e6b-e771-ef60-992e-ad53035cb3b4"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-fd7774db-5565-f31b-6b99-c628e0440db1"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-d16b90d7-d4a7-c7a9-bdc2-de750a524b3d"
+    }
+  ],
+  "cudaVersion":  "12.4",
+  "writerId":  "w03l1idxsmdvnzjabqgowgub69f00zht"
+}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug-core.log b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..3cd8817628b33885706d4e733017f0abeda1c590
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2026-01-13T22:24:07.410650554+08:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpjbw57l6z/port-1839955.txt","pid":1839955,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false,"enable-dcgm-profiling":false}
+{"time":"2026-01-13T22:24:07.411936171+08:00","level":"INFO","msg":"server: will exit if parent process dies","ppid":1839955}
+{"time":"2026-01-13T22:24:07.411934285+08:00","level":"INFO","msg":"server: accepting connections","addr":{"Name":"/tmp/wandb-1839955-1851412-284888428/socket","Net":"unix"}}
+{"time":"2026-01-13T22:24:07.577074583+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"1(@)"}
+{"time":"2026-01-13T22:24:07.590805245+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"vne3r4hs","id":"1(@)"}
+{"time":"2026-01-13T22:24:08.280007628+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"vne3r4hs","id":"1(@)"}
+{"time":"2026-01-13T22:26:12.820862785+08:00","level":"INFO","msg":"main: received shutdown signal","signal":15}
diff --git a/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..3f1cc15ab5e77e68a99a391b5d99f4577176d8c2
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug-internal.log
@@ -0,0 +1,6 @@
+{"time":"2026-01-13T22:24:07.591333224+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-13T22:24:08.279359512+08:00","level":"INFO","msg":"stream: created new stream","id":"vne3r4hs"}
+{"time":"2026-01-13T22:24:08.279528054+08:00","level":"INFO","msg":"handler: started","stream_id":"vne3r4hs"}
+{"time":"2026-01-13T22:24:08.279980947+08:00","level":"INFO","msg":"stream: started","id":"vne3r4hs"}
+{"time":"2026-01-13T22:24:08.280063507+08:00","level":"INFO","msg":"writer: started","stream_id":"vne3r4hs"}
+{"time":"2026-01-13T22:24:08.280108139+08:00","level":"INFO","msg":"sender: started","stream_id":"vne3r4hs"}
diff --git a/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug.log b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..6ce42a5c3ce37c39cea7e9a42da40b360b2f3a0d
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/logs/debug.log
@@ -0,0 +1,24 @@
+2026-01-13 22:24:07,288 INFO    MainThread:1839955 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-13 22:24:07,288 INFO    MainThread:1839955 [wandb_setup.py:_flush():80] Configure stats pid to 1839955
+2026-01-13 22:24:07,288 INFO    MainThread:1839955 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-13 22:24:07,289 INFO    MainThread:1839955 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn/wandb/settings
+2026-01-13 22:24:07,289 INFO    MainThread:1839955 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-13 22:24:07,289 INFO    MainThread:1839955 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn/wandb/run-20260113_222407-vne3r4hs/logs/debug.log
+2026-01-13 22:24:07,289 INFO    MainThread:1839955 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn/wandb/run-20260113_222407-vne3r4hs/logs/debug-internal.log
+2026-01-13 22:24:07,289 INFO    MainThread:1839955 [wandb_init.py:init():841] calling init triggers
+2026-01-13 22:24:07,289 INFO    MainThread:1839955 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-13 22:24:07,289 INFO    MainThread:1839955 [wandb_init.py:init():889] starting backend
+2026-01-13 22:24:07,577 INFO    MainThread:1839955 [wandb_init.py:init():892] sending inform_init request
+2026-01-13 22:24:07,587 INFO    MainThread:1839955 [wandb_init.py:init():900] backend started and connected
+2026-01-13 22:24:07,589 INFO    MainThread:1839955 [wandb_init.py:init():970] updated telemetry
+2026-01-13 22:24:07,590 INFO    MainThread:1839955 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2026-01-13 22:24:08,817 INFO    MainThread:1839955 [wandb_init.py:init():1041] starting run threads in backend
+2026-01-13 22:24:09,252 INFO    MainThread:1839955 [wandb_run.py:_console_start():2521] atexit reg
+2026-01-13 22:24:09,252 INFO    MainThread:1839955 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2026-01-13 22:24:09,253 INFO    MainThread:1839955 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2026-01-13 22:24:09,253 INFO    MainThread:1839955 [wandb_run.py:_redirect():2461] Redirects installed.
+2026-01-13 22:24:09,261 INFO    MainThread:1839955 [wandb_init.py:init():1081] run started, returning control to user process
+2026-01-13 22:24:09,264 INFO    MainThread:1839955 [wandb_run.py:_config_callback():1396] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 8192, 'hidden_size': 4096, 'intermediate_size': 14336, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': False, 'rope_theta': 500000.0, 'rope_scaling': None, 'attention_bias': False, 'attention_dropout': 0.0, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': '/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct', 'transformers_version': '4.44.0', 'model_type': 'bunny-llama', 'use_mm_proj': True, 'mm_projector_type': 'mlp2x_gelu', 'mm_hidden_size': 1280, 'image_aspect_ratio': 'square', 'tokenizer_padding_side': 'right', 'tokenizer_model_max_length': 2048, 'tune_mm_mlp_adapter': True, 'freeze_mm_mlp_adapter': False, 'mm_projector_lr': None, 'use_s2': False, 'output_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-bunny/bunny-llama3-8b-pretrain', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'eval_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0005, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 1.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-bunny/bunny-llama3-8b-pretrain/runs/Jan13_22-22-14_h-liuchonghan-rler1225-a800-a100-2nodes-w-0', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1.0, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100000, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': True, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-bunny/bunny-llama3-8b-pretrain', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': './script/deepspeed/zero2.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': True, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'no', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'eval_use_gather_object': False, 'cache_dir': None, 'mpt_attn_impl': 'triton', 'model_max_length': 2048, 'group_by_modality_length': False}
+2026-01-13 22:24:09,280 INFO    MainThread:1839955 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 8052289536 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f69943c7f40>>
+2026-01-13 22:24:09,280 INFO    MainThread:1839955 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 8052289536 None
diff --git a/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/run-vne3r4hs.wandb b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/run-vne3r4hs.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..d5ff2692fc567f2c8c59b4f9f56971597fdb3afc
Binary files /dev/null and b/Unicorn_dense/wandb/run-20260113_222407-vne3r4hs/run-vne3r4hs.wandb differ
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/config.yaml b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..2435de14d62950aecc6f41ec2bbb463e403b8822
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/config.yaml
@@ -0,0 +1,617 @@
+_name_or_path:
+    value: /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+_wandb:
+    value:
+        cli_version: 0.23.1
+        e:
+            mwnl7hrs0a392l5mmm095780to1kdu6d:
+                args:
+                    - --local_rank=0
+                    - --deepspeed
+                    - ./script/deepspeed/zero2.json
+                    - --model_name_or_path
+                    - /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+                    - --model_type
+                    - llama3-8b
+                    - --version
+                    - plain
+                    - --data_path
+                    - /llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json
+                    - --mm_projector_type
+                    - mlp2x_gelu
+                    - --tune_mm_mlp_adapter
+                    - "True"
+                    - --image_aspect_ratio
+                    - square
+                    - --bf16
+                    - "True"
+                    - --output_dir
+                    - /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+                    - --num_train_epochs
+                    - "1"
+                    - --per_device_train_batch_size
+                    - "8"
+                    - --per_device_eval_batch_size
+                    - "4"
+                    - --gradient_accumulation_steps
+                    - "4"
+                    - --evaluation_strategy
+                    - "no"
+                    - --save_strategy
+                    - steps
+                    - --save_steps
+                    - "100000"
+                    - --save_total_limit
+                    - "1"
+                    - --learning_rate
+                    - "5e-4"
+                    - --weight_decay
+                    - "0."
+                    - --warmup_ratio
+                    - "0.03"
+                    - --lr_scheduler_type
+                    - cosine
+                    - --logging_steps
+                    - "1"
+                    - --tf32
+                    - "True"
+                    - --model_max_length
+                    - "2048"
+                    - --gradient_checkpointing
+                    - "True"
+                    - --dataloader_num_workers
+                    - "4"
+                    - --lazy_preprocess
+                    - "True"
+                    - --report_to
+                    - wandb
+                codePath: bunny/train/train.py
+                codePathLocal: bunny/train/train.py
+                cpu_count: 128
+                cpu_count_logical: 255
+                cudaVersion: "12.4"
+                disk:
+                    /:
+                        total: "53687091200"
+                        used: "15148806144"
+                email: yuxm02@gmail.com
+                executable: /llm-align/liuchonghan/env/envs/bunny/bin/python
+                gpu: NVIDIA A800-SXM4-80GB
+                gpu_count: 8
+                gpu_nvidia:
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-de894aa2-80ed-5287-811c-51192fa8348e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550
+                host: h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+                memory:
+                    total: "2164358094848"
+                os: Linux-5.4.0-42-generic-x86_64-with-glibc2.35
+                program: /llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py
+                python: CPython 3.10.19
+                root: /llm-align/liuchonghan/xiaomin/Unicorn_dense
+                startedAt: "2026-01-13T14:49:42.351538Z"
+                writerId: mwnl7hrs0a392l5mmm095780to1kdu6d
+        m:
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "2": '*'
+              "5": 1
+              "6":
+                - 1
+              "7": []
+        python_version: 3.10.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "3":
+                - 7
+                - 13
+                - 19
+                - 62
+                - 66
+            "4": 3.10.19
+            "5": 0.23.1
+            "6": 4.44.0
+            "9":
+                "1": transformers_trainer
+            "12": 0.23.1
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: true
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+cache_dir:
+    value: null
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 4
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: ./script/deepspeed/zero2.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: false
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: null
+eval_strategy:
+    value: "no"
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: "no"
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: false
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+freeze_mm_mlp_adapter:
+    value: false
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 4
+gradient_checkpointing:
+    value: true
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+group_by_modality_length:
+    value: false
+half_precision_backend:
+    value: auto
+hidden_act:
+    value: silu
+hidden_size:
+    value: 4096
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+image_aspect_ratio:
+    value: square
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 14336
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 0.0005
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan13_22-46-57_h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr_scheduler_type:
+    value: cosine
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 8192
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mm_hidden_size:
+    value: 1280
+mm_projector_lr:
+    value: null
+mm_projector_type:
+    value: mlp2x_gelu
+model/num_parameters:
+    value: 8052289536
+model_max_length:
+    value: 2048
+model_type:
+    value: bunny-llama
+mp_parameters:
+    value: ""
+mpt_attn_impl:
+    value: triton
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 32
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 32
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 1
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 4
+per_device_train_batch_size:
+    value: 8
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: false
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value: null
+rope_theta:
+    value: 500000
+run_name:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100000
+save_strategy:
+    value: steps
+save_total_limit:
+    value: 1
+seed:
+    value: 42
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: true
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: false
+tokenizer_class:
+    value: null
+tokenizer_model_max_length:
+    value: 2048
+tokenizer_padding_side:
+    value: right
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+transformers_version:
+    value: 4.44.0
+tune_mm_mlp_adapter:
+    value: true
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: false
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_mm_proj:
+    value: true
+use_mps_device:
+    value: false
+use_s2:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.03
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/output.log b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..73bfb6a24017f4e7201690642cd0219b04636814
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/output.log
@@ -0,0 +1,3910 @@
+  0%|                                                                                                                                                                                               | 0/3906 [00:00<?, ?it/s]/llm-align/liuchonghan/env/envs/bunny/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py:745: UserWarning: torch.utils.checkpoint: the use_reentrant parameter should be passed explicitly. In version 2.5 we will raise an exception if use_reentrant is not passed. use_reentrant=False is recommended, but if you need to preserve the current default behavior, you can pass use_reentrant=True. Refer to docs for more details on the differences between the two variants.
+  return fn(*args, **kwargs)
+                                                                                                                                                                                                                             
+{'loss': 3.2721, 'grad_norm': 20.903457641601562, 'learning_rate': 4.23728813559322e-06, 'epoch': 0.0}
+{'loss': 3.2713, 'grad_norm': 21.882389068603516, 'learning_rate': 8.47457627118644e-06, 'epoch': 0.0}
+{'loss': 3.2253, 'grad_norm': 22.23067855834961, 'learning_rate': 1.2711864406779663e-05, 'epoch': 0.0}
+{'loss': 2.8728, 'grad_norm': 26.1439208984375, 'learning_rate': 1.694915254237288e-05, 'epoch': 0.0}
+{'loss': 2.1703, 'grad_norm': 12.711337089538574, 'learning_rate': 2.11864406779661e-05, 'epoch': 0.0}
+{'loss': 2.0153, 'grad_norm': 0.5138930082321167, 'learning_rate': 2.5423728813559325e-05, 'epoch': 0.0}
+{'loss': 1.982, 'grad_norm': 0.5055591464042664, 'learning_rate': 2.9661016949152544e-05, 'epoch': 0.0}
+{'loss': 1.9902, 'grad_norm': 0.4823613464832306, 'learning_rate': 3.389830508474576e-05, 'epoch': 0.0}
+{'loss': 2.0109, 'grad_norm': 0.5977449417114258, 'learning_rate': 3.813559322033899e-05, 'epoch': 0.0}
+{'loss': 2.0221, 'grad_norm': 0.5351971387863159, 'learning_rate': 4.23728813559322e-05, 'epoch': 0.0}
+{'loss': 2.004, 'grad_norm': 0.5162919759750366, 'learning_rate': 4.6610169491525425e-05, 'epoch': 0.0}
+{'loss': 2.0056, 'grad_norm': 0.5446690917015076, 'learning_rate': 5.084745762711865e-05, 'epoch': 0.0}
+{'loss': 2.0313, 'grad_norm': 0.48740413784980774, 'learning_rate': 5.508474576271186e-05, 'epoch': 0.0}
+{'loss': 2.0233, 'grad_norm': 0.45994001626968384, 'learning_rate': 5.932203389830509e-05, 'epoch': 0.0}
+{'loss': 2.0017, 'grad_norm': 0.4736112058162689, 'learning_rate': 6.35593220338983e-05, 'epoch': 0.0}
+{'loss': 2.0308, 'grad_norm': 0.5000190734863281, 'learning_rate': 6.779661016949152e-05, 'epoch': 0.0}
+{'loss': 2.0162, 'grad_norm': 0.4790705740451813, 'learning_rate': 7.203389830508474e-05, 'epoch': 0.0}
+{'loss': 2.0103, 'grad_norm': 0.49833136796951294, 'learning_rate': 7.627118644067798e-05, 'epoch': 0.0}
+{'loss': 1.9953, 'grad_norm': 0.5025836229324341, 'learning_rate': 8.050847457627118e-05, 'epoch': 0.0}
+{'loss': 1.9871, 'grad_norm': 0.4186929762363434, 'learning_rate': 8.47457627118644e-05, 'epoch': 0.01}
+{'loss': 2.0013, 'grad_norm': 0.3486408293247223, 'learning_rate': 8.898305084745763e-05, 'epoch': 0.01}
+{'loss': 1.9896, 'grad_norm': 0.335527241230011, 'learning_rate': 9.322033898305085e-05, 'epoch': 0.01}
+{'loss': 1.9826, 'grad_norm': 0.28332066535949707, 'learning_rate': 9.745762711864407e-05, 'epoch': 0.01}
+{'loss': 1.9682, 'grad_norm': 0.2871326804161072, 'learning_rate': 0.0001016949152542373, 'epoch': 0.01}
+{'loss': 1.9742, 'grad_norm': 0.31194865703582764, 'learning_rate': 0.0001059322033898305, 'epoch': 0.01}
+{'loss': 1.9769, 'grad_norm': 0.3224932849407196, 'learning_rate': 0.00011016949152542372, 'epoch': 0.01}
+{'loss': 1.9444, 'grad_norm': 0.2969902753829956, 'learning_rate': 0.00011440677966101696, 'epoch': 0.01}
+{'loss': 1.9668, 'grad_norm': 0.28774115443229675, 'learning_rate': 0.00011864406779661017, 'epoch': 0.01}
+{'loss': 1.9477, 'grad_norm': 0.27675145864486694, 'learning_rate': 0.0001228813559322034, 'epoch': 0.01}
+{'loss': 1.9139, 'grad_norm': 0.2622188329696655, 'learning_rate': 0.0001271186440677966, 'epoch': 0.01}
+{'loss': 1.915, 'grad_norm': 0.26170986890792847, 'learning_rate': 0.00013135593220338986, 'epoch': 0.01}
+{'loss': 1.9298, 'grad_norm': 0.26482516527175903, 'learning_rate': 0.00013559322033898305, 'epoch': 0.01}
+{'loss': 1.9184, 'grad_norm': 0.2420230209827423, 'learning_rate': 0.00013983050847457627, 'epoch': 0.01}
+{'loss': 1.9127, 'grad_norm': 0.23215848207473755, 'learning_rate': 0.00014406779661016949, 'epoch': 0.01}
+{'loss': 1.8685, 'grad_norm': 0.21034787595272064, 'learning_rate': 0.0001483050847457627, 'epoch': 0.01}
+{'loss': 1.8665, 'grad_norm': 0.20167870819568634, 'learning_rate': 0.00015254237288135595, 'epoch': 0.01}
+{'loss': 1.8725, 'grad_norm': 0.21605612337589264, 'learning_rate': 0.00015677966101694914, 'epoch': 0.01}
+{'loss': 1.8782, 'grad_norm': 0.22405236959457397, 'learning_rate': 0.00016101694915254236, 'epoch': 0.01}
+{'loss': 1.8769, 'grad_norm': 0.2371213138103485, 'learning_rate': 0.0001652542372881356, 'epoch': 0.01}
+{'loss': 1.8622, 'grad_norm': 0.20220103859901428, 'learning_rate': 0.0001694915254237288, 'epoch': 0.01}
+{'loss': 1.8803, 'grad_norm': 0.17056682705879211, 'learning_rate': 0.00017372881355932204, 'epoch': 0.01}
+{'loss': 1.8393, 'grad_norm': 0.17505982518196106, 'learning_rate': 0.00017796610169491526, 'epoch': 0.01}
+{'loss': 1.8304, 'grad_norm': 0.1627918779850006, 'learning_rate': 0.00018220338983050845, 'epoch': 0.01}
+{'loss': 1.8242, 'grad_norm': 0.16699983179569244, 'learning_rate': 0.0001864406779661017, 'epoch': 0.01}
+{'loss': 1.8091, 'grad_norm': 0.15577095746994019, 'learning_rate': 0.00019067796610169492, 'epoch': 0.01}
+{'loss': 1.8267, 'grad_norm': 0.160405233502388, 'learning_rate': 0.00019491525423728814, 'epoch': 0.01}
+{'loss': 1.8156, 'grad_norm': 0.15646858513355255, 'learning_rate': 0.00019915254237288136, 'epoch': 0.01}
+{'loss': 1.8058, 'grad_norm': 0.15216636657714844, 'learning_rate': 0.0002033898305084746, 'epoch': 0.01}
+{'loss': 1.7953, 'grad_norm': 0.14318057894706726, 'learning_rate': 0.0002076271186440678, 'epoch': 0.01}
+{'loss': 1.8007, 'grad_norm': 0.13554950058460236, 'learning_rate': 0.000211864406779661, 'epoch': 0.01}
+{'loss': 1.783, 'grad_norm': 0.13229875266551971, 'learning_rate': 0.00021610169491525426, 'epoch': 0.01}
+{'loss': 1.7997, 'grad_norm': 0.13911785185337067, 'learning_rate': 0.00022033898305084745, 'epoch': 0.01}
+{'loss': 1.7849, 'grad_norm': 0.12859567999839783, 'learning_rate': 0.0002245762711864407, 'epoch': 0.01}
+{'loss': 1.7633, 'grad_norm': 0.12180109322071075, 'learning_rate': 0.0002288135593220339, 'epoch': 0.01}
+{'loss': 1.7964, 'grad_norm': 0.12664756178855896, 'learning_rate': 0.0002330508474576271, 'epoch': 0.01}
+{'loss': 1.7595, 'grad_norm': 0.13038437068462372, 'learning_rate': 0.00023728813559322035, 'epoch': 0.01}
+{'loss': 1.76, 'grad_norm': 0.1251884400844574, 'learning_rate': 0.00024152542372881357, 'epoch': 0.01}
+{'loss': 1.7613, 'grad_norm': 0.10719907283782959, 'learning_rate': 0.0002457627118644068, 'epoch': 0.01}
+{'loss': 1.7594, 'grad_norm': 0.11023371666669846, 'learning_rate': 0.00025, 'epoch': 0.02}
+{'loss': 1.7328, 'grad_norm': 0.1134200394153595, 'learning_rate': 0.0002542372881355932, 'epoch': 0.02}
+{'loss': 1.7309, 'grad_norm': 0.1315935254096985, 'learning_rate': 0.00025847457627118644, 'epoch': 0.02}
+{'loss': 1.7926, 'grad_norm': 0.11892595887184143, 'learning_rate': 0.0002627118644067797, 'epoch': 0.02}
+{'loss': 1.7197, 'grad_norm': 0.12375011295080185, 'learning_rate': 0.0002669491525423729, 'epoch': 0.02}
+{'loss': 1.7237, 'grad_norm': 0.13402855396270752, 'learning_rate': 0.0002711864406779661, 'epoch': 0.02}
+{'loss': 1.7247, 'grad_norm': 0.11776189506053925, 'learning_rate': 0.0002754237288135593, 'epoch': 0.02}
+{'loss': 1.7539, 'grad_norm': 0.11448829621076584, 'learning_rate': 0.00027966101694915254, 'epoch': 0.02}
+{'loss': 1.7019, 'grad_norm': 0.12431522458791733, 'learning_rate': 0.0002838983050847458, 'epoch': 0.02}
+{'loss': 1.7249, 'grad_norm': 0.11521854996681213, 'learning_rate': 0.00028813559322033897, 'epoch': 0.02}
+{'loss': 1.724, 'grad_norm': 0.11240795999765396, 'learning_rate': 0.0002923728813559322, 'epoch': 0.02}
+{'loss': 1.6987, 'grad_norm': 0.09483697265386581, 'learning_rate': 0.0002966101694915254, 'epoch': 0.02}
+{'loss': 1.7042, 'grad_norm': 0.10967474430799484, 'learning_rate': 0.00030084745762711863, 'epoch': 0.02}
+{'loss': 1.7173, 'grad_norm': 0.09623841196298599, 'learning_rate': 0.0003050847457627119, 'epoch': 0.02}
+{'loss': 1.7386, 'grad_norm': 0.09064072370529175, 'learning_rate': 0.0003093220338983051, 'epoch': 0.02}
+{'loss': 1.7317, 'grad_norm': 0.09959635138511658, 'learning_rate': 0.0003135593220338983, 'epoch': 0.02}
+{'loss': 1.724, 'grad_norm': 0.0943954735994339, 'learning_rate': 0.0003177966101694915, 'epoch': 0.02}
+{'loss': 1.7155, 'grad_norm': 0.10331360995769501, 'learning_rate': 0.0003220338983050847, 'epoch': 0.02}
+{'loss': 1.6845, 'grad_norm': 0.09412898868322372, 'learning_rate': 0.000326271186440678, 'epoch': 0.02}
+{'loss': 1.6985, 'grad_norm': 0.10913459211587906, 'learning_rate': 0.0003305084745762712, 'epoch': 0.02}
+{'loss': 1.6805, 'grad_norm': 0.10549265891313553, 'learning_rate': 0.00033474576271186443, 'epoch': 0.02}
+{'loss': 1.6937, 'grad_norm': 0.14066508412361145, 'learning_rate': 0.0003389830508474576, 'epoch': 0.02}
+{'loss': 1.6956, 'grad_norm': 0.09751288592815399, 'learning_rate': 0.0003432203389830508, 'epoch': 0.02}
+{'loss': 1.6797, 'grad_norm': 0.11967668682336807, 'learning_rate': 0.0003474576271186441, 'epoch': 0.02}
+{'loss': 1.6957, 'grad_norm': 0.09489510208368301, 'learning_rate': 0.0003516949152542373, 'epoch': 0.02}
+{'loss': 1.6735, 'grad_norm': 0.12916474044322968, 'learning_rate': 0.0003559322033898305, 'epoch': 0.02}
+{'loss': 1.7045, 'grad_norm': 0.10305412113666534, 'learning_rate': 0.00036016949152542374, 'epoch': 0.02}
+{'loss': 1.6408, 'grad_norm': 0.11802186816930771, 'learning_rate': 0.0003644067796610169, 'epoch': 0.02}
+{'loss': 1.6531, 'grad_norm': 0.14232775568962097, 'learning_rate': 0.0003686440677966102, 'epoch': 0.02}
+{'loss': 1.6818, 'grad_norm': 0.1266297549009323, 'learning_rate': 0.0003728813559322034, 'epoch': 0.02}
+{'loss': 1.6936, 'grad_norm': 0.10876459628343582, 'learning_rate': 0.0003771186440677966, 'epoch': 0.02}
+{'loss': 1.675, 'grad_norm': 0.12774614989757538, 'learning_rate': 0.00038135593220338984, 'epoch': 0.02}
+{'loss': 1.6809, 'grad_norm': 0.0970068871974945, 'learning_rate': 0.0003855932203389831, 'epoch': 0.02}
+{'loss': 1.6641, 'grad_norm': 0.14117112755775452, 'learning_rate': 0.00038983050847457627, 'epoch': 0.02}
+{'loss': 1.6473, 'grad_norm': 0.0997188538312912, 'learning_rate': 0.0003940677966101695, 'epoch': 0.02}
+{'loss': 1.6694, 'grad_norm': 0.12148944288492203, 'learning_rate': 0.0003983050847457627, 'epoch': 0.02}
+{'loss': 1.6806, 'grad_norm': 0.1241619735956192, 'learning_rate': 0.00040254237288135593, 'epoch': 0.02}
+{'loss': 1.6756, 'grad_norm': 0.11922171711921692, 'learning_rate': 0.0004067796610169492, 'epoch': 0.02}
+{'loss': 1.6337, 'grad_norm': 0.10994438081979752, 'learning_rate': 0.0004110169491525424, 'epoch': 0.02}
+{'loss': 1.6739, 'grad_norm': 0.13796354830265045, 'learning_rate': 0.0004152542372881356, 'epoch': 0.03}
+{'loss': 1.6437, 'grad_norm': 0.09139805287122726, 'learning_rate': 0.0004194915254237288, 'epoch': 0.03}
+{'loss': 1.6838, 'grad_norm': 0.13651473820209503, 'learning_rate': 0.000423728813559322, 'epoch': 0.03}
+{'loss': 1.645, 'grad_norm': 0.12659843266010284, 'learning_rate': 0.0004279661016949153, 'epoch': 0.03}
+{'loss': 1.6629, 'grad_norm': 0.12160371243953705, 'learning_rate': 0.0004322033898305085, 'epoch': 0.03}
+{'loss': 1.6666, 'grad_norm': 0.14989612996578217, 'learning_rate': 0.00043644067796610173, 'epoch': 0.03}
+{'loss': 1.6717, 'grad_norm': 0.11633207648992538, 'learning_rate': 0.0004406779661016949, 'epoch': 0.03}
+{'loss': 1.6474, 'grad_norm': 0.13090166449546814, 'learning_rate': 0.0004449152542372881, 'epoch': 0.03}
+{'loss': 1.6461, 'grad_norm': 0.16913653910160065, 'learning_rate': 0.0004491525423728814, 'epoch': 0.03}
+{'loss': 1.6425, 'grad_norm': 0.11513296514749527, 'learning_rate': 0.0004533898305084746, 'epoch': 0.03}
+{'loss': 1.6441, 'grad_norm': 0.1651289165019989, 'learning_rate': 0.0004576271186440678, 'epoch': 0.03}
+{'loss': 1.6414, 'grad_norm': 0.12231840938329697, 'learning_rate': 0.00046186440677966104, 'epoch': 0.03}
+{'loss': 1.6437, 'grad_norm': 0.19082406163215637, 'learning_rate': 0.0004661016949152542, 'epoch': 0.03}
+{'loss': 1.6497, 'grad_norm': 0.15339206159114838, 'learning_rate': 0.0004703389830508475, 'epoch': 0.03}
+{'loss': 1.6365, 'grad_norm': 0.1709454208612442, 'learning_rate': 0.0004745762711864407, 'epoch': 0.03}
+{'loss': 1.6144, 'grad_norm': 0.1749073714017868, 'learning_rate': 0.0004788135593220339, 'epoch': 0.03}
+{'loss': 1.6254, 'grad_norm': 0.16948983073234558, 'learning_rate': 0.00048305084745762714, 'epoch': 0.03}
+{'loss': 1.6587, 'grad_norm': 0.19598253071308136, 'learning_rate': 0.0004872881355932203, 'epoch': 0.03}
+{'loss': 1.631, 'grad_norm': 0.15950411558151245, 'learning_rate': 0.0004915254237288136, 'epoch': 0.03}
+{'loss': 1.6393, 'grad_norm': 0.22381356358528137, 'learning_rate': 0.0004957627118644068, 'epoch': 0.03}
+{'loss': 1.6067, 'grad_norm': 0.16151297092437744, 'learning_rate': 0.0005, 'epoch': 0.03}
+{'loss': 1.6489, 'grad_norm': 0.20651006698608398, 'learning_rate': 0.0004999999140215142, 'epoch': 0.03}
+{'loss': 1.6195, 'grad_norm': 0.14348353445529938, 'learning_rate': 0.0004999996560861156, 'epoch': 0.03}
+{'loss': 1.6408, 'grad_norm': 0.17840178310871124, 'learning_rate': 0.0004999992261939817, 'epoch': 0.03}
+{'loss': 1.6328, 'grad_norm': 0.1842772513628006, 'learning_rate': 0.0004999986243454084, 'epoch': 0.03}
+{'loss': 1.6195, 'grad_norm': 0.1827467978000641, 'learning_rate': 0.0004999978505408094, 'epoch': 0.03}
+{'loss': 1.6337, 'grad_norm': 0.22252018749713898, 'learning_rate': 0.000499996904780717, 'epoch': 0.03}
+{'loss': 1.6164, 'grad_norm': 0.2640087902545929, 'learning_rate': 0.0004999957870657818, 'epoch': 0.03}
+{'loss': 1.6041, 'grad_norm': 0.2625257670879364, 'learning_rate': 0.0004999944973967727, 'epoch': 0.03}
+{'loss': 1.62, 'grad_norm': 0.16379870474338531, 'learning_rate': 0.0004999930357745766, 'epoch': 0.03}
+{'loss': 1.607, 'grad_norm': 0.2888064384460449, 'learning_rate': 0.0004999914022001988, 'epoch': 0.03}
+{'loss': 1.6207, 'grad_norm': 0.2070862203836441, 'learning_rate': 0.000499989596674763, 'epoch': 0.03}
+{'loss': 1.6007, 'grad_norm': 0.19279994070529938, 'learning_rate': 0.0004999876191995112, 'epoch': 0.03}
+{'loss': 1.5819, 'grad_norm': 0.25952616333961487, 'learning_rate': 0.0004999854697758034, 'epoch': 0.03}
+{'loss': 1.6142, 'grad_norm': 0.1653263419866562, 'learning_rate': 0.000499983148405118, 'epoch': 0.03}
+{'loss': 1.6453, 'grad_norm': 0.2069883644580841, 'learning_rate': 0.0004999806550890519, 'epoch': 0.03}
+{'loss': 1.5715, 'grad_norm': 0.23016367852687836, 'learning_rate': 0.0004999779898293199, 'epoch': 0.03}
+{'loss': 1.6108, 'grad_norm': 0.1818980574607849, 'learning_rate': 0.0004999751526277554, 'epoch': 0.03}
+{'loss': 1.6087, 'grad_norm': 0.2199738323688507, 'learning_rate': 0.0004999721434863098, 'epoch': 0.03}
+{'loss': 1.6215, 'grad_norm': 0.23309966921806335, 'learning_rate': 0.0004999689624070528, 'epoch': 0.04}
+{'loss': 1.5977, 'grad_norm': 0.1598745882511139, 'learning_rate': 0.0004999656093921725, 'epoch': 0.04}
+{'loss': 1.6064, 'grad_norm': 0.2628515958786011, 'learning_rate': 0.0004999620844439753, 'epoch': 0.04}
+{'loss': 1.6178, 'grad_norm': 0.2223135232925415, 'learning_rate': 0.0004999583875648857, 'epoch': 0.04}
+{'loss': 1.5932, 'grad_norm': 0.2011391520500183, 'learning_rate': 0.0004999545187574463, 'epoch': 0.04}
+{'loss': 1.637, 'grad_norm': 0.28694623708724976, 'learning_rate': 0.0004999504780243186, 'epoch': 0.04}
+{'loss': 1.618, 'grad_norm': 0.14610272645950317, 'learning_rate': 0.0004999462653682815, 'epoch': 0.04}
+{'loss': 1.5949, 'grad_norm': 0.268240362405777, 'learning_rate': 0.0004999418807922328, 'epoch': 0.04}
+{'loss': 1.5775, 'grad_norm': 0.22539621591567993, 'learning_rate': 0.0004999373242991884, 'epoch': 0.04}
+{'loss': 1.606, 'grad_norm': 0.220730260014534, 'learning_rate': 0.0004999325958922823, 'epoch': 0.04}
+{'loss': 1.622, 'grad_norm': 0.29715967178344727, 'learning_rate': 0.0004999276955747667, 'epoch': 0.04}
+{'loss': 1.5936, 'grad_norm': 0.23333267867565155, 'learning_rate': 0.0004999226233500124, 'epoch': 0.04}
+{'loss': 1.6259, 'grad_norm': 0.22153028845787048, 'learning_rate': 0.000499917379221508, 'epoch': 0.04}
+{'loss': 1.5824, 'grad_norm': 0.20719125866889954, 'learning_rate': 0.0004999119631928608, 'epoch': 0.04}
+{'loss': 1.5927, 'grad_norm': 0.23101770877838135, 'learning_rate': 0.0004999063752677959, 'epoch': 0.04}
+{'loss': 1.5912, 'grad_norm': 0.2202596813440323, 'learning_rate': 0.0004999006154501568, 'epoch': 0.04}
+{'loss': 1.5994, 'grad_norm': 0.26687780022621155, 'learning_rate': 0.0004998946837439055, 'epoch': 0.04}
+{'loss': 1.6209, 'grad_norm': 0.2002059370279312, 'learning_rate': 0.0004998885801531219, 'epoch': 0.04}
+{'loss': 1.638, 'grad_norm': 0.23143106698989868, 'learning_rate': 0.000499882304682004, 'epoch': 0.04}
+{'loss': 1.6017, 'grad_norm': 0.265024334192276, 'learning_rate': 0.0004998758573348686, 'epoch': 0.04}
+{'loss': 1.5866, 'grad_norm': 0.24498853087425232, 'learning_rate': 0.0004998692381161501, 'epoch': 0.04}
+{'loss': 1.6007, 'grad_norm': 0.23964931070804596, 'learning_rate': 0.0004998624470304014, 'epoch': 0.04}
+{'loss': 1.5789, 'grad_norm': 0.24956683814525604, 'learning_rate': 0.0004998554840822937, 'epoch': 0.04}
+{'loss': 1.5759, 'grad_norm': 0.22852151095867157, 'learning_rate': 0.0004998483492766163, 'epoch': 0.04}
+{'loss': 1.5771, 'grad_norm': 0.27780160307884216, 'learning_rate': 0.0004998410426182766, 'epoch': 0.04}
+{'loss': 1.5821, 'grad_norm': 0.24332386255264282, 'learning_rate': 0.0004998335641123005, 'epoch': 0.04}
+{'loss': 1.6057, 'grad_norm': 0.22396419942378998, 'learning_rate': 0.0004998259137638319, 'epoch': 0.04}
+{'loss': 1.6054, 'grad_norm': 0.2687664031982422, 'learning_rate': 0.0004998180915781327, 'epoch': 0.04}
+{'loss': 1.6038, 'grad_norm': 0.2784540355205536, 'learning_rate': 0.0004998100975605836, 'epoch': 0.04}
+{'loss': 1.5818, 'grad_norm': 0.28480589389801025, 'learning_rate': 0.0004998019317166827, 'epoch': 0.04}
+{'loss': 1.5927, 'grad_norm': 0.19239471852779388, 'learning_rate': 0.0004997935940520469, 'epoch': 0.04}
+{'loss': 1.6063, 'grad_norm': 0.21702289581298828, 'learning_rate': 0.0004997850845724111, 'epoch': 0.04}
+{'loss': 1.5897, 'grad_norm': 0.2342994511127472, 'learning_rate': 0.0004997764032836283, 'epoch': 0.04}
+{'loss': 1.5942, 'grad_norm': 0.19326089322566986, 'learning_rate': 0.0004997675501916698, 'epoch': 0.04}
+{'loss': 1.5799, 'grad_norm': 0.15856076776981354, 'learning_rate': 0.000499758525302625, 'epoch': 0.04}
+{'loss': 1.5866, 'grad_norm': 0.1762935370206833, 'learning_rate': 0.0004997493286227014, 'epoch': 0.04}
+{'loss': 1.5638, 'grad_norm': 0.21814237534999847, 'learning_rate': 0.0004997399601582248, 'epoch': 0.04}
+{'loss': 1.5953, 'grad_norm': 0.1987990140914917, 'learning_rate': 0.0004997304199156388, 'epoch': 0.04}
+{'loss': 1.6084, 'grad_norm': 0.15586407482624054, 'learning_rate': 0.0004997207079015059, 'epoch': 0.04}
+{'loss': 1.5747, 'grad_norm': 0.16313928365707397, 'learning_rate': 0.000499710824122506, 'epoch': 0.05}
+{'loss': 1.5926, 'grad_norm': 0.1599837839603424, 'learning_rate': 0.0004997007685854376, 'epoch': 0.05}
+{'loss': 1.589, 'grad_norm': 0.1830587536096573, 'learning_rate': 0.0004996905412972171, 'epoch': 0.05}
+{'loss': 1.5668, 'grad_norm': 0.16486606001853943, 'learning_rate': 0.0004996801422648791, 'epoch': 0.05}
+{'loss': 1.5768, 'grad_norm': 0.18318960070610046, 'learning_rate': 0.0004996695714955765, 'epoch': 0.05}
+{'loss': 1.5725, 'grad_norm': 0.2441309541463852, 'learning_rate': 0.0004996588289965799, 'epoch': 0.05}
+{'loss': 1.5559, 'grad_norm': 0.22324208915233612, 'learning_rate': 0.0004996479147752784, 'epoch': 0.05}
+{'loss': 1.567, 'grad_norm': 0.17578154802322388, 'learning_rate': 0.0004996368288391792, 'epoch': 0.05}
+{'loss': 1.5682, 'grad_norm': 0.20826774835586548, 'learning_rate': 0.0004996255711959074, 'epoch': 0.05}
+{'loss': 1.6067, 'grad_norm': 0.15340161323547363, 'learning_rate': 0.0004996141418532063, 'epoch': 0.05}
+{'loss': 1.5995, 'grad_norm': 0.20936957001686096, 'learning_rate': 0.0004996025408189375, 'epoch': 0.05}
+{'loss': 1.5551, 'grad_norm': 0.1810368448495865, 'learning_rate': 0.0004995907681010803, 'epoch': 0.05}
+{'loss': 1.5776, 'grad_norm': 0.23282389342784882, 'learning_rate': 0.0004995788237077325, 'epoch': 0.05}
+{'loss': 1.5766, 'grad_norm': 0.20225772261619568, 'learning_rate': 0.0004995667076471096, 'epoch': 0.05}
+{'loss': 1.5735, 'grad_norm': 0.17261168360710144, 'learning_rate': 0.0004995544199275456, 'epoch': 0.05}
+{'loss': 1.5721, 'grad_norm': 0.21266774833202362, 'learning_rate': 0.0004995419605574921, 'epoch': 0.05}
+{'loss': 1.5503, 'grad_norm': 0.19137915968894958, 'learning_rate': 0.0004995293295455192, 'epoch': 0.05}
+{'loss': 1.5799, 'grad_norm': 0.17353208363056183, 'learning_rate': 0.0004995165269003147, 'epoch': 0.05}
+{'loss': 1.6108, 'grad_norm': 0.19155947864055634, 'learning_rate': 0.0004995035526306846, 'epoch': 0.05}
+{'loss': 1.5804, 'grad_norm': 0.23502318561077118, 'learning_rate': 0.0004994904067455531, 'epoch': 0.05}
+{'loss': 1.5663, 'grad_norm': 0.1694430708885193, 'learning_rate': 0.0004994770892539622, 'epoch': 0.05}
+{'loss': 1.5507, 'grad_norm': 0.16227969527244568, 'learning_rate': 0.0004994636001650722, 'epoch': 0.05}
+{'loss': 1.5481, 'grad_norm': 0.18789447844028473, 'learning_rate': 0.0004994499394881611, 'epoch': 0.05}
+{'loss': 1.5648, 'grad_norm': 0.1442260891199112, 'learning_rate': 0.0004994361072326251, 'epoch': 0.05}
+{'loss': 1.5678, 'grad_norm': 0.24145083129405975, 'learning_rate': 0.0004994221034079785, 'epoch': 0.05}
+{'loss': 1.5729, 'grad_norm': 0.22874823212623596, 'learning_rate': 0.0004994079280238535, 'epoch': 0.05}
+{'loss': 1.5926, 'grad_norm': 0.2194180190563202, 'learning_rate': 0.0004993935810900003, 'epoch': 0.05}
+{'loss': 1.5839, 'grad_norm': 0.2343364953994751, 'learning_rate': 0.0004993790626162871, 'epoch': 0.05}
+{'loss': 1.5577, 'grad_norm': 0.1773606389760971, 'learning_rate': 0.0004993643726127002, 'epoch': 0.05}
+{'loss': 1.5917, 'grad_norm': 0.2610805332660675, 'learning_rate': 0.0004993495110893438, 'epoch': 0.05}
+{'loss': 1.5622, 'grad_norm': 0.1950768083333969, 'learning_rate': 0.0004993344780564399, 'epoch': 0.05}
+{'loss': 1.5528, 'grad_norm': 0.2632654011249542, 'learning_rate': 0.0004993192735243288, 'epoch': 0.05}
+{'loss': 1.5575, 'grad_norm': 0.2092178463935852, 'learning_rate': 0.0004993038975034684, 'epoch': 0.05}
+{'loss': 1.5733, 'grad_norm': 0.22048303484916687, 'learning_rate': 0.000499288350004435, 'epoch': 0.05}
+{'loss': 1.5583, 'grad_norm': 0.18394359946250916, 'learning_rate': 0.0004992726310379227, 'epoch': 0.05}
+{'loss': 1.5729, 'grad_norm': 0.2461177408695221, 'learning_rate': 0.000499256740614743, 'epoch': 0.05}
+{'loss': 1.5708, 'grad_norm': 0.23602229356765747, 'learning_rate': 0.0004992406787458261, 'epoch': 0.05}
+{'loss': 1.5379, 'grad_norm': 0.2078126221895218, 'learning_rate': 0.0004992244454422198, 'epoch': 0.05}
+{'loss': 1.5774, 'grad_norm': 0.1881895661354065, 'learning_rate': 0.0004992080407150897, 'epoch': 0.05}
+{'loss': 1.6018, 'grad_norm': 0.21828880906105042, 'learning_rate': 0.0004991914645757194, 'epoch': 0.06}
+{'loss': 1.5469, 'grad_norm': 0.18650206923484802, 'learning_rate': 0.0004991747170355106, 'epoch': 0.06}
+{'loss': 1.5689, 'grad_norm': 0.1937360018491745, 'learning_rate': 0.0004991577981059826, 'epoch': 0.06}
+{'loss': 1.5706, 'grad_norm': 0.17669905722141266, 'learning_rate': 0.0004991407077987727, 'epoch': 0.06}
+{'loss': 1.5616, 'grad_norm': 0.16807428002357483, 'learning_rate': 0.0004991234461256363, 'epoch': 0.06}
+{'loss': 1.5549, 'grad_norm': 0.16845478117465973, 'learning_rate': 0.0004991060130984462, 'epoch': 0.06}
+{'loss': 1.5439, 'grad_norm': 0.1836799532175064, 'learning_rate': 0.0004990884087291934, 'epoch': 0.06}
+{'loss': 1.5603, 'grad_norm': 0.17206647992134094, 'learning_rate': 0.0004990706330299866, 'epoch': 0.06}
+{'loss': 1.5407, 'grad_norm': 0.18214507400989532, 'learning_rate': 0.0004990526860130526, 'epoch': 0.06}
+{'loss': 1.5859, 'grad_norm': 0.19078050553798676, 'learning_rate': 0.0004990345676907358, 'epoch': 0.06}
+{'loss': 1.567, 'grad_norm': 0.18501479923725128, 'learning_rate': 0.0004990162780754984, 'epoch': 0.06}
+{'loss': 1.5457, 'grad_norm': 0.19189968705177307, 'learning_rate': 0.0004989978171799207, 'epoch': 0.06}
+{'loss': 1.5367, 'grad_norm': 0.2020018994808197, 'learning_rate': 0.0004989791850167003, 'epoch': 0.06}
+{'loss': 1.5474, 'grad_norm': 0.16567909717559814, 'learning_rate': 0.0004989603815986532, 'epoch': 0.06}
+{'loss': 1.5679, 'grad_norm': 0.19007562100887299, 'learning_rate': 0.0004989414069387128, 'epoch': 0.06}
+{'loss': 1.5386, 'grad_norm': 0.21131166815757751, 'learning_rate': 0.0004989222610499305, 'epoch': 0.06}
+{'loss': 1.5747, 'grad_norm': 0.23768793046474457, 'learning_rate': 0.0004989029439454752, 'epoch': 0.06}
+{'loss': 1.6063, 'grad_norm': 0.21366876363754272, 'learning_rate': 0.0004988834556386339, 'epoch': 0.06}
+{'loss': 1.5745, 'grad_norm': 0.19500885903835297, 'learning_rate': 0.0004988637961428112, 'epoch': 0.06}
+{'loss': 1.5455, 'grad_norm': 0.23441344499588013, 'learning_rate': 0.0004988439654715292, 'epoch': 0.06}
+{'loss': 1.5373, 'grad_norm': 0.1911337524652481, 'learning_rate': 0.0004988239636384284, 'epoch': 0.06}
+{'loss': 1.5542, 'grad_norm': 0.2601403594017029, 'learning_rate': 0.0004988037906572662, 'epoch': 0.06}
+{'loss': 1.5661, 'grad_norm': 0.2337917536497116, 'learning_rate': 0.0004987834465419185, 'epoch': 0.06}
+{'loss': 1.5474, 'grad_norm': 0.21139085292816162, 'learning_rate': 0.0004987629313063784, 'epoch': 0.06}
+{'loss': 1.5364, 'grad_norm': 0.27401110529899597, 'learning_rate': 0.0004987422449647567, 'epoch': 0.06}
+{'loss': 1.5449, 'grad_norm': 0.22660435736179352, 'learning_rate': 0.0004987213875312823, 'epoch': 0.06}
+{'loss': 1.556, 'grad_norm': 0.2290017157793045, 'learning_rate': 0.0004987003590203014, 'epoch': 0.06}
+{'loss': 1.5597, 'grad_norm': 0.19153103232383728, 'learning_rate': 0.0004986791594462779, 'epoch': 0.06}
+{'loss': 1.5606, 'grad_norm': 0.18715128302574158, 'learning_rate': 0.0004986577888237936, 'epoch': 0.06}
+{'loss': 1.5587, 'grad_norm': 0.1981886476278305, 'learning_rate': 0.0004986362471675478, 'epoch': 0.06}
+{'loss': 1.5544, 'grad_norm': 0.1913052499294281, 'learning_rate': 0.0004986145344923575, 'epoch': 0.06}
+{'loss': 1.5383, 'grad_norm': 0.18884436786174774, 'learning_rate': 0.0004985926508131571, 'epoch': 0.06}
+{'loss': 1.5467, 'grad_norm': 0.2022392749786377, 'learning_rate': 0.000498570596144999, 'epoch': 0.06}
+{'loss': 1.5773, 'grad_norm': 0.2475793957710266, 'learning_rate': 0.000498548370503053, 'epoch': 0.06}
+{'loss': 1.5416, 'grad_norm': 0.22297334671020508, 'learning_rate': 0.0004985259739026062, 'epoch': 0.06}
+{'loss': 1.5711, 'grad_norm': 0.29347532987594604, 'learning_rate': 0.000498503406359064, 'epoch': 0.06}
+{'loss': 1.5537, 'grad_norm': 0.25372597575187683, 'learning_rate': 0.0004984806678879488, 'epoch': 0.06}
+{'loss': 1.5454, 'grad_norm': 0.19795699417591095, 'learning_rate': 0.0004984577585049008, 'epoch': 0.06}
+{'loss': 1.5642, 'grad_norm': 0.2864672541618347, 'learning_rate': 0.0004984346782256776, 'epoch': 0.06}
+{'loss': 1.5625, 'grad_norm': 0.2523275315761566, 'learning_rate': 0.0004984114270661547, 'epoch': 0.07}
+{'loss': 1.5653, 'grad_norm': 0.21315298974514008, 'learning_rate': 0.0004983880050423247, 'epoch': 0.07}
+{'loss': 1.5559, 'grad_norm': 0.21389634907245636, 'learning_rate': 0.0004983644121702981, 'epoch': 0.07}
+{'loss': 1.5432, 'grad_norm': 0.2264249473810196, 'learning_rate': 0.0004983406484663025, 'epoch': 0.07}
+{'loss': 1.5577, 'grad_norm': 0.16571441292762756, 'learning_rate': 0.0004983167139466834, 'epoch': 0.07}
+{'loss': 1.5456, 'grad_norm': 0.2075827419757843, 'learning_rate': 0.0004982926086279036, 'epoch': 0.07}
+{'loss': 1.5578, 'grad_norm': 0.24613229930400848, 'learning_rate': 0.0004982683325265434, 'epoch': 0.07}
+{'loss': 1.5448, 'grad_norm': 0.19943077862262726, 'learning_rate': 0.0004982438856593004, 'epoch': 0.07}
+{'loss': 1.5664, 'grad_norm': 0.20166538655757904, 'learning_rate': 0.0004982192680429902, 'epoch': 0.07}
+{'loss': 1.5547, 'grad_norm': 0.25879040360450745, 'learning_rate': 0.0004981944796945452, 'epoch': 0.07}
+{'loss': 1.5426, 'grad_norm': 0.17341382801532745, 'learning_rate': 0.0004981695206310156, 'epoch': 0.07}
+{'loss': 1.5725, 'grad_norm': 0.21476708352565765, 'learning_rate': 0.0004981443908695691, 'epoch': 0.07}
+{'loss': 1.5508, 'grad_norm': 0.2334507703781128, 'learning_rate': 0.0004981190904274904, 'epoch': 0.07}
+{'loss': 1.5391, 'grad_norm': 0.14873149991035461, 'learning_rate': 0.000498093619322182, 'epoch': 0.07}
+{'loss': 1.5559, 'grad_norm': 0.22833818197250366, 'learning_rate': 0.0004980679775711635, 'epoch': 0.07}
+{'loss': 1.5399, 'grad_norm': 0.21903008222579956, 'learning_rate': 0.0004980421651920721, 'epoch': 0.07}
+{'loss': 1.5303, 'grad_norm': 0.19424347579479218, 'learning_rate': 0.0004980161822026624, 'epoch': 0.07}
+{'loss': 1.5644, 'grad_norm': 0.2078080028295517, 'learning_rate': 0.000497990028620806, 'epoch': 0.07}
+{'loss': 1.5603, 'grad_norm': 0.19948258996009827, 'learning_rate': 0.0004979637044644921, 'epoch': 0.07}
+{'loss': 1.5469, 'grad_norm': 0.20073002576828003, 'learning_rate': 0.0004979372097518274, 'epoch': 0.07}
+{'loss': 1.5475, 'grad_norm': 0.19730472564697266, 'learning_rate': 0.0004979105445010355, 'epoch': 0.07}
+{'loss': 1.5592, 'grad_norm': 0.20933394134044647, 'learning_rate': 0.0004978837087304575, 'epoch': 0.07}
+{'loss': 1.5494, 'grad_norm': 0.1918528825044632, 'learning_rate': 0.0004978567024585519, 'epoch': 0.07}
+{'loss': 1.5434, 'grad_norm': 0.18727795779705048, 'learning_rate': 0.0004978295257038942, 'epoch': 0.07}
+{'loss': 1.538, 'grad_norm': 0.17428147792816162, 'learning_rate': 0.0004978021784851776, 'epoch': 0.07}
+{'loss': 1.5605, 'grad_norm': 0.19920380413532257, 'learning_rate': 0.0004977746608212122, 'epoch': 0.07}
+{'loss': 1.5227, 'grad_norm': 0.19240540266036987, 'learning_rate': 0.0004977469727309251, 'epoch': 0.07}
+{'loss': 1.5489, 'grad_norm': 0.20748983323574066, 'learning_rate': 0.0004977191142333614, 'epoch': 0.07}
+{'loss': 1.5267, 'grad_norm': 0.17888988554477692, 'learning_rate': 0.0004976910853476826, 'epoch': 0.07}
+{'loss': 1.5522, 'grad_norm': 0.19469255208969116, 'learning_rate': 0.0004976628860931679, 'epoch': 0.07}
+{'loss': 1.5496, 'grad_norm': 0.19383376836776733, 'learning_rate': 0.0004976345164892134, 'epoch': 0.07}
+{'loss': 1.5479, 'grad_norm': 0.23440302908420563, 'learning_rate': 0.0004976059765553328, 'epoch': 0.07}
+{'loss': 1.5227, 'grad_norm': 0.2130802571773529, 'learning_rate': 0.0004975772663111564, 'epoch': 0.07}
+{'loss': 1.5622, 'grad_norm': 0.2079642117023468, 'learning_rate': 0.0004975483857764321, 'epoch': 0.07}
+{'loss': 1.5439, 'grad_norm': 0.23494069278240204, 'learning_rate': 0.0004975193349710245, 'epoch': 0.07}
+{'loss': 1.5377, 'grad_norm': 0.18986931443214417, 'learning_rate': 0.0004974901139149158, 'epoch': 0.07}
+{'loss': 1.5312, 'grad_norm': 0.21072974801063538, 'learning_rate': 0.0004974607226282047, 'epoch': 0.07}
+{'loss': 1.5358, 'grad_norm': 0.19826211035251617, 'learning_rate': 0.0004974311611311078, 'epoch': 0.07}
+{'loss': 1.5325, 'grad_norm': 0.20951351523399353, 'learning_rate': 0.000497401429443958, 'epoch': 0.07}
+{'loss': 1.5214, 'grad_norm': 0.22388628125190735, 'learning_rate': 0.0004973715275872058, 'epoch': 0.08}
+{'loss': 1.5384, 'grad_norm': 0.20066390931606293, 'learning_rate': 0.0004973414555814184, 'epoch': 0.08}
+{'loss': 1.537, 'grad_norm': 0.2095067948102951, 'learning_rate': 0.0004973112134472801, 'epoch': 0.08}
+{'loss': 1.5516, 'grad_norm': 0.22000758349895477, 'learning_rate': 0.0004972808012055923, 'epoch': 0.08}
+{'loss': 1.5429, 'grad_norm': 0.1804482340812683, 'learning_rate': 0.0004972502188772737, 'epoch': 0.08}
+{'loss': 1.5503, 'grad_norm': 0.2222108691930771, 'learning_rate': 0.0004972194664833593, 'epoch': 0.08}
+{'loss': 1.5638, 'grad_norm': 0.2000962197780609, 'learning_rate': 0.0004971885440450016, 'epoch': 0.08}
+{'loss': 1.5272, 'grad_norm': 0.17118176817893982, 'learning_rate': 0.00049715745158347, 'epoch': 0.08}
+{'loss': 1.5341, 'grad_norm': 0.1801779568195343, 'learning_rate': 0.0004971261891201505, 'epoch': 0.08}
+{'loss': 1.5387, 'grad_norm': 0.1746319979429245, 'learning_rate': 0.0004970947566765465, 'epoch': 0.08}
+{'loss': 1.5263, 'grad_norm': 0.16874094307422638, 'learning_rate': 0.0004970631542742781, 'epoch': 0.08}
+{'loss': 1.5507, 'grad_norm': 0.20701301097869873, 'learning_rate': 0.0004970313819350822, 'epoch': 0.08}
+{'loss': 1.54, 'grad_norm': 0.17588092386722565, 'learning_rate': 0.000496999439680813, 'epoch': 0.08}
+{'loss': 1.5308, 'grad_norm': 0.19977787137031555, 'learning_rate': 0.0004969673275334409, 'epoch': 0.08}
+{'loss': 1.5468, 'grad_norm': 0.21410077810287476, 'learning_rate': 0.0004969350455150536, 'epoch': 0.08}
+{'loss': 1.5175, 'grad_norm': 0.1930677890777588, 'learning_rate': 0.0004969025936478558, 'epoch': 0.08}
+{'loss': 1.5618, 'grad_norm': 0.1974506825208664, 'learning_rate': 0.0004968699719541687, 'epoch': 0.08}
+{'loss': 1.5199, 'grad_norm': 0.18308648467063904, 'learning_rate': 0.0004968371804564304, 'epoch': 0.08}
+{'loss': 1.5117, 'grad_norm': 0.19739779829978943, 'learning_rate': 0.0004968042191771956, 'epoch': 0.08}
+{'loss': 1.5271, 'grad_norm': 0.18269413709640503, 'learning_rate': 0.0004967710881391363, 'epoch': 0.08}
+{'loss': 1.5399, 'grad_norm': 0.17306706309318542, 'learning_rate': 0.0004967377873650407, 'epoch': 0.08}
+{'loss': 1.5161, 'grad_norm': 0.17625945806503296, 'learning_rate': 0.0004967043168778143, 'epoch': 0.08}
+{'loss': 1.5141, 'grad_norm': 0.17942877113819122, 'learning_rate': 0.0004966706767004787, 'epoch': 0.08}
+{'loss': 1.5418, 'grad_norm': 0.19757649302482605, 'learning_rate': 0.0004966368668561727, 'epoch': 0.08}
+{'loss': 1.5541, 'grad_norm': 0.1899586319923401, 'learning_rate': 0.0004966028873681517, 'epoch': 0.08}
+{'loss': 1.5418, 'grad_norm': 0.2271466851234436, 'learning_rate': 0.0004965687382597878, 'epoch': 0.08}
+{'loss': 1.5763, 'grad_norm': 0.16320399940013885, 'learning_rate': 0.0004965344195545694, 'epoch': 0.08}
+{'loss': 1.531, 'grad_norm': 0.20426717400550842, 'learning_rate': 0.0004964999312761023, 'epoch': 0.08}
+{'loss': 1.5314, 'grad_norm': 0.16260926425457, 'learning_rate': 0.0004964652734481082, 'epoch': 0.08}
+{'loss': 1.563, 'grad_norm': 0.20000776648521423, 'learning_rate': 0.0004964304460944257, 'epoch': 0.08}
+{'loss': 1.5427, 'grad_norm': 0.17956365644931793, 'learning_rate': 0.0004963954492390101, 'epoch': 0.08}
+{'loss': 1.5514, 'grad_norm': 0.18561705946922302, 'learning_rate': 0.0004963602829059334, 'epoch': 0.08}
+{'loss': 1.5312, 'grad_norm': 0.16499795019626617, 'learning_rate': 0.0004963249471193837, 'epoch': 0.08}
+{'loss': 1.5285, 'grad_norm': 0.21353581547737122, 'learning_rate': 0.0004962894419036661, 'epoch': 0.08}
+{'loss': 1.5214, 'grad_norm': 0.18652969598770142, 'learning_rate': 0.0004962537672832019, 'epoch': 0.08}
+{'loss': 1.534, 'grad_norm': 0.24150127172470093, 'learning_rate': 0.0004962179232825294, 'epoch': 0.08}
+{'loss': 1.5361, 'grad_norm': 0.15117350220680237, 'learning_rate': 0.0004961819099263029, 'epoch': 0.08}
+{'loss': 1.5449, 'grad_norm': 0.21486185491085052, 'learning_rate': 0.0004961457272392933, 'epoch': 0.08}
+{'loss': 1.5516, 'grad_norm': 0.1633819341659546, 'learning_rate': 0.0004961093752463882, 'epoch': 0.08}
+{'loss': 1.5347, 'grad_norm': 0.199411541223526, 'learning_rate': 0.0004960728539725916, 'epoch': 0.08}
+{'loss': 1.5225, 'grad_norm': 0.20188286900520325, 'learning_rate': 0.0004960361634430238, 'epoch': 0.09}
+{'loss': 1.5302, 'grad_norm': 0.24009542167186737, 'learning_rate': 0.0004959993036829214, 'epoch': 0.09}
+{'loss': 1.5312, 'grad_norm': 0.230514258146286, 'learning_rate': 0.0004959622747176377, 'epoch': 0.09}
+{'loss': 1.5423, 'grad_norm': 0.2016735076904297, 'learning_rate': 0.0004959250765726422, 'epoch': 0.09}
+{'loss': 1.5426, 'grad_norm': 0.186376690864563, 'learning_rate': 0.000495887709273521, 'epoch': 0.09}
+{'loss': 1.5323, 'grad_norm': 0.24602574110031128, 'learning_rate': 0.0004958501728459762, 'epoch': 0.09}
+{'loss': 1.5223, 'grad_norm': 0.19706453382968903, 'learning_rate': 0.0004958124673158264, 'epoch': 0.09}
+{'loss': 1.5401, 'grad_norm': 0.2444249540567398, 'learning_rate': 0.0004957745927090066, 'epoch': 0.09}
+{'loss': 1.5304, 'grad_norm': 0.21130937337875366, 'learning_rate': 0.0004957365490515679, 'epoch': 0.09}
+{'loss': 1.5028, 'grad_norm': 0.21735574305057526, 'learning_rate': 0.0004956983363696779, 'epoch': 0.09}
+{'loss': 1.5313, 'grad_norm': 0.18472714722156525, 'learning_rate': 0.0004956599546896203, 'epoch': 0.09}
+{'loss': 1.5245, 'grad_norm': 0.2090870440006256, 'learning_rate': 0.000495621404037795, 'epoch': 0.09}
+{'loss': 1.5003, 'grad_norm': 0.181825652718544, 'learning_rate': 0.0004955826844407185, 'epoch': 0.09}
+{'loss': 1.5181, 'grad_norm': 0.24829739332199097, 'learning_rate': 0.0004955437959250228, 'epoch': 0.09}
+{'loss': 1.4946, 'grad_norm': 0.19995583593845367, 'learning_rate': 0.0004955047385174568, 'epoch': 0.09}
+{'loss': 1.5201, 'grad_norm': 0.1928374469280243, 'learning_rate': 0.0004954655122448852, 'epoch': 0.09}
+{'loss': 1.5305, 'grad_norm': 0.20398351550102234, 'learning_rate': 0.000495426117134289, 'epoch': 0.09}
+{'loss': 1.5401, 'grad_norm': 0.22409579157829285, 'learning_rate': 0.0004953865532127652, 'epoch': 0.09}
+{'loss': 1.5331, 'grad_norm': 0.20455633103847504, 'learning_rate': 0.0004953468205075269, 'epoch': 0.09}
+{'loss': 1.5295, 'grad_norm': 0.23959816992282867, 'learning_rate': 0.0004953069190459033, 'epoch': 0.09}
+{'loss': 1.5285, 'grad_norm': 0.2152101993560791, 'learning_rate': 0.00049526684885534, 'epoch': 0.09}
+{'loss': 1.5246, 'grad_norm': 0.21716146171092987, 'learning_rate': 0.0004952266099633982, 'epoch': 0.09}
+{'loss': 1.5208, 'grad_norm': 0.2468874305486679, 'learning_rate': 0.0004951862023977555, 'epoch': 0.09}
+{'loss': 1.5601, 'grad_norm': 0.19610503315925598, 'learning_rate': 0.0004951456261862051, 'epoch': 0.09}
+{'loss': 1.5279, 'grad_norm': 0.1990281641483307, 'learning_rate': 0.0004951048813566565, 'epoch': 0.09}
+{'loss': 1.5109, 'grad_norm': 0.16860131919384003, 'learning_rate': 0.0004950639679371353, 'epoch': 0.09}
+{'loss': 1.5283, 'grad_norm': 0.21228913962841034, 'learning_rate': 0.0004950228859557828, 'epoch': 0.09}
+{'loss': 1.5192, 'grad_norm': 0.21420152485370636, 'learning_rate': 0.0004949816354408564, 'epoch': 0.09}
+{'loss': 1.5361, 'grad_norm': 0.18723806738853455, 'learning_rate': 0.0004949402164207291, 'epoch': 0.09}
+{'loss': 1.5148, 'grad_norm': 0.2053707242012024, 'learning_rate': 0.0004948986289238904, 'epoch': 0.09}
+{'loss': 1.5163, 'grad_norm': 0.13901539146900177, 'learning_rate': 0.0004948568729789452, 'epoch': 0.09}
+{'loss': 1.5288, 'grad_norm': 0.17353133857250214, 'learning_rate': 0.0004948149486146143, 'epoch': 0.09}
+{'loss': 1.5152, 'grad_norm': 0.13274706900119781, 'learning_rate': 0.0004947728558597346, 'epoch': 0.09}
+{'loss': 1.5052, 'grad_norm': 0.16000467538833618, 'learning_rate': 0.0004947305947432585, 'epoch': 0.09}
+{'loss': 1.5099, 'grad_norm': 0.138077974319458, 'learning_rate': 0.0004946881652942546, 'epoch': 0.09}
+{'loss': 1.5406, 'grad_norm': 0.16163209080696106, 'learning_rate': 0.000494645567541907, 'epoch': 0.09}
+{'loss': 1.5192, 'grad_norm': 0.15717069804668427, 'learning_rate': 0.0004946028015155153, 'epoch': 0.09}
+{'loss': 1.5172, 'grad_norm': 0.17027215659618378, 'learning_rate': 0.0004945598672444956, 'epoch': 0.09}
+{'loss': 1.5077, 'grad_norm': 0.15453974902629852, 'learning_rate': 0.0004945167647583791, 'epoch': 0.09}
+{'loss': 1.5172, 'grad_norm': 0.18326304852962494, 'learning_rate': 0.000494473494086813, 'epoch': 0.1}
+{'loss': 1.5229, 'grad_norm': 0.21440379321575165, 'learning_rate': 0.0004944300552595598, 'epoch': 0.1}
+{'loss': 1.5181, 'grad_norm': 0.19042864441871643, 'learning_rate': 0.0004943864483064981, 'epoch': 0.1}
+{'loss': 1.5329, 'grad_norm': 0.19731715321540833, 'learning_rate': 0.0004943426732576221, 'epoch': 0.1}
+{'loss': 1.5236, 'grad_norm': 0.2033190280199051, 'learning_rate': 0.0004942987301430415, 'epoch': 0.1}
+{'loss': 1.5218, 'grad_norm': 0.1629592478275299, 'learning_rate': 0.0004942546189929814, 'epoch': 0.1}
+{'loss': 1.5083, 'grad_norm': 0.19245056807994843, 'learning_rate': 0.0004942103398377827, 'epoch': 0.1}
+{'loss': 1.5245, 'grad_norm': 0.1773318350315094, 'learning_rate': 0.0004941658927079019, 'epoch': 0.1}
+{'loss': 1.5275, 'grad_norm': 0.19859613478183746, 'learning_rate': 0.0004941212776339111, 'epoch': 0.1}
+{'loss': 1.5283, 'grad_norm': 0.17056874930858612, 'learning_rate': 0.0004940764946464976, 'epoch': 0.1}
+{'loss': 1.5251, 'grad_norm': 0.15925869345664978, 'learning_rate': 0.0004940315437764645, 'epoch': 0.1}
+{'loss': 1.5305, 'grad_norm': 0.17602062225341797, 'learning_rate': 0.0004939864250547302, 'epoch': 0.1}
+{'loss': 1.5188, 'grad_norm': 0.17106060683727264, 'learning_rate': 0.0004939411385123288, 'epoch': 0.1}
+{'loss': 1.5207, 'grad_norm': 0.17406229674816132, 'learning_rate': 0.0004938956841804093, 'epoch': 0.1}
+{'loss': 1.5202, 'grad_norm': 0.18033988773822784, 'learning_rate': 0.0004938500620902367, 'epoch': 0.1}
+{'loss': 1.5166, 'grad_norm': 0.14414916932582855, 'learning_rate': 0.0004938042722731911, 'epoch': 0.1}
+{'loss': 1.5089, 'grad_norm': 0.1731216013431549, 'learning_rate': 0.0004937583147607681, 'epoch': 0.1}
+{'loss': 1.5249, 'grad_norm': 0.12237992882728577, 'learning_rate': 0.0004937121895845783, 'epoch': 0.1}
+{'loss': 1.5313, 'grad_norm': 0.19609498977661133, 'learning_rate': 0.0004936658967763481, 'epoch': 0.1}
+{'loss': 1.53, 'grad_norm': 0.18902350962162018, 'learning_rate': 0.000493619436367919, 'epoch': 0.1}
+{'loss': 1.5472, 'grad_norm': 0.1520344465970993, 'learning_rate': 0.0004935728083912477, 'epoch': 0.1}
+{'loss': 1.514, 'grad_norm': 0.18014377355575562, 'learning_rate': 0.0004935260128784061, 'epoch': 0.1}
+{'loss': 1.4998, 'grad_norm': 0.14720669388771057, 'learning_rate': 0.0004934790498615817, 'epoch': 0.1}
+{'loss': 1.5227, 'grad_norm': 0.20040632784366608, 'learning_rate': 0.0004934319193730767, 'epoch': 0.1}
+{'loss': 1.5004, 'grad_norm': 0.1738489270210266, 'learning_rate': 0.0004933846214453091, 'epoch': 0.1}
+{'loss': 1.5318, 'grad_norm': 0.17593106627464294, 'learning_rate': 0.0004933371561108114, 'epoch': 0.1}
+{'loss': 1.5034, 'grad_norm': 0.17274783551692963, 'learning_rate': 0.0004932895234022319, 'epoch': 0.1}
+{'loss': 1.5102, 'grad_norm': 0.16215519607067108, 'learning_rate': 0.0004932417233523334, 'epoch': 0.1}
+{'loss': 1.5337, 'grad_norm': 0.16278275847434998, 'learning_rate': 0.0004931937559939942, 'epoch': 0.1}
+{'loss': 1.5188, 'grad_norm': 0.16387470066547394, 'learning_rate': 0.0004931456213602078, 'epoch': 0.1}
+{'loss': 1.5134, 'grad_norm': 0.1980830579996109, 'learning_rate': 0.0004930973194840823, 'epoch': 0.1}
+{'loss': 1.488, 'grad_norm': 0.13321621716022491, 'learning_rate': 0.000493048850398841, 'epoch': 0.1}
+{'loss': 1.5069, 'grad_norm': 0.1486835926771164, 'learning_rate': 0.0004930002141378227, 'epoch': 0.1}
+{'loss': 1.5172, 'grad_norm': 0.1669066846370697, 'learning_rate': 0.0004929514107344803, 'epoch': 0.1}
+{'loss': 1.5205, 'grad_norm': 0.1503319889307022, 'learning_rate': 0.0004929024402223826, 'epoch': 0.1}
+{'loss': 1.529, 'grad_norm': 0.15975819528102875, 'learning_rate': 0.0004928533026352124, 'epoch': 0.1}
+{'loss': 1.5315, 'grad_norm': 0.19359368085861206, 'learning_rate': 0.0004928039980067681, 'epoch': 0.1}
+{'loss': 1.5371, 'grad_norm': 0.1775350421667099, 'learning_rate': 0.0004927545263709631, 'epoch': 0.1}
+{'loss': 1.5136, 'grad_norm': 0.19824360311031342, 'learning_rate': 0.0004927048877618249, 'epoch': 0.1}
+{'loss': 1.5214, 'grad_norm': 0.16730764508247375, 'learning_rate': 0.0004926550822134967, 'epoch': 0.11}
+{'loss': 1.5278, 'grad_norm': 0.17900213599205017, 'learning_rate': 0.0004926051097602359, 'epoch': 0.11}
+{'loss': 1.5176, 'grad_norm': 0.17719405889511108, 'learning_rate': 0.0004925549704364149, 'epoch': 0.11}
+{'loss': 1.516, 'grad_norm': 0.17642930150032043, 'learning_rate': 0.0004925046642765212, 'epoch': 0.11}
+{'loss': 1.5171, 'grad_norm': 0.2233661711215973, 'learning_rate': 0.0004924541913151566, 'epoch': 0.11}
+{'loss': 1.5204, 'grad_norm': 0.151736319065094, 'learning_rate': 0.0004924035515870379, 'epoch': 0.11}
+{'loss': 1.5238, 'grad_norm': 0.19967021048069, 'learning_rate': 0.0004923527451269964, 'epoch': 0.11}
+{'loss': 1.4906, 'grad_norm': 0.18305835127830505, 'learning_rate': 0.0004923017719699782, 'epoch': 0.11}
+{'loss': 1.5167, 'grad_norm': 0.18110035359859467, 'learning_rate': 0.0004922506321510441, 'epoch': 0.11}
+{'loss': 1.5239, 'grad_norm': 0.2094346284866333, 'learning_rate': 0.0004921993257053696, 'epoch': 0.11}
+{'loss': 1.513, 'grad_norm': 0.15362979471683502, 'learning_rate': 0.0004921478526682446, 'epoch': 0.11}
+{'loss': 1.5205, 'grad_norm': 0.1942690759897232, 'learning_rate': 0.0004920962130750737, 'epoch': 0.11}
+{'loss': 1.5327, 'grad_norm': 0.18093323707580566, 'learning_rate': 0.000492044406961376, 'epoch': 0.11}
+{'loss': 1.502, 'grad_norm': 0.13447782397270203, 'learning_rate': 0.0004919924343627853, 'epoch': 0.11}
+{'loss': 1.5175, 'grad_norm': 0.16286785900592804, 'learning_rate': 0.0004919402953150498, 'epoch': 0.11}
+{'loss': 1.5194, 'grad_norm': 0.14570137858390808, 'learning_rate': 0.0004918879898540321, 'epoch': 0.11}
+{'loss': 1.5117, 'grad_norm': 0.1812310367822647, 'learning_rate': 0.0004918355180157094, 'epoch': 0.11}
+{'loss': 1.5081, 'grad_norm': 0.141878142952919, 'learning_rate': 0.0004917828798361732, 'epoch': 0.11}
+{'loss': 1.5195, 'grad_norm': 0.1861696094274521, 'learning_rate': 0.0004917300753516296, 'epoch': 0.11}
+{'loss': 1.5115, 'grad_norm': 0.15702120959758759, 'learning_rate': 0.0004916771045983991, 'epoch': 0.11}
+{'loss': 1.5064, 'grad_norm': 0.15154603123664856, 'learning_rate': 0.0004916239676129163, 'epoch': 0.11}
+{'loss': 1.5138, 'grad_norm': 0.16837137937545776, 'learning_rate': 0.0004915706644317303, 'epoch': 0.11}
+{'loss': 1.5254, 'grad_norm': 0.16586706042289734, 'learning_rate': 0.0004915171950915047, 'epoch': 0.11}
+{'loss': 1.514, 'grad_norm': 0.1705438494682312, 'learning_rate': 0.000491463559629017, 'epoch': 0.11}
+{'loss': 1.5122, 'grad_norm': 0.16867437958717346, 'learning_rate': 0.0004914097580811592, 'epoch': 0.11}
+{'loss': 1.5143, 'grad_norm': 0.15866968035697937, 'learning_rate': 0.0004913557904849377, 'epoch': 0.11}
+{'loss': 1.5062, 'grad_norm': 0.17140711843967438, 'learning_rate': 0.0004913016568774725, 'epoch': 0.11}
+{'loss': 1.5173, 'grad_norm': 0.18669769167900085, 'learning_rate': 0.0004912473572959987, 'epoch': 0.11}
+{'loss': 1.5118, 'grad_norm': 0.16078412532806396, 'learning_rate': 0.0004911928917778648, 'epoch': 0.11}
+{'loss': 1.5115, 'grad_norm': 0.18455550074577332, 'learning_rate': 0.0004911382603605337, 'epoch': 0.11}
+{'loss': 1.5143, 'grad_norm': 0.17418895661830902, 'learning_rate': 0.0004910834630815823, 'epoch': 0.11}
+{'loss': 1.5332, 'grad_norm': 0.192922443151474, 'learning_rate': 0.000491028499978702, 'epoch': 0.11}
+{'loss': 1.5003, 'grad_norm': 0.13891969621181488, 'learning_rate': 0.0004909733710896978, 'epoch': 0.11}
+{'loss': 1.4978, 'grad_norm': 0.16120710968971252, 'learning_rate': 0.0004909180764524889, 'epoch': 0.11}
+{'loss': 1.52, 'grad_norm': 0.16187486052513123, 'learning_rate': 0.0004908626161051084, 'epoch': 0.11}
+{'loss': 1.5145, 'grad_norm': 0.16114340722560883, 'learning_rate': 0.0004908069900857036, 'epoch': 0.11}
+{'loss': 1.5303, 'grad_norm': 0.18436658382415771, 'learning_rate': 0.0004907511984325356, 'epoch': 0.11}
+{'loss': 1.518, 'grad_norm': 0.17415155470371246, 'learning_rate': 0.0004906952411839794, 'epoch': 0.11}
+{'loss': 1.5064, 'grad_norm': 0.17551757395267487, 'learning_rate': 0.0004906391183785241, 'epoch': 0.11}
+{'loss': 1.5023, 'grad_norm': 0.16700153052806854, 'learning_rate': 0.0004905828300547722, 'epoch': 0.12}
+{'loss': 1.5032, 'grad_norm': 0.186055988073349, 'learning_rate': 0.0004905263762514408, 'epoch': 0.12}
+{'loss': 1.5099, 'grad_norm': 0.17912311851978302, 'learning_rate': 0.0004904697570073602, 'epoch': 0.12}
+{'loss': 1.5257, 'grad_norm': 0.21748878061771393, 'learning_rate': 0.0004904129723614746, 'epoch': 0.12}
+{'loss': 1.5397, 'grad_norm': 0.19363197684288025, 'learning_rate': 0.0004903560223528422, 'epoch': 0.12}
+{'loss': 1.5361, 'grad_norm': 0.2137477993965149, 'learning_rate': 0.0004902989070206347, 'epoch': 0.12}
+{'loss': 1.5242, 'grad_norm': 0.18507596850395203, 'learning_rate': 0.0004902416264041377, 'epoch': 0.12}
+{'loss': 1.5167, 'grad_norm': 0.1947568953037262, 'learning_rate': 0.0004901841805427505, 'epoch': 0.12}
+{'loss': 1.508, 'grad_norm': 0.19229932129383087, 'learning_rate': 0.0004901265694759858, 'epoch': 0.12}
+{'loss': 1.5139, 'grad_norm': 0.19213604927062988, 'learning_rate': 0.0004900687932434701, 'epoch': 0.12}
+{'loss': 1.5336, 'grad_norm': 0.16913147270679474, 'learning_rate': 0.0004900108518849437, 'epoch': 0.12}
+{'loss': 1.5352, 'grad_norm': 0.2114107310771942, 'learning_rate': 0.00048995274544026, 'epoch': 0.12}
+{'loss': 1.5087, 'grad_norm': 0.16042448580265045, 'learning_rate': 0.0004898944739493864, 'epoch': 0.12}
+{'loss': 1.4997, 'grad_norm': 0.19772791862487793, 'learning_rate': 0.0004898360374524036, 'epoch': 0.12}
+{'loss': 1.5156, 'grad_norm': 0.16465114057064056, 'learning_rate': 0.0004897774359895058, 'epoch': 0.12}
+{'loss': 1.4854, 'grad_norm': 0.18177656829357147, 'learning_rate': 0.0004897186696010009, 'epoch': 0.12}
+{'loss': 1.5153, 'grad_norm': 0.17688998579978943, 'learning_rate': 0.00048965973832731, 'epoch': 0.12}
+{'loss': 1.4747, 'grad_norm': 0.14095436036586761, 'learning_rate': 0.0004896006422089676, 'epoch': 0.12}
+{'loss': 1.5441, 'grad_norm': 0.170316681265831, 'learning_rate': 0.0004895413812866218, 'epoch': 0.12}
+{'loss': 1.5265, 'grad_norm': 0.13917842507362366, 'learning_rate': 0.0004894819556010337, 'epoch': 0.12}
+{'loss': 1.5158, 'grad_norm': 0.15378673374652863, 'learning_rate': 0.000489422365193078, 'epoch': 0.12}
+{'loss': 1.5507, 'grad_norm': 0.16310574114322662, 'learning_rate': 0.0004893626101037427, 'epoch': 0.12}
+{'loss': 1.51, 'grad_norm': 0.13682638108730316, 'learning_rate': 0.0004893026903741291, 'epoch': 0.12}
+{'loss': 1.503, 'grad_norm': 0.16009777784347534, 'learning_rate': 0.0004892426060454515, 'epoch': 0.12}
+{'loss': 1.5202, 'grad_norm': 0.1465180367231369, 'learning_rate': 0.0004891823571590377, 'epoch': 0.12}
+{'loss': 1.5152, 'grad_norm': 0.17045947909355164, 'learning_rate': 0.0004891219437563285, 'epoch': 0.12}
+{'loss': 1.5311, 'grad_norm': 0.14280302822589874, 'learning_rate': 0.0004890613658788779, 'epoch': 0.12}
+{'loss': 1.5114, 'grad_norm': 0.16257290542125702, 'learning_rate': 0.0004890006235683532, 'epoch': 0.12}
+{'loss': 1.5044, 'grad_norm': 0.1542375236749649, 'learning_rate': 0.0004889397168665345, 'epoch': 0.12}
+{'loss': 1.5341, 'grad_norm': 0.16892768442630768, 'learning_rate': 0.0004888786458153151, 'epoch': 0.12}
+{'loss': 1.5163, 'grad_norm': 0.15992209315299988, 'learning_rate': 0.0004888174104567015, 'epoch': 0.12}
+{'loss': 1.5287, 'grad_norm': 0.16315443813800812, 'learning_rate': 0.000488756010832813, 'epoch': 0.12}
+{'loss': 1.5025, 'grad_norm': 0.1603100448846817, 'learning_rate': 0.000488694446985882, 'epoch': 0.12}
+{'loss': 1.5191, 'grad_norm': 0.15303930640220642, 'learning_rate': 0.0004886327189582538, 'epoch': 0.12}
+{'loss': 1.5028, 'grad_norm': 0.17472518980503082, 'learning_rate': 0.0004885708267923869, 'epoch': 0.12}
+{'loss': 1.5082, 'grad_norm': 0.1624281108379364, 'learning_rate': 0.0004885087705308521, 'epoch': 0.12}
+{'loss': 1.5001, 'grad_norm': 0.15255102515220642, 'learning_rate': 0.0004884465502163337, 'epoch': 0.12}
+{'loss': 1.5494, 'grad_norm': 0.17721597850322723, 'learning_rate': 0.0004883841658916284, 'epoch': 0.12}
+{'loss': 1.5142, 'grad_norm': 0.1764838546514511, 'learning_rate': 0.0004883216175996458, 'epoch': 0.12}
+{'loss': 1.5234, 'grad_norm': 0.14578448235988617, 'learning_rate': 0.0004882589053834086, 'epoch': 0.13}
+{'loss': 1.499, 'grad_norm': 0.15734955668449402, 'learning_rate': 0.0004881960292860518, 'epoch': 0.13}
+{'loss': 1.4888, 'grad_norm': 0.15513552725315094, 'learning_rate': 0.0004881329893508235, 'epoch': 0.13}
+{'loss': 1.5103, 'grad_norm': 0.1633269190788269, 'learning_rate': 0.0004880697856210843, 'epoch': 0.13}
+{'loss': 1.501, 'grad_norm': 0.14588911831378937, 'learning_rate': 0.00048800641814030746, 'epoch': 0.13}
+{'loss': 1.5194, 'grad_norm': 0.18653281033039093, 'learning_rate': 0.0004879428869520788, 'epoch': 0.13}
+{'loss': 1.5075, 'grad_norm': 0.16417144238948822, 'learning_rate': 0.00048787919210009693, 'epoch': 0.13}
+{'loss': 1.5066, 'grad_norm': 0.1816272884607315, 'learning_rate': 0.000487815333628173, 'epoch': 0.13}
+{'loss': 1.4919, 'grad_norm': 0.14403924345970154, 'learning_rate': 0.00048775131158023056, 'epoch': 0.13}
+{'loss': 1.4995, 'grad_norm': 0.15784256160259247, 'learning_rate': 0.0004876871260003058, 'epoch': 0.13}
+{'loss': 1.5049, 'grad_norm': 0.14629016816616058, 'learning_rate': 0.0004876227769325473, 'epoch': 0.13}
+{'loss': 1.5197, 'grad_norm': 0.1788572371006012, 'learning_rate': 0.0004875582644212163, 'epoch': 0.13}
+{'loss': 1.5241, 'grad_norm': 0.12251541018486023, 'learning_rate': 0.00048749358851068607, 'epoch': 0.13}
+{'loss': 1.5419, 'grad_norm': 0.1733192801475525, 'learning_rate': 0.0004874287492454427, 'epoch': 0.13}
+{'loss': 1.5287, 'grad_norm': 0.1477711945772171, 'learning_rate': 0.0004873637466700843, 'epoch': 0.13}
+{'loss': 1.4968, 'grad_norm': 0.15520882606506348, 'learning_rate': 0.0004872985808293216, 'epoch': 0.13}
+{'loss': 1.5071, 'grad_norm': 0.1547614187002182, 'learning_rate': 0.0004872332517679774, 'epoch': 0.13}
+{'loss': 1.4874, 'grad_norm': 0.1542874574661255, 'learning_rate': 0.0004871677595309868, 'epoch': 0.13}
+{'loss': 1.5042, 'grad_norm': 0.16119933128356934, 'learning_rate': 0.0004871021041633973, 'epoch': 0.13}
+{'loss': 1.5006, 'grad_norm': 0.17952272295951843, 'learning_rate': 0.0004870362857103684, 'epoch': 0.13}
+{'loss': 1.5033, 'grad_norm': 0.1603194922208786, 'learning_rate': 0.00048697030421717194, 'epoch': 0.13}
+{'loss': 1.4909, 'grad_norm': 0.17921856045722961, 'learning_rate': 0.00048690415972919176, 'epoch': 0.13}
+{'loss': 1.4906, 'grad_norm': 0.15801329910755157, 'learning_rate': 0.000486837852291924, 'epoch': 0.13}
+{'loss': 1.497, 'grad_norm': 0.17946170270442963, 'learning_rate': 0.0004867713819509766, 'epoch': 0.13}
+{'loss': 1.5016, 'grad_norm': 0.13878951966762543, 'learning_rate': 0.0004867047487520698, 'epoch': 0.13}
+{'loss': 1.5088, 'grad_norm': 0.17542468011379242, 'learning_rate': 0.00048663795274103585, 'epoch': 0.13}
+{'loss': 1.512, 'grad_norm': 0.1363927572965622, 'learning_rate': 0.0004865709939638188, 'epoch': 0.13}
+{'loss': 1.5135, 'grad_norm': 0.20868386328220367, 'learning_rate': 0.0004865038724664747, 'epoch': 0.13}
+{'loss': 1.4934, 'grad_norm': 0.15738584101200104, 'learning_rate': 0.0004864365882951718, 'epoch': 0.13}
+{'loss': 1.5001, 'grad_norm': 0.15736979246139526, 'learning_rate': 0.0004863691414961898, 'epoch': 0.13}
+{'loss': 1.4637, 'grad_norm': 0.15914343297481537, 'learning_rate': 0.0004863015321159206, 'epoch': 0.13}
+{'loss': 1.4786, 'grad_norm': 0.14291304349899292, 'learning_rate': 0.00048623376020086794, 'epoch': 0.13}
+{'loss': 1.4993, 'grad_norm': 0.18502333760261536, 'learning_rate': 0.00048616582579764705, 'epoch': 0.13}
+{'loss': 1.519, 'grad_norm': 0.16558660566806793, 'learning_rate': 0.0004860977289529852, 'epoch': 0.13}
+{'loss': 1.4932, 'grad_norm': 0.15871712565422058, 'learning_rate': 0.00048602946971372117, 'epoch': 0.13}
+{'loss': 1.4975, 'grad_norm': 0.1913978010416031, 'learning_rate': 0.00048596104812680574, 'epoch': 0.13}
+{'loss': 1.507, 'grad_norm': 0.13239596784114838, 'learning_rate': 0.0004858924642393011, 'epoch': 0.13}
+{'loss': 1.5278, 'grad_norm': 0.16950130462646484, 'learning_rate': 0.00048582371809838124, 'epoch': 0.13}
+{'loss': 1.5168, 'grad_norm': 0.15424764156341553, 'learning_rate': 0.00048575480975133144, 'epoch': 0.13}
+{'loss': 1.5033, 'grad_norm': 0.15029335021972656, 'learning_rate': 0.0004856857392455491, 'epoch': 0.14}
+{'loss': 1.5065, 'grad_norm': 0.1625388264656067, 'learning_rate': 0.00048561650662854263, 'epoch': 0.14}
+{'loss': 1.5076, 'grad_norm': 0.15043659508228302, 'learning_rate': 0.0004855471119479322, 'epoch': 0.14}
+{'loss': 1.5246, 'grad_norm': 0.16283071041107178, 'learning_rate': 0.0004854775552514494, 'epoch': 0.14}
+{'loss': 1.5007, 'grad_norm': 0.13593478500843048, 'learning_rate': 0.00048540783658693735, 'epoch': 0.14}
+{'loss': 1.5175, 'grad_norm': 0.16873204708099365, 'learning_rate': 0.0004853379560023504, 'epoch': 0.14}
+{'loss': 1.5135, 'grad_norm': 0.12266521900892258, 'learning_rate': 0.00048526791354575434, 'epoch': 0.14}
+{'loss': 1.4829, 'grad_norm': 0.19296498596668243, 'learning_rate': 0.0004851977092653264, 'epoch': 0.14}
+{'loss': 1.4832, 'grad_norm': 0.15555158257484436, 'learning_rate': 0.00048512734320935505, 'epoch': 0.14}
+{'loss': 1.5112, 'grad_norm': 0.17060448229312897, 'learning_rate': 0.0004850568154262399, 'epoch': 0.14}
+{'loss': 1.4971, 'grad_norm': 0.16368572413921356, 'learning_rate': 0.00048498612596449217, 'epoch': 0.14}
+{'loss': 1.5207, 'grad_norm': 0.14780128002166748, 'learning_rate': 0.0004849152748727338, 'epoch': 0.14}
+{'loss': 1.5127, 'grad_norm': 0.17837141454219818, 'learning_rate': 0.0004848442621996982, 'epoch': 0.14}
+{'loss': 1.485, 'grad_norm': 0.1505098044872284, 'learning_rate': 0.00048477308799423, 'epoch': 0.14}
+{'loss': 1.4996, 'grad_norm': 0.13507600128650665, 'learning_rate': 0.0004847017523052846, 'epoch': 0.14}
+{'loss': 1.5054, 'grad_norm': 0.15762050449848175, 'learning_rate': 0.00048463025518192886, 'epoch': 0.14}
+{'loss': 1.505, 'grad_norm': 0.15877985954284668, 'learning_rate': 0.00048455859667334046, 'epoch': 0.14}
+{'loss': 1.4959, 'grad_norm': 0.11918146163225174, 'learning_rate': 0.000484486776828808, 'epoch': 0.14}
+{'loss': 1.4921, 'grad_norm': 0.14684821665287018, 'learning_rate': 0.0004844147956977313, 'epoch': 0.14}
+{'loss': 1.5219, 'grad_norm': 0.1449311524629593, 'learning_rate': 0.0004843426533296209, 'epoch': 0.14}
+{'loss': 1.4583, 'grad_norm': 0.15749534964561462, 'learning_rate': 0.0004842703497740984, 'epoch': 0.14}
+{'loss': 1.4966, 'grad_norm': 0.21139514446258545, 'learning_rate': 0.0004841978850808961, 'epoch': 0.14}
+{'loss': 1.5045, 'grad_norm': 0.12776008248329163, 'learning_rate': 0.0004841252592998575, 'epoch': 0.14}
+{'loss': 1.526, 'grad_norm': 0.21402671933174133, 'learning_rate': 0.0004840524724809363, 'epoch': 0.14}
+{'loss': 1.5003, 'grad_norm': 0.14957332611083984, 'learning_rate': 0.0004839795246741975, 'epoch': 0.14}
+{'loss': 1.495, 'grad_norm': 0.16509903967380524, 'learning_rate': 0.00048390641592981656, 'epoch': 0.14}
+{'loss': 1.4842, 'grad_norm': 0.14519156515598297, 'learning_rate': 0.00048383314629807974, 'epoch': 0.14}
+{'loss': 1.5187, 'grad_norm': 0.17156271636486053, 'learning_rate': 0.00048375971582938394, 'epoch': 0.14}
+{'loss': 1.4897, 'grad_norm': 0.1386561244726181, 'learning_rate': 0.00048368612457423677, 'epoch': 0.14}
+{'loss': 1.4623, 'grad_norm': 0.16361911594867706, 'learning_rate': 0.0004836123725832562, 'epoch': 0.14}
+{'loss': 1.5075, 'grad_norm': 0.1443711370229721, 'learning_rate': 0.00048353845990717093, 'epoch': 0.14}
+{'loss': 1.5053, 'grad_norm': 0.17293372750282288, 'learning_rate': 0.0004834643865968202, 'epoch': 0.14}
+{'loss': 1.5168, 'grad_norm': 0.1480269581079483, 'learning_rate': 0.00048339015270315377, 'epoch': 0.14}
+{'loss': 1.5018, 'grad_norm': 0.16671915352344513, 'learning_rate': 0.0004833157582772317, 'epoch': 0.14}
+{'loss': 1.5276, 'grad_norm': 0.15490709245204926, 'learning_rate': 0.0004832412033702245, 'epoch': 0.14}
+{'loss': 1.4725, 'grad_norm': 0.17137356102466583, 'learning_rate': 0.00048316648803341315, 'epoch': 0.14}
+{'loss': 1.514, 'grad_norm': 0.1418096125125885, 'learning_rate': 0.00048309161231818905, 'epoch': 0.14}
+{'loss': 1.4883, 'grad_norm': 0.1299910694360733, 'learning_rate': 0.0004830165762760537, 'epoch': 0.14}
+{'loss': 1.5076, 'grad_norm': 0.14890795946121216, 'learning_rate': 0.00048294137995861895, 'epoch': 0.14}
+{'loss': 1.5207, 'grad_norm': 0.1360175609588623, 'learning_rate': 0.00048286602341760703, 'epoch': 0.15}
+{'loss': 1.5104, 'grad_norm': 0.1463633030653, 'learning_rate': 0.0004827905067048502, 'epoch': 0.15}
+{'loss': 1.4924, 'grad_norm': 0.157135009765625, 'learning_rate': 0.000482714829872291, 'epoch': 0.15}
+{'loss': 1.5171, 'grad_norm': 0.15293776988983154, 'learning_rate': 0.000482638992971982, 'epoch': 0.15}
+{'loss': 1.5208, 'grad_norm': 0.15954123437404633, 'learning_rate': 0.000482562996056086, 'epoch': 0.15}
+{'loss': 1.4938, 'grad_norm': 0.13375087082386017, 'learning_rate': 0.00048248683917687574, 'epoch': 0.15}
+{'loss': 1.4805, 'grad_norm': 0.148384690284729, 'learning_rate': 0.00048241052238673414, 'epoch': 0.15}
+{'loss': 1.4906, 'grad_norm': 0.16616863012313843, 'learning_rate': 0.000482334045738154, 'epoch': 0.15}
+{'loss': 1.5269, 'grad_norm': 0.15399906039237976, 'learning_rate': 0.00048225740928373796, 'epoch': 0.15}
+{'loss': 1.5111, 'grad_norm': 0.15466506779193878, 'learning_rate': 0.0004821806130761988, 'epoch': 0.15}
+{'loss': 1.5146, 'grad_norm': 0.15605175495147705, 'learning_rate': 0.0004821036571683591, 'epoch': 0.15}
+{'loss': 1.4911, 'grad_norm': 0.15153393149375916, 'learning_rate': 0.00048202654161315134, 'epoch': 0.15}
+{'loss': 1.4776, 'grad_norm': 0.14669716358184814, 'learning_rate': 0.0004819492664636176, 'epoch': 0.15}
+{'loss': 1.5204, 'grad_norm': 0.1559697985649109, 'learning_rate': 0.0004818718317729101, 'epoch': 0.15}
+{'loss': 1.4974, 'grad_norm': 0.147377148270607, 'learning_rate': 0.0004817942375942903, 'epoch': 0.15}
+{'loss': 1.5281, 'grad_norm': 0.18291305005550385, 'learning_rate': 0.0004817164839811299, 'epoch': 0.15}
+{'loss': 1.5005, 'grad_norm': 0.17358167469501495, 'learning_rate': 0.00048163857098690977, 'epoch': 0.15}
+{'loss': 1.4849, 'grad_norm': 0.15578357875347137, 'learning_rate': 0.0004815604986652208, 'epoch': 0.15}
+{'loss': 1.4897, 'grad_norm': 0.17016763985157013, 'learning_rate': 0.00048148226706976326, 'epoch': 0.15}
+{'loss': 1.504, 'grad_norm': 0.18508823215961456, 'learning_rate': 0.0004814038762543471, 'epoch': 0.15}
+{'loss': 1.4856, 'grad_norm': 0.14867106080055237, 'learning_rate': 0.00048132532627289163, 'epoch': 0.15}
+{'loss': 1.4854, 'grad_norm': 0.16198565065860748, 'learning_rate': 0.00048124661717942563, 'epoch': 0.15}
+{'loss': 1.5147, 'grad_norm': 0.12904216349124908, 'learning_rate': 0.00048116774902808756, 'epoch': 0.15}
+{'loss': 1.4937, 'grad_norm': 0.1502198874950409, 'learning_rate': 0.00048108872187312514, 'epoch': 0.15}
+{'loss': 1.4972, 'grad_norm': 0.14249393343925476, 'learning_rate': 0.0004810095357688954, 'epoch': 0.15}
+{'loss': 1.4591, 'grad_norm': 0.16251537203788757, 'learning_rate': 0.00048093019076986466, 'epoch': 0.15}
+{'loss': 1.5096, 'grad_norm': 0.1594223827123642, 'learning_rate': 0.00048085068693060876, 'epoch': 0.15}
+{'loss': 1.5022, 'grad_norm': 0.15523917973041534, 'learning_rate': 0.0004807710243058125, 'epoch': 0.15}
+{'loss': 1.5019, 'grad_norm': 0.17422685027122498, 'learning_rate': 0.0004806912029502703, 'epoch': 0.15}
+{'loss': 1.4836, 'grad_norm': 0.1498907059431076, 'learning_rate': 0.0004806112229188854, 'epoch': 0.15}
+{'loss': 1.5246, 'grad_norm': 0.16109628975391388, 'learning_rate': 0.00048053108426667016, 'epoch': 0.15}
+{'loss': 1.5422, 'grad_norm': 0.14649932086467743, 'learning_rate': 0.00048045078704874627, 'epoch': 0.15}
+{'loss': 1.4769, 'grad_norm': 0.1769561618566513, 'learning_rate': 0.00048037033132034446, 'epoch': 0.15}
+{'loss': 1.4918, 'grad_norm': 0.1312292218208313, 'learning_rate': 0.00048028971713680443, 'epoch': 0.15}
+{'loss': 1.4784, 'grad_norm': 0.1708344966173172, 'learning_rate': 0.00048020894455357477, 'epoch': 0.15}
+{'loss': 1.5012, 'grad_norm': 0.12990687787532806, 'learning_rate': 0.0004801280136262132, 'epoch': 0.15}
+{'loss': 1.4798, 'grad_norm': 0.14094766974449158, 'learning_rate': 0.0004800469244103861, 'epoch': 0.15}
+{'loss': 1.5011, 'grad_norm': 0.16488583385944366, 'learning_rate': 0.0004799656769618691, 'epoch': 0.15}
+{'loss': 1.4839, 'grad_norm': 0.11957118660211563, 'learning_rate': 0.00047988427133654647, 'epoch': 0.15}
+{'loss': 1.4753, 'grad_norm': 0.17959697544574738, 'learning_rate': 0.00047980270759041105, 'epoch': 0.16}
+{'loss': 1.4971, 'grad_norm': 0.1379363238811493, 'learning_rate': 0.00047972098577956485, 'epoch': 0.16}
+{'loss': 1.4959, 'grad_norm': 0.1507134735584259, 'learning_rate': 0.0004796391059602183, 'epoch': 0.16}
+{'loss': 1.5004, 'grad_norm': 0.14025093615055084, 'learning_rate': 0.0004795570681886907, 'epoch': 0.16}
+{'loss': 1.4946, 'grad_norm': 0.16324639320373535, 'learning_rate': 0.00047947487252140996, 'epoch': 0.16}
+{'loss': 1.4868, 'grad_norm': 0.1349213868379593, 'learning_rate': 0.0004793925190149124, 'epoch': 0.16}
+{'loss': 1.5166, 'grad_norm': 0.13856004178524017, 'learning_rate': 0.00047931000772584323, 'epoch': 0.16}
+{'loss': 1.487, 'grad_norm': 0.1354862004518509, 'learning_rate': 0.00047922733871095586, 'epoch': 0.16}
+{'loss': 1.5074, 'grad_norm': 0.14820604026317596, 'learning_rate': 0.0004791445120271124, 'epoch': 0.16}
+{'loss': 1.5067, 'grad_norm': 0.13902100920677185, 'learning_rate': 0.0004790615277312834, 'epoch': 0.16}
+{'loss': 1.5001, 'grad_norm': 0.15796342492103577, 'learning_rate': 0.0004789783858805477, 'epoch': 0.16}
+{'loss': 1.5275, 'grad_norm': 0.1303415298461914, 'learning_rate': 0.0004788950865320927, 'epoch': 0.16}
+{'loss': 1.5154, 'grad_norm': 0.14923343062400818, 'learning_rate': 0.00047881162974321384, 'epoch': 0.16}
+{'loss': 1.5022, 'grad_norm': 0.11850206553936005, 'learning_rate': 0.00047872801557131517, 'epoch': 0.16}
+{'loss': 1.4981, 'grad_norm': 0.1609598994255066, 'learning_rate': 0.0004786442440739088, 'epoch': 0.16}
+{'loss': 1.5183, 'grad_norm': 0.14329108595848083, 'learning_rate': 0.0004785603153086151, 'epoch': 0.16}
+{'loss': 1.4897, 'grad_norm': 0.15683765709400177, 'learning_rate': 0.00047847622933316257, 'epoch': 0.16}
+{'loss': 1.4888, 'grad_norm': 0.14019529521465302, 'learning_rate': 0.00047839198620538796, 'epoch': 0.16}
+{'loss': 1.4996, 'grad_norm': 0.1669693887233734, 'learning_rate': 0.0004783075859832361, 'epoch': 0.16}
+{'loss': 1.5149, 'grad_norm': 0.1536128669977188, 'learning_rate': 0.00047822302872475966, 'epoch': 0.16}
+{'loss': 1.493, 'grad_norm': 0.15631161630153656, 'learning_rate': 0.00047813831448811954, 'epoch': 0.16}
+{'loss': 1.4674, 'grad_norm': 0.1493280827999115, 'learning_rate': 0.00047805344333158464, 'epoch': 0.16}
+{'loss': 1.491, 'grad_norm': 0.16200949251651764, 'learning_rate': 0.00047796841531353156, 'epoch': 0.16}
+{'loss': 1.4954, 'grad_norm': 0.17613717913627625, 'learning_rate': 0.0004778832304924451, 'epoch': 0.16}
+{'loss': 1.4957, 'grad_norm': 0.17736715078353882, 'learning_rate': 0.00047779788892691766, 'epoch': 0.16}
+{'loss': 1.5146, 'grad_norm': 0.17547707259655, 'learning_rate': 0.00047771239067564953, 'epoch': 0.16}
+{'loss': 1.498, 'grad_norm': 0.14651574194431305, 'learning_rate': 0.0004776267357974489, 'epoch': 0.16}
+{'loss': 1.5078, 'grad_norm': 0.18584926426410675, 'learning_rate': 0.00047754092435123145, 'epoch': 0.16}
+{'loss': 1.4915, 'grad_norm': 0.16048170626163483, 'learning_rate': 0.0004774549563960207, 'epoch': 0.16}
+{'loss': 1.4803, 'grad_norm': 0.1602787971496582, 'learning_rate': 0.0004773688319909479, 'epoch': 0.16}
+{'loss': 1.4918, 'grad_norm': 0.17886090278625488, 'learning_rate': 0.0004772825511952518, 'epoch': 0.16}
+{'loss': 1.4736, 'grad_norm': 0.16099801659584045, 'learning_rate': 0.0004771961140682787, 'epoch': 0.16}
+{'loss': 1.4877, 'grad_norm': 0.1635669469833374, 'learning_rate': 0.00047710952066948244, 'epoch': 0.16}
+{'loss': 1.4871, 'grad_norm': 0.1492583304643631, 'learning_rate': 0.0004770227710584245, 'epoch': 0.16}
+{'loss': 1.4931, 'grad_norm': 0.16216260194778442, 'learning_rate': 0.0004769358652947735, 'epoch': 0.16}
+{'loss': 1.5092, 'grad_norm': 0.14986178278923035, 'learning_rate': 0.0004768488034383057, 'epoch': 0.16}
+{'loss': 1.499, 'grad_norm': 0.16898082196712494, 'learning_rate': 0.0004767615855489048, 'epoch': 0.16}
+{'loss': 1.5117, 'grad_norm': 0.13355720043182373, 'learning_rate': 0.0004766742116865617, 'epoch': 0.16}
+{'loss': 1.4805, 'grad_norm': 0.14463357627391815, 'learning_rate': 0.00047658668191137435, 'epoch': 0.16}
+{'loss': 1.4672, 'grad_norm': 0.15435680747032166, 'learning_rate': 0.00047649899628354834, 'epoch': 0.17}
+{'loss': 1.5131, 'grad_norm': 0.14453789591789246, 'learning_rate': 0.0004764111548633962, 'epoch': 0.17}
+{'loss': 1.4895, 'grad_norm': 0.15435993671417236, 'learning_rate': 0.0004763231577113378, 'epoch': 0.17}
+{'loss': 1.4854, 'grad_norm': 0.17269398272037506, 'learning_rate': 0.00047623500488790007, 'epoch': 0.17}
+{'loss': 1.4857, 'grad_norm': 0.14174407720565796, 'learning_rate': 0.0004761466964537169, 'epoch': 0.17}
+{'loss': 1.482, 'grad_norm': 0.15947428345680237, 'learning_rate': 0.0004760582324695292, 'epoch': 0.17}
+{'loss': 1.4891, 'grad_norm': 0.15271110832691193, 'learning_rate': 0.0004759696129961852, 'epoch': 0.17}
+{'loss': 1.5015, 'grad_norm': 0.1802535206079483, 'learning_rate': 0.00047588083809463967, 'epoch': 0.17}
+{'loss': 1.4996, 'grad_norm': 0.15771301090717316, 'learning_rate': 0.0004757919078259545, 'epoch': 0.17}
+{'loss': 1.5135, 'grad_norm': 0.16214756667613983, 'learning_rate': 0.00047570282225129835, 'epoch': 0.17}
+{'loss': 1.4866, 'grad_norm': 0.1495123654603958, 'learning_rate': 0.0004756135814319469, 'epoch': 0.17}
+{'loss': 1.55, 'grad_norm': 0.15986767411231995, 'learning_rate': 0.00047552418542928245, 'epoch': 0.17}
+{'loss': 1.4946, 'grad_norm': 0.13895317912101746, 'learning_rate': 0.00047543463430479397, 'epoch': 0.17}
+{'loss': 1.4766, 'grad_norm': 0.16032497584819794, 'learning_rate': 0.00047534492812007726, 'epoch': 0.17}
+{'loss': 1.4775, 'grad_norm': 0.15173082053661346, 'learning_rate': 0.0004752550669368347, 'epoch': 0.17}
+{'loss': 1.4888, 'grad_norm': 0.15322040021419525, 'learning_rate': 0.0004751650508168755, 'epoch': 0.17}
+{'loss': 1.4979, 'grad_norm': 0.16882799565792084, 'learning_rate': 0.00047507487982211504, 'epoch': 0.17}
+{'loss': 1.5002, 'grad_norm': 0.1483452022075653, 'learning_rate': 0.0004749845540145755, 'epoch': 0.17}
+{'loss': 1.507, 'grad_norm': 0.1994956135749817, 'learning_rate': 0.00047489407345638557, 'epoch': 0.17}
+{'loss': 1.5057, 'grad_norm': 0.14815767109394073, 'learning_rate': 0.00047480343820978024, 'epoch': 0.17}
+{'loss': 1.4926, 'grad_norm': 0.17661437392234802, 'learning_rate': 0.00047471264833710093, 'epoch': 0.17}
+{'loss': 1.5134, 'grad_norm': 0.17546164989471436, 'learning_rate': 0.0004746217039007955, 'epoch': 0.17}
+{'loss': 1.5054, 'grad_norm': 0.1502331644296646, 'learning_rate': 0.00047453060496341804, 'epoch': 0.17}
+{'loss': 1.4769, 'grad_norm': 0.17971114814281464, 'learning_rate': 0.00047443935158762897, 'epoch': 0.17}
+{'loss': 1.4984, 'grad_norm': 0.1456110030412674, 'learning_rate': 0.0004743479438361948, 'epoch': 0.17}
+{'loss': 1.479, 'grad_norm': 0.1848033219575882, 'learning_rate': 0.0004742563817719886, 'epoch': 0.17}
+{'loss': 1.4905, 'grad_norm': 0.1590249091386795, 'learning_rate': 0.00047416466545798896, 'epoch': 0.17}
+{'loss': 1.4675, 'grad_norm': 0.1509786993265152, 'learning_rate': 0.0004740727949572812, 'epoch': 0.17}
+{'loss': 1.4841, 'grad_norm': 0.14579430222511292, 'learning_rate': 0.0004739807703330563, 'epoch': 0.17}
+{'loss': 1.4874, 'grad_norm': 0.14032480120658875, 'learning_rate': 0.0004738885916486113, 'epoch': 0.17}
+{'loss': 1.4848, 'grad_norm': 0.14644493162631989, 'learning_rate': 0.00047379625896734937, 'epoch': 0.17}
+{'loss': 1.4752, 'grad_norm': 0.14476758241653442, 'learning_rate': 0.0004737037723527794, 'epoch': 0.17}
+{'loss': 1.5152, 'grad_norm': 0.14171957969665527, 'learning_rate': 0.00047361113186851635, 'epoch': 0.17}
+{'loss': 1.4627, 'grad_norm': 0.14613839983940125, 'learning_rate': 0.000473518337578281, 'epoch': 0.17}
+{'loss': 1.4739, 'grad_norm': 0.14794112741947174, 'learning_rate': 0.00047342538954589963, 'epoch': 0.17}
+{'loss': 1.4994, 'grad_norm': 0.1361640989780426, 'learning_rate': 0.00047333228783530466, 'epoch': 0.17}
+{'loss': 1.4804, 'grad_norm': 0.15652568638324738, 'learning_rate': 0.0004732390325105341, 'epoch': 0.17}
+{'loss': 1.4697, 'grad_norm': 0.12486247718334198, 'learning_rate': 0.0004731456236357314, 'epoch': 0.17}
+{'loss': 1.4799, 'grad_norm': 0.14108921587467194, 'learning_rate': 0.0004730520612751458, 'epoch': 0.17}
+{'loss': 1.4705, 'grad_norm': 0.12969554960727692, 'learning_rate': 0.0004729583454931322, 'epoch': 0.18}
+{'loss': 1.5122, 'grad_norm': 0.16168464720249176, 'learning_rate': 0.00047286447635415087, 'epoch': 0.18}
+{'loss': 1.5229, 'grad_norm': 0.11308509856462479, 'learning_rate': 0.0004727704539227676, 'epoch': 0.18}
+{'loss': 1.4819, 'grad_norm': 0.13378506898880005, 'learning_rate': 0.00047267627826365376, 'epoch': 0.18}
+{'loss': 1.4872, 'grad_norm': 0.12716449797153473, 'learning_rate': 0.0004725819494415858, 'epoch': 0.18}
+{'loss': 1.4751, 'grad_norm': 0.172763854265213, 'learning_rate': 0.0004724874675214459, 'epoch': 0.18}
+{'loss': 1.5009, 'grad_norm': 0.14156071841716766, 'learning_rate': 0.0004723928325682213, 'epoch': 0.18}
+{'loss': 1.4727, 'grad_norm': 0.13988208770751953, 'learning_rate': 0.0004722980446470045, 'epoch': 0.18}
+{'loss': 1.4728, 'grad_norm': 0.1350700855255127, 'learning_rate': 0.0004722031038229933, 'epoch': 0.18}
+{'loss': 1.4945, 'grad_norm': 0.17724274098873138, 'learning_rate': 0.0004721080101614907, 'epoch': 0.18}
+{'loss': 1.4994, 'grad_norm': 0.1621846705675125, 'learning_rate': 0.0004720127637279047, 'epoch': 0.18}
+{'loss': 1.4836, 'grad_norm': 0.14240969717502594, 'learning_rate': 0.0004719173645877485, 'epoch': 0.18}
+{'loss': 1.5013, 'grad_norm': 0.1525259017944336, 'learning_rate': 0.0004718218128066403, 'epoch': 0.18}
+{'loss': 1.4765, 'grad_norm': 0.15803228318691254, 'learning_rate': 0.0004717261084503032, 'epoch': 0.18}
+{'loss': 1.495, 'grad_norm': 0.1409839242696762, 'learning_rate': 0.0004716302515845654, 'epoch': 0.18}
+{'loss': 1.5125, 'grad_norm': 0.14901940524578094, 'learning_rate': 0.00047153424227536, 'epoch': 0.18}
+{'loss': 1.5132, 'grad_norm': 0.13099037110805511, 'learning_rate': 0.00047143808058872473, 'epoch': 0.18}
+{'loss': 1.4826, 'grad_norm': 0.1635609120130539, 'learning_rate': 0.0004713417665908023, 'epoch': 0.18}
+{'loss': 1.4932, 'grad_norm': 0.14350157976150513, 'learning_rate': 0.00047124530034784026, 'epoch': 0.18}
+{'loss': 1.4757, 'grad_norm': 0.17769387364387512, 'learning_rate': 0.00047114868192619066, 'epoch': 0.18}
+{'loss': 1.4982, 'grad_norm': 0.14867547154426575, 'learning_rate': 0.00047105191139231047, 'epoch': 0.18}
+{'loss': 1.5038, 'grad_norm': 0.16207025945186615, 'learning_rate': 0.0004709549888127611, 'epoch': 0.18}
+{'loss': 1.4853, 'grad_norm': 0.13620536029338837, 'learning_rate': 0.00047085791425420856, 'epoch': 0.18}
+{'loss': 1.4834, 'grad_norm': 0.1529710292816162, 'learning_rate': 0.0004707606877834235, 'epoch': 0.18}
+{'loss': 1.4768, 'grad_norm': 0.12097422033548355, 'learning_rate': 0.000470663309467281, 'epoch': 0.18}
+{'loss': 1.5061, 'grad_norm': 0.16391481459140778, 'learning_rate': 0.0004705657793727605, 'epoch': 0.18}
+{'loss': 1.501, 'grad_norm': 0.1263384371995926, 'learning_rate': 0.00047046809756694604, 'epoch': 0.18}
+{'loss': 1.5063, 'grad_norm': 0.16173431277275085, 'learning_rate': 0.00047037026411702584, 'epoch': 0.18}
+{'loss': 1.4988, 'grad_norm': 0.13927236199378967, 'learning_rate': 0.0004702722790902924, 'epoch': 0.18}
+{'loss': 1.5014, 'grad_norm': 0.1389106661081314, 'learning_rate': 0.0004701741425541427, 'epoch': 0.18}
+{'loss': 1.4833, 'grad_norm': 0.14154410362243652, 'learning_rate': 0.00047007585457607763, 'epoch': 0.18}
+{'loss': 1.5002, 'grad_norm': 0.14185571670532227, 'learning_rate': 0.00046997741522370254, 'epoch': 0.18}
+{'loss': 1.4918, 'grad_norm': 0.14627952873706818, 'learning_rate': 0.00046987882456472663, 'epoch': 0.18}
+{'loss': 1.4845, 'grad_norm': 0.16655945777893066, 'learning_rate': 0.0004697800826669635, 'epoch': 0.18}
+{'loss': 1.4889, 'grad_norm': 0.12920266389846802, 'learning_rate': 0.0004696811895983303, 'epoch': 0.18}
+{'loss': 1.508, 'grad_norm': 0.17080830037593842, 'learning_rate': 0.00046958214542684875, 'epoch': 0.18}
+{'loss': 1.4585, 'grad_norm': 0.15733742713928223, 'learning_rate': 0.00046948295022064394, 'epoch': 0.18}
+{'loss': 1.5085, 'grad_norm': 0.166078582406044, 'learning_rate': 0.0004693836040479452, 'epoch': 0.18}
+{'loss': 1.5031, 'grad_norm': 0.13282310962677002, 'learning_rate': 0.0004692841069770856, 'epoch': 0.18}
+{'loss': 1.4623, 'grad_norm': 0.14135508239269257, 'learning_rate': 0.00046918445907650206, 'epoch': 0.19}
+{'loss': 1.4973, 'grad_norm': 0.14031367003917694, 'learning_rate': 0.0004690846604147351, 'epoch': 0.19}
+{'loss': 1.4946, 'grad_norm': 0.16884054243564606, 'learning_rate': 0.000468984711060429, 'epoch': 0.19}
+{'loss': 1.4673, 'grad_norm': 0.1336757242679596, 'learning_rate': 0.0004688846110823318, 'epoch': 0.19}
+{'loss': 1.5033, 'grad_norm': 0.1594022661447525, 'learning_rate': 0.000468784360549295, 'epoch': 0.19}
+{'loss': 1.5068, 'grad_norm': 0.13513518869876862, 'learning_rate': 0.00046868395953027366, 'epoch': 0.19}
+{'loss': 1.4867, 'grad_norm': 0.17017030715942383, 'learning_rate': 0.0004685834080943265, 'epoch': 0.19}
+{'loss': 1.4954, 'grad_norm': 0.16333767771720886, 'learning_rate': 0.0004684827063106156, 'epoch': 0.19}
+{'loss': 1.5095, 'grad_norm': 0.17349973320960999, 'learning_rate': 0.0004683818542484065, 'epoch': 0.19}
+{'loss': 1.4816, 'grad_norm': 0.14444521069526672, 'learning_rate': 0.0004682808519770679, 'epoch': 0.19}
+{'loss': 1.4666, 'grad_norm': 0.15665434300899506, 'learning_rate': 0.00046817969956607205, 'epoch': 0.19}
+{'loss': 1.4648, 'grad_norm': 0.12588249146938324, 'learning_rate': 0.00046807839708499447, 'epoch': 0.19}
+{'loss': 1.4935, 'grad_norm': 0.13878536224365234, 'learning_rate': 0.0004679769446035137, 'epoch': 0.19}
+{'loss': 1.463, 'grad_norm': 0.12114285677671432, 'learning_rate': 0.0004678753421914117, 'epoch': 0.19}
+{'loss': 1.4862, 'grad_norm': 0.13932301104068756, 'learning_rate': 0.00046777358991857346, 'epoch': 0.19}
+{'loss': 1.4855, 'grad_norm': 0.1307363212108612, 'learning_rate': 0.0004676716878549868, 'epoch': 0.19}
+{'loss': 1.4828, 'grad_norm': 0.12928451597690582, 'learning_rate': 0.0004675696360707431, 'epoch': 0.19}
+{'loss': 1.5002, 'grad_norm': 0.12029865384101868, 'learning_rate': 0.00046746743463603636, 'epoch': 0.19}
+{'loss': 1.4555, 'grad_norm': 0.1302608698606491, 'learning_rate': 0.00046736508362116335, 'epoch': 0.19}
+{'loss': 1.4789, 'grad_norm': 0.13153260946273804, 'learning_rate': 0.00046726258309652427, 'epoch': 0.19}
+{'loss': 1.5054, 'grad_norm': 0.12149246037006378, 'learning_rate': 0.0004671599331326216, 'epoch': 0.19}
+{'loss': 1.4966, 'grad_norm': 0.11428804695606232, 'learning_rate': 0.000467057133800061, 'epoch': 0.19}
+{'loss': 1.4848, 'grad_norm': 0.11648181080818176, 'learning_rate': 0.0004669541851695506, 'epoch': 0.19}
+{'loss': 1.4957, 'grad_norm': 0.13788434863090515, 'learning_rate': 0.0004668510873119014, 'epoch': 0.19}
+{'loss': 1.4914, 'grad_norm': 0.1306648999452591, 'learning_rate': 0.00046674784029802696, 'epoch': 0.19}
+{'loss': 1.4892, 'grad_norm': 0.12696969509124756, 'learning_rate': 0.00046664444419894347, 'epoch': 0.19}
+{'loss': 1.4804, 'grad_norm': 0.13404330611228943, 'learning_rate': 0.0004665408990857697, 'epoch': 0.19}
+{'loss': 1.474, 'grad_norm': 0.12181098014116287, 'learning_rate': 0.00046643720502972675, 'epoch': 0.19}
+{'loss': 1.474, 'grad_norm': 0.14179332554340363, 'learning_rate': 0.0004663333621021384, 'epoch': 0.19}
+{'loss': 1.5036, 'grad_norm': 0.14155223965644836, 'learning_rate': 0.0004662293703744306, 'epoch': 0.19}
+{'loss': 1.4843, 'grad_norm': 0.1352986842393875, 'learning_rate': 0.0004661252299181319, 'epoch': 0.19}
+{'loss': 1.4931, 'grad_norm': 0.1378580927848816, 'learning_rate': 0.00046602094080487285, 'epoch': 0.19}
+{'loss': 1.4639, 'grad_norm': 0.11060407012701035, 'learning_rate': 0.00046591650310638655, 'epoch': 0.19}
+{'loss': 1.502, 'grad_norm': 0.12162739783525467, 'learning_rate': 0.0004658119168945081, 'epoch': 0.19}
+{'loss': 1.4594, 'grad_norm': 0.12726953625679016, 'learning_rate': 0.0004657071822411748, 'epoch': 0.19}
+{'loss': 1.4851, 'grad_norm': 0.11877215653657913, 'learning_rate': 0.000465602299218426, 'epoch': 0.19}
+{'loss': 1.4762, 'grad_norm': 0.11511547863483429, 'learning_rate': 0.0004654972678984034, 'epoch': 0.19}
+{'loss': 1.4929, 'grad_norm': 0.12914299964904785, 'learning_rate': 0.0004653920883533502, 'epoch': 0.19}
+{'loss': 1.4764, 'grad_norm': 0.11850783228874207, 'learning_rate': 0.000465286760655612, 'epoch': 0.19}
+{'loss': 1.4677, 'grad_norm': 0.12762030959129333, 'learning_rate': 0.0004651812848776361, 'epoch': 0.2}
+{'loss': 1.4666, 'grad_norm': 0.12945954501628876, 'learning_rate': 0.00046507566109197155, 'epoch': 0.2}
+{'loss': 1.4939, 'grad_norm': 0.13917788863182068, 'learning_rate': 0.0004649698893712695, 'epoch': 0.2}
+{'loss': 1.4781, 'grad_norm': 0.11959806829690933, 'learning_rate': 0.0004648639697882826, 'epoch': 0.2}
+{'loss': 1.504, 'grad_norm': 0.1325482428073883, 'learning_rate': 0.00046475790241586534, 'epoch': 0.2}
+{'loss': 1.4798, 'grad_norm': 0.11927442997694016, 'learning_rate': 0.0004646516873269738, 'epoch': 0.2}
+{'loss': 1.5215, 'grad_norm': 0.13318286836147308, 'learning_rate': 0.00046454532459466567, 'epoch': 0.2}
+{'loss': 1.4916, 'grad_norm': 0.12446718662977219, 'learning_rate': 0.0004644388142921003, 'epoch': 0.2}
+{'loss': 1.4759, 'grad_norm': 0.13722731173038483, 'learning_rate': 0.00046433215649253825, 'epoch': 0.2}
+{'loss': 1.4964, 'grad_norm': 0.11074406653642654, 'learning_rate': 0.00046422535126934187, 'epoch': 0.2}
+{'loss': 1.4743, 'grad_norm': 0.13957834243774414, 'learning_rate': 0.00046411839869597474, 'epoch': 0.2}
+{'loss': 1.4964, 'grad_norm': 0.11319814622402191, 'learning_rate': 0.0004640112988460018, 'epoch': 0.2}
+{'loss': 1.5119, 'grad_norm': 0.164048433303833, 'learning_rate': 0.00046390405179308936, 'epoch': 0.2}
+{'loss': 1.4583, 'grad_norm': 0.13890796899795532, 'learning_rate': 0.00046379665761100486, 'epoch': 0.2}
+{'loss': 1.4658, 'grad_norm': 0.14173747599124908, 'learning_rate': 0.0004636891163736171, 'epoch': 0.2}
+{'loss': 1.4925, 'grad_norm': 0.13924604654312134, 'learning_rate': 0.0004635814281548959, 'epoch': 0.2}
+{'loss': 1.5004, 'grad_norm': 0.13350927829742432, 'learning_rate': 0.0004634735930289122, 'epoch': 0.2}
+{'loss': 1.455, 'grad_norm': 0.13118509948253632, 'learning_rate': 0.0004633656110698381, 'epoch': 0.2}
+{'loss': 1.5016, 'grad_norm': 0.15416090190410614, 'learning_rate': 0.0004632574823519465, 'epoch': 0.2}
+{'loss': 1.4964, 'grad_norm': 0.11921050399541855, 'learning_rate': 0.0004631492069496113, 'epoch': 0.2}
+{'loss': 1.5177, 'grad_norm': 0.137187659740448, 'learning_rate': 0.0004630407849373075, 'epoch': 0.2}
+{'loss': 1.4587, 'grad_norm': 0.12698517739772797, 'learning_rate': 0.0004629322163896107, 'epoch': 0.2}
+{'loss': 1.4876, 'grad_norm': 0.14581523835659027, 'learning_rate': 0.0004628235013811973, 'epoch': 0.2}
+{'loss': 1.4841, 'grad_norm': 0.1323956549167633, 'learning_rate': 0.0004627146399868447, 'epoch': 0.2}
+{'loss': 1.4932, 'grad_norm': 0.13210348784923553, 'learning_rate': 0.0004626056322814307, 'epoch': 0.2}
+{'loss': 1.4916, 'grad_norm': 0.13952672481536865, 'learning_rate': 0.0004624964783399338, 'epoch': 0.2}
+{'loss': 1.4886, 'grad_norm': 0.129659503698349, 'learning_rate': 0.00046238717823743314, 'epoch': 0.2}
+{'loss': 1.4692, 'grad_norm': 0.13188490271568298, 'learning_rate': 0.0004622777320491084, 'epoch': 0.2}
+{'loss': 1.4803, 'grad_norm': 0.13829265534877777, 'learning_rate': 0.00046216813985023973, 'epoch': 0.2}
+{'loss': 1.4772, 'grad_norm': 0.12111008167266846, 'learning_rate': 0.0004620584017162077, 'epoch': 0.2}
+{'loss': 1.4834, 'grad_norm': 0.142358660697937, 'learning_rate': 0.00046194851772249324, 'epoch': 0.2}
+{'loss': 1.4885, 'grad_norm': 0.13752828538417816, 'learning_rate': 0.00046183848794467767, 'epoch': 0.2}
+{'loss': 1.5008, 'grad_norm': 0.11005540937185287, 'learning_rate': 0.0004617283124584425, 'epoch': 0.2}
+{'loss': 1.4812, 'grad_norm': 0.1270717829465866, 'learning_rate': 0.00046161799133956946, 'epoch': 0.2}
+{'loss': 1.467, 'grad_norm': 0.11707662045955658, 'learning_rate': 0.00046150752466394055, 'epoch': 0.2}
+{'loss': 1.4993, 'grad_norm': 0.1258082389831543, 'learning_rate': 0.00046139691250753783, 'epoch': 0.2}
+{'loss': 1.4678, 'grad_norm': 0.12834779918193817, 'learning_rate': 0.0004612861549464434, 'epoch': 0.2}
+{'loss': 1.484, 'grad_norm': 0.13691692054271698, 'learning_rate': 0.00046117525205683946, 'epoch': 0.2}
+{'loss': 1.4716, 'grad_norm': 0.11130178719758987, 'learning_rate': 0.00046106420391500805, 'epoch': 0.2}
+{'loss': 1.5043, 'grad_norm': 0.1544831544160843, 'learning_rate': 0.0004609530105973312, 'epoch': 0.21}
+{'loss': 1.4765, 'grad_norm': 0.1435461789369583, 'learning_rate': 0.00046084167218029073, 'epoch': 0.21}
+{'loss': 1.4993, 'grad_norm': 0.13240687549114227, 'learning_rate': 0.00046073018874046837, 'epoch': 0.21}
+{'loss': 1.4906, 'grad_norm': 0.1462145894765854, 'learning_rate': 0.0004606185603545455, 'epoch': 0.21}
+{'loss': 1.4702, 'grad_norm': 0.1217302456498146, 'learning_rate': 0.0004605067870993033, 'epoch': 0.21}
+{'loss': 1.4784, 'grad_norm': 0.1524098962545395, 'learning_rate': 0.0004603948690516224, 'epoch': 0.21}
+{'loss': 1.4795, 'grad_norm': 0.12755057215690613, 'learning_rate': 0.0004602828062884833, 'epoch': 0.21}
+{'loss': 1.4721, 'grad_norm': 0.14071255922317505, 'learning_rate': 0.00046017059888696577, 'epoch': 0.21}
+{'loss': 1.4822, 'grad_norm': 0.12526445090770721, 'learning_rate': 0.0004600582469242493, 'epoch': 0.21}
+{'loss': 1.4677, 'grad_norm': 0.12529516220092773, 'learning_rate': 0.0004599457504776127, 'epoch': 0.21}
+{'loss': 1.4578, 'grad_norm': 0.1211923286318779, 'learning_rate': 0.00045983310962443403, 'epoch': 0.21}
+{'loss': 1.51, 'grad_norm': 0.12949472665786743, 'learning_rate': 0.00045972032444219094, 'epoch': 0.21}
+{'loss': 1.4893, 'grad_norm': 0.13263270258903503, 'learning_rate': 0.00045960739500846014, 'epoch': 0.21}
+{'loss': 1.4647, 'grad_norm': 0.13780800998210907, 'learning_rate': 0.0004594943214009177, 'epoch': 0.21}
+{'loss': 1.4881, 'grad_norm': 0.13114623725414276, 'learning_rate': 0.0004593811036973389, 'epoch': 0.21}
+{'loss': 1.448, 'grad_norm': 0.15878546237945557, 'learning_rate': 0.00045926774197559774, 'epoch': 0.21}
+{'loss': 1.4728, 'grad_norm': 0.13024184107780457, 'learning_rate': 0.0004591542363136679, 'epoch': 0.21}
+{'loss': 1.4751, 'grad_norm': 0.14468564093112946, 'learning_rate': 0.00045904058678962153, 'epoch': 0.21}
+{'loss': 1.4657, 'grad_norm': 0.12943126261234283, 'learning_rate': 0.00045892679348163003, 'epoch': 0.21}
+{'loss': 1.4872, 'grad_norm': 0.15146926045417786, 'learning_rate': 0.00045881285646796356, 'epoch': 0.21}
+{'loss': 1.4709, 'grad_norm': 0.16275103390216827, 'learning_rate': 0.00045869877582699114, 'epoch': 0.21}
+{'loss': 1.4641, 'grad_norm': 0.11443214118480682, 'learning_rate': 0.00045858455163718076, 'epoch': 0.21}
+{'loss': 1.4974, 'grad_norm': 0.15421725809574127, 'learning_rate': 0.00045847018397709896, 'epoch': 0.21}
+{'loss': 1.4874, 'grad_norm': 0.13487938046455383, 'learning_rate': 0.0004583556729254109, 'epoch': 0.21}
+{'loss': 1.4861, 'grad_norm': 0.1527489423751831, 'learning_rate': 0.0004582410185608805, 'epoch': 0.21}
+{'loss': 1.4754, 'grad_norm': 0.13486145436763763, 'learning_rate': 0.0004581262209623703, 'epoch': 0.21}
+{'loss': 1.5078, 'grad_norm': 0.1506701111793518, 'learning_rate': 0.0004580112802088413, 'epoch': 0.21}
+{'loss': 1.4783, 'grad_norm': 0.13378016650676727, 'learning_rate': 0.00045789619637935295, 'epoch': 0.21}
+{'loss': 1.4925, 'grad_norm': 0.12571659684181213, 'learning_rate': 0.000457780969553063, 'epoch': 0.21}
+{'loss': 1.4942, 'grad_norm': 0.11421613395214081, 'learning_rate': 0.00045766559980922784, 'epoch': 0.21}
+{'loss': 1.4998, 'grad_norm': 0.12145480513572693, 'learning_rate': 0.00045755008722720184, 'epoch': 0.21}
+{'loss': 1.4565, 'grad_norm': 0.11379969120025635, 'learning_rate': 0.00045743443188643785, 'epoch': 0.21}
+{'loss': 1.4741, 'grad_norm': 0.13390739262104034, 'learning_rate': 0.0004573186338664869, 'epoch': 0.21}
+{'loss': 1.4685, 'grad_norm': 0.11683663725852966, 'learning_rate': 0.0004572026932469979, 'epoch': 0.21}
+{'loss': 1.4503, 'grad_norm': 0.12331484258174896, 'learning_rate': 0.00045708661010771836, 'epoch': 0.21}
+{'loss': 1.4746, 'grad_norm': 0.1280750185251236, 'learning_rate': 0.0004569703845284932, 'epoch': 0.21}
+{'loss': 1.4713, 'grad_norm': 0.10938988626003265, 'learning_rate': 0.0004568540165892658, 'epoch': 0.21}
+{'loss': 1.4798, 'grad_norm': 0.12060962617397308, 'learning_rate': 0.00045673750637007714, 'epoch': 0.21}
+{'loss': 1.4786, 'grad_norm': 0.10935619473457336, 'learning_rate': 0.0004566208539510663, 'epoch': 0.21}
+{'loss': 1.4771, 'grad_norm': 0.12268936634063721, 'learning_rate': 0.00045650405941247005, 'epoch': 0.22}
+{'loss': 1.4505, 'grad_norm': 0.12012197822332382, 'learning_rate': 0.00045638712283462284, 'epoch': 0.22}
+{'loss': 1.4633, 'grad_norm': 0.12460487335920334, 'learning_rate': 0.00045627004429795706, 'epoch': 0.22}
+{'loss': 1.4848, 'grad_norm': 0.1079300120472908, 'learning_rate': 0.0004561528238830025, 'epoch': 0.22}
+{'loss': 1.4676, 'grad_norm': 0.12475941330194473, 'learning_rate': 0.00045603546167038663, 'epoch': 0.22}
+{'loss': 1.4796, 'grad_norm': 0.12012665718793869, 'learning_rate': 0.00045591795774083447, 'epoch': 0.22}
+{'loss': 1.4775, 'grad_norm': 0.1210077553987503, 'learning_rate': 0.0004558003121751685, 'epoch': 0.22}
+{'loss': 1.4993, 'grad_norm': 0.13364022970199585, 'learning_rate': 0.0004556825250543086, 'epoch': 0.22}
+{'loss': 1.4776, 'grad_norm': 0.13097065687179565, 'learning_rate': 0.00045556459645927205, 'epoch': 0.22}
+{'loss': 1.493, 'grad_norm': 0.11817999929189682, 'learning_rate': 0.00045544652647117344, 'epoch': 0.22}
+{'loss': 1.4945, 'grad_norm': 0.1292349249124527, 'learning_rate': 0.0004553283151712246, 'epoch': 0.22}
+{'loss': 1.4909, 'grad_norm': 0.12947385013103485, 'learning_rate': 0.0004552099626407345, 'epoch': 0.22}
+{'loss': 1.4725, 'grad_norm': 0.14537762105464935, 'learning_rate': 0.00045509146896110944, 'epoch': 0.22}
+{'loss': 1.4521, 'grad_norm': 0.12870824337005615, 'learning_rate': 0.0004549728342138525, 'epoch': 0.22}
+{'loss': 1.4789, 'grad_norm': 0.17138193547725677, 'learning_rate': 0.0004548540584805642, 'epoch': 0.22}
+{'loss': 1.5016, 'grad_norm': 0.1275760531425476, 'learning_rate': 0.00045473514184294153, 'epoch': 0.22}
+{'loss': 1.4784, 'grad_norm': 0.18341197073459625, 'learning_rate': 0.0004546160843827789, 'epoch': 0.22}
+{'loss': 1.4948, 'grad_norm': 0.14853407442569733, 'learning_rate': 0.00045449688618196714, 'epoch': 0.22}
+{'loss': 1.4693, 'grad_norm': 0.13974028825759888, 'learning_rate': 0.00045437754732249435, 'epoch': 0.22}
+{'loss': 1.4697, 'grad_norm': 0.13913530111312866, 'learning_rate': 0.000454258067886445, 'epoch': 0.22}
+{'loss': 1.4814, 'grad_norm': 0.15319159626960754, 'learning_rate': 0.00045413844795600024, 'epoch': 0.22}
+{'loss': 1.4786, 'grad_norm': 0.12332385033369064, 'learning_rate': 0.00045401868761343824, 'epoch': 0.22}
+{'loss': 1.4898, 'grad_norm': 0.16229702532291412, 'learning_rate': 0.0004538987869411333, 'epoch': 0.22}
+{'loss': 1.4575, 'grad_norm': 0.1279425173997879, 'learning_rate': 0.00045377874602155655, 'epoch': 0.22}
+{'loss': 1.4479, 'grad_norm': 0.1264095902442932, 'learning_rate': 0.00045365856493727547, 'epoch': 0.22}
+{'loss': 1.483, 'grad_norm': 0.12221629917621613, 'learning_rate': 0.00045353824377095396, 'epoch': 0.22}
+{'loss': 1.4733, 'grad_norm': 0.12462427467107773, 'learning_rate': 0.0004534177826053523, 'epoch': 0.22}
+{'loss': 1.4689, 'grad_norm': 0.12302953749895096, 'learning_rate': 0.00045329718152332694, 'epoch': 0.22}
+{'loss': 1.5037, 'grad_norm': 0.13292381167411804, 'learning_rate': 0.00045317644060783083, 'epoch': 0.22}
+{'loss': 1.4736, 'grad_norm': 0.1294689029455185, 'learning_rate': 0.0004530555599419127, 'epoch': 0.22}
+{'loss': 1.4668, 'grad_norm': 0.12815186381340027, 'learning_rate': 0.0004529345396087179, 'epoch': 0.22}
+{'loss': 1.487, 'grad_norm': 0.1346803456544876, 'learning_rate': 0.0004528133796914875, 'epoch': 0.22}
+{'loss': 1.4704, 'grad_norm': 0.1279207468032837, 'learning_rate': 0.00045269208027355856, 'epoch': 0.22}
+{'loss': 1.472, 'grad_norm': 0.15162985026836395, 'learning_rate': 0.00045257064143836435, 'epoch': 0.22}
+{'loss': 1.4724, 'grad_norm': 0.12399715930223465, 'learning_rate': 0.0004524490632694338, 'epoch': 0.22}
+{'loss': 1.4656, 'grad_norm': 0.12421593070030212, 'learning_rate': 0.0004523273458503918, 'epoch': 0.22}
+{'loss': 1.4692, 'grad_norm': 0.13286949694156647, 'learning_rate': 0.00045220548926495896, 'epoch': 0.22}
+{'loss': 1.4864, 'grad_norm': 0.11355214565992355, 'learning_rate': 0.00045208349359695166, 'epoch': 0.22}
+{'loss': 1.4809, 'grad_norm': 0.12569914758205414, 'learning_rate': 0.0004519613589302819, 'epoch': 0.22}
+{'loss': 1.5005, 'grad_norm': 0.12871985137462616, 'learning_rate': 0.00045183908534895733, 'epoch': 0.23}
+{'loss': 1.4681, 'grad_norm': 0.12117024511098862, 'learning_rate': 0.0004517166729370812, 'epoch': 0.23}
+{'loss': 1.4637, 'grad_norm': 0.12004450708627701, 'learning_rate': 0.00045159412177885207, 'epoch': 0.23}
+{'loss': 1.4936, 'grad_norm': 0.11335452646017075, 'learning_rate': 0.00045147143195856397, 'epoch': 0.23}
+{'loss': 1.4967, 'grad_norm': 0.14808416366577148, 'learning_rate': 0.00045134860356060657, 'epoch': 0.23}
+{'loss': 1.4903, 'grad_norm': 0.10529671609401703, 'learning_rate': 0.00045122563666946463, 'epoch': 0.23}
+{'loss': 1.4852, 'grad_norm': 0.15507441759109497, 'learning_rate': 0.00045110253136971813, 'epoch': 0.23}
+{'loss': 1.4658, 'grad_norm': 0.11782911419868469, 'learning_rate': 0.00045097928774604233, 'epoch': 0.23}
+{'loss': 1.4771, 'grad_norm': 0.11899718642234802, 'learning_rate': 0.0004508559058832078, 'epoch': 0.23}
+{'loss': 1.4548, 'grad_norm': 0.1482762098312378, 'learning_rate': 0.0004507323858660798, 'epoch': 0.23}
+{'loss': 1.501, 'grad_norm': 0.11716897040605545, 'learning_rate': 0.00045060872777961887, 'epoch': 0.23}
+{'loss': 1.4784, 'grad_norm': 0.12145610898733139, 'learning_rate': 0.0004504849317088806, 'epoch': 0.23}
+{'loss': 1.486, 'grad_norm': 0.13108526170253754, 'learning_rate': 0.00045036099773901534, 'epoch': 0.23}
+{'loss': 1.4854, 'grad_norm': 0.13646318018436432, 'learning_rate': 0.0004502369259552683, 'epoch': 0.23}
+{'loss': 1.4819, 'grad_norm': 0.11469295620918274, 'learning_rate': 0.00045011271644297956, 'epoch': 0.23}
+{'loss': 1.4653, 'grad_norm': 0.13875113427639008, 'learning_rate': 0.0004499883692875839, 'epoch': 0.23}
+{'loss': 1.4596, 'grad_norm': 0.11942846328020096, 'learning_rate': 0.0004498638845746107, 'epoch': 0.23}
+{'loss': 1.4933, 'grad_norm': 0.11974620074033737, 'learning_rate': 0.000449739262389684, 'epoch': 0.23}
+{'loss': 1.4661, 'grad_norm': 0.14016568660736084, 'learning_rate': 0.00044961450281852253, 'epoch': 0.23}
+{'loss': 1.4574, 'grad_norm': 0.11806824058294296, 'learning_rate': 0.00044948960594693924, 'epoch': 0.23}
+{'loss': 1.4702, 'grad_norm': 0.1262916475534439, 'learning_rate': 0.0004493645718608418, 'epoch': 0.23}
+{'loss': 1.4524, 'grad_norm': 0.14113454520702362, 'learning_rate': 0.00044923940064623216, 'epoch': 0.23}
+{'loss': 1.4645, 'grad_norm': 0.14084722101688385, 'learning_rate': 0.0004491140923892065, 'epoch': 0.23}
+{'loss': 1.4571, 'grad_norm': 0.11525174230337143, 'learning_rate': 0.00044898864717595534, 'epoch': 0.23}
+{'loss': 1.4855, 'grad_norm': 0.1277884691953659, 'learning_rate': 0.0004488630650927634, 'epoch': 0.23}
+{'loss': 1.468, 'grad_norm': 0.1340753734111786, 'learning_rate': 0.00044873734622600956, 'epoch': 0.23}
+{'loss': 1.4832, 'grad_norm': 0.14101582765579224, 'learning_rate': 0.0004486114906621668, 'epoch': 0.23}
+{'loss': 1.4642, 'grad_norm': 0.11789929121732712, 'learning_rate': 0.00044848549848780197, 'epoch': 0.23}
+{'loss': 1.4922, 'grad_norm': 0.13947509229183197, 'learning_rate': 0.00044835936978957603, 'epoch': 0.23}
+{'loss': 1.4957, 'grad_norm': 0.12956000864505768, 'learning_rate': 0.00044823310465424396, 'epoch': 0.23}
+{'loss': 1.4557, 'grad_norm': 0.11577646434307098, 'learning_rate': 0.0004481067031686543, 'epoch': 0.23}
+{'loss': 1.4892, 'grad_norm': 0.12800997495651245, 'learning_rate': 0.00044798016541974957, 'epoch': 0.23}
+{'loss': 1.5029, 'grad_norm': 0.1185966283082962, 'learning_rate': 0.00044785349149456587, 'epoch': 0.23}
+{'loss': 1.4762, 'grad_norm': 0.10686596482992172, 'learning_rate': 0.00044772668148023326, 'epoch': 0.23}
+{'loss': 1.4858, 'grad_norm': 0.14017680287361145, 'learning_rate': 0.000447599735463975, 'epoch': 0.23}
+{'loss': 1.4788, 'grad_norm': 0.12120286375284195, 'learning_rate': 0.00044747265353310825, 'epoch': 0.23}
+{'loss': 1.4952, 'grad_norm': 0.1279143989086151, 'learning_rate': 0.00044734543577504336, 'epoch': 0.23}
+{'loss': 1.4928, 'grad_norm': 0.1271962821483612, 'learning_rate': 0.0004472180822772843, 'epoch': 0.23}
+{'loss': 1.4981, 'grad_norm': 0.13271498680114746, 'learning_rate': 0.0004470905931274285, 'epoch': 0.23}
+{'loss': 1.4717, 'grad_norm': 0.13255248963832855, 'learning_rate': 0.0004469629684131664, 'epoch': 0.24}
+{'loss': 1.4498, 'grad_norm': 0.12168754637241364, 'learning_rate': 0.00044683520822228184, 'epoch': 0.24}
+{'loss': 1.4843, 'grad_norm': 0.1327909678220749, 'learning_rate': 0.0004467073126426519, 'epoch': 0.24}
+{'loss': 1.489, 'grad_norm': 0.1400345414876938, 'learning_rate': 0.00044657928176224673, 'epoch': 0.24}
+{'loss': 1.4715, 'grad_norm': 0.13435335457324982, 'learning_rate': 0.00044645111566912944, 'epoch': 0.24}
+{'loss': 1.4886, 'grad_norm': 0.16189728677272797, 'learning_rate': 0.00044632281445145634, 'epoch': 0.24}
+{'loss': 1.4735, 'grad_norm': 0.13074855506420135, 'learning_rate': 0.0004461943781974766, 'epoch': 0.24}
+{'loss': 1.4808, 'grad_norm': 0.14956723153591156, 'learning_rate': 0.00044606580699553224, 'epoch': 0.24}
+{'loss': 1.48, 'grad_norm': 0.17252682149410248, 'learning_rate': 0.000445937100934058, 'epoch': 0.24}
+{'loss': 1.4802, 'grad_norm': 0.14599443972110748, 'learning_rate': 0.0004458082601015817, 'epoch': 0.24}
+{'loss': 1.4593, 'grad_norm': 0.14510008692741394, 'learning_rate': 0.0004456792845867235, 'epoch': 0.24}
+{'loss': 1.4722, 'grad_norm': 0.13253438472747803, 'learning_rate': 0.0004455501744781964, 'epoch': 0.24}
+{'loss': 1.4922, 'grad_norm': 0.16855916380882263, 'learning_rate': 0.000445420929864806, 'epoch': 0.24}
+{'loss': 1.4829, 'grad_norm': 0.12480716407299042, 'learning_rate': 0.0004452915508354503, 'epoch': 0.24}
+{'loss': 1.4762, 'grad_norm': 0.13969630002975464, 'learning_rate': 0.00044516203747911967, 'epoch': 0.24}
+{'loss': 1.4796, 'grad_norm': 0.13789404928684235, 'learning_rate': 0.00044503238988489725, 'epoch': 0.24}
+{'loss': 1.4707, 'grad_norm': 0.13609090447425842, 'learning_rate': 0.0004449026081419581, 'epoch': 0.24}
+{'loss': 1.4626, 'grad_norm': 0.12564629316329956, 'learning_rate': 0.0004447726923395698, 'epoch': 0.24}
+{'loss': 1.469, 'grad_norm': 0.13864167034626007, 'learning_rate': 0.000444642642567092, 'epoch': 0.24}
+{'loss': 1.4954, 'grad_norm': 0.1415860801935196, 'learning_rate': 0.0004445124589139767, 'epoch': 0.24}
+{'loss': 1.4637, 'grad_norm': 0.13731762766838074, 'learning_rate': 0.00044438214146976765, 'epoch': 0.24}
+{'loss': 1.4591, 'grad_norm': 0.15004433691501617, 'learning_rate': 0.00044425169032410094, 'epoch': 0.24}
+{'loss': 1.4708, 'grad_norm': 0.13545645773410797, 'learning_rate': 0.0004441211055667045, 'epoch': 0.24}
+{'loss': 1.4766, 'grad_norm': 0.12149914354085922, 'learning_rate': 0.0004439903872873982, 'epoch': 0.24}
+{'loss': 1.4767, 'grad_norm': 0.13605891168117523, 'learning_rate': 0.00044385953557609357, 'epoch': 0.24}
+{'loss': 1.467, 'grad_norm': 0.1316870003938675, 'learning_rate': 0.00044372855052279424, 'epoch': 0.24}
+{'loss': 1.488, 'grad_norm': 0.137233704328537, 'learning_rate': 0.0004435974322175953, 'epoch': 0.24}
+{'loss': 1.4802, 'grad_norm': 0.1257604956626892, 'learning_rate': 0.00044346618075068357, 'epoch': 0.24}
+{'loss': 1.4791, 'grad_norm': 0.13571788370609283, 'learning_rate': 0.0004433347962123375, 'epoch': 0.24}
+{'loss': 1.495, 'grad_norm': 0.12311504036188126, 'learning_rate': 0.00044320327869292706, 'epoch': 0.24}
+{'loss': 1.5034, 'grad_norm': 0.12761914730072021, 'learning_rate': 0.00044307162828291356, 'epoch': 0.24}
+{'loss': 1.4937, 'grad_norm': 0.11210383474826813, 'learning_rate': 0.0004429398450728499, 'epoch': 0.24}
+{'loss': 1.4534, 'grad_norm': 0.10529056936502457, 'learning_rate': 0.0004428079291533803, 'epoch': 0.24}
+{'loss': 1.4456, 'grad_norm': 0.11376297473907471, 'learning_rate': 0.00044267588061524014, 'epoch': 0.24}
+{'loss': 1.4512, 'grad_norm': 0.10496385395526886, 'learning_rate': 0.00044254369954925603, 'epoch': 0.24}
+{'loss': 1.4872, 'grad_norm': 0.11672671139240265, 'learning_rate': 0.0004424113860463459, 'epoch': 0.24}
+{'loss': 1.4613, 'grad_norm': 0.11778005957603455, 'learning_rate': 0.0004422789401975187, 'epoch': 0.24}
+{'loss': 1.4504, 'grad_norm': 0.14072658121585846, 'learning_rate': 0.00044214636209387423, 'epoch': 0.24}
+{'loss': 1.4718, 'grad_norm': 0.09882599860429764, 'learning_rate': 0.0004420136518266035, 'epoch': 0.24}
+{'loss': 1.4869, 'grad_norm': 0.13301771879196167, 'learning_rate': 0.00044188080948698825, 'epoch': 0.24}
+{'loss': 1.4703, 'grad_norm': 0.11146695911884308, 'learning_rate': 0.0004417478351664013, 'epoch': 0.25}
+{'loss': 1.481, 'grad_norm': 0.11798929423093796, 'learning_rate': 0.000441614728956306, 'epoch': 0.25}
+{'loss': 1.4576, 'grad_norm': 0.1230456531047821, 'learning_rate': 0.0004414814909482565, 'epoch': 0.25}
+{'loss': 1.4753, 'grad_norm': 0.11608101427555084, 'learning_rate': 0.0004413481212338977, 'epoch': 0.25}
+{'loss': 1.4741, 'grad_norm': 0.1226636990904808, 'learning_rate': 0.00044121461990496487, 'epoch': 0.25}
+{'loss': 1.4827, 'grad_norm': 0.11689115315675735, 'learning_rate': 0.00044108098705328405, 'epoch': 0.25}
+{'loss': 1.4652, 'grad_norm': 0.1416993886232376, 'learning_rate': 0.0004409472227707716, 'epoch': 0.25}
+{'loss': 1.4742, 'grad_norm': 0.12128595262765884, 'learning_rate': 0.00044081332714943436, 'epoch': 0.25}
+{'loss': 1.4803, 'grad_norm': 0.14967846870422363, 'learning_rate': 0.00044067930028136946, 'epoch': 0.25}
+{'loss': 1.4962, 'grad_norm': 0.13009634613990784, 'learning_rate': 0.0004405451422587643, 'epoch': 0.25}
+{'loss': 1.4519, 'grad_norm': 0.10651180148124695, 'learning_rate': 0.0004404108531738965, 'epoch': 0.25}
+{'loss': 1.461, 'grad_norm': 0.14161480963230133, 'learning_rate': 0.0004402764331191339, 'epoch': 0.25}
+{'loss': 1.4523, 'grad_norm': 0.13488146662712097, 'learning_rate': 0.0004401418821869343, 'epoch': 0.25}
+{'loss': 1.4645, 'grad_norm': 0.12679259479045868, 'learning_rate': 0.00044000720046984555, 'epoch': 0.25}
+{'loss': 1.4926, 'grad_norm': 0.12155171483755112, 'learning_rate': 0.00043987238806050566, 'epoch': 0.25}
+{'loss': 1.4908, 'grad_norm': 0.11729796975851059, 'learning_rate': 0.0004397374450516421, 'epoch': 0.25}
+{'loss': 1.476, 'grad_norm': 0.11296962201595306, 'learning_rate': 0.0004396023715360727, 'epoch': 0.25}
+{'loss': 1.4722, 'grad_norm': 0.1179051399230957, 'learning_rate': 0.0004394671676067047, 'epoch': 0.25}
+{'loss': 1.488, 'grad_norm': 0.11816967278718948, 'learning_rate': 0.00043933183335653504, 'epoch': 0.25}
+{'loss': 1.4978, 'grad_norm': 0.1332729309797287, 'learning_rate': 0.00043919636887865043, 'epoch': 0.25}
+{'loss': 1.47, 'grad_norm': 0.12285950034856796, 'learning_rate': 0.0004390607742662272, 'epoch': 0.25}
+{'loss': 1.4682, 'grad_norm': 0.12199818342924118, 'learning_rate': 0.000438925049612531, 'epoch': 0.25}
+{'loss': 1.4561, 'grad_norm': 0.12797684967517853, 'learning_rate': 0.0004387891950109171, 'epoch': 0.25}
+{'loss': 1.4756, 'grad_norm': 0.13490067422389984, 'learning_rate': 0.0004386532105548301, 'epoch': 0.25}
+{'loss': 1.4665, 'grad_norm': 0.13368596136569977, 'learning_rate': 0.0004385170963378039, 'epoch': 0.25}
+{'loss': 1.4708, 'grad_norm': 0.13868184387683868, 'learning_rate': 0.0004383808524534615, 'epoch': 0.25}
+{'loss': 1.4749, 'grad_norm': 0.13812439143657684, 'learning_rate': 0.00043824447899551547, 'epoch': 0.25}
+{'loss': 1.4884, 'grad_norm': 0.13690033555030823, 'learning_rate': 0.0004381079760577671, 'epoch': 0.25}
+{'loss': 1.4726, 'grad_norm': 0.15839512646198273, 'learning_rate': 0.0004379713437341071, 'epoch': 0.25}
+{'loss': 1.4765, 'grad_norm': 0.13123807311058044, 'learning_rate': 0.0004378345821185148, 'epoch': 0.25}
+{'loss': 1.468, 'grad_norm': 0.1496257334947586, 'learning_rate': 0.00043769769130505863, 'epoch': 0.25}
+{'loss': 1.4832, 'grad_norm': 0.14364635944366455, 'learning_rate': 0.00043756067138789616, 'epoch': 0.25}
+{'loss': 1.4543, 'grad_norm': 0.13297715783119202, 'learning_rate': 0.00043742352246127334, 'epoch': 0.25}
+{'loss': 1.4785, 'grad_norm': 0.1375489979982376, 'learning_rate': 0.00043728624461952505, 'epoch': 0.25}
+{'loss': 1.4911, 'grad_norm': 0.15224742889404297, 'learning_rate': 0.00043714883795707476, 'epoch': 0.25}
+{'loss': 1.4708, 'grad_norm': 0.12574638426303864, 'learning_rate': 0.0004370113025684347, 'epoch': 0.25}
+{'loss': 1.487, 'grad_norm': 0.1369912028312683, 'learning_rate': 0.0004368736385482056, 'epoch': 0.25}
+{'loss': 1.4897, 'grad_norm': 0.11782931536436081, 'learning_rate': 0.0004367358459910764, 'epoch': 0.25}
+{'loss': 1.4801, 'grad_norm': 0.12159524857997894, 'learning_rate': 0.00043659792499182483, 'epoch': 0.25}
+{'loss': 1.481, 'grad_norm': 0.12309905141592026, 'learning_rate': 0.0004364598756453167, 'epoch': 0.26}
+{'loss': 1.4603, 'grad_norm': 0.12009264528751373, 'learning_rate': 0.00043632169804650627, 'epoch': 0.26}
+{'loss': 1.4781, 'grad_norm': 0.14052551984786987, 'learning_rate': 0.00043618339229043596, 'epoch': 0.26}
+{'loss': 1.4643, 'grad_norm': 0.11040092259645462, 'learning_rate': 0.00043604495847223627, 'epoch': 0.26}
+{'loss': 1.4745, 'grad_norm': 0.1394575983285904, 'learning_rate': 0.0004359063966871259, 'epoch': 0.26}
+{'loss': 1.4495, 'grad_norm': 0.13285380601882935, 'learning_rate': 0.0004357677070304115, 'epoch': 0.26}
+{'loss': 1.4805, 'grad_norm': 0.12724824249744415, 'learning_rate': 0.0004356288895974876, 'epoch': 0.26}
+{'loss': 1.4478, 'grad_norm': 0.12277360260486603, 'learning_rate': 0.00043548994448383674, 'epoch': 0.26}
+{'loss': 1.4775, 'grad_norm': 0.11486797779798508, 'learning_rate': 0.0004353508717850293, 'epoch': 0.26}
+{'loss': 1.4567, 'grad_norm': 0.10854893922805786, 'learning_rate': 0.00043521167159672335, 'epoch': 0.26}
+{'loss': 1.4675, 'grad_norm': 0.11581752449274063, 'learning_rate': 0.0004350723440146646, 'epoch': 0.26}
+{'loss': 1.477, 'grad_norm': 0.12220346927642822, 'learning_rate': 0.0004349328891346865, 'epoch': 0.26}
+{'loss': 1.4686, 'grad_norm': 0.12144225835800171, 'learning_rate': 0.00043479330705271, 'epoch': 0.26}
+{'loss': 1.4683, 'grad_norm': 0.12819203734397888, 'learning_rate': 0.0004346535978647435, 'epoch': 0.26}
+{'loss': 1.5002, 'grad_norm': 0.12181350588798523, 'learning_rate': 0.00043451376166688297, 'epoch': 0.26}
+{'loss': 1.4548, 'grad_norm': 0.11635178327560425, 'learning_rate': 0.00043437379855531155, 'epoch': 0.26}
+{'loss': 1.4659, 'grad_norm': 0.1250401735305786, 'learning_rate': 0.00043423370862629985, 'epoch': 0.26}
+{'loss': 1.4803, 'grad_norm': 0.1295134574174881, 'learning_rate': 0.0004340934919762055, 'epoch': 0.26}
+{'loss': 1.4624, 'grad_norm': 0.11791382730007172, 'learning_rate': 0.0004339531487014736, 'epoch': 0.26}
+{'loss': 1.4717, 'grad_norm': 0.14223727583885193, 'learning_rate': 0.0004338126788986361, 'epoch': 0.26}
+{'loss': 1.4743, 'grad_norm': 0.13644719123840332, 'learning_rate': 0.0004336720826643119, 'epoch': 0.26}
+{'loss': 1.4826, 'grad_norm': 0.1489405333995819, 'learning_rate': 0.0004335313600952072, 'epoch': 0.26}
+{'loss': 1.4601, 'grad_norm': 0.14081858098506927, 'learning_rate': 0.0004333905112881149, 'epoch': 0.26}
+{'loss': 1.4775, 'grad_norm': 0.14170682430267334, 'learning_rate': 0.00043324953633991467, 'epoch': 0.26}
+{'loss': 1.4907, 'grad_norm': 0.1268385946750641, 'learning_rate': 0.000433108435347573, 'epoch': 0.26}
+{'loss': 1.4336, 'grad_norm': 0.14725683629512787, 'learning_rate': 0.0004329672084081431, 'epoch': 0.26}
+{'loss': 1.4523, 'grad_norm': 0.12379725277423859, 'learning_rate': 0.0004328258556187649, 'epoch': 0.26}
+{'loss': 1.4651, 'grad_norm': 0.1333717703819275, 'learning_rate': 0.0004326843770766645, 'epoch': 0.26}
+{'loss': 1.4609, 'grad_norm': 0.12163059413433075, 'learning_rate': 0.0004325427728791552, 'epoch': 0.26}
+{'loss': 1.4674, 'grad_norm': 0.11682181060314178, 'learning_rate': 0.000432401043123636, 'epoch': 0.26}
+{'loss': 1.4472, 'grad_norm': 0.12204764038324356, 'learning_rate': 0.00043225918790759275, 'epoch': 0.26}
+{'loss': 1.4635, 'grad_norm': 0.12151603400707245, 'learning_rate': 0.00043211720732859725, 'epoch': 0.26}
+{'loss': 1.4636, 'grad_norm': 0.12960588932037354, 'learning_rate': 0.00043197510148430785, 'epoch': 0.26}
+{'loss': 1.4542, 'grad_norm': 0.1120787188410759, 'learning_rate': 0.0004318328704724689, 'epoch': 0.26}
+{'loss': 1.4902, 'grad_norm': 0.14244291186332703, 'learning_rate': 0.00043169051439091076, 'epoch': 0.26}
+{'loss': 1.4647, 'grad_norm': 0.10964369028806686, 'learning_rate': 0.0004315480333375501, 'epoch': 0.26}
+{'loss': 1.4837, 'grad_norm': 0.12264010310173035, 'learning_rate': 0.00043140542741038914, 'epoch': 0.26}
+{'loss': 1.4963, 'grad_norm': 0.12713029980659485, 'learning_rate': 0.0004312626967075164, 'epoch': 0.26}
+{'loss': 1.4797, 'grad_norm': 0.1326114535331726, 'learning_rate': 0.00043111984132710585, 'epoch': 0.26}
+{'loss': 1.4761, 'grad_norm': 0.12262997031211853, 'learning_rate': 0.0004309768613674175, 'epoch': 0.27}
+{'loss': 1.472, 'grad_norm': 0.1361261010169983, 'learning_rate': 0.00043083375692679705, 'epoch': 0.27}
+{'loss': 1.45, 'grad_norm': 0.13408426940441132, 'learning_rate': 0.0004306905281036756, 'epoch': 0.27}
+{'loss': 1.4547, 'grad_norm': 0.128495991230011, 'learning_rate': 0.0004305471749965699, 'epoch': 0.27}
+{'loss': 1.4856, 'grad_norm': 0.1168280616402626, 'learning_rate': 0.0004304036977040824, 'epoch': 0.27}
+{'loss': 1.4644, 'grad_norm': 0.12162333726882935, 'learning_rate': 0.0004302600963249006, 'epoch': 0.27}
+{'loss': 1.4518, 'grad_norm': 0.11328300833702087, 'learning_rate': 0.00043011637095779755, 'epoch': 0.27}
+{'loss': 1.4859, 'grad_norm': 0.12900492548942566, 'learning_rate': 0.00042997252170163164, 'epoch': 0.27}
+{'loss': 1.4595, 'grad_norm': 0.11945345252752304, 'learning_rate': 0.0004298285486553464, 'epoch': 0.27}
+{'loss': 1.4734, 'grad_norm': 0.14136700332164764, 'learning_rate': 0.00042968445191797044, 'epoch': 0.27}
+{'loss': 1.4817, 'grad_norm': 0.11887944489717484, 'learning_rate': 0.0004295402315886176, 'epoch': 0.27}
+{'loss': 1.4847, 'grad_norm': 0.12873026728630066, 'learning_rate': 0.0004293958877664865, 'epoch': 0.27}
+{'loss': 1.4725, 'grad_norm': 0.12015996128320694, 'learning_rate': 0.0004292514205508611, 'epoch': 0.27}
+{'loss': 1.4702, 'grad_norm': 0.14425551891326904, 'learning_rate': 0.0004291068300411097, 'epoch': 0.27}
+{'loss': 1.4548, 'grad_norm': 0.12405036389827728, 'learning_rate': 0.0004289621163366858, 'epoch': 0.27}
+{'loss': 1.4757, 'grad_norm': 0.11511849611997604, 'learning_rate': 0.00042881727953712756, 'epoch': 0.27}
+{'loss': 1.4415, 'grad_norm': 0.13747212290763855, 'learning_rate': 0.00042867231974205776, 'epoch': 0.27}
+{'loss': 1.4627, 'grad_norm': 0.11878038197755814, 'learning_rate': 0.00042852723705118375, 'epoch': 0.27}
+{'loss': 1.4628, 'grad_norm': 0.1524922102689743, 'learning_rate': 0.00042838203156429745, 'epoch': 0.27}
+{'loss': 1.4696, 'grad_norm': 0.14092986285686493, 'learning_rate': 0.0004282367033812753, 'epoch': 0.27}
+{'loss': 1.4705, 'grad_norm': 0.14588786661624908, 'learning_rate': 0.000428091252602078, 'epoch': 0.27}
+{'loss': 1.4464, 'grad_norm': 0.1205100566148758, 'learning_rate': 0.00042794567932675066, 'epoch': 0.27}
+{'loss': 1.4708, 'grad_norm': 0.15044906735420227, 'learning_rate': 0.0004277999836554227, 'epoch': 0.27}
+{'loss': 1.4648, 'grad_norm': 0.12330064922571182, 'learning_rate': 0.00042765416568830766, 'epoch': 0.27}
+{'loss': 1.4442, 'grad_norm': 0.12055233865976334, 'learning_rate': 0.0004275082255257032, 'epoch': 0.27}
+{'loss': 1.465, 'grad_norm': 0.12866440415382385, 'learning_rate': 0.00042736216326799096, 'epoch': 0.27}
+{'loss': 1.4911, 'grad_norm': 0.11266027390956879, 'learning_rate': 0.0004272159790156367, 'epoch': 0.27}
+{'loss': 1.4607, 'grad_norm': 0.11049163341522217, 'learning_rate': 0.00042706967286918997, 'epoch': 0.27}
+{'loss': 1.4749, 'grad_norm': 0.11153674125671387, 'learning_rate': 0.0004269232449292843, 'epoch': 0.27}
+{'loss': 1.4666, 'grad_norm': 0.14940336346626282, 'learning_rate': 0.00042677669529663686, 'epoch': 0.27}
+{'loss': 1.4708, 'grad_norm': 0.11522413790225983, 'learning_rate': 0.00042663002407204866, 'epoch': 0.27}
+{'loss': 1.4435, 'grad_norm': 0.12603043019771576, 'learning_rate': 0.0004264832313564041, 'epoch': 0.27}
+{'loss': 1.4454, 'grad_norm': 0.11746662110090256, 'learning_rate': 0.0004263363172506714, 'epoch': 0.27}
+{'loss': 1.4495, 'grad_norm': 0.11705126613378525, 'learning_rate': 0.0004261892818559021, 'epoch': 0.27}
+{'loss': 1.4662, 'grad_norm': 0.11636459082365036, 'learning_rate': 0.0004260421252732314, 'epoch': 0.27}
+{'loss': 1.4675, 'grad_norm': 0.1348288506269455, 'learning_rate': 0.00042589484760387767, 'epoch': 0.27}
+{'loss': 1.4946, 'grad_norm': 0.1151486486196518, 'learning_rate': 0.00042574744894914243, 'epoch': 0.27}
+{'loss': 1.4713, 'grad_norm': 0.1210106685757637, 'learning_rate': 0.0004255999294104107, 'epoch': 0.27}
+{'loss': 1.4632, 'grad_norm': 0.12427316606044769, 'learning_rate': 0.00042545228908915056, 'epoch': 0.27}
+{'loss': 1.4736, 'grad_norm': 0.12334871292114258, 'learning_rate': 0.0004253045280869131, 'epoch': 0.28}
+{'loss': 1.473, 'grad_norm': 0.1326274871826172, 'learning_rate': 0.0004251566465053325, 'epoch': 0.28}
+{'loss': 1.4541, 'grad_norm': 0.11471903324127197, 'learning_rate': 0.00042500864444612574, 'epoch': 0.28}
+{'loss': 1.4721, 'grad_norm': 0.13479486107826233, 'learning_rate': 0.0004248605220110929, 'epoch': 0.28}
+{'loss': 1.4459, 'grad_norm': 0.13208234310150146, 'learning_rate': 0.00042471227930211653, 'epoch': 0.28}
+{'loss': 1.4712, 'grad_norm': 0.1473883092403412, 'learning_rate': 0.0004245639164211623, 'epoch': 0.28}
+{'loss': 1.4716, 'grad_norm': 0.13532742857933044, 'learning_rate': 0.0004244154334702782, 'epoch': 0.28}
+{'loss': 1.4772, 'grad_norm': 0.1316535472869873, 'learning_rate': 0.0004242668305515951, 'epoch': 0.28}
+{'loss': 1.5021, 'grad_norm': 0.13620883226394653, 'learning_rate': 0.00042411810776732606, 'epoch': 0.28}
+{'loss': 1.4841, 'grad_norm': 0.15114207565784454, 'learning_rate': 0.0004239692652197668, 'epoch': 0.28}
+{'loss': 1.4451, 'grad_norm': 0.12777869403362274, 'learning_rate': 0.00042382030301129546, 'epoch': 0.28}
+{'loss': 1.4895, 'grad_norm': 0.1582263559103012, 'learning_rate': 0.0004236712212443723, 'epoch': 0.28}
+{'loss': 1.4644, 'grad_norm': 0.11179588735103607, 'learning_rate': 0.00042352202002154005, 'epoch': 0.28}
+{'loss': 1.4723, 'grad_norm': 0.14207300543785095, 'learning_rate': 0.0004233726994454232, 'epoch': 0.28}
+{'loss': 1.4856, 'grad_norm': 0.11909499764442444, 'learning_rate': 0.000423223259618729, 'epoch': 0.28}
+{'loss': 1.4713, 'grad_norm': 0.1402144879102707, 'learning_rate': 0.000423073700644246, 'epoch': 0.28}
+{'loss': 1.4652, 'grad_norm': 0.11752407997846603, 'learning_rate': 0.00042292402262484517, 'epoch': 0.28}
+{'loss': 1.4663, 'grad_norm': 0.1142704114317894, 'learning_rate': 0.0004227742256634792, 'epoch': 0.28}
+{'loss': 1.4589, 'grad_norm': 0.12180226296186447, 'learning_rate': 0.0004226243098631826, 'epoch': 0.28}
+{'loss': 1.4804, 'grad_norm': 0.12059392035007477, 'learning_rate': 0.00042247427532707174, 'epoch': 0.28}
+{'loss': 1.4746, 'grad_norm': 0.11720981448888779, 'learning_rate': 0.00042232412215834444, 'epoch': 0.28}
+{'loss': 1.4564, 'grad_norm': 0.1099940612912178, 'learning_rate': 0.00042217385046028024, 'epoch': 0.28}
+{'loss': 1.4617, 'grad_norm': 0.13200786709785461, 'learning_rate': 0.00042202346033624026, 'epoch': 0.28}
+{'loss': 1.4704, 'grad_norm': 0.11888568103313446, 'learning_rate': 0.0004218729518896671, 'epoch': 0.28}
+{'loss': 1.4807, 'grad_norm': 0.1252584308385849, 'learning_rate': 0.0004217223252240845, 'epoch': 0.28}
+{'loss': 1.4611, 'grad_norm': 0.11382369697093964, 'learning_rate': 0.00042157158044309775, 'epoch': 0.28}
+{'loss': 1.4691, 'grad_norm': 0.11110135912895203, 'learning_rate': 0.00042142071765039325, 'epoch': 0.28}
+{'loss': 1.4719, 'grad_norm': 0.12330412119626999, 'learning_rate': 0.0004212697369497388, 'epoch': 0.28}
+{'loss': 1.4836, 'grad_norm': 0.11017061769962311, 'learning_rate': 0.00042111863844498297, 'epoch': 0.28}
+{'loss': 1.4692, 'grad_norm': 0.12033842504024506, 'learning_rate': 0.0004209674222400557, 'epoch': 0.28}
+{'loss': 1.4586, 'grad_norm': 0.12354372441768646, 'learning_rate': 0.00042081608843896754, 'epoch': 0.28}
+{'loss': 1.4651, 'grad_norm': 0.126871258020401, 'learning_rate': 0.00042066463714581013, 'epoch': 0.28}
+{'loss': 1.4791, 'grad_norm': 0.12371643632650375, 'learning_rate': 0.000420513068464756, 'epoch': 0.28}
+{'loss': 1.4572, 'grad_norm': 0.12112091481685638, 'learning_rate': 0.00042036138250005817, 'epoch': 0.28}
+{'loss': 1.489, 'grad_norm': 0.11355088651180267, 'learning_rate': 0.00042020957935605066, 'epoch': 0.28}
+{'loss': 1.4475, 'grad_norm': 0.14595769345760345, 'learning_rate': 0.0004200576591371477, 'epoch': 0.28}
+{'loss': 1.4795, 'grad_norm': 0.11201237142086029, 'learning_rate': 0.00041990562194784434, 'epoch': 0.28}
+{'loss': 1.4639, 'grad_norm': 0.1142142117023468, 'learning_rate': 0.0004197534678927161, 'epoch': 0.28}
+{'loss': 1.4537, 'grad_norm': 0.12546199560165405, 'learning_rate': 0.0004196011970764186, 'epoch': 0.28}
+{'loss': 1.4627, 'grad_norm': 0.11829748749732971, 'learning_rate': 0.000419448809603688, 'epoch': 0.29}
+{'loss': 1.4614, 'grad_norm': 0.1318807154893875, 'learning_rate': 0.00041929630557934085, 'epoch': 0.29}
+{'loss': 1.4955, 'grad_norm': 0.127149298787117, 'learning_rate': 0.0004191436851082735, 'epoch': 0.29}
+{'loss': 1.4584, 'grad_norm': 0.11961279809474945, 'learning_rate': 0.00041899094829546244, 'epoch': 0.29}
+{'loss': 1.4659, 'grad_norm': 0.11411004513502121, 'learning_rate': 0.0004188380952459646, 'epoch': 0.29}
+{'loss': 1.4625, 'grad_norm': 0.12143146246671677, 'learning_rate': 0.0004186851260649164, 'epoch': 0.29}
+{'loss': 1.4971, 'grad_norm': 0.12121844291687012, 'learning_rate': 0.00041853204085753426, 'epoch': 0.29}
+{'loss': 1.4778, 'grad_norm': 0.12976011633872986, 'learning_rate': 0.00041837883972911454, 'epoch': 0.29}
+{'loss': 1.4586, 'grad_norm': 0.10890283435583115, 'learning_rate': 0.00041822552278503335, 'epoch': 0.29}
+{'loss': 1.4807, 'grad_norm': 0.12025411427021027, 'learning_rate': 0.0004180720901307461, 'epoch': 0.29}
+{'loss': 1.4557, 'grad_norm': 0.11869781464338303, 'learning_rate': 0.0004179185418717883, 'epoch': 0.29}
+{'loss': 1.4821, 'grad_norm': 0.13735997676849365, 'learning_rate': 0.00041776487811377456, 'epoch': 0.29}
+{'loss': 1.4592, 'grad_norm': 0.11572526395320892, 'learning_rate': 0.00041761109896239917, 'epoch': 0.29}
+{'loss': 1.4978, 'grad_norm': 0.1142612174153328, 'learning_rate': 0.0004174572045234357, 'epoch': 0.29}
+{'loss': 1.486, 'grad_norm': 0.11399757117033005, 'learning_rate': 0.00041730319490273707, 'epoch': 0.29}
+{'loss': 1.4582, 'grad_norm': 0.12550435960292816, 'learning_rate': 0.00041714907020623537, 'epoch': 0.29}
+{'loss': 1.4581, 'grad_norm': 0.1376170963048935, 'learning_rate': 0.0004169948305399418, 'epoch': 0.29}
+{'loss': 1.4885, 'grad_norm': 0.1186855211853981, 'learning_rate': 0.00041684047600994676, 'epoch': 0.29}
+{'loss': 1.4642, 'grad_norm': 0.13134709000587463, 'learning_rate': 0.00041668600672241975, 'epoch': 0.29}
+{'loss': 1.4534, 'grad_norm': 0.13498292863368988, 'learning_rate': 0.00041653142278360873, 'epoch': 0.29}
+{'loss': 1.4804, 'grad_norm': 0.12099479883909225, 'learning_rate': 0.00041637672429984106, 'epoch': 0.29}
+{'loss': 1.4707, 'grad_norm': 0.12595663964748383, 'learning_rate': 0.00041622191137752275, 'epoch': 0.29}
+{'loss': 1.4748, 'grad_norm': 0.11743710190057755, 'learning_rate': 0.0004160669841231382, 'epoch': 0.29}
+{'loss': 1.4508, 'grad_norm': 0.11792539060115814, 'learning_rate': 0.0004159119426432509, 'epoch': 0.29}
+{'loss': 1.491, 'grad_norm': 0.12751886248588562, 'learning_rate': 0.0004157567870445026, 'epoch': 0.29}
+{'loss': 1.4614, 'grad_norm': 0.12814508378505707, 'learning_rate': 0.0004156015174336136, 'epoch': 0.29}
+{'loss': 1.47, 'grad_norm': 0.11468590050935745, 'learning_rate': 0.00041544613391738286, 'epoch': 0.29}
+{'loss': 1.459, 'grad_norm': 0.0983654335141182, 'learning_rate': 0.0004152906366026873, 'epoch': 0.29}
+{'loss': 1.4578, 'grad_norm': 0.12919005751609802, 'learning_rate': 0.0004151350255964824, 'epoch': 0.29}
+{'loss': 1.4646, 'grad_norm': 0.11980924755334854, 'learning_rate': 0.00041497930100580177, 'epoch': 0.29}
+{'loss': 1.4759, 'grad_norm': 0.124513640999794, 'learning_rate': 0.00041482346293775707, 'epoch': 0.29}
+{'loss': 1.4816, 'grad_norm': 0.11336036771535873, 'learning_rate': 0.00041466751149953806, 'epoch': 0.29}
+{'loss': 1.4787, 'grad_norm': 0.12667298316955566, 'learning_rate': 0.0004145114467984126, 'epoch': 0.29}
+{'loss': 1.4667, 'grad_norm': 0.10879894345998764, 'learning_rate': 0.00041435526894172624, 'epoch': 0.29}
+{'loss': 1.4758, 'grad_norm': 0.12124977260828018, 'learning_rate': 0.0004141989780369025, 'epoch': 0.29}
+{'loss': 1.4749, 'grad_norm': 0.11977658420801163, 'learning_rate': 0.0004140425741914426, 'epoch': 0.29}
+{'loss': 1.4846, 'grad_norm': 0.12361093610525131, 'learning_rate': 0.0004138860575129254, 'epoch': 0.29}
+{'loss': 1.4774, 'grad_norm': 0.09906411916017532, 'learning_rate': 0.00041372942810900766, 'epoch': 0.29}
+{'loss': 1.4753, 'grad_norm': 0.12766492366790771, 'learning_rate': 0.00041357268608742317, 'epoch': 0.29}
+{'loss': 1.4656, 'grad_norm': 0.11385969817638397, 'learning_rate': 0.0004134158315559837, 'epoch': 0.3}
+{'loss': 1.4909, 'grad_norm': 0.1155097633600235, 'learning_rate': 0.0004132588646225781, 'epoch': 0.3}
+{'loss': 1.4719, 'grad_norm': 0.11683624237775803, 'learning_rate': 0.0004131017853951725, 'epoch': 0.3}
+{'loss': 1.4609, 'grad_norm': 0.1032295897603035, 'learning_rate': 0.00041294459398181046, 'epoch': 0.3}
+{'loss': 1.4968, 'grad_norm': 0.1184941828250885, 'learning_rate': 0.0004127872904906126, 'epoch': 0.3}
+{'loss': 1.4808, 'grad_norm': 0.11514083296060562, 'learning_rate': 0.0004126298750297767, 'epoch': 0.3}
+{'loss': 1.4501, 'grad_norm': 0.09923707693815231, 'learning_rate': 0.00041247234770757735, 'epoch': 0.3}
+{'loss': 1.4751, 'grad_norm': 0.1169210895895958, 'learning_rate': 0.00041231470863236643, 'epoch': 0.3}
+{'loss': 1.5075, 'grad_norm': 0.11860479414463043, 'learning_rate': 0.0004121569579125724, 'epoch': 0.3}
+{'loss': 1.4779, 'grad_norm': 0.10521945357322693, 'learning_rate': 0.0004119990956567006, 'epoch': 0.3}
+{'loss': 1.4633, 'grad_norm': 0.10957112163305283, 'learning_rate': 0.0004118411219733331, 'epoch': 0.3}
+{'loss': 1.4657, 'grad_norm': 0.12862049043178558, 'learning_rate': 0.0004116830369711286, 'epoch': 0.3}
+{'loss': 1.4868, 'grad_norm': 0.11899729073047638, 'learning_rate': 0.00041152484075882245, 'epoch': 0.3}
+{'loss': 1.4565, 'grad_norm': 0.13193686306476593, 'learning_rate': 0.00041136653344522634, 'epoch': 0.3}
+{'loss': 1.4652, 'grad_norm': 0.10512512177228928, 'learning_rate': 0.0004112081151392283, 'epoch': 0.3}
+{'loss': 1.4697, 'grad_norm': 0.11456335335969925, 'learning_rate': 0.00041104958594979327, 'epoch': 0.3}
+{'loss': 1.4809, 'grad_norm': 0.12594181299209595, 'learning_rate': 0.0004108909459859616, 'epoch': 0.3}
+{'loss': 1.4988, 'grad_norm': 0.13105915486812592, 'learning_rate': 0.00041073219535685057, 'epoch': 0.3}
+{'loss': 1.4584, 'grad_norm': 0.11872366070747375, 'learning_rate': 0.00041057333417165315, 'epoch': 0.3}
+{'loss': 1.4592, 'grad_norm': 0.1200939267873764, 'learning_rate': 0.0004104143625396386, 'epoch': 0.3}
+{'loss': 1.4566, 'grad_norm': 0.12602798640727997, 'learning_rate': 0.00041025528057015196, 'epoch': 0.3}
+{'loss': 1.4891, 'grad_norm': 0.13374286890029907, 'learning_rate': 0.0004100960883726142, 'epoch': 0.3}
+{'loss': 1.4733, 'grad_norm': 0.13152506947517395, 'learning_rate': 0.0004099367860565223, 'epoch': 0.3}
+{'loss': 1.4679, 'grad_norm': 0.1337001770734787, 'learning_rate': 0.00040977737373144873, 'epoch': 0.3}
+{'loss': 1.4611, 'grad_norm': 0.13955728709697723, 'learning_rate': 0.0004096178515070418, 'epoch': 0.3}
+{'loss': 1.4525, 'grad_norm': 0.1464354395866394, 'learning_rate': 0.0004094582194930253, 'epoch': 0.3}
+{'loss': 1.4598, 'grad_norm': 0.14859673380851746, 'learning_rate': 0.00040929847779919853, 'epoch': 0.3}
+{'loss': 1.4751, 'grad_norm': 0.11873119324445724, 'learning_rate': 0.0004091386265354364, 'epoch': 0.3}
+{'loss': 1.4583, 'grad_norm': 0.14520570635795593, 'learning_rate': 0.000408978665811689, 'epoch': 0.3}
+{'loss': 1.4625, 'grad_norm': 0.13391557335853577, 'learning_rate': 0.00040881859573798176, 'epoch': 0.3}
+{'loss': 1.4859, 'grad_norm': 0.14249350130558014, 'learning_rate': 0.00040865841642441524, 'epoch': 0.3}
+{'loss': 1.464, 'grad_norm': 0.11581631749868393, 'learning_rate': 0.0004084981279811656, 'epoch': 0.3}
+{'loss': 1.4595, 'grad_norm': 0.11165674030780792, 'learning_rate': 0.0004083377305184833, 'epoch': 0.3}
+{'loss': 1.5086, 'grad_norm': 0.12267933040857315, 'learning_rate': 0.0004081772241466944, 'epoch': 0.3}
+{'loss': 1.4782, 'grad_norm': 0.1149657815694809, 'learning_rate': 0.00040801660897619963, 'epoch': 0.3}
+{'loss': 1.4846, 'grad_norm': 0.11936922371387482, 'learning_rate': 0.00040785588511747453, 'epoch': 0.3}
+{'loss': 1.4607, 'grad_norm': 0.09514949470758438, 'learning_rate': 0.00040769505268106943, 'epoch': 0.3}
+{'loss': 1.4577, 'grad_norm': 0.11472901701927185, 'learning_rate': 0.0004075341117776095, 'epoch': 0.3}
+{'loss': 1.4813, 'grad_norm': 0.10754261165857315, 'learning_rate': 0.00040737306251779426, 'epoch': 0.3}
+{'loss': 1.488, 'grad_norm': 0.11444678902626038, 'learning_rate': 0.000407211905012398, 'epoch': 0.31}
+{'loss': 1.4705, 'grad_norm': 0.11648265272378922, 'learning_rate': 0.00040705063937226916, 'epoch': 0.31}
+{'loss': 1.4467, 'grad_norm': 0.11726794391870499, 'learning_rate': 0.00040688926570833095, 'epoch': 0.31}
+{'loss': 1.4645, 'grad_norm': 0.11449465155601501, 'learning_rate': 0.00040672778413158053, 'epoch': 0.31}
+{'loss': 1.467, 'grad_norm': 0.1273457258939743, 'learning_rate': 0.00040656619475308944, 'epoch': 0.31}
+{'loss': 1.4795, 'grad_norm': 0.11033052206039429, 'learning_rate': 0.0004064044976840035, 'epoch': 0.31}
+{'loss': 1.4648, 'grad_norm': 0.11261029541492462, 'learning_rate': 0.0004062426930355423, 'epoch': 0.31}
+{'loss': 1.451, 'grad_norm': 0.11284886300563812, 'learning_rate': 0.0004060807809189997, 'epoch': 0.31}
+{'loss': 1.4927, 'grad_norm': 0.1312480866909027, 'learning_rate': 0.0004059187614457432, 'epoch': 0.31}
+{'loss': 1.4597, 'grad_norm': 0.11050820350646973, 'learning_rate': 0.0004057566347272146, 'epoch': 0.31}
+{'loss': 1.4678, 'grad_norm': 0.11864738911390305, 'learning_rate': 0.00040559440087492896, 'epoch': 0.31}
+{'loss': 1.4587, 'grad_norm': 0.1196870431303978, 'learning_rate': 0.0004054320600004753, 'epoch': 0.31}
+{'loss': 1.46, 'grad_norm': 0.11894360929727554, 'learning_rate': 0.00040526961221551617, 'epoch': 0.31}
+{'loss': 1.4627, 'grad_norm': 0.1168597936630249, 'learning_rate': 0.0004051070576317877, 'epoch': 0.31}
+{'loss': 1.4655, 'grad_norm': 0.1216302365064621, 'learning_rate': 0.0004049443963610996, 'epoch': 0.31}
+{'loss': 1.47, 'grad_norm': 0.11280817538499832, 'learning_rate': 0.0004047816285153346, 'epoch': 0.31}
+{'loss': 1.4613, 'grad_norm': 0.11242570728063583, 'learning_rate': 0.0004046187542064491, 'epoch': 0.31}
+{'loss': 1.4706, 'grad_norm': 0.1223803237080574, 'learning_rate': 0.0004044557735464726, 'epoch': 0.31}
+{'loss': 1.4632, 'grad_norm': 0.11087267845869064, 'learning_rate': 0.00040429268664750773, 'epoch': 0.31}
+{'loss': 1.4737, 'grad_norm': 0.11518677324056625, 'learning_rate': 0.00040412949362173017, 'epoch': 0.31}
+{'loss': 1.4904, 'grad_norm': 0.1343897134065628, 'learning_rate': 0.0004039661945813886, 'epoch': 0.31}
+{'loss': 1.46, 'grad_norm': 0.09666436165571213, 'learning_rate': 0.0004038027896388048, 'epoch': 0.31}
+{'loss': 1.4528, 'grad_norm': 0.12359198927879333, 'learning_rate': 0.0004036392789063731, 'epoch': 0.31}
+{'loss': 1.4629, 'grad_norm': 0.11658332496881485, 'learning_rate': 0.0004034756624965608, 'epoch': 0.31}
+{'loss': 1.4721, 'grad_norm': 0.10224775969982147, 'learning_rate': 0.0004033119405219079, 'epoch': 0.31}
+{'loss': 1.4684, 'grad_norm': 0.12226344645023346, 'learning_rate': 0.00040314811309502676, 'epoch': 0.31}
+{'loss': 1.4547, 'grad_norm': 0.1022079661488533, 'learning_rate': 0.00040298418032860264, 'epoch': 0.31}
+{'loss': 1.4685, 'grad_norm': 0.10508506000041962, 'learning_rate': 0.0004028201423353929, 'epoch': 0.31}
+{'loss': 1.4484, 'grad_norm': 0.11008874326944351, 'learning_rate': 0.00040265599922822753, 'epoch': 0.31}
+{'loss': 1.4541, 'grad_norm': 0.11419504880905151, 'learning_rate': 0.0004024917511200088, 'epoch': 0.31}
+{'loss': 1.4781, 'grad_norm': 0.11162334680557251, 'learning_rate': 0.00040232739812371104, 'epoch': 0.31}
+{'loss': 1.4779, 'grad_norm': 0.10452225804328918, 'learning_rate': 0.0004021629403523809, 'epoch': 0.31}
+{'loss': 1.48, 'grad_norm': 0.11962971091270447, 'learning_rate': 0.00040199837791913694, 'epoch': 0.31}
+{'loss': 1.4602, 'grad_norm': 0.1113823652267456, 'learning_rate': 0.0004018337109371699, 'epoch': 0.31}
+{'loss': 1.4733, 'grad_norm': 0.11707434058189392, 'learning_rate': 0.00040166893951974216, 'epoch': 0.31}
+{'loss': 1.4765, 'grad_norm': 0.11260158568620682, 'learning_rate': 0.0004015040637801883, 'epoch': 0.31}
+{'loss': 1.4813, 'grad_norm': 0.113178551197052, 'learning_rate': 0.0004013390838319143, 'epoch': 0.31}
+{'loss': 1.4554, 'grad_norm': 0.11118832975625992, 'learning_rate': 0.00040117399978839796, 'epoch': 0.31}
+{'loss': 1.4744, 'grad_norm': 0.1224852204322815, 'learning_rate': 0.0004010088117631888, 'epoch': 0.31}
+{'loss': 1.4213, 'grad_norm': 0.1198253482580185, 'learning_rate': 0.00040084351986990777, 'epoch': 0.32}
+{'loss': 1.465, 'grad_norm': 0.10866684466600418, 'learning_rate': 0.00040067812422224703, 'epoch': 0.32}
+{'loss': 1.474, 'grad_norm': 0.13119260966777802, 'learning_rate': 0.0004005126249339705, 'epoch': 0.32}
+{'loss': 1.4604, 'grad_norm': 0.10067364573478699, 'learning_rate': 0.00040034702211891315, 'epoch': 0.32}
+{'loss': 1.4678, 'grad_norm': 0.13850641250610352, 'learning_rate': 0.0004001813158909813, 'epoch': 0.32}
+{'loss': 1.4722, 'grad_norm': 0.10945282131433487, 'learning_rate': 0.0004000155063641522, 'epoch': 0.32}
+{'loss': 1.4717, 'grad_norm': 0.12647055089473724, 'learning_rate': 0.00039984959365247427, 'epoch': 0.32}
+{'loss': 1.462, 'grad_norm': 0.1171102300286293, 'learning_rate': 0.0003996835778700669, 'epoch': 0.32}
+{'loss': 1.4654, 'grad_norm': 0.12905140221118927, 'learning_rate': 0.00039951745913112055, 'epoch': 0.32}
+{'loss': 1.4478, 'grad_norm': 0.11502818018198013, 'learning_rate': 0.00039935123754989603, 'epoch': 0.32}
+{'loss': 1.4632, 'grad_norm': 0.131492018699646, 'learning_rate': 0.00039918491324072547, 'epoch': 0.32}
+{'loss': 1.46, 'grad_norm': 0.12167198210954666, 'learning_rate': 0.0003990184863180112, 'epoch': 0.32}
+{'loss': 1.4222, 'grad_norm': 0.13610303401947021, 'learning_rate': 0.00039885195689622624, 'epoch': 0.32}
+{'loss': 1.4485, 'grad_norm': 0.1356579065322876, 'learning_rate': 0.0003986853250899143, 'epoch': 0.32}
+{'loss': 1.4519, 'grad_norm': 0.1456824392080307, 'learning_rate': 0.00039851859101368937, 'epoch': 0.32}
+{'loss': 1.47, 'grad_norm': 0.11366242170333862, 'learning_rate': 0.0003983517547822358, 'epoch': 0.32}
+{'loss': 1.4766, 'grad_norm': 0.14277462661266327, 'learning_rate': 0.00039818481651030815, 'epoch': 0.32}
+{'loss': 1.4611, 'grad_norm': 0.10512283444404602, 'learning_rate': 0.0003980177763127312, 'epoch': 0.32}
+{'loss': 1.4733, 'grad_norm': 0.1250513792037964, 'learning_rate': 0.00039785063430439996, 'epoch': 0.32}
+{'loss': 1.4754, 'grad_norm': 0.129045769572258, 'learning_rate': 0.0003976833906002792, 'epoch': 0.32}
+{'loss': 1.4706, 'grad_norm': 0.14561757445335388, 'learning_rate': 0.000397516045315404, 'epoch': 0.32}
+{'loss': 1.4484, 'grad_norm': 0.12676197290420532, 'learning_rate': 0.00039734859856487893, 'epoch': 0.32}
+{'loss': 1.4664, 'grad_norm': 0.12963244318962097, 'learning_rate': 0.0003971810504638787, 'epoch': 0.32}
+{'loss': 1.4549, 'grad_norm': 0.14443421363830566, 'learning_rate': 0.0003970134011276475, 'epoch': 0.32}
+{'loss': 1.4834, 'grad_norm': 0.13364383578300476, 'learning_rate': 0.00039684565067149916, 'epoch': 0.32}
+{'loss': 1.4919, 'grad_norm': 0.1389043927192688, 'learning_rate': 0.0003966777992108172, 'epoch': 0.32}
+{'loss': 1.453, 'grad_norm': 0.14822854101657867, 'learning_rate': 0.0003965098468610545, 'epoch': 0.32}
+{'loss': 1.4451, 'grad_norm': 0.1226789578795433, 'learning_rate': 0.0003963417937377334, 'epoch': 0.32}
+{'loss': 1.4673, 'grad_norm': 0.1288047581911087, 'learning_rate': 0.0003961736399564454, 'epoch': 0.32}
+{'loss': 1.4569, 'grad_norm': 0.13860976696014404, 'learning_rate': 0.0003960053856328516, 'epoch': 0.32}
+{'loss': 1.4527, 'grad_norm': 0.12770356237888336, 'learning_rate': 0.00039583703088268184, 'epoch': 0.32}
+{'loss': 1.4655, 'grad_norm': 0.14283724129199982, 'learning_rate': 0.0003956685758217352, 'epoch': 0.32}
+{'loss': 1.4666, 'grad_norm': 0.12202882766723633, 'learning_rate': 0.00039550002056587986, 'epoch': 0.32}
+{'loss': 1.4422, 'grad_norm': 0.1286720186471939, 'learning_rate': 0.0003953313652310527, 'epoch': 0.32}
+{'loss': 1.4611, 'grad_norm': 0.12339896708726883, 'learning_rate': 0.00039516260993325983, 'epoch': 0.32}
+{'loss': 1.4812, 'grad_norm': 0.1374967098236084, 'learning_rate': 0.00039499375478857545, 'epoch': 0.32}
+{'loss': 1.4842, 'grad_norm': 0.1135377436876297, 'learning_rate': 0.0003948247999131432, 'epoch': 0.32}
+{'loss': 1.4754, 'grad_norm': 0.13437902927398682, 'learning_rate': 0.00039465574542317473, 'epoch': 0.32}
+{'loss': 1.4694, 'grad_norm': 0.12471543997526169, 'learning_rate': 0.0003944865914349506, 'epoch': 0.32}
+{'loss': 1.4719, 'grad_norm': 0.12132841348648071, 'learning_rate': 0.00039431733806481945, 'epoch': 0.33}
+{'loss': 1.4506, 'grad_norm': 0.11416696757078171, 'learning_rate': 0.0003941479854291986, 'epoch': 0.33}
+{'loss': 1.4801, 'grad_norm': 0.1099204570055008, 'learning_rate': 0.0003939785336445735, 'epoch': 0.33}
+{'loss': 1.4712, 'grad_norm': 0.10940774530172348, 'learning_rate': 0.0003938089828274978, 'epoch': 0.33}
+{'loss': 1.4618, 'grad_norm': 0.12110554426908493, 'learning_rate': 0.0003936393330945933, 'epoch': 0.33}
+{'loss': 1.4709, 'grad_norm': 0.11340706050395966, 'learning_rate': 0.00039346958456254976, 'epoch': 0.33}
+{'loss': 1.4354, 'grad_norm': 0.11410502344369888, 'learning_rate': 0.00039329973734812494, 'epoch': 0.33}
+{'loss': 1.4388, 'grad_norm': 0.10568545013666153, 'learning_rate': 0.0003931297915681447, 'epoch': 0.33}
+{'loss': 1.4761, 'grad_norm': 0.10292641818523407, 'learning_rate': 0.00039295974733950215, 'epoch': 0.33}
+{'loss': 1.4832, 'grad_norm': 0.11896779388189316, 'learning_rate': 0.00039278960477915877, 'epoch': 0.33}
+{'loss': 1.4731, 'grad_norm': 0.10800199955701828, 'learning_rate': 0.0003926193640041431, 'epoch': 0.33}
+{'loss': 1.4699, 'grad_norm': 0.12360236048698425, 'learning_rate': 0.0003924490251315517, 'epoch': 0.33}
+{'loss': 1.4374, 'grad_norm': 0.11806446313858032, 'learning_rate': 0.0003922785882785483, 'epoch': 0.33}
+{'loss': 1.4587, 'grad_norm': 0.12480732053518295, 'learning_rate': 0.0003921080535623641, 'epoch': 0.33}
+{'loss': 1.4752, 'grad_norm': 0.11006785929203033, 'learning_rate': 0.0003919374211002976, 'epoch': 0.33}
+{'loss': 1.4553, 'grad_norm': 0.12657856941223145, 'learning_rate': 0.0003917666910097147, 'epoch': 0.33}
+{'loss': 1.4616, 'grad_norm': 0.10367518663406372, 'learning_rate': 0.00039159586340804824, 'epoch': 0.33}
+{'loss': 1.4722, 'grad_norm': 0.12085099518299103, 'learning_rate': 0.00039142493841279823, 'epoch': 0.33}
+{'loss': 1.4692, 'grad_norm': 0.11947214603424072, 'learning_rate': 0.0003912539161415316, 'epoch': 0.33}
+{'loss': 1.4394, 'grad_norm': 0.10525777190923691, 'learning_rate': 0.0003910827967118823, 'epoch': 0.33}
+{'loss': 1.4653, 'grad_norm': 0.13152934610843658, 'learning_rate': 0.00039091158024155096, 'epoch': 0.33}
+{'loss': 1.4431, 'grad_norm': 0.13688385486602783, 'learning_rate': 0.00039074026684830516, 'epoch': 0.33}
+{'loss': 1.4577, 'grad_norm': 0.1316325068473816, 'learning_rate': 0.0003905688566499789, 'epoch': 0.33}
+{'loss': 1.4692, 'grad_norm': 0.10785139352083206, 'learning_rate': 0.00039039734976447304, 'epoch': 0.33}
+{'loss': 1.4468, 'grad_norm': 0.11297836899757385, 'learning_rate': 0.0003902257463097547, 'epoch': 0.33}
+{'loss': 1.4367, 'grad_norm': 0.1375962793827057, 'learning_rate': 0.00039005404640385746, 'epoch': 0.33}
+{'loss': 1.4694, 'grad_norm': 0.11369634419679642, 'learning_rate': 0.0003898822501648814, 'epoch': 0.33}
+{'loss': 1.4557, 'grad_norm': 0.139833003282547, 'learning_rate': 0.00038971035771099286, 'epoch': 0.33}
+{'loss': 1.44, 'grad_norm': 0.09893573820590973, 'learning_rate': 0.00038953836916042405, 'epoch': 0.33}
+{'loss': 1.4808, 'grad_norm': 0.11894193291664124, 'learning_rate': 0.0003893662846314736, 'epoch': 0.33}
+{'loss': 1.4635, 'grad_norm': 0.11483816057443619, 'learning_rate': 0.0003891941042425061, 'epoch': 0.33}
+{'loss': 1.4755, 'grad_norm': 0.09539224207401276, 'learning_rate': 0.000389021828111952, 'epoch': 0.33}
+{'loss': 1.4638, 'grad_norm': 0.1137448251247406, 'learning_rate': 0.0003888494563583075, 'epoch': 0.33}
+{'loss': 1.4818, 'grad_norm': 0.10705525428056717, 'learning_rate': 0.0003886769891001348, 'epoch': 0.33}
+{'loss': 1.4841, 'grad_norm': 0.11552263796329498, 'learning_rate': 0.0003885044264560618, 'epoch': 0.33}
+{'loss': 1.4639, 'grad_norm': 0.11828550696372986, 'learning_rate': 0.0003883317685447816, 'epoch': 0.33}
+{'loss': 1.4616, 'grad_norm': 0.11628378182649612, 'learning_rate': 0.0003881590154850534, 'epoch': 0.33}
+{'loss': 1.4528, 'grad_norm': 0.11225003749132156, 'learning_rate': 0.0003879861673957014, 'epoch': 0.33}
+{'loss': 1.4619, 'grad_norm': 0.11583785712718964, 'learning_rate': 0.0003878132243956155, 'epoch': 0.33}
+{'loss': 1.4722, 'grad_norm': 0.11635619401931763, 'learning_rate': 0.0003876401866037506, 'epoch': 0.34}
+{'loss': 1.4589, 'grad_norm': 0.11644353717565536, 'learning_rate': 0.00038746705413912695, 'epoch': 0.34}
+{'loss': 1.4785, 'grad_norm': 0.11141803860664368, 'learning_rate': 0.0003872938271208299, 'epoch': 0.34}
+{'loss': 1.4771, 'grad_norm': 0.11498909443616867, 'learning_rate': 0.0003871205056680098, 'epoch': 0.34}
+{'loss': 1.4656, 'grad_norm': 0.12327703833580017, 'learning_rate': 0.0003869470898998821, 'epoch': 0.34}
+{'loss': 1.4651, 'grad_norm': 0.11363060772418976, 'learning_rate': 0.00038677357993572675, 'epoch': 0.34}
+{'loss': 1.4717, 'grad_norm': 0.10502157360315323, 'learning_rate': 0.00038659997589488894, 'epoch': 0.34}
+{'loss': 1.4727, 'grad_norm': 0.11885426193475723, 'learning_rate': 0.00038642627789677833, 'epoch': 0.34}
+{'loss': 1.4652, 'grad_norm': 0.12268835306167603, 'learning_rate': 0.0003862524860608692, 'epoch': 0.34}
+{'loss': 1.4838, 'grad_norm': 0.10993650555610657, 'learning_rate': 0.0003860786005067005, 'epoch': 0.34}
+{'loss': 1.461, 'grad_norm': 0.13334789872169495, 'learning_rate': 0.0003859046213538755, 'epoch': 0.34}
+{'loss': 1.4611, 'grad_norm': 0.11094482243061066, 'learning_rate': 0.0003857305487220619, 'epoch': 0.34}
+{'loss': 1.4508, 'grad_norm': 0.12623554468154907, 'learning_rate': 0.0003855563827309917, 'epoch': 0.34}
+{'loss': 1.4458, 'grad_norm': 0.13935470581054688, 'learning_rate': 0.0003853821235004613, 'epoch': 0.34}
+{'loss': 1.4676, 'grad_norm': 0.11177379637956619, 'learning_rate': 0.00038520777115033086, 'epoch': 0.34}
+{'loss': 1.4602, 'grad_norm': 0.12732809782028198, 'learning_rate': 0.0003850333258005248, 'epoch': 0.34}
+{'loss': 1.4847, 'grad_norm': 0.12717172503471375, 'learning_rate': 0.00038485878757103163, 'epoch': 0.34}
+{'loss': 1.4553, 'grad_norm': 0.11592855304479599, 'learning_rate': 0.00038468415658190347, 'epoch': 0.34}
+{'loss': 1.4553, 'grad_norm': 0.13638685643672943, 'learning_rate': 0.00038450943295325647, 'epoch': 0.34}
+{'loss': 1.4706, 'grad_norm': 0.10324495285749435, 'learning_rate': 0.0003843346168052704, 'epoch': 0.34}
+{'loss': 1.4531, 'grad_norm': 0.11245916783809662, 'learning_rate': 0.00038415970825818866, 'epoch': 0.34}
+{'loss': 1.4723, 'grad_norm': 0.1257307380437851, 'learning_rate': 0.00038398470743231827, 'epoch': 0.34}
+{'loss': 1.4381, 'grad_norm': 0.09698010236024857, 'learning_rate': 0.00038380961444802966, 'epoch': 0.34}
+{'loss': 1.4381, 'grad_norm': 0.1221562847495079, 'learning_rate': 0.00038363442942575656, 'epoch': 0.34}
+{'loss': 1.4625, 'grad_norm': 0.10577020794153214, 'learning_rate': 0.00038345915248599627, 'epoch': 0.34}
+{'loss': 1.4584, 'grad_norm': 0.1028871163725853, 'learning_rate': 0.00038328378374930905, 'epoch': 0.34}
+{'loss': 1.4279, 'grad_norm': 0.11079391092061996, 'learning_rate': 0.0003831083233363185, 'epoch': 0.34}
+{'loss': 1.4593, 'grad_norm': 0.11492252349853516, 'learning_rate': 0.0003829327713677111, 'epoch': 0.34}
+{'loss': 1.4535, 'grad_norm': 0.11011463403701782, 'learning_rate': 0.0003827571279642365, 'epoch': 0.34}
+{'loss': 1.4434, 'grad_norm': 0.11932195723056793, 'learning_rate': 0.00038258139324670706, 'epoch': 0.34}
+{'loss': 1.4678, 'grad_norm': 0.11009804159402847, 'learning_rate': 0.0003824055673359979, 'epoch': 0.34}
+{'loss': 1.4398, 'grad_norm': 0.1257587969303131, 'learning_rate': 0.0003822296503530472, 'epoch': 0.34}
+{'loss': 1.4295, 'grad_norm': 0.12716840207576752, 'learning_rate': 0.00038205364241885545, 'epoch': 0.34}
+{'loss': 1.4479, 'grad_norm': 0.11844957619905472, 'learning_rate': 0.0003818775436544859, 'epoch': 0.34}
+{'loss': 1.4458, 'grad_norm': 0.11896926909685135, 'learning_rate': 0.000381701354181064, 'epoch': 0.34}
+{'loss': 1.4736, 'grad_norm': 0.10439270734786987, 'learning_rate': 0.000381525074119778, 'epoch': 0.34}
+{'loss': 1.4897, 'grad_norm': 0.12587900459766388, 'learning_rate': 0.00038134870359187806, 'epoch': 0.34}
+{'loss': 1.4721, 'grad_norm': 0.13496260344982147, 'learning_rate': 0.00038117224271867696, 'epoch': 0.34}
+{'loss': 1.4573, 'grad_norm': 0.11380987614393234, 'learning_rate': 0.0003809956916215491, 'epoch': 0.34}
+{'loss': 1.4619, 'grad_norm': 0.13377660512924194, 'learning_rate': 0.00038081905042193167, 'epoch': 0.35}
+{'loss': 1.4576, 'grad_norm': 0.11973837018013, 'learning_rate': 0.0003806423192413231, 'epoch': 0.35}
+{'loss': 1.4654, 'grad_norm': 0.12304094433784485, 'learning_rate': 0.00038046549820128407, 'epoch': 0.35}
+{'loss': 1.4647, 'grad_norm': 0.1288476288318634, 'learning_rate': 0.00038028858742343704, 'epoch': 0.35}
+{'loss': 1.4838, 'grad_norm': 0.1294477880001068, 'learning_rate': 0.0003801115870294662, 'epoch': 0.35}
+{'loss': 1.4561, 'grad_norm': 0.11758284270763397, 'learning_rate': 0.0003799344971411174, 'epoch': 0.35}
+{'loss': 1.4398, 'grad_norm': 0.12932509183883667, 'learning_rate': 0.0003797573178801979, 'epoch': 0.35}
+{'loss': 1.4413, 'grad_norm': 0.12414151430130005, 'learning_rate': 0.0003795800493685766, 'epoch': 0.35}
+{'loss': 1.4619, 'grad_norm': 0.10892846435308456, 'learning_rate': 0.0003794026917281838, 'epoch': 0.35}
+{'loss': 1.4803, 'grad_norm': 0.12945392727851868, 'learning_rate': 0.00037922524508101084, 'epoch': 0.35}
+{'loss': 1.4535, 'grad_norm': 0.10375988483428955, 'learning_rate': 0.00037904770954911063, 'epoch': 0.35}
+{'loss': 1.4621, 'grad_norm': 0.12691661715507507, 'learning_rate': 0.0003788700852545969, 'epoch': 0.35}
+{'loss': 1.4602, 'grad_norm': 0.13546666502952576, 'learning_rate': 0.00037869237231964487, 'epoch': 0.35}
+{'loss': 1.446, 'grad_norm': 0.12234518676996231, 'learning_rate': 0.0003785145708664903, 'epoch': 0.35}
+{'loss': 1.47, 'grad_norm': 0.10690008103847504, 'learning_rate': 0.0003783366810174298, 'epoch': 0.35}
+{'loss': 1.4279, 'grad_norm': 0.1464947909116745, 'learning_rate': 0.00037815870289482125, 'epoch': 0.35}
+{'loss': 1.4647, 'grad_norm': 0.10852910578250885, 'learning_rate': 0.0003779806366210828, 'epoch': 0.35}
+{'loss': 1.4683, 'grad_norm': 0.12157607078552246, 'learning_rate': 0.00037780248231869356, 'epoch': 0.35}
+{'loss': 1.4495, 'grad_norm': 0.11395636200904846, 'learning_rate': 0.00037762424011019287, 'epoch': 0.35}
+{'loss': 1.4607, 'grad_norm': 0.1235986277461052, 'learning_rate': 0.00037744591011818076, 'epoch': 0.35}
+{'loss': 1.4574, 'grad_norm': 0.10974539816379547, 'learning_rate': 0.0003772674924653175, 'epoch': 0.35}
+{'loss': 1.4424, 'grad_norm': 0.11389225721359253, 'learning_rate': 0.00037708898727432385, 'epoch': 0.35}
+{'loss': 1.4458, 'grad_norm': 0.11997370421886444, 'learning_rate': 0.00037691039466798053, 'epoch': 0.35}
+{'loss': 1.4713, 'grad_norm': 0.13194048404693604, 'learning_rate': 0.0003767317147691286, 'epoch': 0.35}
+{'loss': 1.4611, 'grad_norm': 0.12465498596429825, 'learning_rate': 0.0003765529477006692, 'epoch': 0.35}
+{'loss': 1.4517, 'grad_norm': 0.13208040595054626, 'learning_rate': 0.00037637409358556303, 'epoch': 0.35}
+{'loss': 1.4494, 'grad_norm': 0.10311922430992126, 'learning_rate': 0.00037619515254683103, 'epoch': 0.35}
+{'loss': 1.4518, 'grad_norm': 0.13064992427825928, 'learning_rate': 0.0003760161247075539, 'epoch': 0.35}
+{'loss': 1.4664, 'grad_norm': 0.12541016936302185, 'learning_rate': 0.00037583701019087203, 'epoch': 0.35}
+{'loss': 1.4665, 'grad_norm': 0.13577525317668915, 'learning_rate': 0.00037565780911998526, 'epoch': 0.35}
+{'loss': 1.4883, 'grad_norm': 0.14019393920898438, 'learning_rate': 0.000375478521618153, 'epoch': 0.35}
+{'loss': 1.4621, 'grad_norm': 0.13220304250717163, 'learning_rate': 0.00037529914780869454, 'epoch': 0.35}
+{'loss': 1.4718, 'grad_norm': 0.13908545672893524, 'learning_rate': 0.00037511968781498795, 'epoch': 0.35}
+{'loss': 1.4395, 'grad_norm': 0.11939237266778946, 'learning_rate': 0.00037494014176047075, 'epoch': 0.35}
+{'loss': 1.4626, 'grad_norm': 0.14235471189022064, 'learning_rate': 0.0003747605097686398, 'epoch': 0.35}
+{'loss': 1.4735, 'grad_norm': 0.11451934278011322, 'learning_rate': 0.0003745807919630511, 'epoch': 0.35}
+{'loss': 1.4547, 'grad_norm': 0.1247398778796196, 'learning_rate': 0.0003744009884673194, 'epoch': 0.35}
+{'loss': 1.4595, 'grad_norm': 0.12136756628751755, 'learning_rate': 0.0003742210994051186, 'epoch': 0.35}
+{'loss': 1.4467, 'grad_norm': 0.13286326825618744, 'learning_rate': 0.0003740411249001815, 'epoch': 0.35}
+{'loss': 1.4554, 'grad_norm': 0.11375386267900467, 'learning_rate': 0.00037386106507629956, 'epoch': 0.36}
+{'loss': 1.4424, 'grad_norm': 0.11233966052532196, 'learning_rate': 0.0003736809200573229, 'epoch': 0.36}
+{'loss': 1.4613, 'grad_norm': 0.129256933927536, 'learning_rate': 0.0003735006899671603, 'epoch': 0.36}
+{'loss': 1.4741, 'grad_norm': 0.12842634320259094, 'learning_rate': 0.000373320374929779, 'epoch': 0.36}
+{'loss': 1.4671, 'grad_norm': 0.12069335579872131, 'learning_rate': 0.0003731399750692049, 'epoch': 0.36}
+{'loss': 1.4714, 'grad_norm': 0.12599703669548035, 'learning_rate': 0.00037295949050952185, 'epoch': 0.36}
+{'loss': 1.442, 'grad_norm': 0.10921706259250641, 'learning_rate': 0.00037277892137487216, 'epoch': 0.36}
+{'loss': 1.448, 'grad_norm': 0.11827732622623444, 'learning_rate': 0.00037259826778945643, 'epoch': 0.36}
+{'loss': 1.4705, 'grad_norm': 0.10784734040498734, 'learning_rate': 0.0003724175298775332, 'epoch': 0.36}
+{'loss': 1.4569, 'grad_norm': 0.12341359257698059, 'learning_rate': 0.000372236707763419, 'epoch': 0.36}
+{'loss': 1.4775, 'grad_norm': 0.10530806332826614, 'learning_rate': 0.00037205580157148837, 'epoch': 0.36}
+{'loss': 1.4837, 'grad_norm': 0.1260782927274704, 'learning_rate': 0.0003718748114261736, 'epoch': 0.36}
+{'loss': 1.4442, 'grad_norm': 0.12002451717853546, 'learning_rate': 0.00037169373745196487, 'epoch': 0.36}
+{'loss': 1.4733, 'grad_norm': 0.12988440692424774, 'learning_rate': 0.0003715125797734098, 'epoch': 0.36}
+{'loss': 1.4481, 'grad_norm': 0.1130494624376297, 'learning_rate': 0.00037133133851511364, 'epoch': 0.36}
+{'loss': 1.4904, 'grad_norm': 0.10371151566505432, 'learning_rate': 0.0003711500138017393, 'epoch': 0.36}
+{'loss': 1.4454, 'grad_norm': 0.14915256202220917, 'learning_rate': 0.00037096860575800696, 'epoch': 0.36}
+{'loss': 1.4414, 'grad_norm': 0.10352259129285812, 'learning_rate': 0.0003707871145086941, 'epoch': 0.36}
+{'loss': 1.4606, 'grad_norm': 0.1290605366230011, 'learning_rate': 0.00037060554017863536, 'epoch': 0.36}
+{'loss': 1.4477, 'grad_norm': 0.13167759776115417, 'learning_rate': 0.0003704238828927229, 'epoch': 0.36}
+{'loss': 1.4728, 'grad_norm': 0.13480132818222046, 'learning_rate': 0.00037024214277590537, 'epoch': 0.36}
+{'loss': 1.4682, 'grad_norm': 0.12254875153303146, 'learning_rate': 0.00037006031995318885, 'epoch': 0.36}
+{'loss': 1.4514, 'grad_norm': 0.11836612969636917, 'learning_rate': 0.00036987841454963607, 'epoch': 0.36}
+{'loss': 1.4481, 'grad_norm': 0.13081727921962738, 'learning_rate': 0.0003696964266903667, 'epoch': 0.36}
+{'loss': 1.442, 'grad_norm': 0.10494130104780197, 'learning_rate': 0.0003695143565005572, 'epoch': 0.36}
+{'loss': 1.4544, 'grad_norm': 0.12358711659908295, 'learning_rate': 0.0003693322041054402, 'epoch': 0.36}
+{'loss': 1.4781, 'grad_norm': 0.11981335282325745, 'learning_rate': 0.00036914996963030545, 'epoch': 0.36}
+{'loss': 1.4872, 'grad_norm': 0.13562510907649994, 'learning_rate': 0.0003689676532004988, 'epoch': 0.36}
+{'loss': 1.4544, 'grad_norm': 0.11388885974884033, 'learning_rate': 0.0003687852549414227, 'epoch': 0.36}
+{'loss': 1.4512, 'grad_norm': 0.12154372781515121, 'learning_rate': 0.0003686027749785355, 'epoch': 0.36}
+{'loss': 1.452, 'grad_norm': 0.1180792897939682, 'learning_rate': 0.00036842021343735226, 'epoch': 0.36}
+{'loss': 1.4469, 'grad_norm': 0.11921152472496033, 'learning_rate': 0.00036823757044344383, 'epoch': 0.36}
+{'loss': 1.4311, 'grad_norm': 0.11768428236246109, 'learning_rate': 0.00036805484612243707, 'epoch': 0.36}
+{'loss': 1.4581, 'grad_norm': 0.10658612847328186, 'learning_rate': 0.00036787204060001493, 'epoch': 0.36}
+{'loss': 1.4527, 'grad_norm': 0.13524983823299408, 'learning_rate': 0.0003676891540019162, 'epoch': 0.36}
+{'loss': 1.443, 'grad_norm': 0.11709941923618317, 'learning_rate': 0.0003675061864539352, 'epoch': 0.36}
+{'loss': 1.4766, 'grad_norm': 0.1279957890510559, 'learning_rate': 0.00036732313808192244, 'epoch': 0.36}
+{'loss': 1.4777, 'grad_norm': 0.10959631949663162, 'learning_rate': 0.00036714000901178336, 'epoch': 0.36}
+{'loss': 1.4415, 'grad_norm': 0.12379416078329086, 'learning_rate': 0.00036695679936947934, 'epoch': 0.36}
+{'loss': 1.4654, 'grad_norm': 0.122038334608078, 'learning_rate': 0.00036677350928102716, 'epoch': 0.37}
+{'loss': 1.475, 'grad_norm': 0.12167041748762131, 'learning_rate': 0.0003665901388724988, 'epoch': 0.37}
+{'loss': 1.4667, 'grad_norm': 0.14215335249900818, 'learning_rate': 0.00036640668827002154, 'epoch': 0.37}
+{'loss': 1.4305, 'grad_norm': 0.1161554604768753, 'learning_rate': 0.0003662231575997779, 'epoch': 0.37}
+{'loss': 1.4754, 'grad_norm': 0.12128902971744537, 'learning_rate': 0.00036603954698800526, 'epoch': 0.37}
+{'loss': 1.446, 'grad_norm': 0.10133273154497147, 'learning_rate': 0.0003658558565609962, 'epoch': 0.37}
+{'loss': 1.4889, 'grad_norm': 0.1106979101896286, 'learning_rate': 0.00036567208644509803, 'epoch': 0.37}
+{'loss': 1.4508, 'grad_norm': 0.11363472044467926, 'learning_rate': 0.0003654882367667131, 'epoch': 0.37}
+{'loss': 1.4488, 'grad_norm': 0.11488782614469528, 'learning_rate': 0.0003653043076522983, 'epoch': 0.37}
+{'loss': 1.462, 'grad_norm': 0.10834196954965591, 'learning_rate': 0.0003651202992283651, 'epoch': 0.37}
+{'loss': 1.4607, 'grad_norm': 0.11720804870128632, 'learning_rate': 0.00036493621162147973, 'epoch': 0.37}
+{'loss': 1.4471, 'grad_norm': 0.10795226693153381, 'learning_rate': 0.0003647520449582628, 'epoch': 0.37}
+{'loss': 1.4661, 'grad_norm': 0.12652833759784698, 'learning_rate': 0.0003645677993653892, 'epoch': 0.37}
+{'loss': 1.4624, 'grad_norm': 0.09661758691072464, 'learning_rate': 0.00036438347496958826, 'epoch': 0.37}
+{'loss': 1.4428, 'grad_norm': 0.11597810685634613, 'learning_rate': 0.0003641990718976433, 'epoch': 0.37}
+{'loss': 1.4695, 'grad_norm': 0.09989508241415024, 'learning_rate': 0.00036401459027639207, 'epoch': 0.37}
+{'loss': 1.4581, 'grad_norm': 0.10008928179740906, 'learning_rate': 0.0003638300302327261, 'epoch': 0.37}
+{'loss': 1.4442, 'grad_norm': 0.10603886842727661, 'learning_rate': 0.00036364539189359093, 'epoch': 0.37}
+{'loss': 1.4416, 'grad_norm': 0.10671794414520264, 'learning_rate': 0.00036346067538598593, 'epoch': 0.37}
+{'loss': 1.4539, 'grad_norm': 0.11415126174688339, 'learning_rate': 0.0003632758808369643, 'epoch': 0.37}
+{'loss': 1.4499, 'grad_norm': 0.10037004947662354, 'learning_rate': 0.0003630910083736329, 'epoch': 0.37}
+{'loss': 1.4706, 'grad_norm': 0.12095922976732254, 'learning_rate': 0.00036290605812315215, 'epoch': 0.37}
+{'loss': 1.46, 'grad_norm': 0.11361226439476013, 'learning_rate': 0.00036272103021273594, 'epoch': 0.37}
+{'loss': 1.4207, 'grad_norm': 0.11956647038459778, 'learning_rate': 0.00036253592476965174, 'epoch': 0.37}
+{'loss': 1.4654, 'grad_norm': 0.11198439449071884, 'learning_rate': 0.00036235074192122015, 'epoch': 0.37}
+{'loss': 1.451, 'grad_norm': 0.1146649718284607, 'learning_rate': 0.00036216548179481505, 'epoch': 0.37}
+{'loss': 1.4763, 'grad_norm': 0.11479879170656204, 'learning_rate': 0.00036198014451786363, 'epoch': 0.37}
+{'loss': 1.4669, 'grad_norm': 0.10094375908374786, 'learning_rate': 0.00036179473021784607, 'epoch': 0.37}
+{'loss': 1.4717, 'grad_norm': 0.10814744979143143, 'learning_rate': 0.0003616092390222954, 'epoch': 0.37}
+{'loss': 1.4311, 'grad_norm': 0.10779573023319244, 'learning_rate': 0.0003614236710587976, 'epoch': 0.37}
+{'loss': 1.4485, 'grad_norm': 0.11427667737007141, 'learning_rate': 0.0003612380264549915, 'epoch': 0.37}
+{'loss': 1.4569, 'grad_norm': 0.10202190279960632, 'learning_rate': 0.0003610523053385688, 'epoch': 0.37}
+{'loss': 1.4662, 'grad_norm': 0.13099125027656555, 'learning_rate': 0.00036086650783727353, 'epoch': 0.37}
+{'loss': 1.4943, 'grad_norm': 0.11565139889717102, 'learning_rate': 0.0003606806340789024, 'epoch': 0.37}
+{'loss': 1.4584, 'grad_norm': 0.12101300060749054, 'learning_rate': 0.00036049468419130446, 'epoch': 0.37}
+{'loss': 1.4744, 'grad_norm': 0.11503174901008606, 'learning_rate': 0.0003603086583023815, 'epoch': 0.37}
+{'loss': 1.4693, 'grad_norm': 0.10441139340400696, 'learning_rate': 0.0003601225565400871, 'epoch': 0.37}
+{'loss': 1.4627, 'grad_norm': 0.11911995708942413, 'learning_rate': 0.00035993637903242734, 'epoch': 0.37}
+{'loss': 1.4509, 'grad_norm': 0.10491880029439926, 'learning_rate': 0.0003597501259074601, 'epoch': 0.37}
+{'loss': 1.4569, 'grad_norm': 0.12025725841522217, 'learning_rate': 0.00035956379729329586, 'epoch': 0.38}
+{'loss': 1.4502, 'grad_norm': 0.10879796743392944, 'learning_rate': 0.00035937739331809627, 'epoch': 0.38}
+{'loss': 1.4639, 'grad_norm': 0.10927683115005493, 'learning_rate': 0.00035919091411007535, 'epoch': 0.38}
+{'loss': 1.4814, 'grad_norm': 0.1118316501379013, 'learning_rate': 0.0003590043597974987, 'epoch': 0.38}
+{'loss': 1.461, 'grad_norm': 0.10629236698150635, 'learning_rate': 0.00035881773050868354, 'epoch': 0.38}
+{'loss': 1.4379, 'grad_norm': 0.12366624176502228, 'learning_rate': 0.0003586310263719988, 'epoch': 0.38}
+{'loss': 1.4462, 'grad_norm': 0.1132325604557991, 'learning_rate': 0.0003584442475158645, 'epoch': 0.38}
+{'loss': 1.4544, 'grad_norm': 0.1263895034790039, 'learning_rate': 0.00035825739406875274, 'epoch': 0.38}
+{'loss': 1.4461, 'grad_norm': 0.1328401416540146, 'learning_rate': 0.0003580704661591863, 'epoch': 0.38}
+{'loss': 1.4554, 'grad_norm': 0.10486435890197754, 'learning_rate': 0.0003578834639157394, 'epoch': 0.38}
+{'loss': 1.4797, 'grad_norm': 0.13279978930950165, 'learning_rate': 0.0003576963874670374, 'epoch': 0.38}
+{'loss': 1.45, 'grad_norm': 0.11004703491926193, 'learning_rate': 0.00035750923694175685, 'epoch': 0.38}
+{'loss': 1.4751, 'grad_norm': 0.13216045498847961, 'learning_rate': 0.00035732201246862496, 'epoch': 0.38}
+{'loss': 1.4572, 'grad_norm': 0.1442842036485672, 'learning_rate': 0.00035713471417642, 'epoch': 0.38}
+{'loss': 1.4705, 'grad_norm': 0.12747596204280853, 'learning_rate': 0.0003569473421939709, 'epoch': 0.38}
+{'loss': 1.4666, 'grad_norm': 0.12873733043670654, 'learning_rate': 0.0003567598966501574, 'epoch': 0.38}
+{'loss': 1.4513, 'grad_norm': 0.14951685070991516, 'learning_rate': 0.00035657237767390977, 'epoch': 0.38}
+{'loss': 1.4497, 'grad_norm': 0.11991320550441742, 'learning_rate': 0.00035638478539420877, 'epoch': 0.38}
+{'loss': 1.4331, 'grad_norm': 0.1418527215719223, 'learning_rate': 0.0003561971199400855, 'epoch': 0.38}
+{'loss': 1.471, 'grad_norm': 0.14442449808120728, 'learning_rate': 0.00035600938144062167, 'epoch': 0.38}
+{'loss': 1.4654, 'grad_norm': 0.11897963285446167, 'learning_rate': 0.000355821570024949, 'epoch': 0.38}
+{'loss': 1.4641, 'grad_norm': 0.12928460538387299, 'learning_rate': 0.0003556336858222494, 'epoch': 0.38}
+{'loss': 1.4545, 'grad_norm': 0.12930765748023987, 'learning_rate': 0.0003554457289617548, 'epoch': 0.38}
+{'loss': 1.4542, 'grad_norm': 0.11778745800256729, 'learning_rate': 0.0003552576995727472, 'epoch': 0.38}
+{'loss': 1.4557, 'grad_norm': 0.14693154394626617, 'learning_rate': 0.00035506959778455863, 'epoch': 0.38}
+{'loss': 1.4664, 'grad_norm': 0.12232812494039536, 'learning_rate': 0.0003548814237265705, 'epoch': 0.38}
+{'loss': 1.4614, 'grad_norm': 0.13408136367797852, 'learning_rate': 0.0003546931775282143, 'epoch': 0.38}
+{'loss': 1.4261, 'grad_norm': 0.12794329226016998, 'learning_rate': 0.000354504859318971, 'epoch': 0.38}
+{'loss': 1.4685, 'grad_norm': 0.11242330819368362, 'learning_rate': 0.00035431646922837114, 'epoch': 0.38}
+{'loss': 1.4622, 'grad_norm': 0.13466931879520416, 'learning_rate': 0.0003541280073859946, 'epoch': 0.38}
+{'loss': 1.4792, 'grad_norm': 0.10543853789567947, 'learning_rate': 0.00035393947392147075, 'epoch': 0.38}
+{'loss': 1.4677, 'grad_norm': 0.1180231124162674, 'learning_rate': 0.0003537508689644782, 'epoch': 0.38}
+{'loss': 1.4598, 'grad_norm': 0.12360323220491409, 'learning_rate': 0.0003535621926447446, 'epoch': 0.38}
+{'loss': 1.4188, 'grad_norm': 0.10312177985906601, 'learning_rate': 0.00035337344509204686, 'epoch': 0.38}
+{'loss': 1.4684, 'grad_norm': 0.10831703245639801, 'learning_rate': 0.0003531846264362108, 'epoch': 0.38}
+{'loss': 1.4504, 'grad_norm': 0.1287689208984375, 'learning_rate': 0.00035299573680711114, 'epoch': 0.38}
+{'loss': 1.4598, 'grad_norm': 0.09883672744035721, 'learning_rate': 0.0003528067763346714, 'epoch': 0.38}
+{'loss': 1.4429, 'grad_norm': 0.11157704144716263, 'learning_rate': 0.0003526177451488639, 'epoch': 0.38}
+{'loss': 1.4766, 'grad_norm': 0.11936231702566147, 'learning_rate': 0.0003524286433797096, 'epoch': 0.38}
+{'loss': 1.4545, 'grad_norm': 0.10037298500537872, 'learning_rate': 0.00035223947115727787, 'epoch': 0.39}
+{'loss': 1.4735, 'grad_norm': 0.12027347832918167, 'learning_rate': 0.00035205022861168684, 'epoch': 0.39}
+{'loss': 1.4559, 'grad_norm': 0.12010149657726288, 'learning_rate': 0.0003518609158731025, 'epoch': 0.39}
+{'loss': 1.4279, 'grad_norm': 0.1039552316069603, 'learning_rate': 0.0003516715330717397, 'epoch': 0.39}
+{'loss': 1.4352, 'grad_norm': 0.12100029736757278, 'learning_rate': 0.00035148208033786117, 'epoch': 0.39}
+{'loss': 1.4441, 'grad_norm': 0.12040866911411285, 'learning_rate': 0.00035129255780177765, 'epoch': 0.39}
+{'loss': 1.4392, 'grad_norm': 0.11715220659971237, 'learning_rate': 0.00035110296559384815, 'epoch': 0.39}
+{'loss': 1.4387, 'grad_norm': 0.1271096169948578, 'learning_rate': 0.00035091330384447937, 'epoch': 0.39}
+{'loss': 1.4706, 'grad_norm': 0.10596729815006256, 'learning_rate': 0.0003507235726841261, 'epoch': 0.39}
+{'loss': 1.449, 'grad_norm': 0.13639149069786072, 'learning_rate': 0.0003505337722432906, 'epoch': 0.39}
+{'loss': 1.4709, 'grad_norm': 0.10863923281431198, 'learning_rate': 0.0003503439026525229, 'epoch': 0.39}
+{'loss': 1.4293, 'grad_norm': 0.11520950496196747, 'learning_rate': 0.00035015396404242073, 'epoch': 0.39}
+{'loss': 1.4562, 'grad_norm': 0.12115266919136047, 'learning_rate': 0.000349963956543629, 'epoch': 0.39}
+{'loss': 1.4807, 'grad_norm': 0.10942824184894562, 'learning_rate': 0.00034977388028684033, 'epoch': 0.39}
+{'loss': 1.4694, 'grad_norm': 0.1256975531578064, 'learning_rate': 0.00034958373540279426, 'epoch': 0.39}
+{'loss': 1.4445, 'grad_norm': 0.13087162375450134, 'learning_rate': 0.0003493935220222779, 'epoch': 0.39}
+{'loss': 1.4299, 'grad_norm': 0.12240774929523468, 'learning_rate': 0.00034920324027612536, 'epoch': 0.39}
+{'loss': 1.4496, 'grad_norm': 0.11717725545167923, 'learning_rate': 0.0003490128902952176, 'epoch': 0.39}
+{'loss': 1.456, 'grad_norm': 0.11233752965927124, 'learning_rate': 0.00034882247221048267, 'epoch': 0.39}
+{'loss': 1.4568, 'grad_norm': 0.1288922280073166, 'learning_rate': 0.0003486319861528955, 'epoch': 0.39}
+{'loss': 1.4794, 'grad_norm': 0.11495260894298553, 'learning_rate': 0.0003484414322534777, 'epoch': 0.39}
+{'loss': 1.451, 'grad_norm': 0.10459113121032715, 'learning_rate': 0.0003482508106432975, 'epoch': 0.39}
+{'loss': 1.4623, 'grad_norm': 0.13313642144203186, 'learning_rate': 0.0003480601214534698, 'epoch': 0.39}
+{'loss': 1.4392, 'grad_norm': 0.12157268822193146, 'learning_rate': 0.000347869364815156, 'epoch': 0.39}
+{'loss': 1.4422, 'grad_norm': 0.12902945280075073, 'learning_rate': 0.00034767854085956376, 'epoch': 0.39}
+{'loss': 1.4366, 'grad_norm': 0.11337147653102875, 'learning_rate': 0.0003474876497179471, 'epoch': 0.39}
+{'loss': 1.4577, 'grad_norm': 0.12507504224777222, 'learning_rate': 0.00034729669152160634, 'epoch': 0.39}
+{'loss': 1.4503, 'grad_norm': 0.12099850177764893, 'learning_rate': 0.0003471056664018878, 'epoch': 0.39}
+{'loss': 1.4605, 'grad_norm': 0.1012863740324974, 'learning_rate': 0.0003469145744901839, 'epoch': 0.39}
+{'loss': 1.4449, 'grad_norm': 0.1347227543592453, 'learning_rate': 0.00034672341591793286, 'epoch': 0.39}
+{'loss': 1.4627, 'grad_norm': 0.12428125739097595, 'learning_rate': 0.00034653219081661927, 'epoch': 0.39}
+{'loss': 1.4329, 'grad_norm': 0.10323738306760788, 'learning_rate': 0.00034634089931777264, 'epoch': 0.39}
+{'loss': 1.4467, 'grad_norm': 0.11940652132034302, 'learning_rate': 0.00034614954155296883, 'epoch': 0.39}
+{'loss': 1.4395, 'grad_norm': 0.12338266521692276, 'learning_rate': 0.00034595811765382895, 'epoch': 0.39}
+{'loss': 1.4563, 'grad_norm': 0.1046372577548027, 'learning_rate': 0.00034576662775201976, 'epoch': 0.39}
+{'loss': 1.4347, 'grad_norm': 0.1057376116514206, 'learning_rate': 0.00034557507197925343, 'epoch': 0.39}
+{'loss': 1.431, 'grad_norm': 0.11766580492258072, 'learning_rate': 0.00034538345046728717, 'epoch': 0.39}
+{'loss': 1.4738, 'grad_norm': 0.11292804777622223, 'learning_rate': 0.00034519176334792367, 'epoch': 0.39}
+{'loss': 1.4537, 'grad_norm': 0.0984082892537117, 'learning_rate': 0.00034500001075301077, 'epoch': 0.39}
+{'loss': 1.46, 'grad_norm': 0.10578852146863937, 'learning_rate': 0.0003448081928144412, 'epoch': 0.4}
+{'loss': 1.4559, 'grad_norm': 0.10505029559135437, 'learning_rate': 0.0003446163096641527, 'epoch': 0.4}
+{'loss': 1.4615, 'grad_norm': 0.1005249097943306, 'learning_rate': 0.0003444243614341277, 'epoch': 0.4}
+{'loss': 1.478, 'grad_norm': 0.1122957095503807, 'learning_rate': 0.00034423234825639375, 'epoch': 0.4}
+{'loss': 1.4668, 'grad_norm': 0.10897573083639145, 'learning_rate': 0.00034404027026302284, 'epoch': 0.4}
+{'loss': 1.4707, 'grad_norm': 0.11277259141206741, 'learning_rate': 0.0003438481275861315, 'epoch': 0.4}
+{'loss': 1.4551, 'grad_norm': 0.09487853199243546, 'learning_rate': 0.00034365592035788073, 'epoch': 0.4}
+{'loss': 1.4564, 'grad_norm': 0.11183248460292816, 'learning_rate': 0.00034346364871047625, 'epoch': 0.4}
+{'loss': 1.4396, 'grad_norm': 0.10406225919723511, 'learning_rate': 0.00034327131277616773, 'epoch': 0.4}
+{'loss': 1.4688, 'grad_norm': 0.11452940106391907, 'learning_rate': 0.00034307891268724915, 'epoch': 0.4}
+{'loss': 1.4342, 'grad_norm': 0.09627082198858261, 'learning_rate': 0.00034288644857605877, 'epoch': 0.4}
+{'loss': 1.4853, 'grad_norm': 0.12071969360113144, 'learning_rate': 0.0003426939205749787, 'epoch': 0.4}
+{'loss': 1.4689, 'grad_norm': 0.11543440073728561, 'learning_rate': 0.00034250132881643506, 'epoch': 0.4}
+{'loss': 1.4526, 'grad_norm': 0.09912122786045074, 'learning_rate': 0.0003423086734328979, 'epoch': 0.4}
+{'loss': 1.4532, 'grad_norm': 0.09063003212213516, 'learning_rate': 0.0003421159545568809, 'epoch': 0.4}
+{'loss': 1.457, 'grad_norm': 0.10934363305568695, 'learning_rate': 0.0003419231723209415, 'epoch': 0.4}
+{'loss': 1.4542, 'grad_norm': 0.10325527936220169, 'learning_rate': 0.0003417303268576807, 'epoch': 0.4}
+{'loss': 1.478, 'grad_norm': 0.1040286123752594, 'learning_rate': 0.0003415374182997429, 'epoch': 0.4}
+{'loss': 1.4535, 'grad_norm': 0.10798942297697067, 'learning_rate': 0.0003413444467798162, 'epoch': 0.4}
+{'loss': 1.4812, 'grad_norm': 0.10867491364479065, 'learning_rate': 0.00034115141243063157, 'epoch': 0.4}
+{'loss': 1.4488, 'grad_norm': 0.11946102976799011, 'learning_rate': 0.00034095831538496357, 'epoch': 0.4}
+{'loss': 1.4476, 'grad_norm': 0.10696745663881302, 'learning_rate': 0.0003407651557756296, 'epoch': 0.4}
+{'loss': 1.4531, 'grad_norm': 0.12599529325962067, 'learning_rate': 0.00034057193373549036, 'epoch': 0.4}
+{'loss': 1.4476, 'grad_norm': 0.09986573457717896, 'learning_rate': 0.0003403786493974493, 'epoch': 0.4}
+{'loss': 1.4579, 'grad_norm': 0.09500843286514282, 'learning_rate': 0.0003401853028944528, 'epoch': 0.4}
+{'loss': 1.4624, 'grad_norm': 0.11548525840044022, 'learning_rate': 0.00033999189435948983, 'epoch': 0.4}
+{'loss': 1.438, 'grad_norm': 0.10685745626688004, 'learning_rate': 0.0003397984239255924, 'epoch': 0.4}
+{'loss': 1.4559, 'grad_norm': 0.1089104413986206, 'learning_rate': 0.0003396048917258348, 'epoch': 0.4}
+{'loss': 1.447, 'grad_norm': 0.10234196484088898, 'learning_rate': 0.0003394112978933338, 'epoch': 0.4}
+{'loss': 1.4305, 'grad_norm': 0.10134059190750122, 'learning_rate': 0.0003392176425612486, 'epoch': 0.4}
+{'loss': 1.4379, 'grad_norm': 0.10792894661426544, 'learning_rate': 0.0003390239258627809, 'epoch': 0.4}
+{'loss': 1.4622, 'grad_norm': 0.11540358513593674, 'learning_rate': 0.00033883014793117434, 'epoch': 0.4}
+{'loss': 1.439, 'grad_norm': 0.09920164197683334, 'learning_rate': 0.0003386363088997148, 'epoch': 0.4}
+{'loss': 1.4492, 'grad_norm': 0.11883462220430374, 'learning_rate': 0.0003384424089017301, 'epoch': 0.4}
+{'loss': 1.4495, 'grad_norm': 0.11919110268354416, 'learning_rate': 0.0003382484480705903, 'epoch': 0.4}
+{'loss': 1.4469, 'grad_norm': 0.0992874950170517, 'learning_rate': 0.0003380544265397068, 'epoch': 0.4}
+{'loss': 1.4374, 'grad_norm': 0.10333641618490219, 'learning_rate': 0.0003378603444425332, 'epoch': 0.4}
+{'loss': 1.4511, 'grad_norm': 0.1160280629992485, 'learning_rate': 0.0003376662019125645, 'epoch': 0.4}
+{'loss': 1.46, 'grad_norm': 0.10470142215490341, 'learning_rate': 0.0003374719990833373, 'epoch': 0.4}
+{'loss': 1.462, 'grad_norm': 0.09891822189092636, 'learning_rate': 0.0003372777360884298, 'epoch': 0.4}
+{'loss': 1.4647, 'grad_norm': 0.11806134134531021, 'learning_rate': 0.0003370834130614615, 'epoch': 0.41}
+{'loss': 1.4572, 'grad_norm': 0.10809649527072906, 'learning_rate': 0.00033688903013609316, 'epoch': 0.41}
+{'loss': 1.4356, 'grad_norm': 0.11284127831459045, 'learning_rate': 0.0003366945874460269, 'epoch': 0.41}
+{'loss': 1.443, 'grad_norm': 0.11114981770515442, 'learning_rate': 0.0003365000851250056, 'epoch': 0.41}
+{'loss': 1.4298, 'grad_norm': 0.1101001501083374, 'learning_rate': 0.0003363055233068136, 'epoch': 0.41}
+{'loss': 1.4273, 'grad_norm': 0.10532434284687042, 'learning_rate': 0.0003361109021252757, 'epoch': 0.41}
+{'loss': 1.4799, 'grad_norm': 0.1068536788225174, 'learning_rate': 0.00033591622171425813, 'epoch': 0.41}
+{'loss': 1.4615, 'grad_norm': 0.11966200172901154, 'learning_rate': 0.00033572148220766717, 'epoch': 0.41}
+{'loss': 1.4452, 'grad_norm': 0.10265595465898514, 'learning_rate': 0.0003355266837394502, 'epoch': 0.41}
+{'loss': 1.4877, 'grad_norm': 0.12165610492229462, 'learning_rate': 0.00033533182644359516, 'epoch': 0.41}
+{'loss': 1.4481, 'grad_norm': 0.11747662723064423, 'learning_rate': 0.0003351369104541301, 'epoch': 0.41}
+{'loss': 1.4658, 'grad_norm': 0.1132945641875267, 'learning_rate': 0.0003349419359051239, 'epoch': 0.41}
+{'loss': 1.4794, 'grad_norm': 0.11657943576574326, 'learning_rate': 0.00033474690293068527, 'epoch': 0.41}
+{'loss': 1.4603, 'grad_norm': 0.12697431445121765, 'learning_rate': 0.0003345518116649636, 'epoch': 0.41}
+{'loss': 1.4386, 'grad_norm': 0.10398172587156296, 'learning_rate': 0.00033435666224214785, 'epoch': 0.41}
+{'loss': 1.4421, 'grad_norm': 0.11776172369718552, 'learning_rate': 0.0003341614547964674, 'epoch': 0.41}
+{'loss': 1.4424, 'grad_norm': 0.11713964492082596, 'learning_rate': 0.0003339661894621912, 'epoch': 0.41}
+{'loss': 1.4476, 'grad_norm': 0.10783223062753677, 'learning_rate': 0.00033377086637362844, 'epoch': 0.41}
+{'loss': 1.4607, 'grad_norm': 0.13018012046813965, 'learning_rate': 0.0003335754856651276, 'epoch': 0.41}
+{'loss': 1.4797, 'grad_norm': 0.11314048618078232, 'learning_rate': 0.00033338004747107697, 'epoch': 0.41}
+{'loss': 1.454, 'grad_norm': 0.11267314851284027, 'learning_rate': 0.0003331845519259045, 'epoch': 0.41}
+{'loss': 1.4554, 'grad_norm': 0.1266174018383026, 'learning_rate': 0.00033298899916407737, 'epoch': 0.41}
+{'loss': 1.447, 'grad_norm': 0.11454922705888748, 'learning_rate': 0.00033279338932010237, 'epoch': 0.41}
+{'loss': 1.4593, 'grad_norm': 0.11948997527360916, 'learning_rate': 0.00033259772252852536, 'epoch': 0.41}
+{'loss': 1.419, 'grad_norm': 0.10300975292921066, 'learning_rate': 0.0003324019989239313, 'epoch': 0.41}
+{'loss': 1.4546, 'grad_norm': 0.12221182137727737, 'learning_rate': 0.00033220621864094436, 'epoch': 0.41}
+{'loss': 1.4781, 'grad_norm': 0.10868273675441742, 'learning_rate': 0.00033201038181422785, 'epoch': 0.41}
+{'loss': 1.4785, 'grad_norm': 0.10608039051294327, 'learning_rate': 0.0003318144885784836, 'epoch': 0.41}
+{'loss': 1.45, 'grad_norm': 0.10946512967348099, 'learning_rate': 0.0003316185390684526, 'epoch': 0.41}
+{'loss': 1.4199, 'grad_norm': 0.1006958857178688, 'learning_rate': 0.00033142253341891424, 'epoch': 0.41}
+{'loss': 1.4559, 'grad_norm': 0.10508318245410919, 'learning_rate': 0.0003312264717646868, 'epoch': 0.41}
+{'loss': 1.4589, 'grad_norm': 0.1006387248635292, 'learning_rate': 0.0003310303542406269, 'epoch': 0.41}
+{'loss': 1.4622, 'grad_norm': 0.09792540967464447, 'learning_rate': 0.0003308341809816296, 'epoch': 0.41}
+{'loss': 1.4357, 'grad_norm': 0.10311602801084518, 'learning_rate': 0.00033063795212262835, 'epoch': 0.41}
+{'loss': 1.4493, 'grad_norm': 0.12340902537107468, 'learning_rate': 0.00033044166779859496, 'epoch': 0.41}
+{'loss': 1.4631, 'grad_norm': 0.10852004587650299, 'learning_rate': 0.0003302453281445391, 'epoch': 0.41}
+{'loss': 1.4542, 'grad_norm': 0.12447824329137802, 'learning_rate': 0.00033004893329550874, 'epoch': 0.41}
+{'loss': 1.458, 'grad_norm': 0.1215461939573288, 'learning_rate': 0.00032985248338658976, 'epoch': 0.41}
+{'loss': 1.4405, 'grad_norm': 0.11394631862640381, 'learning_rate': 0.00032965597855290574, 'epoch': 0.41}
+{'loss': 1.4486, 'grad_norm': 0.12335740774869919, 'learning_rate': 0.0003294594189296184, 'epoch': 0.42}
+{'loss': 1.4541, 'grad_norm': 0.1113729476928711, 'learning_rate': 0.0003292628046519267, 'epoch': 0.42}
+{'loss': 1.4307, 'grad_norm': 0.11541580408811569, 'learning_rate': 0.0003290661358550677, 'epoch': 0.42}
+{'loss': 1.4566, 'grad_norm': 0.11879761517047882, 'learning_rate': 0.0003288694126743154, 'epoch': 0.42}
+{'loss': 1.4543, 'grad_norm': 0.11092527210712433, 'learning_rate': 0.00032867263524498163, 'epoch': 0.42}
+{'loss': 1.4551, 'grad_norm': 0.10986678302288055, 'learning_rate': 0.00032847580370241544, 'epoch': 0.42}
+{'loss': 1.4558, 'grad_norm': 0.1268211454153061, 'learning_rate': 0.0003282789181820029, 'epoch': 0.42}
+{'loss': 1.4611, 'grad_norm': 0.10936293751001358, 'learning_rate': 0.0003280819788191675, 'epoch': 0.42}
+{'loss': 1.4795, 'grad_norm': 0.11791806668043137, 'learning_rate': 0.0003278849857493696, 'epoch': 0.42}
+{'loss': 1.449, 'grad_norm': 0.11211320012807846, 'learning_rate': 0.00032768793910810645, 'epoch': 0.42}
+{'loss': 1.4433, 'grad_norm': 0.09662562608718872, 'learning_rate': 0.00032749083903091234, 'epoch': 0.42}
+{'loss': 1.4625, 'grad_norm': 0.12017634510993958, 'learning_rate': 0.0003272936856533581, 'epoch': 0.42}
+{'loss': 1.4413, 'grad_norm': 0.1079147681593895, 'learning_rate': 0.0003270964791110513, 'epoch': 0.42}
+{'loss': 1.4244, 'grad_norm': 0.10896406322717667, 'learning_rate': 0.0003268992195396363, 'epoch': 0.42}
+{'loss': 1.4611, 'grad_norm': 0.11700640618801117, 'learning_rate': 0.0003267019070747935, 'epoch': 0.42}
+{'loss': 1.4542, 'grad_norm': 0.10434122383594513, 'learning_rate': 0.0003265045418522401, 'epoch': 0.42}
+{'loss': 1.4568, 'grad_norm': 0.13601985573768616, 'learning_rate': 0.00032630712400772923, 'epoch': 0.42}
+{'loss': 1.4362, 'grad_norm': 0.1195974200963974, 'learning_rate': 0.0003261096536770505, 'epoch': 0.42}
+{'loss': 1.4427, 'grad_norm': 0.13157853484153748, 'learning_rate': 0.0003259121309960295, 'epoch': 0.42}
+{'loss': 1.4386, 'grad_norm': 0.1116519495844841, 'learning_rate': 0.00032571455610052783, 'epoch': 0.42}
+{'loss': 1.4576, 'grad_norm': 0.11645921319723129, 'learning_rate': 0.00032551692912644297, 'epoch': 0.42}
+{'loss': 1.4614, 'grad_norm': 0.10789793729782104, 'learning_rate': 0.00032531925020970833, 'epoch': 0.42}
+{'loss': 1.431, 'grad_norm': 0.10686991363763809, 'learning_rate': 0.00032512151948629295, 'epoch': 0.42}
+{'loss': 1.4424, 'grad_norm': 0.13445234298706055, 'learning_rate': 0.0003249237370922015, 'epoch': 0.42}
+{'loss': 1.4521, 'grad_norm': 0.11366704851388931, 'learning_rate': 0.0003247259031634743, 'epoch': 0.42}
+{'loss': 1.4576, 'grad_norm': 0.12071643769741058, 'learning_rate': 0.0003245280178361869, 'epoch': 0.42}
+{'loss': 1.4624, 'grad_norm': 0.10461122542619705, 'learning_rate': 0.0003243300812464506, 'epoch': 0.42}
+{'loss': 1.4629, 'grad_norm': 0.11817649751901627, 'learning_rate': 0.00032413209353041153, 'epoch': 0.42}
+{'loss': 1.4596, 'grad_norm': 0.11639517545700073, 'learning_rate': 0.0003239340548242511, 'epoch': 0.42}
+{'loss': 1.4455, 'grad_norm': 0.10132944583892822, 'learning_rate': 0.00032373596526418604, 'epoch': 0.42}
+{'loss': 1.442, 'grad_norm': 0.13157783448696136, 'learning_rate': 0.0003235378249864678, 'epoch': 0.42}
+{'loss': 1.4668, 'grad_norm': 0.1123175397515297, 'learning_rate': 0.00032333963412738267, 'epoch': 0.42}
+{'loss': 1.4255, 'grad_norm': 0.12864702939987183, 'learning_rate': 0.00032314139282325194, 'epoch': 0.42}
+{'loss': 1.4307, 'grad_norm': 0.11865685135126114, 'learning_rate': 0.00032294310121043165, 'epoch': 0.42}
+{'loss': 1.4541, 'grad_norm': 0.10556824505329132, 'learning_rate': 0.0003227447594253121, 'epoch': 0.42}
+{'loss': 1.4387, 'grad_norm': 0.12043188512325287, 'learning_rate': 0.00032254636760431835, 'epoch': 0.42}
+{'loss': 1.4506, 'grad_norm': 0.11701636761426926, 'learning_rate': 0.0003223479258839098, 'epoch': 0.42}
+{'loss': 1.4372, 'grad_norm': 0.12070970237255096, 'learning_rate': 0.0003221494344005803, 'epoch': 0.42}
+{'loss': 1.4843, 'grad_norm': 0.10624806582927704, 'learning_rate': 0.0003219508932908578, 'epoch': 0.42}
+{'loss': 1.431, 'grad_norm': 0.12097146362066269, 'learning_rate': 0.0003217523026913044, 'epoch': 0.43}
+{'loss': 1.4295, 'grad_norm': 0.10354650765657425, 'learning_rate': 0.00032155366273851617, 'epoch': 0.43}
+{'loss': 1.4516, 'grad_norm': 0.11577405035495758, 'learning_rate': 0.0003213549735691233, 'epoch': 0.43}
+{'loss': 1.4407, 'grad_norm': 0.10614952445030212, 'learning_rate': 0.0003211562353197897, 'epoch': 0.43}
+{'loss': 1.4785, 'grad_norm': 0.09285881370306015, 'learning_rate': 0.0003209574481272131, 'epoch': 0.43}
+{'loss': 1.4599, 'grad_norm': 0.1155264750123024, 'learning_rate': 0.00032075861212812486, 'epoch': 0.43}
+{'loss': 1.4511, 'grad_norm': 0.10523736476898193, 'learning_rate': 0.00032055972745928996, 'epoch': 0.43}
+{'loss': 1.4447, 'grad_norm': 0.1075235977768898, 'learning_rate': 0.0003203607942575069, 'epoch': 0.43}
+{'loss': 1.4573, 'grad_norm': 0.11020354181528091, 'learning_rate': 0.0003201618126596072, 'epoch': 0.43}
+{'loss': 1.4375, 'grad_norm': 0.11277931928634644, 'learning_rate': 0.00031996278280245624, 'epoch': 0.43}
+{'loss': 1.4665, 'grad_norm': 0.11641113460063934, 'learning_rate': 0.00031976370482295215, 'epoch': 0.43}
+{'loss': 1.4405, 'grad_norm': 0.1062195897102356, 'learning_rate': 0.00031956457885802645, 'epoch': 0.43}
+{'loss': 1.4513, 'grad_norm': 0.10608930885791779, 'learning_rate': 0.0003193654050446433, 'epoch': 0.43}
+{'loss': 1.446, 'grad_norm': 0.1174396499991417, 'learning_rate': 0.00031916618351980034, 'epoch': 0.43}
+{'loss': 1.4752, 'grad_norm': 0.11512471735477448, 'learning_rate': 0.00031896691442052737, 'epoch': 0.43}
+{'loss': 1.4337, 'grad_norm': 0.10303337872028351, 'learning_rate': 0.00031876759788388744, 'epoch': 0.43}
+{'loss': 1.4765, 'grad_norm': 0.11671031266450882, 'learning_rate': 0.0003185682340469759, 'epoch': 0.43}
+{'loss': 1.4478, 'grad_norm': 0.11336852610111237, 'learning_rate': 0.0003183688230469208, 'epoch': 0.43}
+{'loss': 1.4633, 'grad_norm': 0.11195168644189835, 'learning_rate': 0.00031816936502088264, 'epoch': 0.43}
+{'loss': 1.4492, 'grad_norm': 0.12814506888389587, 'learning_rate': 0.0003179698601060541, 'epoch': 0.43}
+{'loss': 1.4653, 'grad_norm': 0.10436839610338211, 'learning_rate': 0.0003177703084396603, 'epoch': 0.43}
+{'loss': 1.46, 'grad_norm': 0.111362524330616, 'learning_rate': 0.0003175707101589585, 'epoch': 0.43}
+{'loss': 1.4405, 'grad_norm': 0.10638607293367386, 'learning_rate': 0.00031737106540123786, 'epoch': 0.43}
+{'loss': 1.4562, 'grad_norm': 0.11034727096557617, 'learning_rate': 0.0003171713743038196, 'epoch': 0.43}
+{'loss': 1.4855, 'grad_norm': 0.1052304282784462, 'learning_rate': 0.00031697163700405685, 'epoch': 0.43}
+{'loss': 1.4576, 'grad_norm': 0.10987816005945206, 'learning_rate': 0.0003167718536393346, 'epoch': 0.43}
+{'loss': 1.4394, 'grad_norm': 0.1107214167714119, 'learning_rate': 0.00031657202434706933, 'epoch': 0.43}
+{'loss': 1.4741, 'grad_norm': 0.09699277579784393, 'learning_rate': 0.00031637214926470914, 'epoch': 0.43}
+{'loss': 1.439, 'grad_norm': 0.1036401018500328, 'learning_rate': 0.0003161722285297338, 'epoch': 0.43}
+{'loss': 1.4312, 'grad_norm': 0.10309436917304993, 'learning_rate': 0.0003159722622796543, 'epoch': 0.43}
+{'loss': 1.4431, 'grad_norm': 0.10298261046409607, 'learning_rate': 0.00031577225065201306, 'epoch': 0.43}
+{'loss': 1.4243, 'grad_norm': 0.09990429133176804, 'learning_rate': 0.0003155721937843836, 'epoch': 0.43}
+{'loss': 1.4454, 'grad_norm': 0.10564139485359192, 'learning_rate': 0.0003153720918143705, 'epoch': 0.43}
+{'loss': 1.4566, 'grad_norm': 0.10294849425554276, 'learning_rate': 0.0003151719448796098, 'epoch': 0.43}
+{'loss': 1.4456, 'grad_norm': 0.08826303482055664, 'learning_rate': 0.00031497175311776785, 'epoch': 0.43}
+{'loss': 1.444, 'grad_norm': 0.11223254352807999, 'learning_rate': 0.00031477151666654227, 'epoch': 0.43}
+{'loss': 1.4336, 'grad_norm': 0.1061292365193367, 'learning_rate': 0.00031457123566366115, 'epoch': 0.43}
+{'loss': 1.4611, 'grad_norm': 0.10805422067642212, 'learning_rate': 0.00031437091024688347, 'epoch': 0.43}
+{'loss': 1.4391, 'grad_norm': 0.10196087509393692, 'learning_rate': 0.00031417054055399865, 'epoch': 0.43}
+{'loss': 1.453, 'grad_norm': 0.10244541615247726, 'learning_rate': 0.00031397012672282636, 'epoch': 0.44}
+{'loss': 1.4686, 'grad_norm': 0.10380490124225616, 'learning_rate': 0.0003137696688912171, 'epoch': 0.44}
+{'loss': 1.4463, 'grad_norm': 0.10918765515089035, 'learning_rate': 0.0003135691671970512, 'epoch': 0.44}
+{'loss': 1.4583, 'grad_norm': 0.10094784200191498, 'learning_rate': 0.0003133686217782393, 'epoch': 0.44}
+{'loss': 1.4411, 'grad_norm': 0.1124318540096283, 'learning_rate': 0.0003131680327727221, 'epoch': 0.44}
+{'loss': 1.4486, 'grad_norm': 0.12194262444972992, 'learning_rate': 0.00031296740031847047, 'epoch': 0.44}
+{'loss': 1.4413, 'grad_norm': 0.1112888976931572, 'learning_rate': 0.000312766724553485, 'epoch': 0.44}
+{'loss': 1.4504, 'grad_norm': 0.1170160323381424, 'learning_rate': 0.0003125660056157958, 'epoch': 0.44}
+{'loss': 1.4429, 'grad_norm': 0.11005139350891113, 'learning_rate': 0.00031236524364346326, 'epoch': 0.44}
+{'loss': 1.4633, 'grad_norm': 0.12484579533338547, 'learning_rate': 0.0003121644387745769, 'epoch': 0.44}
+{'loss': 1.4529, 'grad_norm': 0.10320351272821426, 'learning_rate': 0.000311963591147256, 'epoch': 0.44}
+{'loss': 1.4622, 'grad_norm': 0.10366202145814896, 'learning_rate': 0.00031176270089964907, 'epoch': 0.44}
+{'loss': 1.4604, 'grad_norm': 0.11297395825386047, 'learning_rate': 0.0003115617681699341, 'epoch': 0.44}
+{'loss': 1.4387, 'grad_norm': 0.11320912837982178, 'learning_rate': 0.0003113607930963182, 'epoch': 0.44}
+{'loss': 1.4657, 'grad_norm': 0.11656546592712402, 'learning_rate': 0.0003111597758170376, 'epoch': 0.44}
+{'loss': 1.4499, 'grad_norm': 0.09760209172964096, 'learning_rate': 0.0003109587164703576, 'epoch': 0.44}
+{'loss': 1.4413, 'grad_norm': 0.12998852133750916, 'learning_rate': 0.00031075761519457247, 'epoch': 0.44}
+{'loss': 1.4369, 'grad_norm': 0.11268246173858643, 'learning_rate': 0.0003105564721280053, 'epoch': 0.44}
+{'loss': 1.4541, 'grad_norm': 0.10905783623456955, 'learning_rate': 0.0003103552874090079, 'epoch': 0.44}
+{'loss': 1.4831, 'grad_norm': 0.13240383565425873, 'learning_rate': 0.0003101540611759605, 'epoch': 0.44}
+{'loss': 1.4407, 'grad_norm': 0.1071934923529625, 'learning_rate': 0.00030995279356727234, 'epoch': 0.44}
+{'loss': 1.4359, 'grad_norm': 0.13580180704593658, 'learning_rate': 0.00030975148472138085, 'epoch': 0.44}
+{'loss': 1.4213, 'grad_norm': 0.1165967583656311, 'learning_rate': 0.000309550134776752, 'epoch': 0.44}
+{'loss': 1.4374, 'grad_norm': 0.1275930553674698, 'learning_rate': 0.0003093487438718796, 'epoch': 0.44}
+{'loss': 1.4361, 'grad_norm': 0.10551616549491882, 'learning_rate': 0.00030914731214528614, 'epoch': 0.44}
+{'loss': 1.4379, 'grad_norm': 0.12360148131847382, 'learning_rate': 0.000308945839735522, 'epoch': 0.44}
+{'loss': 1.449, 'grad_norm': 0.10905472189188004, 'learning_rate': 0.0003087443267811654, 'epoch': 0.44}
+{'loss': 1.453, 'grad_norm': 0.09464466571807861, 'learning_rate': 0.0003085427734208226, 'epoch': 0.44}
+{'loss': 1.4509, 'grad_norm': 0.10876783728599548, 'learning_rate': 0.00030834117979312766, 'epoch': 0.44}
+{'loss': 1.458, 'grad_norm': 0.1042562946677208, 'learning_rate': 0.0003081395460367423, 'epoch': 0.44}
+{'loss': 1.4507, 'grad_norm': 0.10422078520059586, 'learning_rate': 0.0003079378722903559, 'epoch': 0.44}
+{'loss': 1.4529, 'grad_norm': 0.1153535544872284, 'learning_rate': 0.00030773615869268505, 'epoch': 0.44}
+{'loss': 1.4377, 'grad_norm': 0.09907610714435577, 'learning_rate': 0.0003075344053824742, 'epoch': 0.44}
+{'loss': 1.4508, 'grad_norm': 0.12318744510412216, 'learning_rate': 0.0003073326124984949, 'epoch': 0.44}
+{'loss': 1.4521, 'grad_norm': 0.10911930352449417, 'learning_rate': 0.00030713078017954594, 'epoch': 0.44}
+{'loss': 1.4534, 'grad_norm': 0.11634555459022522, 'learning_rate': 0.000306928908564453, 'epoch': 0.44}
+{'loss': 1.458, 'grad_norm': 0.10465693473815918, 'learning_rate': 0.00030672699779206924, 'epoch': 0.44}
+{'loss': 1.4503, 'grad_norm': 0.11267530173063278, 'learning_rate': 0.0003065250480012745, 'epoch': 0.44}
+{'loss': 1.442, 'grad_norm': 0.10675384849309921, 'learning_rate': 0.00030632305933097536, 'epoch': 0.44}
+{'loss': 1.4632, 'grad_norm': 0.11460117995738983, 'learning_rate': 0.00030612103192010525, 'epoch': 0.45}
+{'loss': 1.4545, 'grad_norm': 0.10483091324567795, 'learning_rate': 0.0003059189659076244, 'epoch': 0.45}
+{'loss': 1.4832, 'grad_norm': 0.11784452199935913, 'learning_rate': 0.00030571686143251943, 'epoch': 0.45}
+{'loss': 1.4574, 'grad_norm': 0.10600116848945618, 'learning_rate': 0.00030551471863380324, 'epoch': 0.45}
+{'loss': 1.4398, 'grad_norm': 0.11070438474416733, 'learning_rate': 0.00030531253765051555, 'epoch': 0.45}
+{'loss': 1.4485, 'grad_norm': 0.108805812895298, 'learning_rate': 0.00030511031862172187, 'epoch': 0.45}
+{'loss': 1.4476, 'grad_norm': 0.10953441262245178, 'learning_rate': 0.0003049080616865142, 'epoch': 0.45}
+{'loss': 1.4565, 'grad_norm': 0.11685539036989212, 'learning_rate': 0.00030470576698401043, 'epoch': 0.45}
+{'loss': 1.4446, 'grad_norm': 0.10908717662096024, 'learning_rate': 0.00030450343465335456, 'epoch': 0.45}
+{'loss': 1.4528, 'grad_norm': 0.10384536534547806, 'learning_rate': 0.00030430106483371645, 'epoch': 0.45}
+{'loss': 1.4648, 'grad_norm': 0.10827826708555222, 'learning_rate': 0.0003040986576642916, 'epoch': 0.45}
+{'loss': 1.4628, 'grad_norm': 0.12514309585094452, 'learning_rate': 0.00030389621328430136, 'epoch': 0.45}
+{'loss': 1.4628, 'grad_norm': 0.11504922062158585, 'learning_rate': 0.00030369373183299254, 'epoch': 0.45}
+{'loss': 1.4499, 'grad_norm': 0.11768210679292679, 'learning_rate': 0.00030349121344963766, 'epoch': 0.45}
+{'loss': 1.4636, 'grad_norm': 0.11821586638689041, 'learning_rate': 0.0003032886582735344, 'epoch': 0.45}
+{'loss': 1.4271, 'grad_norm': 0.10832389444112778, 'learning_rate': 0.00030308606644400594, 'epoch': 0.45}
+{'loss': 1.4459, 'grad_norm': 0.11363404244184494, 'learning_rate': 0.0003028834381004005, 'epoch': 0.45}
+{'loss': 1.458, 'grad_norm': 0.11339893192052841, 'learning_rate': 0.0003026807733820917, 'epoch': 0.45}
+{'loss': 1.4539, 'grad_norm': 0.11966706812381744, 'learning_rate': 0.0003024780724284777, 'epoch': 0.45}
+{'loss': 1.4494, 'grad_norm': 0.11265867948532104, 'learning_rate': 0.0003022753353789821, 'epoch': 0.45}
+{'loss': 1.4535, 'grad_norm': 0.11586640030145645, 'learning_rate': 0.000302072562373053, 'epoch': 0.45}
+{'loss': 1.4544, 'grad_norm': 0.11458147317171097, 'learning_rate': 0.0003018697535501633, 'epoch': 0.45}
+{'loss': 1.4468, 'grad_norm': 0.09909383952617645, 'learning_rate': 0.00030166690904981065, 'epoch': 0.45}
+{'loss': 1.4377, 'grad_norm': 0.1066272184252739, 'learning_rate': 0.0003014640290115171, 'epoch': 0.45}
+{'loss': 1.4656, 'grad_norm': 0.1092609167098999, 'learning_rate': 0.0003012611135748292, 'epoch': 0.45}
+{'loss': 1.4454, 'grad_norm': 0.1323317289352417, 'learning_rate': 0.0003010581628793179, 'epoch': 0.45}
+{'loss': 1.4479, 'grad_norm': 0.10057202726602554, 'learning_rate': 0.00030085517706457827, 'epoch': 0.45}
+{'loss': 1.4771, 'grad_norm': 0.1376192271709442, 'learning_rate': 0.0003006521562702295, 'epoch': 0.45}
+{'loss': 1.4355, 'grad_norm': 0.11311347782611847, 'learning_rate': 0.0003004491006359153, 'epoch': 0.45}
+{'loss': 1.4505, 'grad_norm': 0.10470703989267349, 'learning_rate': 0.0003002460103013028, 'epoch': 0.45}
+{'loss': 1.43, 'grad_norm': 0.1177692711353302, 'learning_rate': 0.000300042885406083, 'epoch': 0.45}
+{'loss': 1.4544, 'grad_norm': 0.11340604722499847, 'learning_rate': 0.00029983972608997123, 'epoch': 0.45}
+{'loss': 1.4495, 'grad_norm': 0.11410848796367645, 'learning_rate': 0.0002996365324927059, 'epoch': 0.45}
+{'loss': 1.4474, 'grad_norm': 0.10461582988500595, 'learning_rate': 0.00029943330475404935, 'epoch': 0.45}
+{'loss': 1.4573, 'grad_norm': 0.10434480756521225, 'learning_rate': 0.0002992300430137872, 'epoch': 0.45}
+{'loss': 1.44, 'grad_norm': 0.10325450450181961, 'learning_rate': 0.0002990267474117285, 'epoch': 0.45}
+{'loss': 1.4713, 'grad_norm': 0.09946075081825256, 'learning_rate': 0.0002988234180877059, 'epoch': 0.45}
+{'loss': 1.4563, 'grad_norm': 0.10860633850097656, 'learning_rate': 0.00029862005518157457, 'epoch': 0.45}
+{'loss': 1.4369, 'grad_norm': 0.10889681428670883, 'learning_rate': 0.00029841665883321354, 'epoch': 0.45}
+{'loss': 1.4251, 'grad_norm': 0.10202451050281525, 'learning_rate': 0.00029821322918252433, 'epoch': 0.46}
+{'loss': 1.4491, 'grad_norm': 0.09011757373809814, 'learning_rate': 0.0002980097663694316, 'epoch': 0.46}
+{'loss': 1.4678, 'grad_norm': 0.10584507137537003, 'learning_rate': 0.00029780627053388264, 'epoch': 0.46}
+{'loss': 1.4532, 'grad_norm': 0.11792851984500885, 'learning_rate': 0.00029760274181584763, 'epoch': 0.46}
+{'loss': 1.453, 'grad_norm': 0.09347116947174072, 'learning_rate': 0.0002973991803553193, 'epoch': 0.46}
+{'loss': 1.4726, 'grad_norm': 0.10602036118507385, 'learning_rate': 0.00029719558629231287, 'epoch': 0.46}
+{'loss': 1.4588, 'grad_norm': 0.10564250499010086, 'learning_rate': 0.0002969919597668661, 'epoch': 0.46}
+{'loss': 1.4414, 'grad_norm': 0.10187573730945587, 'learning_rate': 0.00029678830091903885, 'epoch': 0.46}
+{'loss': 1.4719, 'grad_norm': 0.10849001258611679, 'learning_rate': 0.0002965846098889134, 'epoch': 0.46}
+{'loss': 1.418, 'grad_norm': 0.09403645247220993, 'learning_rate': 0.0002963808868165943, 'epoch': 0.46}
+{'loss': 1.4587, 'grad_norm': 0.09928573668003082, 'learning_rate': 0.0002961771318422077, 'epoch': 0.46}
+{'loss': 1.4673, 'grad_norm': 0.10428503155708313, 'learning_rate': 0.0002959733451059021, 'epoch': 0.46}
+{'loss': 1.4732, 'grad_norm': 0.09999119490385056, 'learning_rate': 0.00029576952674784763, 'epoch': 0.46}
+{'loss': 1.4528, 'grad_norm': 0.11391028761863708, 'learning_rate': 0.0002955656769082363, 'epoch': 0.46}
+{'loss': 1.4605, 'grad_norm': 0.10322071611881256, 'learning_rate': 0.0002953617957272817, 'epoch': 0.46}
+{'loss': 1.4626, 'grad_norm': 0.10655223578214645, 'learning_rate': 0.00029515788334521896, 'epoch': 0.46}
+{'loss': 1.4456, 'grad_norm': 0.10548126697540283, 'learning_rate': 0.00029495393990230484, 'epoch': 0.46}
+{'loss': 1.4428, 'grad_norm': 0.09887555241584778, 'learning_rate': 0.0002947499655388171, 'epoch': 0.46}
+{'loss': 1.4547, 'grad_norm': 0.10085088014602661, 'learning_rate': 0.0002945459603950552, 'epoch': 0.46}
+{'loss': 1.4453, 'grad_norm': 0.10590726137161255, 'learning_rate': 0.00029434192461133936, 'epoch': 0.46}
+{'loss': 1.4606, 'grad_norm': 0.10804291069507599, 'learning_rate': 0.00029413785832801124, 'epoch': 0.46}
+{'loss': 1.4476, 'grad_norm': 0.10099218040704727, 'learning_rate': 0.00029393376168543333, 'epoch': 0.46}
+{'loss': 1.4569, 'grad_norm': 0.11378546804189682, 'learning_rate': 0.0002937296348239889, 'epoch': 0.46}
+{'loss': 1.4061, 'grad_norm': 0.10357239097356796, 'learning_rate': 0.0002935254778840821, 'epoch': 0.46}
+{'loss': 1.4534, 'grad_norm': 0.10269348323345184, 'learning_rate': 0.0002933212910061379, 'epoch': 0.46}
+{'loss': 1.4184, 'grad_norm': 0.10437116771936417, 'learning_rate': 0.00029311707433060164, 'epoch': 0.46}
+{'loss': 1.4533, 'grad_norm': 0.10616875439882278, 'learning_rate': 0.0002929128279979392, 'epoch': 0.46}
+{'loss': 1.4411, 'grad_norm': 0.09584884345531464, 'learning_rate': 0.0002927085521486369, 'epoch': 0.46}
+{'loss': 1.4651, 'grad_norm': 0.10601925849914551, 'learning_rate': 0.0002925042469232014, 'epoch': 0.46}
+{'loss': 1.449, 'grad_norm': 0.11531250178813934, 'learning_rate': 0.0002922999124621596, 'epoch': 0.46}
+{'loss': 1.4911, 'grad_norm': 0.092715322971344, 'learning_rate': 0.00029209554890605844, 'epoch': 0.46}
+{'loss': 1.4459, 'grad_norm': 0.0976332575082779, 'learning_rate': 0.00029189115639546463, 'epoch': 0.46}
+{'loss': 1.4197, 'grad_norm': 0.11496415734291077, 'learning_rate': 0.0002916867350709654, 'epoch': 0.46}
+{'loss': 1.4332, 'grad_norm': 0.10579085350036621, 'learning_rate': 0.00029148228507316714, 'epoch': 0.46}
+{'loss': 1.443, 'grad_norm': 0.11578451842069626, 'learning_rate': 0.00029127780654269656, 'epoch': 0.46}
+{'loss': 1.4582, 'grad_norm': 0.10355755686759949, 'learning_rate': 0.0002910732996201993, 'epoch': 0.46}
+{'loss': 1.4474, 'grad_norm': 0.12168285250663757, 'learning_rate': 0.00029086876444634125, 'epoch': 0.46}
+{'loss': 1.4387, 'grad_norm': 0.11223094910383224, 'learning_rate': 0.0002906642011618073, 'epoch': 0.46}
+{'loss': 1.4407, 'grad_norm': 0.11520776152610779, 'learning_rate': 0.00029045960990730177, 'epoch': 0.46}
+{'loss': 1.4921, 'grad_norm': 0.10805677622556686, 'learning_rate': 0.0002902549908235482, 'epoch': 0.47}
+{'loss': 1.4633, 'grad_norm': 0.09639576822519302, 'learning_rate': 0.0002900503440512894, 'epoch': 0.47}
+{'loss': 1.4564, 'grad_norm': 0.11240805685520172, 'learning_rate': 0.00028984566973128703, 'epoch': 0.47}
+{'loss': 1.4506, 'grad_norm': 0.10071736574172974, 'learning_rate': 0.0002896409680043218, 'epoch': 0.47}
+{'loss': 1.4375, 'grad_norm': 0.11275463551282883, 'learning_rate': 0.0002894362390111934, 'epoch': 0.47}
+{'loss': 1.4479, 'grad_norm': 0.11268961429595947, 'learning_rate': 0.00028923148289271993, 'epoch': 0.47}
+{'loss': 1.4686, 'grad_norm': 0.12414337694644928, 'learning_rate': 0.00028902669978973853, 'epoch': 0.47}
+{'loss': 1.4344, 'grad_norm': 0.09989950805902481, 'learning_rate': 0.00028882188984310467, 'epoch': 0.47}
+{'loss': 1.4611, 'grad_norm': 0.1317872256040573, 'learning_rate': 0.00028861705319369236, 'epoch': 0.47}
+{'loss': 1.4597, 'grad_norm': 0.10403434932231903, 'learning_rate': 0.00028841218998239396, 'epoch': 0.47}
+{'loss': 1.4558, 'grad_norm': 0.11713143438100815, 'learning_rate': 0.00028820730035012, 'epoch': 0.47}
+{'loss': 1.4529, 'grad_norm': 0.10816362500190735, 'learning_rate': 0.00028800238443779934, 'epoch': 0.47}
+{'loss': 1.4316, 'grad_norm': 0.10836191475391388, 'learning_rate': 0.000287797442386379, 'epoch': 0.47}
+{'loss': 1.4558, 'grad_norm': 0.13153177499771118, 'learning_rate': 0.0002875924743368236, 'epoch': 0.47}
+{'loss': 1.4433, 'grad_norm': 0.10015776753425598, 'learning_rate': 0.00028738748043011616, 'epoch': 0.47}
+{'loss': 1.4498, 'grad_norm': 0.1056605875492096, 'learning_rate': 0.0002871824608072569, 'epoch': 0.47}
+{'loss': 1.4745, 'grad_norm': 0.1292879581451416, 'learning_rate': 0.00028697741560926424, 'epoch': 0.47}
+{'loss': 1.4411, 'grad_norm': 0.1029733344912529, 'learning_rate': 0.00028677234497717397, 'epoch': 0.47}
+{'loss': 1.4549, 'grad_norm': 0.12540793418884277, 'learning_rate': 0.00028656724905203924, 'epoch': 0.47}
+{'loss': 1.4427, 'grad_norm': 0.11903847008943558, 'learning_rate': 0.0002863621279749309, 'epoch': 0.47}
+{'loss': 1.4198, 'grad_norm': 0.11433421820402145, 'learning_rate': 0.00028615698188693697, 'epoch': 0.47}
+{'loss': 1.4276, 'grad_norm': 0.1150558665394783, 'learning_rate': 0.0002859518109291625, 'epoch': 0.47}
+{'loss': 1.4378, 'grad_norm': 0.11990182101726532, 'learning_rate': 0.00028574661524272994, 'epoch': 0.47}
+{'loss': 1.4351, 'grad_norm': 0.12714974582195282, 'learning_rate': 0.0002855413949687784, 'epoch': 0.47}
+{'loss': 1.461, 'grad_norm': 0.12521395087242126, 'learning_rate': 0.00028533615024846435, 'epoch': 0.47}
+{'loss': 1.4581, 'grad_norm': 0.11711417883634567, 'learning_rate': 0.0002851308812229608, 'epoch': 0.47}
+{'loss': 1.4504, 'grad_norm': 0.12713593244552612, 'learning_rate': 0.0002849255880334574, 'epoch': 0.47}
+{'loss': 1.4516, 'grad_norm': 0.11574941128492355, 'learning_rate': 0.00028472027082116055, 'epoch': 0.47}
+{'loss': 1.4375, 'grad_norm': 0.10478655993938446, 'learning_rate': 0.00028451492972729307, 'epoch': 0.47}
+{'loss': 1.45, 'grad_norm': 0.12190906703472137, 'learning_rate': 0.00028430956489309455, 'epoch': 0.47}
+{'loss': 1.4559, 'grad_norm': 0.11142680048942566, 'learning_rate': 0.00028410417645982047, 'epoch': 0.47}
+{'loss': 1.4488, 'grad_norm': 0.11233573406934738, 'learning_rate': 0.0002838987645687427, 'epoch': 0.47}
+{'loss': 1.4358, 'grad_norm': 0.1236967146396637, 'learning_rate': 0.00028369332936114937, 'epoch': 0.47}
+{'loss': 1.4386, 'grad_norm': 0.10365702211856842, 'learning_rate': 0.0002834878709783445, 'epoch': 0.47}
+{'loss': 1.4794, 'grad_norm': 0.11419200152158737, 'learning_rate': 0.000283282389561648, 'epoch': 0.47}
+{'loss': 1.4237, 'grad_norm': 0.11450471729040146, 'learning_rate': 0.0002830768852523959, 'epoch': 0.47}
+{'loss': 1.4466, 'grad_norm': 0.1004277914762497, 'learning_rate': 0.0002828713581919397, 'epoch': 0.47}
+{'loss': 1.4316, 'grad_norm': 0.11315828561782837, 'learning_rate': 0.0002826658085216466, 'epoch': 0.47}
+{'loss': 1.4548, 'grad_norm': 0.12087532877922058, 'learning_rate': 0.0002824602363828994, 'epoch': 0.47}
+{'loss': 1.4382, 'grad_norm': 0.1120363399386406, 'learning_rate': 0.0002822546419170965, 'epoch': 0.48}
+{'loss': 1.4332, 'grad_norm': 0.12088828533887863, 'learning_rate': 0.0002820490252656513, 'epoch': 0.48}
+{'loss': 1.4809, 'grad_norm': 0.12581433355808258, 'learning_rate': 0.0002818433865699928, 'epoch': 0.48}
+{'loss': 1.444, 'grad_norm': 0.11598941683769226, 'learning_rate': 0.00028163772597156493, 'epoch': 0.48}
+{'loss': 1.423, 'grad_norm': 0.1062164455652237, 'learning_rate': 0.00028143204361182696, 'epoch': 0.48}
+{'loss': 1.4369, 'grad_norm': 0.11876602470874786, 'learning_rate': 0.0002812263396322528, 'epoch': 0.48}
+{'loss': 1.4518, 'grad_norm': 0.1261986792087555, 'learning_rate': 0.00028102061417433144, 'epoch': 0.48}
+{'loss': 1.4318, 'grad_norm': 0.1038835421204567, 'learning_rate': 0.0002808148673795665, 'epoch': 0.48}
+{'loss': 1.4415, 'grad_norm': 0.11907679587602615, 'learning_rate': 0.0002806090993894765, 'epoch': 0.48}
+{'loss': 1.4586, 'grad_norm': 0.10816942900419235, 'learning_rate': 0.00028040331034559436, 'epoch': 0.48}
+{'loss': 1.4297, 'grad_norm': 0.11339350789785385, 'learning_rate': 0.0002801975003894675, 'epoch': 0.48}
+{'loss': 1.442, 'grad_norm': 0.11375489085912704, 'learning_rate': 0.0002799916696626577, 'epoch': 0.48}
+{'loss': 1.435, 'grad_norm': 0.1010197326540947, 'learning_rate': 0.0002797858183067411, 'epoch': 0.48}
+{'loss': 1.462, 'grad_norm': 0.10168880224227905, 'learning_rate': 0.0002795799464633081, 'epoch': 0.48}
+{'loss': 1.4778, 'grad_norm': 0.11687402427196503, 'learning_rate': 0.000279374054273963, 'epoch': 0.48}
+{'loss': 1.4577, 'grad_norm': 0.10636929422616959, 'learning_rate': 0.00027916814188032405, 'epoch': 0.48}
+{'loss': 1.4387, 'grad_norm': 0.10855481028556824, 'learning_rate': 0.0002789622094240239, 'epoch': 0.48}
+{'loss': 1.4357, 'grad_norm': 0.0985553190112114, 'learning_rate': 0.00027875625704670837, 'epoch': 0.48}
+{'loss': 1.421, 'grad_norm': 0.11712983250617981, 'learning_rate': 0.00027855028489003736, 'epoch': 0.48}
+{'loss': 1.4373, 'grad_norm': 0.10362742841243744, 'learning_rate': 0.00027834429309568415, 'epoch': 0.48}
+{'loss': 1.472, 'grad_norm': 0.11258874088525772, 'learning_rate': 0.00027813828180533567, 'epoch': 0.48}
+{'loss': 1.4563, 'grad_norm': 0.10710190236568451, 'learning_rate': 0.0002779322511606924, 'epoch': 0.48}
+{'loss': 1.4603, 'grad_norm': 0.10067830979824066, 'learning_rate': 0.0002777262013034677, 'epoch': 0.48}
+{'loss': 1.4633, 'grad_norm': 0.09813667088747025, 'learning_rate': 0.00027752013237538855, 'epoch': 0.48}
+{'loss': 1.4648, 'grad_norm': 0.11325227469205856, 'learning_rate': 0.0002773140445181949, 'epoch': 0.48}
+{'loss': 1.4679, 'grad_norm': 0.10733538866043091, 'learning_rate': 0.0002771079378736398, 'epoch': 0.48}
+{'loss': 1.4509, 'grad_norm': 0.10525771230459213, 'learning_rate': 0.00027690181258348896, 'epoch': 0.48}
+{'loss': 1.423, 'grad_norm': 0.1044553816318512, 'learning_rate': 0.00027669566878952125, 'epoch': 0.48}
+{'loss': 1.4493, 'grad_norm': 0.09892841428518295, 'learning_rate': 0.00027648950663352814, 'epoch': 0.48}
+{'loss': 1.4502, 'grad_norm': 0.10262300819158554, 'learning_rate': 0.00027628332625731353, 'epoch': 0.48}
+{'loss': 1.4108, 'grad_norm': 0.11248330026865005, 'learning_rate': 0.0002760771278026942, 'epoch': 0.48}
+{'loss': 1.4352, 'grad_norm': 0.09665974974632263, 'learning_rate': 0.0002758709114114992, 'epoch': 0.48}
+{'loss': 1.4535, 'grad_norm': 0.0997607409954071, 'learning_rate': 0.0002756646772255698, 'epoch': 0.48}
+{'loss': 1.439, 'grad_norm': 0.09743459522724152, 'learning_rate': 0.00027545842538675974, 'epoch': 0.48}
+{'loss': 1.443, 'grad_norm': 0.12204454094171524, 'learning_rate': 0.00027525215603693465, 'epoch': 0.48}
+{'loss': 1.4342, 'grad_norm': 0.10057362914085388, 'learning_rate': 0.00027504586931797255, 'epoch': 0.48}
+{'loss': 1.425, 'grad_norm': 0.11827047169208527, 'learning_rate': 0.00027483956537176294, 'epoch': 0.48}
+{'loss': 1.4417, 'grad_norm': 0.1157224178314209, 'learning_rate': 0.0002746332443402077, 'epoch': 0.48}
+{'loss': 1.4351, 'grad_norm': 0.10099410265684128, 'learning_rate': 0.00027442690636521994, 'epoch': 0.48}
+{'loss': 1.4515, 'grad_norm': 0.10429307073354721, 'learning_rate': 0.0002742205515887248, 'epoch': 0.49}
+{'loss': 1.4458, 'grad_norm': 0.1054292619228363, 'learning_rate': 0.0002740141801526589, 'epoch': 0.49}
+{'loss': 1.428, 'grad_norm': 0.09930842369794846, 'learning_rate': 0.0002738077921989701, 'epoch': 0.49}
+{'loss': 1.4334, 'grad_norm': 0.09931264072656631, 'learning_rate': 0.000273601387869618, 'epoch': 0.49}
+{'loss': 1.4375, 'grad_norm': 0.09835007041692734, 'learning_rate': 0.00027339496730657305, 'epoch': 0.49}
+{'loss': 1.4229, 'grad_norm': 0.0886220708489418, 'learning_rate': 0.00027318853065181725, 'epoch': 0.49}
+{'loss': 1.4683, 'grad_norm': 0.11175495386123657, 'learning_rate': 0.0002729820780473434, 'epoch': 0.49}
+{'loss': 1.4278, 'grad_norm': 0.09260566532611847, 'learning_rate': 0.00027277560963515524, 'epoch': 0.49}
+{'loss': 1.4398, 'grad_norm': 0.10773263871669769, 'learning_rate': 0.0002725691255572678, 'epoch': 0.49}
+{'loss': 1.4549, 'grad_norm': 0.09618151187896729, 'learning_rate': 0.0002723626259557063, 'epoch': 0.49}
+{'loss': 1.4441, 'grad_norm': 0.10034041106700897, 'learning_rate': 0.000272156110972507, 'epoch': 0.49}
+{'loss': 1.4668, 'grad_norm': 0.10880590230226517, 'learning_rate': 0.00027194958074971677, 'epoch': 0.49}
+{'loss': 1.4094, 'grad_norm': 0.09764660149812698, 'learning_rate': 0.0002717430354293928, 'epoch': 0.49}
+{'loss': 1.4606, 'grad_norm': 0.10755738615989685, 'learning_rate': 0.00027153647515360267, 'epoch': 0.49}
+{'loss': 1.4487, 'grad_norm': 0.10691207647323608, 'learning_rate': 0.00027132990006442436, 'epoch': 0.49}
+{'loss': 1.4459, 'grad_norm': 0.1032935306429863, 'learning_rate': 0.00027112331030394596, 'epoch': 0.49}
+{'loss': 1.4466, 'grad_norm': 0.10818307101726532, 'learning_rate': 0.0002709167060142656, 'epoch': 0.49}
+{'loss': 1.4358, 'grad_norm': 0.09958317875862122, 'learning_rate': 0.00027071008733749164, 'epoch': 0.49}
+{'loss': 1.4317, 'grad_norm': 0.09856665134429932, 'learning_rate': 0.00027050345441574197, 'epoch': 0.49}
+{'loss': 1.4601, 'grad_norm': 0.1115492731332779, 'learning_rate': 0.0002702968073911446, 'epoch': 0.49}
+{'loss': 1.4588, 'grad_norm': 0.10508318990468979, 'learning_rate': 0.0002700901464058371, 'epoch': 0.49}
+{'loss': 1.4558, 'grad_norm': 0.09952113777399063, 'learning_rate': 0.00026988347160196663, 'epoch': 0.49}
+{'loss': 1.4619, 'grad_norm': 0.10219814628362656, 'learning_rate': 0.00026967678312168984, 'epoch': 0.49}
+{'loss': 1.4476, 'grad_norm': 0.10042782127857208, 'learning_rate': 0.000269470081107173, 'epoch': 0.49}
+{'loss': 1.4321, 'grad_norm': 0.10081928968429565, 'learning_rate': 0.0002692633657005914, 'epoch': 0.49}
+{'loss': 1.4469, 'grad_norm': 0.10166189074516296, 'learning_rate': 0.0002690566370441296, 'epoch': 0.49}
+{'loss': 1.4338, 'grad_norm': 0.0957164466381073, 'learning_rate': 0.0002688498952799814, 'epoch': 0.49}
+{'loss': 1.433, 'grad_norm': 0.10134278982877731, 'learning_rate': 0.0002686431405503496, 'epoch': 0.49}
+{'loss': 1.4637, 'grad_norm': 0.09964638948440552, 'learning_rate': 0.00026843637299744585, 'epoch': 0.49}
+{'loss': 1.4375, 'grad_norm': 0.10125552862882614, 'learning_rate': 0.00026822959276349056, 'epoch': 0.49}
+{'loss': 1.4621, 'grad_norm': 0.11847418546676636, 'learning_rate': 0.000268022799990713, 'epoch': 0.49}
+{'loss': 1.4398, 'grad_norm': 0.10175975412130356, 'learning_rate': 0.00026781599482135097, 'epoch': 0.49}
+{'loss': 1.4456, 'grad_norm': 0.10178966075181961, 'learning_rate': 0.00026760917739765096, 'epoch': 0.49}
+{'loss': 1.4147, 'grad_norm': 0.09525223821401596, 'learning_rate': 0.0002674023478618676, 'epoch': 0.49}
+{'loss': 1.4374, 'grad_norm': 0.10213879495859146, 'learning_rate': 0.00026719550635626407, 'epoch': 0.49}
+{'loss': 1.4546, 'grad_norm': 0.10856430232524872, 'learning_rate': 0.0002669886530231117, 'epoch': 0.49}
+{'loss': 1.4249, 'grad_norm': 0.09720907360315323, 'learning_rate': 0.0002667817880046901, 'epoch': 0.49}
+{'loss': 1.4356, 'grad_norm': 0.10955297946929932, 'learning_rate': 0.00026657491144328673, 'epoch': 0.49}
+{'loss': 1.435, 'grad_norm': 0.1102757453918457, 'learning_rate': 0.00026636802348119687, 'epoch': 0.49}
+{'loss': 1.4383, 'grad_norm': 0.10255683213472366, 'learning_rate': 0.0002661611242607242, 'epoch': 0.5}
+{'loss': 1.4596, 'grad_norm': 0.1232289969921112, 'learning_rate': 0.00026595421392417947, 'epoch': 0.5}
+{'loss': 1.4501, 'grad_norm': 0.10343597829341888, 'learning_rate': 0.0002657472926138815, 'epoch': 0.5}
+{'loss': 1.4477, 'grad_norm': 0.09662478417158127, 'learning_rate': 0.0002655403604721565, 'epoch': 0.5}
+{'loss': 1.4571, 'grad_norm': 0.11731675267219543, 'learning_rate': 0.0002653334176413382, 'epoch': 0.5}
+{'loss': 1.4654, 'grad_norm': 0.09974376112222672, 'learning_rate': 0.00026512646426376775, 'epoch': 0.5}
+{'loss': 1.4219, 'grad_norm': 0.10956041514873505, 'learning_rate': 0.0002649195004817932, 'epoch': 0.5}
+{'loss': 1.4357, 'grad_norm': 0.10552754998207092, 'learning_rate': 0.00026471252643777023, 'epoch': 0.5}
+{'loss': 1.4318, 'grad_norm': 0.1021270826458931, 'learning_rate': 0.0002645055422740612, 'epoch': 0.5}
+{'loss': 1.4505, 'grad_norm': 0.09700671583414078, 'learning_rate': 0.00026429854813303576, 'epoch': 0.5}
+{'loss': 1.4569, 'grad_norm': 0.10898904502391815, 'learning_rate': 0.00026409154415707014, 'epoch': 0.5}
+{'loss': 1.4275, 'grad_norm': 0.10244128853082657, 'learning_rate': 0.0002638845304885475, 'epoch': 0.5}
+{'loss': 1.4328, 'grad_norm': 0.11150223016738892, 'learning_rate': 0.00026367750726985755, 'epoch': 0.5}
+{'loss': 1.4296, 'grad_norm': 0.1087367981672287, 'learning_rate': 0.00026347047464339666, 'epoch': 0.5}
+{'loss': 1.4391, 'grad_norm': 0.09448613226413727, 'learning_rate': 0.0002632634327515677, 'epoch': 0.5}
+{'loss': 1.4717, 'grad_norm': 0.1288536787033081, 'learning_rate': 0.0002630563817367798, 'epoch': 0.5}
+{'loss': 1.4552, 'grad_norm': 0.08943258225917816, 'learning_rate': 0.00026284932174144843, 'epoch': 0.5}
+{'loss': 1.4295, 'grad_norm': 0.10418776422739029, 'learning_rate': 0.0002626422529079953, 'epoch': 0.5}
+{'loss': 1.4534, 'grad_norm': 0.09826003760099411, 'learning_rate': 0.000262435175378848, 'epoch': 0.5}
+{'loss': 1.4291, 'grad_norm': 0.12613627314567566, 'learning_rate': 0.0002622280892964403, 'epoch': 0.5}
+{'loss': 1.4467, 'grad_norm': 0.10684258490800858, 'learning_rate': 0.0002620209948032117, 'epoch': 0.5}
+{'loss': 1.4371, 'grad_norm': 0.11230593174695969, 'learning_rate': 0.00026181389204160774, 'epoch': 0.5}
+{'loss': 1.4732, 'grad_norm': 0.11997900903224945, 'learning_rate': 0.0002616067811540793, 'epoch': 0.5}
+{'loss': 1.4613, 'grad_norm': 0.104948990046978, 'learning_rate': 0.00026139966228308313, 'epoch': 0.5}
+{'loss': 1.4635, 'grad_norm': 0.11188605427742004, 'learning_rate': 0.0002611925355710814, 'epoch': 0.5}
+{'loss': 1.4569, 'grad_norm': 0.12362153828144073, 'learning_rate': 0.00026098540116054156, 'epoch': 0.5}
+{'loss': 1.4452, 'grad_norm': 0.11242060363292694, 'learning_rate': 0.00026077825919393636, 'epoch': 0.5}
+{'loss': 1.4577, 'grad_norm': 0.1138145849108696, 'learning_rate': 0.000260571109813744, 'epoch': 0.5}
+{'loss': 1.4474, 'grad_norm': 0.12502935528755188, 'learning_rate': 0.00026036395316244746, 'epoch': 0.5}
+{'loss': 1.437, 'grad_norm': 0.10238764435052872, 'learning_rate': 0.000260156789382535, 'epoch': 0.5}
+{'loss': 1.4476, 'grad_norm': 0.11493541300296783, 'learning_rate': 0.00025994961861649943, 'epoch': 0.5}
+{'loss': 1.436, 'grad_norm': 0.10595381259918213, 'learning_rate': 0.00025974244100683883, 'epoch': 0.5}
+{'loss': 1.4249, 'grad_norm': 0.10389797389507294, 'learning_rate': 0.0002595352566960555, 'epoch': 0.5}
+{'loss': 1.4664, 'grad_norm': 0.09483744949102402, 'learning_rate': 0.0002593280658266568, 'epoch': 0.5}
+{'loss': 1.4397, 'grad_norm': 0.11196672171354294, 'learning_rate': 0.0002591208685411542, 'epoch': 0.5}
+{'loss': 1.4497, 'grad_norm': 0.11810082942247391, 'learning_rate': 0.0002589136649820639, 'epoch': 0.5}
+{'loss': 1.4381, 'grad_norm': 0.09501770883798599, 'learning_rate': 0.0002587064552919063, 'epoch': 0.5}
+{'loss': 1.4538, 'grad_norm': 0.1099933460354805, 'learning_rate': 0.00025849923961320594, 'epoch': 0.5}
+{'loss': 1.454, 'grad_norm': 0.12617284059524536, 'learning_rate': 0.0002582920180884915, 'epoch': 0.5}
+{'loss': 1.4373, 'grad_norm': 0.1068812906742096, 'learning_rate': 0.00025808479086029577, 'epoch': 0.51}
+{'loss': 1.4501, 'grad_norm': 0.11337252706289291, 'learning_rate': 0.0002578775580711555, 'epoch': 0.51}
+{'loss': 1.4455, 'grad_norm': 0.0970073789358139, 'learning_rate': 0.00025767031986361107, 'epoch': 0.51}
+{'loss': 1.4338, 'grad_norm': 0.12094282358884811, 'learning_rate': 0.00025746307638020667, 'epoch': 0.51}
+{'loss': 1.4279, 'grad_norm': 0.10532668232917786, 'learning_rate': 0.0002572558277634903, 'epoch': 0.51}
+{'loss': 1.4464, 'grad_norm': 0.11456751823425293, 'learning_rate': 0.0002570485741560132, 'epoch': 0.51}
+{'loss': 1.4346, 'grad_norm': 0.09849586337804794, 'learning_rate': 0.00025684131570033025, 'epoch': 0.51}
+{'loss': 1.4338, 'grad_norm': 0.08978071808815002, 'learning_rate': 0.0002566340525389995, 'epoch': 0.51}
+{'loss': 1.4542, 'grad_norm': 0.10813500732183456, 'learning_rate': 0.00025642678481458254, 'epoch': 0.51}
+{'loss': 1.4231, 'grad_norm': 0.09327831119298935, 'learning_rate': 0.0002562195126696438, 'epoch': 0.51}
+{'loss': 1.4514, 'grad_norm': 0.0933351144194603, 'learning_rate': 0.00025601223624675064, 'epoch': 0.51}
+{'loss': 1.4437, 'grad_norm': 0.11943551152944565, 'learning_rate': 0.00025580495568847377, 'epoch': 0.51}
+{'loss': 1.4434, 'grad_norm': 0.10730686783790588, 'learning_rate': 0.0002555976711373865, 'epoch': 0.51}
+{'loss': 1.4578, 'grad_norm': 0.09513233602046967, 'learning_rate': 0.000255390382736065, 'epoch': 0.51}
+{'loss': 1.45, 'grad_norm': 0.11199892312288284, 'learning_rate': 0.0002551830906270878, 'epoch': 0.51}
+{'loss': 1.4356, 'grad_norm': 0.09604036062955856, 'learning_rate': 0.00025497579495303635, 'epoch': 0.51}
+{'loss': 1.4615, 'grad_norm': 0.09595541656017303, 'learning_rate': 0.0002547684958564945, 'epoch': 0.51}
+{'loss': 1.435, 'grad_norm': 0.11262879520654678, 'learning_rate': 0.00025456119348004805, 'epoch': 0.51}
+{'loss': 1.4461, 'grad_norm': 0.09604793787002563, 'learning_rate': 0.0002543538879662856, 'epoch': 0.51}
+{'loss': 1.4556, 'grad_norm': 0.10681883245706558, 'learning_rate': 0.00025414657945779757, 'epoch': 0.51}
+{'loss': 1.4535, 'grad_norm': 0.10389585047960281, 'learning_rate': 0.0002539392680971766, 'epoch': 0.51}
+{'loss': 1.4314, 'grad_norm': 0.1030062809586525, 'learning_rate': 0.0002537319540270172, 'epoch': 0.51}
+{'loss': 1.429, 'grad_norm': 0.10740184038877487, 'learning_rate': 0.0002535246373899156, 'epoch': 0.51}
+{'loss': 1.4466, 'grad_norm': 0.10948238521814346, 'learning_rate': 0.0002533173183284703, 'epoch': 0.51}
+{'loss': 1.455, 'grad_norm': 0.10728584975004196, 'learning_rate': 0.00025310999698528074, 'epoch': 0.51}
+{'loss': 1.4394, 'grad_norm': 0.10712306946516037, 'learning_rate': 0.0002529026735029487, 'epoch': 0.51}
+{'loss': 1.4561, 'grad_norm': 0.10620567202568054, 'learning_rate': 0.0002526953480240767, 'epoch': 0.51}
+{'loss': 1.4485, 'grad_norm': 0.10588108003139496, 'learning_rate': 0.0002524880206912694, 'epoch': 0.51}
+{'loss': 1.4405, 'grad_norm': 0.09610092639923096, 'learning_rate': 0.00025228069164713195, 'epoch': 0.51}
+{'loss': 1.4304, 'grad_norm': 0.1205989420413971, 'learning_rate': 0.0002520733610342712, 'epoch': 0.51}
+{'loss': 1.4419, 'grad_norm': 0.11034010350704193, 'learning_rate': 0.0002518660289952949, 'epoch': 0.51}
+{'loss': 1.4436, 'grad_norm': 0.12559668719768524, 'learning_rate': 0.00025165869567281176, 'epoch': 0.51}
+{'loss': 1.4494, 'grad_norm': 0.11158379167318344, 'learning_rate': 0.0002514513612094316, 'epoch': 0.51}
+{'loss': 1.4623, 'grad_norm': 0.11830227077007294, 'learning_rate': 0.0002512440257477646, 'epoch': 0.51}
+{'loss': 1.4404, 'grad_norm': 0.11946079879999161, 'learning_rate': 0.0002510366894304221, 'epoch': 0.51}
+{'loss': 1.4306, 'grad_norm': 0.11579833179712296, 'learning_rate': 0.00025082935240001563, 'epoch': 0.51}
+{'loss': 1.4409, 'grad_norm': 0.10924731940031052, 'learning_rate': 0.00025062201479915755, 'epoch': 0.51}
+{'loss': 1.4274, 'grad_norm': 0.11943350732326508, 'learning_rate': 0.0002504146767704602, 'epoch': 0.51}
+{'loss': 1.4529, 'grad_norm': 0.13227038085460663, 'learning_rate': 0.0002502073384565366, 'epoch': 0.51}
+{'loss': 1.4356, 'grad_norm': 0.11891423910856247, 'learning_rate': 0.00025, 'epoch': 0.52}
+{'loss': 1.4578, 'grad_norm': 0.11277502030134201, 'learning_rate': 0.0002497926615434634, 'epoch': 0.52}
+{'loss': 1.4476, 'grad_norm': 0.12257586419582367, 'learning_rate': 0.00024958532322953984, 'epoch': 0.52}
+{'loss': 1.4526, 'grad_norm': 0.10995423048734665, 'learning_rate': 0.00024937798520084246, 'epoch': 0.52}
+{'loss': 1.4548, 'grad_norm': 0.11575029790401459, 'learning_rate': 0.0002491706475999844, 'epoch': 0.52}
+{'loss': 1.4468, 'grad_norm': 0.12422223389148712, 'learning_rate': 0.00024896331056957797, 'epoch': 0.52}
+{'loss': 1.4406, 'grad_norm': 0.10068211704492569, 'learning_rate': 0.00024875597425223544, 'epoch': 0.52}
+{'loss': 1.4543, 'grad_norm': 0.11081879585981369, 'learning_rate': 0.00024854863879056853, 'epoch': 0.52}
+{'loss': 1.4415, 'grad_norm': 0.1219051256775856, 'learning_rate': 0.00024834130432718825, 'epoch': 0.52}
+{'loss': 1.4122, 'grad_norm': 0.10151875019073486, 'learning_rate': 0.0002481339710047052, 'epoch': 0.52}
+{'loss': 1.4238, 'grad_norm': 0.11597874015569687, 'learning_rate': 0.0002479266389657289, 'epoch': 0.52}
+{'loss': 1.4318, 'grad_norm': 0.11320746690034866, 'learning_rate': 0.0002477193083528682, 'epoch': 0.52}
+{'loss': 1.4699, 'grad_norm': 0.11064040660858154, 'learning_rate': 0.00024751197930873063, 'epoch': 0.52}
+{'loss': 1.4271, 'grad_norm': 0.11420412361621857, 'learning_rate': 0.00024730465197592323, 'epoch': 0.52}
+{'loss': 1.4638, 'grad_norm': 0.1325845867395401, 'learning_rate': 0.00024709732649705134, 'epoch': 0.52}
+{'loss': 1.4273, 'grad_norm': 0.09973070025444031, 'learning_rate': 0.00024689000301471927, 'epoch': 0.52}
+{'loss': 1.4283, 'grad_norm': 0.1075131893157959, 'learning_rate': 0.00024668268167152985, 'epoch': 0.52}
+{'loss': 1.4341, 'grad_norm': 0.10856039077043533, 'learning_rate': 0.0002464753626100844, 'epoch': 0.52}
+{'loss': 1.4433, 'grad_norm': 0.10320455580949783, 'learning_rate': 0.00024626804597298286, 'epoch': 0.52}
+{'loss': 1.4359, 'grad_norm': 0.11065442860126495, 'learning_rate': 0.00024606073190282343, 'epoch': 0.52}
+{'loss': 1.4341, 'grad_norm': 0.11061802506446838, 'learning_rate': 0.0002458534205422025, 'epoch': 0.52}
+{'loss': 1.4253, 'grad_norm': 0.1026981770992279, 'learning_rate': 0.00024564611203371447, 'epoch': 0.52}
+{'loss': 1.4397, 'grad_norm': 0.10039299726486206, 'learning_rate': 0.00024543880651995196, 'epoch': 0.52}
+{'loss': 1.431, 'grad_norm': 0.12895427644252777, 'learning_rate': 0.0002452315041435056, 'epoch': 0.52}
+{'loss': 1.4319, 'grad_norm': 0.10990811884403229, 'learning_rate': 0.00024502420504696367, 'epoch': 0.52}
+{'loss': 1.438, 'grad_norm': 0.11030732095241547, 'learning_rate': 0.0002448169093729122, 'epoch': 0.52}
+{'loss': 1.4279, 'grad_norm': 0.12018203735351562, 'learning_rate': 0.00024460961726393513, 'epoch': 0.52}
+{'loss': 1.4214, 'grad_norm': 0.11706546694040298, 'learning_rate': 0.0002444023288626135, 'epoch': 0.52}
+{'loss': 1.4478, 'grad_norm': 0.10342232882976532, 'learning_rate': 0.0002441950443115263, 'epoch': 0.52}
+{'loss': 1.4251, 'grad_norm': 0.10899227112531662, 'learning_rate': 0.0002439877637532494, 'epoch': 0.52}
+{'loss': 1.4341, 'grad_norm': 0.11547859758138657, 'learning_rate': 0.00024378048733035635, 'epoch': 0.52}
+{'loss': 1.425, 'grad_norm': 0.10208185762166977, 'learning_rate': 0.0002435732151854174, 'epoch': 0.52}
+{'loss': 1.4481, 'grad_norm': 0.11111512035131454, 'learning_rate': 0.00024336594746100044, 'epoch': 0.52}
+{'loss': 1.4356, 'grad_norm': 0.11426059901714325, 'learning_rate': 0.00024315868429966982, 'epoch': 0.52}
+{'loss': 1.4241, 'grad_norm': 0.12196046859025955, 'learning_rate': 0.00024295142584398682, 'epoch': 0.52}
+{'loss': 1.4562, 'grad_norm': 0.10638423264026642, 'learning_rate': 0.00024274417223650978, 'epoch': 0.52}
+{'loss': 1.4212, 'grad_norm': 0.11259297281503677, 'learning_rate': 0.0002425369236197933, 'epoch': 0.52}
+{'loss': 1.4526, 'grad_norm': 0.10244449973106384, 'learning_rate': 0.000242329680136389, 'epoch': 0.52}
+{'loss': 1.4251, 'grad_norm': 0.09737414866685867, 'learning_rate': 0.00024212244192884454, 'epoch': 0.52}
+{'loss': 1.425, 'grad_norm': 0.10993135720491409, 'learning_rate': 0.00024191520913970427, 'epoch': 0.53}
+{'loss': 1.4375, 'grad_norm': 0.11525245010852814, 'learning_rate': 0.0002417079819115086, 'epoch': 0.53}
+{'loss': 1.4397, 'grad_norm': 0.11933602392673492, 'learning_rate': 0.0002415007603867941, 'epoch': 0.53}
+{'loss': 1.4638, 'grad_norm': 0.1026037186384201, 'learning_rate': 0.0002412935447080937, 'epoch': 0.53}
+{'loss': 1.4174, 'grad_norm': 0.1058160737156868, 'learning_rate': 0.0002410863350179361, 'epoch': 0.53}
+{'loss': 1.4391, 'grad_norm': 0.10935747623443604, 'learning_rate': 0.00024087913145884584, 'epoch': 0.53}
+{'loss': 1.4325, 'grad_norm': 0.10146353393793106, 'learning_rate': 0.00024067193417334328, 'epoch': 0.53}
+{'loss': 1.4055, 'grad_norm': 0.1035386174917221, 'learning_rate': 0.00024046474330394446, 'epoch': 0.53}
+{'loss': 1.4293, 'grad_norm': 0.10076703131198883, 'learning_rate': 0.00024025755899316124, 'epoch': 0.53}
+{'loss': 1.4332, 'grad_norm': 0.09125932306051254, 'learning_rate': 0.0002400503813835006, 'epoch': 0.53}
+{'loss': 1.443, 'grad_norm': 0.10742583870887756, 'learning_rate': 0.0002398432106174651, 'epoch': 0.53}
+{'loss': 1.4339, 'grad_norm': 0.10767679661512375, 'learning_rate': 0.0002396360468375525, 'epoch': 0.53}
+{'loss': 1.4411, 'grad_norm': 0.09847793728113174, 'learning_rate': 0.00023942889018625603, 'epoch': 0.53}
+{'loss': 1.4585, 'grad_norm': 0.10587988793849945, 'learning_rate': 0.00023922174080606365, 'epoch': 0.53}
+{'loss': 1.4284, 'grad_norm': 0.10578363388776779, 'learning_rate': 0.0002390145988394585, 'epoch': 0.53}
+{'loss': 1.4498, 'grad_norm': 0.1030387431383133, 'learning_rate': 0.00023880746442891864, 'epoch': 0.53}
+{'loss': 1.4511, 'grad_norm': 0.11741617321968079, 'learning_rate': 0.0002386003377169168, 'epoch': 0.53}
+{'loss': 1.4391, 'grad_norm': 0.10202562808990479, 'learning_rate': 0.00023839321884592068, 'epoch': 0.53}
+{'loss': 1.4311, 'grad_norm': 0.09897157549858093, 'learning_rate': 0.0002381861079583923, 'epoch': 0.53}
+{'loss': 1.4336, 'grad_norm': 0.09288142621517181, 'learning_rate': 0.00023797900519678835, 'epoch': 0.53}
+{'loss': 1.4265, 'grad_norm': 0.10508859902620316, 'learning_rate': 0.00023777191070355983, 'epoch': 0.53}
+{'loss': 1.4358, 'grad_norm': 0.11384811252355576, 'learning_rate': 0.00023756482462115205, 'epoch': 0.53}
+{'loss': 1.4355, 'grad_norm': 0.09335319697856903, 'learning_rate': 0.00023735774709200474, 'epoch': 0.53}
+{'loss': 1.4393, 'grad_norm': 0.10250768065452576, 'learning_rate': 0.00023715067825855158, 'epoch': 0.53}
+{'loss': 1.4527, 'grad_norm': 0.10063157975673676, 'learning_rate': 0.00023694361826322025, 'epoch': 0.53}
+{'loss': 1.434, 'grad_norm': 0.09753388166427612, 'learning_rate': 0.00023673656724843234, 'epoch': 0.53}
+{'loss': 1.4542, 'grad_norm': 0.09439073503017426, 'learning_rate': 0.0002365295253566033, 'epoch': 0.53}
+{'loss': 1.4502, 'grad_norm': 0.10354059934616089, 'learning_rate': 0.00023632249273014249, 'epoch': 0.53}
+{'loss': 1.4438, 'grad_norm': 0.10043012350797653, 'learning_rate': 0.00023611546951145257, 'epoch': 0.53}
+{'loss': 1.4227, 'grad_norm': 0.10146262496709824, 'learning_rate': 0.0002359084558429299, 'epoch': 0.53}
+{'loss': 1.4636, 'grad_norm': 0.10201333463191986, 'learning_rate': 0.0002357014518669643, 'epoch': 0.53}
+{'loss': 1.4367, 'grad_norm': 0.09756859391927719, 'learning_rate': 0.00023549445772593877, 'epoch': 0.53}
+{'loss': 1.4173, 'grad_norm': 0.09148348122835159, 'learning_rate': 0.00023528747356222986, 'epoch': 0.53}
+{'loss': 1.4409, 'grad_norm': 0.09556695073843002, 'learning_rate': 0.0002350804995182068, 'epoch': 0.53}
+{'loss': 1.4268, 'grad_norm': 0.10118135809898376, 'learning_rate': 0.00023487353573623234, 'epoch': 0.53}
+{'loss': 1.4427, 'grad_norm': 0.08731996268033981, 'learning_rate': 0.00023466658235866175, 'epoch': 0.53}
+{'loss': 1.4444, 'grad_norm': 0.10971150547266006, 'learning_rate': 0.00023445963952784348, 'epoch': 0.53}
+{'loss': 1.4329, 'grad_norm': 0.09902703762054443, 'learning_rate': 0.00023425270738611852, 'epoch': 0.53}
+{'loss': 1.4527, 'grad_norm': 0.09791605919599533, 'learning_rate': 0.0002340457860758206, 'epoch': 0.53}
+{'loss': 1.483, 'grad_norm': 0.10043153166770935, 'learning_rate': 0.00023383887573927593, 'epoch': 0.54}
+{'loss': 1.4486, 'grad_norm': 0.09439555555582047, 'learning_rate': 0.0002336319765188031, 'epoch': 0.54}
+{'loss': 1.4436, 'grad_norm': 0.09395719319581985, 'learning_rate': 0.0002334250885567133, 'epoch': 0.54}
+{'loss': 1.4399, 'grad_norm': 0.1109500303864479, 'learning_rate': 0.00023321821199530994, 'epoch': 0.54}
+{'loss': 1.4467, 'grad_norm': 0.10174106806516647, 'learning_rate': 0.00023301134697688834, 'epoch': 0.54}
+{'loss': 1.4415, 'grad_norm': 0.11296995729207993, 'learning_rate': 0.000232804493643736, 'epoch': 0.54}
+{'loss': 1.4558, 'grad_norm': 0.11461810767650604, 'learning_rate': 0.00023259765213813245, 'epoch': 0.54}
+{'loss': 1.4427, 'grad_norm': 0.09248410165309906, 'learning_rate': 0.0002323908226023491, 'epoch': 0.54}
+{'loss': 1.4492, 'grad_norm': 0.09274544566869736, 'learning_rate': 0.00023218400517864904, 'epoch': 0.54}
+{'loss': 1.4381, 'grad_norm': 0.0999363586306572, 'learning_rate': 0.00023197720000928704, 'epoch': 0.54}
+{'loss': 1.4539, 'grad_norm': 0.10380398482084274, 'learning_rate': 0.00023177040723650953, 'epoch': 0.54}
+{'loss': 1.4648, 'grad_norm': 0.11572826653718948, 'learning_rate': 0.00023156362700255418, 'epoch': 0.54}
+{'loss': 1.448, 'grad_norm': 0.10313187539577484, 'learning_rate': 0.00023135685944965044, 'epoch': 0.54}
+{'loss': 1.4381, 'grad_norm': 0.11633516848087311, 'learning_rate': 0.00023115010472001866, 'epoch': 0.54}
+{'loss': 1.4242, 'grad_norm': 0.10656572878360748, 'learning_rate': 0.00023094336295587047, 'epoch': 0.54}
+{'loss': 1.4541, 'grad_norm': 0.10682757198810577, 'learning_rate': 0.00023073663429940862, 'epoch': 0.54}
+{'loss': 1.4676, 'grad_norm': 0.10574261844158173, 'learning_rate': 0.00023052991889282702, 'epoch': 0.54}
+{'loss': 1.4483, 'grad_norm': 0.11547110229730606, 'learning_rate': 0.00023032321687831015, 'epoch': 0.54}
+{'loss': 1.4361, 'grad_norm': 0.11331044882535934, 'learning_rate': 0.0002301165283980334, 'epoch': 0.54}
+{'loss': 1.4477, 'grad_norm': 0.11894679814577103, 'learning_rate': 0.00022990985359416297, 'epoch': 0.54}
+{'loss': 1.4263, 'grad_norm': 0.10073840618133545, 'learning_rate': 0.0002297031926088554, 'epoch': 0.54}
+{'loss': 1.4505, 'grad_norm': 0.11103013902902603, 'learning_rate': 0.00022949654558425807, 'epoch': 0.54}
+{'loss': 1.4482, 'grad_norm': 0.10997820645570755, 'learning_rate': 0.00022928991266250843, 'epoch': 0.54}
+{'loss': 1.4464, 'grad_norm': 0.09933683276176453, 'learning_rate': 0.00022908329398573443, 'epoch': 0.54}
+{'loss': 1.4279, 'grad_norm': 0.10435590893030167, 'learning_rate': 0.00022887668969605416, 'epoch': 0.54}
+{'loss': 1.4375, 'grad_norm': 0.10646402090787888, 'learning_rate': 0.00022867009993557567, 'epoch': 0.54}
+{'loss': 1.461, 'grad_norm': 0.10629554092884064, 'learning_rate': 0.00022846352484639734, 'epoch': 0.54}
+{'loss': 1.432, 'grad_norm': 0.10257803648710251, 'learning_rate': 0.00022825696457060726, 'epoch': 0.54}
+{'loss': 1.4182, 'grad_norm': 0.10236621648073196, 'learning_rate': 0.0002280504192502833, 'epoch': 0.54}
+{'loss': 1.4287, 'grad_norm': 0.119759202003479, 'learning_rate': 0.00022784388902749304, 'epoch': 0.54}
+{'loss': 1.4349, 'grad_norm': 0.1056152731180191, 'learning_rate': 0.00022763737404429374, 'epoch': 0.54}
+{'loss': 1.4426, 'grad_norm': 0.10919798165559769, 'learning_rate': 0.00022743087444273232, 'epoch': 0.54}
+{'loss': 1.4344, 'grad_norm': 0.10698625445365906, 'learning_rate': 0.0002272243903648448, 'epoch': 0.54}
+{'loss': 1.4651, 'grad_norm': 0.10802246630191803, 'learning_rate': 0.0002270179219526567, 'epoch': 0.54}
+{'loss': 1.4591, 'grad_norm': 0.10924572497606277, 'learning_rate': 0.00022681146934818276, 'epoch': 0.54}
+{'loss': 1.4092, 'grad_norm': 0.09873855113983154, 'learning_rate': 0.00022660503269342693, 'epoch': 0.54}
+{'loss': 1.4316, 'grad_norm': 0.10923519730567932, 'learning_rate': 0.00022639861213038208, 'epoch': 0.54}
+{'loss': 1.4222, 'grad_norm': 0.1036822721362114, 'learning_rate': 0.0002261922078010299, 'epoch': 0.54}
+{'loss': 1.4427, 'grad_norm': 0.10373867303133011, 'learning_rate': 0.00022598581984734122, 'epoch': 0.54}
+{'loss': 1.445, 'grad_norm': 0.10094861686229706, 'learning_rate': 0.0002257794484112752, 'epoch': 0.55}
+{'loss': 1.4122, 'grad_norm': 0.09606263786554337, 'learning_rate': 0.0002255730936347801, 'epoch': 0.55}
+{'loss': 1.4321, 'grad_norm': 0.10436327755451202, 'learning_rate': 0.00022536675565979237, 'epoch': 0.55}
+{'loss': 1.4365, 'grad_norm': 0.10640799254179001, 'learning_rate': 0.00022516043462823707, 'epoch': 0.55}
+{'loss': 1.4328, 'grad_norm': 0.10403849929571152, 'learning_rate': 0.0002249541306820276, 'epoch': 0.55}
+{'loss': 1.444, 'grad_norm': 0.10860715806484222, 'learning_rate': 0.00022474784396306534, 'epoch': 0.55}
+{'loss': 1.4298, 'grad_norm': 0.11581968516111374, 'learning_rate': 0.00022454157461324027, 'epoch': 0.55}
+{'loss': 1.4404, 'grad_norm': 0.1180974468588829, 'learning_rate': 0.00022433532277443022, 'epoch': 0.55}
+{'loss': 1.435, 'grad_norm': 0.10605636984109879, 'learning_rate': 0.0002241290885885009, 'epoch': 0.55}
+{'loss': 1.4493, 'grad_norm': 0.11736871302127838, 'learning_rate': 0.00022392287219730585, 'epoch': 0.55}
+{'loss': 1.4515, 'grad_norm': 0.11991352587938309, 'learning_rate': 0.00022371667374268645, 'epoch': 0.55}
+{'loss': 1.4498, 'grad_norm': 0.11330898851156235, 'learning_rate': 0.00022351049336647192, 'epoch': 0.55}
+{'loss': 1.4544, 'grad_norm': 0.11063139885663986, 'learning_rate': 0.0002233043312104788, 'epoch': 0.55}
+{'loss': 1.4414, 'grad_norm': 0.11816383898258209, 'learning_rate': 0.00022309818741651105, 'epoch': 0.55}
+{'loss': 1.4426, 'grad_norm': 0.11845742166042328, 'learning_rate': 0.00022289206212636022, 'epoch': 0.55}
+{'loss': 1.4214, 'grad_norm': 0.09133414179086685, 'learning_rate': 0.00022268595548180509, 'epoch': 0.55}
+{'loss': 1.4423, 'grad_norm': 0.10791719704866409, 'learning_rate': 0.0002224798676246115, 'epoch': 0.55}
+{'loss': 1.4222, 'grad_norm': 0.10519274324178696, 'learning_rate': 0.00022227379869653235, 'epoch': 0.55}
+{'loss': 1.443, 'grad_norm': 0.10934111475944519, 'learning_rate': 0.00022206774883930773, 'epoch': 0.55}
+{'loss': 1.4393, 'grad_norm': 0.10833090543746948, 'learning_rate': 0.0002218617181946643, 'epoch': 0.55}
+{'loss': 1.4509, 'grad_norm': 0.10172473639249802, 'learning_rate': 0.00022165570690431592, 'epoch': 0.55}
+{'loss': 1.4507, 'grad_norm': 0.11386679857969284, 'learning_rate': 0.0002214497151099627, 'epoch': 0.55}
+{'loss': 1.4667, 'grad_norm': 0.1330510824918747, 'learning_rate': 0.00022124374295329167, 'epoch': 0.55}
+{'loss': 1.4218, 'grad_norm': 0.11353378742933273, 'learning_rate': 0.00022103779057597618, 'epoch': 0.55}
+{'loss': 1.4421, 'grad_norm': 0.1462416797876358, 'learning_rate': 0.00022083185811967588, 'epoch': 0.55}
+{'loss': 1.4239, 'grad_norm': 0.1145244762301445, 'learning_rate': 0.00022062594572603707, 'epoch': 0.55}
+{'loss': 1.4494, 'grad_norm': 0.10648510605096817, 'learning_rate': 0.000220420053536692, 'epoch': 0.55}
+{'loss': 1.4465, 'grad_norm': 0.10555291920900345, 'learning_rate': 0.00022021418169325895, 'epoch': 0.55}
+{'loss': 1.4516, 'grad_norm': 0.1110549122095108, 'learning_rate': 0.00022000833033734239, 'epoch': 0.55}
+{'loss': 1.4154, 'grad_norm': 0.10226865112781525, 'learning_rate': 0.00021980249961053259, 'epoch': 0.55}
+{'loss': 1.4423, 'grad_norm': 0.11411277949810028, 'learning_rate': 0.00021959668965440565, 'epoch': 0.55}
+{'loss': 1.4345, 'grad_norm': 0.10367489606142044, 'learning_rate': 0.00021939090061052352, 'epoch': 0.55}
+{'loss': 1.4356, 'grad_norm': 0.10713601112365723, 'learning_rate': 0.00021918513262043348, 'epoch': 0.55}
+{'loss': 1.4386, 'grad_norm': 0.10846035182476044, 'learning_rate': 0.0002189793858256686, 'epoch': 0.55}
+{'loss': 1.4647, 'grad_norm': 0.1063963994383812, 'learning_rate': 0.0002187736603677472, 'epoch': 0.55}
+{'loss': 1.4481, 'grad_norm': 0.11013258248567581, 'learning_rate': 0.00021856795638817305, 'epoch': 0.55}
+{'loss': 1.4373, 'grad_norm': 0.11052604764699936, 'learning_rate': 0.00021836227402843508, 'epoch': 0.55}
+{'loss': 1.4269, 'grad_norm': 0.10752341896295547, 'learning_rate': 0.00021815661343000726, 'epoch': 0.55}
+{'loss': 1.4394, 'grad_norm': 0.12602652609348297, 'learning_rate': 0.0002179509747343487, 'epoch': 0.55}
+{'loss': 1.4146, 'grad_norm': 0.10819069296121597, 'learning_rate': 0.0002177453580829036, 'epoch': 0.56}
+{'loss': 1.4525, 'grad_norm': 0.10492496192455292, 'learning_rate': 0.00021753976361710064, 'epoch': 0.56}
+{'loss': 1.4327, 'grad_norm': 0.11774694919586182, 'learning_rate': 0.00021733419147835348, 'epoch': 0.56}
+{'loss': 1.4401, 'grad_norm': 0.1078026294708252, 'learning_rate': 0.00021712864180806042, 'epoch': 0.56}
+{'loss': 1.4226, 'grad_norm': 0.10615880787372589, 'learning_rate': 0.00021692311474760413, 'epoch': 0.56}
+{'loss': 1.4416, 'grad_norm': 0.11483273655176163, 'learning_rate': 0.00021671761043835203, 'epoch': 0.56}
+{'loss': 1.438, 'grad_norm': 0.11876695603132248, 'learning_rate': 0.00021651212902165556, 'epoch': 0.56}
+{'loss': 1.4517, 'grad_norm': 0.10179639607667923, 'learning_rate': 0.0002163066706388507, 'epoch': 0.56}
+{'loss': 1.4326, 'grad_norm': 0.11268340051174164, 'learning_rate': 0.00021610123543125737, 'epoch': 0.56}
+{'loss': 1.4173, 'grad_norm': 0.11347299814224243, 'learning_rate': 0.00021589582354017957, 'epoch': 0.56}
+{'loss': 1.4212, 'grad_norm': 0.10636533796787262, 'learning_rate': 0.00021569043510690544, 'epoch': 0.56}
+{'loss': 1.4197, 'grad_norm': 0.10394109040498734, 'learning_rate': 0.0002154850702727069, 'epoch': 0.56}
+{'loss': 1.4499, 'grad_norm': 0.10850521922111511, 'learning_rate': 0.0002152797291788396, 'epoch': 0.56}
+{'loss': 1.4276, 'grad_norm': 0.10649251937866211, 'learning_rate': 0.00021507441196654266, 'epoch': 0.56}
+{'loss': 1.4442, 'grad_norm': 0.11018586158752441, 'learning_rate': 0.00021486911877703922, 'epoch': 0.56}
+{'loss': 1.4307, 'grad_norm': 0.10491114854812622, 'learning_rate': 0.00021466384975153563, 'epoch': 0.56}
+{'loss': 1.4241, 'grad_norm': 0.11610431224107742, 'learning_rate': 0.0002144586050312216, 'epoch': 0.56}
+{'loss': 1.4288, 'grad_norm': 0.10956575721502304, 'learning_rate': 0.00021425338475727015, 'epoch': 0.56}
+{'loss': 1.4478, 'grad_norm': 0.11517534404993057, 'learning_rate': 0.0002140481890708375, 'epoch': 0.56}
+{'loss': 1.426, 'grad_norm': 0.11692704260349274, 'learning_rate': 0.0002138430181130631, 'epoch': 0.56}
+{'loss': 1.4209, 'grad_norm': 0.10176857560873032, 'learning_rate': 0.00021363787202506913, 'epoch': 0.56}
+{'loss': 1.4279, 'grad_norm': 0.09975390136241913, 'learning_rate': 0.00021343275094796077, 'epoch': 0.56}
+{'loss': 1.429, 'grad_norm': 0.11197060346603394, 'learning_rate': 0.00021322765502282615, 'epoch': 0.56}
+{'loss': 1.4164, 'grad_norm': 0.10869298130273819, 'learning_rate': 0.00021302258439073575, 'epoch': 0.56}
+{'loss': 1.4259, 'grad_norm': 0.10264026373624802, 'learning_rate': 0.00021281753919274313, 'epoch': 0.56}
+{'loss': 1.4597, 'grad_norm': 0.11483357101678848, 'learning_rate': 0.0002126125195698839, 'epoch': 0.56}
+{'loss': 1.4409, 'grad_norm': 0.1140865832567215, 'learning_rate': 0.00021240752566317639, 'epoch': 0.56}
+{'loss': 1.4303, 'grad_norm': 0.10556802153587341, 'learning_rate': 0.00021220255761362112, 'epoch': 0.56}
+{'loss': 1.4575, 'grad_norm': 0.09726723283529282, 'learning_rate': 0.00021199761556220064, 'epoch': 0.56}
+{'loss': 1.4295, 'grad_norm': 0.10306975990533829, 'learning_rate': 0.00021179269964988, 'epoch': 0.56}
+{'loss': 1.4332, 'grad_norm': 0.10836374014616013, 'learning_rate': 0.00021158781001760614, 'epoch': 0.56}
+{'loss': 1.4558, 'grad_norm': 0.10349804162979126, 'learning_rate': 0.00021138294680630773, 'epoch': 0.56}
+{'loss': 1.4241, 'grad_norm': 0.09630942344665527, 'learning_rate': 0.00021117811015689531, 'epoch': 0.56}
+{'loss': 1.4256, 'grad_norm': 0.09759797155857086, 'learning_rate': 0.00021097330021026145, 'epoch': 0.56}
+{'loss': 1.4465, 'grad_norm': 0.10086335241794586, 'learning_rate': 0.00021076851710728008, 'epoch': 0.56}
+{'loss': 1.434, 'grad_norm': 0.09660071134567261, 'learning_rate': 0.0002105637609888067, 'epoch': 0.56}
+{'loss': 1.4494, 'grad_norm': 0.1043156236410141, 'learning_rate': 0.0002103590319956782, 'epoch': 0.56}
+{'loss': 1.4186, 'grad_norm': 0.09625999629497528, 'learning_rate': 0.00021015433026871298, 'epoch': 0.56}
+{'loss': 1.4227, 'grad_norm': 0.0890614464879036, 'learning_rate': 0.00020994965594871062, 'epoch': 0.56}
+{'loss': 1.4502, 'grad_norm': 0.09520172327756882, 'learning_rate': 0.00020974500917645184, 'epoch': 0.56}
+{'loss': 1.4451, 'grad_norm': 0.100059874355793, 'learning_rate': 0.0002095403900926983, 'epoch': 0.57}
+{'loss': 1.4276, 'grad_norm': 0.09528496116399765, 'learning_rate': 0.00020933579883819278, 'epoch': 0.57}
+{'loss': 1.4526, 'grad_norm': 0.10669160634279251, 'learning_rate': 0.00020913123555365876, 'epoch': 0.57}
+{'loss': 1.4525, 'grad_norm': 0.09647015482187271, 'learning_rate': 0.00020892670037980072, 'epoch': 0.57}
+{'loss': 1.4793, 'grad_norm': 0.10831618309020996, 'learning_rate': 0.00020872219345730353, 'epoch': 0.57}
+{'loss': 1.4472, 'grad_norm': 0.11566934734582901, 'learning_rate': 0.00020851771492683285, 'epoch': 0.57}
+{'loss': 1.4135, 'grad_norm': 0.08852331340312958, 'learning_rate': 0.00020831326492903472, 'epoch': 0.57}
+{'loss': 1.4686, 'grad_norm': 0.09957441687583923, 'learning_rate': 0.00020810884360453533, 'epoch': 0.57}
+{'loss': 1.4466, 'grad_norm': 0.09483034163713455, 'learning_rate': 0.00020790445109394163, 'epoch': 0.57}
+{'loss': 1.4256, 'grad_norm': 0.09755221754312515, 'learning_rate': 0.00020770008753784043, 'epoch': 0.57}
+{'loss': 1.4362, 'grad_norm': 0.11439333856105804, 'learning_rate': 0.00020749575307679863, 'epoch': 0.57}
+{'loss': 1.4333, 'grad_norm': 0.09290021657943726, 'learning_rate': 0.00020729144785136316, 'epoch': 0.57}
+{'loss': 1.4381, 'grad_norm': 0.09859911352396011, 'learning_rate': 0.0002070871720020609, 'epoch': 0.57}
+{'loss': 1.4199, 'grad_norm': 0.10210520029067993, 'learning_rate': 0.00020688292566939842, 'epoch': 0.57}
+{'loss': 1.4377, 'grad_norm': 0.09067938476800919, 'learning_rate': 0.00020667870899386214, 'epoch': 0.57}
+{'loss': 1.4225, 'grad_norm': 0.111477792263031, 'learning_rate': 0.00020647452211591789, 'epoch': 0.57}
+{'loss': 1.446, 'grad_norm': 0.10985377430915833, 'learning_rate': 0.0002062703651760111, 'epoch': 0.57}
+{'loss': 1.4339, 'grad_norm': 0.09376461058855057, 'learning_rate': 0.00020606623831456668, 'epoch': 0.57}
+{'loss': 1.4489, 'grad_norm': 0.09816630184650421, 'learning_rate': 0.00020586214167198877, 'epoch': 0.57}
+{'loss': 1.4408, 'grad_norm': 0.10736553370952606, 'learning_rate': 0.0002056580753886607, 'epoch': 0.57}
+{'loss': 1.425, 'grad_norm': 0.09830724447965622, 'learning_rate': 0.0002054540396049449, 'epoch': 0.57}
+{'loss': 1.4495, 'grad_norm': 0.09474404901266098, 'learning_rate': 0.00020525003446118288, 'epoch': 0.57}
+{'loss': 1.4369, 'grad_norm': 0.09404731541872025, 'learning_rate': 0.00020504606009769523, 'epoch': 0.57}
+{'loss': 1.4353, 'grad_norm': 0.11556954681873322, 'learning_rate': 0.00020484211665478102, 'epoch': 0.57}
+{'loss': 1.4552, 'grad_norm': 0.09537031501531601, 'learning_rate': 0.0002046382042727183, 'epoch': 0.57}
+{'loss': 1.4388, 'grad_norm': 0.09662254899740219, 'learning_rate': 0.00020443432309176374, 'epoch': 0.57}
+{'loss': 1.4255, 'grad_norm': 0.1070171371102333, 'learning_rate': 0.00020423047325215235, 'epoch': 0.57}
+{'loss': 1.4138, 'grad_norm': 0.09821579605340958, 'learning_rate': 0.00020402665489409796, 'epoch': 0.57}
+{'loss': 1.4386, 'grad_norm': 0.09398618340492249, 'learning_rate': 0.00020382286815779233, 'epoch': 0.57}
+{'loss': 1.4515, 'grad_norm': 0.09721314162015915, 'learning_rate': 0.0002036191131834058, 'epoch': 0.57}
+{'loss': 1.4508, 'grad_norm': 0.10337512195110321, 'learning_rate': 0.00020341539011108667, 'epoch': 0.57}
+{'loss': 1.4402, 'grad_norm': 0.11082299798727036, 'learning_rate': 0.0002032116990809612, 'epoch': 0.57}
+{'loss': 1.4382, 'grad_norm': 0.09440718591213226, 'learning_rate': 0.00020300804023313395, 'epoch': 0.57}
+{'loss': 1.4263, 'grad_norm': 0.11654924601316452, 'learning_rate': 0.00020280441370768717, 'epoch': 0.57}
+{'loss': 1.4403, 'grad_norm': 0.10023966431617737, 'learning_rate': 0.0002026008196446808, 'epoch': 0.57}
+{'loss': 1.4297, 'grad_norm': 0.11029814183712006, 'learning_rate': 0.0002023972581841524, 'epoch': 0.57}
+{'loss': 1.4407, 'grad_norm': 0.10776384174823761, 'learning_rate': 0.0002021937294661174, 'epoch': 0.57}
+{'loss': 1.4022, 'grad_norm': 0.0972677543759346, 'learning_rate': 0.0002019902336305685, 'epoch': 0.57}
+{'loss': 1.4494, 'grad_norm': 0.09420883655548096, 'learning_rate': 0.00020178677081747573, 'epoch': 0.57}
+{'loss': 1.4498, 'grad_norm': 0.10261023789644241, 'learning_rate': 0.0002015833411667865, 'epoch': 0.58}
+{'loss': 1.4413, 'grad_norm': 0.11895663291215897, 'learning_rate': 0.00020137994481842536, 'epoch': 0.58}
+{'loss': 1.452, 'grad_norm': 0.11170542985200882, 'learning_rate': 0.0002011765819122942, 'epoch': 0.58}
+{'loss': 1.443, 'grad_norm': 0.09491855651140213, 'learning_rate': 0.00020097325258827152, 'epoch': 0.58}
+{'loss': 1.4191, 'grad_norm': 0.1082521378993988, 'learning_rate': 0.00020076995698621288, 'epoch': 0.58}
+{'loss': 1.4431, 'grad_norm': 0.09949345141649246, 'learning_rate': 0.0002005666952459507, 'epoch': 0.58}
+{'loss': 1.4165, 'grad_norm': 0.11441899091005325, 'learning_rate': 0.0002003634675072941, 'epoch': 0.58}
+{'loss': 1.4585, 'grad_norm': 0.12192191928625107, 'learning_rate': 0.0002001602739100288, 'epoch': 0.58}
+{'loss': 1.4533, 'grad_norm': 0.10112365335226059, 'learning_rate': 0.00019995711459391697, 'epoch': 0.58}
+{'loss': 1.433, 'grad_norm': 0.10453798621892929, 'learning_rate': 0.00019975398969869731, 'epoch': 0.58}
+{'loss': 1.4582, 'grad_norm': 0.12163445353507996, 'learning_rate': 0.0001995508993640848, 'epoch': 0.58}
+{'loss': 1.4259, 'grad_norm': 0.10226958245038986, 'learning_rate': 0.00019934784372977043, 'epoch': 0.58}
+{'loss': 1.4459, 'grad_norm': 0.09939467906951904, 'learning_rate': 0.0001991448229354218, 'epoch': 0.58}
+{'loss': 1.4582, 'grad_norm': 0.10888644307851791, 'learning_rate': 0.0001989418371206822, 'epoch': 0.58}
+{'loss': 1.4089, 'grad_norm': 0.09297249466180801, 'learning_rate': 0.00019873888642517088, 'epoch': 0.58}
+{'loss': 1.4298, 'grad_norm': 0.09788940101861954, 'learning_rate': 0.0001985359709884829, 'epoch': 0.58}
+{'loss': 1.4533, 'grad_norm': 0.10530368983745575, 'learning_rate': 0.00019833309095018933, 'epoch': 0.58}
+{'loss': 1.4415, 'grad_norm': 0.10114888846874237, 'learning_rate': 0.00019813024644983672, 'epoch': 0.58}
+{'loss': 1.4265, 'grad_norm': 0.10427733510732651, 'learning_rate': 0.00019792743762694705, 'epoch': 0.58}
+{'loss': 1.446, 'grad_norm': 0.09427487850189209, 'learning_rate': 0.00019772466462101795, 'epoch': 0.58}
+{'loss': 1.4411, 'grad_norm': 0.09596958011388779, 'learning_rate': 0.00019752192757152226, 'epoch': 0.58}
+{'loss': 1.4223, 'grad_norm': 0.11296184360980988, 'learning_rate': 0.00019731922661790836, 'epoch': 0.58}
+{'loss': 1.4385, 'grad_norm': 0.09534744173288345, 'learning_rate': 0.0001971165618995995, 'epoch': 0.58}
+{'loss': 1.4425, 'grad_norm': 0.09389796108007431, 'learning_rate': 0.00019691393355599407, 'epoch': 0.58}
+{'loss': 1.4201, 'grad_norm': 0.10119757056236267, 'learning_rate': 0.00019671134172646564, 'epoch': 0.58}
+{'loss': 1.446, 'grad_norm': 0.10958574712276459, 'learning_rate': 0.00019650878655036235, 'epoch': 0.58}
+{'loss': 1.4137, 'grad_norm': 0.09668204933404922, 'learning_rate': 0.0001963062681670075, 'epoch': 0.58}
+{'loss': 1.4383, 'grad_norm': 0.11045621335506439, 'learning_rate': 0.0001961037867156987, 'epoch': 0.58}
+{'loss': 1.4298, 'grad_norm': 0.10848800837993622, 'learning_rate': 0.00019590134233570848, 'epoch': 0.58}
+{'loss': 1.4291, 'grad_norm': 0.09852538257837296, 'learning_rate': 0.00019569893516628364, 'epoch': 0.58}
+{'loss': 1.4391, 'grad_norm': 0.09879795461893082, 'learning_rate': 0.0001954965653466454, 'epoch': 0.58}
+{'loss': 1.4539, 'grad_norm': 0.09529227763414383, 'learning_rate': 0.00019529423301598958, 'epoch': 0.58}
+{'loss': 1.4302, 'grad_norm': 0.0990683063864708, 'learning_rate': 0.00019509193831348582, 'epoch': 0.58}
+{'loss': 1.4555, 'grad_norm': 0.09454955160617828, 'learning_rate': 0.0001948896813782782, 'epoch': 0.58}
+{'loss': 1.4375, 'grad_norm': 0.09172400832176208, 'learning_rate': 0.0001946874623494845, 'epoch': 0.58}
+{'loss': 1.4346, 'grad_norm': 0.106944739818573, 'learning_rate': 0.00019448528136619675, 'epoch': 0.58}
+{'loss': 1.4219, 'grad_norm': 0.10174788534641266, 'learning_rate': 0.00019428313856748063, 'epoch': 0.58}
+{'loss': 1.4424, 'grad_norm': 0.11353736370801926, 'learning_rate': 0.00019408103409237562, 'epoch': 0.58}
+{'loss': 1.4324, 'grad_norm': 0.09667424112558365, 'learning_rate': 0.00019387896807989481, 'epoch': 0.58}
+{'loss': 1.4328, 'grad_norm': 0.10832478851079941, 'learning_rate': 0.00019367694066902468, 'epoch': 0.59}
+{'loss': 1.464, 'grad_norm': 0.11179371923208237, 'learning_rate': 0.00019347495199872552, 'epoch': 0.59}
+{'loss': 1.4437, 'grad_norm': 0.10360465943813324, 'learning_rate': 0.00019327300220793077, 'epoch': 0.59}
+{'loss': 1.4224, 'grad_norm': 0.09759753197431564, 'learning_rate': 0.00019307109143554705, 'epoch': 0.59}
+{'loss': 1.4288, 'grad_norm': 0.10385728627443314, 'learning_rate': 0.00019286921982045416, 'epoch': 0.59}
+{'loss': 1.4167, 'grad_norm': 0.11145668476819992, 'learning_rate': 0.00019266738750150505, 'epoch': 0.59}
+{'loss': 1.4657, 'grad_norm': 0.09905685484409332, 'learning_rate': 0.00019246559461752577, 'epoch': 0.59}
+{'loss': 1.4252, 'grad_norm': 0.10743752121925354, 'learning_rate': 0.000192263841307315, 'epoch': 0.59}
+{'loss': 1.4283, 'grad_norm': 0.10525406897068024, 'learning_rate': 0.00019206212770964422, 'epoch': 0.59}
+{'loss': 1.4138, 'grad_norm': 0.09478643536567688, 'learning_rate': 0.00019186045396325777, 'epoch': 0.59}
+{'loss': 1.4283, 'grad_norm': 0.105864517390728, 'learning_rate': 0.00019165882020687232, 'epoch': 0.59}
+{'loss': 1.4253, 'grad_norm': 0.11533957719802856, 'learning_rate': 0.00019145722657917745, 'epoch': 0.59}
+{'loss': 1.4308, 'grad_norm': 0.10596562922000885, 'learning_rate': 0.00019125567321883467, 'epoch': 0.59}
+{'loss': 1.4459, 'grad_norm': 0.10950149595737457, 'learning_rate': 0.00019105416026447808, 'epoch': 0.59}
+{'loss': 1.4578, 'grad_norm': 0.1038624569773674, 'learning_rate': 0.00019085268785471382, 'epoch': 0.59}
+{'loss': 1.4365, 'grad_norm': 0.105710968375206, 'learning_rate': 0.00019065125612812044, 'epoch': 0.59}
+{'loss': 1.455, 'grad_norm': 0.11385320127010345, 'learning_rate': 0.00019044986522324806, 'epoch': 0.59}
+{'loss': 1.4593, 'grad_norm': 0.11516016721725464, 'learning_rate': 0.00019024851527861913, 'epoch': 0.59}
+{'loss': 1.4339, 'grad_norm': 0.10322826355695724, 'learning_rate': 0.00019004720643272773, 'epoch': 0.59}
+{'loss': 1.4505, 'grad_norm': 0.1122182086110115, 'learning_rate': 0.00018984593882403951, 'epoch': 0.59}
+{'loss': 1.4267, 'grad_norm': 0.11500008404254913, 'learning_rate': 0.0001896447125909922, 'epoch': 0.59}
+{'loss': 1.4282, 'grad_norm': 0.11555386334657669, 'learning_rate': 0.00018944352787199473, 'epoch': 0.59}
+{'loss': 1.4444, 'grad_norm': 0.10195247828960419, 'learning_rate': 0.00018924238480542754, 'epoch': 0.59}
+{'loss': 1.4245, 'grad_norm': 0.10368123650550842, 'learning_rate': 0.00018904128352964243, 'epoch': 0.59}
+{'loss': 1.4279, 'grad_norm': 0.10280750691890717, 'learning_rate': 0.00018884022418296238, 'epoch': 0.59}
+{'loss': 1.4417, 'grad_norm': 0.10762270539999008, 'learning_rate': 0.00018863920690368184, 'epoch': 0.59}
+{'loss': 1.4181, 'grad_norm': 0.10484673827886581, 'learning_rate': 0.00018843823183006597, 'epoch': 0.59}
+{'loss': 1.4207, 'grad_norm': 0.09666711091995239, 'learning_rate': 0.00018823729910035097, 'epoch': 0.59}
+{'loss': 1.428, 'grad_norm': 0.10494405031204224, 'learning_rate': 0.0001880364088527441, 'epoch': 0.59}
+{'loss': 1.4239, 'grad_norm': 0.09462293237447739, 'learning_rate': 0.00018783556122542312, 'epoch': 0.59}
+{'loss': 1.4451, 'grad_norm': 0.10495275259017944, 'learning_rate': 0.0001876347563565368, 'epoch': 0.59}
+{'loss': 1.4167, 'grad_norm': 0.09985380619764328, 'learning_rate': 0.00018743399438420422, 'epoch': 0.59}
+{'loss': 1.4256, 'grad_norm': 0.09726817160844803, 'learning_rate': 0.00018723327544651513, 'epoch': 0.59}
+{'loss': 1.4279, 'grad_norm': 0.10678786784410477, 'learning_rate': 0.00018703259968152949, 'epoch': 0.59}
+{'loss': 1.4187, 'grad_norm': 0.0985851138830185, 'learning_rate': 0.00018683196722727786, 'epoch': 0.59}
+{'loss': 1.4399, 'grad_norm': 0.10364789515733719, 'learning_rate': 0.00018663137822176075, 'epoch': 0.59}
+{'loss': 1.4252, 'grad_norm': 0.10459848493337631, 'learning_rate': 0.00018643083280294888, 'epoch': 0.59}
+{'loss': 1.4155, 'grad_norm': 0.10623303800821304, 'learning_rate': 0.00018623033110878295, 'epoch': 0.59}
+{'loss': 1.4177, 'grad_norm': 0.10101272910833359, 'learning_rate': 0.00018602987327717357, 'epoch': 0.59}
+{'loss': 1.4413, 'grad_norm': 0.10749119520187378, 'learning_rate': 0.00018582945944600138, 'epoch': 0.6}
+{'loss': 1.4176, 'grad_norm': 0.1001691073179245, 'learning_rate': 0.00018562908975311654, 'epoch': 0.6}
+{'loss': 1.4572, 'grad_norm': 0.1048089787364006, 'learning_rate': 0.0001854287643363389, 'epoch': 0.6}
+{'loss': 1.4374, 'grad_norm': 0.0986599549651146, 'learning_rate': 0.00018522848333345782, 'epoch': 0.6}
+{'loss': 1.4455, 'grad_norm': 0.10162567347288132, 'learning_rate': 0.00018502824688223214, 'epoch': 0.6}
+{'loss': 1.437, 'grad_norm': 0.10766197741031647, 'learning_rate': 0.00018482805512039024, 'epoch': 0.6}
+{'loss': 1.4496, 'grad_norm': 0.1042083278298378, 'learning_rate': 0.00018462790818562946, 'epoch': 0.6}
+{'loss': 1.4636, 'grad_norm': 0.09186451137065887, 'learning_rate': 0.00018442780621561648, 'epoch': 0.6}
+{'loss': 1.4182, 'grad_norm': 0.10680259019136429, 'learning_rate': 0.00018422774934798703, 'epoch': 0.6}
+{'loss': 1.4411, 'grad_norm': 0.11648620665073395, 'learning_rate': 0.0001840277377203457, 'epoch': 0.6}
+{'loss': 1.4449, 'grad_norm': 0.10240069031715393, 'learning_rate': 0.00018382777147026624, 'epoch': 0.6}
+{'loss': 1.4246, 'grad_norm': 0.09443429857492447, 'learning_rate': 0.00018362785073529087, 'epoch': 0.6}
+{'loss': 1.4482, 'grad_norm': 0.11137115210294724, 'learning_rate': 0.00018342797565293074, 'epoch': 0.6}
+{'loss': 1.4392, 'grad_norm': 0.10897108912467957, 'learning_rate': 0.00018322814636066538, 'epoch': 0.6}
+{'loss': 1.4472, 'grad_norm': 0.10448642075061798, 'learning_rate': 0.00018302836299594313, 'epoch': 0.6}
+{'loss': 1.4676, 'grad_norm': 0.10569240152835846, 'learning_rate': 0.00018282862569618047, 'epoch': 0.6}
+{'loss': 1.4317, 'grad_norm': 0.12275884300470352, 'learning_rate': 0.00018262893459876223, 'epoch': 0.6}
+{'loss': 1.4418, 'grad_norm': 0.11276669055223465, 'learning_rate': 0.00018242928984104161, 'epoch': 0.6}
+{'loss': 1.4305, 'grad_norm': 0.1216263696551323, 'learning_rate': 0.00018222969156033968, 'epoch': 0.6}
+{'loss': 1.4241, 'grad_norm': 0.11192186921834946, 'learning_rate': 0.00018203013989394595, 'epoch': 0.6}
+{'loss': 1.4227, 'grad_norm': 0.10841629654169083, 'learning_rate': 0.00018183063497911742, 'epoch': 0.6}
+{'loss': 1.417, 'grad_norm': 0.11369897425174713, 'learning_rate': 0.00018163117695307927, 'epoch': 0.6}
+{'loss': 1.4386, 'grad_norm': 0.10376454144716263, 'learning_rate': 0.00018143176595302425, 'epoch': 0.6}
+{'loss': 1.3817, 'grad_norm': 0.10080378502607346, 'learning_rate': 0.00018123240211611263, 'epoch': 0.6}
+{'loss': 1.4271, 'grad_norm': 0.11836983263492584, 'learning_rate': 0.0001810330855794726, 'epoch': 0.6}
+{'loss': 1.4291, 'grad_norm': 0.11409146338701248, 'learning_rate': 0.00018083381648019976, 'epoch': 0.6}
+{'loss': 1.4192, 'grad_norm': 0.10042092949151993, 'learning_rate': 0.00018063459495535673, 'epoch': 0.6}
+{'loss': 1.4272, 'grad_norm': 0.10076526552438736, 'learning_rate': 0.00018043542114197365, 'epoch': 0.6}
+{'loss': 1.438, 'grad_norm': 0.1089455857872963, 'learning_rate': 0.0001802362951770478, 'epoch': 0.6}
+{'loss': 1.4344, 'grad_norm': 0.09984873235225677, 'learning_rate': 0.0001800372171975438, 'epoch': 0.6}
+{'loss': 1.4086, 'grad_norm': 0.1093553826212883, 'learning_rate': 0.00017983818734039285, 'epoch': 0.6}
+{'loss': 1.4441, 'grad_norm': 0.0933726355433464, 'learning_rate': 0.0001796392057424932, 'epoch': 0.6}
+{'loss': 1.4094, 'grad_norm': 0.11025360226631165, 'learning_rate': 0.0001794402725407101, 'epoch': 0.6}
+{'loss': 1.4129, 'grad_norm': 0.10536028444766998, 'learning_rate': 0.0001792413878718751, 'epoch': 0.6}
+{'loss': 1.411, 'grad_norm': 0.09192103892564774, 'learning_rate': 0.00017904255187278694, 'epoch': 0.6}
+{'loss': 1.4492, 'grad_norm': 0.10295228660106659, 'learning_rate': 0.00017884376468021036, 'epoch': 0.6}
+{'loss': 1.4641, 'grad_norm': 0.10792224854230881, 'learning_rate': 0.00017864502643087678, 'epoch': 0.6}
+{'loss': 1.4372, 'grad_norm': 0.0965089201927185, 'learning_rate': 0.00017844633726148384, 'epoch': 0.6}
+{'loss': 1.4435, 'grad_norm': 0.09977366775274277, 'learning_rate': 0.00017824769730869568, 'epoch': 0.6}
+{'loss': 1.4463, 'grad_norm': 0.10445966571569443, 'learning_rate': 0.0001780491067091422, 'epoch': 0.61}
+{'loss': 1.4236, 'grad_norm': 0.0984521210193634, 'learning_rate': 0.0001778505655994197, 'epoch': 0.61}
+{'loss': 1.414, 'grad_norm': 0.09919017553329468, 'learning_rate': 0.00017765207411609026, 'epoch': 0.61}
+{'loss': 1.4375, 'grad_norm': 0.10797509551048279, 'learning_rate': 0.0001774536323956817, 'epoch': 0.61}
+{'loss': 1.4309, 'grad_norm': 0.1055581346154213, 'learning_rate': 0.00017725524057468796, 'epoch': 0.61}
+{'loss': 1.4275, 'grad_norm': 0.10588179528713226, 'learning_rate': 0.0001770568987895684, 'epoch': 0.61}
+{'loss': 1.423, 'grad_norm': 0.1043747290968895, 'learning_rate': 0.00017685860717674807, 'epoch': 0.61}
+{'loss': 1.4266, 'grad_norm': 0.1037994921207428, 'learning_rate': 0.0001766603658726174, 'epoch': 0.61}
+{'loss': 1.4203, 'grad_norm': 0.10361021012067795, 'learning_rate': 0.00017646217501353224, 'epoch': 0.61}
+{'loss': 1.4745, 'grad_norm': 0.103821761906147, 'learning_rate': 0.00017626403473581398, 'epoch': 0.61}
+{'loss': 1.4403, 'grad_norm': 0.11442039906978607, 'learning_rate': 0.0001760659451757489, 'epoch': 0.61}
+{'loss': 1.4459, 'grad_norm': 0.10224062204360962, 'learning_rate': 0.00017586790646958856, 'epoch': 0.61}
+{'loss': 1.4399, 'grad_norm': 0.10219893604516983, 'learning_rate': 0.0001756699187535495, 'epoch': 0.61}
+{'loss': 1.4547, 'grad_norm': 0.10675115883350372, 'learning_rate': 0.00017547198216381305, 'epoch': 0.61}
+{'loss': 1.4369, 'grad_norm': 0.096906378865242, 'learning_rate': 0.00017527409683652578, 'epoch': 0.61}
+{'loss': 1.4363, 'grad_norm': 0.11621662974357605, 'learning_rate': 0.00017507626290779853, 'epoch': 0.61}
+{'loss': 1.4542, 'grad_norm': 0.1059025228023529, 'learning_rate': 0.00017487848051370714, 'epoch': 0.61}
+{'loss': 1.4432, 'grad_norm': 0.09940431267023087, 'learning_rate': 0.0001746807497902917, 'epoch': 0.61}
+{'loss': 1.462, 'grad_norm': 0.09931384027004242, 'learning_rate': 0.0001744830708735571, 'epoch': 0.61}
+{'loss': 1.4384, 'grad_norm': 0.09489279985427856, 'learning_rate': 0.0001742854438994722, 'epoch': 0.61}
+{'loss': 1.4306, 'grad_norm': 0.10259366035461426, 'learning_rate': 0.00017408786900397055, 'epoch': 0.61}
+{'loss': 1.4309, 'grad_norm': 0.10408274084329605, 'learning_rate': 0.0001738903463229496, 'epoch': 0.61}
+{'loss': 1.4605, 'grad_norm': 0.09995725750923157, 'learning_rate': 0.00017369287599227078, 'epoch': 0.61}
+{'loss': 1.4547, 'grad_norm': 0.09903297573328018, 'learning_rate': 0.0001734954581477599, 'epoch': 0.61}
+{'loss': 1.4215, 'grad_norm': 0.1070295125246048, 'learning_rate': 0.0001732980929252065, 'epoch': 0.61}
+{'loss': 1.4415, 'grad_norm': 0.09617484360933304, 'learning_rate': 0.00017310078046036377, 'epoch': 0.61}
+{'loss': 1.4384, 'grad_norm': 0.1062067300081253, 'learning_rate': 0.00017290352088894867, 'epoch': 0.61}
+{'loss': 1.442, 'grad_norm': 0.10664139688014984, 'learning_rate': 0.0001727063143466419, 'epoch': 0.61}
+{'loss': 1.4069, 'grad_norm': 0.09468786418437958, 'learning_rate': 0.0001725091609690877, 'epoch': 0.61}
+{'loss': 1.4326, 'grad_norm': 0.10595623403787613, 'learning_rate': 0.0001723120608918936, 'epoch': 0.61}
+{'loss': 1.4324, 'grad_norm': 0.10314799845218658, 'learning_rate': 0.00017211501425063044, 'epoch': 0.61}
+{'loss': 1.4513, 'grad_norm': 0.09942635893821716, 'learning_rate': 0.00017191802118083255, 'epoch': 0.61}
+{'loss': 1.4495, 'grad_norm': 0.09715697914361954, 'learning_rate': 0.0001717210818179971, 'epoch': 0.61}
+{'loss': 1.4416, 'grad_norm': 0.09808088839054108, 'learning_rate': 0.00017152419629758465, 'epoch': 0.61}
+{'loss': 1.4315, 'grad_norm': 0.10270517319440842, 'learning_rate': 0.00017132736475501838, 'epoch': 0.61}
+{'loss': 1.467, 'grad_norm': 0.10898395627737045, 'learning_rate': 0.00017113058732568464, 'epoch': 0.61}
+{'loss': 1.4341, 'grad_norm': 0.09942541271448135, 'learning_rate': 0.00017093386414493233, 'epoch': 0.61}
+{'loss': 1.4545, 'grad_norm': 0.10318228602409363, 'learning_rate': 0.00017073719534807324, 'epoch': 0.61}
+{'loss': 1.4144, 'grad_norm': 0.09898555278778076, 'learning_rate': 0.00017054058107038167, 'epoch': 0.61}
+{'loss': 1.4413, 'grad_norm': 0.10791479051113129, 'learning_rate': 0.00017034402144709427, 'epoch': 0.62}
+{'loss': 1.4426, 'grad_norm': 0.11154111474752426, 'learning_rate': 0.00017014751661341033, 'epoch': 0.62}
+{'loss': 1.415, 'grad_norm': 0.10018467903137207, 'learning_rate': 0.00016995106670449124, 'epoch': 0.62}
+{'loss': 1.4187, 'grad_norm': 0.09819892048835754, 'learning_rate': 0.00016975467185546093, 'epoch': 0.62}
+{'loss': 1.4472, 'grad_norm': 0.09936888515949249, 'learning_rate': 0.00016955833220140508, 'epoch': 0.62}
+{'loss': 1.4401, 'grad_norm': 0.10579327493906021, 'learning_rate': 0.00016936204787737166, 'epoch': 0.62}
+{'loss': 1.4394, 'grad_norm': 0.10441282391548157, 'learning_rate': 0.00016916581901837052, 'epoch': 0.62}
+{'loss': 1.433, 'grad_norm': 0.11293603479862213, 'learning_rate': 0.00016896964575937318, 'epoch': 0.62}
+{'loss': 1.4377, 'grad_norm': 0.09467992186546326, 'learning_rate': 0.00016877352823531323, 'epoch': 0.62}
+{'loss': 1.4257, 'grad_norm': 0.09812900424003601, 'learning_rate': 0.0001685774665810858, 'epoch': 0.62}
+{'loss': 1.4345, 'grad_norm': 0.10478010773658752, 'learning_rate': 0.00016838146093154751, 'epoch': 0.62}
+{'loss': 1.453, 'grad_norm': 0.09363950043916702, 'learning_rate': 0.00016818551142151644, 'epoch': 0.62}
+{'loss': 1.4559, 'grad_norm': 0.10324838757514954, 'learning_rate': 0.0001679896181857722, 'epoch': 0.62}
+{'loss': 1.4492, 'grad_norm': 0.10078611224889755, 'learning_rate': 0.00016779378135905565, 'epoch': 0.62}
+{'loss': 1.4176, 'grad_norm': 0.0942433625459671, 'learning_rate': 0.00016759800107606882, 'epoch': 0.62}
+{'loss': 1.4162, 'grad_norm': 0.10654431581497192, 'learning_rate': 0.00016740227747147473, 'epoch': 0.62}
+{'loss': 1.4248, 'grad_norm': 0.1011289581656456, 'learning_rate': 0.00016720661067989759, 'epoch': 0.62}
+{'loss': 1.4261, 'grad_norm': 0.10403969883918762, 'learning_rate': 0.0001670110008359226, 'epoch': 0.62}
+{'loss': 1.4435, 'grad_norm': 0.09477567672729492, 'learning_rate': 0.00016681544807409555, 'epoch': 0.62}
+{'loss': 1.4131, 'grad_norm': 0.10043447464704514, 'learning_rate': 0.0001666199525289231, 'epoch': 0.62}
+{'loss': 1.44, 'grad_norm': 0.10124148428440094, 'learning_rate': 0.00016642451433487255, 'epoch': 0.62}
+{'loss': 1.4454, 'grad_norm': 0.10516639798879623, 'learning_rate': 0.0001662291336263716, 'epoch': 0.62}
+{'loss': 1.4351, 'grad_norm': 0.10833480209112167, 'learning_rate': 0.0001660338105378088, 'epoch': 0.62}
+{'loss': 1.4337, 'grad_norm': 0.09221289306879044, 'learning_rate': 0.00016583854520353268, 'epoch': 0.62}
+{'loss': 1.4498, 'grad_norm': 0.1068064495921135, 'learning_rate': 0.00016564333775785222, 'epoch': 0.62}
+{'loss': 1.4406, 'grad_norm': 0.11110827326774597, 'learning_rate': 0.00016544818833503654, 'epoch': 0.62}
+{'loss': 1.4609, 'grad_norm': 0.09734541177749634, 'learning_rate': 0.00016525309706931472, 'epoch': 0.62}
+{'loss': 1.4505, 'grad_norm': 0.09072739630937576, 'learning_rate': 0.00016505806409487615, 'epoch': 0.62}
+{'loss': 1.4096, 'grad_norm': 0.10889727622270584, 'learning_rate': 0.00016486308954586992, 'epoch': 0.62}
+{'loss': 1.4307, 'grad_norm': 0.10023833066225052, 'learning_rate': 0.00016466817355640495, 'epoch': 0.62}
+{'loss': 1.4234, 'grad_norm': 0.10006948560476303, 'learning_rate': 0.00016447331626054984, 'epoch': 0.62}
+{'loss': 1.4249, 'grad_norm': 0.10974206030368805, 'learning_rate': 0.00016427851779233282, 'epoch': 0.62}
+{'loss': 1.415, 'grad_norm': 0.10395866632461548, 'learning_rate': 0.00016408377828574196, 'epoch': 0.62}
+{'loss': 1.4315, 'grad_norm': 0.10370150953531265, 'learning_rate': 0.0001638890978747243, 'epoch': 0.62}
+{'loss': 1.4354, 'grad_norm': 0.10519365221261978, 'learning_rate': 0.00016369447669318648, 'epoch': 0.62}
+{'loss': 1.4225, 'grad_norm': 0.11062651127576828, 'learning_rate': 0.00016349991487499437, 'epoch': 0.62}
+{'loss': 1.432, 'grad_norm': 0.10259092599153519, 'learning_rate': 0.00016330541255397314, 'epoch': 0.62}
+{'loss': 1.4169, 'grad_norm': 0.10852059721946716, 'learning_rate': 0.00016311096986390683, 'epoch': 0.62}
+{'loss': 1.4255, 'grad_norm': 0.1023174375295639, 'learning_rate': 0.0001629165869385385, 'epoch': 0.62}
+{'loss': 1.4281, 'grad_norm': 0.09745364636182785, 'learning_rate': 0.00016272226391157024, 'epoch': 0.63}
+{'loss': 1.416, 'grad_norm': 0.10145019739866257, 'learning_rate': 0.0001625280009166627, 'epoch': 0.63}
+{'loss': 1.421, 'grad_norm': 0.1132630780339241, 'learning_rate': 0.00016233379808743557, 'epoch': 0.63}
+{'loss': 1.43, 'grad_norm': 0.11393517255783081, 'learning_rate': 0.00016213965555746685, 'epoch': 0.63}
+{'loss': 1.4414, 'grad_norm': 0.09439866989850998, 'learning_rate': 0.00016194557346029323, 'epoch': 0.63}
+{'loss': 1.423, 'grad_norm': 0.10033383965492249, 'learning_rate': 0.00016175155192940983, 'epoch': 0.63}
+{'loss': 1.4398, 'grad_norm': 0.11417663097381592, 'learning_rate': 0.00016155759109826983, 'epoch': 0.63}
+{'loss': 1.4269, 'grad_norm': 0.09875310957431793, 'learning_rate': 0.00016136369110028521, 'epoch': 0.63}
+{'loss': 1.4308, 'grad_norm': 0.09321030974388123, 'learning_rate': 0.00016116985206882572, 'epoch': 0.63}
+{'loss': 1.4181, 'grad_norm': 0.09608129411935806, 'learning_rate': 0.0001609760741372192, 'epoch': 0.63}
+{'loss': 1.4448, 'grad_norm': 0.11904284358024597, 'learning_rate': 0.00016078235743875144, 'epoch': 0.63}
+{'loss': 1.4467, 'grad_norm': 0.10874789208173752, 'learning_rate': 0.0001605887021066663, 'epoch': 0.63}
+{'loss': 1.4277, 'grad_norm': 0.09384366869926453, 'learning_rate': 0.00016039510827416527, 'epoch': 0.63}
+{'loss': 1.4567, 'grad_norm': 0.11986614763736725, 'learning_rate': 0.0001602015760744076, 'epoch': 0.63}
+{'loss': 1.4501, 'grad_norm': 0.10699284076690674, 'learning_rate': 0.00016000810564051015, 'epoch': 0.63}
+{'loss': 1.4058, 'grad_norm': 0.10192269086837769, 'learning_rate': 0.00015981469710554724, 'epoch': 0.63}
+{'loss': 1.4058, 'grad_norm': 0.10199601948261261, 'learning_rate': 0.00015962135060255066, 'epoch': 0.63}
+{'loss': 1.4247, 'grad_norm': 0.10542796552181244, 'learning_rate': 0.00015942806626450965, 'epoch': 0.63}
+{'loss': 1.4264, 'grad_norm': 0.09672247618436813, 'learning_rate': 0.00015923484422437044, 'epoch': 0.63}
+{'loss': 1.4479, 'grad_norm': 0.1088298037648201, 'learning_rate': 0.0001590416846150365, 'epoch': 0.63}
+{'loss': 1.42, 'grad_norm': 0.1341179609298706, 'learning_rate': 0.0001588485875693684, 'epoch': 0.63}
+{'loss': 1.4411, 'grad_norm': 0.10303816944360733, 'learning_rate': 0.00015865555322018383, 'epoch': 0.63}
+{'loss': 1.4143, 'grad_norm': 0.09971064329147339, 'learning_rate': 0.00015846258170025714, 'epoch': 0.63}
+{'loss': 1.4053, 'grad_norm': 0.11272238194942474, 'learning_rate': 0.0001582696731423194, 'epoch': 0.63}
+{'loss': 1.4142, 'grad_norm': 0.10692522674798965, 'learning_rate': 0.0001580768276790586, 'epoch': 0.63}
+{'loss': 1.4364, 'grad_norm': 0.11113149672746658, 'learning_rate': 0.00015788404544311914, 'epoch': 0.63}
+{'loss': 1.4255, 'grad_norm': 0.10526060312986374, 'learning_rate': 0.00015769132656710214, 'epoch': 0.63}
+{'loss': 1.4359, 'grad_norm': 0.11010683327913284, 'learning_rate': 0.00015749867118356492, 'epoch': 0.63}
+{'loss': 1.4366, 'grad_norm': 0.1015247255563736, 'learning_rate': 0.00015730607942502134, 'epoch': 0.63}
+{'loss': 1.4321, 'grad_norm': 0.10209009051322937, 'learning_rate': 0.00015711355142394132, 'epoch': 0.63}
+{'loss': 1.4234, 'grad_norm': 0.11345027387142181, 'learning_rate': 0.00015692108731275083, 'epoch': 0.63}
+{'loss': 1.438, 'grad_norm': 0.10645463317632675, 'learning_rate': 0.0001567286872238323, 'epoch': 0.63}
+{'loss': 1.401, 'grad_norm': 0.1074436753988266, 'learning_rate': 0.00015653635128952382, 'epoch': 0.63}
+{'loss': 1.4364, 'grad_norm': 0.10401812195777893, 'learning_rate': 0.00015634407964211934, 'epoch': 0.63}
+{'loss': 1.4298, 'grad_norm': 0.1078316867351532, 'learning_rate': 0.00015615187241386857, 'epoch': 0.63}
+{'loss': 1.4331, 'grad_norm': 0.10193920135498047, 'learning_rate': 0.0001559597297369772, 'epoch': 0.63}
+{'loss': 1.4274, 'grad_norm': 0.10170881450176239, 'learning_rate': 0.00015576765174360628, 'epoch': 0.63}
+{'loss': 1.4486, 'grad_norm': 0.11500922590494156, 'learning_rate': 0.00015557563856587238, 'epoch': 0.63}
+{'loss': 1.4148, 'grad_norm': 0.09957535564899445, 'learning_rate': 0.00015538369033584742, 'epoch': 0.63}
+{'loss': 1.413, 'grad_norm': 0.10814331471920013, 'learning_rate': 0.00015519180718555882, 'epoch': 0.64}
+{'loss': 1.4232, 'grad_norm': 0.10434792935848236, 'learning_rate': 0.0001549999892469892, 'epoch': 0.64}
+{'loss': 1.4287, 'grad_norm': 0.0993942990899086, 'learning_rate': 0.00015480823665207637, 'epoch': 0.64}
+{'loss': 1.445, 'grad_norm': 0.10575428605079651, 'learning_rate': 0.0001546165495327129, 'epoch': 0.64}
+{'loss': 1.42, 'grad_norm': 0.10213694721460342, 'learning_rate': 0.0001544249280207467, 'epoch': 0.64}
+{'loss': 1.4144, 'grad_norm': 0.10417688637971878, 'learning_rate': 0.00015423337224798023, 'epoch': 0.64}
+{'loss': 1.4442, 'grad_norm': 0.09816758334636688, 'learning_rate': 0.0001540418823461711, 'epoch': 0.64}
+{'loss': 1.4248, 'grad_norm': 0.09615501761436462, 'learning_rate': 0.0001538504584470312, 'epoch': 0.64}
+{'loss': 1.4256, 'grad_norm': 0.0989256352186203, 'learning_rate': 0.00015365910068222745, 'epoch': 0.64}
+{'loss': 1.4392, 'grad_norm': 0.10147334635257721, 'learning_rate': 0.00015346780918338088, 'epoch': 0.64}
+{'loss': 1.4193, 'grad_norm': 0.09871216863393784, 'learning_rate': 0.00015327658408206707, 'epoch': 0.64}
+{'loss': 1.4437, 'grad_norm': 0.11410175263881683, 'learning_rate': 0.00015308542550981615, 'epoch': 0.64}
+{'loss': 1.4411, 'grad_norm': 0.09984050691127777, 'learning_rate': 0.00015289433359811229, 'epoch': 0.64}
+{'loss': 1.4034, 'grad_norm': 0.11755191534757614, 'learning_rate': 0.00015270330847839375, 'epoch': 0.64}
+{'loss': 1.4391, 'grad_norm': 0.10273563116788864, 'learning_rate': 0.00015251235028205295, 'epoch': 0.64}
+{'loss': 1.425, 'grad_norm': 0.09229280799627304, 'learning_rate': 0.00015232145914043625, 'epoch': 0.64}
+{'loss': 1.4301, 'grad_norm': 0.10293461382389069, 'learning_rate': 0.000152130635184844, 'epoch': 0.64}
+{'loss': 1.4314, 'grad_norm': 0.11213541030883789, 'learning_rate': 0.00015193987854653023, 'epoch': 0.64}
+{'loss': 1.4424, 'grad_norm': 0.10546864569187164, 'learning_rate': 0.0001517491893567025, 'epoch': 0.64}
+{'loss': 1.4376, 'grad_norm': 0.0911293551325798, 'learning_rate': 0.00015155856774652228, 'epoch': 0.64}
+{'loss': 1.4182, 'grad_norm': 0.09754522144794464, 'learning_rate': 0.00015136801384710448, 'epoch': 0.64}
+{'loss': 1.4453, 'grad_norm': 0.09890526533126831, 'learning_rate': 0.00015117752778951736, 'epoch': 0.64}
+{'loss': 1.4329, 'grad_norm': 0.09774228185415268, 'learning_rate': 0.00015098710970478247, 'epoch': 0.64}
+{'loss': 1.4113, 'grad_norm': 0.09754446148872375, 'learning_rate': 0.00015079675972387474, 'epoch': 0.64}
+{'loss': 1.4344, 'grad_norm': 0.0930711105465889, 'learning_rate': 0.0001506064779777221, 'epoch': 0.64}
+{'loss': 1.4442, 'grad_norm': 0.09910820424556732, 'learning_rate': 0.00015041626459720578, 'epoch': 0.64}
+{'loss': 1.4325, 'grad_norm': 0.09332608431577682, 'learning_rate': 0.00015022611971315974, 'epoch': 0.64}
+{'loss': 1.419, 'grad_norm': 0.09240633994340897, 'learning_rate': 0.00015003604345637105, 'epoch': 0.64}
+{'loss': 1.4527, 'grad_norm': 0.1073644831776619, 'learning_rate': 0.0001498460359575794, 'epoch': 0.64}
+{'loss': 1.4459, 'grad_norm': 0.1006690189242363, 'learning_rate': 0.0001496560973474771, 'epoch': 0.64}
+{'loss': 1.4284, 'grad_norm': 0.09905058145523071, 'learning_rate': 0.00014946622775670942, 'epoch': 0.64}
+{'loss': 1.4236, 'grad_norm': 0.08840854465961456, 'learning_rate': 0.00014927642731587393, 'epoch': 0.64}
+{'loss': 1.4197, 'grad_norm': 0.10912032425403595, 'learning_rate': 0.00014908669615552067, 'epoch': 0.64}
+{'loss': 1.4193, 'grad_norm': 0.0981689915060997, 'learning_rate': 0.0001488970344061519, 'epoch': 0.64}
+{'loss': 1.442, 'grad_norm': 0.09615519642829895, 'learning_rate': 0.00014870744219822236, 'epoch': 0.64}
+{'loss': 1.4304, 'grad_norm': 0.11533856391906738, 'learning_rate': 0.00014851791966213884, 'epoch': 0.64}
+{'loss': 1.4227, 'grad_norm': 0.11065632849931717, 'learning_rate': 0.0001483284669282603, 'epoch': 0.64}
+{'loss': 1.4355, 'grad_norm': 0.10200709104537964, 'learning_rate': 0.00014813908412689746, 'epoch': 0.64}
+{'loss': 1.4336, 'grad_norm': 0.09502385556697845, 'learning_rate': 0.00014794977138831323, 'epoch': 0.64}
+{'loss': 1.4374, 'grad_norm': 0.09860546141862869, 'learning_rate': 0.00014776052884272206, 'epoch': 0.65}
+{'loss': 1.3929, 'grad_norm': 0.09774936735630035, 'learning_rate': 0.00014757135662029041, 'epoch': 0.65}
+{'loss': 1.4187, 'grad_norm': 0.08919971436262131, 'learning_rate': 0.00014738225485113615, 'epoch': 0.65}
+{'loss': 1.4317, 'grad_norm': 0.09798727184534073, 'learning_rate': 0.00014719322366532866, 'epoch': 0.65}
+{'loss': 1.4494, 'grad_norm': 0.10042382776737213, 'learning_rate': 0.0001470042631928889, 'epoch': 0.65}
+{'loss': 1.4402, 'grad_norm': 0.10790929943323135, 'learning_rate': 0.00014681537356378923, 'epoch': 0.65}
+{'loss': 1.421, 'grad_norm': 0.10142293572425842, 'learning_rate': 0.0001466265549079532, 'epoch': 0.65}
+{'loss': 1.4527, 'grad_norm': 0.10968121886253357, 'learning_rate': 0.00014643780735525545, 'epoch': 0.65}
+{'loss': 1.437, 'grad_norm': 0.1078663244843483, 'learning_rate': 0.00014624913103552189, 'epoch': 0.65}
+{'loss': 1.4265, 'grad_norm': 0.10809492319822311, 'learning_rate': 0.00014606052607852923, 'epoch': 0.65}
+{'loss': 1.455, 'grad_norm': 0.09971383213996887, 'learning_rate': 0.0001458719926140054, 'epoch': 0.65}
+{'loss': 1.4362, 'grad_norm': 0.10458521544933319, 'learning_rate': 0.00014568353077162887, 'epoch': 0.65}
+{'loss': 1.4314, 'grad_norm': 0.11731122434139252, 'learning_rate': 0.00014549514068102904, 'epoch': 0.65}
+{'loss': 1.4381, 'grad_norm': 0.1071547120809555, 'learning_rate': 0.0001453068224717858, 'epoch': 0.65}
+{'loss': 1.4178, 'grad_norm': 0.11465176939964294, 'learning_rate': 0.0001451185762734295, 'epoch': 0.65}
+{'loss': 1.4641, 'grad_norm': 0.11050407588481903, 'learning_rate': 0.00014493040221544146, 'epoch': 0.65}
+{'loss': 1.471, 'grad_norm': 0.12131162732839584, 'learning_rate': 0.00014474230042725271, 'epoch': 0.65}
+{'loss': 1.4483, 'grad_norm': 0.10968227684497833, 'learning_rate': 0.00014455427103824523, 'epoch': 0.65}
+{'loss': 1.4265, 'grad_norm': 0.10337594151496887, 'learning_rate': 0.0001443663141777506, 'epoch': 0.65}
+{'loss': 1.43, 'grad_norm': 0.10633478313684464, 'learning_rate': 0.000144178429975051, 'epoch': 0.65}
+{'loss': 1.4263, 'grad_norm': 0.11163760721683502, 'learning_rate': 0.00014399061855937834, 'epoch': 0.65}
+{'loss': 1.4271, 'grad_norm': 0.10993873327970505, 'learning_rate': 0.00014380288005991454, 'epoch': 0.65}
+{'loss': 1.4469, 'grad_norm': 0.09047579020261765, 'learning_rate': 0.00014361521460579138, 'epoch': 0.65}
+{'loss': 1.3876, 'grad_norm': 0.12080322206020355, 'learning_rate': 0.0001434276223260903, 'epoch': 0.65}
+{'loss': 1.4469, 'grad_norm': 0.11478821933269501, 'learning_rate': 0.00014324010334984267, 'epoch': 0.65}
+{'loss': 1.4373, 'grad_norm': 0.09287093579769135, 'learning_rate': 0.00014305265780602911, 'epoch': 0.65}
+{'loss': 1.4068, 'grad_norm': 0.10591962188482285, 'learning_rate': 0.00014286528582358005, 'epoch': 0.65}
+{'loss': 1.4254, 'grad_norm': 0.10913028568029404, 'learning_rate': 0.00014267798753137513, 'epoch': 0.65}
+{'loss': 1.4142, 'grad_norm': 0.1114577054977417, 'learning_rate': 0.00014249076305824316, 'epoch': 0.65}
+{'loss': 1.4275, 'grad_norm': 0.09898439794778824, 'learning_rate': 0.0001423036125329626, 'epoch': 0.65}
+{'loss': 1.4257, 'grad_norm': 0.10486739873886108, 'learning_rate': 0.0001421165360842607, 'epoch': 0.65}
+{'loss': 1.4074, 'grad_norm': 0.111557237803936, 'learning_rate': 0.00014192953384081387, 'epoch': 0.65}
+{'loss': 1.4167, 'grad_norm': 0.09288762509822845, 'learning_rate': 0.00014174260593124733, 'epoch': 0.65}
+{'loss': 1.3987, 'grad_norm': 0.10223393142223358, 'learning_rate': 0.0001415557524841354, 'epoch': 0.65}
+{'loss': 1.4355, 'grad_norm': 0.10210853070020676, 'learning_rate': 0.00014136897362800128, 'epoch': 0.65}
+{'loss': 1.4354, 'grad_norm': 0.10831223428249359, 'learning_rate': 0.00014118226949131647, 'epoch': 0.65}
+{'loss': 1.4266, 'grad_norm': 0.1013711467385292, 'learning_rate': 0.00014099564020250132, 'epoch': 0.65}
+{'loss': 1.4287, 'grad_norm': 0.10716520994901657, 'learning_rate': 0.0001408090858899246, 'epoch': 0.65}
+{'loss': 1.4429, 'grad_norm': 0.1038949266076088, 'learning_rate': 0.00014062260668190374, 'epoch': 0.65}
+{'loss': 1.4418, 'grad_norm': 0.10016588121652603, 'learning_rate': 0.0001404362027067042, 'epoch': 0.66}
+{'loss': 1.4408, 'grad_norm': 0.10818346589803696, 'learning_rate': 0.0001402498740925398, 'epoch': 0.66}
+{'loss': 1.401, 'grad_norm': 0.11304139345884323, 'learning_rate': 0.00014006362096757275, 'epoch': 0.66}
+{'loss': 1.4345, 'grad_norm': 0.11377333104610443, 'learning_rate': 0.0001398774434599129, 'epoch': 0.66}
+{'loss': 1.4096, 'grad_norm': 0.0990370586514473, 'learning_rate': 0.0001396913416976185, 'epoch': 0.66}
+{'loss': 1.4284, 'grad_norm': 0.10683475434780121, 'learning_rate': 0.00013950531580869552, 'epoch': 0.66}
+{'loss': 1.4503, 'grad_norm': 0.10409334301948547, 'learning_rate': 0.00013931936592109773, 'epoch': 0.66}
+{'loss': 1.4382, 'grad_norm': 0.10652990639209747, 'learning_rate': 0.00013913349216272659, 'epoch': 0.66}
+{'loss': 1.4333, 'grad_norm': 0.10497859865427017, 'learning_rate': 0.00013894769466143127, 'epoch': 0.66}
+{'loss': 1.4305, 'grad_norm': 0.1166117861866951, 'learning_rate': 0.0001387619735450084, 'epoch': 0.66}
+{'loss': 1.4354, 'grad_norm': 0.09752920269966125, 'learning_rate': 0.0001385763289412024, 'epoch': 0.66}
+{'loss': 1.4423, 'grad_norm': 0.101237453520298, 'learning_rate': 0.0001383907609777047, 'epoch': 0.66}
+{'loss': 1.4304, 'grad_norm': 0.11190848052501678, 'learning_rate': 0.00013820526978215402, 'epoch': 0.66}
+{'loss': 1.4205, 'grad_norm': 0.10217118263244629, 'learning_rate': 0.00013801985548213632, 'epoch': 0.66}
+{'loss': 1.4061, 'grad_norm': 0.10757181793451309, 'learning_rate': 0.00013783451820518493, 'epoch': 0.66}
+{'loss': 1.424, 'grad_norm': 0.11377610266208649, 'learning_rate': 0.00013764925807877994, 'epoch': 0.66}
+{'loss': 1.451, 'grad_norm': 0.10630210489034653, 'learning_rate': 0.0001374640752303483, 'epoch': 0.66}
+{'loss': 1.4585, 'grad_norm': 0.11073515564203262, 'learning_rate': 0.000137278969787264, 'epoch': 0.66}
+{'loss': 1.4409, 'grad_norm': 0.10506726801395416, 'learning_rate': 0.00013709394187684786, 'epoch': 0.66}
+{'loss': 1.45, 'grad_norm': 0.10037031769752502, 'learning_rate': 0.00013690899162636713, 'epoch': 0.66}
+{'loss': 1.4531, 'grad_norm': 0.10698293894529343, 'learning_rate': 0.00013672411916303576, 'epoch': 0.66}
+{'loss': 1.4368, 'grad_norm': 0.11330556869506836, 'learning_rate': 0.0001365393246140142, 'epoch': 0.66}
+{'loss': 1.4165, 'grad_norm': 0.0976288840174675, 'learning_rate': 0.00013635460810640916, 'epoch': 0.66}
+{'loss': 1.4167, 'grad_norm': 0.10278821736574173, 'learning_rate': 0.00013616996976727397, 'epoch': 0.66}
+{'loss': 1.4006, 'grad_norm': 0.11278846114873886, 'learning_rate': 0.00013598540972360794, 'epoch': 0.66}
+{'loss': 1.4226, 'grad_norm': 0.10731440782546997, 'learning_rate': 0.00013580092810235673, 'epoch': 0.66}
+{'loss': 1.4386, 'grad_norm': 0.1052699089050293, 'learning_rate': 0.00013561652503041186, 'epoch': 0.66}
+{'loss': 1.4192, 'grad_norm': 0.10632911324501038, 'learning_rate': 0.0001354322006346108, 'epoch': 0.66}
+{'loss': 1.4488, 'grad_norm': 0.11736087501049042, 'learning_rate': 0.00013524795504173725, 'epoch': 0.66}
+{'loss': 1.4274, 'grad_norm': 0.11410871893167496, 'learning_rate': 0.0001350637883785203, 'epoch': 0.66}
+{'loss': 1.4242, 'grad_norm': 0.10148424655199051, 'learning_rate': 0.000134879700771635, 'epoch': 0.66}
+{'loss': 1.4177, 'grad_norm': 0.10893039405345917, 'learning_rate': 0.0001346956923477018, 'epoch': 0.66}
+{'loss': 1.4417, 'grad_norm': 0.1110462099313736, 'learning_rate': 0.00013451176323328687, 'epoch': 0.66}
+{'loss': 1.4417, 'grad_norm': 0.10953305661678314, 'learning_rate': 0.00013432791355490198, 'epoch': 0.66}
+{'loss': 1.4153, 'grad_norm': 0.10947022587060928, 'learning_rate': 0.0001341441434390039, 'epoch': 0.66}
+{'loss': 1.4338, 'grad_norm': 0.10713613033294678, 'learning_rate': 0.00013396045301199483, 'epoch': 0.66}
+{'loss': 1.4395, 'grad_norm': 0.10889555513858795, 'learning_rate': 0.00013377684240022214, 'epoch': 0.66}
+{'loss': 1.4271, 'grad_norm': 0.10284247249364853, 'learning_rate': 0.00013359331172997847, 'epoch': 0.66}
+{'loss': 1.4267, 'grad_norm': 0.11580361425876617, 'learning_rate': 0.00013340986112750125, 'epoch': 0.66}
+{'loss': 1.4204, 'grad_norm': 0.10246272385120392, 'learning_rate': 0.00013322649071897285, 'epoch': 0.67}
+{'loss': 1.4428, 'grad_norm': 0.0945538878440857, 'learning_rate': 0.0001330432006305207, 'epoch': 0.67}
+{'loss': 1.3941, 'grad_norm': 0.12092549353837967, 'learning_rate': 0.00013285999098821665, 'epoch': 0.67}
+{'loss': 1.4336, 'grad_norm': 0.11124593019485474, 'learning_rate': 0.00013267686191807763, 'epoch': 0.67}
+{'loss': 1.4294, 'grad_norm': 0.1036723256111145, 'learning_rate': 0.00013249381354606476, 'epoch': 0.67}
+{'loss': 1.4104, 'grad_norm': 0.11512807756662369, 'learning_rate': 0.0001323108459980839, 'epoch': 0.67}
+{'loss': 1.426, 'grad_norm': 0.11640572547912598, 'learning_rate': 0.0001321279593999852, 'epoch': 0.67}
+{'loss': 1.4436, 'grad_norm': 0.11460788547992706, 'learning_rate': 0.00013194515387756297, 'epoch': 0.67}
+{'loss': 1.4534, 'grad_norm': 0.10037066787481308, 'learning_rate': 0.00013176242955655626, 'epoch': 0.67}
+{'loss': 1.435, 'grad_norm': 0.10337623953819275, 'learning_rate': 0.00013157978656264775, 'epoch': 0.67}
+{'loss': 1.4115, 'grad_norm': 0.10880999267101288, 'learning_rate': 0.00013139722502146452, 'epoch': 0.67}
+{'loss': 1.433, 'grad_norm': 0.10456434637308121, 'learning_rate': 0.00013121474505857744, 'epoch': 0.67}
+{'loss': 1.4241, 'grad_norm': 0.10405824333429337, 'learning_rate': 0.00013103234679950117, 'epoch': 0.67}
+{'loss': 1.4201, 'grad_norm': 0.10913758724927902, 'learning_rate': 0.00013085003036969456, 'epoch': 0.67}
+{'loss': 1.4581, 'grad_norm': 0.11101850867271423, 'learning_rate': 0.00013066779589455984, 'epoch': 0.67}
+{'loss': 1.4214, 'grad_norm': 0.11034511774778366, 'learning_rate': 0.00013048564349944295, 'epoch': 0.67}
+{'loss': 1.4381, 'grad_norm': 0.10641234368085861, 'learning_rate': 0.00013030357330963326, 'epoch': 0.67}
+{'loss': 1.4483, 'grad_norm': 0.10132389515638351, 'learning_rate': 0.00013012158545036388, 'epoch': 0.67}
+{'loss': 1.4306, 'grad_norm': 0.11167281866073608, 'learning_rate': 0.00012993968004681116, 'epoch': 0.67}
+{'loss': 1.4391, 'grad_norm': 0.10395365953445435, 'learning_rate': 0.0001297578572240947, 'epoch': 0.67}
+{'loss': 1.4264, 'grad_norm': 0.1072411760687828, 'learning_rate': 0.00012957611710727723, 'epoch': 0.67}
+{'loss': 1.4408, 'grad_norm': 0.0994071438908577, 'learning_rate': 0.00012939445982136462, 'epoch': 0.67}
+{'loss': 1.4207, 'grad_norm': 0.09637793898582458, 'learning_rate': 0.000129212885491306, 'epoch': 0.67}
+{'loss': 1.4294, 'grad_norm': 0.10286600142717361, 'learning_rate': 0.00012903139424199313, 'epoch': 0.67}
+{'loss': 1.4196, 'grad_norm': 0.10710258781909943, 'learning_rate': 0.0001288499861982607, 'epoch': 0.67}
+{'loss': 1.4322, 'grad_norm': 0.09670886397361755, 'learning_rate': 0.00012866866148488637, 'epoch': 0.67}
+{'loss': 1.4547, 'grad_norm': 0.09980551153421402, 'learning_rate': 0.00012848742022659022, 'epoch': 0.67}
+{'loss': 1.4318, 'grad_norm': 0.11227906495332718, 'learning_rate': 0.0001283062625480351, 'epoch': 0.67}
+{'loss': 1.4199, 'grad_norm': 0.09973867982625961, 'learning_rate': 0.00012812518857382638, 'epoch': 0.67}
+{'loss': 1.4562, 'grad_norm': 0.09486238658428192, 'learning_rate': 0.0001279441984285117, 'epoch': 0.67}
+{'loss': 1.4147, 'grad_norm': 0.10359811782836914, 'learning_rate': 0.00012776329223658113, 'epoch': 0.67}
+{'loss': 1.4089, 'grad_norm': 0.09075187891721725, 'learning_rate': 0.0001275824701224669, 'epoch': 0.67}
+{'loss': 1.4449, 'grad_norm': 0.09593652188777924, 'learning_rate': 0.00012740173221054358, 'epoch': 0.67}
+{'loss': 1.4233, 'grad_norm': 0.10261212289333344, 'learning_rate': 0.00012722107862512787, 'epoch': 0.67}
+{'loss': 1.4421, 'grad_norm': 0.09884719550609589, 'learning_rate': 0.00012704050949047824, 'epoch': 0.67}
+{'loss': 1.4374, 'grad_norm': 0.10118208080530167, 'learning_rate': 0.00012686002493079524, 'epoch': 0.67}
+{'loss': 1.4158, 'grad_norm': 0.10209562629461288, 'learning_rate': 0.00012667962507022096, 'epoch': 0.67}
+{'loss': 1.4367, 'grad_norm': 0.09595383703708649, 'learning_rate': 0.00012649931003283976, 'epoch': 0.67}
+{'loss': 1.4147, 'grad_norm': 0.09897221624851227, 'learning_rate': 0.0001263190799426772, 'epoch': 0.67}
+{'loss': 1.4144, 'grad_norm': 0.09587867558002472, 'learning_rate': 0.00012613893492370047, 'epoch': 0.68}
+{'loss': 1.4377, 'grad_norm': 0.09462885558605194, 'learning_rate': 0.00012595887509981844, 'epoch': 0.68}
+{'loss': 1.4304, 'grad_norm': 0.10976351797580719, 'learning_rate': 0.00012577890059488136, 'epoch': 0.68}
+{'loss': 1.4295, 'grad_norm': 0.0943712517619133, 'learning_rate': 0.00012559901153268065, 'epoch': 0.68}
+{'loss': 1.4303, 'grad_norm': 0.10160738229751587, 'learning_rate': 0.000125419208036949, 'epoch': 0.68}
+{'loss': 1.4294, 'grad_norm': 0.1009702980518341, 'learning_rate': 0.00012523949023136028, 'epoch': 0.68}
+{'loss': 1.4427, 'grad_norm': 0.11174633353948593, 'learning_rate': 0.0001250598582395293, 'epoch': 0.68}
+{'loss': 1.4494, 'grad_norm': 0.10421693325042725, 'learning_rate': 0.00012488031218501217, 'epoch': 0.68}
+{'loss': 1.4265, 'grad_norm': 0.09857964515686035, 'learning_rate': 0.00012470085219130545, 'epoch': 0.68}
+{'loss': 1.4293, 'grad_norm': 0.09149225056171417, 'learning_rate': 0.00012452147838184694, 'epoch': 0.68}
+{'loss': 1.4526, 'grad_norm': 0.10546949505805969, 'learning_rate': 0.00012434219088001483, 'epoch': 0.68}
+{'loss': 1.4302, 'grad_norm': 0.10215914249420166, 'learning_rate': 0.00012416298980912798, 'epoch': 0.68}
+{'loss': 1.4347, 'grad_norm': 0.08997905999422073, 'learning_rate': 0.00012398387529244612, 'epoch': 0.68}
+{'loss': 1.4316, 'grad_norm': 0.11260462552309036, 'learning_rate': 0.00012380484745316904, 'epoch': 0.68}
+{'loss': 1.4275, 'grad_norm': 0.10359665006399155, 'learning_rate': 0.00012362590641443712, 'epoch': 0.68}
+{'loss': 1.4313, 'grad_norm': 0.10027819871902466, 'learning_rate': 0.0001234470522993309, 'epoch': 0.68}
+{'loss': 1.4563, 'grad_norm': 0.09144957363605499, 'learning_rate': 0.0001232682852308713, 'epoch': 0.68}
+{'loss': 1.3806, 'grad_norm': 0.10890225321054459, 'learning_rate': 0.00012308960533201943, 'epoch': 0.68}
+{'loss': 1.4021, 'grad_norm': 0.10872046649456024, 'learning_rate': 0.0001229110127256762, 'epoch': 0.68}
+{'loss': 1.4269, 'grad_norm': 0.10392588376998901, 'learning_rate': 0.00012273250753468254, 'epoch': 0.68}
+{'loss': 1.4561, 'grad_norm': 0.10134807229042053, 'learning_rate': 0.00012255408988181925, 'epoch': 0.68}
+{'loss': 1.4434, 'grad_norm': 0.10019799321889877, 'learning_rate': 0.00012237575988980717, 'epoch': 0.68}
+{'loss': 1.4411, 'grad_norm': 0.1015266552567482, 'learning_rate': 0.0001221975176813065, 'epoch': 0.68}
+{'loss': 1.4128, 'grad_norm': 0.10623550415039062, 'learning_rate': 0.00012201936337891714, 'epoch': 0.68}
+{'loss': 1.4215, 'grad_norm': 0.09630530327558517, 'learning_rate': 0.00012184129710517877, 'epoch': 0.68}
+{'loss': 1.4076, 'grad_norm': 0.1116890087723732, 'learning_rate': 0.00012166331898257017, 'epoch': 0.68}
+{'loss': 1.4209, 'grad_norm': 0.11156109720468521, 'learning_rate': 0.00012148542913350977, 'epoch': 0.68}
+{'loss': 1.4084, 'grad_norm': 0.09939290583133698, 'learning_rate': 0.00012130762768035517, 'epoch': 0.68}
+{'loss': 1.3903, 'grad_norm': 0.1033412292599678, 'learning_rate': 0.00012112991474540311, 'epoch': 0.68}
+{'loss': 1.4281, 'grad_norm': 0.10810231417417526, 'learning_rate': 0.00012095229045088949, 'epoch': 0.68}
+{'loss': 1.4445, 'grad_norm': 0.09417342394590378, 'learning_rate': 0.00012077475491898921, 'epoch': 0.68}
+{'loss': 1.4398, 'grad_norm': 0.09759671986103058, 'learning_rate': 0.00012059730827181634, 'epoch': 0.68}
+{'loss': 1.4378, 'grad_norm': 0.10643185675144196, 'learning_rate': 0.00012041995063142339, 'epoch': 0.68}
+{'loss': 1.4443, 'grad_norm': 0.10302987694740295, 'learning_rate': 0.00012024268211980214, 'epoch': 0.68}
+{'loss': 1.4566, 'grad_norm': 0.09644369035959244, 'learning_rate': 0.0001200655028588827, 'epoch': 0.68}
+{'loss': 1.4628, 'grad_norm': 0.10132649540901184, 'learning_rate': 0.00011988841297053379, 'epoch': 0.68}
+{'loss': 1.4377, 'grad_norm': 0.09721054136753082, 'learning_rate': 0.00011971141257656301, 'epoch': 0.68}
+{'loss': 1.4219, 'grad_norm': 0.10406668484210968, 'learning_rate': 0.00011953450179871606, 'epoch': 0.68}
+{'loss': 1.436, 'grad_norm': 0.08941644430160522, 'learning_rate': 0.00011935768075867707, 'epoch': 0.68}
+{'loss': 1.421, 'grad_norm': 0.09853628277778625, 'learning_rate': 0.0001191809495780684, 'epoch': 0.69}
+{'loss': 1.399, 'grad_norm': 0.09623290598392487, 'learning_rate': 0.0001190043083784508, 'epoch': 0.69}
+{'loss': 1.427, 'grad_norm': 0.09789318591356277, 'learning_rate': 0.00011882775728132309, 'epoch': 0.69}
+{'loss': 1.4182, 'grad_norm': 0.10068969428539276, 'learning_rate': 0.00011865129640812198, 'epoch': 0.69}
+{'loss': 1.394, 'grad_norm': 0.09834761172533035, 'learning_rate': 0.00011847492588022213, 'epoch': 0.69}
+{'loss': 1.418, 'grad_norm': 0.10059388726949692, 'learning_rate': 0.000118298645818936, 'epoch': 0.69}
+{'loss': 1.4193, 'grad_norm': 0.10252799093723297, 'learning_rate': 0.00011812245634551421, 'epoch': 0.69}
+{'loss': 1.4248, 'grad_norm': 0.10806170850992203, 'learning_rate': 0.00011794635758114464, 'epoch': 0.69}
+{'loss': 1.4273, 'grad_norm': 0.11664300411939621, 'learning_rate': 0.00011777034964695282, 'epoch': 0.69}
+{'loss': 1.4349, 'grad_norm': 0.10460320115089417, 'learning_rate': 0.00011759443266400213, 'epoch': 0.69}
+{'loss': 1.4074, 'grad_norm': 0.11577489972114563, 'learning_rate': 0.00011741860675329296, 'epoch': 0.69}
+{'loss': 1.4535, 'grad_norm': 0.10010787844657898, 'learning_rate': 0.00011724287203576353, 'epoch': 0.69}
+{'loss': 1.4237, 'grad_norm': 0.12285299599170685, 'learning_rate': 0.00011706722863228892, 'epoch': 0.69}
+{'loss': 1.4436, 'grad_norm': 0.10366679728031158, 'learning_rate': 0.00011689167666368155, 'epoch': 0.69}
+{'loss': 1.4267, 'grad_norm': 0.10205014795064926, 'learning_rate': 0.00011671621625069103, 'epoch': 0.69}
+{'loss': 1.4168, 'grad_norm': 0.11003854125738144, 'learning_rate': 0.00011654084751400379, 'epoch': 0.69}
+{'loss': 1.4138, 'grad_norm': 0.1042693480849266, 'learning_rate': 0.00011636557057424344, 'epoch': 0.69}
+{'loss': 1.4236, 'grad_norm': 0.1108555719256401, 'learning_rate': 0.00011619038555197042, 'epoch': 0.69}
+{'loss': 1.4307, 'grad_norm': 0.11767222732305527, 'learning_rate': 0.00011601529256768181, 'epoch': 0.69}
+{'loss': 1.4063, 'grad_norm': 0.11914623528718948, 'learning_rate': 0.00011584029174181132, 'epoch': 0.69}
+{'loss': 1.404, 'grad_norm': 0.10159683972597122, 'learning_rate': 0.00011566538319472963, 'epoch': 0.69}
+{'loss': 1.4154, 'grad_norm': 0.09724639356136322, 'learning_rate': 0.00011549056704674357, 'epoch': 0.69}
+{'loss': 1.4226, 'grad_norm': 0.10764951258897781, 'learning_rate': 0.00011531584341809661, 'epoch': 0.69}
+{'loss': 1.4149, 'grad_norm': 0.10614828020334244, 'learning_rate': 0.0001151412124289684, 'epoch': 0.69}
+{'loss': 1.4402, 'grad_norm': 0.10019209235906601, 'learning_rate': 0.00011496667419947515, 'epoch': 0.69}
+{'loss': 1.4188, 'grad_norm': 0.11057360470294952, 'learning_rate': 0.00011479222884966916, 'epoch': 0.69}
+{'loss': 1.4155, 'grad_norm': 0.12234393507242203, 'learning_rate': 0.00011461787649953875, 'epoch': 0.69}
+{'loss': 1.4303, 'grad_norm': 0.1074097603559494, 'learning_rate': 0.00011444361726900832, 'epoch': 0.69}
+{'loss': 1.4352, 'grad_norm': 0.10023613274097443, 'learning_rate': 0.0001142694512779382, 'epoch': 0.69}
+{'loss': 1.4352, 'grad_norm': 0.11796292662620544, 'learning_rate': 0.00011409537864612454, 'epoch': 0.69}
+{'loss': 1.4317, 'grad_norm': 0.12132397294044495, 'learning_rate': 0.00011392139949329957, 'epoch': 0.69}
+{'loss': 1.4329, 'grad_norm': 0.10839357227087021, 'learning_rate': 0.00011374751393913078, 'epoch': 0.69}
+{'loss': 1.3992, 'grad_norm': 0.1078701838850975, 'learning_rate': 0.0001135737221032217, 'epoch': 0.69}
+{'loss': 1.4392, 'grad_norm': 0.12581345438957214, 'learning_rate': 0.0001134000241051111, 'epoch': 0.69}
+{'loss': 1.4493, 'grad_norm': 0.09792806953191757, 'learning_rate': 0.00011322642006427322, 'epoch': 0.69}
+{'loss': 1.4349, 'grad_norm': 0.11719552427530289, 'learning_rate': 0.00011305291010011795, 'epoch': 0.69}
+{'loss': 1.4302, 'grad_norm': 0.11394818872213364, 'learning_rate': 0.00011287949433199018, 'epoch': 0.69}
+{'loss': 1.4, 'grad_norm': 0.09953263401985168, 'learning_rate': 0.00011270617287917016, 'epoch': 0.69}
+{'loss': 1.4207, 'grad_norm': 0.09775260835886002, 'learning_rate': 0.00011253294586087304, 'epoch': 0.69}
+{'loss': 1.4346, 'grad_norm': 0.10211922228336334, 'learning_rate': 0.00011235981339624935, 'epoch': 0.7}
+{'loss': 1.4344, 'grad_norm': 0.11837481707334518, 'learning_rate': 0.00011218677560438448, 'epoch': 0.7}
+{'loss': 1.4438, 'grad_norm': 0.11065582931041718, 'learning_rate': 0.00011201383260429859, 'epoch': 0.7}
+{'loss': 1.4297, 'grad_norm': 0.09844420105218887, 'learning_rate': 0.0001118409845149467, 'epoch': 0.7}
+{'loss': 1.4479, 'grad_norm': 0.10447587817907333, 'learning_rate': 0.00011166823145521842, 'epoch': 0.7}
+{'loss': 1.4322, 'grad_norm': 0.10738582164049149, 'learning_rate': 0.00011149557354393832, 'epoch': 0.7}
+{'loss': 1.4159, 'grad_norm': 0.10239920020103455, 'learning_rate': 0.00011132301089986527, 'epoch': 0.7}
+{'loss': 1.4269, 'grad_norm': 0.10715683549642563, 'learning_rate': 0.00011115054364169253, 'epoch': 0.7}
+{'loss': 1.4287, 'grad_norm': 0.09755955636501312, 'learning_rate': 0.0001109781718880481, 'epoch': 0.7}
+{'loss': 1.4375, 'grad_norm': 0.10496053099632263, 'learning_rate': 0.00011080589575749386, 'epoch': 0.7}
+{'loss': 1.4244, 'grad_norm': 0.10854941606521606, 'learning_rate': 0.00011063371536852637, 'epoch': 0.7}
+{'loss': 1.4257, 'grad_norm': 0.11658962815999985, 'learning_rate': 0.00011046163083957597, 'epoch': 0.7}
+{'loss': 1.4503, 'grad_norm': 0.10167849063873291, 'learning_rate': 0.00011028964228900723, 'epoch': 0.7}
+{'loss': 1.4417, 'grad_norm': 0.1081111878156662, 'learning_rate': 0.00011011774983511865, 'epoch': 0.7}
+{'loss': 1.442, 'grad_norm': 0.11140409857034683, 'learning_rate': 0.00010994595359614257, 'epoch': 0.7}
+{'loss': 1.3976, 'grad_norm': 0.10330978780984879, 'learning_rate': 0.00010977425369024543, 'epoch': 0.7}
+{'loss': 1.4274, 'grad_norm': 0.10281948000192642, 'learning_rate': 0.00010960265023552701, 'epoch': 0.7}
+{'loss': 1.4368, 'grad_norm': 0.11184772104024887, 'learning_rate': 0.00010943114335002113, 'epoch': 0.7}
+{'loss': 1.4179, 'grad_norm': 0.10429701209068298, 'learning_rate': 0.00010925973315169485, 'epoch': 0.7}
+{'loss': 1.4526, 'grad_norm': 0.10349256545305252, 'learning_rate': 0.00010908841975844905, 'epoch': 0.7}
+{'loss': 1.4399, 'grad_norm': 0.11693502962589264, 'learning_rate': 0.00010891720328811777, 'epoch': 0.7}
+{'loss': 1.4345, 'grad_norm': 0.10360029339790344, 'learning_rate': 0.00010874608385846846, 'epoch': 0.7}
+{'loss': 1.4303, 'grad_norm': 0.11088570952415466, 'learning_rate': 0.00010857506158720187, 'epoch': 0.7}
+{'loss': 1.4532, 'grad_norm': 0.1052497997879982, 'learning_rate': 0.00010840413659195178, 'epoch': 0.7}
+{'loss': 1.4228, 'grad_norm': 0.10493085533380508, 'learning_rate': 0.00010823330899028524, 'epoch': 0.7}
+{'loss': 1.4503, 'grad_norm': 0.10797572135925293, 'learning_rate': 0.00010806257889970237, 'epoch': 0.7}
+{'loss': 1.4192, 'grad_norm': 0.10191182792186737, 'learning_rate': 0.00010789194643763597, 'epoch': 0.7}
+{'loss': 1.4115, 'grad_norm': 0.11213714629411697, 'learning_rate': 0.00010772141172145181, 'epoch': 0.7}
+{'loss': 1.4395, 'grad_norm': 0.09610623121261597, 'learning_rate': 0.00010755097486844831, 'epoch': 0.7}
+{'loss': 1.4491, 'grad_norm': 0.09528534859418869, 'learning_rate': 0.0001073806359958569, 'epoch': 0.7}
+{'loss': 1.4227, 'grad_norm': 0.11331721395254135, 'learning_rate': 0.00010721039522084134, 'epoch': 0.7}
+{'loss': 1.4343, 'grad_norm': 0.09672654420137405, 'learning_rate': 0.00010704025266049782, 'epoch': 0.7}
+{'loss': 1.4404, 'grad_norm': 0.09337496757507324, 'learning_rate': 0.00010687020843185538, 'epoch': 0.7}
+{'loss': 1.433, 'grad_norm': 0.10967133939266205, 'learning_rate': 0.00010670026265187499, 'epoch': 0.7}
+{'loss': 1.4117, 'grad_norm': 0.0957551896572113, 'learning_rate': 0.00010653041543745027, 'epoch': 0.7}
+{'loss': 1.4178, 'grad_norm': 0.0948314368724823, 'learning_rate': 0.00010636066690540677, 'epoch': 0.7}
+{'loss': 1.4301, 'grad_norm': 0.09946861863136292, 'learning_rate': 0.00010619101717250226, 'epoch': 0.7}
+{'loss': 1.4096, 'grad_norm': 0.09817198663949966, 'learning_rate': 0.0001060214663554265, 'epoch': 0.7}
+{'loss': 1.4412, 'grad_norm': 0.0917583480477333, 'learning_rate': 0.00010585201457080144, 'epoch': 0.7}
+{'loss': 1.4218, 'grad_norm': 0.10169478505849838, 'learning_rate': 0.00010568266193518053, 'epoch': 0.71}
+{'loss': 1.4286, 'grad_norm': 0.09480487555265427, 'learning_rate': 0.00010551340856504946, 'epoch': 0.71}
+{'loss': 1.4088, 'grad_norm': 0.09816963225603104, 'learning_rate': 0.0001053442545768253, 'epoch': 0.71}
+{'loss': 1.4287, 'grad_norm': 0.10749723017215729, 'learning_rate': 0.0001051752000868568, 'epoch': 0.71}
+{'loss': 1.4349, 'grad_norm': 0.10290177911520004, 'learning_rate': 0.00010500624521142455, 'epoch': 0.71}
+{'loss': 1.4393, 'grad_norm': 0.10156463831663132, 'learning_rate': 0.00010483739006674029, 'epoch': 0.71}
+{'loss': 1.4559, 'grad_norm': 0.10397226363420486, 'learning_rate': 0.00010466863476894733, 'epoch': 0.71}
+{'loss': 1.4202, 'grad_norm': 0.10125308483839035, 'learning_rate': 0.00010449997943412018, 'epoch': 0.71}
+{'loss': 1.4431, 'grad_norm': 0.10274357348680496, 'learning_rate': 0.00010433142417826477, 'epoch': 0.71}
+{'loss': 1.4381, 'grad_norm': 0.10348435491323471, 'learning_rate': 0.00010416296911731818, 'epoch': 0.71}
+{'loss': 1.4271, 'grad_norm': 0.09920229017734528, 'learning_rate': 0.00010399461436714844, 'epoch': 0.71}
+{'loss': 1.4075, 'grad_norm': 0.10452379286289215, 'learning_rate': 0.00010382636004355459, 'epoch': 0.71}
+{'loss': 1.409, 'grad_norm': 0.10442949086427689, 'learning_rate': 0.00010365820626226671, 'epoch': 0.71}
+{'loss': 1.4524, 'grad_norm': 0.09845706820487976, 'learning_rate': 0.00010349015313894552, 'epoch': 0.71}
+{'loss': 1.4125, 'grad_norm': 0.11485972255468369, 'learning_rate': 0.00010332220078918286, 'epoch': 0.71}
+{'loss': 1.4387, 'grad_norm': 0.10083089768886566, 'learning_rate': 0.00010315434932850081, 'epoch': 0.71}
+{'loss': 1.4211, 'grad_norm': 0.10831484198570251, 'learning_rate': 0.00010298659887235254, 'epoch': 0.71}
+{'loss': 1.3891, 'grad_norm': 0.10367583483457565, 'learning_rate': 0.00010281894953612134, 'epoch': 0.71}
+{'loss': 1.4228, 'grad_norm': 0.11843413859605789, 'learning_rate': 0.00010265140143512103, 'epoch': 0.71}
+{'loss': 1.4287, 'grad_norm': 0.10309750586748123, 'learning_rate': 0.00010248395468459607, 'epoch': 0.71}
+{'loss': 1.4228, 'grad_norm': 0.09633108228445053, 'learning_rate': 0.00010231660939972084, 'epoch': 0.71}
+{'loss': 1.4215, 'grad_norm': 0.10943233966827393, 'learning_rate': 0.00010214936569560019, 'epoch': 0.71}
+{'loss': 1.4292, 'grad_norm': 0.10299476236104965, 'learning_rate': 0.00010198222368726884, 'epoch': 0.71}
+{'loss': 1.4294, 'grad_norm': 0.09320038557052612, 'learning_rate': 0.00010181518348969188, 'epoch': 0.71}
+{'loss': 1.3995, 'grad_norm': 0.09982907772064209, 'learning_rate': 0.00010164824521776423, 'epoch': 0.71}
+{'loss': 1.418, 'grad_norm': 0.10891778767108917, 'learning_rate': 0.00010148140898631064, 'epoch': 0.71}
+{'loss': 1.4276, 'grad_norm': 0.11204126477241516, 'learning_rate': 0.00010131467491008573, 'epoch': 0.71}
+{'loss': 1.4011, 'grad_norm': 0.10880828648805618, 'learning_rate': 0.00010114804310377377, 'epoch': 0.71}
+{'loss': 1.4221, 'grad_norm': 0.10091021656990051, 'learning_rate': 0.00010098151368198887, 'epoch': 0.71}
+{'loss': 1.4135, 'grad_norm': 0.10321730375289917, 'learning_rate': 0.00010081508675927461, 'epoch': 0.71}
+{'loss': 1.4012, 'grad_norm': 0.09920293837785721, 'learning_rate': 0.00010064876245010394, 'epoch': 0.71}
+{'loss': 1.4105, 'grad_norm': 0.11216892302036285, 'learning_rate': 0.0001004825408688795, 'epoch': 0.71}
+{'loss': 1.4129, 'grad_norm': 0.1007646843791008, 'learning_rate': 0.00010031642212993303, 'epoch': 0.71}
+{'loss': 1.4445, 'grad_norm': 0.10402193665504456, 'learning_rate': 0.00010015040634752576, 'epoch': 0.71}
+{'loss': 1.4415, 'grad_norm': 0.10212084650993347, 'learning_rate': 9.998449363584788e-05, 'epoch': 0.71}
+{'loss': 1.4186, 'grad_norm': 0.10444343835115433, 'learning_rate': 9.981868410901878e-05, 'epoch': 0.71}
+{'loss': 1.4421, 'grad_norm': 0.1138283908367157, 'learning_rate': 9.96529778810869e-05, 'epoch': 0.71}
+{'loss': 1.4278, 'grad_norm': 0.10065890103578568, 'learning_rate': 9.948737506602954e-05, 'epoch': 0.71}
+{'loss': 1.432, 'grad_norm': 0.0911499485373497, 'learning_rate': 9.932187577775303e-05, 'epoch': 0.71}
+{'loss': 1.44, 'grad_norm': 0.12176741659641266, 'learning_rate': 9.91564801300923e-05, 'epoch': 0.72}
+{'loss': 1.4241, 'grad_norm': 0.10716572403907776, 'learning_rate': 9.899118823681122e-05, 'epoch': 0.72}
+{'loss': 1.4163, 'grad_norm': 0.09073178470134735, 'learning_rate': 9.882600021160198e-05, 'epoch': 0.72}
+{'loss': 1.4147, 'grad_norm': 0.0963520035147667, 'learning_rate': 9.866091616808573e-05, 'epoch': 0.72}
+{'loss': 1.3922, 'grad_norm': 0.10010744631290436, 'learning_rate': 9.849593621981176e-05, 'epoch': 0.72}
+{'loss': 1.4298, 'grad_norm': 0.10935957729816437, 'learning_rate': 9.833106048025786e-05, 'epoch': 0.72}
+{'loss': 1.4305, 'grad_norm': 0.10770036280155182, 'learning_rate': 9.81662890628302e-05, 'epoch': 0.72}
+{'loss': 1.4265, 'grad_norm': 0.09960564970970154, 'learning_rate': 9.800162208086309e-05, 'epoch': 0.72}
+{'loss': 1.4129, 'grad_norm': 0.11387667804956436, 'learning_rate': 9.783705964761907e-05, 'epoch': 0.72}
+{'loss': 1.4378, 'grad_norm': 0.10754179209470749, 'learning_rate': 9.767260187628896e-05, 'epoch': 0.72}
+{'loss': 1.4209, 'grad_norm': 0.10188077390193939, 'learning_rate': 9.750824887999124e-05, 'epoch': 0.72}
+{'loss': 1.4144, 'grad_norm': 0.10755605250597, 'learning_rate': 9.734400077177252e-05, 'epoch': 0.72}
+{'loss': 1.4398, 'grad_norm': 0.10706289857625961, 'learning_rate': 9.717985766460713e-05, 'epoch': 0.72}
+{'loss': 1.4472, 'grad_norm': 0.10267148911952972, 'learning_rate': 9.701581967139747e-05, 'epoch': 0.72}
+{'loss': 1.4362, 'grad_norm': 0.09805933386087418, 'learning_rate': 9.685188690497334e-05, 'epoch': 0.72}
+{'loss': 1.4307, 'grad_norm': 0.10927888751029968, 'learning_rate': 9.668805947809218e-05, 'epoch': 0.72}
+{'loss': 1.4242, 'grad_norm': 0.11189595609903336, 'learning_rate': 9.652433750343923e-05, 'epoch': 0.72}
+{'loss': 1.4135, 'grad_norm': 0.0931408628821373, 'learning_rate': 9.636072109362687e-05, 'epoch': 0.72}
+{'loss': 1.453, 'grad_norm': 0.09216317534446716, 'learning_rate': 9.619721036119522e-05, 'epoch': 0.72}
+{'loss': 1.4249, 'grad_norm': 0.09938832372426987, 'learning_rate': 9.60338054186114e-05, 'epoch': 0.72}
+{'loss': 1.4073, 'grad_norm': 0.11108430474996567, 'learning_rate': 9.587050637826991e-05, 'epoch': 0.72}
+{'loss': 1.3966, 'grad_norm': 0.0987464115023613, 'learning_rate': 9.570731335249228e-05, 'epoch': 0.72}
+{'loss': 1.4132, 'grad_norm': 0.10006864368915558, 'learning_rate': 9.554422645352742e-05, 'epoch': 0.72}
+{'loss': 1.4512, 'grad_norm': 0.10183975845575333, 'learning_rate': 9.538124579355084e-05, 'epoch': 0.72}
+{'loss': 1.4156, 'grad_norm': 0.11148052662611008, 'learning_rate': 9.521837148466538e-05, 'epoch': 0.72}
+{'loss': 1.4243, 'grad_norm': 0.1072307899594307, 'learning_rate': 9.505560363890048e-05, 'epoch': 0.72}
+{'loss': 1.4035, 'grad_norm': 0.11052309721708298, 'learning_rate': 9.489294236821224e-05, 'epoch': 0.72}
+{'loss': 1.4111, 'grad_norm': 0.09069052338600159, 'learning_rate': 9.473038778448384e-05, 'epoch': 0.72}
+{'loss': 1.4231, 'grad_norm': 0.10045016556978226, 'learning_rate': 9.456793999952478e-05, 'epoch': 0.72}
+{'loss': 1.3927, 'grad_norm': 0.10428246110677719, 'learning_rate': 9.440559912507113e-05, 'epoch': 0.72}
+{'loss': 1.425, 'grad_norm': 0.10941382497549057, 'learning_rate': 9.424336527278543e-05, 'epoch': 0.72}
+{'loss': 1.4255, 'grad_norm': 0.09794117510318756, 'learning_rate': 9.408123855425671e-05, 'epoch': 0.72}
+{'loss': 1.4228, 'grad_norm': 0.09795091301202774, 'learning_rate': 9.391921908100032e-05, 'epoch': 0.72}
+{'loss': 1.4433, 'grad_norm': 0.10052598267793655, 'learning_rate': 9.375730696445772e-05, 'epoch': 0.72}
+{'loss': 1.4348, 'grad_norm': 0.11155880242586136, 'learning_rate': 9.359550231599657e-05, 'epoch': 0.72}
+{'loss': 1.4169, 'grad_norm': 0.1085425540804863, 'learning_rate': 9.343380524691061e-05, 'epoch': 0.72}
+{'loss': 1.4194, 'grad_norm': 0.09889198839664459, 'learning_rate': 9.327221586841952e-05, 'epoch': 0.72}
+{'loss': 1.4306, 'grad_norm': 0.10083160549402237, 'learning_rate': 9.311073429166913e-05, 'epoch': 0.72}
+{'loss': 1.4156, 'grad_norm': 0.09213686734437943, 'learning_rate': 9.294936062773082e-05, 'epoch': 0.72}
+{'loss': 1.4223, 'grad_norm': 0.1011405661702156, 'learning_rate': 9.278809498760205e-05, 'epoch': 0.72}
+{'loss': 1.4221, 'grad_norm': 0.09943617135286331, 'learning_rate': 9.262693748220569e-05, 'epoch': 0.73}
+{'loss': 1.4555, 'grad_norm': 0.09783650189638138, 'learning_rate': 9.24658882223905e-05, 'epoch': 0.73}
+{'loss': 1.4343, 'grad_norm': 0.0994463860988617, 'learning_rate': 9.230494731893058e-05, 'epoch': 0.73}
+{'loss': 1.4232, 'grad_norm': 0.09841892123222351, 'learning_rate': 9.214411488252555e-05, 'epoch': 0.73}
+{'loss': 1.4275, 'grad_norm': 0.0925421491265297, 'learning_rate': 9.198339102380049e-05, 'epoch': 0.73}
+{'loss': 1.4376, 'grad_norm': 0.10120154917240143, 'learning_rate': 9.182277585330565e-05, 'epoch': 0.73}
+{'loss': 1.4194, 'grad_norm': 0.10853646695613861, 'learning_rate': 9.166226948151676e-05, 'epoch': 0.73}
+{'loss': 1.4361, 'grad_norm': 0.08949678391218185, 'learning_rate': 9.150187201883445e-05, 'epoch': 0.73}
+{'loss': 1.4415, 'grad_norm': 0.09666150063276291, 'learning_rate': 9.134158357558473e-05, 'epoch': 0.73}
+{'loss': 1.3915, 'grad_norm': 0.1014983132481575, 'learning_rate': 9.118140426201834e-05, 'epoch': 0.73}
+{'loss': 1.4452, 'grad_norm': 0.09804568439722061, 'learning_rate': 9.102133418831104e-05, 'epoch': 0.73}
+{'loss': 1.4329, 'grad_norm': 0.09764721244573593, 'learning_rate': 9.086137346456366e-05, 'epoch': 0.73}
+{'loss': 1.3865, 'grad_norm': 0.10488405078649521, 'learning_rate': 9.070152220080152e-05, 'epoch': 0.73}
+{'loss': 1.4386, 'grad_norm': 0.10367229580879211, 'learning_rate': 9.054178050697482e-05, 'epoch': 0.73}
+{'loss': 1.4088, 'grad_norm': 0.08744411915540695, 'learning_rate': 9.038214849295822e-05, 'epoch': 0.73}
+{'loss': 1.428, 'grad_norm': 0.10113965719938278, 'learning_rate': 9.022262626855121e-05, 'epoch': 0.73}
+{'loss': 1.4223, 'grad_norm': 0.10491900891065598, 'learning_rate': 9.006321394347769e-05, 'epoch': 0.73}
+{'loss': 1.4045, 'grad_norm': 0.09747596085071564, 'learning_rate': 8.990391162738581e-05, 'epoch': 0.73}
+{'loss': 1.4296, 'grad_norm': 0.1056232824921608, 'learning_rate': 8.974471942984813e-05, 'epoch': 0.73}
+{'loss': 1.4247, 'grad_norm': 0.0995735377073288, 'learning_rate': 8.958563746036144e-05, 'epoch': 0.73}
+{'loss': 1.424, 'grad_norm': 0.0977027416229248, 'learning_rate': 8.942666582834688e-05, 'epoch': 0.73}
+{'loss': 1.4363, 'grad_norm': 0.09694623947143555, 'learning_rate': 8.926780464314951e-05, 'epoch': 0.73}
+{'loss': 1.4359, 'grad_norm': 0.09412339329719543, 'learning_rate': 8.91090540140384e-05, 'epoch': 0.73}
+{'loss': 1.4251, 'grad_norm': 0.10255032777786255, 'learning_rate': 8.895041405020685e-05, 'epoch': 0.73}
+{'loss': 1.4244, 'grad_norm': 0.09293346852064133, 'learning_rate': 8.879188486077161e-05, 'epoch': 0.73}
+{'loss': 1.4431, 'grad_norm': 0.11356178671121597, 'learning_rate': 8.863346655477373e-05, 'epoch': 0.73}
+{'loss': 1.455, 'grad_norm': 0.10057486593723297, 'learning_rate': 8.84751592411776e-05, 'epoch': 0.73}
+{'loss': 1.4269, 'grad_norm': 0.09909623116254807, 'learning_rate': 8.831696302887144e-05, 'epoch': 0.73}
+{'loss': 1.4135, 'grad_norm': 0.09463295340538025, 'learning_rate': 8.815887802666698e-05, 'epoch': 0.73}
+{'loss': 1.4411, 'grad_norm': 0.10614276677370071, 'learning_rate': 8.800090434329944e-05, 'epoch': 0.73}
+{'loss': 1.4325, 'grad_norm': 0.10121483355760574, 'learning_rate': 8.784304208742758e-05, 'epoch': 0.73}
+{'loss': 1.4188, 'grad_norm': 0.11121752858161926, 'learning_rate': 8.768529136763359e-05, 'epoch': 0.73}
+{'loss': 1.4417, 'grad_norm': 0.09220869094133377, 'learning_rate': 8.752765229242268e-05, 'epoch': 0.73}
+{'loss': 1.4332, 'grad_norm': 0.10315738618373871, 'learning_rate': 8.737012497022342e-05, 'epoch': 0.73}
+{'loss': 1.4192, 'grad_norm': 0.10914403945207596, 'learning_rate': 8.721270950938744e-05, 'epoch': 0.73}
+{'loss': 1.3975, 'grad_norm': 0.10226129740476608, 'learning_rate': 8.705540601818962e-05, 'epoch': 0.73}
+{'loss': 1.4132, 'grad_norm': 0.10125180333852768, 'learning_rate': 8.689821460482761e-05, 'epoch': 0.73}
+{'loss': 1.4119, 'grad_norm': 0.09907583892345428, 'learning_rate': 8.674113537742198e-05, 'epoch': 0.73}
+{'loss': 1.4195, 'grad_norm': 0.0963238999247551, 'learning_rate': 8.658416844401626e-05, 'epoch': 0.73}
+{'loss': 1.4308, 'grad_norm': 0.10403920710086823, 'learning_rate': 8.642731391257678e-05, 'epoch': 0.74}
+{'loss': 1.416, 'grad_norm': 0.10413119941949844, 'learning_rate': 8.627057189099238e-05, 'epoch': 0.74}
+{'loss': 1.4351, 'grad_norm': 0.103254534304142, 'learning_rate': 8.61139424870746e-05, 'epoch': 0.74}
+{'loss': 1.4662, 'grad_norm': 0.09547113627195358, 'learning_rate': 8.59574258085575e-05, 'epoch': 0.74}
+{'loss': 1.4313, 'grad_norm': 0.09928563982248306, 'learning_rate': 8.580102196309752e-05, 'epoch': 0.74}
+{'loss': 1.4187, 'grad_norm': 0.1068093553185463, 'learning_rate': 8.564473105827381e-05, 'epoch': 0.74}
+{'loss': 1.4162, 'grad_norm': 0.10051547735929489, 'learning_rate': 8.548855320158735e-05, 'epoch': 0.74}
+{'loss': 1.3886, 'grad_norm': 0.09242019802331924, 'learning_rate': 8.533248850046191e-05, 'epoch': 0.74}
+{'loss': 1.4358, 'grad_norm': 0.08971597999334335, 'learning_rate': 8.517653706224296e-05, 'epoch': 0.74}
+{'loss': 1.4169, 'grad_norm': 0.10963565111160278, 'learning_rate': 8.50206989941982e-05, 'epoch': 0.74}
+{'loss': 1.4251, 'grad_norm': 0.09933814406394958, 'learning_rate': 8.48649744035176e-05, 'epoch': 0.74}
+{'loss': 1.4409, 'grad_norm': 0.09898269176483154, 'learning_rate': 8.470936339731275e-05, 'epoch': 0.74}
+{'loss': 1.4289, 'grad_norm': 0.09840772300958633, 'learning_rate': 8.455386608261722e-05, 'epoch': 0.74}
+{'loss': 1.4322, 'grad_norm': 0.10461743921041489, 'learning_rate': 8.439848256638639e-05, 'epoch': 0.74}
+{'loss': 1.4226, 'grad_norm': 0.09915684908628464, 'learning_rate': 8.424321295549739e-05, 'epoch': 0.74}
+{'loss': 1.4272, 'grad_norm': 0.10435973852872849, 'learning_rate': 8.408805735674912e-05, 'epoch': 0.74}
+{'loss': 1.4128, 'grad_norm': 0.11081653088331223, 'learning_rate': 8.393301587686181e-05, 'epoch': 0.74}
+{'loss': 1.4269, 'grad_norm': 0.09849833697080612, 'learning_rate': 8.377808862247733e-05, 'epoch': 0.74}
+{'loss': 1.3843, 'grad_norm': 0.10811309516429901, 'learning_rate': 8.362327570015888e-05, 'epoch': 0.74}
+{'loss': 1.4344, 'grad_norm': 0.09102161973714828, 'learning_rate': 8.346857721639128e-05, 'epoch': 0.74}
+{'loss': 1.4075, 'grad_norm': 0.10744249075651169, 'learning_rate': 8.331399327758035e-05, 'epoch': 0.74}
+{'loss': 1.4192, 'grad_norm': 0.10217387974262238, 'learning_rate': 8.315952399005319e-05, 'epoch': 0.74}
+{'loss': 1.4517, 'grad_norm': 0.10438190400600433, 'learning_rate': 8.30051694600582e-05, 'epoch': 0.74}
+{'loss': 1.45, 'grad_norm': 0.09780629724264145, 'learning_rate': 8.285092979376463e-05, 'epoch': 0.74}
+{'loss': 1.4126, 'grad_norm': 0.10767361521720886, 'learning_rate': 8.269680509726293e-05, 'epoch': 0.74}
+{'loss': 1.4149, 'grad_norm': 0.10674593597650528, 'learning_rate': 8.254279547656432e-05, 'epoch': 0.74}
+{'loss': 1.4306, 'grad_norm': 0.10408931970596313, 'learning_rate': 8.238890103760088e-05, 'epoch': 0.74}
+{'loss': 1.4145, 'grad_norm': 0.09902212023735046, 'learning_rate': 8.223512188622553e-05, 'epoch': 0.74}
+{'loss': 1.4205, 'grad_norm': 0.09725332260131836, 'learning_rate': 8.208145812821175e-05, 'epoch': 0.74}
+{'loss': 1.4287, 'grad_norm': 0.10262876003980637, 'learning_rate': 8.192790986925395e-05, 'epoch': 0.74}
+{'loss': 1.4507, 'grad_norm': 0.09647911787033081, 'learning_rate': 8.17744772149667e-05, 'epoch': 0.74}
+{'loss': 1.4054, 'grad_norm': 0.09619178622961044, 'learning_rate': 8.162116027088545e-05, 'epoch': 0.74}
+{'loss': 1.4188, 'grad_norm': 0.10767906904220581, 'learning_rate': 8.146795914246579e-05, 'epoch': 0.74}
+{'loss': 1.4077, 'grad_norm': 0.08913970738649368, 'learning_rate': 8.131487393508366e-05, 'epoch': 0.74}
+{'loss': 1.4374, 'grad_norm': 0.09726940095424652, 'learning_rate': 8.116190475403545e-05, 'epoch': 0.74}
+{'loss': 1.4221, 'grad_norm': 0.10616393387317657, 'learning_rate': 8.10090517045376e-05, 'epoch': 0.74}
+{'loss': 1.4391, 'grad_norm': 0.10385443270206451, 'learning_rate': 8.085631489172665e-05, 'epoch': 0.74}
+{'loss': 1.4304, 'grad_norm': 0.10552693903446198, 'learning_rate': 8.07036944206592e-05, 'epoch': 0.74}
+{'loss': 1.4075, 'grad_norm': 0.0912218689918518, 'learning_rate': 8.055119039631192e-05, 'epoch': 0.74}
+{'loss': 1.4211, 'grad_norm': 0.11552701145410538, 'learning_rate': 8.039880292358142e-05, 'epoch': 0.75}
+{'loss': 1.4268, 'grad_norm': 0.12099669128656387, 'learning_rate': 8.024653210728397e-05, 'epoch': 0.75}
+{'loss': 1.4485, 'grad_norm': 0.105312779545784, 'learning_rate': 8.009437805215572e-05, 'epoch': 0.75}
+{'loss': 1.4227, 'grad_norm': 0.09746323525905609, 'learning_rate': 7.994234086285235e-05, 'epoch': 0.75}
+{'loss': 1.4206, 'grad_norm': 0.10632666945457458, 'learning_rate': 7.979042064394942e-05, 'epoch': 0.75}
+{'loss': 1.4202, 'grad_norm': 0.1063600480556488, 'learning_rate': 7.963861749994188e-05, 'epoch': 0.75}
+{'loss': 1.4175, 'grad_norm': 0.10050991922616959, 'learning_rate': 7.948693153524403e-05, 'epoch': 0.75}
+{'loss': 1.4252, 'grad_norm': 0.09446301311254501, 'learning_rate': 7.93353628541899e-05, 'epoch': 0.75}
+{'loss': 1.4273, 'grad_norm': 0.09514891356229782, 'learning_rate': 7.918391156103247e-05, 'epoch': 0.75}
+{'loss': 1.436, 'grad_norm': 0.1050739660859108, 'learning_rate': 7.903257775994432e-05, 'epoch': 0.75}
+{'loss': 1.4366, 'grad_norm': 0.09876342862844467, 'learning_rate': 7.888136155501701e-05, 'epoch': 0.75}
+{'loss': 1.4562, 'grad_norm': 0.108428455889225, 'learning_rate': 7.873026305026126e-05, 'epoch': 0.75}
+{'loss': 1.4361, 'grad_norm': 0.10293940454721451, 'learning_rate': 7.857928234960682e-05, 'epoch': 0.75}
+{'loss': 1.4107, 'grad_norm': 0.10567799210548401, 'learning_rate': 7.842841955690232e-05, 'epoch': 0.75}
+{'loss': 1.4081, 'grad_norm': 0.11234568059444427, 'learning_rate': 7.827767477591552e-05, 'epoch': 0.75}
+{'loss': 1.4119, 'grad_norm': 0.10597680509090424, 'learning_rate': 7.812704811033294e-05, 'epoch': 0.75}
+{'loss': 1.4233, 'grad_norm': 0.11697232723236084, 'learning_rate': 7.797653966375973e-05, 'epoch': 0.75}
+{'loss': 1.4032, 'grad_norm': 0.10831854492425919, 'learning_rate': 7.782614953971981e-05, 'epoch': 0.75}
+{'loss': 1.4111, 'grad_norm': 0.10324902087450027, 'learning_rate': 7.767587784165559e-05, 'epoch': 0.75}
+{'loss': 1.4011, 'grad_norm': 0.1036309078335762, 'learning_rate': 7.752572467292831e-05, 'epoch': 0.75}
+{'loss': 1.4316, 'grad_norm': 0.1063791960477829, 'learning_rate': 7.737569013681744e-05, 'epoch': 0.75}
+{'loss': 1.4284, 'grad_norm': 0.10450176894664764, 'learning_rate': 7.722577433652084e-05, 'epoch': 0.75}
+{'loss': 1.4324, 'grad_norm': 0.09780454635620117, 'learning_rate': 7.707597737515481e-05, 'epoch': 0.75}
+{'loss': 1.426, 'grad_norm': 0.09874569624662399, 'learning_rate': 7.692629935575401e-05, 'epoch': 0.75}
+{'loss': 1.3861, 'grad_norm': 0.10871690511703491, 'learning_rate': 7.677674038127106e-05, 'epoch': 0.75}
+{'loss': 1.4164, 'grad_norm': 0.09918147325515747, 'learning_rate': 7.662730055457679e-05, 'epoch': 0.75}
+{'loss': 1.4033, 'grad_norm': 0.10438452661037445, 'learning_rate': 7.647797997846007e-05, 'epoch': 0.75}
+{'loss': 1.4188, 'grad_norm': 0.10386098176240921, 'learning_rate': 7.632877875562771e-05, 'epoch': 0.75}
+{'loss': 1.4204, 'grad_norm': 0.10674221813678741, 'learning_rate': 7.617969698870459e-05, 'epoch': 0.75}
+{'loss': 1.4239, 'grad_norm': 0.10045020282268524, 'learning_rate': 7.603073478023317e-05, 'epoch': 0.75}
+{'loss': 1.4071, 'grad_norm': 0.09143126755952835, 'learning_rate': 7.588189223267397e-05, 'epoch': 0.75}
+{'loss': 1.4156, 'grad_norm': 0.10476310551166534, 'learning_rate': 7.573316944840498e-05, 'epoch': 0.75}
+{'loss': 1.4075, 'grad_norm': 0.1061365157365799, 'learning_rate': 7.558456652972174e-05, 'epoch': 0.75}
+{'loss': 1.4238, 'grad_norm': 0.10846205055713654, 'learning_rate': 7.543608357883771e-05, 'epoch': 0.75}
+{'loss': 1.4041, 'grad_norm': 0.10501891374588013, 'learning_rate': 7.52877206978835e-05, 'epoch': 0.75}
+{'loss': 1.4146, 'grad_norm': 0.09588436782360077, 'learning_rate': 7.513947798890722e-05, 'epoch': 0.75}
+{'loss': 1.4341, 'grad_norm': 0.10625009983778, 'learning_rate': 7.49913555538743e-05, 'epoch': 0.75}
+{'loss': 1.4128, 'grad_norm': 0.1028667539358139, 'learning_rate': 7.48433534946675e-05, 'epoch': 0.75}
+{'loss': 1.4471, 'grad_norm': 0.11313408613204956, 'learning_rate': 7.46954719130869e-05, 'epoch': 0.75}
+{'loss': 1.4353, 'grad_norm': 0.10399424284696579, 'learning_rate': 7.454771091084944e-05, 'epoch': 0.76}
+{'loss': 1.4355, 'grad_norm': 0.10430389642715454, 'learning_rate': 7.440007058958934e-05, 'epoch': 0.76}
+{'loss': 1.4306, 'grad_norm': 0.09919586777687073, 'learning_rate': 7.425255105085757e-05, 'epoch': 0.76}
+{'loss': 1.4329, 'grad_norm': 0.09940008819103241, 'learning_rate': 7.41051523961224e-05, 'epoch': 0.76}
+{'loss': 1.4172, 'grad_norm': 0.09734611958265305, 'learning_rate': 7.395787472676862e-05, 'epoch': 0.76}
+{'loss': 1.4232, 'grad_norm': 0.09233265370130539, 'learning_rate': 7.381071814409785e-05, 'epoch': 0.76}
+{'loss': 1.4086, 'grad_norm': 0.09703987836837769, 'learning_rate': 7.366368274932863e-05, 'epoch': 0.76}
+{'loss': 1.4147, 'grad_norm': 0.09824714809656143, 'learning_rate': 7.351676864359588e-05, 'epoch': 0.76}
+{'loss': 1.4204, 'grad_norm': 0.09918133914470673, 'learning_rate': 7.336997592795139e-05, 'epoch': 0.76}
+{'loss': 1.4212, 'grad_norm': 0.09174446016550064, 'learning_rate': 7.322330470336314e-05, 'epoch': 0.76}
+{'loss': 1.4443, 'grad_norm': 0.09664437919855118, 'learning_rate': 7.307675507071574e-05, 'epoch': 0.76}
+{'loss': 1.4179, 'grad_norm': 0.09560594707727432, 'learning_rate': 7.29303271308101e-05, 'epoch': 0.76}
+{'loss': 1.4224, 'grad_norm': 0.0915076956152916, 'learning_rate': 7.278402098436335e-05, 'epoch': 0.76}
+{'loss': 1.4117, 'grad_norm': 0.09744865447282791, 'learning_rate': 7.263783673200914e-05, 'epoch': 0.76}
+{'loss': 1.444, 'grad_norm': 0.10676094889640808, 'learning_rate': 7.249177447429684e-05, 'epoch': 0.76}
+{'loss': 1.4292, 'grad_norm': 0.10430474579334259, 'learning_rate': 7.234583431169236e-05, 'epoch': 0.76}
+{'loss': 1.4394, 'grad_norm': 0.0991143062710762, 'learning_rate': 7.220001634457735e-05, 'epoch': 0.76}
+{'loss': 1.4256, 'grad_norm': 0.10148894041776657, 'learning_rate': 7.205432067324932e-05, 'epoch': 0.76}
+{'loss': 1.4003, 'grad_norm': 0.11580533534288406, 'learning_rate': 7.190874739792205e-05, 'epoch': 0.76}
+{'loss': 1.4215, 'grad_norm': 0.09727653115987778, 'learning_rate': 7.17632966187248e-05, 'epoch': 0.76}
+{'loss': 1.4185, 'grad_norm': 0.09822850674390793, 'learning_rate': 7.161796843570265e-05, 'epoch': 0.76}
+{'loss': 1.4282, 'grad_norm': 0.10859069973230362, 'learning_rate': 7.14727629488163e-05, 'epoch': 0.76}
+{'loss': 1.43, 'grad_norm': 0.10192707926034927, 'learning_rate': 7.132768025794222e-05, 'epoch': 0.76}
+{'loss': 1.41, 'grad_norm': 0.08495014160871506, 'learning_rate': 7.118272046287244e-05, 'epoch': 0.76}
+{'loss': 1.4076, 'grad_norm': 0.10459456592798233, 'learning_rate': 7.103788366331424e-05, 'epoch': 0.76}
+{'loss': 1.4372, 'grad_norm': 0.10774584114551544, 'learning_rate': 7.089316995889039e-05, 'epoch': 0.76}
+{'loss': 1.4069, 'grad_norm': 0.09901176393032074, 'learning_rate': 7.074857944913896e-05, 'epoch': 0.76}
+{'loss': 1.4175, 'grad_norm': 0.09865158051252365, 'learning_rate': 7.060411223351349e-05, 'epoch': 0.76}
+{'loss': 1.4267, 'grad_norm': 0.09912945330142975, 'learning_rate': 7.045976841138247e-05, 'epoch': 0.76}
+{'loss': 1.4322, 'grad_norm': 0.09768496453762054, 'learning_rate': 7.031554808202956e-05, 'epoch': 0.76}
+{'loss': 1.4197, 'grad_norm': 0.11153716593980789, 'learning_rate': 7.017145134465363e-05, 'epoch': 0.76}
+{'loss': 1.4336, 'grad_norm': 0.09747875481843948, 'learning_rate': 7.002747829836833e-05, 'epoch': 0.76}
+{'loss': 1.4211, 'grad_norm': 0.09365896135568619, 'learning_rate': 6.988362904220244e-05, 'epoch': 0.76}
+{'loss': 1.4094, 'grad_norm': 0.09610603004693985, 'learning_rate': 6.973990367509946e-05, 'epoch': 0.76}
+{'loss': 1.4171, 'grad_norm': 0.09502583742141724, 'learning_rate': 6.959630229591768e-05, 'epoch': 0.76}
+{'loss': 1.4236, 'grad_norm': 0.0985541120171547, 'learning_rate': 6.945282500343014e-05, 'epoch': 0.76}
+{'loss': 1.4095, 'grad_norm': 0.09157419949769974, 'learning_rate': 6.930947189632445e-05, 'epoch': 0.76}
+{'loss': 1.4157, 'grad_norm': 0.09498056024312973, 'learning_rate': 6.916624307320293e-05, 'epoch': 0.76}
+{'loss': 1.4282, 'grad_norm': 0.09948809444904327, 'learning_rate': 6.902313863258247e-05, 'epoch': 0.76}
+{'loss': 1.4195, 'grad_norm': 0.09452129155397415, 'learning_rate': 6.88801586728942e-05, 'epoch': 0.77}
+{'loss': 1.4248, 'grad_norm': 0.10552074760198593, 'learning_rate': 6.873730329248365e-05, 'epoch': 0.77}
+{'loss': 1.4169, 'grad_norm': 0.09184805303812027, 'learning_rate': 6.859457258961086e-05, 'epoch': 0.77}
+{'loss': 1.4176, 'grad_norm': 0.10038664937019348, 'learning_rate': 6.845196666244995e-05, 'epoch': 0.77}
+{'loss': 1.4183, 'grad_norm': 0.09422455728054047, 'learning_rate': 6.830948560908926e-05, 'epoch': 0.77}
+{'loss': 1.4417, 'grad_norm': 0.10537147521972656, 'learning_rate': 6.81671295275311e-05, 'epoch': 0.77}
+{'loss': 1.4095, 'grad_norm': 0.09492109715938568, 'learning_rate': 6.802489851569208e-05, 'epoch': 0.77}
+{'loss': 1.412, 'grad_norm': 0.10319118946790695, 'learning_rate': 6.788279267140274e-05, 'epoch': 0.77}
+{'loss': 1.4317, 'grad_norm': 0.09082906693220139, 'learning_rate': 6.774081209240732e-05, 'epoch': 0.77}
+{'loss': 1.4457, 'grad_norm': 0.10213924944400787, 'learning_rate': 6.759895687636403e-05, 'epoch': 0.77}
+{'loss': 1.4125, 'grad_norm': 0.11692516505718231, 'learning_rate': 6.745722712084488e-05, 'epoch': 0.77}
+{'loss': 1.4081, 'grad_norm': 0.10082363337278366, 'learning_rate': 6.731562292333546e-05, 'epoch': 0.77}
+{'loss': 1.4243, 'grad_norm': 0.09364532679319382, 'learning_rate': 6.71741443812352e-05, 'epoch': 0.77}
+{'loss': 1.4108, 'grad_norm': 0.0921180248260498, 'learning_rate': 6.703279159185687e-05, 'epoch': 0.77}
+{'loss': 1.4202, 'grad_norm': 0.10336825251579285, 'learning_rate': 6.689156465242702e-05, 'epoch': 0.77}
+{'loss': 1.445, 'grad_norm': 0.09814202785491943, 'learning_rate': 6.675046366008539e-05, 'epoch': 0.77}
+{'loss': 1.4178, 'grad_norm': 0.11161291599273682, 'learning_rate': 6.66094887118851e-05, 'epoch': 0.77}
+{'loss': 1.4399, 'grad_norm': 0.09028779715299606, 'learning_rate': 6.64686399047928e-05, 'epoch': 0.77}
+{'loss': 1.4236, 'grad_norm': 0.09366817027330399, 'learning_rate': 6.632791733568813e-05, 'epoch': 0.77}
+{'loss': 1.4138, 'grad_norm': 0.10176081210374832, 'learning_rate': 6.618732110136403e-05, 'epoch': 0.77}
+{'loss': 1.4256, 'grad_norm': 0.09570842981338501, 'learning_rate': 6.604685129852645e-05, 'epoch': 0.77}
+{'loss': 1.4445, 'grad_norm': 0.09734410047531128, 'learning_rate': 6.590650802379448e-05, 'epoch': 0.77}
+{'loss': 1.4391, 'grad_norm': 0.10342652350664139, 'learning_rate': 6.576629137370019e-05, 'epoch': 0.77}
+{'loss': 1.4083, 'grad_norm': 0.09288933873176575, 'learning_rate': 6.562620144468848e-05, 'epoch': 0.77}
+{'loss': 1.417, 'grad_norm': 0.09570736438035965, 'learning_rate': 6.548623833311709e-05, 'epoch': 0.77}
+{'loss': 1.4092, 'grad_norm': 0.09620986878871918, 'learning_rate': 6.53464021352565e-05, 'epoch': 0.77}
+{'loss': 1.4004, 'grad_norm': 0.10671599209308624, 'learning_rate': 6.520669294729004e-05, 'epoch': 0.77}
+{'loss': 1.4216, 'grad_norm': 0.09675253182649612, 'learning_rate': 6.506711086531356e-05, 'epoch': 0.77}
+{'loss': 1.441, 'grad_norm': 0.09690506756305695, 'learning_rate': 6.49276559853354e-05, 'epoch': 0.77}
+{'loss': 1.4142, 'grad_norm': 0.09197622537612915, 'learning_rate': 6.47883284032767e-05, 'epoch': 0.77}
+{'loss': 1.3982, 'grad_norm': 0.0943451076745987, 'learning_rate': 6.464912821497065e-05, 'epoch': 0.77}
+{'loss': 1.4156, 'grad_norm': 0.08732189983129501, 'learning_rate': 6.451005551616326e-05, 'epoch': 0.77}
+{'loss': 1.4305, 'grad_norm': 0.09466369450092316, 'learning_rate': 6.437111040251245e-05, 'epoch': 0.77}
+{'loss': 1.4085, 'grad_norm': 0.10268685966730118, 'learning_rate': 6.42322929695886e-05, 'epoch': 0.77}
+{'loss': 1.4237, 'grad_norm': 0.09859909862279892, 'learning_rate': 6.409360331287417e-05, 'epoch': 0.77}
+{'loss': 1.4188, 'grad_norm': 0.10322876274585724, 'learning_rate': 6.395504152776374e-05, 'epoch': 0.77}
+{'loss': 1.4436, 'grad_norm': 0.09904994070529938, 'learning_rate': 6.38166077095641e-05, 'epoch': 0.77}
+{'loss': 1.3958, 'grad_norm': 0.09560335427522659, 'learning_rate': 6.367830195349373e-05, 'epoch': 0.77}
+{'loss': 1.3819, 'grad_norm': 0.09501656889915466, 'learning_rate': 6.354012435468335e-05, 'epoch': 0.77}
+{'loss': 1.4132, 'grad_norm': 0.09393075853586197, 'learning_rate': 6.340207500817526e-05, 'epoch': 0.78}
+{'loss': 1.4285, 'grad_norm': 0.09592954814434052, 'learning_rate': 6.326415400892362e-05, 'epoch': 0.78}
+{'loss': 1.4381, 'grad_norm': 0.09151724725961685, 'learning_rate': 6.312636145179451e-05, 'epoch': 0.78}
+{'loss': 1.4281, 'grad_norm': 0.08893454074859619, 'learning_rate': 6.298869743156533e-05, 'epoch': 0.78}
+{'loss': 1.4064, 'grad_norm': 0.10795161128044128, 'learning_rate': 6.285116204292529e-05, 'epoch': 0.78}
+{'loss': 1.4297, 'grad_norm': 0.09555717557668686, 'learning_rate': 6.2713755380475e-05, 'epoch': 0.78}
+{'loss': 1.4052, 'grad_norm': 0.08728764951229095, 'learning_rate': 6.257647753872664e-05, 'epoch': 0.78}
+{'loss': 1.4369, 'grad_norm': 0.0944887176156044, 'learning_rate': 6.243932861210383e-05, 'epoch': 0.78}
+{'loss': 1.4308, 'grad_norm': 0.09588731080293655, 'learning_rate': 6.230230869494135e-05, 'epoch': 0.78}
+{'loss': 1.4342, 'grad_norm': 0.1016329675912857, 'learning_rate': 6.21654178814853e-05, 'epoch': 0.78}
+{'loss': 1.4294, 'grad_norm': 0.09802406281232834, 'learning_rate': 6.202865626589296e-05, 'epoch': 0.78}
+{'loss': 1.4181, 'grad_norm': 0.08985941857099533, 'learning_rate': 6.189202394223292e-05, 'epoch': 0.78}
+{'loss': 1.4571, 'grad_norm': 0.09185625612735748, 'learning_rate': 6.175552100448461e-05, 'epoch': 0.78}
+{'loss': 1.4052, 'grad_norm': 0.1012415662407875, 'learning_rate': 6.16191475465385e-05, 'epoch': 0.78}
+{'loss': 1.4202, 'grad_norm': 0.11166034638881683, 'learning_rate': 6.148290366219617e-05, 'epoch': 0.78}
+{'loss': 1.4307, 'grad_norm': 0.10091454535722733, 'learning_rate': 6.134678944516989e-05, 'epoch': 0.78}
+{'loss': 1.3965, 'grad_norm': 0.09899178892374039, 'learning_rate': 6.121080498908288e-05, 'epoch': 0.78}
+{'loss': 1.4385, 'grad_norm': 0.10531947016716003, 'learning_rate': 6.107495038746902e-05, 'epoch': 0.78}
+{'loss': 1.4219, 'grad_norm': 0.11047638207674026, 'learning_rate': 6.093922573377286e-05, 'epoch': 0.78}
+{'loss': 1.425, 'grad_norm': 0.10306212306022644, 'learning_rate': 6.080363112134965e-05, 'epoch': 0.78}
+{'loss': 1.4109, 'grad_norm': 0.0982820987701416, 'learning_rate': 6.066816664346503e-05, 'epoch': 0.78}
+{'loss': 1.4254, 'grad_norm': 0.10688191652297974, 'learning_rate': 6.0532832393295326e-05, 'epoch': 0.78}
+{'loss': 1.4075, 'grad_norm': 0.10884755849838257, 'learning_rate': 6.039762846392729e-05, 'epoch': 0.78}
+{'loss': 1.4252, 'grad_norm': 0.11406394094228745, 'learning_rate': 6.026255494835789e-05, 'epoch': 0.78}
+{'loss': 1.4356, 'grad_norm': 0.09265121072530746, 'learning_rate': 6.012761193949437e-05, 'epoch': 0.78}
+{'loss': 1.4285, 'grad_norm': 0.09794342517852783, 'learning_rate': 5.9992799530154435e-05, 'epoch': 0.78}
+{'loss': 1.4046, 'grad_norm': 0.10367394983768463, 'learning_rate': 5.985811781306577e-05, 'epoch': 0.78}
+{'loss': 1.4103, 'grad_norm': 0.09681354463100433, 'learning_rate': 5.972356688086619e-05, 'epoch': 0.78}
+{'loss': 1.4223, 'grad_norm': 0.09240411967039108, 'learning_rate': 5.95891468261035e-05, 'epoch': 0.78}
+{'loss': 1.4211, 'grad_norm': 0.09806812554597855, 'learning_rate': 5.945485774123569e-05, 'epoch': 0.78}
+{'loss': 1.4064, 'grad_norm': 0.09987503290176392, 'learning_rate': 5.932069971863055e-05, 'epoch': 0.78}
+{'loss': 1.4398, 'grad_norm': 0.10515499860048294, 'learning_rate': 5.918667285056567e-05, 'epoch': 0.78}
+{'loss': 1.431, 'grad_norm': 0.10107393562793732, 'learning_rate': 5.905277722922844e-05, 'epoch': 0.78}
+{'loss': 1.4122, 'grad_norm': 0.09591839462518692, 'learning_rate': 5.8919012946716036e-05, 'epoch': 0.78}
+{'loss': 1.438, 'grad_norm': 0.09880658239126205, 'learning_rate': 5.878538009503517e-05, 'epoch': 0.78}
+{'loss': 1.4078, 'grad_norm': 0.11549094319343567, 'learning_rate': 5.86518787661024e-05, 'epoch': 0.78}
+{'loss': 1.4055, 'grad_norm': 0.10308923572301865, 'learning_rate': 5.85185090517435e-05, 'epoch': 0.78}
+{'loss': 1.4187, 'grad_norm': 0.09348072856664658, 'learning_rate': 5.838527104369401e-05, 'epoch': 0.78}
+{'loss': 1.4354, 'grad_norm': 0.10480109602212906, 'learning_rate': 5.825216483359874e-05, 'epoch': 0.78}
+{'loss': 1.4122, 'grad_norm': 0.09713982045650482, 'learning_rate': 5.81191905130117e-05, 'epoch': 0.79}
+{'loss': 1.4205, 'grad_norm': 0.08697319775819778, 'learning_rate': 5.7986348173396544e-05, 'epoch': 0.79}
+{'loss': 1.3962, 'grad_norm': 0.09358134120702744, 'learning_rate': 5.785363790612583e-05, 'epoch': 0.79}
+{'loss': 1.4294, 'grad_norm': 0.09708882123231888, 'learning_rate': 5.7721059802481406e-05, 'epoch': 0.79}
+{'loss': 1.4311, 'grad_norm': 0.08720443397760391, 'learning_rate': 5.758861395365411e-05, 'epoch': 0.79}
+{'loss': 1.4235, 'grad_norm': 0.09604070335626602, 'learning_rate': 5.745630045074393e-05, 'epoch': 0.79}
+{'loss': 1.4212, 'grad_norm': 0.09312915056943893, 'learning_rate': 5.73241193847599e-05, 'epoch': 0.79}
+{'loss': 1.4216, 'grad_norm': 0.10396673530340195, 'learning_rate': 5.719207084661973e-05, 'epoch': 0.79}
+{'loss': 1.4154, 'grad_norm': 0.09449456632137299, 'learning_rate': 5.7060154927150135e-05, 'epoch': 0.79}
+{'loss': 1.4214, 'grad_norm': 0.09141642600297928, 'learning_rate': 5.6928371717086454e-05, 'epoch': 0.79}
+{'loss': 1.417, 'grad_norm': 0.10201212763786316, 'learning_rate': 5.6796721307073e-05, 'epoch': 0.79}
+{'loss': 1.4216, 'grad_norm': 0.10393856465816498, 'learning_rate': 5.666520378766255e-05, 'epoch': 0.79}
+{'loss': 1.4265, 'grad_norm': 0.08605385571718216, 'learning_rate': 5.653381924931641e-05, 'epoch': 0.79}
+{'loss': 1.4175, 'grad_norm': 0.1084711104631424, 'learning_rate': 5.640256778240474e-05, 'epoch': 0.79}
+{'loss': 1.4181, 'grad_norm': 0.11090825498104095, 'learning_rate': 5.6271449477205723e-05, 'epoch': 0.79}
+{'loss': 1.4108, 'grad_norm': 0.09018784761428833, 'learning_rate': 5.614046442390641e-05, 'epoch': 0.79}
+{'loss': 1.4276, 'grad_norm': 0.1020365059375763, 'learning_rate': 5.600961271260185e-05, 'epoch': 0.79}
+{'loss': 1.4104, 'grad_norm': 0.09266805648803711, 'learning_rate': 5.5878894433295525e-05, 'epoch': 0.79}
+{'loss': 1.4037, 'grad_norm': 0.09520383179187775, 'learning_rate': 5.574830967589911e-05, 'epoch': 0.79}
+{'loss': 1.4157, 'grad_norm': 0.09786637872457504, 'learning_rate': 5.561785853023238e-05, 'epoch': 0.79}
+{'loss': 1.4118, 'grad_norm': 0.09884414076805115, 'learning_rate': 5.5487541086023384e-05, 'epoch': 0.79}
+{'loss': 1.4057, 'grad_norm': 0.09778392314910889, 'learning_rate': 5.5357357432907984e-05, 'epoch': 0.79}
+{'loss': 1.4462, 'grad_norm': 0.09512432664632797, 'learning_rate': 5.5227307660430245e-05, 'epoch': 0.79}
+{'loss': 1.4008, 'grad_norm': 0.0983477309346199, 'learning_rate': 5.509739185804188e-05, 'epoch': 0.79}
+{'loss': 1.4352, 'grad_norm': 0.0944591760635376, 'learning_rate': 5.496761011510279e-05, 'epoch': 0.79}
+{'loss': 1.4007, 'grad_norm': 0.09415771067142487, 'learning_rate': 5.483796252088036e-05, 'epoch': 0.79}
+{'loss': 1.4481, 'grad_norm': 0.1026834100484848, 'learning_rate': 5.470844916454984e-05, 'epoch': 0.79}
+{'loss': 1.4433, 'grad_norm': 0.10290852189064026, 'learning_rate': 5.4579070135194114e-05, 'epoch': 0.79}
+{'loss': 1.4038, 'grad_norm': 0.0933392196893692, 'learning_rate': 5.444982552180364e-05, 'epoch': 0.79}
+{'loss': 1.4444, 'grad_norm': 0.09946738183498383, 'learning_rate': 5.4320715413276514e-05, 'epoch': 0.79}
+{'loss': 1.4601, 'grad_norm': 0.10129350423812866, 'learning_rate': 5.419173989841833e-05, 'epoch': 0.79}
+{'loss': 1.423, 'grad_norm': 0.10949935019016266, 'learning_rate': 5.406289906594203e-05, 'epoch': 0.79}
+{'loss': 1.4227, 'grad_norm': 0.0955180674791336, 'learning_rate': 5.3934193004467865e-05, 'epoch': 0.79}
+{'loss': 1.4298, 'grad_norm': 0.10307330638170242, 'learning_rate': 5.380562180252341e-05, 'epoch': 0.79}
+{'loss': 1.4179, 'grad_norm': 0.09049221128225327, 'learning_rate': 5.3677185548543674e-05, 'epoch': 0.79}
+{'loss': 1.4223, 'grad_norm': 0.09903606027364731, 'learning_rate': 5.354888433087063e-05, 'epoch': 0.79}
+{'loss': 1.4215, 'grad_norm': 0.10715083032846451, 'learning_rate': 5.342071823775332e-05, 'epoch': 0.79}
+{'loss': 1.4237, 'grad_norm': 0.11019466072320938, 'learning_rate': 5.329268735734816e-05, 'epoch': 0.79}
+{'loss': 1.4194, 'grad_norm': 0.09584017843008041, 'learning_rate': 5.316479177771816e-05, 'epoch': 0.79}
+{'loss': 1.391, 'grad_norm': 0.09303351491689682, 'learning_rate': 5.303703158683362e-05, 'epoch': 0.8}
+{'loss': 1.3863, 'grad_norm': 0.09968667477369308, 'learning_rate': 5.2909406872571534e-05, 'epoch': 0.8}
+{'loss': 1.4274, 'grad_norm': 0.09690498560667038, 'learning_rate': 5.278191772271571e-05, 'epoch': 0.8}
+{'loss': 1.4106, 'grad_norm': 0.09144745767116547, 'learning_rate': 5.2654564224956654e-05, 'epoch': 0.8}
+{'loss': 1.387, 'grad_norm': 0.10211111605167389, 'learning_rate': 5.2527346466891805e-05, 'epoch': 0.8}
+{'loss': 1.4256, 'grad_norm': 0.0940181240439415, 'learning_rate': 5.2400264536024975e-05, 'epoch': 0.8}
+{'loss': 1.4432, 'grad_norm': 0.10706564784049988, 'learning_rate': 5.2273318519766775e-05, 'epoch': 0.8}
+{'loss': 1.4284, 'grad_norm': 0.09272199124097824, 'learning_rate': 5.214650850543412e-05, 'epoch': 0.8}
+{'loss': 1.4344, 'grad_norm': 0.09316123276948929, 'learning_rate': 5.2019834580250447e-05, 'epoch': 0.8}
+{'loss': 1.4351, 'grad_norm': 0.09679339826107025, 'learning_rate': 5.189329683134572e-05, 'epoch': 0.8}
+{'loss': 1.4011, 'grad_norm': 0.09492069482803345, 'learning_rate': 5.176689534575607e-05, 'epoch': 0.8}
+{'loss': 1.4189, 'grad_norm': 0.104604572057724, 'learning_rate': 5.164063021042401e-05, 'epoch': 0.8}
+{'loss': 1.403, 'grad_norm': 0.09880180656909943, 'learning_rate': 5.151450151219808e-05, 'epoch': 0.8}
+{'loss': 1.4351, 'grad_norm': 0.09607380628585815, 'learning_rate': 5.138850933783323e-05, 'epoch': 0.8}
+{'loss': 1.427, 'grad_norm': 0.10073007643222809, 'learning_rate': 5.126265377399045e-05, 'epoch': 0.8}
+{'loss': 1.4438, 'grad_norm': 0.09738018363714218, 'learning_rate': 5.113693490723664e-05, 'epoch': 0.8}
+{'loss': 1.4199, 'grad_norm': 0.09470903873443604, 'learning_rate': 5.101135282404473e-05, 'epoch': 0.8}
+{'loss': 1.4287, 'grad_norm': 0.09426350146532059, 'learning_rate': 5.0885907610793594e-05, 'epoch': 0.8}
+{'loss': 1.4054, 'grad_norm': 0.09191087633371353, 'learning_rate': 5.0760599353767865e-05, 'epoch': 0.8}
+{'loss': 1.4061, 'grad_norm': 0.1090322807431221, 'learning_rate': 5.0635428139158226e-05, 'epoch': 0.8}
+{'loss': 1.4472, 'grad_norm': 0.09986602514982224, 'learning_rate': 5.051039405306074e-05, 'epoch': 0.8}
+{'loss': 1.4244, 'grad_norm': 0.09793218970298767, 'learning_rate': 5.038549718147753e-05, 'epoch': 0.8}
+{'loss': 1.4181, 'grad_norm': 0.09845732152462006, 'learning_rate': 5.026073761031596e-05, 'epoch': 0.8}
+{'loss': 1.4457, 'grad_norm': 0.09283173084259033, 'learning_rate': 5.0136115425389315e-05, 'epoch': 0.8}
+{'loss': 1.4054, 'grad_norm': 0.10035932809114456, 'learning_rate': 5.001163071241613e-05, 'epoch': 0.8}
+{'loss': 1.4224, 'grad_norm': 0.09851095080375671, 'learning_rate': 4.988728355702046e-05, 'epoch': 0.8}
+{'loss': 1.4163, 'grad_norm': 0.1069730892777443, 'learning_rate': 4.9763074044731736e-05, 'epoch': 0.8}
+{'loss': 1.4198, 'grad_norm': 0.0928754135966301, 'learning_rate': 4.963900226098467e-05, 'epoch': 0.8}
+{'loss': 1.4011, 'grad_norm': 0.09001562744379044, 'learning_rate': 4.951506829111943e-05, 'epoch': 0.8}
+{'loss': 1.4319, 'grad_norm': 0.09622462838888168, 'learning_rate': 4.939127222038115e-05, 'epoch': 0.8}
+{'loss': 1.4068, 'grad_norm': 0.09952744096517563, 'learning_rate': 4.926761413392028e-05, 'epoch': 0.8}
+{'loss': 1.3977, 'grad_norm': 0.10614805668592453, 'learning_rate': 4.91440941167923e-05, 'epoch': 0.8}
+{'loss': 1.4081, 'grad_norm': 0.10110776871442795, 'learning_rate': 4.902071225395763e-05, 'epoch': 0.8}
+{'loss': 1.4256, 'grad_norm': 0.10290169715881348, 'learning_rate': 4.889746863028188e-05, 'epoch': 0.8}
+{'loss': 1.4245, 'grad_norm': 0.10687707364559174, 'learning_rate': 4.877436333053542e-05, 'epoch': 0.8}
+{'loss': 1.4338, 'grad_norm': 0.08881501853466034, 'learning_rate': 4.865139643939345e-05, 'epoch': 0.8}
+{'loss': 1.4053, 'grad_norm': 0.09133739024400711, 'learning_rate': 4.852856804143602e-05, 'epoch': 0.8}
+{'loss': 1.4004, 'grad_norm': 0.09848978370428085, 'learning_rate': 4.840587822114797e-05, 'epoch': 0.8}
+{'loss': 1.4092, 'grad_norm': 0.09415175765752792, 'learning_rate': 4.8283327062918854e-05, 'epoch': 0.8}
+{'loss': 1.4234, 'grad_norm': 0.10131655633449554, 'learning_rate': 4.816091465104269e-05, 'epoch': 0.81}
+{'loss': 1.4223, 'grad_norm': 0.09028687328100204, 'learning_rate': 4.803864106971814e-05, 'epoch': 0.81}
+{'loss': 1.4132, 'grad_norm': 0.09441032260656357, 'learning_rate': 4.7916506403048374e-05, 'epoch': 0.81}
+{'loss': 1.4042, 'grad_norm': 0.09472054243087769, 'learning_rate': 4.7794510735041096e-05, 'epoch': 0.81}
+{'loss': 1.3954, 'grad_norm': 0.1028067022562027, 'learning_rate': 4.767265414960828e-05, 'epoch': 0.81}
+{'loss': 1.4187, 'grad_norm': 0.0985923781991005, 'learning_rate': 4.755093673056623e-05, 'epoch': 0.81}
+{'loss': 1.416, 'grad_norm': 0.09355560690164566, 'learning_rate': 4.7429358561635715e-05, 'epoch': 0.81}
+{'loss': 1.4148, 'grad_norm': 0.09266280382871628, 'learning_rate': 4.730791972644144e-05, 'epoch': 0.81}
+{'loss': 1.4289, 'grad_norm': 0.09324497729539871, 'learning_rate': 4.7186620308512535e-05, 'epoch': 0.81}
+{'loss': 1.4121, 'grad_norm': 0.0932115837931633, 'learning_rate': 4.706546039128212e-05, 'epoch': 0.81}
+{'loss': 1.3906, 'grad_norm': 0.10127343982458115, 'learning_rate': 4.694444005808732e-05, 'epoch': 0.81}
+{'loss': 1.4289, 'grad_norm': 0.08624538779258728, 'learning_rate': 4.6823559392169286e-05, 'epoch': 0.81}
+{'loss': 1.4051, 'grad_norm': 0.09226170182228088, 'learning_rate': 4.670281847667307e-05, 'epoch': 0.81}
+{'loss': 1.4124, 'grad_norm': 0.09069846570491791, 'learning_rate': 4.6582217394647716e-05, 'epoch': 0.81}
+{'loss': 1.4065, 'grad_norm': 0.09626433253288269, 'learning_rate': 4.646175622904605e-05, 'epoch': 0.81}
+{'loss': 1.4186, 'grad_norm': 0.08690831065177917, 'learning_rate': 4.6341435062724564e-05, 'epoch': 0.81}
+{'loss': 1.4163, 'grad_norm': 0.09984208643436432, 'learning_rate': 4.622125397844351e-05, 'epoch': 0.81}
+{'loss': 1.4197, 'grad_norm': 0.09771246463060379, 'learning_rate': 4.610121305886672e-05, 'epoch': 0.81}
+{'loss': 1.4375, 'grad_norm': 0.10022708773612976, 'learning_rate': 4.5981312386561835e-05, 'epoch': 0.81}
+{'loss': 1.4047, 'grad_norm': 0.09158980846405029, 'learning_rate': 4.586155204399981e-05, 'epoch': 0.81}
+{'loss': 1.416, 'grad_norm': 0.09484227001667023, 'learning_rate': 4.574193211355507e-05, 'epoch': 0.81}
+{'loss': 1.4012, 'grad_norm': 0.09976157546043396, 'learning_rate': 4.5622452677505674e-05, 'epoch': 0.81}
+{'loss': 1.4028, 'grad_norm': 0.10693036764860153, 'learning_rate': 4.550311381803279e-05, 'epoch': 0.81}
+{'loss': 1.408, 'grad_norm': 0.09262658655643463, 'learning_rate': 4.538391561722113e-05, 'epoch': 0.81}
+{'loss': 1.4069, 'grad_norm': 0.10271072387695312, 'learning_rate': 4.5264858157058495e-05, 'epoch': 0.81}
+{'loss': 1.4089, 'grad_norm': 0.09638398140668869, 'learning_rate': 4.5145941519435904e-05, 'epoch': 0.81}
+{'loss': 1.3911, 'grad_norm': 0.10074805468320847, 'learning_rate': 4.5027165786147486e-05, 'epoch': 0.81}
+{'loss': 1.4478, 'grad_norm': 0.1010221615433693, 'learning_rate': 4.490853103889061e-05, 'epoch': 0.81}
+{'loss': 1.3934, 'grad_norm': 0.09624641388654709, 'learning_rate': 4.4790037359265485e-05, 'epoch': 0.81}
+{'loss': 1.4147, 'grad_norm': 0.10479912906885147, 'learning_rate': 4.4671684828775454e-05, 'epoch': 0.81}
+{'loss': 1.405, 'grad_norm': 0.10024233162403107, 'learning_rate': 4.4553473528826636e-05, 'epoch': 0.81}
+{'loss': 1.4124, 'grad_norm': 0.09642784297466278, 'learning_rate': 4.443540354072798e-05, 'epoch': 0.81}
+{'loss': 1.4161, 'grad_norm': 0.08595383912324905, 'learning_rate': 4.431747494569144e-05, 'epoch': 0.81}
+{'loss': 1.4078, 'grad_norm': 0.09272298961877823, 'learning_rate': 4.419968782483158e-05, 'epoch': 0.81}
+{'loss': 1.4316, 'grad_norm': 0.10551921278238297, 'learning_rate': 4.4082042259165625e-05, 'epoch': 0.81}
+{'loss': 1.4212, 'grad_norm': 0.10123398154973984, 'learning_rate': 4.396453832961342e-05, 'epoch': 0.81}
+{'loss': 1.4151, 'grad_norm': 0.10130570828914642, 'learning_rate': 4.3847176116997514e-05, 'epoch': 0.81}
+{'loss': 1.4205, 'grad_norm': 0.0971590206027031, 'learning_rate': 4.3729955702042936e-05, 'epoch': 0.81}
+{'loss': 1.4079, 'grad_norm': 0.10653077811002731, 'learning_rate': 4.361287716537715e-05, 'epoch': 0.81}
+{'loss': 1.4144, 'grad_norm': 0.09833154082298279, 'learning_rate': 4.3495940587530005e-05, 'epoch': 0.82}
+{'loss': 1.4129, 'grad_norm': 0.09798702597618103, 'learning_rate': 4.3379146048933756e-05, 'epoch': 0.82}
+{'loss': 1.4147, 'grad_norm': 0.09525445848703384, 'learning_rate': 4.326249362992288e-05, 'epoch': 0.82}
+{'loss': 1.4106, 'grad_norm': 0.10158972442150116, 'learning_rate': 4.314598341073428e-05, 'epoch': 0.82}
+{'loss': 1.4064, 'grad_norm': 0.10063102841377258, 'learning_rate': 4.30296154715068e-05, 'epoch': 0.82}
+{'loss': 1.4066, 'grad_norm': 0.10199185460805893, 'learning_rate': 4.291338989228169e-05, 'epoch': 0.82}
+{'loss': 1.4176, 'grad_norm': 0.09136290848255157, 'learning_rate': 4.279730675300203e-05, 'epoch': 0.82}
+{'loss': 1.4361, 'grad_norm': 0.1002395823597908, 'learning_rate': 4.268136613351314e-05, 'epoch': 0.82}
+{'loss': 1.4125, 'grad_norm': 0.10100280493497849, 'learning_rate': 4.2565568113562185e-05, 'epoch': 0.82}
+{'loss': 1.3947, 'grad_norm': 0.10689442604780197, 'learning_rate': 4.244991277279822e-05, 'epoch': 0.82}
+{'loss': 1.4196, 'grad_norm': 0.1080554947257042, 'learning_rate': 4.233440019077228e-05, 'epoch': 0.82}
+{'loss': 1.4307, 'grad_norm': 0.09552686661481857, 'learning_rate': 4.2219030446937035e-05, 'epoch': 0.82}
+{'loss': 1.4001, 'grad_norm': 0.09892531484365463, 'learning_rate': 4.210380362064711e-05, 'epoch': 0.82}
+{'loss': 1.4354, 'grad_norm': 0.10756604373455048, 'learning_rate': 4.1988719791158675e-05, 'epoch': 0.82}
+{'loss': 1.4108, 'grad_norm': 0.09501976519823074, 'learning_rate': 4.187377903762968e-05, 'epoch': 0.82}
+{'loss': 1.4192, 'grad_norm': 0.10803890973329544, 'learning_rate': 4.175898143911952e-05, 'epoch': 0.82}
+{'loss': 1.413, 'grad_norm': 0.0980960875749588, 'learning_rate': 4.164432707458915e-05, 'epoch': 0.82}
+{'loss': 1.4424, 'grad_norm': 0.0877240002155304, 'learning_rate': 4.1529816022901095e-05, 'epoch': 0.82}
+{'loss': 1.4182, 'grad_norm': 0.1009925827383995, 'learning_rate': 4.1415448362819266e-05, 'epoch': 0.82}
+{'loss': 1.4242, 'grad_norm': 0.09253551810979843, 'learning_rate': 4.130122417300888e-05, 'epoch': 0.82}
+{'loss': 1.4351, 'grad_norm': 0.10327240079641342, 'learning_rate': 4.118714353203651e-05, 'epoch': 0.82}
+{'loss': 1.4225, 'grad_norm': 0.10004393011331558, 'learning_rate': 4.107320651836999e-05, 'epoch': 0.82}
+{'loss': 1.4122, 'grad_norm': 0.09853130578994751, 'learning_rate': 4.0959413210378496e-05, 'epoch': 0.82}
+{'loss': 1.3699, 'grad_norm': 0.09810617566108704, 'learning_rate': 4.0845763686332135e-05, 'epoch': 0.82}
+{'loss': 1.3976, 'grad_norm': 0.09929962456226349, 'learning_rate': 4.073225802440228e-05, 'epoch': 0.82}
+{'loss': 1.3966, 'grad_norm': 0.09047224372625351, 'learning_rate': 4.061889630266116e-05, 'epoch': 0.82}
+{'loss': 1.4331, 'grad_norm': 0.10248661786317825, 'learning_rate': 4.05056785990823e-05, 'epoch': 0.82}
+{'loss': 1.4361, 'grad_norm': 0.09944897145032883, 'learning_rate': 4.0392604991539907e-05, 'epoch': 0.82}
+{'loss': 1.4119, 'grad_norm': 0.1070801168680191, 'learning_rate': 4.0279675557809094e-05, 'epoch': 0.82}
+{'loss': 1.4052, 'grad_norm': 0.09430260211229324, 'learning_rate': 4.016689037556601e-05, 'epoch': 0.82}
+{'loss': 1.4081, 'grad_norm': 0.09967727214097977, 'learning_rate': 4.0054249522387344e-05, 'epoch': 0.82}
+{'loss': 1.4038, 'grad_norm': 0.10964445769786835, 'learning_rate': 3.994175307575071e-05, 'epoch': 0.82}
+{'loss': 1.4012, 'grad_norm': 0.09875117987394333, 'learning_rate': 3.982940111303426e-05, 'epoch': 0.82}
+{'loss': 1.4274, 'grad_norm': 0.09334953874349594, 'learning_rate': 3.9717193711516804e-05, 'epoch': 0.82}
+{'loss': 1.4282, 'grad_norm': 0.08926695585250854, 'learning_rate': 3.96051309483777e-05, 'epoch': 0.82}
+{'loss': 1.398, 'grad_norm': 0.09173005074262619, 'learning_rate': 3.94932129006968e-05, 'epoch': 0.82}
+{'loss': 1.4469, 'grad_norm': 0.1048094630241394, 'learning_rate': 3.938143964545452e-05, 'epoch': 0.82}
+{'loss': 1.3941, 'grad_norm': 0.09722083061933517, 'learning_rate': 3.9269811259531666e-05, 'epoch': 0.82}
+{'loss': 1.425, 'grad_norm': 0.0956379771232605, 'learning_rate': 3.915832781970932e-05, 'epoch': 0.82}
+{'loss': 1.402, 'grad_norm': 0.09312529861927032, 'learning_rate': 3.90469894026689e-05, 'epoch': 0.83}
+{'loss': 1.3918, 'grad_norm': 0.09296659380197525, 'learning_rate': 3.893579608499198e-05, 'epoch': 0.83}
+{'loss': 1.4056, 'grad_norm': 0.08771157264709473, 'learning_rate': 3.882474794316057e-05, 'epoch': 0.83}
+{'loss': 1.426, 'grad_norm': 0.10090230405330658, 'learning_rate': 3.871384505355663e-05, 'epoch': 0.83}
+{'loss': 1.4085, 'grad_norm': 0.09500061720609665, 'learning_rate': 3.8603087492462165e-05, 'epoch': 0.83}
+{'loss': 1.4241, 'grad_norm': 0.09147761762142181, 'learning_rate': 3.849247533605943e-05, 'epoch': 0.83}
+{'loss': 1.4351, 'grad_norm': 0.09339822828769684, 'learning_rate': 3.838200866043054e-05, 'epoch': 0.83}
+{'loss': 1.4307, 'grad_norm': 0.09826494008302689, 'learning_rate': 3.827168754155755e-05, 'epoch': 0.83}
+{'loss': 1.3884, 'grad_norm': 0.0926610603928566, 'learning_rate': 3.816151205532237e-05, 'epoch': 0.83}
+{'loss': 1.4235, 'grad_norm': 0.09241466224193573, 'learning_rate': 3.8051482277506795e-05, 'epoch': 0.83}
+{'loss': 1.4402, 'grad_norm': 0.0935078114271164, 'learning_rate': 3.794159828379229e-05, 'epoch': 0.83}
+{'loss': 1.4217, 'grad_norm': 0.09832823276519775, 'learning_rate': 3.783186014976028e-05, 'epoch': 0.83}
+{'loss': 1.4273, 'grad_norm': 0.09197588264942169, 'learning_rate': 3.772226795089159e-05, 'epoch': 0.83}
+{'loss': 1.4054, 'grad_norm': 0.09108513593673706, 'learning_rate': 3.761282176256689e-05, 'epoch': 0.83}
+{'loss': 1.4259, 'grad_norm': 0.10111340135335922, 'learning_rate': 3.750352166006626e-05, 'epoch': 0.83}
+{'loss': 1.4204, 'grad_norm': 0.09092684090137482, 'learning_rate': 3.73943677185693e-05, 'epoch': 0.83}
+{'loss': 1.416, 'grad_norm': 0.09109493345022202, 'learning_rate': 3.72853600131553e-05, 'epoch': 0.83}
+{'loss': 1.406, 'grad_norm': 0.09871243685483932, 'learning_rate': 3.717649861880268e-05, 'epoch': 0.83}
+{'loss': 1.399, 'grad_norm': 0.08936406672000885, 'learning_rate': 3.706778361038934e-05, 'epoch': 0.83}
+{'loss': 1.4215, 'grad_norm': 0.09847932308912277, 'learning_rate': 3.695921506269251e-05, 'epoch': 0.83}
+{'loss': 1.4171, 'grad_norm': 0.09354967623949051, 'learning_rate': 3.685079305038866e-05, 'epoch': 0.83}
+{'loss': 1.4225, 'grad_norm': 0.10098148882389069, 'learning_rate': 3.674251764805353e-05, 'epoch': 0.83}
+{'loss': 1.4235, 'grad_norm': 0.09204014390707016, 'learning_rate': 3.6634388930161936e-05, 'epoch': 0.83}
+{'loss': 1.4096, 'grad_norm': 0.097776859998703, 'learning_rate': 3.6526406971087807e-05, 'epoch': 0.83}
+{'loss': 1.4111, 'grad_norm': 0.0965048149228096, 'learning_rate': 3.641857184510408e-05, 'epoch': 0.83}
+{'loss': 1.3978, 'grad_norm': 0.09303688257932663, 'learning_rate': 3.631088362638291e-05, 'epoch': 0.83}
+{'loss': 1.4042, 'grad_norm': 0.08926817029714584, 'learning_rate': 3.620334238899514e-05, 'epoch': 0.83}
+{'loss': 1.3923, 'grad_norm': 0.09474913030862808, 'learning_rate': 3.6095948206910646e-05, 'epoch': 0.83}
+{'loss': 1.4234, 'grad_norm': 0.10413503646850586, 'learning_rate': 3.598870115399821e-05, 'epoch': 0.83}
+{'loss': 1.4146, 'grad_norm': 0.09740271419286728, 'learning_rate': 3.588160130402523e-05, 'epoch': 0.83}
+{'loss': 1.4163, 'grad_norm': 0.09750013798475266, 'learning_rate': 3.577464873065814e-05, 'epoch': 0.83}
+{'loss': 1.4163, 'grad_norm': 0.08865665644407272, 'learning_rate': 3.566784350746177e-05, 'epoch': 0.83}
+{'loss': 1.3969, 'grad_norm': 0.09577018767595291, 'learning_rate': 3.556118570789976e-05, 'epoch': 0.83}
+{'loss': 1.4087, 'grad_norm': 0.10195653885602951, 'learning_rate': 3.545467540533434e-05, 'epoch': 0.83}
+{'loss': 1.4207, 'grad_norm': 0.09592710435390472, 'learning_rate': 3.5348312673026184e-05, 'epoch': 0.83}
+{'loss': 1.4189, 'grad_norm': 0.10170477628707886, 'learning_rate': 3.524209758413466e-05, 'epoch': 0.83}
+{'loss': 1.4201, 'grad_norm': 0.09370191395282745, 'learning_rate': 3.513603021171738e-05, 'epoch': 0.83}
+{'loss': 1.4172, 'grad_norm': 0.09858379513025284, 'learning_rate': 3.5030110628730516e-05, 'epoch': 0.83}
+{'loss': 1.425, 'grad_norm': 0.09142391383647919, 'learning_rate': 3.4924338908028485e-05, 'epoch': 0.83}
+{'loss': 1.4024, 'grad_norm': 0.09758678078651428, 'learning_rate': 3.481871512236395e-05, 'epoch': 0.84}
+{'loss': 1.4151, 'grad_norm': 0.09369827061891556, 'learning_rate': 3.471323934438806e-05, 'epoch': 0.84}
+{'loss': 1.4387, 'grad_norm': 0.09383247792720795, 'learning_rate': 3.4607911646649836e-05, 'epoch': 0.84}
+{'loss': 1.423, 'grad_norm': 0.0944049060344696, 'learning_rate': 3.4502732101596715e-05, 'epoch': 0.84}
+{'loss': 1.4379, 'grad_norm': 0.08863582462072372, 'learning_rate': 3.4397700781574e-05, 'epoch': 0.84}
+{'loss': 1.4151, 'grad_norm': 0.09548911452293396, 'learning_rate': 3.429281775882523e-05, 'epoch': 0.84}
+{'loss': 1.4023, 'grad_norm': 0.08986306190490723, 'learning_rate': 3.4188083105491956e-05, 'epoch': 0.84}
+{'loss': 1.4217, 'grad_norm': 0.09298283606767654, 'learning_rate': 3.408349689361348e-05, 'epoch': 0.84}
+{'loss': 1.4629, 'grad_norm': 0.0935087725520134, 'learning_rate': 3.39790591951272e-05, 'epoch': 0.84}
+{'loss': 1.4032, 'grad_norm': 0.09896384924650192, 'learning_rate': 3.387477008186812e-05, 'epoch': 0.84}
+{'loss': 1.4313, 'grad_norm': 0.09822253882884979, 'learning_rate': 3.37706296255694e-05, 'epoch': 0.84}
+{'loss': 1.4162, 'grad_norm': 0.09077002853155136, 'learning_rate': 3.3666637897861675e-05, 'epoch': 0.84}
+{'loss': 1.3907, 'grad_norm': 0.08773452788591385, 'learning_rate': 3.356279497027326e-05, 'epoch': 0.84}
+{'loss': 1.4447, 'grad_norm': 0.0942564308643341, 'learning_rate': 3.345910091423035e-05, 'epoch': 0.84}
+{'loss': 1.3945, 'grad_norm': 0.10012613981962204, 'learning_rate': 3.335555580105651e-05, 'epoch': 0.84}
+{'loss': 1.4308, 'grad_norm': 0.10790205746889114, 'learning_rate': 3.325215970197304e-05, 'epoch': 0.84}
+{'loss': 1.4266, 'grad_norm': 0.08662021160125732, 'learning_rate': 3.3148912688098636e-05, 'epoch': 0.84}
+{'loss': 1.4294, 'grad_norm': 0.0925603061914444, 'learning_rate': 3.3045814830449465e-05, 'epoch': 0.84}
+{'loss': 1.4189, 'grad_norm': 0.09538328647613525, 'learning_rate': 3.2942866199939084e-05, 'epoch': 0.84}
+{'loss': 1.4202, 'grad_norm': 0.10126002132892609, 'learning_rate': 3.284006686737842e-05, 'epoch': 0.84}
+{'loss': 1.4013, 'grad_norm': 0.10209870338439941, 'learning_rate': 3.273741690347573e-05, 'epoch': 0.84}
+{'loss': 1.3961, 'grad_norm': 0.09429876506328583, 'learning_rate': 3.2634916378836616e-05, 'epoch': 0.84}
+{'loss': 1.4119, 'grad_norm': 0.107162706553936, 'learning_rate': 3.2532565363963707e-05, 'epoch': 0.84}
+{'loss': 1.429, 'grad_norm': 0.09250137954950333, 'learning_rate': 3.2430363929256854e-05, 'epoch': 0.84}
+{'loss': 1.4422, 'grad_norm': 0.0955679640173912, 'learning_rate': 3.2328312145013165e-05, 'epoch': 0.84}
+{'loss': 1.4571, 'grad_norm': 0.08850327134132385, 'learning_rate': 3.2226410081426654e-05, 'epoch': 0.84}
+{'loss': 1.4287, 'grad_norm': 0.09674003720283508, 'learning_rate': 3.212465780858836e-05, 'epoch': 0.84}
+{'loss': 1.4171, 'grad_norm': 0.1063556969165802, 'learning_rate': 3.202305539648631e-05, 'epoch': 0.84}
+{'loss': 1.4048, 'grad_norm': 0.11163773387670517, 'learning_rate': 3.192160291500557e-05, 'epoch': 0.84}
+{'loss': 1.4072, 'grad_norm': 0.09512118995189667, 'learning_rate': 3.182030043392794e-05, 'epoch': 0.84}
+{'loss': 1.4008, 'grad_norm': 0.09569301456212997, 'learning_rate': 3.1719148022932134e-05, 'epoch': 0.84}
+{'loss': 1.4343, 'grad_norm': 0.09730974584817886, 'learning_rate': 3.1618145751593555e-05, 'epoch': 0.84}
+{'loss': 1.4136, 'grad_norm': 0.09722714871168137, 'learning_rate': 3.151729368938441e-05, 'epoch': 0.84}
+{'loss': 1.4125, 'grad_norm': 0.09057486802339554, 'learning_rate': 3.1416591905673474e-05, 'epoch': 0.84}
+{'loss': 1.4029, 'grad_norm': 0.09060506522655487, 'learning_rate': 3.131604046972636e-05, 'epoch': 0.84}
+{'loss': 1.4237, 'grad_norm': 0.09514462947845459, 'learning_rate': 3.1215639450705045e-05, 'epoch': 0.84}
+{'loss': 1.4201, 'grad_norm': 0.09390899538993835, 'learning_rate': 3.111538891766824e-05, 'epoch': 0.84}
+{'loss': 1.4127, 'grad_norm': 0.09708072245121002, 'learning_rate': 3.1015288939571034e-05, 'epoch': 0.84}
+{'loss': 1.4192, 'grad_norm': 0.10045814514160156, 'learning_rate': 3.0915339585264935e-05, 'epoch': 0.84}
+{'loss': 1.3924, 'grad_norm': 0.09853173792362213, 'learning_rate': 3.081554092349798e-05, 'epoch': 0.85}
+{'loss': 1.4212, 'grad_norm': 0.08915887027978897, 'learning_rate': 3.071589302291441e-05, 'epoch': 0.85}
+{'loss': 1.4307, 'grad_norm': 0.09019803255796432, 'learning_rate': 3.061639595205484e-05, 'epoch': 0.85}
+{'loss': 1.4138, 'grad_norm': 0.08881005644798279, 'learning_rate': 3.05170497793561e-05, 'epoch': 0.85}
+{'loss': 1.4169, 'grad_norm': 0.09052933752536774, 'learning_rate': 3.041785457315127e-05, 'epoch': 0.85}
+{'loss': 1.4144, 'grad_norm': 0.08989585936069489, 'learning_rate': 3.0318810401669674e-05, 'epoch': 0.85}
+{'loss': 1.3774, 'grad_norm': 0.0907754972577095, 'learning_rate': 3.0219917333036555e-05, 'epoch': 0.85}
+{'loss': 1.4274, 'grad_norm': 0.09652441740036011, 'learning_rate': 3.0121175435273373e-05, 'epoch': 0.85}
+{'loss': 1.4216, 'grad_norm': 0.09092384576797485, 'learning_rate': 3.0022584776297462e-05, 'epoch': 0.85}
+{'loss': 1.4123, 'grad_norm': 0.09380320459604263, 'learning_rate': 2.9924145423922382e-05, 'epoch': 0.85}
+{'loss': 1.418, 'grad_norm': 0.08918499201536179, 'learning_rate': 2.982585744585736e-05, 'epoch': 0.85}
+{'loss': 1.4162, 'grad_norm': 0.09526780247688293, 'learning_rate': 2.97277209097076e-05, 'epoch': 0.85}
+{'loss': 1.4301, 'grad_norm': 0.09693387895822525, 'learning_rate': 2.9629735882974213e-05, 'epoch': 0.85}
+{'loss': 1.387, 'grad_norm': 0.09860873967409134, 'learning_rate': 2.9531902433053953e-05, 'epoch': 0.85}
+{'loss': 1.4166, 'grad_norm': 0.09481336921453476, 'learning_rate': 2.9434220627239493e-05, 'epoch': 0.85}
+{'loss': 1.4082, 'grad_norm': 0.09497994929552078, 'learning_rate': 2.9336690532719064e-05, 'epoch': 0.85}
+{'loss': 1.4275, 'grad_norm': 0.09029926359653473, 'learning_rate': 2.9239312216576552e-05, 'epoch': 0.85}
+{'loss': 1.4182, 'grad_norm': 0.09211412817239761, 'learning_rate': 2.9142085745791523e-05, 'epoch': 0.85}
+{'loss': 1.389, 'grad_norm': 0.08902589976787567, 'learning_rate': 2.9045011187238958e-05, 'epoch': 0.85}
+{'loss': 1.4147, 'grad_norm': 0.09695225208997726, 'learning_rate': 2.8948088607689577e-05, 'epoch': 0.85}
+{'loss': 1.406, 'grad_norm': 0.09830118715763092, 'learning_rate': 2.8851318073809335e-05, 'epoch': 0.85}
+{'loss': 1.4017, 'grad_norm': 0.10015670955181122, 'learning_rate': 2.8754699652159792e-05, 'epoch': 0.85}
+{'loss': 1.4154, 'grad_norm': 0.0959719568490982, 'learning_rate': 2.8658233409197737e-05, 'epoch': 0.85}
+{'loss': 1.3963, 'grad_norm': 0.09438154101371765, 'learning_rate': 2.856191941127531e-05, 'epoch': 0.85}
+{'loss': 1.4153, 'grad_norm': 0.09309637546539307, 'learning_rate': 2.846575772464005e-05, 'epoch': 0.85}
+{'loss': 1.4248, 'grad_norm': 0.1006656363606453, 'learning_rate': 2.8369748415434605e-05, 'epoch': 0.85}
+{'loss': 1.3976, 'grad_norm': 0.0923035740852356, 'learning_rate': 2.827389154969684e-05, 'epoch': 0.85}
+{'loss': 1.4307, 'grad_norm': 0.09156569093465805, 'learning_rate': 2.8178187193359738e-05, 'epoch': 0.85}
+{'loss': 1.4218, 'grad_norm': 0.09903271496295929, 'learning_rate': 2.8082635412251505e-05, 'epoch': 0.85}
+{'loss': 1.402, 'grad_norm': 0.09751532226800919, 'learning_rate': 2.7987236272095318e-05, 'epoch': 0.85}
+{'loss': 1.4032, 'grad_norm': 0.09050653129816055, 'learning_rate': 2.7891989838509353e-05, 'epoch': 0.85}
+{'loss': 1.4122, 'grad_norm': 0.09400708228349686, 'learning_rate': 2.779689617700676e-05, 'epoch': 0.85}
+{'loss': 1.4181, 'grad_norm': 0.08529485762119293, 'learning_rate': 2.7701955352995523e-05, 'epoch': 0.85}
+{'loss': 1.4044, 'grad_norm': 0.09292060136795044, 'learning_rate': 2.760716743177874e-05, 'epoch': 0.85}
+{'loss': 1.3974, 'grad_norm': 0.09729383140802383, 'learning_rate': 2.751253247855412e-05, 'epoch': 0.85}
+{'loss': 1.4162, 'grad_norm': 0.09627337008714676, 'learning_rate': 2.7418050558414176e-05, 'epoch': 0.85}
+{'loss': 1.417, 'grad_norm': 0.10032838582992554, 'learning_rate': 2.7323721736346285e-05, 'epoch': 0.85}
+{'loss': 1.4358, 'grad_norm': 0.09647336602210999, 'learning_rate': 2.7229546077232352e-05, 'epoch': 0.85}
+{'loss': 1.4116, 'grad_norm': 0.09419071674346924, 'learning_rate': 2.713552364584915e-05, 'epoch': 0.85}
+{'loss': 1.3841, 'grad_norm': 0.09647522866725922, 'learning_rate': 2.7041654506867826e-05, 'epoch': 0.86}
+{'loss': 1.4068, 'grad_norm': 0.10222876816987991, 'learning_rate': 2.694793872485424e-05, 'epoch': 0.86}
+{'loss': 1.4083, 'grad_norm': 0.1011204794049263, 'learning_rate': 2.6854376364268683e-05, 'epoch': 0.86}
+{'loss': 1.4223, 'grad_norm': 0.0967082530260086, 'learning_rate': 2.6760967489465937e-05, 'epoch': 0.86}
+{'loss': 1.4048, 'grad_norm': 0.09285920858383179, 'learning_rate': 2.666771216469527e-05, 'epoch': 0.86}
+{'loss': 1.4129, 'grad_norm': 0.09686918556690216, 'learning_rate': 2.657461045410034e-05, 'epoch': 0.86}
+{'loss': 1.425, 'grad_norm': 0.09521398693323135, 'learning_rate': 2.6481662421719067e-05, 'epoch': 0.86}
+{'loss': 1.4182, 'grad_norm': 0.09209222346544266, 'learning_rate': 2.6388868131483613e-05, 'epoch': 0.86}
+{'loss': 1.427, 'grad_norm': 0.09667697548866272, 'learning_rate': 2.6296227647220617e-05, 'epoch': 0.86}
+{'loss': 1.4267, 'grad_norm': 0.09986140578985214, 'learning_rate': 2.6203741032650718e-05, 'epoch': 0.86}
+{'loss': 1.4176, 'grad_norm': 0.09444572031497955, 'learning_rate': 2.6111408351388783e-05, 'epoch': 0.86}
+{'loss': 1.4245, 'grad_norm': 0.10297983884811401, 'learning_rate': 2.6019229666943784e-05, 'epoch': 0.86}
+{'loss': 1.428, 'grad_norm': 0.09373734891414642, 'learning_rate': 2.5927205042718784e-05, 'epoch': 0.86}
+{'loss': 1.4025, 'grad_norm': 0.10069470852613449, 'learning_rate': 2.583533454201101e-05, 'epoch': 0.86}
+{'loss': 1.4232, 'grad_norm': 0.0974574163556099, 'learning_rate': 2.5743618228011438e-05, 'epoch': 0.86}
+{'loss': 1.4086, 'grad_norm': 0.09929732233285904, 'learning_rate': 2.565205616380517e-05, 'epoch': 0.86}
+{'loss': 1.4473, 'grad_norm': 0.09901504963636398, 'learning_rate': 2.55606484123711e-05, 'epoch': 0.86}
+{'loss': 1.4213, 'grad_norm': 0.09124937653541565, 'learning_rate': 2.5469395036581994e-05, 'epoch': 0.86}
+{'loss': 1.4211, 'grad_norm': 0.09308291226625443, 'learning_rate': 2.5378296099204556e-05, 'epoch': 0.86}
+{'loss': 1.4025, 'grad_norm': 0.09540628641843796, 'learning_rate': 2.5287351662899085e-05, 'epoch': 0.86}
+{'loss': 1.4201, 'grad_norm': 0.09006550163030624, 'learning_rate': 2.5196561790219813e-05, 'epoch': 0.86}
+{'loss': 1.396, 'grad_norm': 0.08974703401327133, 'learning_rate': 2.510592654361446e-05, 'epoch': 0.86}
+{'loss': 1.4228, 'grad_norm': 0.09298104792833328, 'learning_rate': 2.501544598542449e-05, 'epoch': 0.86}
+{'loss': 1.3977, 'grad_norm': 0.0994742140173912, 'learning_rate': 2.492512017788498e-05, 'epoch': 0.86}
+{'loss': 1.3987, 'grad_norm': 0.09544627368450165, 'learning_rate': 2.4834949183124538e-05, 'epoch': 0.86}
+{'loss': 1.416, 'grad_norm': 0.09805137664079666, 'learning_rate': 2.4744933063165274e-05, 'epoch': 0.86}
+{'loss': 1.418, 'grad_norm': 0.0934249609708786, 'learning_rate': 2.4655071879922746e-05, 'epoch': 0.86}
+{'loss': 1.4151, 'grad_norm': 0.09354972839355469, 'learning_rate': 2.4565365695206037e-05, 'epoch': 0.86}
+{'loss': 1.4134, 'grad_norm': 0.10422130674123764, 'learning_rate': 2.4475814570717568e-05, 'epoch': 0.86}
+{'loss': 1.4245, 'grad_norm': 0.09251417964696884, 'learning_rate': 2.43864185680531e-05, 'epoch': 0.86}
+{'loss': 1.4165, 'grad_norm': 0.09428118914365768, 'learning_rate': 2.429717774870166e-05, 'epoch': 0.86}
+{'loss': 1.3999, 'grad_norm': 0.09425728023052216, 'learning_rate': 2.4208092174045543e-05, 'epoch': 0.86}
+{'loss': 1.4393, 'grad_norm': 0.1000671461224556, 'learning_rate': 2.41191619053604e-05, 'epoch': 0.86}
+{'loss': 1.4186, 'grad_norm': 0.09788668900728226, 'learning_rate': 2.403038700381488e-05, 'epoch': 0.86}
+{'loss': 1.3862, 'grad_norm': 0.08583080023527145, 'learning_rate': 2.3941767530470783e-05, 'epoch': 0.86}
+{'loss': 1.4082, 'grad_norm': 0.09217829257249832, 'learning_rate': 2.3853303546283178e-05, 'epoch': 0.86}
+{'loss': 1.4162, 'grad_norm': 0.09383989870548248, 'learning_rate': 2.3764995112099925e-05, 'epoch': 0.86}
+{'loss': 1.4008, 'grad_norm': 0.09250086545944214, 'learning_rate': 2.3676842288662183e-05, 'epoch': 0.86}
+{'loss': 1.4205, 'grad_norm': 0.09116535633802414, 'learning_rate': 2.358884513660381e-05, 'epoch': 0.86}
+{'loss': 1.402, 'grad_norm': 0.08619470149278641, 'learning_rate': 2.3501003716451752e-05, 'epoch': 0.87}
+{'loss': 1.4041, 'grad_norm': 0.08785562962293625, 'learning_rate': 2.3413318088625736e-05, 'epoch': 0.87}
+{'loss': 1.433, 'grad_norm': 0.09239117801189423, 'learning_rate': 2.33257883134384e-05, 'epoch': 0.87}
+{'loss': 1.4251, 'grad_norm': 0.10145287960767746, 'learning_rate': 2.32384144510952e-05, 'epoch': 0.87}
+{'loss': 1.4153, 'grad_norm': 0.09239033609628677, 'learning_rate': 2.315119656169426e-05, 'epoch': 0.87}
+{'loss': 1.4015, 'grad_norm': 0.0937437191605568, 'learning_rate': 2.306413470522653e-05, 'epoch': 0.87}
+{'loss': 1.409, 'grad_norm': 0.09216003865003586, 'learning_rate': 2.297722894157553e-05, 'epoch': 0.87}
+{'loss': 1.4029, 'grad_norm': 0.09688971936702728, 'learning_rate': 2.2890479330517548e-05, 'epoch': 0.87}
+{'loss': 1.4109, 'grad_norm': 0.08845961838960648, 'learning_rate': 2.2803885931721337e-05, 'epoch': 0.87}
+{'loss': 1.4213, 'grad_norm': 0.08814266324043274, 'learning_rate': 2.271744880474824e-05, 'epoch': 0.87}
+{'loss': 1.4147, 'grad_norm': 0.09456045925617218, 'learning_rate': 2.2631168009052126e-05, 'epoch': 0.87}
+{'loss': 1.3965, 'grad_norm': 0.08665276318788528, 'learning_rate': 2.25450436039793e-05, 'epoch': 0.87}
+{'loss': 1.4017, 'grad_norm': 0.09471482038497925, 'learning_rate': 2.245907564876859e-05, 'epoch': 0.87}
+{'loss': 1.4175, 'grad_norm': 0.0856010690331459, 'learning_rate': 2.2373264202551175e-05, 'epoch': 0.87}
+{'loss': 1.4284, 'grad_norm': 0.08475808799266815, 'learning_rate': 2.2287609324350506e-05, 'epoch': 0.87}
+{'loss': 1.4106, 'grad_norm': 0.08953133225440979, 'learning_rate': 2.2202111073082398e-05, 'epoch': 0.87}
+{'loss': 1.4152, 'grad_norm': 0.09072662144899368, 'learning_rate': 2.2116769507554922e-05, 'epoch': 0.87}
+{'loss': 1.4223, 'grad_norm': 0.09972056746482849, 'learning_rate': 2.203158468646843e-05, 'epoch': 0.87}
+{'loss': 1.4146, 'grad_norm': 0.09358246624469757, 'learning_rate': 2.1946556668415414e-05, 'epoch': 0.87}
+{'loss': 1.4113, 'grad_norm': 0.0886627584695816, 'learning_rate': 2.1861685511880448e-05, 'epoch': 0.87}
+{'loss': 1.4091, 'grad_norm': 0.09137621521949768, 'learning_rate': 2.1776971275240394e-05, 'epoch': 0.87}
+{'loss': 1.4102, 'grad_norm': 0.09628685563802719, 'learning_rate': 2.1692414016763918e-05, 'epoch': 0.87}
+{'loss': 1.3948, 'grad_norm': 0.10034148395061493, 'learning_rate': 2.1608013794612026e-05, 'epoch': 0.87}
+{'loss': 1.4145, 'grad_norm': 0.09126400202512741, 'learning_rate': 2.1523770666837445e-05, 'epoch': 0.87}
+{'loss': 1.4249, 'grad_norm': 0.0988796278834343, 'learning_rate': 2.1439684691384992e-05, 'epoch': 0.87}
+{'loss': 1.4388, 'grad_norm': 0.0892120897769928, 'learning_rate': 2.1355755926091235e-05, 'epoch': 0.87}
+{'loss': 1.4123, 'grad_norm': 0.09255405515432358, 'learning_rate': 2.1271984428684888e-05, 'epoch': 0.87}
+{'loss': 1.4093, 'grad_norm': 0.08767643570899963, 'learning_rate': 2.118837025678616e-05, 'epoch': 0.87}
+{'loss': 1.398, 'grad_norm': 0.09288118034601212, 'learning_rate': 2.1104913467907354e-05, 'epoch': 0.87}
+{'loss': 1.3894, 'grad_norm': 0.08609427511692047, 'learning_rate': 2.102161411945233e-05, 'epoch': 0.87}
+{'loss': 1.4014, 'grad_norm': 0.09118319302797318, 'learning_rate': 2.0938472268716618e-05, 'epoch': 0.87}
+{'loss': 1.4262, 'grad_norm': 0.09267279505729675, 'learning_rate': 2.085548797288761e-05, 'epoch': 0.87}
+{'loss': 1.4113, 'grad_norm': 0.09256424754858017, 'learning_rate': 2.0772661289044174e-05, 'epoch': 0.87}
+{'loss': 1.4192, 'grad_norm': 0.09008394926786423, 'learning_rate': 2.0689992274156828e-05, 'epoch': 0.87}
+{'loss': 1.4232, 'grad_norm': 0.0871642455458641, 'learning_rate': 2.060748098508758e-05, 'epoch': 0.87}
+{'loss': 1.4045, 'grad_norm': 0.08451630920171738, 'learning_rate': 2.0525127478590032e-05, 'epoch': 0.87}
+{'loss': 1.4105, 'grad_norm': 0.09565581381320953, 'learning_rate': 2.044293181130924e-05, 'epoch': 0.87}
+{'loss': 1.3986, 'grad_norm': 0.09987989813089371, 'learning_rate': 2.036089403978167e-05, 'epoch': 0.87}
+{'loss': 1.4124, 'grad_norm': 0.08716543763875961, 'learning_rate': 2.0279014220435183e-05, 'epoch': 0.87}
+{'loss': 1.4167, 'grad_norm': 0.08651050180196762, 'learning_rate': 2.019729240958898e-05, 'epoch': 0.88}
+{'loss': 1.4308, 'grad_norm': 0.08878660947084427, 'learning_rate': 2.0115728663453597e-05, 'epoch': 0.88}
+{'loss': 1.4246, 'grad_norm': 0.08504515141248703, 'learning_rate': 2.003432303813088e-05, 'epoch': 0.88}
+{'loss': 1.4168, 'grad_norm': 0.09202145785093307, 'learning_rate': 1.9953075589613873e-05, 'epoch': 0.88}
+{'loss': 1.3935, 'grad_norm': 0.09847026318311691, 'learning_rate': 1.987198637378687e-05, 'epoch': 0.88}
+{'loss': 1.4198, 'grad_norm': 0.09394071251153946, 'learning_rate': 1.9791055446425233e-05, 'epoch': 0.88}
+{'loss': 1.4405, 'grad_norm': 0.09351569414138794, 'learning_rate': 1.9710282863195594e-05, 'epoch': 0.88}
+{'loss': 1.3763, 'grad_norm': 0.09619784355163574, 'learning_rate': 1.9629668679655542e-05, 'epoch': 0.88}
+{'loss': 1.4049, 'grad_norm': 0.10220777988433838, 'learning_rate': 1.9549212951253753e-05, 'epoch': 0.88}
+{'loss': 1.4396, 'grad_norm': 0.09973568469285965, 'learning_rate': 1.9468915733329928e-05, 'epoch': 0.88}
+{'loss': 1.4288, 'grad_norm': 0.09547027945518494, 'learning_rate': 1.9388777081114694e-05, 'epoch': 0.88}
+{'loss': 1.4174, 'grad_norm': 0.08670802414417267, 'learning_rate': 1.930879704972971e-05, 'epoch': 0.88}
+{'loss': 1.4342, 'grad_norm': 0.08846189826726913, 'learning_rate': 1.922897569418744e-05, 'epoch': 0.88}
+{'loss': 1.4366, 'grad_norm': 0.08830109983682632, 'learning_rate': 1.9149313069391272e-05, 'epoch': 0.88}
+{'loss': 1.4213, 'grad_norm': 0.0910097137093544, 'learning_rate': 1.9069809230135375e-05, 'epoch': 0.88}
+{'loss': 1.4134, 'grad_norm': 0.09628084301948547, 'learning_rate': 1.8990464231104648e-05, 'epoch': 0.88}
+{'loss': 1.3947, 'grad_norm': 0.09081879258155823, 'learning_rate': 1.8911278126874876e-05, 'epoch': 0.88}
+{'loss': 1.4277, 'grad_norm': 0.09036895632743835, 'learning_rate': 1.8832250971912433e-05, 'epoch': 0.88}
+{'loss': 1.406, 'grad_norm': 0.08811060339212418, 'learning_rate': 1.8753382820574345e-05, 'epoch': 0.88}
+{'loss': 1.3972, 'grad_norm': 0.09320126473903656, 'learning_rate': 1.8674673727108432e-05, 'epoch': 0.88}
+{'loss': 1.4026, 'grad_norm': 0.09288127720355988, 'learning_rate': 1.8596123745652894e-05, 'epoch': 0.88}
+{'loss': 1.4119, 'grad_norm': 0.0935913473367691, 'learning_rate': 1.8517732930236704e-05, 'epoch': 0.88}
+{'loss': 1.438, 'grad_norm': 0.08695922791957855, 'learning_rate': 1.8439501334779203e-05, 'epoch': 0.88}
+{'loss': 1.406, 'grad_norm': 0.08892946690320969, 'learning_rate': 1.8361429013090263e-05, 'epoch': 0.88}
+{'loss': 1.4015, 'grad_norm': 0.09070064127445221, 'learning_rate': 1.8283516018870213e-05, 'epoch': 0.88}
+{'loss': 1.4286, 'grad_norm': 0.09081568568944931, 'learning_rate': 1.820576240570973e-05, 'epoch': 0.88}
+{'loss': 1.3921, 'grad_norm': 0.090175561606884, 'learning_rate': 1.8128168227089987e-05, 'epoch': 0.88}
+{'loss': 1.4177, 'grad_norm': 0.09310739487409592, 'learning_rate': 1.805073353638237e-05, 'epoch': 0.88}
+{'loss': 1.4494, 'grad_norm': 0.0939640998840332, 'learning_rate': 1.797345838684869e-05, 'epoch': 0.88}
+{'loss': 1.3836, 'grad_norm': 0.08809032291173935, 'learning_rate': 1.789634283164085e-05, 'epoch': 0.88}
+{'loss': 1.3952, 'grad_norm': 0.08881699293851852, 'learning_rate': 1.7819386923801196e-05, 'epoch': 0.88}
+{'loss': 1.4392, 'grad_norm': 0.08962547779083252, 'learning_rate': 1.774259071626208e-05, 'epoch': 0.88}
+{'loss': 1.3994, 'grad_norm': 0.09288077056407928, 'learning_rate': 1.7665954261846084e-05, 'epoch': 0.88}
+{'loss': 1.4052, 'grad_norm': 0.09548614174127579, 'learning_rate': 1.7589477613265876e-05, 'epoch': 0.88}
+{'loss': 1.4159, 'grad_norm': 0.09509819000959396, 'learning_rate': 1.7513160823124237e-05, 'epoch': 0.88}
+{'loss': 1.4153, 'grad_norm': 0.08928973972797394, 'learning_rate': 1.743700394391398e-05, 'epoch': 0.88}
+{'loss': 1.4185, 'grad_norm': 0.08821304142475128, 'learning_rate': 1.7361007028018018e-05, 'epoch': 0.88}
+{'loss': 1.4036, 'grad_norm': 0.08992601186037064, 'learning_rate': 1.7285170127709055e-05, 'epoch': 0.88}
+{'loss': 1.4088, 'grad_norm': 0.09315235167741776, 'learning_rate': 1.7209493295149843e-05, 'epoch': 0.88}
+{'loss': 1.4031, 'grad_norm': 0.08261276036500931, 'learning_rate': 1.713397658239299e-05, 'epoch': 0.88}
+{'loss': 1.4229, 'grad_norm': 0.09518513828516006, 'learning_rate': 1.7058620041381064e-05, 'epoch': 0.89}
+{'loss': 1.4274, 'grad_norm': 0.08591653406620026, 'learning_rate': 1.6983423723946345e-05, 'epoch': 0.89}
+{'loss': 1.415, 'grad_norm': 0.09400462359189987, 'learning_rate': 1.6908387681810965e-05, 'epoch': 0.89}
+{'loss': 1.429, 'grad_norm': 0.08716363459825516, 'learning_rate': 1.6833511966586834e-05, 'epoch': 0.89}
+{'loss': 1.4147, 'grad_norm': 0.08446774631738663, 'learning_rate': 1.6758796629775503e-05, 'epoch': 0.89}
+{'loss': 1.4118, 'grad_norm': 0.09219416230916977, 'learning_rate': 1.6684241722768336e-05, 'epoch': 0.89}
+{'loss': 1.4311, 'grad_norm': 0.08818214386701584, 'learning_rate': 1.6609847296846254e-05, 'epoch': 0.89}
+{'loss': 1.4219, 'grad_norm': 0.09325986355543137, 'learning_rate': 1.65356134031798e-05, 'epoch': 0.89}
+{'loss': 1.4231, 'grad_norm': 0.09462641179561615, 'learning_rate': 1.6461540092829076e-05, 'epoch': 0.89}
+{'loss': 1.4072, 'grad_norm': 0.0984063595533371, 'learning_rate': 1.638762741674385e-05, 'epoch': 0.89}
+{'loss': 1.4023, 'grad_norm': 0.09768212586641312, 'learning_rate': 1.6313875425763264e-05, 'epoch': 0.89}
+{'loss': 1.3931, 'grad_norm': 0.08611369132995605, 'learning_rate': 1.6240284170616045e-05, 'epoch': 0.89}
+{'loss': 1.4071, 'grad_norm': 0.09206341207027435, 'learning_rate': 1.616685370192028e-05, 'epoch': 0.89}
+{'loss': 1.4186, 'grad_norm': 0.0922035276889801, 'learning_rate': 1.6093584070183436e-05, 'epoch': 0.89}
+{'loss': 1.4383, 'grad_norm': 0.08485054969787598, 'learning_rate': 1.602047532580253e-05, 'epoch': 0.89}
+{'loss': 1.3973, 'grad_norm': 0.09602561593055725, 'learning_rate': 1.5947527519063755e-05, 'epoch': 0.89}
+{'loss': 1.4226, 'grad_norm': 0.09272214025259018, 'learning_rate': 1.5874740700142582e-05, 'epoch': 0.89}
+{'loss': 1.419, 'grad_norm': 0.08637331426143646, 'learning_rate': 1.5802114919103854e-05, 'epoch': 0.89}
+{'loss': 1.4009, 'grad_norm': 0.09362443536520004, 'learning_rate': 1.5729650225901586e-05, 'epoch': 0.89}
+{'loss': 1.4302, 'grad_norm': 0.09459127485752106, 'learning_rate': 1.5657346670379102e-05, 'epoch': 0.89}
+{'loss': 1.4583, 'grad_norm': 0.09707997739315033, 'learning_rate': 1.558520430226873e-05, 'epoch': 0.89}
+{'loss': 1.4178, 'grad_norm': 0.09098289906978607, 'learning_rate': 1.5513223171192025e-05, 'epoch': 0.89}
+{'loss': 1.4003, 'grad_norm': 0.0949733778834343, 'learning_rate': 1.544140332665961e-05, 'epoch': 0.89}
+{'loss': 1.402, 'grad_norm': 0.087312713265419, 'learning_rate': 1.536974481807113e-05, 'epoch': 0.89}
+{'loss': 1.425, 'grad_norm': 0.09101902693510056, 'learning_rate': 1.5298247694715384e-05, 'epoch': 0.89}
+{'loss': 1.4059, 'grad_norm': 0.09330715984106064, 'learning_rate': 1.5226912005770034e-05, 'epoch': 0.89}
+{'loss': 1.4024, 'grad_norm': 0.09383969008922577, 'learning_rate': 1.51557378003018e-05, 'epoch': 0.89}
+{'loss': 1.4293, 'grad_norm': 0.09529267996549606, 'learning_rate': 1.5084725127266219e-05, 'epoch': 0.89}
+{'loss': 1.3909, 'grad_norm': 0.0952453687787056, 'learning_rate': 1.5013874035507858e-05, 'epoch': 0.89}
+{'loss': 1.419, 'grad_norm': 0.09559931606054306, 'learning_rate': 1.4943184573760067e-05, 'epoch': 0.89}
+{'loss': 1.4287, 'grad_norm': 0.08469830453395844, 'learning_rate': 1.4872656790645006e-05, 'epoch': 0.89}
+{'loss': 1.4192, 'grad_norm': 0.09348641335964203, 'learning_rate': 1.4802290734673623e-05, 'epoch': 0.89}
+{'loss': 1.4182, 'grad_norm': 0.09186693280935287, 'learning_rate': 1.4732086454245674e-05, 'epoch': 0.89}
+{'loss': 1.4132, 'grad_norm': 0.08967094868421555, 'learning_rate': 1.4662043997649672e-05, 'epoch': 0.89}
+{'loss': 1.392, 'grad_norm': 0.0856369361281395, 'learning_rate': 1.4592163413062687e-05, 'epoch': 0.89}
+{'loss': 1.3976, 'grad_norm': 0.0858599990606308, 'learning_rate': 1.4522444748550605e-05, 'epoch': 0.89}
+{'loss': 1.4131, 'grad_norm': 0.09391549229621887, 'learning_rate': 1.4452888052067848e-05, 'epoch': 0.89}
+{'loss': 1.4145, 'grad_norm': 0.094504214823246, 'learning_rate': 1.438349337145739e-05, 'epoch': 0.89}
+{'loss': 1.4132, 'grad_norm': 0.09005848318338394, 'learning_rate': 1.4314260754450915e-05, 'epoch': 0.89}
+{'loss': 1.4014, 'grad_norm': 0.09291265159845352, 'learning_rate': 1.424519024866855e-05, 'epoch': 0.9}
+{'loss': 1.4135, 'grad_norm': 0.08821322023868561, 'learning_rate': 1.4176281901618849e-05, 'epoch': 0.9}
+{'loss': 1.4045, 'grad_norm': 0.08629342913627625, 'learning_rate': 1.4107535760698898e-05, 'epoch': 0.9}
+{'loss': 1.4032, 'grad_norm': 0.10083732008934021, 'learning_rate': 1.4038951873194234e-05, 'epoch': 0.9}
+{'loss': 1.413, 'grad_norm': 0.08346376568078995, 'learning_rate': 1.3970530286278788e-05, 'epoch': 0.9}
+{'loss': 1.4158, 'grad_norm': 0.09656067937612534, 'learning_rate': 1.3902271047014831e-05, 'epoch': 0.9}
+{'loss': 1.4032, 'grad_norm': 0.0876777321100235, 'learning_rate': 1.3834174202352972e-05, 'epoch': 0.9}
+{'loss': 1.3953, 'grad_norm': 0.08871584385633469, 'learning_rate': 1.3766239799132052e-05, 'epoch': 0.9}
+{'loss': 1.4164, 'grad_norm': 0.08952923119068146, 'learning_rate': 1.3698467884079357e-05, 'epoch': 0.9}
+{'loss': 1.3969, 'grad_norm': 0.08877682685852051, 'learning_rate': 1.3630858503810212e-05, 'epoch': 0.9}
+{'loss': 1.4229, 'grad_norm': 0.08589597046375275, 'learning_rate': 1.356341170482825e-05, 'epoch': 0.9}
+{'loss': 1.4137, 'grad_norm': 0.09445048123598099, 'learning_rate': 1.3496127533525332e-05, 'epoch': 0.9}
+{'loss': 1.4085, 'grad_norm': 0.09369444847106934, 'learning_rate': 1.3429006036181274e-05, 'epoch': 0.9}
+{'loss': 1.4482, 'grad_norm': 0.09495653957128525, 'learning_rate': 1.33620472589642e-05, 'epoch': 0.9}
+{'loss': 1.4063, 'grad_norm': 0.08244872093200684, 'learning_rate': 1.3295251247930212e-05, 'epoch': 0.9}
+{'loss': 1.4179, 'grad_norm': 0.09055103361606598, 'learning_rate': 1.322861804902345e-05, 'epoch': 0.9}
+{'loss': 1.4172, 'grad_norm': 0.0872514545917511, 'learning_rate': 1.3162147708076083e-05, 'epoch': 0.9}
+{'loss': 1.397, 'grad_norm': 0.09175018966197968, 'learning_rate': 1.3095840270808234e-05, 'epoch': 0.9}
+{'loss': 1.4211, 'grad_norm': 0.08830619603395462, 'learning_rate': 1.3029695782828061e-05, 'epoch': 0.9}
+{'loss': 1.389, 'grad_norm': 0.08422479778528214, 'learning_rate': 1.2963714289631584e-05, 'epoch': 0.9}
+{'loss': 1.4111, 'grad_norm': 0.09285177290439606, 'learning_rate': 1.2897895836602724e-05, 'epoch': 0.9}
+{'loss': 1.3991, 'grad_norm': 0.08882462978363037, 'learning_rate': 1.2832240469013212e-05, 'epoch': 0.9}
+{'loss': 1.3971, 'grad_norm': 0.09709972143173218, 'learning_rate': 1.2766748232022618e-05, 'epoch': 0.9}
+{'loss': 1.4211, 'grad_norm': 0.08816956728696823, 'learning_rate': 1.2701419170678408e-05, 'epoch': 0.9}
+{'loss': 1.3779, 'grad_norm': 0.08280526101589203, 'learning_rate': 1.2636253329915692e-05, 'epoch': 0.9}
+{'loss': 1.4204, 'grad_norm': 0.09000715613365173, 'learning_rate': 1.257125075455734e-05, 'epoch': 0.9}
+{'loss': 1.4365, 'grad_norm': 0.09085693210363388, 'learning_rate': 1.2506411489313918e-05, 'epoch': 0.9}
+{'loss': 1.4003, 'grad_norm': 0.08362863212823868, 'learning_rate': 1.2441735578783753e-05, 'epoch': 0.9}
+{'loss': 1.4173, 'grad_norm': 0.09273220598697662, 'learning_rate': 1.2377223067452675e-05, 'epoch': 0.9}
+{'loss': 1.4237, 'grad_norm': 0.08485777676105499, 'learning_rate': 1.2312873999694246e-05, 'epoch': 0.9}
+{'loss': 1.4159, 'grad_norm': 0.09130356460809708, 'learning_rate': 1.2248688419769477e-05, 'epoch': 0.9}
+{'loss': 1.4179, 'grad_norm': 0.08779919892549515, 'learning_rate': 1.2184666371827024e-05, 'epoch': 0.9}
+{'loss': 1.4341, 'grad_norm': 0.08827435970306396, 'learning_rate': 1.212080789990308e-05, 'epoch': 0.9}
+{'loss': 1.4238, 'grad_norm': 0.09294883161783218, 'learning_rate': 1.205711304792123e-05, 'epoch': 0.9}
+{'loss': 1.4346, 'grad_norm': 0.09253934770822525, 'learning_rate': 1.1993581859692598e-05, 'epoch': 0.9}
+{'loss': 1.4217, 'grad_norm': 0.08559101074934006, 'learning_rate': 1.1930214378915726e-05, 'epoch': 0.9}
+{'loss': 1.4179, 'grad_norm': 0.08648466318845749, 'learning_rate': 1.1867010649176473e-05, 'epoch': 0.9}
+{'loss': 1.4081, 'grad_norm': 0.09205430746078491, 'learning_rate': 1.1803970713948176e-05, 'epoch': 0.9}
+{'loss': 1.4121, 'grad_norm': 0.08205841481685638, 'learning_rate': 1.1741094616591453e-05, 'epoch': 0.9}
+{'loss': 1.4215, 'grad_norm': 0.09313392639160156, 'learning_rate': 1.1678382400354236e-05, 'epoch': 0.91}
+{'loss': 1.3887, 'grad_norm': 0.0934452936053276, 'learning_rate': 1.161583410837172e-05, 'epoch': 0.91}
+{'loss': 1.4171, 'grad_norm': 0.08913355320692062, 'learning_rate': 1.1553449783666347e-05, 'epoch': 0.91}
+{'loss': 1.4037, 'grad_norm': 0.09117638319730759, 'learning_rate': 1.1491229469147879e-05, 'epoch': 0.91}
+{'loss': 1.3934, 'grad_norm': 0.09685122966766357, 'learning_rate': 1.1429173207613108e-05, 'epoch': 0.91}
+{'loss': 1.4301, 'grad_norm': 0.09198189526796341, 'learning_rate': 1.1367281041746087e-05, 'epoch': 0.91}
+{'loss': 1.4019, 'grad_norm': 0.09185148030519485, 'learning_rate': 1.1305553014117953e-05, 'epoch': 0.91}
+{'loss': 1.4118, 'grad_norm': 0.09638505429029465, 'learning_rate': 1.1243989167186997e-05, 'epoch': 0.91}
+{'loss': 1.3968, 'grad_norm': 0.08672531694173813, 'learning_rate': 1.1182589543298539e-05, 'epoch': 0.91}
+{'loss': 1.4099, 'grad_norm': 0.08508504927158356, 'learning_rate': 1.1121354184684906e-05, 'epoch': 0.91}
+{'loss': 1.4067, 'grad_norm': 0.0907398983836174, 'learning_rate': 1.1060283133465577e-05, 'epoch': 0.91}
+{'loss': 1.4139, 'grad_norm': 0.08576083928346634, 'learning_rate': 1.0999376431646834e-05, 'epoch': 0.91}
+{'loss': 1.4118, 'grad_norm': 0.08558881282806396, 'learning_rate': 1.093863412112206e-05, 'epoch': 0.91}
+{'loss': 1.4218, 'grad_norm': 0.08623439818620682, 'learning_rate': 1.0878056243671497e-05, 'epoch': 0.91}
+{'loss': 1.3953, 'grad_norm': 0.08888574689626694, 'learning_rate': 1.0817642840962316e-05, 'epoch': 0.91}
+{'loss': 1.4148, 'grad_norm': 0.09841089695692062, 'learning_rate': 1.0757393954548527e-05, 'epoch': 0.91}
+{'loss': 1.4006, 'grad_norm': 0.09174944460391998, 'learning_rate': 1.0697309625870927e-05, 'epoch': 0.91}
+{'loss': 1.4028, 'grad_norm': 0.08723759651184082, 'learning_rate': 1.0637389896257289e-05, 'epoch': 0.91}
+{'loss': 1.3941, 'grad_norm': 0.08481180667877197, 'learning_rate': 1.0577634806922032e-05, 'epoch': 0.91}
+{'loss': 1.3979, 'grad_norm': 0.09357581287622452, 'learning_rate': 1.0518044398966393e-05, 'epoch': 0.91}
+{'loss': 1.4113, 'grad_norm': 0.08887884020805359, 'learning_rate': 1.0458618713378303e-05, 'epoch': 0.91}
+{'loss': 1.4223, 'grad_norm': 0.08867752552032471, 'learning_rate': 1.0399357791032377e-05, 'epoch': 0.91}
+{'loss': 1.4099, 'grad_norm': 0.08948301523923874, 'learning_rate': 1.0340261672689977e-05, 'epoch': 0.91}
+{'loss': 1.4204, 'grad_norm': 0.09513156116008759, 'learning_rate': 1.028133039899906e-05, 'epoch': 0.91}
+{'loss': 1.4107, 'grad_norm': 0.0948827788233757, 'learning_rate': 1.0222564010494178e-05, 'epoch': 0.91}
+{'loss': 1.4165, 'grad_norm': 0.08792624622583389, 'learning_rate': 1.0163962547596467e-05, 'epoch': 0.91}
+{'loss': 1.4194, 'grad_norm': 0.09622853249311447, 'learning_rate': 1.0105526050613655e-05, 'epoch': 0.91}
+{'loss': 1.4016, 'grad_norm': 0.08967883884906769, 'learning_rate': 1.0047254559740065e-05, 'epoch': 0.91}
+{'loss': 1.3903, 'grad_norm': 0.0876307412981987, 'learning_rate': 9.989148115056412e-06, 'epoch': 0.91}
+{'loss': 1.415, 'grad_norm': 0.08888625353574753, 'learning_rate': 9.931206756529893e-06, 'epoch': 0.91}
+{'loss': 1.4084, 'grad_norm': 0.09586361050605774, 'learning_rate': 9.87343052401421e-06, 'epoch': 0.91}
+{'loss': 1.429, 'grad_norm': 0.08906430751085281, 'learning_rate': 9.815819457249519e-06, 'epoch': 0.91}
+{'loss': 1.4151, 'grad_norm': 0.09166759997606277, 'learning_rate': 9.758373595862236e-06, 'epoch': 0.91}
+{'loss': 1.4046, 'grad_norm': 0.08724085986614227, 'learning_rate': 9.701092979365278e-06, 'epoch': 0.91}
+{'loss': 1.4309, 'grad_norm': 0.09011602401733398, 'learning_rate': 9.643977647157825e-06, 'epoch': 0.91}
+{'loss': 1.4269, 'grad_norm': 0.09259504079818726, 'learning_rate': 9.587027638525398e-06, 'epoch': 0.91}
+{'loss': 1.3853, 'grad_norm': 0.09897759556770325, 'learning_rate': 9.530242992639855e-06, 'epoch': 0.91}
+{'loss': 1.4067, 'grad_norm': 0.09622150659561157, 'learning_rate': 9.473623748559202e-06, 'epoch': 0.91}
+{'loss': 1.406, 'grad_norm': 0.09383152425289154, 'learning_rate': 9.417169945227732e-06, 'epoch': 0.91}
+{'loss': 1.4283, 'grad_norm': 0.09645461291074753, 'learning_rate': 9.360881621475997e-06, 'epoch': 0.92}
+{'loss': 1.4213, 'grad_norm': 0.09641577303409576, 'learning_rate': 9.30475881602058e-06, 'epoch': 0.92}
+{'loss': 1.4196, 'grad_norm': 0.09239311516284943, 'learning_rate': 9.248801567464383e-06, 'epoch': 0.92}
+{'loss': 1.4183, 'grad_norm': 0.08791537582874298, 'learning_rate': 9.193009914296363e-06, 'epoch': 0.92}
+{'loss': 1.4092, 'grad_norm': 0.08942237496376038, 'learning_rate': 9.137383894891576e-06, 'epoch': 0.92}
+{'loss': 1.4099, 'grad_norm': 0.08730364590883255, 'learning_rate': 9.08192354751114e-06, 'epoch': 0.92}
+{'loss': 1.4096, 'grad_norm': 0.09168419986963272, 'learning_rate': 9.026628910302176e-06, 'epoch': 0.92}
+{'loss': 1.4211, 'grad_norm': 0.08851133286952972, 'learning_rate': 8.971500021297958e-06, 'epoch': 0.92}
+{'loss': 1.412, 'grad_norm': 0.09552362561225891, 'learning_rate': 8.91653691841765e-06, 'epoch': 0.92}
+{'loss': 1.4102, 'grad_norm': 0.08932304382324219, 'learning_rate': 8.861739639466377e-06, 'epoch': 0.92}
+{'loss': 1.3929, 'grad_norm': 0.0851764976978302, 'learning_rate': 8.807108222135235e-06, 'epoch': 0.92}
+{'loss': 1.4167, 'grad_norm': 0.09348657727241516, 'learning_rate': 8.752642704001307e-06, 'epoch': 0.92}
+{'loss': 1.408, 'grad_norm': 0.09057019650936127, 'learning_rate': 8.69834312252743e-06, 'epoch': 0.92}
+{'loss': 1.3851, 'grad_norm': 0.08326544612646103, 'learning_rate': 8.644209515062396e-06, 'epoch': 0.92}
+{'loss': 1.4134, 'grad_norm': 0.09042656421661377, 'learning_rate': 8.59024191884078e-06, 'epoch': 0.92}
+{'loss': 1.4167, 'grad_norm': 0.09042457491159439, 'learning_rate': 8.536440370983e-06, 'epoch': 0.92}
+{'loss': 1.4249, 'grad_norm': 0.09064938127994537, 'learning_rate': 8.482804908495317e-06, 'epoch': 0.92}
+{'loss': 1.4222, 'grad_norm': 0.08818825334310532, 'learning_rate': 8.429335568269635e-06, 'epoch': 0.92}
+{'loss': 1.4213, 'grad_norm': 0.0926709994673729, 'learning_rate': 8.376032387083704e-06, 'epoch': 0.92}
+{'loss': 1.3917, 'grad_norm': 0.08788590133190155, 'learning_rate': 8.322895401600944e-06, 'epoch': 0.92}
+{'loss': 1.4169, 'grad_norm': 0.0896558165550232, 'learning_rate': 8.26992464837037e-06, 'epoch': 0.92}
+{'loss': 1.4091, 'grad_norm': 0.09187477082014084, 'learning_rate': 8.217120163826835e-06, 'epoch': 0.92}
+{'loss': 1.4025, 'grad_norm': 0.08950187265872955, 'learning_rate': 8.164481984290705e-06, 'epoch': 0.92}
+{'loss': 1.4023, 'grad_norm': 0.08816418796777725, 'learning_rate': 8.11201014596799e-06, 'epoch': 0.92}
+{'loss': 1.405, 'grad_norm': 0.09061968326568604, 'learning_rate': 8.059704684950265e-06, 'epoch': 0.92}
+{'loss': 1.4157, 'grad_norm': 0.08782824128866196, 'learning_rate': 8.007565637214692e-06, 'epoch': 0.92}
+{'loss': 1.4146, 'grad_norm': 0.08630034327507019, 'learning_rate': 7.955593038623975e-06, 'epoch': 0.92}
+{'loss': 1.3873, 'grad_norm': 0.09288621693849564, 'learning_rate': 7.903786924926326e-06, 'epoch': 0.92}
+{'loss': 1.419, 'grad_norm': 0.09461265057325363, 'learning_rate': 7.852147331755432e-06, 'epoch': 0.92}
+{'loss': 1.4153, 'grad_norm': 0.09217929095029831, 'learning_rate': 7.800674294630411e-06, 'epoch': 0.92}
+{'loss': 1.4307, 'grad_norm': 0.09270806610584259, 'learning_rate': 7.749367848955885e-06, 'epoch': 0.92}
+{'loss': 1.4042, 'grad_norm': 0.08552969247102737, 'learning_rate': 7.698228030021848e-06, 'epoch': 0.92}
+{'loss': 1.4189, 'grad_norm': 0.08912447839975357, 'learning_rate': 7.64725487300369e-06, 'epoch': 0.92}
+{'loss': 1.4317, 'grad_norm': 0.08826500922441483, 'learning_rate': 7.596448412962198e-06, 'epoch': 0.92}
+{'loss': 1.4244, 'grad_norm': 0.08964567631483078, 'learning_rate': 7.545808684843392e-06, 'epoch': 0.92}
+{'loss': 1.3993, 'grad_norm': 0.09118349850177765, 'learning_rate': 7.4953357234787965e-06, 'epoch': 0.92}
+{'loss': 1.3942, 'grad_norm': 0.08683666586875916, 'learning_rate': 7.445029563585088e-06, 'epoch': 0.92}
+{'loss': 1.4169, 'grad_norm': 0.09010397642850876, 'learning_rate': 7.394890239764196e-06, 'epoch': 0.92}
+{'loss': 1.4184, 'grad_norm': 0.08818018436431885, 'learning_rate': 7.3449177865033965e-06, 'epoch': 0.92}
+{'loss': 1.3975, 'grad_norm': 0.0881185308098793, 'learning_rate': 7.295112238175084e-06, 'epoch': 0.93}
+{'loss': 1.3927, 'grad_norm': 0.08914989978075027, 'learning_rate': 7.245473629036992e-06, 'epoch': 0.93}
+{'loss': 1.4222, 'grad_norm': 0.08654917031526566, 'learning_rate': 7.196001993231837e-06, 'epoch': 0.93}
+{'loss': 1.4098, 'grad_norm': 0.08746351301670074, 'learning_rate': 7.146697364787652e-06, 'epoch': 0.93}
+{'loss': 1.4013, 'grad_norm': 0.08698364347219467, 'learning_rate': 7.097559777617557e-06, 'epoch': 0.93}
+{'loss': 1.4004, 'grad_norm': 0.08611974865198135, 'learning_rate': 7.048589265519684e-06, 'epoch': 0.93}
+{'loss': 1.4155, 'grad_norm': 0.09359782934188843, 'learning_rate': 6.999785862177366e-06, 'epoch': 0.93}
+{'loss': 1.436, 'grad_norm': 0.08236433565616608, 'learning_rate': 6.951149601158946e-06, 'epoch': 0.93}
+{'loss': 1.416, 'grad_norm': 0.09283357858657837, 'learning_rate': 6.902680515917775e-06, 'epoch': 0.93}
+{'loss': 1.4396, 'grad_norm': 0.08941367268562317, 'learning_rate': 6.854378639792241e-06, 'epoch': 0.93}
+{'loss': 1.3994, 'grad_norm': 0.08643873780965805, 'learning_rate': 6.80624400600574e-06, 'epoch': 0.93}
+{'loss': 1.3901, 'grad_norm': 0.0846400037407875, 'learning_rate': 6.758276647666622e-06, 'epoch': 0.93}
+{'loss': 1.4291, 'grad_norm': 0.08536580950021744, 'learning_rate': 6.7104765977681616e-06, 'epoch': 0.93}
+{'loss': 1.4122, 'grad_norm': 0.09581484645605087, 'learning_rate': 6.662843889188558e-06, 'epoch': 0.93}
+{'loss': 1.4014, 'grad_norm': 0.09333445131778717, 'learning_rate': 6.61537855469091e-06, 'epoch': 0.93}
+{'loss': 1.441, 'grad_norm': 0.09353532642126083, 'learning_rate': 6.568080626923239e-06, 'epoch': 0.93}
+{'loss': 1.419, 'grad_norm': 0.08520644158124924, 'learning_rate': 6.520950138418358e-06, 'epoch': 0.93}
+{'loss': 1.4018, 'grad_norm': 0.0857982188463211, 'learning_rate': 6.473987121593888e-06, 'epoch': 0.93}
+{'loss': 1.4009, 'grad_norm': 0.09310400485992432, 'learning_rate': 6.4271916087523805e-06, 'epoch': 0.93}
+{'loss': 1.4072, 'grad_norm': 0.08218613266944885, 'learning_rate': 6.380563632081005e-06, 'epoch': 0.93}
+{'loss': 1.4138, 'grad_norm': 0.0892307460308075, 'learning_rate': 6.334103223651883e-06, 'epoch': 0.93}
+{'loss': 1.4051, 'grad_norm': 0.08549641072750092, 'learning_rate': 6.287810415421702e-06, 'epoch': 0.93}
+{'loss': 1.4169, 'grad_norm': 0.08392830193042755, 'learning_rate': 6.241685239231992e-06, 'epoch': 0.93}
+{'loss': 1.4316, 'grad_norm': 0.08777116239070892, 'learning_rate': 6.195727726808903e-06, 'epoch': 0.93}
+{'loss': 1.4164, 'grad_norm': 0.08693490922451019, 'learning_rate': 6.149937909763314e-06, 'epoch': 0.93}
+{'loss': 1.4266, 'grad_norm': 0.08981230109930038, 'learning_rate': 6.1043158195907e-06, 'epoch': 0.93}
+{'loss': 1.4185, 'grad_norm': 0.09012848883867264, 'learning_rate': 6.058861487671264e-06, 'epoch': 0.93}
+{'loss': 1.4164, 'grad_norm': 0.09174704551696777, 'learning_rate': 6.013574945269746e-06, 'epoch': 0.93}
+{'loss': 1.4228, 'grad_norm': 0.09467105567455292, 'learning_rate': 5.968456223535451e-06, 'epoch': 0.93}
+{'loss': 1.4077, 'grad_norm': 0.08581507951021194, 'learning_rate': 5.923505353502362e-06, 'epoch': 0.93}
+{'loss': 1.4133, 'grad_norm': 0.08845087885856628, 'learning_rate': 5.878722366088912e-06, 'epoch': 0.93}
+{'loss': 1.416, 'grad_norm': 0.08961489051580429, 'learning_rate': 5.834107292098073e-06, 'epoch': 0.93}
+{'loss': 1.4158, 'grad_norm': 0.091183602809906, 'learning_rate': 5.789660162217325e-06, 'epoch': 0.93}
+{'loss': 1.416, 'grad_norm': 0.08914736658334732, 'learning_rate': 5.745381007018657e-06, 'epoch': 0.93}
+{'loss': 1.4022, 'grad_norm': 0.0866134911775589, 'learning_rate': 5.7012698569585405e-06, 'epoch': 0.93}
+{'loss': 1.4096, 'grad_norm': 0.09451933205127716, 'learning_rate': 5.657326742377844e-06, 'epoch': 0.93}
+{'loss': 1.4073, 'grad_norm': 0.08956124633550644, 'learning_rate': 5.613551693501834e-06, 'epoch': 0.93}
+{'loss': 1.4307, 'grad_norm': 0.09570419788360596, 'learning_rate': 5.56994474044023e-06, 'epoch': 0.93}
+{'loss': 1.4155, 'grad_norm': 0.0855373665690422, 'learning_rate': 5.526505913187096e-06, 'epoch': 0.93}
+{'loss': 1.403, 'grad_norm': 0.07928690314292908, 'learning_rate': 5.483235241620893e-06, 'epoch': 0.94}
+{'loss': 1.4078, 'grad_norm': 0.09626244753599167, 'learning_rate': 5.440132755504368e-06, 'epoch': 0.94}
+{'loss': 1.4411, 'grad_norm': 0.08986584842205048, 'learning_rate': 5.397198484484667e-06, 'epoch': 0.94}
+{'loss': 1.4282, 'grad_norm': 0.0887550488114357, 'learning_rate': 5.3544324580931115e-06, 'epoch': 0.94}
+{'loss': 1.4261, 'grad_norm': 0.09428373724222183, 'learning_rate': 5.311834705745394e-06, 'epoch': 0.94}
+{'loss': 1.4272, 'grad_norm': 0.08492777496576309, 'learning_rate': 5.269405256741467e-06, 'epoch': 0.94}
+{'loss': 1.4044, 'grad_norm': 0.09596356004476547, 'learning_rate': 5.227144140265427e-06, 'epoch': 0.94}
+{'loss': 1.4075, 'grad_norm': 0.09130275249481201, 'learning_rate': 5.185051385385719e-06, 'epoch': 0.94}
+{'loss': 1.4009, 'grad_norm': 0.08740470558404922, 'learning_rate': 5.143127021054822e-06, 'epoch': 0.94}
+{'loss': 1.3993, 'grad_norm': 0.08754412084817886, 'learning_rate': 5.101371076109557e-06, 'epoch': 0.94}
+{'loss': 1.4089, 'grad_norm': 0.09256068617105484, 'learning_rate': 5.059783579270838e-06, 'epoch': 0.94}
+{'loss': 1.4113, 'grad_norm': 0.08272714167833328, 'learning_rate': 5.018364559143674e-06, 'epoch': 0.94}
+{'loss': 1.4103, 'grad_norm': 0.08446633070707321, 'learning_rate': 4.97711404421719e-06, 'epoch': 0.94}
+{'loss': 1.4263, 'grad_norm': 0.08478129655122757, 'learning_rate': 4.936032062864693e-06, 'epoch': 0.94}
+{'loss': 1.4033, 'grad_norm': 0.0840112641453743, 'learning_rate': 4.895118643343494e-06, 'epoch': 0.94}
+{'loss': 1.4161, 'grad_norm': 0.08998456597328186, 'learning_rate': 4.854373813794999e-06, 'epoch': 0.94}
+{'loss': 1.4144, 'grad_norm': 0.0866517424583435, 'learning_rate': 4.813797602244596e-06, 'epoch': 0.94}
+{'loss': 1.4154, 'grad_norm': 0.09245739132165909, 'learning_rate': 4.773390036601794e-06, 'epoch': 0.94}
+{'loss': 1.4056, 'grad_norm': 0.0889945924282074, 'learning_rate': 4.73315114465997e-06, 'epoch': 0.94}
+{'loss': 1.3946, 'grad_norm': 0.08783015608787537, 'learning_rate': 4.693080954096624e-06, 'epoch': 0.94}
+{'loss': 1.4083, 'grad_norm': 0.09185277670621872, 'learning_rate': 4.653179492473153e-06, 'epoch': 0.94}
+{'loss': 1.4141, 'grad_norm': 0.0868469774723053, 'learning_rate': 4.613446787234854e-06, 'epoch': 0.94}
+{'loss': 1.4145, 'grad_norm': 0.08956044167280197, 'learning_rate': 4.573882865711004e-06, 'epoch': 0.94}
+{'loss': 1.4263, 'grad_norm': 0.08763443678617477, 'learning_rate': 4.534487755114752e-06, 'epoch': 0.94}
+{'loss': 1.3915, 'grad_norm': 0.08852279186248779, 'learning_rate': 4.495261482543172e-06, 'epoch': 0.94}
+{'loss': 1.4148, 'grad_norm': 0.07975858449935913, 'learning_rate': 4.45620407497721e-06, 'epoch': 0.94}
+{'loss': 1.4062, 'grad_norm': 0.0923304334282875, 'learning_rate': 4.417315559281598e-06, 'epoch': 0.94}
+{'loss': 1.402, 'grad_norm': 0.08840163052082062, 'learning_rate': 4.378595962204968e-06, 'epoch': 0.94}
+{'loss': 1.4146, 'grad_norm': 0.09782998263835907, 'learning_rate': 4.340045310379737e-06, 'epoch': 0.94}
+{'loss': 1.4083, 'grad_norm': 0.0828079879283905, 'learning_rate': 4.301663630322139e-06, 'epoch': 0.94}
+{'loss': 1.3855, 'grad_norm': 0.09710919111967087, 'learning_rate': 4.2634509484321125e-06, 'epoch': 0.94}
+{'loss': 1.4245, 'grad_norm': 0.08554986864328384, 'learning_rate': 4.225407290993466e-06, 'epoch': 0.94}
+{'loss': 1.3981, 'grad_norm': 0.08014579862356186, 'learning_rate': 4.187532684173601e-06, 'epoch': 0.94}
+{'loss': 1.3895, 'grad_norm': 0.08424884080886841, 'learning_rate': 4.1498271540238165e-06, 'epoch': 0.94}
+{'loss': 1.4036, 'grad_norm': 0.09247179329395294, 'learning_rate': 4.1122907264789785e-06, 'epoch': 0.94}
+{'loss': 1.4305, 'grad_norm': 0.0838029682636261, 'learning_rate': 4.074923427357741e-06, 'epoch': 0.94}
+{'loss': 1.409, 'grad_norm': 0.09087371081113815, 'learning_rate': 4.0377252823622924e-06, 'epoch': 0.94}
+{'loss': 1.4092, 'grad_norm': 0.08853691071271896, 'learning_rate': 4.000696317078611e-06, 'epoch': 0.94}
+{'loss': 1.4454, 'grad_norm': 0.09046722203493118, 'learning_rate': 3.963836556976241e-06, 'epoch': 0.94}
+{'loss': 1.4083, 'grad_norm': 0.0849316343665123, 'learning_rate': 3.9271460274083735e-06, 'epoch': 0.95}
+{'loss': 1.4016, 'grad_norm': 0.08504665642976761, 'learning_rate': 3.890624753611738e-06, 'epoch': 0.95}
+{'loss': 1.4149, 'grad_norm': 0.08949781954288483, 'learning_rate': 3.854272760706712e-06, 'epoch': 0.95}
+{'loss': 1.4121, 'grad_norm': 0.08615908771753311, 'learning_rate': 3.818090073697183e-06, 'epoch': 0.95}
+{'loss': 1.435, 'grad_norm': 0.08394429087638855, 'learning_rate': 3.782076717470634e-06, 'epoch': 0.95}
+{'loss': 1.4303, 'grad_norm': 0.08137401938438416, 'learning_rate': 3.7462327167980815e-06, 'epoch': 0.95}
+{'loss': 1.4372, 'grad_norm': 0.08527952432632446, 'learning_rate': 3.7105580963339713e-06, 'epoch': 0.95}
+{'loss': 1.4114, 'grad_norm': 0.09287666529417038, 'learning_rate': 3.6750528806163142e-06, 'epoch': 0.95}
+{'loss': 1.409, 'grad_norm': 0.08583223074674606, 'learning_rate': 3.63971709406663e-06, 'epoch': 0.95}
+{'loss': 1.3986, 'grad_norm': 0.0880005806684494, 'learning_rate': 3.6045507609898388e-06, 'epoch': 0.95}
+{'loss': 1.3937, 'grad_norm': 0.08585149794816971, 'learning_rate': 3.569553905574313e-06, 'epoch': 0.95}
+{'loss': 1.4232, 'grad_norm': 0.08973654359579086, 'learning_rate': 3.5347265518918538e-06, 'epoch': 0.95}
+{'loss': 1.3961, 'grad_norm': 0.0943615734577179, 'learning_rate': 3.5000687238977146e-06, 'epoch': 0.95}
+{'loss': 1.4366, 'grad_norm': 0.08743617683649063, 'learning_rate': 3.465580445430522e-06, 'epoch': 0.95}
+{'loss': 1.4212, 'grad_norm': 0.0875091552734375, 'learning_rate': 3.431261740212244e-06, 'epoch': 0.95}
+{'loss': 1.4157, 'grad_norm': 0.08601167798042297, 'learning_rate': 3.3971126318482758e-06, 'epoch': 0.95}
+{'loss': 1.408, 'grad_norm': 0.0834001898765564, 'learning_rate': 3.363133143827274e-06, 'epoch': 0.95}
+{'loss': 1.4439, 'grad_norm': 0.08725675940513611, 'learning_rate': 3.3293232995213195e-06, 'epoch': 0.95}
+{'loss': 1.398, 'grad_norm': 0.08389372378587723, 'learning_rate': 3.295683122185783e-06, 'epoch': 0.95}
+{'loss': 1.4002, 'grad_norm': 0.09897850453853607, 'learning_rate': 3.2622126349592663e-06, 'epoch': 0.95}
+{'loss': 1.4265, 'grad_norm': 0.08623556792736053, 'learning_rate': 3.2289118608637703e-06, 'epoch': 0.95}
+{'loss': 1.4134, 'grad_norm': 0.08794379979372025, 'learning_rate': 3.195780822804417e-06, 'epoch': 0.95}
+{'loss': 1.4225, 'grad_norm': 0.09244222939014435, 'learning_rate': 3.1628195435697007e-06, 'epoch': 0.95}
+{'loss': 1.4114, 'grad_norm': 0.08785022050142288, 'learning_rate': 3.130028045831318e-06, 'epoch': 0.95}
+{'loss': 1.4181, 'grad_norm': 0.07871617376804352, 'learning_rate': 3.097406352144172e-06, 'epoch': 0.95}
+{'loss': 1.4064, 'grad_norm': 0.08443281799554825, 'learning_rate': 3.0649544849463416e-06, 'epoch': 0.95}
+{'loss': 1.4044, 'grad_norm': 0.08094138652086258, 'learning_rate': 3.0326724665591663e-06, 'epoch': 0.95}
+{'loss': 1.3926, 'grad_norm': 0.08777520060539246, 'learning_rate': 3.000560319187079e-06, 'epoch': 0.95}
+{'loss': 1.4135, 'grad_norm': 0.09043784439563751, 'learning_rate': 2.9686180649177718e-06, 'epoch': 0.95}
+{'loss': 1.4117, 'grad_norm': 0.08578497916460037, 'learning_rate': 2.9368457257219484e-06, 'epoch': 0.95}
+{'loss': 1.4038, 'grad_norm': 0.08993171155452728, 'learning_rate': 2.9052433234535437e-06, 'epoch': 0.95}
+{'loss': 1.4201, 'grad_norm': 0.08811300992965698, 'learning_rate': 2.873810879849559e-06, 'epoch': 0.95}
+{'loss': 1.4041, 'grad_norm': 0.08569041639566422, 'learning_rate': 2.842548416530116e-06, 'epoch': 0.95}
+{'loss': 1.4036, 'grad_norm': 0.08741895109415054, 'learning_rate': 2.811455954998432e-06, 'epoch': 0.95}
+{'loss': 1.443, 'grad_norm': 0.09421342611312866, 'learning_rate': 2.780533516640732e-06, 'epoch': 0.95}
+{'loss': 1.3938, 'grad_norm': 0.08077676594257355, 'learning_rate': 2.7497811227263357e-06, 'epoch': 0.95}
+{'loss': 1.4271, 'grad_norm': 0.09009016305208206, 'learning_rate': 2.7191987944076014e-06, 'epoch': 0.95}
+{'loss': 1.4554, 'grad_norm': 0.0883122980594635, 'learning_rate': 2.688786552719896e-06, 'epoch': 0.95}
+{'loss': 1.4181, 'grad_norm': 0.08665011078119278, 'learning_rate': 2.658544418581654e-06, 'epoch': 0.95}
+{'loss': 1.4001, 'grad_norm': 0.08473698049783707, 'learning_rate': 2.6284724127942084e-06, 'epoch': 0.96}
+{'loss': 1.4038, 'grad_norm': 0.0834353119134903, 'learning_rate': 2.598570556041957e-06, 'epoch': 0.96}
+{'loss': 1.3904, 'grad_norm': 0.08652544766664505, 'learning_rate': 2.5688388688921983e-06, 'epoch': 0.96}
+{'loss': 1.3862, 'grad_norm': 0.09494921565055847, 'learning_rate': 2.53927737179524e-06, 'epoch': 0.96}
+{'loss': 1.4163, 'grad_norm': 0.08596868067979813, 'learning_rate': 2.5098860850842896e-06, 'epoch': 0.96}
+{'loss': 1.3877, 'grad_norm': 0.08626491576433182, 'learning_rate': 2.480665028975537e-06, 'epoch': 0.96}
+{'loss': 1.4189, 'grad_norm': 0.0898117870092392, 'learning_rate': 2.4516142235679606e-06, 'epoch': 0.96}
+{'loss': 1.4111, 'grad_norm': 0.08774738758802414, 'learning_rate': 2.4227336888435757e-06, 'epoch': 0.96}
+{'loss': 1.4212, 'grad_norm': 0.08978033065795898, 'learning_rate': 2.394023444667215e-06, 'epoch': 0.96}
+{'loss': 1.429, 'grad_norm': 0.08649759739637375, 'learning_rate': 2.3654835107865257e-06, 'epoch': 0.96}
+{'loss': 1.4399, 'grad_norm': 0.08593234419822693, 'learning_rate': 2.3371139068321665e-06, 'epoch': 0.96}
+{'loss': 1.4072, 'grad_norm': 0.08663710206747055, 'learning_rate': 2.3089146523174453e-06, 'epoch': 0.96}
+{'loss': 1.4217, 'grad_norm': 0.08574333041906357, 'learning_rate': 2.2808857666386797e-06, 'epoch': 0.96}
+{'loss': 1.4109, 'grad_norm': 0.08372408151626587, 'learning_rate': 2.253027269074892e-06, 'epoch': 0.96}
+{'loss': 1.4178, 'grad_norm': 0.08601183444261551, 'learning_rate': 2.225339178787894e-06, 'epoch': 0.96}
+{'loss': 1.4131, 'grad_norm': 0.08559419959783554, 'learning_rate': 2.197821514822368e-06, 'epoch': 0.96}
+{'loss': 1.4114, 'grad_norm': 0.08853909373283386, 'learning_rate': 2.170474296105701e-06, 'epoch': 0.96}
+{'loss': 1.4133, 'grad_norm': 0.08563992381095886, 'learning_rate': 2.143297541448097e-06, 'epoch': 0.96}
+{'loss': 1.4108, 'grad_norm': 0.08671363443136215, 'learning_rate': 2.116291269542492e-06, 'epoch': 0.96}
+{'loss': 1.4187, 'grad_norm': 0.07997595518827438, 'learning_rate': 2.0894554989645543e-06, 'epoch': 0.96}
+{'loss': 1.423, 'grad_norm': 0.09188526123762131, 'learning_rate': 2.06279024817263e-06, 'epoch': 0.96}
+{'loss': 1.437, 'grad_norm': 0.0915231704711914, 'learning_rate': 2.0362955355078537e-06, 'epoch': 0.96}
+{'loss': 1.4198, 'grad_norm': 0.0892333909869194, 'learning_rate': 2.0099713791940365e-06, 'epoch': 0.96}
+{'loss': 1.4014, 'grad_norm': 0.0872243195772171, 'learning_rate': 1.983817797337667e-06, 'epoch': 0.96}
+{'loss': 1.3999, 'grad_norm': 0.09003010392189026, 'learning_rate': 1.957834807927883e-06, 'epoch': 0.96}
+{'loss': 1.4016, 'grad_norm': 0.08673582971096039, 'learning_rate': 1.9320224288365275e-06, 'epoch': 0.96}
+{'loss': 1.4073, 'grad_norm': 0.08907398581504822, 'learning_rate': 1.9063806778180648e-06, 'epoch': 0.96}
+{'loss': 1.4093, 'grad_norm': 0.09073928743600845, 'learning_rate': 1.8809095725096092e-06, 'epoch': 0.96}
+{'loss': 1.4134, 'grad_norm': 0.08928875625133514, 'learning_rate': 1.8556091304309241e-06, 'epoch': 0.96}
+{'loss': 1.3987, 'grad_norm': 0.09214731305837631, 'learning_rate': 1.8304793689843391e-06, 'epoch': 0.96}
+{'loss': 1.4264, 'grad_norm': 0.08961371332406998, 'learning_rate': 1.8055203054547775e-06, 'epoch': 0.96}
+{'loss': 1.4266, 'grad_norm': 0.09435299038887024, 'learning_rate': 1.7807319570098124e-06, 'epoch': 0.96}
+{'loss': 1.425, 'grad_norm': 0.08370419591665268, 'learning_rate': 1.756114340699555e-06, 'epoch': 0.96}
+{'loss': 1.4305, 'grad_norm': 0.09552838653326035, 'learning_rate': 1.7316674734566828e-06, 'epoch': 0.96}
+{'loss': 1.4063, 'grad_norm': 0.08607199043035507, 'learning_rate': 1.7073913720964673e-06, 'epoch': 0.96}
+{'loss': 1.4201, 'grad_norm': 0.08674349635839462, 'learning_rate': 1.6832860533166073e-06, 'epoch': 0.96}
+{'loss': 1.4119, 'grad_norm': 0.08743640035390854, 'learning_rate': 1.6593515336975062e-06, 'epoch': 0.96}
+{'loss': 1.4246, 'grad_norm': 0.08521426469087601, 'learning_rate': 1.63558782970194e-06, 'epoch': 0.96}
+{'loss': 1.4139, 'grad_norm': 0.0815061703324318, 'learning_rate': 1.6119949576752502e-06, 'epoch': 0.96}
+{'loss': 1.4227, 'grad_norm': 0.08742843568325043, 'learning_rate': 1.5885729338452615e-06, 'epoch': 0.97}
+{'loss': 1.3914, 'grad_norm': 0.08514195680618286, 'learning_rate': 1.565321774322337e-06, 'epoch': 0.97}
+{'loss': 1.4252, 'grad_norm': 0.08756470680236816, 'learning_rate': 1.5422414950992391e-06, 'epoch': 0.97}
+{'loss': 1.4147, 'grad_norm': 0.0882510244846344, 'learning_rate': 1.5193321120512415e-06, 'epoch': 0.97}
+{'loss': 1.3911, 'grad_norm': 0.08564641326665878, 'learning_rate': 1.4965936409360447e-06, 'epoch': 0.97}
+{'loss': 1.4104, 'grad_norm': 0.09055748581886292, 'learning_rate': 1.4740260973938325e-06, 'epoch': 0.97}
+{'loss': 1.4122, 'grad_norm': 0.08548349142074585, 'learning_rate': 1.45162949694716e-06, 'epoch': 0.97}
+{'loss': 1.418, 'grad_norm': 0.09542123228311539, 'learning_rate': 1.429403855001038e-06, 'epoch': 0.97}
+{'loss': 1.3826, 'grad_norm': 0.09316354244947433, 'learning_rate': 1.4073491868428767e-06, 'epoch': 0.97}
+{'loss': 1.4463, 'grad_norm': 0.08786403387784958, 'learning_rate': 1.3854655076425137e-06, 'epoch': 0.97}
+{'loss': 1.3924, 'grad_norm': 0.08654915541410446, 'learning_rate': 1.363752832452131e-06, 'epoch': 0.97}
+{'loss': 1.428, 'grad_norm': 0.08872532099485397, 'learning_rate': 1.3422111762063372e-06, 'epoch': 0.97}
+{'loss': 1.4027, 'grad_norm': 0.08492298424243927, 'learning_rate': 1.3208405537220858e-06, 'epoch': 0.97}
+{'loss': 1.4148, 'grad_norm': 0.0926779955625534, 'learning_rate': 1.2996409796986464e-06, 'epoch': 0.97}
+{'loss': 1.408, 'grad_norm': 0.0807335376739502, 'learning_rate': 1.2786124687177158e-06, 'epoch': 0.97}
+{'loss': 1.4137, 'grad_norm': 0.08538610488176346, 'learning_rate': 1.2577550352432798e-06, 'epoch': 0.97}
+{'loss': 1.421, 'grad_norm': 0.08887000381946564, 'learning_rate': 1.237068693621668e-06, 'epoch': 0.97}
+{'loss': 1.4041, 'grad_norm': 0.08265776932239532, 'learning_rate': 1.2165534580814709e-06, 'epoch': 0.97}
+{'loss': 1.4145, 'grad_norm': 0.08648145943880081, 'learning_rate': 1.196209342733734e-06, 'epoch': 0.97}
+{'loss': 1.4196, 'grad_norm': 0.08712407201528549, 'learning_rate': 1.176036361571653e-06, 'epoch': 0.97}
+{'loss': 1.3921, 'grad_norm': 0.08463139086961746, 'learning_rate': 1.1560345284707397e-06, 'epoch': 0.97}
+{'loss': 1.4232, 'grad_norm': 0.08946259319782257, 'learning_rate': 1.1362038571888777e-06, 'epoch': 0.97}
+{'loss': 1.4299, 'grad_norm': 0.08672269433736801, 'learning_rate': 1.1165443613661009e-06, 'epoch': 0.97}
+{'loss': 1.4116, 'grad_norm': 0.08214764297008514, 'learning_rate': 1.0970560545247866e-06, 'epoch': 0.97}
+{'loss': 1.4156, 'grad_norm': 0.08759484440088272, 'learning_rate': 1.0777389500695178e-06, 'epoch': 0.97}
+{'loss': 1.4073, 'grad_norm': 0.08463454246520996, 'learning_rate': 1.0585930612871664e-06, 'epoch': 0.97}
+{'loss': 1.4079, 'grad_norm': 0.08420776575803757, 'learning_rate': 1.0396184013467813e-06, 'epoch': 0.97}
+{'loss': 1.4215, 'grad_norm': 0.08758251368999481, 'learning_rate': 1.0208149832997004e-06, 'epoch': 0.97}
+{'loss': 1.4056, 'grad_norm': 0.08758851885795593, 'learning_rate': 1.0021828200793836e-06, 'epoch': 0.97}
+{'loss': 1.4185, 'grad_norm': 0.08357283473014832, 'learning_rate': 9.837219245015794e-07, 'epoch': 0.97}
+{'loss': 1.3842, 'grad_norm': 0.08551905304193497, 'learning_rate': 9.654323092642136e-07, 'epoch': 0.97}
+{'loss': 1.424, 'grad_norm': 0.08421438932418823, 'learning_rate': 9.473139869473901e-07, 'epoch': 0.97}
+{'loss': 1.4175, 'grad_norm': 0.08600026369094849, 'learning_rate': 9.2936697001339e-07, 'epoch': 0.97}
+{'loss': 1.4296, 'grad_norm': 0.08319976925849915, 'learning_rate': 9.11591270806672e-07, 'epoch': 0.97}
+{'loss': 1.4048, 'grad_norm': 0.07991985231637955, 'learning_rate': 8.939869015538727e-07, 'epoch': 0.97}
+{'loss': 1.4006, 'grad_norm': 0.08862598240375519, 'learning_rate': 8.765538743637502e-07, 'epoch': 0.97}
+{'loss': 1.4174, 'grad_norm': 0.08873199671506882, 'learning_rate': 8.592922012272408e-07, 'epoch': 0.97}
+{'loss': 1.4188, 'grad_norm': 0.08495793491601944, 'learning_rate': 8.422018940174026e-07, 'epoch': 0.97}
+{'loss': 1.4307, 'grad_norm': 0.0839909091591835, 'learning_rate': 8.252829644894155e-07, 'epoch': 0.97}
+{'loss': 1.4098, 'grad_norm': 0.08279004693031311, 'learning_rate': 8.08535424280582e-07, 'epoch': 0.98}
+{'loss': 1.4235, 'grad_norm': 0.08850985020399094, 'learning_rate': 7.919592849103263e-07, 'epoch': 0.98}
+{'loss': 1.4305, 'grad_norm': 0.08321096748113632, 'learning_rate': 7.755545577802225e-07, 'epoch': 0.98}
+{'loss': 1.4275, 'grad_norm': 0.08352916687726974, 'learning_rate': 7.593212541738837e-07, 'epoch': 0.98}
+{'loss': 1.4151, 'grad_norm': 0.08611172437667847, 'learning_rate': 7.432593852569892e-07, 'epoch': 0.98}
+{'loss': 1.4295, 'grad_norm': 0.09071902185678482, 'learning_rate': 7.273689620773683e-07, 'epoch': 0.98}
+{'loss': 1.386, 'grad_norm': 0.08635769039392471, 'learning_rate': 7.11649995564917e-07, 'epoch': 0.98}
+{'loss': 1.4134, 'grad_norm': 0.09174037724733353, 'learning_rate': 6.961024965315421e-07, 'epoch': 0.98}
+{'loss': 1.4187, 'grad_norm': 0.08927806466817856, 'learning_rate': 6.80726475671245e-07, 'epoch': 0.98}
+{'loss': 1.4091, 'grad_norm': 0.08553805202245712, 'learning_rate': 6.655219435601212e-07, 'epoch': 0.98}
+{'loss': 1.4355, 'grad_norm': 0.08683841675519943, 'learning_rate': 6.504889106562495e-07, 'epoch': 0.98}
+{'loss': 1.3893, 'grad_norm': 0.08741872757673264, 'learning_rate': 6.356273872997754e-07, 'epoch': 0.98}
+{'loss': 1.4003, 'grad_norm': 0.09232094138860703, 'learning_rate': 6.209373837128551e-07, 'epoch': 0.98}
+{'loss': 1.4124, 'grad_norm': 0.08356110006570816, 'learning_rate': 6.064189099997119e-07, 'epoch': 0.98}
+{'loss': 1.4182, 'grad_norm': 0.08955123275518417, 'learning_rate': 5.920719761465243e-07, 'epoch': 0.98}
+{'loss': 1.4407, 'grad_norm': 0.0838349387049675, 'learning_rate': 5.778965920215096e-07, 'epoch': 0.98}
+{'loss': 1.419, 'grad_norm': 0.09093961864709854, 'learning_rate': 5.638927673749239e-07, 'epoch': 0.98}
+{'loss': 1.4139, 'grad_norm': 0.08951497822999954, 'learning_rate': 5.500605118389512e-07, 'epoch': 0.98}
+{'loss': 1.3905, 'grad_norm': 0.08818475157022476, 'learning_rate': 5.363998349278421e-07, 'epoch': 0.98}
+{'loss': 1.4134, 'grad_norm': 0.0840463638305664, 'learning_rate': 5.229107460377746e-07, 'epoch': 0.98}
+{'loss': 1.396, 'grad_norm': 0.09337058663368225, 'learning_rate': 5.095932544469106e-07, 'epoch': 0.98}
+{'loss': 1.4423, 'grad_norm': 0.08980853110551834, 'learning_rate': 4.964473693154226e-07, 'epoch': 0.98}
+{'loss': 1.4344, 'grad_norm': 0.08666426688432693, 'learning_rate': 4.834730996853831e-07, 'epoch': 0.98}
+{'loss': 1.4202, 'grad_norm': 0.07803533971309662, 'learning_rate': 4.7067045448084824e-07, 'epoch': 0.98}
+{'loss': 1.4088, 'grad_norm': 0.08434271067380905, 'learning_rate': 4.580394425078571e-07, 'epoch': 0.98}
+{'loss': 1.4219, 'grad_norm': 0.09382890909910202, 'learning_rate': 4.4558007245437684e-07, 'epoch': 0.98}
+{'loss': 1.4056, 'grad_norm': 0.07997103035449982, 'learning_rate': 4.332923528903299e-07, 'epoch': 0.98}
+{'loss': 1.4022, 'grad_norm': 0.0848827064037323, 'learning_rate': 4.2117629226748333e-07, 'epoch': 0.98}
+{'loss': 1.4336, 'grad_norm': 0.08461561053991318, 'learning_rate': 4.092318989196708e-07, 'epoch': 0.98}
+{'loss': 1.4042, 'grad_norm': 0.08504844456911087, 'learning_rate': 3.9745918106254275e-07, 'epoch': 0.98}
+{'loss': 1.4319, 'grad_norm': 0.091547891497612, 'learning_rate': 3.85858146793705e-07, 'epoch': 0.98}
+{'loss': 1.418, 'grad_norm': 0.09125028550624847, 'learning_rate': 3.744288040926913e-07, 'epoch': 0.98}
+{'loss': 1.4032, 'grad_norm': 0.08998361974954605, 'learning_rate': 3.6317116082087987e-07, 'epoch': 0.98}
+{'loss': 1.4098, 'grad_norm': 0.08589919656515121, 'learning_rate': 3.5208522472165996e-07, 'epoch': 0.98}
+{'loss': 1.3992, 'grad_norm': 0.08758702129125595, 'learning_rate': 3.4117100342018204e-07, 'epoch': 0.98}
+{'loss': 1.4176, 'grad_norm': 0.09782690554857254, 'learning_rate': 3.3042850442357995e-07, 'epoch': 0.98}
+{'loss': 1.4315, 'grad_norm': 0.08612892031669617, 'learning_rate': 3.198577351208598e-07, 'epoch': 0.98}
+{'loss': 1.4311, 'grad_norm': 0.08237209171056747, 'learning_rate': 3.0945870278287213e-07, 'epoch': 0.98}
+{'loss': 1.4071, 'grad_norm': 0.08598392456769943, 'learning_rate': 2.992314145623676e-07, 'epoch': 0.98}
+{'loss': 1.4184, 'grad_norm': 0.0850486308336258, 'learning_rate': 2.8917587749394125e-07, 'epoch': 0.99}
+{'loss': 1.4212, 'grad_norm': 0.08220890909433365, 'learning_rate': 2.7929209849408834e-07, 'epoch': 0.99}
+{'loss': 1.3967, 'grad_norm': 0.08648351579904556, 'learning_rate': 2.6958008436114843e-07, 'epoch': 0.99}
+{'loss': 1.4102, 'grad_norm': 0.08595828711986542, 'learning_rate': 2.6003984177533356e-07, 'epoch': 0.99}
+{'loss': 1.41, 'grad_norm': 0.08571039140224457, 'learning_rate': 2.506713772986446e-07, 'epoch': 0.99}
+{'loss': 1.3932, 'grad_norm': 0.08131426572799683, 'learning_rate': 2.414746973750104e-07, 'epoch': 0.99}
+{'loss': 1.3987, 'grad_norm': 0.08625257015228271, 'learning_rate': 2.324498083301485e-07, 'epoch': 0.99}
+{'loss': 1.4224, 'grad_norm': 0.08826694637537003, 'learning_rate': 2.2359671637162127e-07, 'epoch': 0.99}
+{'loss': 1.4384, 'grad_norm': 0.08354552835226059, 'learning_rate': 2.1491542758883542e-07, 'epoch': 0.99}
+{'loss': 1.4177, 'grad_norm': 0.08598986268043518, 'learning_rate': 2.0640594795304224e-07, 'epoch': 0.99}
+{'loss': 1.3969, 'grad_norm': 0.08290019631385803, 'learning_rate': 1.9806828331730976e-07, 'epoch': 0.99}
+{'loss': 1.4166, 'grad_norm': 0.08995794504880905, 'learning_rate': 1.8990243941646723e-07, 'epoch': 0.99}
+{'loss': 1.4043, 'grad_norm': 0.08239352703094482, 'learning_rate': 1.8190842186724398e-07, 'epoch': 0.99}
+{'loss': 1.4181, 'grad_norm': 0.08890631049871445, 'learning_rate': 1.7408623616813058e-07, 'epoch': 0.99}
+{'loss': 1.4114, 'grad_norm': 0.08603155612945557, 'learning_rate': 1.6643588769946206e-07, 'epoch': 0.99}
+{'loss': 1.4188, 'grad_norm': 0.08358550071716309, 'learning_rate': 1.589573817233625e-07, 'epoch': 0.99}
+{'loss': 1.4132, 'grad_norm': 0.08197260648012161, 'learning_rate': 1.5165072338374498e-07, 'epoch': 0.99}
+{'loss': 1.4429, 'grad_norm': 0.08353553712368011, 'learning_rate': 1.4451591770631156e-07, 'epoch': 0.99}
+{'loss': 1.4139, 'grad_norm': 0.0822734534740448, 'learning_rate': 1.3755296959863663e-07, 'epoch': 0.99}
+{'loss': 1.4197, 'grad_norm': 0.08866580575704575, 'learning_rate': 1.3076188384997246e-07, 'epoch': 0.99}
+{'loss': 1.437, 'grad_norm': 0.08884411305189133, 'learning_rate': 1.2414266513147143e-07, 'epoch': 0.99}
+{'loss': 1.394, 'grad_norm': 0.08286851644515991, 'learning_rate': 1.1769531799596389e-07, 'epoch': 0.99}
+{'loss': 1.4009, 'grad_norm': 0.09135406464338303, 'learning_rate': 1.1141984687815243e-07, 'epoch': 0.99}
+{'loss': 1.4242, 'grad_norm': 0.08822350949048996, 'learning_rate': 1.0531625609447315e-07, 'epoch': 0.99}
+{'loss': 1.4122, 'grad_norm': 0.08313398063182831, 'learning_rate': 9.938454984312339e-08, 'epoch': 0.99}
+{'loss': 1.4169, 'grad_norm': 0.0821869745850563, 'learning_rate': 9.362473220411727e-08, 'epoch': 0.99}
+{'loss': 1.4064, 'grad_norm': 0.08333337306976318, 'learning_rate': 8.803680713923012e-08, 'epoch': 0.99}
+{'loss': 1.3914, 'grad_norm': 0.0834186002612114, 'learning_rate': 8.26207784919708e-08, 'epoch': 0.99}
+{'loss': 1.4166, 'grad_norm': 0.08403009176254272, 'learning_rate': 7.737664998763716e-08, 'epoch': 0.99}
+{'loss': 1.4052, 'grad_norm': 0.0916668102145195, 'learning_rate': 7.230442523328828e-08, 'epoch': 0.99}
+{'loss': 1.3975, 'grad_norm': 0.0842023640871048, 'learning_rate': 6.740410771777228e-08, 'epoch': 0.99}
+{'loss': 1.4022, 'grad_norm': 0.08255749195814133, 'learning_rate': 6.267570081161523e-08, 'epoch': 0.99}
+{'loss': 1.3985, 'grad_norm': 0.08417052030563354, 'learning_rate': 5.811920776715995e-08, 'epoch': 0.99}
+{'loss': 1.4429, 'grad_norm': 0.09132570028305054, 'learning_rate': 5.373463171851056e-08, 'epoch': 0.99}
+{'loss': 1.3977, 'grad_norm': 0.0806964710354805, 'learning_rate': 4.952197568147687e-08, 'epoch': 0.99}
+{'loss': 1.4131, 'grad_norm': 0.08202776312828064, 'learning_rate': 4.5481242553657706e-08, 'epoch': 0.99}
+{'loss': 1.3974, 'grad_norm': 0.08773612976074219, 'learning_rate': 4.161243511438539e-08, 'epoch': 0.99}
+{'loss': 1.386, 'grad_norm': 0.08181244134902954, 'learning_rate': 3.791555602469798e-08, 'epoch': 0.99}
+{'loss': 1.4013, 'grad_norm': 0.08670004457235336, 'learning_rate': 3.439060782747805e-08, 'epoch': 0.99}
+{'loss': 1.3889, 'grad_norm': 0.09117128700017929, 'learning_rate': 3.103759294723063e-08, 'epoch': 1.0}
+{'loss': 1.4012, 'grad_norm': 0.08086822926998138, 'learning_rate': 2.7856513690249775e-08, 'epoch': 1.0}
+{'loss': 1.427, 'grad_norm': 0.08733095973730087, 'learning_rate': 2.4847372244590773e-08, 'epoch': 1.0}
+{'loss': 1.408, 'grad_norm': 0.08311402052640915, 'learning_rate': 2.2010170680042408e-08, 'epoch': 1.0}
+{'loss': 1.4271, 'grad_norm': 0.08975618332624435, 'learning_rate': 1.9344910948071448e-08, 'epoch': 1.0}
+{'loss': 1.4141, 'grad_norm': 0.08004562556743622, 'learning_rate': 1.6851594881933663e-08, 'epoch': 1.0}
+{'loss': 1.4182, 'grad_norm': 0.08376540243625641, 'learning_rate': 1.4530224196618314e-08, 'epoch': 1.0}
+{'loss': 1.3882, 'grad_norm': 0.08376108109951019, 'learning_rate': 1.2380800488820399e-08, 'epoch': 1.0}
+{'loss': 1.4305, 'grad_norm': 0.08405148983001709, 'learning_rate': 1.0403325236940652e-08, 'epoch': 1.0}
+{'loss': 1.4366, 'grad_norm': 0.08416363596916199, 'learning_rate': 8.59779980119657e-09, 'epoch': 1.0}
+{'loss': 1.4319, 'grad_norm': 0.07999866455793381, 'learning_rate': 6.964225423428117e-09, 'epoch': 1.0}
+{'loss': 1.3922, 'grad_norm': 0.08896540850400925, 'learning_rate': 5.5026032272920135e-09, 'epoch': 1.0}
+{'loss': 1.4084, 'grad_norm': 0.08230842649936676, 'learning_rate': 4.2129342181229655e-09, 'epoch': 1.0}
+{'loss': 1.4082, 'grad_norm': 0.08523177355527878, 'learning_rate': 3.0952192829614146e-09, 'epoch': 1.0}
+{'loss': 1.4133, 'grad_norm': 0.08431436866521835, 'learning_rate': 2.1494591906368042e-09, 'epoch': 1.0}
+{'loss': 1.4162, 'grad_norm': 0.08624758571386337, 'learning_rate': 1.3756545916843166e-09, 'epoch': 1.0}
+{'loss': 1.4141, 'grad_norm': 0.09122331440448761, 'learning_rate': 7.73806018289358e-10, 'epoch': 1.0}
+{'loss': 1.3903, 'grad_norm': 0.08680872619152069, 'learning_rate': 3.4391388448185013e-10, 'epoch': 1.0}
+{'loss': 1.4261, 'grad_norm': 0.08283460140228271, 'learning_rate': 8.597848591418433e-11, 'epoch': 1.0}
+{'loss': 1.4198, 'grad_norm': 0.08847538381814957, 'learning_rate': 0.0, 'epoch': 1.0}
+{'train_runtime': 32923.2682, 'train_samples_per_second': 30.374, 'train_steps_per_second': 0.119, 'train_loss': 1.4646559251129962, 'epoch': 1.0}
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/requirements.txt b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f47bafa7ba36fa343927f31d466b172f425e32c8
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/requirements.txt
@@ -0,0 +1,125 @@
+nvidia-nvtx-cu11==11.8.86
+nvidia-nvtx-cu12==12.4.127
+pandas==2.3.3
+peft==0.17.1
+nvidia-cufft-cu12==11.2.1.3
+Jinja2==3.1.6
+httpcore==1.0.9
+nvidia-cuda-runtime-cu11==11.8.89
+charset-normalizer==3.4.4
+scikit-learn==1.7.2
+nvidia-cusolver-cu11==11.4.1.48
+timm==1.0.12
+nvidia-cusparse-cu11==11.7.5.86
+aiosignal==1.4.0
+nvidia-curand-cu11==10.3.0.86
+pydantic_core==2.41.5
+mpmath==1.3.0
+async-timeout==5.0.1
+fsspec==2025.10.0
+numpy==2.2.6
+GitPython==3.1.46
+tqdm==4.67.1
+click==8.3.1
+accelerate==1.12.0
+nvidia-cuda-runtime-cu12==12.4.127
+threadpoolctl==3.6.0
+exceptiongroup==1.3.1
+smmap==5.0.2
+xxhash==3.6.0
+nvidia-cusparse-cu12==12.3.1.170
+pytz==2025.2
+aiohappyeyeballs==2.6.1
+requests==2.32.5
+dill==0.4.0
+nvidia-cuda-cupti-cu11==11.8.87
+nvidia-cusparselt-cu12==0.6.2
+torch==2.4.0+cu118
+pillow==12.0.0
+pip==25.3
+wheel==0.45.1
+protobuf==6.33.4
+nvidia-curand-cu12==10.3.5.147
+ninja==1.13.0
+nvidia-cufft-cu11==10.9.0.58
+safetensors==0.7.0
+annotated-types==0.7.0
+hjson==3.1.0
+certifi==2026.1.4
+scipy==1.15.3
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-nvrtc-cu11==11.8.89
+typing-inspection==0.4.2
+urllib3==2.6.3
+torchaudio==2.6.0+cu124
+torch==2.6.0+cu124
+networkx==3.4.2
+deepspeed==0.18.4
+yarl==1.22.0
+sympy==1.13.1
+packaging==25.0
+h11==0.16.0
+nvidia-nvjitlink-cu12==12.4.127
+gitdb==4.0.12
+nvidia-cudnn-cu11==9.1.0.70
+nvidia-cudnn-cu12==9.1.0.70
+sentry-sdk==2.49.0
+tzdata==2025.3
+setuptools==80.9.0
+hf-xet==1.2.0
+MarkupSafe==2.1.5
+pyarrow==22.0.0
+httpx==0.28.1
+py-cpuinfo==9.0.0
+nvidia-nccl-cu12==2.21.5
+huggingface-hub==0.36.0
+xformers==0.0.29.post3
+evaluate==0.4.6
+python-dateutil==2.9.0.post0
+idna==3.11
+filelock==3.20.2
+multiprocess==0.70.18
+attrs==25.4.0
+anyio==4.12.1
+pydantic==2.12.5
+nvidia-cuda-cupti-cu12==12.4.127
+typing_extensions==4.15.0
+datasets==4.4.2
+einops==0.8.1
+nvidia-cusolver-cu12==11.6.1.9
+multidict==6.7.0
+regex==2025.11.3
+nvidia-nccl-cu11==2.20.5
+tokenizers==0.19.1
+nvidia-cublas-cu12==12.4.5.8
+psutil==7.2.1
+aiohttp==3.13.3
+propcache==0.4.1
+platformdirs==4.5.1
+triton==3.2.0
+msgpack==1.1.2
+nvidia-cublas-cu11==11.11.3.6
+llm2vec==0.2.3
+torchvision==0.21.0+cu124
+joblib==1.5.3
+wandb==0.23.1
+six==1.17.0
+PyYAML==6.0.3
+frozenlist==1.8.0
+transformers==4.44.0
+zipp==3.19.2
+more-itertools==10.3.0
+importlib_metadata==8.0.0
+jaraco.functools==4.0.1
+inflect==7.3.1
+jaraco.text==3.12.1
+wheel==0.45.1
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+typing_extensions==4.12.2
+typeguard==4.3.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+jaraco.context==5.3.0
+packaging==24.2
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/wandb-metadata.json b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..a4d2c471a4e7037044ed00aa455f6d4deabab247
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/wandb-metadata.json
@@ -0,0 +1,146 @@
+{
+  "os":  "Linux-5.4.0-42-generic-x86_64-with-glibc2.35",
+  "python":  "CPython 3.10.19",
+  "startedAt":  "2026-01-13T14:49:42.351538Z",
+  "args":  [
+    "--local_rank=0",
+    "--deepspeed",
+    "./script/deepspeed/zero2.json",
+    "--model_name_or_path",
+    "/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct",
+    "--model_type",
+    "llama3-8b",
+    "--version",
+    "plain",
+    "--data_path",
+    "/llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json",
+    "--mm_projector_type",
+    "mlp2x_gelu",
+    "--tune_mm_mlp_adapter",
+    "True",
+    "--image_aspect_ratio",
+    "square",
+    "--bf16",
+    "True",
+    "--output_dir",
+    "/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain",
+    "--num_train_epochs",
+    "1",
+    "--per_device_train_batch_size",
+    "8",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "4",
+    "--evaluation_strategy",
+    "no",
+    "--save_strategy",
+    "steps",
+    "--save_steps",
+    "100000",
+    "--save_total_limit",
+    "1",
+    "--learning_rate",
+    "5e-4",
+    "--weight_decay",
+    "0.",
+    "--warmup_ratio",
+    "0.03",
+    "--lr_scheduler_type",
+    "cosine",
+    "--logging_steps",
+    "1",
+    "--tf32",
+    "True",
+    "--model_max_length",
+    "2048",
+    "--gradient_checkpointing",
+    "True",
+    "--dataloader_num_workers",
+    "4",
+    "--lazy_preprocess",
+    "True",
+    "--report_to",
+    "wandb"
+  ],
+  "program":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py",
+  "codePath":  "bunny/train/train.py",
+  "codePathLocal":  "bunny/train/train.py",
+  "email":  "yuxm02@gmail.com",
+  "root":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense",
+  "host":  "h-liuchonghan-rler1225-a800-a100-2nodes-m-0",
+  "executable":  "/llm-align/liuchonghan/env/envs/bunny/bin/python",
+  "cpu_count":  128,
+  "cpu_count_logical":  255,
+  "gpu":  "NVIDIA A800-SXM4-80GB",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "53687091200",
+      "used":  "15148806144"
+    }
+  },
+  "memory":  {
+    "total":  "2164358094848"
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-de894aa2-80ed-5287-811c-51192fa8348e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550"
+    }
+  ],
+  "cudaVersion":  "12.4",
+  "writerId":  "mwnl7hrs0a392l5mmm095780to1kdu6d"
+}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/wandb-summary.json b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..d67a31c70b08f9c6bde44990c40661f91e976479
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train/learning_rate":0,"train_loss":1.4646559251129962,"_timestamp":1.7683487016664848e+09,"train/global_step":3906,"total_flos":1.4782740625270768e+19,"train/epoch":0.999936,"train_runtime":32923.2682,"_runtime":32914,"train_samples_per_second":30.374,"_wandb":{"runtime":32914},"_step":3906,"train/grad_norm":0.08847538381814957,"train_steps_per_second":0.119,"train/loss":1.4198}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..33136960dc1029ae694f7b6a3afdf4e179184c69
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug-internal.log
@@ -0,0 +1,19 @@
+{"time":"2026-01-13T22:49:43.50777962+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-13T22:49:44.326464316+08:00","level":"INFO","msg":"stream: created new stream","id":"idx5bv8k"}
+{"time":"2026-01-13T22:49:44.326592764+08:00","level":"INFO","msg":"handler: started","stream_id":"idx5bv8k"}
+{"time":"2026-01-13T22:49:44.327045163+08:00","level":"INFO","msg":"stream: started","id":"idx5bv8k"}
+{"time":"2026-01-13T22:49:44.327116127+08:00","level":"INFO","msg":"writer: started","stream_id":"idx5bv8k"}
+{"time":"2026-01-13T22:49:44.327147838+08:00","level":"INFO","msg":"sender: started","stream_id":"idx5bv8k"}
+{"time":"2026-01-13T23:16:55.853511593+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T00:15:32.056821504+08:00","level":"INFO","msg":"api: retrying HTTP error","status":500,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"{\"error\":\"context deadline exceeded\"}"}
+{"time":"2026-01-14T00:16:40.030436551+08:00","level":"INFO","msg":"api: retrying HTTP error","status":500,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"{\"error\":\"context deadline exceeded\"}"}
+{"time":"2026-01-14T01:33:46.502424149+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T01:36:18.839797789+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T01:50:02.144675052+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T01:55:17.544745481+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T04:40:17.278528552+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/idx5bv8k/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T07:58:25.26478688+08:00","level":"INFO","msg":"stream: closing","id":"idx5bv8k"}
+{"time":"2026-01-14T07:58:27.632916706+08:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2026-01-14T07:58:28.194288215+08:00","level":"INFO","msg":"handler: closed","stream_id":"idx5bv8k"}
+{"time":"2026-01-14T07:58:28.194425883+08:00","level":"INFO","msg":"sender: closed","stream_id":"idx5bv8k"}
+{"time":"2026-01-14T07:58:28.194453752+08:00","level":"INFO","msg":"stream: closed","id":"idx5bv8k"}
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug.log b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..0bd4e7c7244ec8e83214ba3fdca81e7ea428de45
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug.log
@@ -0,0 +1,26 @@
+2026-01-13 22:49:42,362 INFO    MainThread:206956 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-13 22:49:42,362 INFO    MainThread:206956 [wandb_setup.py:_flush():80] Configure stats pid to 206956
+2026-01-13 22:49:42,362 INFO    MainThread:206956 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-13 22:49:42,362 INFO    MainThread:206956 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/settings
+2026-01-13 22:49:42,362 INFO    MainThread:206956 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-13 22:49:42,362 INFO    MainThread:206956 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug.log
+2026-01-13 22:49:42,363 INFO    MainThread:206956 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/logs/debug-internal.log
+2026-01-13 22:49:42,363 INFO    MainThread:206956 [wandb_init.py:init():841] calling init triggers
+2026-01-13 22:49:42,363 INFO    MainThread:206956 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-13 22:49:42,363 INFO    MainThread:206956 [wandb_init.py:init():889] starting backend
+2026-01-13 22:49:43,476 INFO    MainThread:206956 [wandb_init.py:init():892] sending inform_init request
+2026-01-13 22:49:43,504 INFO    MainThread:206956 [wandb_init.py:init():900] backend started and connected
+2026-01-13 22:49:43,505 INFO    MainThread:206956 [wandb_init.py:init():970] updated telemetry
+2026-01-13 22:49:43,507 INFO    MainThread:206956 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2026-01-13 22:49:51,043 INFO    MainThread:206956 [wandb_init.py:init():1041] starting run threads in backend
+2026-01-13 22:49:51,498 INFO    MainThread:206956 [wandb_run.py:_console_start():2521] atexit reg
+2026-01-13 22:49:51,498 INFO    MainThread:206956 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2026-01-13 22:49:51,498 INFO    MainThread:206956 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2026-01-13 22:49:51,498 INFO    MainThread:206956 [wandb_run.py:_redirect():2461] Redirects installed.
+2026-01-13 22:49:51,509 INFO    MainThread:206956 [wandb_init.py:init():1081] run started, returning control to user process
+2026-01-13 22:49:51,512 INFO    MainThread:206956 [wandb_run.py:_config_callback():1396] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 8192, 'hidden_size': 4096, 'intermediate_size': 14336, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': False, 'rope_theta': 500000.0, 'rope_scaling': None, 'attention_bias': False, 'attention_dropout': 0.0, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': '/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct', 'transformers_version': '4.44.0', 'model_type': 'bunny-llama', 'use_mm_proj': True, 'mm_projector_type': 'mlp2x_gelu', 'mm_hidden_size': 1280, 'image_aspect_ratio': 'square', 'tokenizer_padding_side': 'right', 'tokenizer_model_max_length': 2048, 'tune_mm_mlp_adapter': True, 'freeze_mm_mlp_adapter': False, 'mm_projector_lr': None, 'use_s2': False, 'output_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'eval_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0005, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 1.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan13_22-46-57_h-liuchonghan-rler1225-a800-a100-2nodes-m-0', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1.0, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100000, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': True, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': './script/deepspeed/zero2.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': True, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'no', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'eval_use_gather_object': False, 'cache_dir': None, 'mpt_attn_impl': 'triton', 'model_max_length': 2048, 'group_by_modality_length': False}
+2026-01-13 22:49:51,531 INFO    MainThread:206956 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 8052289536 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f8722d9ffa0>>
+2026-01-13 22:49:51,531 INFO    MainThread:206956 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 8052289536 None
+2026-01-14 07:58:25,265 INFO    wandb-AsyncioManager-main:206956 [service_client.py:_forward_responses():80] Reached EOF.
+2026-01-14 07:58:25,265 INFO    wandb-AsyncioManager-main:206956 [mailbox.py:close():137] Closing mailbox, abandoning 2 handles.
diff --git a/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/run-idx5bv8k.wandb b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/run-idx5bv8k.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..84bb96104438939dbc2b3ee8904175822e143ced
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260113_224942-idx5bv8k/run-idx5bv8k.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d4df5e02673a460677e236b12aaa85d1a1b7b78eb9320dbd8f2faac33194c2b
+size 16957751
diff --git a/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/output.log b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..bf01e6b9cac1abaa43a8f448ab389d1cc93da461
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/output.log
@@ -0,0 +1,1376 @@
+  0%|                                                                                                                                                                                                              | 0/3906 [00:00<?, ?it/s]/llm-align/liuchonghan/env/envs/bunny/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py:745: UserWarning: torch.utils.checkpoint: the use_reentrant parameter should be passed explicitly. In version 2.5 we will raise an exception if use_reentrant is not passed. use_reentrant=False is recommended, but if you need to preserve the current default behavior, you can pass use_reentrant=True. Refer to docs for more details on the differences between the two variants.
+  return fn(*args, **kwargs)
+                                                                                                                                                                                                                                            
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 4.23728813559322e-06, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 8.47457627118644e-06, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 1.2711864406779663e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 1.694915254237288e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 2.11864406779661e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 2.5423728813559325e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 2.9661016949152544e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 3.389830508474576e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 3.813559322033899e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 4.23728813559322e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 4.6610169491525425e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 5.084745762711865e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 5.508474576271186e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 5.932203389830509e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 6.35593220338983e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 6.779661016949152e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 7.203389830508474e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 7.627118644067798e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 8.050847457627118e-05, 'epoch': 0.0}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 8.47457627118644e-05, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 8.898305084745763e-05, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 9.322033898305085e-05, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 9.745762711864407e-05, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001016949152542373, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001059322033898305, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00011016949152542372, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00011440677966101696, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00011864406779661017, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001228813559322034, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001271186440677966, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00013135593220338986, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00013559322033898305, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00013983050847457627, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00014406779661016949, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001483050847457627, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00015254237288135595, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00015677966101694914, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00016101694915254236, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001652542372881356, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001694915254237288, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00017372881355932204, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00017796610169491526, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00018220338983050845, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0001864406779661017, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00019067796610169492, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00019491525423728814, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00019915254237288136, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002033898305084746, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002076271186440678, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000211864406779661, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00021610169491525426, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00022033898305084745, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002245762711864407, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002288135593220339, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002330508474576271, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00023728813559322035, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00024152542372881357, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002457627118644068, 'epoch': 0.01}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00025, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002542372881355932, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00025847457627118644, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002627118644067797, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002669491525423729, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002711864406779661, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002754237288135593, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00027966101694915254, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002838983050847458, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00028813559322033897, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002923728813559322, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0002966101694915254, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00030084745762711863, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003050847457627119, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003093220338983051, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003135593220338983, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003177966101694915, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003220338983050847, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000326271186440678, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003305084745762712, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00033474576271186443, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003389830508474576, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003432203389830508, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003474576271186441, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003516949152542373, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003559322033898305, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00036016949152542374, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003644067796610169, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003686440677966102, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003728813559322034, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003771186440677966, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038135593220338984, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003855932203389831, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038983050847457627, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003940677966101695, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003983050847457627, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040254237288135593, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004067796610169492, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004110169491525424, 'epoch': 0.02}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004152542372881356, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004194915254237288, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000423728813559322, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004279661016949153, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004322033898305085, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043644067796610173, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004406779661016949, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004449152542372881, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004491525423728814, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004533898305084746, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004576271186440678, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046186440677966104, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004661016949152542, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004703389830508475, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004745762711864407, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004788135593220339, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048305084745762714, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004872881355932203, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004915254237288136, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004957627118644068, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0005, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999999140215142, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999996560861156, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999992261939817, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999986243454084, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999978505408094, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499996904780717, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999957870657818, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999944973967727, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999930357745766, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999914022001988, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499989596674763, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999876191995112, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999854697758034, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499983148405118, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999806550890519, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999779898293199, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999751526277554, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999721434863098, 'epoch': 0.03}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999689624070528, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999656093921725, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999620844439753, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999583875648857, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999545187574463, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999504780243186, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999462653682815, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999418807922328, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999373242991884, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999325958922823, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999276955747667, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999226233500124, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499917379221508, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999119631928608, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999063752677959, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004999006154501568, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998946837439055, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998885801531219, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499882304682004, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998758573348686, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998692381161501, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998624470304014, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998554840822937, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998483492766163, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998410426182766, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998335641123005, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998259137638319, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998180915781327, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998100975605836, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004998019317166827, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997935940520469, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997850845724111, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997764032836283, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997675501916698, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499758525302625, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997493286227014, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997399601582248, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997304199156388, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997207079015059, 'epoch': 0.04}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499710824122506, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004997007685854376, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996905412972171, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996801422648791, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996695714955765, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996588289965799, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996479147752784, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996368288391792, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996255711959074, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996141418532063, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004996025408189375, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995907681010803, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995788237077325, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995667076471096, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995544199275456, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995419605574921, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995293295455192, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995165269003147, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004995035526306846, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004994904067455531, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004994770892539622, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004994636001650722, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004994499394881611, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004994361072326251, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004994221034079785, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004994079280238535, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004993935810900003, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004993790626162871, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004993643726127002, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004993495110893438, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004993344780564399, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004993192735243288, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004993038975034684, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499288350004435, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004992726310379227, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000499256740614743, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004992406787458261, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004992244454422198, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004992080407150897, 'epoch': 0.05}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004991914645757194, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004991747170355106, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004991577981059826, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004991407077987727, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004991234461256363, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004991060130984462, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004990884087291934, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004990706330299866, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004990526860130526, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004990345676907358, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004990162780754984, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004989978171799207, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004989791850167003, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004989603815986532, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004989414069387128, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004989222610499305, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004989029439454752, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004988834556386339, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004988637961428112, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004988439654715292, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004988239636384284, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004988037906572662, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004987834465419185, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004987629313063784, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004987422449647567, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004987213875312823, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004987003590203014, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004986791594462779, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004986577888237936, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004986362471675478, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004986145344923575, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004985926508131571, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000498570596144999, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000498548370503053, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004985259739026062, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000498503406359064, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004984806678879488, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004984577585049008, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004984346782256776, 'epoch': 0.06}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004984114270661547, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004983880050423247, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004983644121702981, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004983406484663025, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004983167139466834, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004982926086279036, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004982683325265434, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004982438856593004, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004982192680429902, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004981944796945452, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004981695206310156, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004981443908695691, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004981190904274904, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000498093619322182, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004980679775711635, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004980421651920721, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004980161822026624, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000497990028620806, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004979637044644921, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004979372097518274, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004979105445010355, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004978837087304575, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004978567024585519, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004978295257038942, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004978021784851776, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004977746608212122, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004977469727309251, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004977191142333614, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004976910853476826, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004976628860931679, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004976345164892134, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004976059765553328, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004975772663111564, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004975483857764321, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004975193349710245, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004974901139149158, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004974607226282047, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004974311611311078, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000497401429443958, 'epoch': 0.07}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004973715275872058, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004973414555814184, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004973112134472801, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004972808012055923, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004972502188772737, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004972194664833593, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004971885440450016, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00049715745158347, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004971261891201505, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004970947566765465, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004970631542742781, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004970313819350822, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000496999439680813, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004969673275334409, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004969350455150536, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004969025936478558, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004968699719541687, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004968371804564304, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004968042191771956, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004967710881391363, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004967377873650407, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004967043168778143, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004966706767004787, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004966368668561727, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004966028873681517, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004965687382597878, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004965344195545694, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004964999312761023, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004964652734481082, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004964304460944257, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004963954492390101, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004963602829059334, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004963249471193837, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004962894419036661, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004962537672832019, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004962179232825294, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004961819099263029, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004961457272392933, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004961093752463882, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004960728539725916, 'epoch': 0.08}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004960361634430238, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004959993036829214, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004959622747176377, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004959250765726422, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000495887709273521, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004958501728459762, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004958124673158264, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004957745927090066, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004957365490515679, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004956983363696779, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004956599546896203, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000495621404037795, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004955826844407185, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004955437959250228, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004955047385174568, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004954655122448852, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000495426117134289, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004953865532127652, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004953468205075269, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004953069190459033, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00049526684885534, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004952266099633982, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004951862023977555, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004951456261862051, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004951048813566565, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004950639679371353, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004950228859557828, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004949816354408564, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004949402164207291, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004948986289238904, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004948568729789452, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004948149486146143, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004947728558597346, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004947305947432585, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004946881652942546, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000494645567541907, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004946028015155153, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004945598672444956, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004945167647583791, 'epoch': 0.09}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000494473494086813, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004944300552595598, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004943864483064981, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004943426732576221, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004942987301430415, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004942546189929814, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004942103398377827, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004941658927079019, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004941212776339111, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004940764946464976, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004940315437764645, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004939864250547302, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004939411385123288, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004938956841804093, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004938500620902367, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004938042722731911, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004937583147607681, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004937121895845783, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004936658967763481, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000493619436367919, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004935728083912477, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004935260128784061, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004934790498615817, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004934319193730767, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004933846214453091, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004933371561108114, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004932895234022319, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004932417233523334, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004931937559939942, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004931456213602078, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004930973194840823, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000493048850398841, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004930002141378227, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004929514107344803, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004929024402223826, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004928533026352124, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004928039980067681, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004927545263709631, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004927048877618249, 'epoch': 0.1}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004926550822134967, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004926051097602359, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004925549704364149, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004925046642765212, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004924541913151566, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004924035515870379, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004923527451269964, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004923017719699782, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004922506321510441, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004921993257053696, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004921478526682446, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004920962130750737, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000492044406961376, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004919924343627853, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004919402953150498, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004918879898540321, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004918355180157094, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004917828798361732, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004917300753516296, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004916771045983991, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004916239676129163, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004915706644317303, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004915171950915047, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000491463559629017, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004914097580811592, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004913557904849377, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004913016568774725, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004912473572959987, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004911928917778648, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004911382603605337, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004910834630815823, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000491028499978702, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004909733710896978, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004909180764524889, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004908626161051084, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004908069900857036, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004907511984325356, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004906952411839794, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004906391183785241, 'epoch': 0.11}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004905828300547722, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004905263762514408, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004904697570073602, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004904129723614746, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004903560223528422, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004902989070206347, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004902416264041377, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004901841805427505, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004901265694759858, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004900687932434701, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004900108518849437, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048995274544026, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004898944739493864, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004898360374524036, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004897774359895058, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004897186696010009, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048965973832731, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004896006422089676, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004895413812866218, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004894819556010337, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000489422365193078, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004893626101037427, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004893026903741291, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004892426060454515, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004891823571590377, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004891219437563285, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004890613658788779, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004890006235683532, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004889397168665345, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004888786458153151, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004888174104567015, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000488756010832813, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000488694446985882, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004886327189582538, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004885708267923869, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004885087705308521, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004884465502163337, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004883841658916284, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004883216175996458, 'epoch': 0.12}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004882589053834086, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004881960292860518, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004881329893508235, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004880697856210843, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048800641814030746, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004879428869520788, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048787919210009693, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000487815333628173, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048775131158023056, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004876871260003058, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004876227769325473, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004875582644212163, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048749358851068607, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004874287492454427, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004873637466700843, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004872985808293216, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004872332517679774, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004871677595309868, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004871021041633973, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004870362857103684, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048697030421717194, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048690415972919176, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000486837852291924, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004867713819509766, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004867047487520698, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048663795274103585, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004865709939638188, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004865038724664747, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004864365882951718, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004863691414961898, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004863015321159206, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048623376020086794, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048616582579764705, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004860977289529852, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048602946971372117, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048596104812680574, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004858924642393011, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048582371809838124, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048575480975133144, 'epoch': 0.13}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004856857392455491, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048561650662854263, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004855471119479322, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004854775552514494, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048540783658693735, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004853379560023504, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048526791354575434, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004851977092653264, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048512734320935505, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004850568154262399, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048498612596449217, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004849152748727338, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004848442621996982, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048477308799423, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004847017523052846, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048463025518192886, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048455859667334046, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000484486776828808, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004844147956977313, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004843426533296209, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004842703497740984, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004841978850808961, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004841252592998575, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004840524724809363, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004839795246741975, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048390641592981656, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048383314629807974, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048375971582938394, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048368612457423677, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004836123725832562, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048353845990717093, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004834643865968202, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048339015270315377, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004833157582772317, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004832412033702245, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048316648803341315, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048309161231818905, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004830165762760537, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048294137995861895, 'epoch': 0.14}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048286602341760703, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004827905067048502, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000482714829872291, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000482638992971982, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000482562996056086, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048248683917687574, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048241052238673414, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000482334045738154, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048225740928373796, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004821806130761988, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004821036571683591, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048202654161315134, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004819492664636176, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004818718317729101, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004817942375942903, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004817164839811299, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048163857098690977, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004815604986652208, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048148226706976326, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004814038762543471, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048132532627289163, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048124661717942563, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048116774902808756, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048108872187312514, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004810095357688954, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048093019076986466, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048085068693060876, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004807710243058125, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004806912029502703, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004806112229188854, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048053108426667016, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048045078704874627, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048037033132034446, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048028971713680443, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00048020894455357477, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004801280136262132, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004800469244103861, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004799656769618691, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047988427133654647, 'epoch': 0.15}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047980270759041105, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047972098577956485, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004796391059602183, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004795570681886907, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047947487252140996, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004793925190149124, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047931000772584323, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047922733871095586, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004791445120271124, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004790615277312834, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004789783858805477, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004788950865320927, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047881162974321384, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047872801557131517, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004786442440739088, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004785603153086151, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047847622933316257, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047839198620538796, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004783075859832361, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047822302872475966, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047813831448811954, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047805344333158464, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047796841531353156, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004778832304924451, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047779788892691766, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047771239067564953, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004776267357974489, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047754092435123145, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004774549563960207, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004773688319909479, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004772825511952518, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004771961140682787, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047710952066948244, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004770227710584245, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004769358652947735, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004768488034383057, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004767615855489048, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004766742116865617, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047658668191137435, 'epoch': 0.16}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047649899628354834, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004764111548633962, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004763231577113378, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047623500488790007, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004761466964537169, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004760582324695292, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004759696129961852, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047588083809463967, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004757919078259545, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047570282225129835, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004756135814319469, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047552418542928245, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047543463430479397, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047534492812007726, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004752550669368347, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004751650508168755, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047507487982211504, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004749845540145755, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047489407345638557, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047480343820978024, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047471264833710093, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004746217039007955, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047453060496341804, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047443935158762897, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004743479438361948, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004742563817719886, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047416466545798896, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004740727949572812, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004739807703330563, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004738885916486113, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047379625896734937, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004737037723527794, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047361113186851635, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000473518337578281, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047342538954589963, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047333228783530466, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004732390325105341, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004731456236357314, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004730520612751458, 'epoch': 0.17}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004729583454931322, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047286447635415087, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004727704539227676, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047267627826365376, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004725819494415858, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004724874675214459, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004723928325682213, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004722980446470045, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004722031038229933, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004721080101614907, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004720127637279047, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004719173645877485, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004718218128066403, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004717261084503032, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004716302515845654, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047153424227536, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047143808058872473, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004713417665908023, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047124530034784026, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047114868192619066, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047105191139231047, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004709549888127611, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047085791425420856, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004707606877834235, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000470663309467281, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004705657793727605, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047046809756694604, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047037026411702584, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004702722790902924, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004701741425541427, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00047007585457607763, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046997741522370254, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046987882456472663, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004697800826669635, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004696811895983303, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046958214542684875, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046948295022064394, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004693836040479452, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004692841069770856, 'epoch': 0.18}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046918445907650206, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004690846604147351, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000468984711060429, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004688846110823318, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000468784360549295, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046868395953027366, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004685834080943265, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004684827063106156, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004683818542484065, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004682808519770679, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046817969956607205, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046807839708499447, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004679769446035137, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004678753421914117, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046777358991857346, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004676716878549868, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004675696360707431, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046746743463603636, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046736508362116335, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046726258309652427, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004671599331326216, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000467057133800061, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004669541851695506, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004668510873119014, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046674784029802696, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046664444419894347, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004665408990857697, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046643720502972675, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004663333621021384, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004662293703744306, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004661252299181319, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046602094080487285, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046591650310638655, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004658119168945081, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004657071822411748, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000465602299218426, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004654972678984034, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004653920883533502, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000465286760655612, 'epoch': 0.19}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004651812848776361, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046507566109197155, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004649698893712695, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004648639697882826, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046475790241586534, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004646516873269738, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046454532459466567, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004644388142921003, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046433215649253825, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046422535126934187, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046411839869597474, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004640112988460018, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046390405179308936, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046379665761100486, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004636891163736171, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004635814281548959, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004634735930289122, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004633656110698381, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004632574823519465, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004631492069496113, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004630407849373075, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004629322163896107, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004628235013811973, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004627146399868447, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004626056322814307, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004624964783399338, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046238717823743314, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004622777320491084, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046216813985023973, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004620584017162077, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046194851772249324, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046183848794467767, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004617283124584425, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046161799133956946, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046150752466394055, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046139691250753783, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004612861549464434, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046117525205683946, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046106420391500805, 'epoch': 0.2}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004609530105973312, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046084167218029073, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046073018874046837, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004606185603545455, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004605067870993033, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004603948690516224, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004602828062884833, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00046017059888696577, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004600582469242493, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004599457504776127, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045983310962443403, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045972032444219094, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045960739500846014, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004594943214009177, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004593811036973389, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045926774197559774, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004591542363136679, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045904058678962153, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045892679348163003, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045881285646796356, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045869877582699114, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045858455163718076, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045847018397709896, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004583556729254109, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004582410185608805, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004581262209623703, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004580112802088413, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045789619637935295, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000457780969553063, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045766559980922784, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045755008722720184, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045743443188643785, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004573186338664869, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004572026932469979, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045708661010771836, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004569703845284932, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004568540165892658, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045673750637007714, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004566208539510663, 'epoch': 0.21}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045650405941247005, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045638712283462284, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045627004429795706, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004561528238830025, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045603546167038663, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045591795774083447, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004558003121751685, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004556825250543086, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045556459645927205, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045544652647117344, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004553283151712246, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004552099626407345, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045509146896110944, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004549728342138525, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004548540584805642, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045473514184294153, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004546160843827789, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045449688618196714, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045437754732249435, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000454258067886445, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045413844795600024, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045401868761343824, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004538987869411333, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045377874602155655, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045365856493727547, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045353824377095396, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004534177826053523, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045329718152332694, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045317644060783083, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004530555599419127, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004529345396087179, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004528133796914875, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045269208027355856, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045257064143836435, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004524490632694338, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004523273458503918, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045220548926495896, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045208349359695166, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004519613589302819, 'epoch': 0.22}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045183908534895733, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004517166729370812, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045159412177885207, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045147143195856397, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045134860356060657, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045122563666946463, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045110253136971813, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045097928774604233, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004508559058832078, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004507323858660798, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045060872777961887, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004504849317088806, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045036099773901534, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004502369259552683, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00045011271644297956, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004499883692875839, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004498638845746107, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000449739262389684, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044961450281852253, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044948960594693924, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004493645718608418, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044923940064623216, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004491140923892065, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044898864717595534, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004488630650927634, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044873734622600956, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004486114906621668, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044848549848780197, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044835936978957603, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044823310465424396, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004481067031686543, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044798016541974957, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044785349149456587, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044772668148023326, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000447599735463975, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044747265353310825, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044734543577504336, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004472180822772843, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004470905931274285, 'epoch': 0.23}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004469629684131664, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044683520822228184, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004467073126426519, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044657928176224673, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044645111566912944, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044632281445145634, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004461943781974766, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044606580699553224, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000445937100934058, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004458082601015817, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004456792845867235, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004455501744781964, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000445420929864806, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004452915508354503, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044516203747911967, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044503238988489725, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004449026081419581, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004447726923395698, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000444642642567092, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004445124589139767, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044438214146976765, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044425169032410094, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004441211055667045, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004439903872873982, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044385953557609357, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044372855052279424, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004435974322175953, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044346618075068357, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004433347962123375, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044320327869292706, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044307162828291356, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004429398450728499, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004428079291533803, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044267588061524014, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044254369954925603, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004424113860463459, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004422789401975187, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044214636209387423, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004420136518266035, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044188080948698825, 'epoch': 0.24}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004417478351664013, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000441614728956306, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004414814909482565, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004413481212338977, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044121461990496487, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044108098705328405, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004409472227707716, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044081332714943436, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044067930028136946, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004405451422587643, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004404108531738965, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004402764331191339, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004401418821869343, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00044000720046984555, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043987238806050566, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004397374450516421, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004396023715360727, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004394671676067047, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043933183335653504, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043919636887865043, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004390607742662272, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000438925049612531, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004387891950109171, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004386532105548301, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004385170963378039, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004383808524534615, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043824447899551547, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004381079760577671, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004379713437341071, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004378345821185148, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043769769130505863, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043756067138789616, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043742352246127334, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043728624461952505, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043714883795707476, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004370113025684347, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004368736385482056, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004367358459910764, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043659792499182483, 'epoch': 0.25}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004364598756453167, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043632169804650627, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043618339229043596, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043604495847223627, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004359063966871259, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004357677070304115, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004356288895974876, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043548994448383674, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004353508717850293, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043521167159672335, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004350723440146646, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004349328891346865, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043479330705271, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004346535978647435, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043451376166688297, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043437379855531155, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043423370862629985, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004340934919762055, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004339531487014736, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004338126788986361, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004336720826643119, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004335313600952072, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004333905112881149, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043324953633991467, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000433108435347573, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004329672084081431, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004328258556187649, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004326843770766645, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004325427728791552, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000432401043123636, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043225918790759275, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043211720732859725, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043197510148430785, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004318328704724689, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043169051439091076, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004315480333375501, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043140542741038914, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004312626967075164, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043111984132710585, 'epoch': 0.26}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004309768613674175, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043083375692679705, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004306905281036756, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004305471749965699, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004304036977040824, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004302600963249006, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00043011637095779755, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042997252170163164, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004298285486553464, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042968445191797044, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004295402315886176, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004293958877664865, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004292514205508611, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004291068300411097, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004289621163366858, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042881727953712756, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042867231974205776, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042852723705118375, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042838203156429745, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004282367033812753, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000428091252602078, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042794567932675066, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004277999836554227, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042765416568830766, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004275082255257032, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042736216326799096, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004272159790156367, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042706967286918997, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004269232449292843, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042677669529663686, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042663002407204866, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004264832313564041, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004263363172506714, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004261892818559021, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004260421252732314, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042589484760387767, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042574744894914243, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004255999294104107, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042545228908915056, 'epoch': 0.27}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004253045280869131, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004251566465053325, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042500864444612574, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004248605220110929, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042471227930211653, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004245639164211623, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004244154334702782, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004242668305515951, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042411810776732606, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004239692652197668, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042382030301129546, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004236712212443723, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042352202002154005, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004233726994454232, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000423223259618729, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000423073700644246, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042292402262484517, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004227742256634792, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004226243098631826, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042247427532707174, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042232412215834444, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042217385046028024, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042202346033624026, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004218729518896671, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004217223252240845, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042157158044309775, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042142071765039325, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004212697369497388, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042111863844498297, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004209674222400557, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042081608843896754, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042066463714581013, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000420513068464756, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042036138250005817, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00042020957935605066, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004200576591371477, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041990562194784434, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004197534678927161, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004196011970764186, 'epoch': 0.28}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000419448809603688, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041929630557934085, 'epoch': 0.29}
+                                                                                                                                                                                                                                            
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004191436851082735, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041899094829546244, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004188380952459646, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004186851260649164, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041853204085753426, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041837883972911454, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041822552278503335, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004180720901307461, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004179185418717883, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041776487811377456, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041761109896239917, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004174572045234357, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041730319490273707, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041714907020623537, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004169948305399418, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041684047600994676, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041668600672241975, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041653142278360873, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041637672429984106, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041622191137752275, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004160669841231382, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004159119426432509, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004157567870445026, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004156015174336136, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041544613391738286, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004152906366026873, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004151350255964824, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041497930100580177, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041482346293775707, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041466751149953806, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004145114467984126, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041435526894172624, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004141989780369025, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004140425741914426, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004138860575129254, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041372942810900766, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041357268608742317, 'epoch': 0.29}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004134158315559837, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004132588646225781, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004131017853951725, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041294459398181046, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004127872904906126, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004126298750297767, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041247234770757735, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041231470863236643, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004121569579125724, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004119990956567006, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004118411219733331, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004116830369711286, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041152484075882245, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041136653344522634, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004112081151392283, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041104958594979327, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004108909459859616, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041073219535685057, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041057333417165315, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004104143625396386, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00041025528057015196, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004100960883726142, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004099367860565223, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040977737373144873, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004096178515070418, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004094582194930253, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040929847779919853, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004091386265354364, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000408978665811689, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040881859573798176, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040865841642441524, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004084981279811656, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004083377305184833, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004081772241466944, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040801660897619963, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040785588511747453, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040769505268106943, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004075341117776095, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040737306251779426, 'epoch': 0.3}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000407211905012398, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040705063937226916, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040688926570833095, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040672778413158053, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040656619475308944, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004064044976840035, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004062426930355423, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004060807809189997, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004059187614457432, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004057566347272146, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040559440087492896, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004054320600004753, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040526961221551617, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004051070576317877, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004049443963610996, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004047816285153346, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004046187542064491, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004044557735464726, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040429268664750773, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040412949362173017, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004039661945813886, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004038027896388048, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004036392789063731, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004034756624965608, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004033119405219079, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040314811309502676, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040298418032860264, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004028201423353929, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040265599922822753, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004024917511200088, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040232739812371104, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004021629403523809, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040199837791913694, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004018337109371699, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040166893951974216, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004015040637801883, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004013390838319143, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040117399978839796, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004010088117631888, 'epoch': 0.31}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040084351986990777, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040067812422224703, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004005126249339705, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00040034702211891315, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004001813158909813, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0004000155063641522, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039984959365247427, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003996835778700669, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039951745913112055, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039935123754989603, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039918491324072547, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003990184863180112, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039885195689622624, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003986853250899143, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039851859101368937, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003983517547822358, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039818481651030815, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003980177763127312, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039785063430439996, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003976833906002792, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000397516045315404, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039734859856487893, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003971810504638787, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003970134011276475, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039684565067149916, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003966777992108172, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003965098468610545, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003963417937377334, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003961736399564454, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003960053856328516, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039583703088268184, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003956685758217352, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039550002056587986, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003953313652310527, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039516260993325983, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039499375478857545, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003948247999131432, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039465574542317473, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003944865914349506, 'epoch': 0.32}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039431733806481945, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003941479854291986, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003939785336445735, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003938089828274978, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003936393330945933, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039346958456254976, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039329973734812494, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003931297915681447, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039295974733950215, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039278960477915877, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003926193640041431, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003924490251315517, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003922785882785483, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003921080535623641, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003919374211002976, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003917666910097147, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039159586340804824, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039142493841279823, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003912539161415316, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003910827967118823, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039091158024155096, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039074026684830516, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003905688566499789, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039039734976447304, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003902257463097547, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00039005404640385746, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003898822501648814, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038971035771099286, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038953836916042405, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003893662846314736, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003891941042425061, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000389021828111952, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003888494563583075, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003886769891001348, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003885044264560618, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003883317685447816, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003881590154850534, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003879861673957014, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003878132243956155, 'epoch': 0.33}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003876401866037506, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038746705413912695, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003872938271208299, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003871205056680098, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003869470898998821, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038677357993572675, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038659997589488894, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038642627789677833, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003862524860608692, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003860786005067005, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003859046213538755, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003857305487220619, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003855563827309917, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003853821235004613, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038520777115033086, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003850333258005248, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038485878757103163, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038468415658190347, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038450943295325647, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003843346168052704, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038415970825818866, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038398470743231827, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038380961444802966, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038363442942575656, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038345915248599627, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038328378374930905, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003831083233363185, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003829327713677111, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003827571279642365, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038258139324670706, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003824055673359979, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003822296503530472, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038205364241885545, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003818775436544859, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000381701354181064, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.000381525074119778, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038134870359187806, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038117224271867696, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003809956916215491, 'epoch': 0.34}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038081905042193167, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003806423192413231, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038046549820128407, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00038028858742343704, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003801115870294662, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003799344971411174, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003797573178801979, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003795800493685766, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003794026917281838, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037922524508101084, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037904770954911063, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003788700852545969, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037869237231964487, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003785145708664903, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003783366810174298, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037815870289482125, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003779806366210828, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037780248231869356, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037762424011019287, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037744591011818076, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003772674924653175, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037708898727432385, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.00037691039466798053, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003767317147691286, 'epoch': 0.35}
+{'loss': 0.0, 'grad_norm': 1.4142135381698608, 'learning_rate': 0.0003765529477006692, 'epoch': 0.35}
diff --git a/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/requirements.txt b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f47bafa7ba36fa343927f31d466b172f425e32c8
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/requirements.txt
@@ -0,0 +1,125 @@
+nvidia-nvtx-cu11==11.8.86
+nvidia-nvtx-cu12==12.4.127
+pandas==2.3.3
+peft==0.17.1
+nvidia-cufft-cu12==11.2.1.3
+Jinja2==3.1.6
+httpcore==1.0.9
+nvidia-cuda-runtime-cu11==11.8.89
+charset-normalizer==3.4.4
+scikit-learn==1.7.2
+nvidia-cusolver-cu11==11.4.1.48
+timm==1.0.12
+nvidia-cusparse-cu11==11.7.5.86
+aiosignal==1.4.0
+nvidia-curand-cu11==10.3.0.86
+pydantic_core==2.41.5
+mpmath==1.3.0
+async-timeout==5.0.1
+fsspec==2025.10.0
+numpy==2.2.6
+GitPython==3.1.46
+tqdm==4.67.1
+click==8.3.1
+accelerate==1.12.0
+nvidia-cuda-runtime-cu12==12.4.127
+threadpoolctl==3.6.0
+exceptiongroup==1.3.1
+smmap==5.0.2
+xxhash==3.6.0
+nvidia-cusparse-cu12==12.3.1.170
+pytz==2025.2
+aiohappyeyeballs==2.6.1
+requests==2.32.5
+dill==0.4.0
+nvidia-cuda-cupti-cu11==11.8.87
+nvidia-cusparselt-cu12==0.6.2
+torch==2.4.0+cu118
+pillow==12.0.0
+pip==25.3
+wheel==0.45.1
+protobuf==6.33.4
+nvidia-curand-cu12==10.3.5.147
+ninja==1.13.0
+nvidia-cufft-cu11==10.9.0.58
+safetensors==0.7.0
+annotated-types==0.7.0
+hjson==3.1.0
+certifi==2026.1.4
+scipy==1.15.3
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-nvrtc-cu11==11.8.89
+typing-inspection==0.4.2
+urllib3==2.6.3
+torchaudio==2.6.0+cu124
+torch==2.6.0+cu124
+networkx==3.4.2
+deepspeed==0.18.4
+yarl==1.22.0
+sympy==1.13.1
+packaging==25.0
+h11==0.16.0
+nvidia-nvjitlink-cu12==12.4.127
+gitdb==4.0.12
+nvidia-cudnn-cu11==9.1.0.70
+nvidia-cudnn-cu12==9.1.0.70
+sentry-sdk==2.49.0
+tzdata==2025.3
+setuptools==80.9.0
+hf-xet==1.2.0
+MarkupSafe==2.1.5
+pyarrow==22.0.0
+httpx==0.28.1
+py-cpuinfo==9.0.0
+nvidia-nccl-cu12==2.21.5
+huggingface-hub==0.36.0
+xformers==0.0.29.post3
+evaluate==0.4.6
+python-dateutil==2.9.0.post0
+idna==3.11
+filelock==3.20.2
+multiprocess==0.70.18
+attrs==25.4.0
+anyio==4.12.1
+pydantic==2.12.5
+nvidia-cuda-cupti-cu12==12.4.127
+typing_extensions==4.15.0
+datasets==4.4.2
+einops==0.8.1
+nvidia-cusolver-cu12==11.6.1.9
+multidict==6.7.0
+regex==2025.11.3
+nvidia-nccl-cu11==2.20.5
+tokenizers==0.19.1
+nvidia-cublas-cu12==12.4.5.8
+psutil==7.2.1
+aiohttp==3.13.3
+propcache==0.4.1
+platformdirs==4.5.1
+triton==3.2.0
+msgpack==1.1.2
+nvidia-cublas-cu11==11.11.3.6
+llm2vec==0.2.3
+torchvision==0.21.0+cu124
+joblib==1.5.3
+wandb==0.23.1
+six==1.17.0
+PyYAML==6.0.3
+frozenlist==1.8.0
+transformers==4.44.0
+zipp==3.19.2
+more-itertools==10.3.0
+importlib_metadata==8.0.0
+jaraco.functools==4.0.1
+inflect==7.3.1
+jaraco.text==3.12.1
+wheel==0.45.1
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+typing_extensions==4.12.2
+typeguard==4.3.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+jaraco.context==5.3.0
+packaging==24.2
diff --git a/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/wandb-metadata.json b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..c888d7da13e45c077ceb2363de1450b82719f684
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/files/wandb-metadata.json
@@ -0,0 +1,146 @@
+{
+  "os":  "Linux-5.4.0-42-generic-x86_64-with-glibc2.35",
+  "python":  "CPython 3.10.19",
+  "startedAt":  "2026-01-14T05:56:02.969462Z",
+  "args":  [
+    "--local_rank=0",
+    "--deepspeed",
+    "./script/deepspeed/zero2.json",
+    "--model_name_or_path",
+    "/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct",
+    "--model_type",
+    "llama3-8b",
+    "--version",
+    "plain",
+    "--data_path",
+    "/llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json",
+    "--mm_projector_type",
+    "mlp2x_gelu",
+    "--tune_mm_mlp_adapter",
+    "True",
+    "--image_aspect_ratio",
+    "square",
+    "--bf16",
+    "True",
+    "--output_dir",
+    "/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain",
+    "--num_train_epochs",
+    "1",
+    "--per_device_train_batch_size",
+    "8",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "4",
+    "--evaluation_strategy",
+    "no",
+    "--save_strategy",
+    "steps",
+    "--save_steps",
+    "100000",
+    "--save_total_limit",
+    "1",
+    "--learning_rate",
+    "5e-4",
+    "--weight_decay",
+    "0.",
+    "--warmup_ratio",
+    "0.03",
+    "--lr_scheduler_type",
+    "cosine",
+    "--logging_steps",
+    "1",
+    "--tf32",
+    "True",
+    "--model_max_length",
+    "2048",
+    "--gradient_checkpointing",
+    "True",
+    "--dataloader_num_workers",
+    "4",
+    "--lazy_preprocess",
+    "True",
+    "--report_to",
+    "wandb"
+  ],
+  "program":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py",
+  "codePath":  "bunny/train/train.py",
+  "codePathLocal":  "bunny/train/train.py",
+  "email":  "yuxm02@gmail.com",
+  "root":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense",
+  "host":  "h-liuchonghan-rler1225-a800-a100-2nodes-m-0",
+  "executable":  "/llm-align/liuchonghan/env/envs/bunny/bin/python",
+  "cpu_count":  128,
+  "cpu_count_logical":  255,
+  "gpu":  "NVIDIA A800-SXM4-80GB",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "53687091200",
+      "used":  "15148814336"
+    }
+  },
+  "memory":  {
+    "total":  "2164358094848"
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-de894aa2-80ed-5287-811c-51192fa8348e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550"
+    }
+  ],
+  "cudaVersion":  "12.4",
+  "writerId":  "8a1ttcsp32rr1q85aerd8g59fei29dpk"
+}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..dcd339c23865bd0cbe86841f34843cffb16c9903
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2026-01-14T13:56:03.404806967+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-14T13:56:04.116677901+08:00","level":"INFO","msg":"stream: created new stream","id":"iex36np1"}
+{"time":"2026-01-14T13:56:04.116830516+08:00","level":"INFO","msg":"handler: started","stream_id":"iex36np1"}
+{"time":"2026-01-14T13:56:04.117570335+08:00","level":"INFO","msg":"stream: started","id":"iex36np1"}
+{"time":"2026-01-14T13:56:04.117650729+08:00","level":"INFO","msg":"writer: started","stream_id":"iex36np1"}
+{"time":"2026-01-14T13:56:04.117717223+08:00","level":"INFO","msg":"sender: started","stream_id":"iex36np1"}
+{"time":"2026-01-14T16:28:50.489155804+08:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/files/xiaomin02/huggingface/iex36np1/file_stream"}
+{"time":"2026-01-14T16:28:50.489223346+08:00","level":"ERROR+4","msg":"filestream: fatal error: filestream: failed to upload: 404 Not Found path=files/xiaomin02/huggingface/iex36np1/file_stream: {\"error\":\"run huggingface/iex36np1 not found while streaming file\"}"}
diff --git a/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug.log b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..72e8895d7c2e6df6f0f49e6d83fcd97f21c46e6b
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug.log
@@ -0,0 +1,24 @@
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_setup.py:_flush():80] Configure stats pid to 280435
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/settings
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug.log
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260114_135602-iex36np1/logs/debug-internal.log
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_init.py:init():841] calling init triggers
+2026-01-14 13:56:02,978 INFO    MainThread:280435 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-14 13:56:02,979 INFO    MainThread:280435 [wandb_init.py:init():889] starting backend
+2026-01-14 13:56:03,390 INFO    MainThread:280435 [wandb_init.py:init():892] sending inform_init request
+2026-01-14 13:56:03,402 INFO    MainThread:280435 [wandb_init.py:init():900] backend started and connected
+2026-01-14 13:56:03,403 INFO    MainThread:280435 [wandb_init.py:init():970] updated telemetry
+2026-01-14 13:56:03,405 INFO    MainThread:280435 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2026-01-14 13:56:04,626 INFO    MainThread:280435 [wandb_init.py:init():1041] starting run threads in backend
+2026-01-14 13:56:04,863 INFO    MainThread:280435 [wandb_run.py:_console_start():2521] atexit reg
+2026-01-14 13:56:04,863 INFO    MainThread:280435 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2026-01-14 13:56:04,863 INFO    MainThread:280435 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2026-01-14 13:56:04,863 INFO    MainThread:280435 [wandb_run.py:_redirect():2461] Redirects installed.
+2026-01-14 13:56:04,872 INFO    MainThread:280435 [wandb_init.py:init():1081] run started, returning control to user process
+2026-01-14 13:56:04,875 INFO    MainThread:280435 [wandb_run.py:_config_callback():1396] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 8192, 'hidden_size': 4096, 'intermediate_size': 14336, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': False, 'rope_theta': 500000.0, 'rope_scaling': None, 'attention_bias': False, 'attention_dropout': 0.0, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': '/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct', 'transformers_version': '4.44.0', 'model_type': 'bunny-llama', 'use_mm_proj': True, 'mm_projector_type': 'mlp2x_gelu', 'mm_hidden_size': 1280, 'image_aspect_ratio': 'square', 'tokenizer_padding_side': 'right', 'tokenizer_model_max_length': 2048, 'tune_mm_mlp_adapter': True, 'freeze_mm_mlp_adapter': False, 'mm_projector_lr': None, 'use_s2': False, 'output_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'eval_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0005, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 1.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan14_13-53-03_h-liuchonghan-rler1225-a800-a100-2nodes-m-0', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1.0, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100000, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': True, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': './script/deepspeed/zero2.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': True, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'no', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'eval_use_gather_object': False, 'cache_dir': None, 'mpt_attn_impl': 'triton', 'model_max_length': 2048, 'group_by_modality_length': False}
+2026-01-14 13:56:04,894 INFO    MainThread:280435 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 8052289536 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f7e4ac47fa0>>
+2026-01-14 13:56:04,894 INFO    MainThread:280435 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 8052289536 None
diff --git a/Unicorn_dense/wandb/run-20260114_135602-iex36np1/run-iex36np1.wandb b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/run-iex36np1.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..0676f32d0c991c7f3a38649504c7a2ea6481f5b9
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_135602-iex36np1/run-iex36np1.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f72d9cb9471bd6c6acf00d28323cb337004335913889579f052c8b0000aea438
+size 5570560
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/config.yaml b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ee81741c1787ac7f0fa56eee92ddf653830ea140
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/config.yaml
@@ -0,0 +1,617 @@
+_name_or_path:
+    value: /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+_wandb:
+    value:
+        cli_version: 0.23.1
+        e:
+            tbevn34tjls6va6joh8frfsgpapnqymx:
+                args:
+                    - --local_rank=0
+                    - --deepspeed
+                    - ./script/deepspeed/zero2.json
+                    - --model_name_or_path
+                    - /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+                    - --model_type
+                    - llama3-8b
+                    - --version
+                    - plain
+                    - --data_path
+                    - /llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json
+                    - --mm_projector_type
+                    - mlp2x_gelu
+                    - --tune_mm_mlp_adapter
+                    - "True"
+                    - --image_aspect_ratio
+                    - square
+                    - --bf16
+                    - "True"
+                    - --output_dir
+                    - /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+                    - --num_train_epochs
+                    - "1"
+                    - --per_device_train_batch_size
+                    - "8"
+                    - --per_device_eval_batch_size
+                    - "4"
+                    - --gradient_accumulation_steps
+                    - "4"
+                    - --evaluation_strategy
+                    - "no"
+                    - --save_strategy
+                    - steps
+                    - --save_steps
+                    - "100000"
+                    - --save_total_limit
+                    - "1"
+                    - --learning_rate
+                    - "5e-4"
+                    - --weight_decay
+                    - "0."
+                    - --warmup_ratio
+                    - "0.03"
+                    - --lr_scheduler_type
+                    - cosine
+                    - --logging_steps
+                    - "1"
+                    - --tf32
+                    - "True"
+                    - --model_max_length
+                    - "2048"
+                    - --gradient_checkpointing
+                    - "True"
+                    - --dataloader_num_workers
+                    - "4"
+                    - --lazy_preprocess
+                    - "True"
+                    - --report_to
+                    - wandb
+                codePath: bunny/train/train.py
+                codePathLocal: bunny/train/train.py
+                cpu_count: 128
+                cpu_count_logical: 255
+                cudaVersion: "12.4"
+                disk:
+                    /:
+                        total: "53687091200"
+                        used: "15148818432"
+                email: yuxm02@gmail.com
+                executable: /llm-align/liuchonghan/env/envs/bunny/bin/python
+                gpu: NVIDIA A800-SXM4-80GB
+                gpu_count: 8
+                gpu_nvidia:
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-de894aa2-80ed-5287-811c-51192fa8348e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550
+                host: h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+                memory:
+                    total: "2164358094848"
+                os: Linux-5.4.0-42-generic-x86_64-with-glibc2.35
+                program: /llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py
+                python: CPython 3.10.19
+                root: /llm-align/liuchonghan/xiaomin/Unicorn_dense
+                startedAt: "2026-01-14T09:08:27.516123Z"
+                writerId: tbevn34tjls6va6joh8frfsgpapnqymx
+        m:
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "2": '*'
+              "5": 1
+              "6":
+                - 1
+              "7": []
+        python_version: 3.10.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "3":
+                - 7
+                - 13
+                - 19
+                - 62
+                - 66
+            "4": 3.10.19
+            "5": 0.23.1
+            "6": 4.44.0
+            "9":
+                "1": transformers_trainer
+            "12": 0.23.1
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: true
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+cache_dir:
+    value: null
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 4
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: ./script/deepspeed/zero2.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: false
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: null
+eval_strategy:
+    value: "no"
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: "no"
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: false
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+freeze_mm_mlp_adapter:
+    value: false
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 4
+gradient_checkpointing:
+    value: true
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+group_by_modality_length:
+    value: false
+half_precision_backend:
+    value: auto
+hidden_act:
+    value: silu
+hidden_size:
+    value: 4096
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+image_aspect_ratio:
+    value: square
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 14336
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 0.0005
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan14_17-05-42_h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr_scheduler_type:
+    value: cosine
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 8192
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mm_hidden_size:
+    value: 1280
+mm_projector_lr:
+    value: null
+mm_projector_type:
+    value: mlp2x_gelu
+model/num_parameters:
+    value: 8052289536
+model_max_length:
+    value: 2048
+model_type:
+    value: bunny-llama
+mp_parameters:
+    value: ""
+mpt_attn_impl:
+    value: triton
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 32
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 32
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 1
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 4
+per_device_train_batch_size:
+    value: 8
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: false
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value: null
+rope_theta:
+    value: 500000
+run_name:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100000
+save_strategy:
+    value: steps
+save_total_limit:
+    value: 1
+seed:
+    value: 42
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: true
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: false
+tokenizer_class:
+    value: null
+tokenizer_model_max_length:
+    value: 2048
+tokenizer_padding_side:
+    value: right
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+transformers_version:
+    value: 4.44.0
+tune_mm_mlp_adapter:
+    value: true
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: false
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_mm_proj:
+    value: true
+use_mps_device:
+    value: false
+use_s2:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.03
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/output.log b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..71eb88bba8993d9f83f15c2cb0460d7390502676
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/output.log
@@ -0,0 +1,3910 @@
+  0%|                                                                                                                                                                                                              | 0/3906 [00:00<?, ?it/s]/llm-align/liuchonghan/env/envs/bunny/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py:745: UserWarning: torch.utils.checkpoint: the use_reentrant parameter should be passed explicitly. In version 2.5 we will raise an exception if use_reentrant is not passed. use_reentrant=False is recommended, but if you need to preserve the current default behavior, you can pass use_reentrant=True. Refer to docs for more details on the differences between the two variants.
+  return fn(*args, **kwargs)
+                                                                                                                                                                                                                                            
+{'loss': 5.9467, 'grad_norm': 134.68753051757812, 'learning_rate': 4.23728813559322e-06, 'epoch': 0.0}
+{'loss': 5.8079, 'grad_norm': 133.63565063476562, 'learning_rate': 8.47457627118644e-06, 'epoch': 0.0}
+{'loss': 5.5965, 'grad_norm': 132.7931365966797, 'learning_rate': 1.2711864406779663e-05, 'epoch': 0.0}
+{'loss': 4.6066, 'grad_norm': 127.1261978149414, 'learning_rate': 1.694915254237288e-05, 'epoch': 0.0}
+{'loss': 2.4074, 'grad_norm': 12.609395980834961, 'learning_rate': 2.11864406779661e-05, 'epoch': 0.0}
+{'loss': 2.6157, 'grad_norm': 30.959848403930664, 'learning_rate': 2.5423728813559325e-05, 'epoch': 0.0}
+{'loss': 2.1535, 'grad_norm': 6.4556050300598145, 'learning_rate': 2.9661016949152544e-05, 'epoch': 0.0}
+{'loss': 2.0926, 'grad_norm': 2.3705732822418213, 'learning_rate': 3.389830508474576e-05, 'epoch': 0.0}
+{'loss': 2.0668, 'grad_norm': 1.4521836042404175, 'learning_rate': 3.813559322033899e-05, 'epoch': 0.0}
+{'loss': 2.095, 'grad_norm': 1.9680907726287842, 'learning_rate': 4.23728813559322e-05, 'epoch': 0.0}
+{'loss': 2.0789, 'grad_norm': 2.037114381790161, 'learning_rate': 4.6610169491525425e-05, 'epoch': 0.0}
+{'loss': 2.0826, 'grad_norm': 2.17526912689209, 'learning_rate': 5.084745762711865e-05, 'epoch': 0.0}
+{'loss': 2.0948, 'grad_norm': 2.3326218128204346, 'learning_rate': 5.508474576271186e-05, 'epoch': 0.0}
+{'loss': 2.0656, 'grad_norm': 1.67564058303833, 'learning_rate': 5.932203389830509e-05, 'epoch': 0.0}
+{'loss': 2.0236, 'grad_norm': 0.9156721234321594, 'learning_rate': 6.35593220338983e-05, 'epoch': 0.0}
+{'loss': 2.0328, 'grad_norm': 0.6145264506340027, 'learning_rate': 6.779661016949152e-05, 'epoch': 0.0}
+{'loss': 2.0158, 'grad_norm': 0.48186585307121277, 'learning_rate': 7.203389830508474e-05, 'epoch': 0.0}
+{'loss': 2.0104, 'grad_norm': 0.48204079270362854, 'learning_rate': 7.627118644067798e-05, 'epoch': 0.0}
+{'loss': 1.9969, 'grad_norm': 0.3519149124622345, 'learning_rate': 8.050847457627118e-05, 'epoch': 0.0}
+{'loss': 1.9936, 'grad_norm': 0.291702002286911, 'learning_rate': 8.47457627118644e-05, 'epoch': 0.01}
+{'loss': 2.0094, 'grad_norm': 0.2966838777065277, 'learning_rate': 8.898305084745763e-05, 'epoch': 0.01}
+{'loss': 2.0034, 'grad_norm': 0.30677205324172974, 'learning_rate': 9.322033898305085e-05, 'epoch': 0.01}
+{'loss': 1.9988, 'grad_norm': 0.290734201669693, 'learning_rate': 9.745762711864407e-05, 'epoch': 0.01}
+{'loss': 1.9881, 'grad_norm': 0.3133634626865387, 'learning_rate': 0.0001016949152542373, 'epoch': 0.01}
+{'loss': 1.9969, 'grad_norm': 0.3155308961868286, 'learning_rate': 0.0001059322033898305, 'epoch': 0.01}
+{'loss': 2.0063, 'grad_norm': 0.3380034863948822, 'learning_rate': 0.00011016949152542372, 'epoch': 0.01}
+{'loss': 1.9725, 'grad_norm': 0.3113333582878113, 'learning_rate': 0.00011440677966101696, 'epoch': 0.01}
+{'loss': 2.0037, 'grad_norm': 0.31734856963157654, 'learning_rate': 0.00011864406779661017, 'epoch': 0.01}
+{'loss': 1.9889, 'grad_norm': 0.3157503008842468, 'learning_rate': 0.0001228813559322034, 'epoch': 0.01}
+{'loss': 1.96, 'grad_norm': 0.29857608675956726, 'learning_rate': 0.0001271186440677966, 'epoch': 0.01}
+{'loss': 1.9654, 'grad_norm': 0.286673903465271, 'learning_rate': 0.00013135593220338986, 'epoch': 0.01}
+{'loss': 1.983, 'grad_norm': 0.26010146737098694, 'learning_rate': 0.00013559322033898305, 'epoch': 0.01}
+{'loss': 1.9753, 'grad_norm': 0.2392694652080536, 'learning_rate': 0.00013983050847457627, 'epoch': 0.01}
+{'loss': 1.9704, 'grad_norm': 0.24038533866405487, 'learning_rate': 0.00014406779661016949, 'epoch': 0.01}
+{'loss': 1.9331, 'grad_norm': 0.22384113073349, 'learning_rate': 0.0001483050847457627, 'epoch': 0.01}
+{'loss': 1.9346, 'grad_norm': 0.22292067110538483, 'learning_rate': 0.00015254237288135595, 'epoch': 0.01}
+{'loss': 1.9442, 'grad_norm': 0.22526901960372925, 'learning_rate': 0.00015677966101694914, 'epoch': 0.01}
+{'loss': 1.9526, 'grad_norm': 0.22448866069316864, 'learning_rate': 0.00016101694915254236, 'epoch': 0.01}
+{'loss': 1.9548, 'grad_norm': 0.23825930058956146, 'learning_rate': 0.0001652542372881356, 'epoch': 0.01}
+{'loss': 1.9441, 'grad_norm': 0.23296813666820526, 'learning_rate': 0.0001694915254237288, 'epoch': 0.01}
+{'loss': 1.9634, 'grad_norm': 0.237817645072937, 'learning_rate': 0.00017372881355932204, 'epoch': 0.01}
+{'loss': 1.9218, 'grad_norm': 0.22924256324768066, 'learning_rate': 0.00017796610169491526, 'epoch': 0.01}
+{'loss': 1.9183, 'grad_norm': 0.23139990866184235, 'learning_rate': 0.00018220338983050845, 'epoch': 0.01}
+{'loss': 1.907, 'grad_norm': 0.2219489961862564, 'learning_rate': 0.0001864406779661017, 'epoch': 0.01}
+{'loss': 1.8858, 'grad_norm': 0.20623505115509033, 'learning_rate': 0.00019067796610169492, 'epoch': 0.01}
+{'loss': 1.9106, 'grad_norm': 0.21884623169898987, 'learning_rate': 0.00019491525423728814, 'epoch': 0.01}
+{'loss': 1.9007, 'grad_norm': 0.21830573678016663, 'learning_rate': 0.00019915254237288136, 'epoch': 0.01}
+{'loss': 1.8894, 'grad_norm': 0.21018607914447784, 'learning_rate': 0.0002033898305084746, 'epoch': 0.01}
+{'loss': 1.8771, 'grad_norm': 0.22195863723754883, 'learning_rate': 0.0002076271186440678, 'epoch': 0.01}
+{'loss': 1.8841, 'grad_norm': 0.20985281467437744, 'learning_rate': 0.000211864406779661, 'epoch': 0.01}
+{'loss': 1.8637, 'grad_norm': 0.2016945481300354, 'learning_rate': 0.00021610169491525426, 'epoch': 0.01}
+{'loss': 1.8825, 'grad_norm': 0.19762040674686432, 'learning_rate': 0.00022033898305084745, 'epoch': 0.01}
+{'loss': 1.8643, 'grad_norm': 0.18300297856330872, 'learning_rate': 0.0002245762711864407, 'epoch': 0.01}
+{'loss': 1.8429, 'grad_norm': 0.1693180948495865, 'learning_rate': 0.0002288135593220339, 'epoch': 0.01}
+{'loss': 1.8743, 'grad_norm': 0.1630401909351349, 'learning_rate': 0.0002330508474576271, 'epoch': 0.01}
+{'loss': 1.8406, 'grad_norm': 0.16313962638378143, 'learning_rate': 0.00023728813559322035, 'epoch': 0.01}
+{'loss': 1.8393, 'grad_norm': 0.16834144294261932, 'learning_rate': 0.00024152542372881357, 'epoch': 0.01}
+{'loss': 1.8405, 'grad_norm': 0.16216525435447693, 'learning_rate': 0.0002457627118644068, 'epoch': 0.01}
+{'loss': 1.8395, 'grad_norm': 0.1652393937110901, 'learning_rate': 0.00025, 'epoch': 0.02}
+{'loss': 1.8132, 'grad_norm': 0.1436024159193039, 'learning_rate': 0.0002542372881355932, 'epoch': 0.02}
+{'loss': 1.8107, 'grad_norm': 0.14924289286136627, 'learning_rate': 0.00025847457627118644, 'epoch': 0.02}
+{'loss': 1.8705, 'grad_norm': 0.13404123485088348, 'learning_rate': 0.0002627118644067797, 'epoch': 0.02}
+{'loss': 1.796, 'grad_norm': 0.13060005009174347, 'learning_rate': 0.0002669491525423729, 'epoch': 0.02}
+{'loss': 1.8011, 'grad_norm': 0.12434148043394089, 'learning_rate': 0.0002711864406779661, 'epoch': 0.02}
+{'loss': 1.8077, 'grad_norm': 0.13804958760738373, 'learning_rate': 0.0002754237288135593, 'epoch': 0.02}
+{'loss': 1.8341, 'grad_norm': 0.1224430650472641, 'learning_rate': 0.00027966101694915254, 'epoch': 0.02}
+{'loss': 1.7798, 'grad_norm': 0.13164323568344116, 'learning_rate': 0.0002838983050847458, 'epoch': 0.02}
+{'loss': 1.8045, 'grad_norm': 0.12784673273563385, 'learning_rate': 0.00028813559322033897, 'epoch': 0.02}
+{'loss': 1.8018, 'grad_norm': 0.11785487085580826, 'learning_rate': 0.0002923728813559322, 'epoch': 0.02}
+{'loss': 1.7778, 'grad_norm': 0.12218358367681503, 'learning_rate': 0.0002966101694915254, 'epoch': 0.02}
+{'loss': 1.7807, 'grad_norm': 0.11367876082658768, 'learning_rate': 0.00030084745762711863, 'epoch': 0.02}
+{'loss': 1.7894, 'grad_norm': 0.11472328752279282, 'learning_rate': 0.0003050847457627119, 'epoch': 0.02}
+{'loss': 1.8151, 'grad_norm': 0.10977455228567123, 'learning_rate': 0.0003093220338983051, 'epoch': 0.02}
+{'loss': 1.8106, 'grad_norm': 0.10567494481801987, 'learning_rate': 0.0003135593220338983, 'epoch': 0.02}
+{'loss': 1.7971, 'grad_norm': 0.10358880460262299, 'learning_rate': 0.0003177966101694915, 'epoch': 0.02}
+{'loss': 1.7922, 'grad_norm': 0.10922093689441681, 'learning_rate': 0.0003220338983050847, 'epoch': 0.02}
+{'loss': 1.7625, 'grad_norm': 0.11449102312326431, 'learning_rate': 0.000326271186440678, 'epoch': 0.02}
+{'loss': 1.7736, 'grad_norm': 0.12710148096084595, 'learning_rate': 0.0003305084745762712, 'epoch': 0.02}
+{'loss': 1.7544, 'grad_norm': 0.1089983731508255, 'learning_rate': 0.00033474576271186443, 'epoch': 0.02}
+{'loss': 1.7661, 'grad_norm': 0.11214976757764816, 'learning_rate': 0.0003389830508474576, 'epoch': 0.02}
+{'loss': 1.77, 'grad_norm': 0.1041378378868103, 'learning_rate': 0.0003432203389830508, 'epoch': 0.02}
+{'loss': 1.7524, 'grad_norm': 0.12388668209314346, 'learning_rate': 0.0003474576271186441, 'epoch': 0.02}
+{'loss': 1.7694, 'grad_norm': 0.10774662345647812, 'learning_rate': 0.0003516949152542373, 'epoch': 0.02}
+{'loss': 1.7457, 'grad_norm': 0.11137497425079346, 'learning_rate': 0.0003559322033898305, 'epoch': 0.02}
+{'loss': 1.7762, 'grad_norm': 0.10608667880296707, 'learning_rate': 0.00036016949152542374, 'epoch': 0.02}
+{'loss': 1.7117, 'grad_norm': 0.10103945434093475, 'learning_rate': 0.0003644067796610169, 'epoch': 0.02}
+{'loss': 1.7195, 'grad_norm': 0.10261370986700058, 'learning_rate': 0.0003686440677966102, 'epoch': 0.02}
+{'loss': 1.753, 'grad_norm': 0.09704770147800446, 'learning_rate': 0.0003728813559322034, 'epoch': 0.02}
+{'loss': 1.7625, 'grad_norm': 0.10216305404901505, 'learning_rate': 0.0003771186440677966, 'epoch': 0.02}
+{'loss': 1.7483, 'grad_norm': 0.11062026768922806, 'learning_rate': 0.00038135593220338984, 'epoch': 0.02}
+{'loss': 1.747, 'grad_norm': 0.08888410031795502, 'learning_rate': 0.0003855932203389831, 'epoch': 0.02}
+{'loss': 1.7339, 'grad_norm': 0.09054837375879288, 'learning_rate': 0.00038983050847457627, 'epoch': 0.02}
+{'loss': 1.7131, 'grad_norm': 0.0865374207496643, 'learning_rate': 0.0003940677966101695, 'epoch': 0.02}
+{'loss': 1.7344, 'grad_norm': 0.09351620078086853, 'learning_rate': 0.0003983050847457627, 'epoch': 0.02}
+{'loss': 1.7474, 'grad_norm': 0.094039186835289, 'learning_rate': 0.00040254237288135593, 'epoch': 0.02}
+{'loss': 1.742, 'grad_norm': 0.09520737826824188, 'learning_rate': 0.0004067796610169492, 'epoch': 0.02}
+{'loss': 1.7016, 'grad_norm': 0.0858374834060669, 'learning_rate': 0.0004110169491525424, 'epoch': 0.02}
+{'loss': 1.7388, 'grad_norm': 0.0844692587852478, 'learning_rate': 0.0004152542372881356, 'epoch': 0.03}
+{'loss': 1.7098, 'grad_norm': 0.08670172095298767, 'learning_rate': 0.0004194915254237288, 'epoch': 0.03}
+{'loss': 1.75, 'grad_norm': 0.09194398671388626, 'learning_rate': 0.000423728813559322, 'epoch': 0.03}
+{'loss': 1.7098, 'grad_norm': 0.10086791962385178, 'learning_rate': 0.0004279661016949153, 'epoch': 0.03}
+{'loss': 1.7291, 'grad_norm': 0.08410800993442535, 'learning_rate': 0.0004322033898305085, 'epoch': 0.03}
+{'loss': 1.7317, 'grad_norm': 0.10543660074472427, 'learning_rate': 0.00043644067796610173, 'epoch': 0.03}
+{'loss': 1.7357, 'grad_norm': 0.08325787633657455, 'learning_rate': 0.0004406779661016949, 'epoch': 0.03}
+{'loss': 1.7133, 'grad_norm': 0.08944941312074661, 'learning_rate': 0.0004449152542372881, 'epoch': 0.03}
+{'loss': 1.709, 'grad_norm': 0.12644536793231964, 'learning_rate': 0.0004491525423728814, 'epoch': 0.03}
+{'loss': 1.7059, 'grad_norm': 0.08954790979623795, 'learning_rate': 0.0004533898305084746, 'epoch': 0.03}
+{'loss': 1.7078, 'grad_norm': 0.1100192740559578, 'learning_rate': 0.0004576271186440678, 'epoch': 0.03}
+{'loss': 1.7022, 'grad_norm': 0.10688292235136032, 'learning_rate': 0.00046186440677966104, 'epoch': 0.03}
+{'loss': 1.707, 'grad_norm': 0.08987777680158615, 'learning_rate': 0.0004661016949152542, 'epoch': 0.03}
+{'loss': 1.7139, 'grad_norm': 0.11508679389953613, 'learning_rate': 0.0004703389830508475, 'epoch': 0.03}
+{'loss': 1.6955, 'grad_norm': 0.10195852816104889, 'learning_rate': 0.0004745762711864407, 'epoch': 0.03}
+{'loss': 1.6767, 'grad_norm': 0.08532936871051788, 'learning_rate': 0.0004788135593220339, 'epoch': 0.03}
+{'loss': 1.6856, 'grad_norm': 0.0932568833231926, 'learning_rate': 0.00048305084745762714, 'epoch': 0.03}
+{'loss': 1.7149, 'grad_norm': 0.11135128140449524, 'learning_rate': 0.0004872881355932203, 'epoch': 0.03}
+{'loss': 1.6922, 'grad_norm': 0.09353841841220856, 'learning_rate': 0.0004915254237288136, 'epoch': 0.03}
+{'loss': 1.6938, 'grad_norm': 0.10482393950223923, 'learning_rate': 0.0004957627118644068, 'epoch': 0.03}
+{'loss': 1.6671, 'grad_norm': 0.11721053719520569, 'learning_rate': 0.0005, 'epoch': 0.03}
+{'loss': 1.7056, 'grad_norm': 0.10027733445167542, 'learning_rate': 0.0004999999140215142, 'epoch': 0.03}
+{'loss': 1.6807, 'grad_norm': 0.11025361716747284, 'learning_rate': 0.0004999996560861156, 'epoch': 0.03}
+{'loss': 1.6988, 'grad_norm': 0.1236531063914299, 'learning_rate': 0.0004999992261939817, 'epoch': 0.03}
+{'loss': 1.6887, 'grad_norm': 0.10006266832351685, 'learning_rate': 0.0004999986243454084, 'epoch': 0.03}
+{'loss': 1.6801, 'grad_norm': 0.16392739117145538, 'learning_rate': 0.0004999978505408094, 'epoch': 0.03}
+{'loss': 1.6903, 'grad_norm': 0.09623108804225922, 'learning_rate': 0.000499996904780717, 'epoch': 0.03}
+{'loss': 1.6717, 'grad_norm': 0.11913655698299408, 'learning_rate': 0.0004999957870657818, 'epoch': 0.03}
+{'loss': 1.6576, 'grad_norm': 0.11434084177017212, 'learning_rate': 0.0004999944973967727, 'epoch': 0.03}
+{'loss': 1.6704, 'grad_norm': 0.08512454479932785, 'learning_rate': 0.0004999930357745766, 'epoch': 0.03}
+{'loss': 1.6597, 'grad_norm': 0.14571434259414673, 'learning_rate': 0.0004999914022001988, 'epoch': 0.03}
+{'loss': 1.6782, 'grad_norm': 0.09235616773366928, 'learning_rate': 0.000499989596674763, 'epoch': 0.03}
+{'loss': 1.6548, 'grad_norm': 0.09535892307758331, 'learning_rate': 0.0004999876191995112, 'epoch': 0.03}
+{'loss': 1.6355, 'grad_norm': 0.10877318680286407, 'learning_rate': 0.0004999854697758034, 'epoch': 0.03}
+{'loss': 1.6723, 'grad_norm': 0.08192178606987, 'learning_rate': 0.000499983148405118, 'epoch': 0.03}
+{'loss': 1.7007, 'grad_norm': 0.10613612085580826, 'learning_rate': 0.0004999806550890519, 'epoch': 0.03}
+{'loss': 1.6251, 'grad_norm': 0.12046077847480774, 'learning_rate': 0.0004999779898293199, 'epoch': 0.03}
+{'loss': 1.6667, 'grad_norm': 0.08186007291078568, 'learning_rate': 0.0004999751526277554, 'epoch': 0.03}
+{'loss': 1.662, 'grad_norm': 0.11153018474578857, 'learning_rate': 0.0004999721434863098, 'epoch': 0.03}
+{'loss': 1.6753, 'grad_norm': 0.11385553330183029, 'learning_rate': 0.0004999689624070528, 'epoch': 0.04}
+{'loss': 1.6508, 'grad_norm': 0.10445405542850494, 'learning_rate': 0.0004999656093921725, 'epoch': 0.04}
+{'loss': 1.6536, 'grad_norm': 0.09650153666734695, 'learning_rate': 0.0004999620844439753, 'epoch': 0.04}
+{'loss': 1.6729, 'grad_norm': 0.11170708388090134, 'learning_rate': 0.0004999583875648857, 'epoch': 0.04}
+{'loss': 1.6441, 'grad_norm': 0.09423286467790604, 'learning_rate': 0.0004999545187574463, 'epoch': 0.04}
+{'loss': 1.687, 'grad_norm': 0.10129135102033615, 'learning_rate': 0.0004999504780243186, 'epoch': 0.04}
+{'loss': 1.6701, 'grad_norm': 0.09934726357460022, 'learning_rate': 0.0004999462653682815, 'epoch': 0.04}
+{'loss': 1.6463, 'grad_norm': 0.1074533760547638, 'learning_rate': 0.0004999418807922328, 'epoch': 0.04}
+{'loss': 1.6299, 'grad_norm': 0.10151148587465286, 'learning_rate': 0.0004999373242991884, 'epoch': 0.04}
+{'loss': 1.6571, 'grad_norm': 0.09497108310461044, 'learning_rate': 0.0004999325958922823, 'epoch': 0.04}
+{'loss': 1.6742, 'grad_norm': 0.11475203931331635, 'learning_rate': 0.0004999276955747667, 'epoch': 0.04}
+{'loss': 1.6442, 'grad_norm': 0.10352827608585358, 'learning_rate': 0.0004999226233500124, 'epoch': 0.04}
+{'loss': 1.6746, 'grad_norm': 0.11328408867120743, 'learning_rate': 0.000499917379221508, 'epoch': 0.04}
+{'loss': 1.6335, 'grad_norm': 0.09624587744474411, 'learning_rate': 0.0004999119631928608, 'epoch': 0.04}
+{'loss': 1.6432, 'grad_norm': 0.1072540283203125, 'learning_rate': 0.0004999063752677959, 'epoch': 0.04}
+{'loss': 1.6407, 'grad_norm': 0.11150573939085007, 'learning_rate': 0.0004999006154501568, 'epoch': 0.04}
+{'loss': 1.6458, 'grad_norm': 0.12114296853542328, 'learning_rate': 0.0004998946837439055, 'epoch': 0.04}
+{'loss': 1.6724, 'grad_norm': 0.12654568254947662, 'learning_rate': 0.0004998885801531219, 'epoch': 0.04}
+{'loss': 1.6894, 'grad_norm': 0.09945648908615112, 'learning_rate': 0.000499882304682004, 'epoch': 0.04}
+{'loss': 1.6482, 'grad_norm': 0.14115118980407715, 'learning_rate': 0.0004998758573348686, 'epoch': 0.04}
+{'loss': 1.635, 'grad_norm': 0.11365554481744766, 'learning_rate': 0.0004998692381161501, 'epoch': 0.04}
+{'loss': 1.653, 'grad_norm': 0.11886994540691376, 'learning_rate': 0.0004998624470304014, 'epoch': 0.04}
+{'loss': 1.6271, 'grad_norm': 0.1493472307920456, 'learning_rate': 0.0004998554840822937, 'epoch': 0.04}
+{'loss': 1.6262, 'grad_norm': 0.1113290935754776, 'learning_rate': 0.0004998483492766163, 'epoch': 0.04}
+{'loss': 1.6264, 'grad_norm': 0.1415487825870514, 'learning_rate': 0.0004998410426182766, 'epoch': 0.04}
+{'loss': 1.6307, 'grad_norm': 0.11449723690748215, 'learning_rate': 0.0004998335641123005, 'epoch': 0.04}
+{'loss': 1.6533, 'grad_norm': 0.13557694852352142, 'learning_rate': 0.0004998259137638319, 'epoch': 0.04}
+{'loss': 1.6527, 'grad_norm': 0.13662704825401306, 'learning_rate': 0.0004998180915781327, 'epoch': 0.04}
+{'loss': 1.6505, 'grad_norm': 0.13622316718101501, 'learning_rate': 0.0004998100975605836, 'epoch': 0.04}
+{'loss': 1.6283, 'grad_norm': 0.13522666692733765, 'learning_rate': 0.0004998019317166827, 'epoch': 0.04}
+{'loss': 1.6411, 'grad_norm': 0.10789790749549866, 'learning_rate': 0.0004997935940520469, 'epoch': 0.04}
+{'loss': 1.6566, 'grad_norm': 0.1894717812538147, 'learning_rate': 0.0004997850845724111, 'epoch': 0.04}
+{'loss': 1.6375, 'grad_norm': 0.10865584760904312, 'learning_rate': 0.0004997764032836283, 'epoch': 0.04}
+{'loss': 1.6462, 'grad_norm': 0.17563396692276, 'learning_rate': 0.0004997675501916698, 'epoch': 0.04}
+{'loss': 1.6325, 'grad_norm': 0.15755197405815125, 'learning_rate': 0.000499758525302625, 'epoch': 0.04}
+{'loss': 1.6376, 'grad_norm': 0.13547283411026, 'learning_rate': 0.0004997493286227014, 'epoch': 0.04}
+{'loss': 1.6175, 'grad_norm': 0.1983797252178192, 'learning_rate': 0.0004997399601582248, 'epoch': 0.04}
+{'loss': 1.6449, 'grad_norm': 0.13770921528339386, 'learning_rate': 0.0004997304199156388, 'epoch': 0.04}
+{'loss': 1.6589, 'grad_norm': 0.17415842413902283, 'learning_rate': 0.0004997207079015059, 'epoch': 0.04}
+{'loss': 1.6233, 'grad_norm': 0.12638729810714722, 'learning_rate': 0.000499710824122506, 'epoch': 0.05}
+{'loss': 1.6434, 'grad_norm': 0.15370963513851166, 'learning_rate': 0.0004997007685854376, 'epoch': 0.05}
+{'loss': 1.6384, 'grad_norm': 0.1537175476551056, 'learning_rate': 0.0004996905412972171, 'epoch': 0.05}
+{'loss': 1.6172, 'grad_norm': 0.13271667063236237, 'learning_rate': 0.0004996801422648791, 'epoch': 0.05}
+{'loss': 1.6288, 'grad_norm': 0.16120967268943787, 'learning_rate': 0.0004996695714955765, 'epoch': 0.05}
+{'loss': 1.6221, 'grad_norm': 0.11706684529781342, 'learning_rate': 0.0004996588289965799, 'epoch': 0.05}
+{'loss': 1.6027, 'grad_norm': 0.13663379848003387, 'learning_rate': 0.0004996479147752784, 'epoch': 0.05}
+{'loss': 1.6184, 'grad_norm': 0.12639464437961578, 'learning_rate': 0.0004996368288391792, 'epoch': 0.05}
+{'loss': 1.6179, 'grad_norm': 0.16248802840709686, 'learning_rate': 0.0004996255711959074, 'epoch': 0.05}
+{'loss': 1.6572, 'grad_norm': 0.12890346348285675, 'learning_rate': 0.0004996141418532063, 'epoch': 0.05}
+{'loss': 1.6481, 'grad_norm': 0.13213521242141724, 'learning_rate': 0.0004996025408189375, 'epoch': 0.05}
+{'loss': 1.6088, 'grad_norm': 0.1537247747182846, 'learning_rate': 0.0004995907681010803, 'epoch': 0.05}
+{'loss': 1.6223, 'grad_norm': 0.12817449867725372, 'learning_rate': 0.0004995788237077325, 'epoch': 0.05}
+{'loss': 1.6239, 'grad_norm': 0.17843212187290192, 'learning_rate': 0.0004995667076471096, 'epoch': 0.05}
+{'loss': 1.6197, 'grad_norm': 0.12139852344989777, 'learning_rate': 0.0004995544199275456, 'epoch': 0.05}
+{'loss': 1.6168, 'grad_norm': 0.1481718271970749, 'learning_rate': 0.0004995419605574921, 'epoch': 0.05}
+{'loss': 1.6, 'grad_norm': 0.129622682929039, 'learning_rate': 0.0004995293295455192, 'epoch': 0.05}
+{'loss': 1.6303, 'grad_norm': 0.19247305393218994, 'learning_rate': 0.0004995165269003147, 'epoch': 0.05}
+{'loss': 1.6606, 'grad_norm': 0.12006577104330063, 'learning_rate': 0.0004995035526306846, 'epoch': 0.05}
+{'loss': 1.6257, 'grad_norm': 0.12817536294460297, 'learning_rate': 0.0004994904067455531, 'epoch': 0.05}
+{'loss': 1.6144, 'grad_norm': 0.14702311158180237, 'learning_rate': 0.0004994770892539622, 'epoch': 0.05}
+{'loss': 1.5992, 'grad_norm': 0.12983830273151398, 'learning_rate': 0.0004994636001650722, 'epoch': 0.05}
+{'loss': 1.5938, 'grad_norm': 0.1301855742931366, 'learning_rate': 0.0004994499394881611, 'epoch': 0.05}
+{'loss': 1.613, 'grad_norm': 0.10263470560312271, 'learning_rate': 0.0004994361072326251, 'epoch': 0.05}
+{'loss': 1.616, 'grad_norm': 0.1146128848195076, 'learning_rate': 0.0004994221034079785, 'epoch': 0.05}
+{'loss': 1.6202, 'grad_norm': 0.11051580309867859, 'learning_rate': 0.0004994079280238535, 'epoch': 0.05}
+{'loss': 1.6351, 'grad_norm': 0.13347196578979492, 'learning_rate': 0.0004993935810900003, 'epoch': 0.05}
+{'loss': 1.6319, 'grad_norm': 0.13787271082401276, 'learning_rate': 0.0004993790626162871, 'epoch': 0.05}
+{'loss': 1.6058, 'grad_norm': 0.11568225175142288, 'learning_rate': 0.0004993643726127002, 'epoch': 0.05}
+{'loss': 1.6367, 'grad_norm': 0.15305320918560028, 'learning_rate': 0.0004993495110893438, 'epoch': 0.05}
+{'loss': 1.6096, 'grad_norm': 0.1389400213956833, 'learning_rate': 0.0004993344780564399, 'epoch': 0.05}
+{'loss': 1.596, 'grad_norm': 0.1367410570383072, 'learning_rate': 0.0004993192735243288, 'epoch': 0.05}
+{'loss': 1.6015, 'grad_norm': 0.13084062933921814, 'learning_rate': 0.0004993038975034684, 'epoch': 0.05}
+{'loss': 1.6185, 'grad_norm': 0.16041293740272522, 'learning_rate': 0.000499288350004435, 'epoch': 0.05}
+{'loss': 1.6029, 'grad_norm': 0.12307333946228027, 'learning_rate': 0.0004992726310379227, 'epoch': 0.05}
+{'loss': 1.6153, 'grad_norm': 0.14133334159851074, 'learning_rate': 0.000499256740614743, 'epoch': 0.05}
+{'loss': 1.6178, 'grad_norm': 0.13921800255775452, 'learning_rate': 0.0004992406787458261, 'epoch': 0.05}
+{'loss': 1.5837, 'grad_norm': 0.1544598788022995, 'learning_rate': 0.0004992244454422198, 'epoch': 0.05}
+{'loss': 1.6236, 'grad_norm': 0.11961943656206131, 'learning_rate': 0.0004992080407150897, 'epoch': 0.05}
+{'loss': 1.6457, 'grad_norm': 0.14695043861865997, 'learning_rate': 0.0004991914645757194, 'epoch': 0.06}
+{'loss': 1.5936, 'grad_norm': 0.1217004582285881, 'learning_rate': 0.0004991747170355106, 'epoch': 0.06}
+{'loss': 1.6143, 'grad_norm': 0.1505783200263977, 'learning_rate': 0.0004991577981059826, 'epoch': 0.06}
+{'loss': 1.6155, 'grad_norm': 0.14437733590602875, 'learning_rate': 0.0004991407077987727, 'epoch': 0.06}
+{'loss': 1.6071, 'grad_norm': 0.1278693825006485, 'learning_rate': 0.0004991234461256363, 'epoch': 0.06}
+{'loss': 1.6019, 'grad_norm': 0.1522718220949173, 'learning_rate': 0.0004991060130984462, 'epoch': 0.06}
+{'loss': 1.5873, 'grad_norm': 0.12893112003803253, 'learning_rate': 0.0004990884087291934, 'epoch': 0.06}
+{'loss': 1.6113, 'grad_norm': 0.1298675686120987, 'learning_rate': 0.0004990706330299866, 'epoch': 0.06}
+{'loss': 1.5887, 'grad_norm': 0.18504905700683594, 'learning_rate': 0.0004990526860130526, 'epoch': 0.06}
+{'loss': 1.6313, 'grad_norm': 0.1308584064245224, 'learning_rate': 0.0004990345676907358, 'epoch': 0.06}
+{'loss': 1.613, 'grad_norm': 0.16919374465942383, 'learning_rate': 0.0004990162780754984, 'epoch': 0.06}
+{'loss': 1.5924, 'grad_norm': 0.12564803659915924, 'learning_rate': 0.0004989978171799207, 'epoch': 0.06}
+{'loss': 1.5828, 'grad_norm': 0.1486290842294693, 'learning_rate': 0.0004989791850167003, 'epoch': 0.06}
+{'loss': 1.5976, 'grad_norm': 0.14330103993415833, 'learning_rate': 0.0004989603815986532, 'epoch': 0.06}
+{'loss': 1.6111, 'grad_norm': 0.12054695188999176, 'learning_rate': 0.0004989414069387128, 'epoch': 0.06}
+{'loss': 1.5833, 'grad_norm': 0.15874584019184113, 'learning_rate': 0.0004989222610499305, 'epoch': 0.06}
+{'loss': 1.6179, 'grad_norm': 0.14594897627830505, 'learning_rate': 0.0004989029439454752, 'epoch': 0.06}
+{'loss': 1.6517, 'grad_norm': 0.1452801376581192, 'learning_rate': 0.0004988834556386339, 'epoch': 0.06}
+{'loss': 1.6191, 'grad_norm': 0.1356673240661621, 'learning_rate': 0.0004988637961428112, 'epoch': 0.06}
+{'loss': 1.592, 'grad_norm': 0.1315627098083496, 'learning_rate': 0.0004988439654715292, 'epoch': 0.06}
+{'loss': 1.5791, 'grad_norm': 0.13495102524757385, 'learning_rate': 0.0004988239636384284, 'epoch': 0.06}
+{'loss': 1.5928, 'grad_norm': 0.1255241334438324, 'learning_rate': 0.0004988037906572662, 'epoch': 0.06}
+{'loss': 1.6073, 'grad_norm': 0.14811860024929047, 'learning_rate': 0.0004987834465419185, 'epoch': 0.06}
+{'loss': 1.5941, 'grad_norm': 0.16084010899066925, 'learning_rate': 0.0004987629313063784, 'epoch': 0.06}
+{'loss': 1.5784, 'grad_norm': 0.1365213394165039, 'learning_rate': 0.0004987422449647567, 'epoch': 0.06}
+{'loss': 1.5901, 'grad_norm': 0.17405936121940613, 'learning_rate': 0.0004987213875312823, 'epoch': 0.06}
+{'loss': 1.6017, 'grad_norm': 0.12021402269601822, 'learning_rate': 0.0004987003590203014, 'epoch': 0.06}
+{'loss': 1.6009, 'grad_norm': 0.13901540637016296, 'learning_rate': 0.0004986791594462779, 'epoch': 0.06}
+{'loss': 1.6044, 'grad_norm': 0.1471145749092102, 'learning_rate': 0.0004986577888237936, 'epoch': 0.06}
+{'loss': 1.6004, 'grad_norm': 0.14561177790164948, 'learning_rate': 0.0004986362471675478, 'epoch': 0.06}
+{'loss': 1.5999, 'grad_norm': 0.1495242863893509, 'learning_rate': 0.0004986145344923575, 'epoch': 0.06}
+{'loss': 1.5844, 'grad_norm': 0.14424751698970795, 'learning_rate': 0.0004985926508131571, 'epoch': 0.06}
+{'loss': 1.592, 'grad_norm': 0.15661722421646118, 'learning_rate': 0.000498570596144999, 'epoch': 0.06}
+{'loss': 1.6194, 'grad_norm': 0.14794284105300903, 'learning_rate': 0.000498548370503053, 'epoch': 0.06}
+{'loss': 1.5871, 'grad_norm': 0.12411533296108246, 'learning_rate': 0.0004985259739026062, 'epoch': 0.06}
+{'loss': 1.6134, 'grad_norm': 0.14176571369171143, 'learning_rate': 0.000498503406359064, 'epoch': 0.06}
+{'loss': 1.5958, 'grad_norm': 0.1373860090970993, 'learning_rate': 0.0004984806678879488, 'epoch': 0.06}
+{'loss': 1.5884, 'grad_norm': 0.13811540603637695, 'learning_rate': 0.0004984577585049008, 'epoch': 0.06}
+{'loss': 1.6048, 'grad_norm': 0.1614479124546051, 'learning_rate': 0.0004984346782256776, 'epoch': 0.06}
+{'loss': 1.6049, 'grad_norm': 0.13132037222385406, 'learning_rate': 0.0004984114270661547, 'epoch': 0.07}
+{'loss': 1.6059, 'grad_norm': 0.15843823552131653, 'learning_rate': 0.0004983880050423247, 'epoch': 0.07}
+{'loss': 1.5965, 'grad_norm': 0.1251012086868286, 'learning_rate': 0.0004983644121702981, 'epoch': 0.07}
+{'loss': 1.5839, 'grad_norm': 0.15147149562835693, 'learning_rate': 0.0004983406484663025, 'epoch': 0.07}
+{'loss': 1.5998, 'grad_norm': 0.13059712946414948, 'learning_rate': 0.0004983167139466834, 'epoch': 0.07}
+{'loss': 1.5839, 'grad_norm': 0.12979842722415924, 'learning_rate': 0.0004982926086279036, 'epoch': 0.07}
+{'loss': 1.5979, 'grad_norm': 0.14699119329452515, 'learning_rate': 0.0004982683325265434, 'epoch': 0.07}
+{'loss': 1.5885, 'grad_norm': 0.14990141987800598, 'learning_rate': 0.0004982438856593004, 'epoch': 0.07}
+{'loss': 1.607, 'grad_norm': 0.1830892115831375, 'learning_rate': 0.0004982192680429902, 'epoch': 0.07}
+{'loss': 1.5961, 'grad_norm': 0.14523543417453766, 'learning_rate': 0.0004981944796945452, 'epoch': 0.07}
+{'loss': 1.5899, 'grad_norm': 0.16121545433998108, 'learning_rate': 0.0004981695206310156, 'epoch': 0.07}
+{'loss': 1.6152, 'grad_norm': 0.13864605128765106, 'learning_rate': 0.0004981443908695691, 'epoch': 0.07}
+{'loss': 1.5929, 'grad_norm': 0.16453562676906586, 'learning_rate': 0.0004981190904274904, 'epoch': 0.07}
+{'loss': 1.5852, 'grad_norm': 0.14607830345630646, 'learning_rate': 0.000498093619322182, 'epoch': 0.07}
+{'loss': 1.5949, 'grad_norm': 0.1494169682264328, 'learning_rate': 0.0004980679775711635, 'epoch': 0.07}
+{'loss': 1.579, 'grad_norm': 0.17502713203430176, 'learning_rate': 0.0004980421651920721, 'epoch': 0.07}
+{'loss': 1.5719, 'grad_norm': 0.11649344861507416, 'learning_rate': 0.0004980161822026624, 'epoch': 0.07}
+{'loss': 1.6091, 'grad_norm': 0.1713196188211441, 'learning_rate': 0.000497990028620806, 'epoch': 0.07}
+{'loss': 1.6004, 'grad_norm': 0.13872689008712769, 'learning_rate': 0.0004979637044644921, 'epoch': 0.07}
+{'loss': 1.5893, 'grad_norm': 0.1564512401819229, 'learning_rate': 0.0004979372097518274, 'epoch': 0.07}
+{'loss': 1.5861, 'grad_norm': 0.12453209608793259, 'learning_rate': 0.0004979105445010355, 'epoch': 0.07}
+{'loss': 1.5978, 'grad_norm': 0.1518612802028656, 'learning_rate': 0.0004978837087304575, 'epoch': 0.07}
+{'loss': 1.5896, 'grad_norm': 0.12258463352918625, 'learning_rate': 0.0004978567024585519, 'epoch': 0.07}
+{'loss': 1.5822, 'grad_norm': 0.18939131498336792, 'learning_rate': 0.0004978295257038942, 'epoch': 0.07}
+{'loss': 1.5779, 'grad_norm': 0.13136805593967438, 'learning_rate': 0.0004978021784851776, 'epoch': 0.07}
+{'loss': 1.6016, 'grad_norm': 0.16368182003498077, 'learning_rate': 0.0004977746608212122, 'epoch': 0.07}
+{'loss': 1.5632, 'grad_norm': 0.16784587502479553, 'learning_rate': 0.0004977469727309251, 'epoch': 0.07}
+{'loss': 1.5861, 'grad_norm': 0.19640211760997772, 'learning_rate': 0.0004977191142333614, 'epoch': 0.07}
+{'loss': 1.5706, 'grad_norm': 0.1791057288646698, 'learning_rate': 0.0004976910853476826, 'epoch': 0.07}
+{'loss': 1.5925, 'grad_norm': 0.20834681391716003, 'learning_rate': 0.0004976628860931679, 'epoch': 0.07}
+{'loss': 1.5899, 'grad_norm': 0.17298603057861328, 'learning_rate': 0.0004976345164892134, 'epoch': 0.07}
+{'loss': 1.5849, 'grad_norm': 0.18610136210918427, 'learning_rate': 0.0004976059765553328, 'epoch': 0.07}
+{'loss': 1.5637, 'grad_norm': 0.12863051891326904, 'learning_rate': 0.0004975772663111564, 'epoch': 0.07}
+{'loss': 1.6072, 'grad_norm': 0.256498247385025, 'learning_rate': 0.0004975483857764321, 'epoch': 0.07}
+{'loss': 1.5833, 'grad_norm': 0.1330944299697876, 'learning_rate': 0.0004975193349710245, 'epoch': 0.07}
+{'loss': 1.5827, 'grad_norm': 0.21892684698104858, 'learning_rate': 0.0004974901139149158, 'epoch': 0.07}
+{'loss': 1.5738, 'grad_norm': 0.15975570678710938, 'learning_rate': 0.0004974607226282047, 'epoch': 0.07}
+{'loss': 1.5771, 'grad_norm': 0.19666224718093872, 'learning_rate': 0.0004974311611311078, 'epoch': 0.07}
+{'loss': 1.5746, 'grad_norm': 0.21761193871498108, 'learning_rate': 0.000497401429443958, 'epoch': 0.07}
+{'loss': 1.5611, 'grad_norm': 0.167043536901474, 'learning_rate': 0.0004973715275872058, 'epoch': 0.08}
+{'loss': 1.5793, 'grad_norm': 0.1929020881652832, 'learning_rate': 0.0004973414555814184, 'epoch': 0.08}
+{'loss': 1.5776, 'grad_norm': 0.13279548287391663, 'learning_rate': 0.0004973112134472801, 'epoch': 0.08}
+{'loss': 1.5905, 'grad_norm': 0.2102145105600357, 'learning_rate': 0.0004972808012055923, 'epoch': 0.08}
+{'loss': 1.5857, 'grad_norm': 0.1437096744775772, 'learning_rate': 0.0004972502188772737, 'epoch': 0.08}
+{'loss': 1.5923, 'grad_norm': 0.1957780420780182, 'learning_rate': 0.0004972194664833593, 'epoch': 0.08}
+{'loss': 1.6014, 'grad_norm': 0.13455449044704437, 'learning_rate': 0.0004971885440450016, 'epoch': 0.08}
+{'loss': 1.5651, 'grad_norm': 0.18632154166698456, 'learning_rate': 0.00049715745158347, 'epoch': 0.08}
+{'loss': 1.5785, 'grad_norm': 0.1519031524658203, 'learning_rate': 0.0004971261891201505, 'epoch': 0.08}
+{'loss': 1.5801, 'grad_norm': 0.15888546407222748, 'learning_rate': 0.0004970947566765465, 'epoch': 0.08}
+{'loss': 1.5677, 'grad_norm': 0.1664188653230667, 'learning_rate': 0.0004970631542742781, 'epoch': 0.08}
+{'loss': 1.5911, 'grad_norm': 0.16929517686367035, 'learning_rate': 0.0004970313819350822, 'epoch': 0.08}
+{'loss': 1.5789, 'grad_norm': 0.143733412027359, 'learning_rate': 0.000496999439680813, 'epoch': 0.08}
+{'loss': 1.573, 'grad_norm': 0.18813978135585785, 'learning_rate': 0.0004969673275334409, 'epoch': 0.08}
+{'loss': 1.5864, 'grad_norm': 0.13616009056568146, 'learning_rate': 0.0004969350455150536, 'epoch': 0.08}
+{'loss': 1.5561, 'grad_norm': 0.16624648869037628, 'learning_rate': 0.0004969025936478558, 'epoch': 0.08}
+{'loss': 1.603, 'grad_norm': 0.1750890612602234, 'learning_rate': 0.0004968699719541687, 'epoch': 0.08}
+{'loss': 1.5629, 'grad_norm': 0.16733475029468536, 'learning_rate': 0.0004968371804564304, 'epoch': 0.08}
+{'loss': 1.5495, 'grad_norm': 0.18364325165748596, 'learning_rate': 0.0004968042191771956, 'epoch': 0.08}
+{'loss': 1.5659, 'grad_norm': 0.15497472882270813, 'learning_rate': 0.0004967710881391363, 'epoch': 0.08}
+{'loss': 1.583, 'grad_norm': 0.1996394395828247, 'learning_rate': 0.0004967377873650407, 'epoch': 0.08}
+{'loss': 1.5521, 'grad_norm': 0.17508389055728912, 'learning_rate': 0.0004967043168778143, 'epoch': 0.08}
+{'loss': 1.5539, 'grad_norm': 0.14380668103694916, 'learning_rate': 0.0004966706767004787, 'epoch': 0.08}
+{'loss': 1.5841, 'grad_norm': 0.19069375097751617, 'learning_rate': 0.0004966368668561727, 'epoch': 0.08}
+{'loss': 1.5917, 'grad_norm': 0.12904492020606995, 'learning_rate': 0.0004966028873681517, 'epoch': 0.08}
+{'loss': 1.5794, 'grad_norm': 0.1876128911972046, 'learning_rate': 0.0004965687382597878, 'epoch': 0.08}
+{'loss': 1.6188, 'grad_norm': 0.1645723283290863, 'learning_rate': 0.0004965344195545694, 'epoch': 0.08}
+{'loss': 1.5695, 'grad_norm': 0.1457887887954712, 'learning_rate': 0.0004964999312761023, 'epoch': 0.08}
+{'loss': 1.5707, 'grad_norm': 0.14716953039169312, 'learning_rate': 0.0004964652734481082, 'epoch': 0.08}
+{'loss': 1.6002, 'grad_norm': 0.11947830766439438, 'learning_rate': 0.0004964304460944257, 'epoch': 0.08}
+{'loss': 1.5811, 'grad_norm': 0.1624523550271988, 'learning_rate': 0.0004963954492390101, 'epoch': 0.08}
+{'loss': 1.5889, 'grad_norm': 0.16380462050437927, 'learning_rate': 0.0004963602829059334, 'epoch': 0.08}
+{'loss': 1.5691, 'grad_norm': 0.14326238632202148, 'learning_rate': 0.0004963249471193837, 'epoch': 0.08}
+{'loss': 1.5649, 'grad_norm': 0.18513211607933044, 'learning_rate': 0.0004962894419036661, 'epoch': 0.08}
+{'loss': 1.5625, 'grad_norm': 0.16989800333976746, 'learning_rate': 0.0004962537672832019, 'epoch': 0.08}
+{'loss': 1.5683, 'grad_norm': 0.17284736037254333, 'learning_rate': 0.0004962179232825294, 'epoch': 0.08}
+{'loss': 1.5741, 'grad_norm': 0.1769886314868927, 'learning_rate': 0.0004961819099263029, 'epoch': 0.08}
+{'loss': 1.5853, 'grad_norm': 0.16919951140880585, 'learning_rate': 0.0004961457272392933, 'epoch': 0.08}
+{'loss': 1.5901, 'grad_norm': 0.19268354773521423, 'learning_rate': 0.0004961093752463882, 'epoch': 0.08}
+{'loss': 1.5714, 'grad_norm': 0.1792203038930893, 'learning_rate': 0.0004960728539725916, 'epoch': 0.08}
+{'loss': 1.5597, 'grad_norm': 0.2005603164434433, 'learning_rate': 0.0004960361634430238, 'epoch': 0.09}
+{'loss': 1.5661, 'grad_norm': 0.1907350718975067, 'learning_rate': 0.0004959993036829214, 'epoch': 0.09}
+{'loss': 1.5719, 'grad_norm': 0.18683135509490967, 'learning_rate': 0.0004959622747176377, 'epoch': 0.09}
+{'loss': 1.5784, 'grad_norm': 0.16486723721027374, 'learning_rate': 0.0004959250765726422, 'epoch': 0.09}
+{'loss': 1.5816, 'grad_norm': 0.17858180403709412, 'learning_rate': 0.000495887709273521, 'epoch': 0.09}
+{'loss': 1.5691, 'grad_norm': 0.2079835832118988, 'learning_rate': 0.0004958501728459762, 'epoch': 0.09}
+{'loss': 1.5606, 'grad_norm': 0.19212771952152252, 'learning_rate': 0.0004958124673158264, 'epoch': 0.09}
+{'loss': 1.5754, 'grad_norm': 0.16863948106765747, 'learning_rate': 0.0004957745927090066, 'epoch': 0.09}
+{'loss': 1.567, 'grad_norm': 0.19673575460910797, 'learning_rate': 0.0004957365490515679, 'epoch': 0.09}
+{'loss': 1.5398, 'grad_norm': 0.15180014073848724, 'learning_rate': 0.0004956983363696779, 'epoch': 0.09}
+{'loss': 1.566, 'grad_norm': 0.19254769384860992, 'learning_rate': 0.0004956599546896203, 'epoch': 0.09}
+{'loss': 1.5593, 'grad_norm': 0.17811782658100128, 'learning_rate': 0.000495621404037795, 'epoch': 0.09}
+{'loss': 1.5396, 'grad_norm': 0.18214604258537292, 'learning_rate': 0.0004955826844407185, 'epoch': 0.09}
+{'loss': 1.5519, 'grad_norm': 0.14511018991470337, 'learning_rate': 0.0004955437959250228, 'epoch': 0.09}
+{'loss': 1.5298, 'grad_norm': 0.1671874225139618, 'learning_rate': 0.0004955047385174568, 'epoch': 0.09}
+{'loss': 1.5581, 'grad_norm': 0.16613921523094177, 'learning_rate': 0.0004954655122448852, 'epoch': 0.09}
+{'loss': 1.567, 'grad_norm': 0.17526942491531372, 'learning_rate': 0.000495426117134289, 'epoch': 0.09}
+{'loss': 1.5768, 'grad_norm': 0.15186455845832825, 'learning_rate': 0.0004953865532127652, 'epoch': 0.09}
+{'loss': 1.5716, 'grad_norm': 0.18890607357025146, 'learning_rate': 0.0004953468205075269, 'epoch': 0.09}
+{'loss': 1.5624, 'grad_norm': 0.21784348785877228, 'learning_rate': 0.0004953069190459033, 'epoch': 0.09}
+{'loss': 1.5639, 'grad_norm': 0.17531940340995789, 'learning_rate': 0.00049526684885534, 'epoch': 0.09}
+{'loss': 1.5619, 'grad_norm': 0.23323512077331543, 'learning_rate': 0.0004952266099633982, 'epoch': 0.09}
+{'loss': 1.5541, 'grad_norm': 0.16931016743183136, 'learning_rate': 0.0004951862023977555, 'epoch': 0.09}
+{'loss': 1.5973, 'grad_norm': 0.19396565854549408, 'learning_rate': 0.0004951456261862051, 'epoch': 0.09}
+{'loss': 1.5618, 'grad_norm': 0.15866942703723907, 'learning_rate': 0.0004951048813566565, 'epoch': 0.09}
+{'loss': 1.5514, 'grad_norm': 0.16735631227493286, 'learning_rate': 0.0004950639679371353, 'epoch': 0.09}
+{'loss': 1.5695, 'grad_norm': 0.2043178826570511, 'learning_rate': 0.0004950228859557828, 'epoch': 0.09}
+{'loss': 1.5548, 'grad_norm': 0.13808771967887878, 'learning_rate': 0.0004949816354408564, 'epoch': 0.09}
+{'loss': 1.5761, 'grad_norm': 0.2230932116508484, 'learning_rate': 0.0004949402164207291, 'epoch': 0.09}
+{'loss': 1.553, 'grad_norm': 0.13949593901634216, 'learning_rate': 0.0004948986289238904, 'epoch': 0.09}
+{'loss': 1.5572, 'grad_norm': 0.1881444752216339, 'learning_rate': 0.0004948568729789452, 'epoch': 0.09}
+{'loss': 1.5695, 'grad_norm': 0.14312486350536346, 'learning_rate': 0.0004948149486146143, 'epoch': 0.09}
+{'loss': 1.5566, 'grad_norm': 0.15631891787052155, 'learning_rate': 0.0004947728558597346, 'epoch': 0.09}
+{'loss': 1.5471, 'grad_norm': 0.16418668627738953, 'learning_rate': 0.0004947305947432585, 'epoch': 0.09}
+{'loss': 1.5522, 'grad_norm': 0.1488271802663803, 'learning_rate': 0.0004946881652942546, 'epoch': 0.09}
+{'loss': 1.5809, 'grad_norm': 0.18377692997455597, 'learning_rate': 0.000494645567541907, 'epoch': 0.09}
+{'loss': 1.557, 'grad_norm': 0.14940136671066284, 'learning_rate': 0.0004946028015155153, 'epoch': 0.09}
+{'loss': 1.5547, 'grad_norm': 0.16438806056976318, 'learning_rate': 0.0004945598672444956, 'epoch': 0.09}
+{'loss': 1.5454, 'grad_norm': 0.1501782089471817, 'learning_rate': 0.0004945167647583791, 'epoch': 0.09}
+{'loss': 1.5532, 'grad_norm': 0.1510438472032547, 'learning_rate': 0.000494473494086813, 'epoch': 0.1}
+{'loss': 1.5572, 'grad_norm': 0.1585250198841095, 'learning_rate': 0.0004944300552595598, 'epoch': 0.1}
+{'loss': 1.5535, 'grad_norm': 0.13630463182926178, 'learning_rate': 0.0004943864483064981, 'epoch': 0.1}
+{'loss': 1.5711, 'grad_norm': 0.1810268610715866, 'learning_rate': 0.0004943426732576221, 'epoch': 0.1}
+{'loss': 1.5601, 'grad_norm': 0.15510433912277222, 'learning_rate': 0.0004942987301430415, 'epoch': 0.1}
+{'loss': 1.558, 'grad_norm': 0.14449328184127808, 'learning_rate': 0.0004942546189929814, 'epoch': 0.1}
+{'loss': 1.5439, 'grad_norm': 0.14810650050640106, 'learning_rate': 0.0004942103398377827, 'epoch': 0.1}
+{'loss': 1.5615, 'grad_norm': 0.1414010375738144, 'learning_rate': 0.0004941658927079019, 'epoch': 0.1}
+{'loss': 1.5663, 'grad_norm': 0.14866837859153748, 'learning_rate': 0.0004941212776339111, 'epoch': 0.1}
+{'loss': 1.5671, 'grad_norm': 0.11181943863630295, 'learning_rate': 0.0004940764946464976, 'epoch': 0.1}
+{'loss': 1.561, 'grad_norm': 0.13401207327842712, 'learning_rate': 0.0004940315437764645, 'epoch': 0.1}
+{'loss': 1.5628, 'grad_norm': 0.13070224225521088, 'learning_rate': 0.0004939864250547302, 'epoch': 0.1}
+{'loss': 1.5559, 'grad_norm': 0.12161141633987427, 'learning_rate': 0.0004939411385123288, 'epoch': 0.1}
+{'loss': 1.559, 'grad_norm': 0.14685949683189392, 'learning_rate': 0.0004938956841804093, 'epoch': 0.1}
+{'loss': 1.5542, 'grad_norm': 0.13221514225006104, 'learning_rate': 0.0004938500620902367, 'epoch': 0.1}
+{'loss': 1.5505, 'grad_norm': 0.13776026666164398, 'learning_rate': 0.0004938042722731911, 'epoch': 0.1}
+{'loss': 1.5411, 'grad_norm': 0.1450730711221695, 'learning_rate': 0.0004937583147607681, 'epoch': 0.1}
+{'loss': 1.5654, 'grad_norm': 0.12750990688800812, 'learning_rate': 0.0004937121895845783, 'epoch': 0.1}
+{'loss': 1.5655, 'grad_norm': 0.1447737216949463, 'learning_rate': 0.0004936658967763481, 'epoch': 0.1}
+{'loss': 1.5666, 'grad_norm': 0.122521311044693, 'learning_rate': 0.000493619436367919, 'epoch': 0.1}
+{'loss': 1.5897, 'grad_norm': 0.1881795972585678, 'learning_rate': 0.0004935728083912477, 'epoch': 0.1}
+{'loss': 1.5497, 'grad_norm': 0.13433317840099335, 'learning_rate': 0.0004935260128784061, 'epoch': 0.1}
+{'loss': 1.5376, 'grad_norm': 0.14145439863204956, 'learning_rate': 0.0004934790498615817, 'epoch': 0.1}
+{'loss': 1.5605, 'grad_norm': 0.154881089925766, 'learning_rate': 0.0004934319193730767, 'epoch': 0.1}
+{'loss': 1.5392, 'grad_norm': 0.14658509194850922, 'learning_rate': 0.0004933846214453091, 'epoch': 0.1}
+{'loss': 1.57, 'grad_norm': 0.14973467588424683, 'learning_rate': 0.0004933371561108114, 'epoch': 0.1}
+{'loss': 1.5374, 'grad_norm': 0.1721564382314682, 'learning_rate': 0.0004932895234022319, 'epoch': 0.1}
+{'loss': 1.5468, 'grad_norm': 0.1351366639137268, 'learning_rate': 0.0004932417233523334, 'epoch': 0.1}
+{'loss': 1.569, 'grad_norm': 0.13913749158382416, 'learning_rate': 0.0004931937559939942, 'epoch': 0.1}
+{'loss': 1.5547, 'grad_norm': 0.15530899167060852, 'learning_rate': 0.0004931456213602078, 'epoch': 0.1}
+{'loss': 1.5505, 'grad_norm': 0.1730920672416687, 'learning_rate': 0.0004930973194840823, 'epoch': 0.1}
+{'loss': 1.5264, 'grad_norm': 0.167596235871315, 'learning_rate': 0.000493048850398841, 'epoch': 0.1}
+{'loss': 1.5406, 'grad_norm': 0.15243099629878998, 'learning_rate': 0.0004930002141378227, 'epoch': 0.1}
+{'loss': 1.5536, 'grad_norm': 0.2047720104455948, 'learning_rate': 0.0004929514107344803, 'epoch': 0.1}
+{'loss': 1.5562, 'grad_norm': 0.15638187527656555, 'learning_rate': 0.0004929024402223826, 'epoch': 0.1}
+{'loss': 1.5676, 'grad_norm': 0.21073994040489197, 'learning_rate': 0.0004928533026352124, 'epoch': 0.1}
+{'loss': 1.5674, 'grad_norm': 0.17530286312103271, 'learning_rate': 0.0004928039980067681, 'epoch': 0.1}
+{'loss': 1.5715, 'grad_norm': 0.19079193472862244, 'learning_rate': 0.0004927545263709631, 'epoch': 0.1}
+{'loss': 1.5489, 'grad_norm': 0.1469597965478897, 'learning_rate': 0.0004927048877618249, 'epoch': 0.1}
+{'loss': 1.5599, 'grad_norm': 0.21759392321109772, 'learning_rate': 0.0004926550822134967, 'epoch': 0.11}
+{'loss': 1.5624, 'grad_norm': 0.17171218991279602, 'learning_rate': 0.0004926051097602359, 'epoch': 0.11}
+{'loss': 1.5548, 'grad_norm': 0.18333816528320312, 'learning_rate': 0.0004925549704364149, 'epoch': 0.11}
+{'loss': 1.5569, 'grad_norm': 0.17139413952827454, 'learning_rate': 0.0004925046642765212, 'epoch': 0.11}
+{'loss': 1.551, 'grad_norm': 0.1865122765302658, 'learning_rate': 0.0004924541913151566, 'epoch': 0.11}
+{'loss': 1.5575, 'grad_norm': 0.15837262570858002, 'learning_rate': 0.0004924035515870379, 'epoch': 0.11}
+{'loss': 1.5579, 'grad_norm': 0.1571730524301529, 'learning_rate': 0.0004923527451269964, 'epoch': 0.11}
+{'loss': 1.5262, 'grad_norm': 0.1403043270111084, 'learning_rate': 0.0004923017719699782, 'epoch': 0.11}
+{'loss': 1.5547, 'grad_norm': 0.14025677740573883, 'learning_rate': 0.0004922506321510441, 'epoch': 0.11}
+{'loss': 1.5568, 'grad_norm': 0.1519070416688919, 'learning_rate': 0.0004921993257053696, 'epoch': 0.11}
+{'loss': 1.5506, 'grad_norm': 0.14679330587387085, 'learning_rate': 0.0004921478526682446, 'epoch': 0.11}
+{'loss': 1.5545, 'grad_norm': 0.14898192882537842, 'learning_rate': 0.0004920962130750737, 'epoch': 0.11}
+{'loss': 1.5674, 'grad_norm': 0.13441704213619232, 'learning_rate': 0.000492044406961376, 'epoch': 0.11}
+{'loss': 1.5386, 'grad_norm': 0.1723204106092453, 'learning_rate': 0.0004919924343627853, 'epoch': 0.11}
+{'loss': 1.5539, 'grad_norm': 0.14196625351905823, 'learning_rate': 0.0004919402953150498, 'epoch': 0.11}
+{'loss': 1.5572, 'grad_norm': 0.1471758782863617, 'learning_rate': 0.0004918879898540321, 'epoch': 0.11}
+{'loss': 1.5479, 'grad_norm': 0.16223686933517456, 'learning_rate': 0.0004918355180157094, 'epoch': 0.11}
+{'loss': 1.5433, 'grad_norm': 0.15012280642986298, 'learning_rate': 0.0004917828798361732, 'epoch': 0.11}
+{'loss': 1.5533, 'grad_norm': 0.16490647196769714, 'learning_rate': 0.0004917300753516296, 'epoch': 0.11}
+{'loss': 1.547, 'grad_norm': 0.1531347781419754, 'learning_rate': 0.0004916771045983991, 'epoch': 0.11}
+{'loss': 1.5428, 'grad_norm': 0.1933896839618683, 'learning_rate': 0.0004916239676129163, 'epoch': 0.11}
+{'loss': 1.549, 'grad_norm': 0.14023563265800476, 'learning_rate': 0.0004915706644317303, 'epoch': 0.11}
+{'loss': 1.5602, 'grad_norm': 0.15627501904964447, 'learning_rate': 0.0004915171950915047, 'epoch': 0.11}
+{'loss': 1.5485, 'grad_norm': 0.15020611882209778, 'learning_rate': 0.000491463559629017, 'epoch': 0.11}
+{'loss': 1.5443, 'grad_norm': 0.12638847529888153, 'learning_rate': 0.0004914097580811592, 'epoch': 0.11}
+{'loss': 1.5502, 'grad_norm': 0.16604815423488617, 'learning_rate': 0.0004913557904849377, 'epoch': 0.11}
+{'loss': 1.5402, 'grad_norm': 0.13857536017894745, 'learning_rate': 0.0004913016568774725, 'epoch': 0.11}
+{'loss': 1.5542, 'grad_norm': 0.13792017102241516, 'learning_rate': 0.0004912473572959987, 'epoch': 0.11}
+{'loss': 1.5495, 'grad_norm': 0.1599024087190628, 'learning_rate': 0.0004911928917778648, 'epoch': 0.11}
+{'loss': 1.5457, 'grad_norm': 0.14732669293880463, 'learning_rate': 0.0004911382603605337, 'epoch': 0.11}
+{'loss': 1.5496, 'grad_norm': 0.15531045198440552, 'learning_rate': 0.0004910834630815823, 'epoch': 0.11}
+{'loss': 1.5656, 'grad_norm': 0.1547648161649704, 'learning_rate': 0.000491028499978702, 'epoch': 0.11}
+{'loss': 1.5373, 'grad_norm': 0.15100593864917755, 'learning_rate': 0.0004909733710896978, 'epoch': 0.11}
+{'loss': 1.534, 'grad_norm': 0.16070987284183502, 'learning_rate': 0.0004909180764524889, 'epoch': 0.11}
+{'loss': 1.556, 'grad_norm': 0.16444692015647888, 'learning_rate': 0.0004908626161051084, 'epoch': 0.11}
+{'loss': 1.5494, 'grad_norm': 0.16170978546142578, 'learning_rate': 0.0004908069900857036, 'epoch': 0.11}
+{'loss': 1.5693, 'grad_norm': 0.1618672013282776, 'learning_rate': 0.0004907511984325356, 'epoch': 0.11}
+{'loss': 1.5531, 'grad_norm': 0.1252535879611969, 'learning_rate': 0.0004906952411839794, 'epoch': 0.11}
+{'loss': 1.5381, 'grad_norm': 0.1458130180835724, 'learning_rate': 0.0004906391183785241, 'epoch': 0.11}
+{'loss': 1.5379, 'grad_norm': 0.13984158635139465, 'learning_rate': 0.0004905828300547722, 'epoch': 0.12}
+{'loss': 1.5356, 'grad_norm': 0.11905156075954437, 'learning_rate': 0.0004905263762514408, 'epoch': 0.12}
+{'loss': 1.542, 'grad_norm': 0.169170081615448, 'learning_rate': 0.0004904697570073602, 'epoch': 0.12}
+{'loss': 1.5595, 'grad_norm': 0.1439584344625473, 'learning_rate': 0.0004904129723614746, 'epoch': 0.12}
+{'loss': 1.5698, 'grad_norm': 0.16004514694213867, 'learning_rate': 0.0004903560223528422, 'epoch': 0.12}
+{'loss': 1.5635, 'grad_norm': 0.1614491194486618, 'learning_rate': 0.0004902989070206347, 'epoch': 0.12}
+{'loss': 1.557, 'grad_norm': 0.1551797240972519, 'learning_rate': 0.0004902416264041377, 'epoch': 0.12}
+{'loss': 1.548, 'grad_norm': 0.12376666069030762, 'learning_rate': 0.0004901841805427505, 'epoch': 0.12}
+{'loss': 1.5397, 'grad_norm': 0.14842967689037323, 'learning_rate': 0.0004901265694759858, 'epoch': 0.12}
+{'loss': 1.5494, 'grad_norm': 0.1601904034614563, 'learning_rate': 0.0004900687932434701, 'epoch': 0.12}
+{'loss': 1.5662, 'grad_norm': 0.169077068567276, 'learning_rate': 0.0004900108518849437, 'epoch': 0.12}
+{'loss': 1.5689, 'grad_norm': 0.1876412332057953, 'learning_rate': 0.00048995274544026, 'epoch': 0.12}
+{'loss': 1.5426, 'grad_norm': 0.12685038149356842, 'learning_rate': 0.0004898944739493864, 'epoch': 0.12}
+{'loss': 1.5364, 'grad_norm': 0.188417449593544, 'learning_rate': 0.0004898360374524036, 'epoch': 0.12}
+{'loss': 1.5501, 'grad_norm': 0.15600703656673431, 'learning_rate': 0.0004897774359895058, 'epoch': 0.12}
+{'loss': 1.5197, 'grad_norm': 0.14851519465446472, 'learning_rate': 0.0004897186696010009, 'epoch': 0.12}
+{'loss': 1.5533, 'grad_norm': 0.17122280597686768, 'learning_rate': 0.00048965973832731, 'epoch': 0.12}
+{'loss': 1.5127, 'grad_norm': 0.1641840785741806, 'learning_rate': 0.0004896006422089676, 'epoch': 0.12}
+{'loss': 1.5797, 'grad_norm': 0.1608140766620636, 'learning_rate': 0.0004895413812866218, 'epoch': 0.12}
+{'loss': 1.5598, 'grad_norm': 0.15190626680850983, 'learning_rate': 0.0004894819556010337, 'epoch': 0.12}
+{'loss': 1.5477, 'grad_norm': 0.15474286675453186, 'learning_rate': 0.000489422365193078, 'epoch': 0.12}
+{'loss': 1.5857, 'grad_norm': 0.1756882518529892, 'learning_rate': 0.0004893626101037427, 'epoch': 0.12}
+{'loss': 1.5437, 'grad_norm': 0.16420294344425201, 'learning_rate': 0.0004893026903741291, 'epoch': 0.12}
+{'loss': 1.5371, 'grad_norm': 0.17211750149726868, 'learning_rate': 0.0004892426060454515, 'epoch': 0.12}
+{'loss': 1.5549, 'grad_norm': 0.15307074785232544, 'learning_rate': 0.0004891823571590377, 'epoch': 0.12}
+{'loss': 1.5522, 'grad_norm': 0.15799358487129211, 'learning_rate': 0.0004891219437563285, 'epoch': 0.12}
+{'loss': 1.5696, 'grad_norm': 0.16655701398849487, 'learning_rate': 0.0004890613658788779, 'epoch': 0.12}
+{'loss': 1.5424, 'grad_norm': 0.14724195003509521, 'learning_rate': 0.0004890006235683532, 'epoch': 0.12}
+{'loss': 1.537, 'grad_norm': 0.15780135989189148, 'learning_rate': 0.0004889397168665345, 'epoch': 0.12}
+{'loss': 1.5701, 'grad_norm': 0.13466612994670868, 'learning_rate': 0.0004888786458153151, 'epoch': 0.12}
+{'loss': 1.5459, 'grad_norm': 0.16297465562820435, 'learning_rate': 0.0004888174104567015, 'epoch': 0.12}
+{'loss': 1.5634, 'grad_norm': 0.12023339420557022, 'learning_rate': 0.000488756010832813, 'epoch': 0.12}
+{'loss': 1.5368, 'grad_norm': 0.1943894475698471, 'learning_rate': 0.000488694446985882, 'epoch': 0.12}
+{'loss': 1.5537, 'grad_norm': 0.16511760652065277, 'learning_rate': 0.0004886327189582538, 'epoch': 0.12}
+{'loss': 1.5402, 'grad_norm': 0.21211765706539154, 'learning_rate': 0.0004885708267923869, 'epoch': 0.12}
+{'loss': 1.5436, 'grad_norm': 0.16122107207775116, 'learning_rate': 0.0004885087705308521, 'epoch': 0.12}
+{'loss': 1.5314, 'grad_norm': 0.16831310093402863, 'learning_rate': 0.0004884465502163337, 'epoch': 0.12}
+{'loss': 1.5872, 'grad_norm': 0.17021679878234863, 'learning_rate': 0.0004883841658916284, 'epoch': 0.12}
+{'loss': 1.5474, 'grad_norm': 0.14360983669757843, 'learning_rate': 0.0004883216175996458, 'epoch': 0.12}
+{'loss': 1.5596, 'grad_norm': 0.1765526533126831, 'learning_rate': 0.0004882589053834086, 'epoch': 0.13}
+{'loss': 1.5338, 'grad_norm': 0.14308583736419678, 'learning_rate': 0.0004881960292860518, 'epoch': 0.13}
+{'loss': 1.522, 'grad_norm': 0.16994589567184448, 'learning_rate': 0.0004881329893508235, 'epoch': 0.13}
+{'loss': 1.5436, 'grad_norm': 0.14987799525260925, 'learning_rate': 0.0004880697856210843, 'epoch': 0.13}
+{'loss': 1.5349, 'grad_norm': 0.1481013149023056, 'learning_rate': 0.00048800641814030746, 'epoch': 0.13}
+{'loss': 1.5501, 'grad_norm': 0.14771881699562073, 'learning_rate': 0.0004879428869520788, 'epoch': 0.13}
+{'loss': 1.5428, 'grad_norm': 0.16376782953739166, 'learning_rate': 0.00048787919210009693, 'epoch': 0.13}
+{'loss': 1.5418, 'grad_norm': 0.16857707500457764, 'learning_rate': 0.000487815333628173, 'epoch': 0.13}
+{'loss': 1.5272, 'grad_norm': 0.13151821494102478, 'learning_rate': 0.00048775131158023056, 'epoch': 0.13}
+{'loss': 1.5349, 'grad_norm': 0.16015559434890747, 'learning_rate': 0.0004876871260003058, 'epoch': 0.13}
+{'loss': 1.5387, 'grad_norm': 0.16615574061870575, 'learning_rate': 0.0004876227769325473, 'epoch': 0.13}
+{'loss': 1.5516, 'grad_norm': 0.15194351971149445, 'learning_rate': 0.0004875582644212163, 'epoch': 0.13}
+{'loss': 1.5618, 'grad_norm': 0.19345250725746155, 'learning_rate': 0.00048749358851068607, 'epoch': 0.13}
+{'loss': 1.5747, 'grad_norm': 0.13679222762584686, 'learning_rate': 0.0004874287492454427, 'epoch': 0.13}
+{'loss': 1.5658, 'grad_norm': 0.17975389957427979, 'learning_rate': 0.0004873637466700843, 'epoch': 0.13}
+{'loss': 1.5285, 'grad_norm': 0.131465345621109, 'learning_rate': 0.0004872985808293216, 'epoch': 0.13}
+{'loss': 1.5398, 'grad_norm': 0.17631155252456665, 'learning_rate': 0.0004872332517679774, 'epoch': 0.13}
+{'loss': 1.5198, 'grad_norm': 0.16497987508773804, 'learning_rate': 0.0004871677595309868, 'epoch': 0.13}
+{'loss': 1.5355, 'grad_norm': 0.1332962065935135, 'learning_rate': 0.0004871021041633973, 'epoch': 0.13}
+{'loss': 1.5358, 'grad_norm': 0.17151378095149994, 'learning_rate': 0.0004870362857103684, 'epoch': 0.13}
+{'loss': 1.5363, 'grad_norm': 0.14074629545211792, 'learning_rate': 0.00048697030421717194, 'epoch': 0.13}
+{'loss': 1.5186, 'grad_norm': 0.12279903143644333, 'learning_rate': 0.00048690415972919176, 'epoch': 0.13}
+{'loss': 1.5251, 'grad_norm': 0.1566668599843979, 'learning_rate': 0.000486837852291924, 'epoch': 0.13}
+{'loss': 1.5293, 'grad_norm': 0.1386401355266571, 'learning_rate': 0.0004867713819509766, 'epoch': 0.13}
+{'loss': 1.5406, 'grad_norm': 0.18792171776294708, 'learning_rate': 0.0004867047487520698, 'epoch': 0.13}
+{'loss': 1.5475, 'grad_norm': 0.1581379771232605, 'learning_rate': 0.00048663795274103585, 'epoch': 0.13}
+{'loss': 1.5462, 'grad_norm': 0.13469603657722473, 'learning_rate': 0.0004865709939638188, 'epoch': 0.13}
+{'loss': 1.5425, 'grad_norm': 0.17676885426044464, 'learning_rate': 0.0004865038724664747, 'epoch': 0.13}
+{'loss': 1.5296, 'grad_norm': 0.1274082064628601, 'learning_rate': 0.0004864365882951718, 'epoch': 0.13}
+{'loss': 1.535, 'grad_norm': 0.18840929865837097, 'learning_rate': 0.0004863691414961898, 'epoch': 0.13}
+{'loss': 1.497, 'grad_norm': 0.12898361682891846, 'learning_rate': 0.0004863015321159206, 'epoch': 0.13}
+{'loss': 1.517, 'grad_norm': 0.1817266196012497, 'learning_rate': 0.00048623376020086794, 'epoch': 0.13}
+{'loss': 1.5324, 'grad_norm': 0.1479819416999817, 'learning_rate': 0.00048616582579764705, 'epoch': 0.13}
+{'loss': 1.5521, 'grad_norm': 0.1561732292175293, 'learning_rate': 0.0004860977289529852, 'epoch': 0.13}
+{'loss': 1.53, 'grad_norm': 0.17505735158920288, 'learning_rate': 0.00048602946971372117, 'epoch': 0.13}
+{'loss': 1.5297, 'grad_norm': 0.15454387664794922, 'learning_rate': 0.00048596104812680574, 'epoch': 0.13}
+{'loss': 1.5441, 'grad_norm': 0.15643854439258575, 'learning_rate': 0.0004858924642393011, 'epoch': 0.13}
+{'loss': 1.561, 'grad_norm': 0.145089253783226, 'learning_rate': 0.00048582371809838124, 'epoch': 0.13}
+{'loss': 1.5528, 'grad_norm': 0.13319577276706696, 'learning_rate': 0.00048575480975133144, 'epoch': 0.13}
+{'loss': 1.5348, 'grad_norm': 0.14615768194198608, 'learning_rate': 0.0004856857392455491, 'epoch': 0.14}
+{'loss': 1.5411, 'grad_norm': 0.11320526152849197, 'learning_rate': 0.00048561650662854263, 'epoch': 0.14}
+{'loss': 1.5432, 'grad_norm': 0.15649591386318207, 'learning_rate': 0.0004855471119479322, 'epoch': 0.14}
+{'loss': 1.5595, 'grad_norm': 0.12270881235599518, 'learning_rate': 0.0004854775552514494, 'epoch': 0.14}
+{'loss': 1.5283, 'grad_norm': 0.13186180591583252, 'learning_rate': 0.00048540783658693735, 'epoch': 0.14}
+{'loss': 1.5529, 'grad_norm': 0.15562553703784943, 'learning_rate': 0.0004853379560023504, 'epoch': 0.14}
+{'loss': 1.5488, 'grad_norm': 0.14501389861106873, 'learning_rate': 0.00048526791354575434, 'epoch': 0.14}
+{'loss': 1.515, 'grad_norm': 0.16067491471767426, 'learning_rate': 0.0004851977092653264, 'epoch': 0.14}
+{'loss': 1.5177, 'grad_norm': 0.13926297426223755, 'learning_rate': 0.00048512734320935505, 'epoch': 0.14}
+{'loss': 1.5427, 'grad_norm': 0.15761466324329376, 'learning_rate': 0.0004850568154262399, 'epoch': 0.14}
+{'loss': 1.5284, 'grad_norm': 0.13813646137714386, 'learning_rate': 0.00048498612596449217, 'epoch': 0.14}
+{'loss': 1.5578, 'grad_norm': 0.1736753135919571, 'learning_rate': 0.0004849152748727338, 'epoch': 0.14}
+{'loss': 1.5485, 'grad_norm': 0.1647156924009323, 'learning_rate': 0.0004848442621996982, 'epoch': 0.14}
+{'loss': 1.5194, 'grad_norm': 0.17966537177562714, 'learning_rate': 0.00048477308799423, 'epoch': 0.14}
+{'loss': 1.5359, 'grad_norm': 0.18118315935134888, 'learning_rate': 0.0004847017523052846, 'epoch': 0.14}
+{'loss': 1.5398, 'grad_norm': 0.13315190374851227, 'learning_rate': 0.00048463025518192886, 'epoch': 0.14}
+{'loss': 1.5378, 'grad_norm': 0.15893618762493134, 'learning_rate': 0.00048455859667334046, 'epoch': 0.14}
+{'loss': 1.5335, 'grad_norm': 0.1460202932357788, 'learning_rate': 0.000484486776828808, 'epoch': 0.14}
+{'loss': 1.5277, 'grad_norm': 0.1609821766614914, 'learning_rate': 0.0004844147956977313, 'epoch': 0.14}
+{'loss': 1.5588, 'grad_norm': 0.15109559893608093, 'learning_rate': 0.0004843426533296209, 'epoch': 0.14}
+{'loss': 1.4919, 'grad_norm': 0.1763964295387268, 'learning_rate': 0.0004842703497740984, 'epoch': 0.14}
+{'loss': 1.527, 'grad_norm': 0.13494764268398285, 'learning_rate': 0.0004841978850808961, 'epoch': 0.14}
+{'loss': 1.5436, 'grad_norm': 0.1876424103975296, 'learning_rate': 0.0004841252592998575, 'epoch': 0.14}
+{'loss': 1.5565, 'grad_norm': 0.14519748091697693, 'learning_rate': 0.0004840524724809363, 'epoch': 0.14}
+{'loss': 1.5328, 'grad_norm': 0.14825443923473358, 'learning_rate': 0.0004839795246741975, 'epoch': 0.14}
+{'loss': 1.5311, 'grad_norm': 0.16381266713142395, 'learning_rate': 0.00048390641592981656, 'epoch': 0.14}
+{'loss': 1.5149, 'grad_norm': 0.15066690742969513, 'learning_rate': 0.00048383314629807974, 'epoch': 0.14}
+{'loss': 1.5531, 'grad_norm': 0.15979938209056854, 'learning_rate': 0.00048375971582938394, 'epoch': 0.14}
+{'loss': 1.5179, 'grad_norm': 0.14368189871311188, 'learning_rate': 0.00048368612457423677, 'epoch': 0.14}
+{'loss': 1.4991, 'grad_norm': 0.17702068388462067, 'learning_rate': 0.0004836123725832562, 'epoch': 0.14}
+{'loss': 1.5411, 'grad_norm': 0.1653430014848709, 'learning_rate': 0.00048353845990717093, 'epoch': 0.14}
+{'loss': 1.5411, 'grad_norm': 0.1680997908115387, 'learning_rate': 0.0004834643865968202, 'epoch': 0.14}
+{'loss': 1.5519, 'grad_norm': 0.14193195104599, 'learning_rate': 0.00048339015270315377, 'epoch': 0.14}
+{'loss': 1.5366, 'grad_norm': 0.14816251397132874, 'learning_rate': 0.0004833157582772317, 'epoch': 0.14}
+{'loss': 1.5588, 'grad_norm': 0.16017720103263855, 'learning_rate': 0.0004832412033702245, 'epoch': 0.14}
+{'loss': 1.5061, 'grad_norm': 0.13523370027542114, 'learning_rate': 0.00048316648803341315, 'epoch': 0.14}
+{'loss': 1.5484, 'grad_norm': 0.17063722014427185, 'learning_rate': 0.00048309161231818905, 'epoch': 0.14}
+{'loss': 1.5233, 'grad_norm': 0.13451844453811646, 'learning_rate': 0.0004830165762760537, 'epoch': 0.14}
+{'loss': 1.5392, 'grad_norm': 0.15906478464603424, 'learning_rate': 0.00048294137995861895, 'epoch': 0.14}
+{'loss': 1.5559, 'grad_norm': 0.16757172346115112, 'learning_rate': 0.00048286602341760703, 'epoch': 0.15}
+{'loss': 1.5472, 'grad_norm': 0.17234115302562714, 'learning_rate': 0.0004827905067048502, 'epoch': 0.15}
+{'loss': 1.5232, 'grad_norm': 0.1642722189426422, 'learning_rate': 0.000482714829872291, 'epoch': 0.15}
+{'loss': 1.5512, 'grad_norm': 0.13411439955234528, 'learning_rate': 0.000482638992971982, 'epoch': 0.15}
+{'loss': 1.558, 'grad_norm': 0.1827947050333023, 'learning_rate': 0.000482562996056086, 'epoch': 0.15}
+{'loss': 1.5267, 'grad_norm': 0.14670565724372864, 'learning_rate': 0.00048248683917687574, 'epoch': 0.15}
+{'loss': 1.5143, 'grad_norm': 0.147614985704422, 'learning_rate': 0.00048241052238673414, 'epoch': 0.15}
+{'loss': 1.5259, 'grad_norm': 0.16149108111858368, 'learning_rate': 0.000482334045738154, 'epoch': 0.15}
+{'loss': 1.5583, 'grad_norm': 0.12972506880760193, 'learning_rate': 0.00048225740928373796, 'epoch': 0.15}
+{'loss': 1.543, 'grad_norm': 0.18454216420650482, 'learning_rate': 0.0004821806130761988, 'epoch': 0.15}
+{'loss': 1.5475, 'grad_norm': 0.12664775550365448, 'learning_rate': 0.0004821036571683591, 'epoch': 0.15}
+{'loss': 1.5258, 'grad_norm': 0.14870484173297882, 'learning_rate': 0.00048202654161315134, 'epoch': 0.15}
+{'loss': 1.5114, 'grad_norm': 0.14748011529445648, 'learning_rate': 0.0004819492664636176, 'epoch': 0.15}
+{'loss': 1.5521, 'grad_norm': 0.14728228747844696, 'learning_rate': 0.0004818718317729101, 'epoch': 0.15}
+{'loss': 1.5289, 'grad_norm': 0.14995209872722626, 'learning_rate': 0.0004817942375942903, 'epoch': 0.15}
+{'loss': 1.5617, 'grad_norm': 0.1649257391691208, 'learning_rate': 0.0004817164839811299, 'epoch': 0.15}
+{'loss': 1.5351, 'grad_norm': 0.16163350641727448, 'learning_rate': 0.00048163857098690977, 'epoch': 0.15}
+{'loss': 1.5206, 'grad_norm': 0.15455032885074615, 'learning_rate': 0.0004815604986652208, 'epoch': 0.15}
+{'loss': 1.5243, 'grad_norm': 0.1702214926481247, 'learning_rate': 0.00048148226706976326, 'epoch': 0.15}
+{'loss': 1.5343, 'grad_norm': 0.138026162981987, 'learning_rate': 0.0004814038762543471, 'epoch': 0.15}
+{'loss': 1.5209, 'grad_norm': 0.1533762663602829, 'learning_rate': 0.00048132532627289163, 'epoch': 0.15}
+{'loss': 1.5165, 'grad_norm': 0.15815725922584534, 'learning_rate': 0.00048124661717942563, 'epoch': 0.15}
+{'loss': 1.5491, 'grad_norm': 0.1565161645412445, 'learning_rate': 0.00048116774902808756, 'epoch': 0.15}
+{'loss': 1.5258, 'grad_norm': 0.1733907163143158, 'learning_rate': 0.00048108872187312514, 'epoch': 0.15}
+{'loss': 1.5313, 'grad_norm': 0.14696797728538513, 'learning_rate': 0.0004810095357688954, 'epoch': 0.15}
+{'loss': 1.4915, 'grad_norm': 0.18387071788311005, 'learning_rate': 0.00048093019076986466, 'epoch': 0.15}
+{'loss': 1.5423, 'grad_norm': 0.12991556525230408, 'learning_rate': 0.00048085068693060876, 'epoch': 0.15}
+{'loss': 1.5317, 'grad_norm': 0.1581464409828186, 'learning_rate': 0.0004807710243058125, 'epoch': 0.15}
+{'loss': 1.5319, 'grad_norm': 0.14618980884552002, 'learning_rate': 0.0004806912029502703, 'epoch': 0.15}
+{'loss': 1.5164, 'grad_norm': 0.134477898478508, 'learning_rate': 0.0004806112229188854, 'epoch': 0.15}
+{'loss': 1.557, 'grad_norm': 0.1434200406074524, 'learning_rate': 0.00048053108426667016, 'epoch': 0.15}
+{'loss': 1.5721, 'grad_norm': 0.12812453508377075, 'learning_rate': 0.00048045078704874627, 'epoch': 0.15}
+{'loss': 1.505, 'grad_norm': 0.16328273713588715, 'learning_rate': 0.00048037033132034446, 'epoch': 0.15}
+{'loss': 1.5272, 'grad_norm': 0.14612561464309692, 'learning_rate': 0.00048028971713680443, 'epoch': 0.15}
+{'loss': 1.5104, 'grad_norm': 0.13362224400043488, 'learning_rate': 0.00048020894455357477, 'epoch': 0.15}
+{'loss': 1.5331, 'grad_norm': 0.1374606490135193, 'learning_rate': 0.0004801280136262132, 'epoch': 0.15}
+{'loss': 1.5128, 'grad_norm': 0.17142122983932495, 'learning_rate': 0.0004800469244103861, 'epoch': 0.15}
+{'loss': 1.532, 'grad_norm': 0.14948883652687073, 'learning_rate': 0.0004799656769618691, 'epoch': 0.15}
+{'loss': 1.5206, 'grad_norm': 0.15112806856632233, 'learning_rate': 0.00047988427133654647, 'epoch': 0.15}
+{'loss': 1.5108, 'grad_norm': 0.16851061582565308, 'learning_rate': 0.00047980270759041105, 'epoch': 0.16}
+{'loss': 1.5304, 'grad_norm': 0.13745371997356415, 'learning_rate': 0.00047972098577956485, 'epoch': 0.16}
+{'loss': 1.5276, 'grad_norm': 0.14118114113807678, 'learning_rate': 0.0004796391059602183, 'epoch': 0.16}
+{'loss': 1.5317, 'grad_norm': 0.16841647028923035, 'learning_rate': 0.0004795570681886907, 'epoch': 0.16}
+{'loss': 1.5305, 'grad_norm': 0.12162270396947861, 'learning_rate': 0.00047947487252140996, 'epoch': 0.16}
+{'loss': 1.5177, 'grad_norm': 0.14478498697280884, 'learning_rate': 0.0004793925190149124, 'epoch': 0.16}
+{'loss': 1.5481, 'grad_norm': 0.148286372423172, 'learning_rate': 0.00047931000772584323, 'epoch': 0.16}
+{'loss': 1.5157, 'grad_norm': 0.1608109176158905, 'learning_rate': 0.00047922733871095586, 'epoch': 0.16}
+{'loss': 1.539, 'grad_norm': 0.14594906568527222, 'learning_rate': 0.0004791445120271124, 'epoch': 0.16}
+{'loss': 1.5383, 'grad_norm': 0.14342521131038666, 'learning_rate': 0.0004790615277312834, 'epoch': 0.16}
+{'loss': 1.5326, 'grad_norm': 0.13788267970085144, 'learning_rate': 0.0004789783858805477, 'epoch': 0.16}
+{'loss': 1.5642, 'grad_norm': 0.15741266310214996, 'learning_rate': 0.0004788950865320927, 'epoch': 0.16}
+{'loss': 1.5486, 'grad_norm': 0.16053375601768494, 'learning_rate': 0.00047881162974321384, 'epoch': 0.16}
+{'loss': 1.5324, 'grad_norm': 0.13560737669467926, 'learning_rate': 0.00047872801557131517, 'epoch': 0.16}
+{'loss': 1.539, 'grad_norm': 0.1793983280658722, 'learning_rate': 0.0004786442440739088, 'epoch': 0.16}
+{'loss': 1.5538, 'grad_norm': 0.14246611297130585, 'learning_rate': 0.0004785603153086151, 'epoch': 0.16}
+{'loss': 1.5232, 'grad_norm': 0.1455201357603073, 'learning_rate': 0.00047847622933316257, 'epoch': 0.16}
+{'loss': 1.5211, 'grad_norm': 0.14647935330867767, 'learning_rate': 0.00047839198620538796, 'epoch': 0.16}
+{'loss': 1.534, 'grad_norm': 0.1653953492641449, 'learning_rate': 0.0004783075859832361, 'epoch': 0.16}
+{'loss': 1.5485, 'grad_norm': 0.1365220695734024, 'learning_rate': 0.00047822302872475966, 'epoch': 0.16}
+{'loss': 1.5281, 'grad_norm': 0.16719678044319153, 'learning_rate': 0.00047813831448811954, 'epoch': 0.16}
+{'loss': 1.4991, 'grad_norm': 0.1276656687259674, 'learning_rate': 0.00047805344333158464, 'epoch': 0.16}
+{'loss': 1.5242, 'grad_norm': 0.19027593731880188, 'learning_rate': 0.00047796841531353156, 'epoch': 0.16}
+{'loss': 1.5221, 'grad_norm': 0.13321612775325775, 'learning_rate': 0.0004778832304924451, 'epoch': 0.16}
+{'loss': 1.5291, 'grad_norm': 0.17734025418758392, 'learning_rate': 0.00047779788892691766, 'epoch': 0.16}
+{'loss': 1.5459, 'grad_norm': 0.14997242391109467, 'learning_rate': 0.00047771239067564953, 'epoch': 0.16}
+{'loss': 1.5311, 'grad_norm': 0.17982520163059235, 'learning_rate': 0.0004776267357974489, 'epoch': 0.16}
+{'loss': 1.5363, 'grad_norm': 0.14057829976081848, 'learning_rate': 0.00047754092435123145, 'epoch': 0.16}
+{'loss': 1.5272, 'grad_norm': 0.19171160459518433, 'learning_rate': 0.0004774549563960207, 'epoch': 0.16}
+{'loss': 1.5102, 'grad_norm': 0.11387427151203156, 'learning_rate': 0.0004773688319909479, 'epoch': 0.16}
+{'loss': 1.5242, 'grad_norm': 0.1792045682668686, 'learning_rate': 0.0004772825511952518, 'epoch': 0.16}
+{'loss': 1.5045, 'grad_norm': 0.16488976776599884, 'learning_rate': 0.0004771961140682787, 'epoch': 0.16}
+{'loss': 1.5238, 'grad_norm': 0.17528985440731049, 'learning_rate': 0.00047710952066948244, 'epoch': 0.16}
+{'loss': 1.5215, 'grad_norm': 0.16537195444107056, 'learning_rate': 0.0004770227710584245, 'epoch': 0.16}
+{'loss': 1.5279, 'grad_norm': 0.14665453135967255, 'learning_rate': 0.0004769358652947735, 'epoch': 0.16}
+{'loss': 1.5446, 'grad_norm': 0.18700768053531647, 'learning_rate': 0.0004768488034383057, 'epoch': 0.16}
+{'loss': 1.5256, 'grad_norm': 0.1360960602760315, 'learning_rate': 0.0004767615855489048, 'epoch': 0.16}
+{'loss': 1.5446, 'grad_norm': 0.17662200331687927, 'learning_rate': 0.0004766742116865617, 'epoch': 0.16}
+{'loss': 1.5121, 'grad_norm': 0.12244563549757004, 'learning_rate': 0.00047658668191137435, 'epoch': 0.16}
+{'loss': 1.4982, 'grad_norm': 0.13990838825702667, 'learning_rate': 0.00047649899628354834, 'epoch': 0.17}
+{'loss': 1.5472, 'grad_norm': 0.14542151987552643, 'learning_rate': 0.0004764111548633962, 'epoch': 0.17}
+{'loss': 1.5178, 'grad_norm': 0.13009591400623322, 'learning_rate': 0.0004763231577113378, 'epoch': 0.17}
+{'loss': 1.5202, 'grad_norm': 0.1517975628376007, 'learning_rate': 0.00047623500488790007, 'epoch': 0.17}
+{'loss': 1.5181, 'grad_norm': 0.14004363119602203, 'learning_rate': 0.0004761466964537169, 'epoch': 0.17}
+{'loss': 1.5121, 'grad_norm': 0.1621425747871399, 'learning_rate': 0.0004760582324695292, 'epoch': 0.17}
+{'loss': 1.5216, 'grad_norm': 0.17181195318698883, 'learning_rate': 0.0004759696129961852, 'epoch': 0.17}
+{'loss': 1.5332, 'grad_norm': 0.16038557887077332, 'learning_rate': 0.00047588083809463967, 'epoch': 0.17}
+{'loss': 1.5312, 'grad_norm': 0.1507323980331421, 'learning_rate': 0.0004757919078259545, 'epoch': 0.17}
+{'loss': 1.5467, 'grad_norm': 0.1269710659980774, 'learning_rate': 0.00047570282225129835, 'epoch': 0.17}
+{'loss': 1.521, 'grad_norm': 0.17137333750724792, 'learning_rate': 0.0004756135814319469, 'epoch': 0.17}
+{'loss': 1.5762, 'grad_norm': 0.10804697126150131, 'learning_rate': 0.00047552418542928245, 'epoch': 0.17}
+{'loss': 1.5245, 'grad_norm': 0.15209197998046875, 'learning_rate': 0.00047543463430479397, 'epoch': 0.17}
+{'loss': 1.5083, 'grad_norm': 0.13863049447536469, 'learning_rate': 0.00047534492812007726, 'epoch': 0.17}
+{'loss': 1.5043, 'grad_norm': 0.11868514865636826, 'learning_rate': 0.0004752550669368347, 'epoch': 0.17}
+{'loss': 1.5214, 'grad_norm': 0.15957027673721313, 'learning_rate': 0.0004751650508168755, 'epoch': 0.17}
+{'loss': 1.5307, 'grad_norm': 0.1373460590839386, 'learning_rate': 0.00047507487982211504, 'epoch': 0.17}
+{'loss': 1.5303, 'grad_norm': 0.16585615277290344, 'learning_rate': 0.0004749845540145755, 'epoch': 0.17}
+{'loss': 1.5345, 'grad_norm': 0.13060078024864197, 'learning_rate': 0.00047489407345638557, 'epoch': 0.17}
+{'loss': 1.5354, 'grad_norm': 0.1625037044286728, 'learning_rate': 0.00047480343820978024, 'epoch': 0.17}
+{'loss': 1.5241, 'grad_norm': 0.15686877071857452, 'learning_rate': 0.00047471264833710093, 'epoch': 0.17}
+{'loss': 1.5443, 'grad_norm': 0.16753356158733368, 'learning_rate': 0.0004746217039007955, 'epoch': 0.17}
+{'loss': 1.5363, 'grad_norm': 0.15740415453910828, 'learning_rate': 0.00047453060496341804, 'epoch': 0.17}
+{'loss': 1.5057, 'grad_norm': 0.1575668901205063, 'learning_rate': 0.00047443935158762897, 'epoch': 0.17}
+{'loss': 1.5289, 'grad_norm': 0.14101004600524902, 'learning_rate': 0.0004743479438361948, 'epoch': 0.17}
+{'loss': 1.5052, 'grad_norm': 0.1520923227071762, 'learning_rate': 0.0004742563817719886, 'epoch': 0.17}
+{'loss': 1.5232, 'grad_norm': 0.13093730807304382, 'learning_rate': 0.00047416466545798896, 'epoch': 0.17}
+{'loss': 1.4993, 'grad_norm': 0.14896559715270996, 'learning_rate': 0.0004740727949572812, 'epoch': 0.17}
+{'loss': 1.516, 'grad_norm': 0.1357315331697464, 'learning_rate': 0.0004739807703330563, 'epoch': 0.17}
+{'loss': 1.517, 'grad_norm': 0.14680215716362, 'learning_rate': 0.0004738885916486113, 'epoch': 0.17}
+{'loss': 1.5176, 'grad_norm': 0.15628579258918762, 'learning_rate': 0.00047379625896734937, 'epoch': 0.17}
+{'loss': 1.5106, 'grad_norm': 0.13183723390102386, 'learning_rate': 0.0004737037723527794, 'epoch': 0.17}
+{'loss': 1.5479, 'grad_norm': 0.1759171336889267, 'learning_rate': 0.00047361113186851635, 'epoch': 0.17}
+{'loss': 1.4965, 'grad_norm': 0.1092606708407402, 'learning_rate': 0.000473518337578281, 'epoch': 0.17}
+{'loss': 1.5089, 'grad_norm': 0.19124580919742584, 'learning_rate': 0.00047342538954589963, 'epoch': 0.17}
+{'loss': 1.528, 'grad_norm': 0.13512982428073883, 'learning_rate': 0.00047333228783530466, 'epoch': 0.17}
+{'loss': 1.5125, 'grad_norm': 0.14310935139656067, 'learning_rate': 0.0004732390325105341, 'epoch': 0.17}
+{'loss': 1.5038, 'grad_norm': 0.16200731694698334, 'learning_rate': 0.0004731456236357314, 'epoch': 0.17}
+{'loss': 1.5085, 'grad_norm': 0.12298983335494995, 'learning_rate': 0.0004730520612751458, 'epoch': 0.17}
+{'loss': 1.505, 'grad_norm': 0.18513314425945282, 'learning_rate': 0.0004729583454931322, 'epoch': 0.18}
+{'loss': 1.5436, 'grad_norm': 0.13646768033504486, 'learning_rate': 0.00047286447635415087, 'epoch': 0.18}
+{'loss': 1.5576, 'grad_norm': 0.17770425975322723, 'learning_rate': 0.0004727704539227676, 'epoch': 0.18}
+{'loss': 1.5148, 'grad_norm': 0.19968171417713165, 'learning_rate': 0.00047267627826365376, 'epoch': 0.18}
+{'loss': 1.5192, 'grad_norm': 0.14495453238487244, 'learning_rate': 0.0004725819494415858, 'epoch': 0.18}
+{'loss': 1.5062, 'grad_norm': 0.1938837617635727, 'learning_rate': 0.0004724874675214459, 'epoch': 0.18}
+{'loss': 1.5296, 'grad_norm': 0.14375919103622437, 'learning_rate': 0.0004723928325682213, 'epoch': 0.18}
+{'loss': 1.5039, 'grad_norm': 0.16017618775367737, 'learning_rate': 0.0004722980446470045, 'epoch': 0.18}
+{'loss': 1.5076, 'grad_norm': 0.1472151130437851, 'learning_rate': 0.0004722031038229933, 'epoch': 0.18}
+{'loss': 1.5232, 'grad_norm': 0.1549719274044037, 'learning_rate': 0.0004721080101614907, 'epoch': 0.18}
+{'loss': 1.5349, 'grad_norm': 0.13855737447738647, 'learning_rate': 0.0004720127637279047, 'epoch': 0.18}
+{'loss': 1.5151, 'grad_norm': 0.14505824446678162, 'learning_rate': 0.0004719173645877485, 'epoch': 0.18}
+{'loss': 1.5345, 'grad_norm': 0.13611257076263428, 'learning_rate': 0.0004718218128066403, 'epoch': 0.18}
+{'loss': 1.5104, 'grad_norm': 0.1358986794948578, 'learning_rate': 0.0004717261084503032, 'epoch': 0.18}
+{'loss': 1.5265, 'grad_norm': 0.11953138560056686, 'learning_rate': 0.0004716302515845654, 'epoch': 0.18}
+{'loss': 1.5454, 'grad_norm': 0.13362830877304077, 'learning_rate': 0.00047153424227536, 'epoch': 0.18}
+{'loss': 1.5472, 'grad_norm': 0.1594163328409195, 'learning_rate': 0.00047143808058872473, 'epoch': 0.18}
+{'loss': 1.511, 'grad_norm': 0.1295028030872345, 'learning_rate': 0.0004713417665908023, 'epoch': 0.18}
+{'loss': 1.5263, 'grad_norm': 0.1683294028043747, 'learning_rate': 0.00047124530034784026, 'epoch': 0.18}
+{'loss': 1.5078, 'grad_norm': 0.18170970678329468, 'learning_rate': 0.00047114868192619066, 'epoch': 0.18}
+{'loss': 1.5261, 'grad_norm': 0.14638890326023102, 'learning_rate': 0.00047105191139231047, 'epoch': 0.18}
+{'loss': 1.5324, 'grad_norm': 0.17980509996414185, 'learning_rate': 0.0004709549888127611, 'epoch': 0.18}
+{'loss': 1.5179, 'grad_norm': 0.14584067463874817, 'learning_rate': 0.00047085791425420856, 'epoch': 0.18}
+{'loss': 1.5166, 'grad_norm': 0.15899601578712463, 'learning_rate': 0.0004707606877834235, 'epoch': 0.18}
+{'loss': 1.5096, 'grad_norm': 0.16021674871444702, 'learning_rate': 0.000470663309467281, 'epoch': 0.18}
+{'loss': 1.538, 'grad_norm': 0.15666069090366364, 'learning_rate': 0.0004705657793727605, 'epoch': 0.18}
+{'loss': 1.5353, 'grad_norm': 0.1378946155309677, 'learning_rate': 0.00047046809756694604, 'epoch': 0.18}
+{'loss': 1.539, 'grad_norm': 0.12832826375961304, 'learning_rate': 0.00047037026411702584, 'epoch': 0.18}
+{'loss': 1.5319, 'grad_norm': 0.12524302303791046, 'learning_rate': 0.0004702722790902924, 'epoch': 0.18}
+{'loss': 1.5331, 'grad_norm': 0.1429097056388855, 'learning_rate': 0.0004701741425541427, 'epoch': 0.18}
+{'loss': 1.5123, 'grad_norm': 0.13951422274112701, 'learning_rate': 0.00047007585457607763, 'epoch': 0.18}
+{'loss': 1.5373, 'grad_norm': 0.13088317215442657, 'learning_rate': 0.00046997741522370254, 'epoch': 0.18}
+{'loss': 1.5191, 'grad_norm': 0.14430801570415497, 'learning_rate': 0.00046987882456472663, 'epoch': 0.18}
+{'loss': 1.5134, 'grad_norm': 0.13124923408031464, 'learning_rate': 0.0004697800826669635, 'epoch': 0.18}
+{'loss': 1.5201, 'grad_norm': 0.14295856654644012, 'learning_rate': 0.0004696811895983303, 'epoch': 0.18}
+{'loss': 1.5348, 'grad_norm': 0.1456969827413559, 'learning_rate': 0.00046958214542684875, 'epoch': 0.18}
+{'loss': 1.4913, 'grad_norm': 0.14183677732944489, 'learning_rate': 0.00046948295022064394, 'epoch': 0.18}
+{'loss': 1.5403, 'grad_norm': 0.14097265899181366, 'learning_rate': 0.0004693836040479452, 'epoch': 0.18}
+{'loss': 1.5328, 'grad_norm': 0.1343536227941513, 'learning_rate': 0.0004692841069770856, 'epoch': 0.18}
+{'loss': 1.4966, 'grad_norm': 0.12245286256074905, 'learning_rate': 0.00046918445907650206, 'epoch': 0.19}
+{'loss': 1.5296, 'grad_norm': 0.14444901049137115, 'learning_rate': 0.0004690846604147351, 'epoch': 0.19}
+{'loss': 1.5232, 'grad_norm': 0.13971666991710663, 'learning_rate': 0.000468984711060429, 'epoch': 0.19}
+{'loss': 1.4998, 'grad_norm': 0.12326804548501968, 'learning_rate': 0.0004688846110823318, 'epoch': 0.19}
+{'loss': 1.5356, 'grad_norm': 0.14602667093276978, 'learning_rate': 0.000468784360549295, 'epoch': 0.19}
+{'loss': 1.5384, 'grad_norm': 0.12565933167934418, 'learning_rate': 0.00046868395953027366, 'epoch': 0.19}
+{'loss': 1.5164, 'grad_norm': 0.1452413648366928, 'learning_rate': 0.0004685834080943265, 'epoch': 0.19}
+{'loss': 1.5257, 'grad_norm': 0.1468208134174347, 'learning_rate': 0.0004684827063106156, 'epoch': 0.19}
+{'loss': 1.5416, 'grad_norm': 0.1627151370048523, 'learning_rate': 0.0004683818542484065, 'epoch': 0.19}
+{'loss': 1.5153, 'grad_norm': 0.13299018144607544, 'learning_rate': 0.0004682808519770679, 'epoch': 0.19}
+{'loss': 1.4969, 'grad_norm': 0.14872384071350098, 'learning_rate': 0.00046817969956607205, 'epoch': 0.19}
+{'loss': 1.4931, 'grad_norm': 0.1290799081325531, 'learning_rate': 0.00046807839708499447, 'epoch': 0.19}
+{'loss': 1.5247, 'grad_norm': 0.12689541280269623, 'learning_rate': 0.0004679769446035137, 'epoch': 0.19}
+{'loss': 1.495, 'grad_norm': 0.14713145792484283, 'learning_rate': 0.0004678753421914117, 'epoch': 0.19}
+{'loss': 1.514, 'grad_norm': 0.15070584416389465, 'learning_rate': 0.00046777358991857346, 'epoch': 0.19}
+{'loss': 1.5191, 'grad_norm': 0.14274035394191742, 'learning_rate': 0.0004676716878549868, 'epoch': 0.19}
+{'loss': 1.5178, 'grad_norm': 0.13236103951931, 'learning_rate': 0.0004675696360707431, 'epoch': 0.19}
+{'loss': 1.5342, 'grad_norm': 0.15050499141216278, 'learning_rate': 0.00046746743463603636, 'epoch': 0.19}
+{'loss': 1.4851, 'grad_norm': 0.13142839074134827, 'learning_rate': 0.00046736508362116335, 'epoch': 0.19}
+{'loss': 1.5098, 'grad_norm': 0.13297145068645477, 'learning_rate': 0.00046726258309652427, 'epoch': 0.19}
+{'loss': 1.5386, 'grad_norm': 0.13818559050559998, 'learning_rate': 0.0004671599331326216, 'epoch': 0.19}
+{'loss': 1.5332, 'grad_norm': 0.14949053525924683, 'learning_rate': 0.000467057133800061, 'epoch': 0.19}
+{'loss': 1.5133, 'grad_norm': 0.13889117538928986, 'learning_rate': 0.0004669541851695506, 'epoch': 0.19}
+{'loss': 1.5262, 'grad_norm': 0.1483655720949173, 'learning_rate': 0.0004668510873119014, 'epoch': 0.19}
+{'loss': 1.5224, 'grad_norm': 0.13836213946342468, 'learning_rate': 0.00046674784029802696, 'epoch': 0.19}
+{'loss': 1.5213, 'grad_norm': 0.13632632791996002, 'learning_rate': 0.00046664444419894347, 'epoch': 0.19}
+{'loss': 1.5108, 'grad_norm': 0.1310860812664032, 'learning_rate': 0.0004665408990857697, 'epoch': 0.19}
+{'loss': 1.5054, 'grad_norm': 0.16515924036502838, 'learning_rate': 0.00046643720502972675, 'epoch': 0.19}
+{'loss': 1.5045, 'grad_norm': 0.1369830220937729, 'learning_rate': 0.0004663333621021384, 'epoch': 0.19}
+{'loss': 1.5354, 'grad_norm': 0.17145709693431854, 'learning_rate': 0.0004662293703744306, 'epoch': 0.19}
+{'loss': 1.5195, 'grad_norm': 0.1426481306552887, 'learning_rate': 0.0004661252299181319, 'epoch': 0.19}
+{'loss': 1.5285, 'grad_norm': 0.16479893028736115, 'learning_rate': 0.00046602094080487285, 'epoch': 0.19}
+{'loss': 1.4975, 'grad_norm': 0.13717655837535858, 'learning_rate': 0.00046591650310638655, 'epoch': 0.19}
+{'loss': 1.5328, 'grad_norm': 0.15944042801856995, 'learning_rate': 0.0004658119168945081, 'epoch': 0.19}
+{'loss': 1.4926, 'grad_norm': 0.15342728793621063, 'learning_rate': 0.0004657071822411748, 'epoch': 0.19}
+{'loss': 1.5161, 'grad_norm': 0.14954091608524323, 'learning_rate': 0.000465602299218426, 'epoch': 0.19}
+{'loss': 1.5104, 'grad_norm': 0.16546876728534698, 'learning_rate': 0.0004654972678984034, 'epoch': 0.19}
+{'loss': 1.527, 'grad_norm': 0.1401343196630478, 'learning_rate': 0.0004653920883533502, 'epoch': 0.19}
+{'loss': 1.5125, 'grad_norm': 0.1817166805267334, 'learning_rate': 0.000465286760655612, 'epoch': 0.19}
+{'loss': 1.5012, 'grad_norm': 0.12435528635978699, 'learning_rate': 0.0004651812848776361, 'epoch': 0.2}
+{'loss': 1.5025, 'grad_norm': 0.1694967895746231, 'learning_rate': 0.00046507566109197155, 'epoch': 0.2}
+{'loss': 1.5265, 'grad_norm': 0.13329438865184784, 'learning_rate': 0.0004649698893712695, 'epoch': 0.2}
+{'loss': 1.5117, 'grad_norm': 0.13956059515476227, 'learning_rate': 0.0004648639697882826, 'epoch': 0.2}
+{'loss': 1.5367, 'grad_norm': 0.15657435357570648, 'learning_rate': 0.00046475790241586534, 'epoch': 0.2}
+{'loss': 1.5153, 'grad_norm': 0.1453493982553482, 'learning_rate': 0.0004646516873269738, 'epoch': 0.2}
+{'loss': 1.5517, 'grad_norm': 0.16898904740810394, 'learning_rate': 0.00046454532459466567, 'epoch': 0.2}
+{'loss': 1.5227, 'grad_norm': 0.145803302526474, 'learning_rate': 0.0004644388142921003, 'epoch': 0.2}
+{'loss': 1.509, 'grad_norm': 0.16953729093074799, 'learning_rate': 0.00046433215649253825, 'epoch': 0.2}
+{'loss': 1.5285, 'grad_norm': 0.12860548496246338, 'learning_rate': 0.00046422535126934187, 'epoch': 0.2}
+{'loss': 1.5067, 'grad_norm': 0.16644926369190216, 'learning_rate': 0.00046411839869597474, 'epoch': 0.2}
+{'loss': 1.5261, 'grad_norm': 0.1248670443892479, 'learning_rate': 0.0004640112988460018, 'epoch': 0.2}
+{'loss': 1.544, 'grad_norm': 0.1314181685447693, 'learning_rate': 0.00046390405179308936, 'epoch': 0.2}
+{'loss': 1.4899, 'grad_norm': 0.1333010196685791, 'learning_rate': 0.00046379665761100486, 'epoch': 0.2}
+{'loss': 1.4959, 'grad_norm': 0.14288732409477234, 'learning_rate': 0.0004636891163736171, 'epoch': 0.2}
+{'loss': 1.523, 'grad_norm': 0.1351671665906906, 'learning_rate': 0.0004635814281548959, 'epoch': 0.2}
+{'loss': 1.5327, 'grad_norm': 0.14768335223197937, 'learning_rate': 0.0004634735930289122, 'epoch': 0.2}
+{'loss': 1.4895, 'grad_norm': 0.13845127820968628, 'learning_rate': 0.0004633656110698381, 'epoch': 0.2}
+{'loss': 1.5305, 'grad_norm': 0.12790091335773468, 'learning_rate': 0.0004632574823519465, 'epoch': 0.2}
+{'loss': 1.5278, 'grad_norm': 0.12787361443042755, 'learning_rate': 0.0004631492069496113, 'epoch': 0.2}
+{'loss': 1.5493, 'grad_norm': 0.1325090080499649, 'learning_rate': 0.0004630407849373075, 'epoch': 0.2}
+{'loss': 1.4931, 'grad_norm': 0.14312030375003815, 'learning_rate': 0.0004629322163896107, 'epoch': 0.2}
+{'loss': 1.5159, 'grad_norm': 0.1254146546125412, 'learning_rate': 0.0004628235013811973, 'epoch': 0.2}
+{'loss': 1.5173, 'grad_norm': 0.14334183931350708, 'learning_rate': 0.0004627146399868447, 'epoch': 0.2}
+{'loss': 1.5214, 'grad_norm': 0.12289080768823624, 'learning_rate': 0.0004626056322814307, 'epoch': 0.2}
+{'loss': 1.5213, 'grad_norm': 0.1475801169872284, 'learning_rate': 0.0004624964783399338, 'epoch': 0.2}
+{'loss': 1.5231, 'grad_norm': 0.13068731129169464, 'learning_rate': 0.00046238717823743314, 'epoch': 0.2}
+{'loss': 1.4977, 'grad_norm': 0.1381007730960846, 'learning_rate': 0.0004622777320491084, 'epoch': 0.2}
+{'loss': 1.5094, 'grad_norm': 0.13169223070144653, 'learning_rate': 0.00046216813985023973, 'epoch': 0.2}
+{'loss': 1.5059, 'grad_norm': 0.14302770793437958, 'learning_rate': 0.0004620584017162077, 'epoch': 0.2}
+{'loss': 1.514, 'grad_norm': 0.13692419230937958, 'learning_rate': 0.00046194851772249324, 'epoch': 0.2}
+{'loss': 1.5169, 'grad_norm': 0.15867799520492554, 'learning_rate': 0.00046183848794467767, 'epoch': 0.2}
+{'loss': 1.5336, 'grad_norm': 0.11642297357320786, 'learning_rate': 0.0004617283124584425, 'epoch': 0.2}
+{'loss': 1.512, 'grad_norm': 0.14988121390342712, 'learning_rate': 0.00046161799133956946, 'epoch': 0.2}
+{'loss': 1.5016, 'grad_norm': 0.13831622898578644, 'learning_rate': 0.00046150752466394055, 'epoch': 0.2}
+{'loss': 1.5319, 'grad_norm': 0.14487704634666443, 'learning_rate': 0.00046139691250753783, 'epoch': 0.2}
+{'loss': 1.5018, 'grad_norm': 0.1222534328699112, 'learning_rate': 0.0004612861549464434, 'epoch': 0.2}
+{'loss': 1.5123, 'grad_norm': 0.12062915414571762, 'learning_rate': 0.00046117525205683946, 'epoch': 0.2}
+{'loss': 1.5065, 'grad_norm': 0.13851965963840485, 'learning_rate': 0.00046106420391500805, 'epoch': 0.2}
+{'loss': 1.5343, 'grad_norm': 0.12286259233951569, 'learning_rate': 0.0004609530105973312, 'epoch': 0.21}
+{'loss': 1.51, 'grad_norm': 0.15852051973342896, 'learning_rate': 0.00046084167218029073, 'epoch': 0.21}
+{'loss': 1.5263, 'grad_norm': 0.1289081871509552, 'learning_rate': 0.00046073018874046837, 'epoch': 0.21}
+{'loss': 1.5215, 'grad_norm': 0.162663996219635, 'learning_rate': 0.0004606185603545455, 'epoch': 0.21}
+{'loss': 1.5016, 'grad_norm': 0.13788269460201263, 'learning_rate': 0.0004605067870993033, 'epoch': 0.21}
+{'loss': 1.5088, 'grad_norm': 0.1680229902267456, 'learning_rate': 0.0004603948690516224, 'epoch': 0.21}
+{'loss': 1.5108, 'grad_norm': 0.1573764830827713, 'learning_rate': 0.0004602828062884833, 'epoch': 0.21}
+{'loss': 1.5063, 'grad_norm': 0.1598382443189621, 'learning_rate': 0.00046017059888696577, 'epoch': 0.21}
+{'loss': 1.5133, 'grad_norm': 0.15754616260528564, 'learning_rate': 0.0004600582469242493, 'epoch': 0.21}
+{'loss': 1.5006, 'grad_norm': 0.14820118248462677, 'learning_rate': 0.0004599457504776127, 'epoch': 0.21}
+{'loss': 1.4914, 'grad_norm': 0.16282342374324799, 'learning_rate': 0.00045983310962443403, 'epoch': 0.21}
+{'loss': 1.5429, 'grad_norm': 0.1585453897714615, 'learning_rate': 0.00045972032444219094, 'epoch': 0.21}
+{'loss': 1.5199, 'grad_norm': 0.17990106344223022, 'learning_rate': 0.00045960739500846014, 'epoch': 0.21}
+{'loss': 1.498, 'grad_norm': 0.13149745762348175, 'learning_rate': 0.0004594943214009177, 'epoch': 0.21}
+{'loss': 1.5245, 'grad_norm': 0.1825949251651764, 'learning_rate': 0.0004593811036973389, 'epoch': 0.21}
+{'loss': 1.4822, 'grad_norm': 0.1324271261692047, 'learning_rate': 0.00045926774197559774, 'epoch': 0.21}
+{'loss': 1.5076, 'grad_norm': 0.14993825554847717, 'learning_rate': 0.0004591542363136679, 'epoch': 0.21}
+{'loss': 1.5064, 'grad_norm': 0.15141743421554565, 'learning_rate': 0.00045904058678962153, 'epoch': 0.21}
+{'loss': 1.4992, 'grad_norm': 0.1691206842660904, 'learning_rate': 0.00045892679348163003, 'epoch': 0.21}
+{'loss': 1.5191, 'grad_norm': 0.15158723294734955, 'learning_rate': 0.00045881285646796356, 'epoch': 0.21}
+{'loss': 1.5006, 'grad_norm': 0.13420957326889038, 'learning_rate': 0.00045869877582699114, 'epoch': 0.21}
+{'loss': 1.4932, 'grad_norm': 0.14504876732826233, 'learning_rate': 0.00045858455163718076, 'epoch': 0.21}
+{'loss': 1.5268, 'grad_norm': 0.1355166733264923, 'learning_rate': 0.00045847018397709896, 'epoch': 0.21}
+{'loss': 1.5189, 'grad_norm': 0.14340634644031525, 'learning_rate': 0.0004583556729254109, 'epoch': 0.21}
+{'loss': 1.5168, 'grad_norm': 0.14655542373657227, 'learning_rate': 0.0004582410185608805, 'epoch': 0.21}
+{'loss': 1.5059, 'grad_norm': 0.1461869776248932, 'learning_rate': 0.0004581262209623703, 'epoch': 0.21}
+{'loss': 1.5409, 'grad_norm': 0.16697998344898224, 'learning_rate': 0.0004580112802088413, 'epoch': 0.21}
+{'loss': 1.5079, 'grad_norm': 0.15059427917003632, 'learning_rate': 0.00045789619637935295, 'epoch': 0.21}
+{'loss': 1.5242, 'grad_norm': 0.1555728167295456, 'learning_rate': 0.000457780969553063, 'epoch': 0.21}
+{'loss': 1.5243, 'grad_norm': 0.16236700117588043, 'learning_rate': 0.00045766559980922784, 'epoch': 0.21}
+{'loss': 1.5333, 'grad_norm': 0.14463059604167938, 'learning_rate': 0.00045755008722720184, 'epoch': 0.21}
+{'loss': 1.492, 'grad_norm': 0.13640196621418, 'learning_rate': 0.00045743443188643785, 'epoch': 0.21}
+{'loss': 1.5048, 'grad_norm': 0.1411805897951126, 'learning_rate': 0.0004573186338664869, 'epoch': 0.21}
+{'loss': 1.5018, 'grad_norm': 0.13859181106090546, 'learning_rate': 0.0004572026932469979, 'epoch': 0.21}
+{'loss': 1.48, 'grad_norm': 0.13702046871185303, 'learning_rate': 0.00045708661010771836, 'epoch': 0.21}
+{'loss': 1.5051, 'grad_norm': 0.12909547984600067, 'learning_rate': 0.0004569703845284932, 'epoch': 0.21}
+{'loss': 1.5056, 'grad_norm': 0.1413649022579193, 'learning_rate': 0.0004568540165892658, 'epoch': 0.21}
+{'loss': 1.5094, 'grad_norm': 0.12930651009082794, 'learning_rate': 0.00045673750637007714, 'epoch': 0.21}
+{'loss': 1.5089, 'grad_norm': 0.12518559396266937, 'learning_rate': 0.0004566208539510663, 'epoch': 0.21}
+{'loss': 1.5096, 'grad_norm': 0.14364491403102875, 'learning_rate': 0.00045650405941247005, 'epoch': 0.22}
+{'loss': 1.4878, 'grad_norm': 0.13566596806049347, 'learning_rate': 0.00045638712283462284, 'epoch': 0.22}
+{'loss': 1.4989, 'grad_norm': 0.14506472647190094, 'learning_rate': 0.00045627004429795706, 'epoch': 0.22}
+{'loss': 1.5166, 'grad_norm': 0.12842348217964172, 'learning_rate': 0.0004561528238830025, 'epoch': 0.22}
+{'loss': 1.5027, 'grad_norm': 0.14980123937129974, 'learning_rate': 0.00045603546167038663, 'epoch': 0.22}
+{'loss': 1.5076, 'grad_norm': 0.1445167064666748, 'learning_rate': 0.00045591795774083447, 'epoch': 0.22}
+{'loss': 1.5091, 'grad_norm': 0.1302335560321808, 'learning_rate': 0.0004558003121751685, 'epoch': 0.22}
+{'loss': 1.5332, 'grad_norm': 0.1639050394296646, 'learning_rate': 0.0004556825250543086, 'epoch': 0.22}
+{'loss': 1.5078, 'grad_norm': 0.11812248080968857, 'learning_rate': 0.00045556459645927205, 'epoch': 0.22}
+{'loss': 1.5238, 'grad_norm': 0.14765506982803345, 'learning_rate': 0.00045544652647117344, 'epoch': 0.22}
+{'loss': 1.5245, 'grad_norm': 0.12044470012187958, 'learning_rate': 0.0004553283151712246, 'epoch': 0.22}
+{'loss': 1.5202, 'grad_norm': 0.1400117129087448, 'learning_rate': 0.0004552099626407345, 'epoch': 0.22}
+{'loss': 1.5039, 'grad_norm': 0.13211728632450104, 'learning_rate': 0.00045509146896110944, 'epoch': 0.22}
+{'loss': 1.4854, 'grad_norm': 0.13186000287532806, 'learning_rate': 0.0004549728342138525, 'epoch': 0.22}
+{'loss': 1.5091, 'grad_norm': 0.15142007172107697, 'learning_rate': 0.0004548540584805642, 'epoch': 0.22}
+{'loss': 1.533, 'grad_norm': 0.12256917357444763, 'learning_rate': 0.00045473514184294153, 'epoch': 0.22}
+{'loss': 1.5074, 'grad_norm': 0.2005920708179474, 'learning_rate': 0.0004546160843827789, 'epoch': 0.22}
+{'loss': 1.5256, 'grad_norm': 0.15978886187076569, 'learning_rate': 0.00045449688618196714, 'epoch': 0.22}
+{'loss': 1.4997, 'grad_norm': 0.14501824975013733, 'learning_rate': 0.00045437754732249435, 'epoch': 0.22}
+{'loss': 1.4975, 'grad_norm': 0.15875229239463806, 'learning_rate': 0.000454258067886445, 'epoch': 0.22}
+{'loss': 1.5148, 'grad_norm': 0.15252560377120972, 'learning_rate': 0.00045413844795600024, 'epoch': 0.22}
+{'loss': 1.5073, 'grad_norm': 0.12901927530765533, 'learning_rate': 0.00045401868761343824, 'epoch': 0.22}
+{'loss': 1.5206, 'grad_norm': 0.1501522958278656, 'learning_rate': 0.0004538987869411333, 'epoch': 0.22}
+{'loss': 1.4913, 'grad_norm': 0.12542001903057098, 'learning_rate': 0.00045377874602155655, 'epoch': 0.22}
+{'loss': 1.4795, 'grad_norm': 0.1546841710805893, 'learning_rate': 0.00045365856493727547, 'epoch': 0.22}
+{'loss': 1.5126, 'grad_norm': 0.12954869866371155, 'learning_rate': 0.00045353824377095396, 'epoch': 0.22}
+{'loss': 1.507, 'grad_norm': 0.15813562273979187, 'learning_rate': 0.0004534177826053523, 'epoch': 0.22}
+{'loss': 1.5028, 'grad_norm': 0.12372767925262451, 'learning_rate': 0.00045329718152332694, 'epoch': 0.22}
+{'loss': 1.531, 'grad_norm': 0.1554218828678131, 'learning_rate': 0.00045317644060783083, 'epoch': 0.22}
+{'loss': 1.5053, 'grad_norm': 0.1333140879869461, 'learning_rate': 0.0004530555599419127, 'epoch': 0.22}
+{'loss': 1.4975, 'grad_norm': 0.1268242746591568, 'learning_rate': 0.0004529345396087179, 'epoch': 0.22}
+{'loss': 1.5184, 'grad_norm': 0.13353915512561798, 'learning_rate': 0.0004528133796914875, 'epoch': 0.22}
+{'loss': 1.5042, 'grad_norm': 0.15911976993083954, 'learning_rate': 0.00045269208027355856, 'epoch': 0.22}
+{'loss': 1.5005, 'grad_norm': 0.1383453607559204, 'learning_rate': 0.00045257064143836435, 'epoch': 0.22}
+{'loss': 1.5032, 'grad_norm': 0.1254757046699524, 'learning_rate': 0.0004524490632694338, 'epoch': 0.22}
+{'loss': 1.4985, 'grad_norm': 0.13971896469593048, 'learning_rate': 0.0004523273458503918, 'epoch': 0.22}
+{'loss': 1.4964, 'grad_norm': 0.11266450583934784, 'learning_rate': 0.00045220548926495896, 'epoch': 0.22}
+{'loss': 1.5166, 'grad_norm': 0.1323186159133911, 'learning_rate': 0.00045208349359695166, 'epoch': 0.22}
+{'loss': 1.5107, 'grad_norm': 0.12483105808496475, 'learning_rate': 0.0004519613589302819, 'epoch': 0.22}
+{'loss': 1.5319, 'grad_norm': 0.1265885978937149, 'learning_rate': 0.00045183908534895733, 'epoch': 0.23}
+{'loss': 1.4999, 'grad_norm': 0.1217687577009201, 'learning_rate': 0.0004517166729370812, 'epoch': 0.23}
+{'loss': 1.4928, 'grad_norm': 0.1371537148952484, 'learning_rate': 0.00045159412177885207, 'epoch': 0.23}
+{'loss': 1.5283, 'grad_norm': 0.11544345319271088, 'learning_rate': 0.00045147143195856397, 'epoch': 0.23}
+{'loss': 1.5252, 'grad_norm': 0.14622731506824493, 'learning_rate': 0.00045134860356060657, 'epoch': 0.23}
+{'loss': 1.5279, 'grad_norm': 0.13147130608558655, 'learning_rate': 0.00045122563666946463, 'epoch': 0.23}
+{'loss': 1.5173, 'grad_norm': 0.16709831357002258, 'learning_rate': 0.00045110253136971813, 'epoch': 0.23}
+{'loss': 1.4984, 'grad_norm': 0.126124769449234, 'learning_rate': 0.00045097928774604233, 'epoch': 0.23}
+{'loss': 1.5104, 'grad_norm': 0.17648494243621826, 'learning_rate': 0.0004508559058832078, 'epoch': 0.23}
+{'loss': 1.484, 'grad_norm': 0.14566127955913544, 'learning_rate': 0.0004507323858660798, 'epoch': 0.23}
+{'loss': 1.5334, 'grad_norm': 0.16463661193847656, 'learning_rate': 0.00045060872777961887, 'epoch': 0.23}
+{'loss': 1.5103, 'grad_norm': 0.13943958282470703, 'learning_rate': 0.0004504849317088806, 'epoch': 0.23}
+{'loss': 1.5162, 'grad_norm': 0.15010693669319153, 'learning_rate': 0.00045036099773901534, 'epoch': 0.23}
+{'loss': 1.517, 'grad_norm': 0.12677279114723206, 'learning_rate': 0.0004502369259552683, 'epoch': 0.23}
+{'loss': 1.5144, 'grad_norm': 0.14225992560386658, 'learning_rate': 0.00045011271644297956, 'epoch': 0.23}
+{'loss': 1.4941, 'grad_norm': 0.1329406052827835, 'learning_rate': 0.0004499883692875839, 'epoch': 0.23}
+{'loss': 1.4908, 'grad_norm': 0.13432978093624115, 'learning_rate': 0.0004498638845746107, 'epoch': 0.23}
+{'loss': 1.528, 'grad_norm': 0.14375828206539154, 'learning_rate': 0.000449739262389684, 'epoch': 0.23}
+{'loss': 1.4944, 'grad_norm': 0.1281813085079193, 'learning_rate': 0.00044961450281852253, 'epoch': 0.23}
+{'loss': 1.4924, 'grad_norm': 0.14370043575763702, 'learning_rate': 0.00044948960594693924, 'epoch': 0.23}
+{'loss': 1.5006, 'grad_norm': 0.13452273607254028, 'learning_rate': 0.0004493645718608418, 'epoch': 0.23}
+{'loss': 1.4823, 'grad_norm': 0.14945736527442932, 'learning_rate': 0.00044923940064623216, 'epoch': 0.23}
+{'loss': 1.4943, 'grad_norm': 0.14418083429336548, 'learning_rate': 0.0004491140923892065, 'epoch': 0.23}
+{'loss': 1.4873, 'grad_norm': 0.12434922903776169, 'learning_rate': 0.00044898864717595534, 'epoch': 0.23}
+{'loss': 1.5157, 'grad_norm': 0.13353434205055237, 'learning_rate': 0.0004488630650927634, 'epoch': 0.23}
+{'loss': 1.501, 'grad_norm': 0.1586376130580902, 'learning_rate': 0.00044873734622600956, 'epoch': 0.23}
+{'loss': 1.5129, 'grad_norm': 0.1330888420343399, 'learning_rate': 0.0004486114906621668, 'epoch': 0.23}
+{'loss': 1.4949, 'grad_norm': 0.13524025678634644, 'learning_rate': 0.00044848549848780197, 'epoch': 0.23}
+{'loss': 1.5188, 'grad_norm': 0.14843964576721191, 'learning_rate': 0.00044835936978957603, 'epoch': 0.23}
+{'loss': 1.5311, 'grad_norm': 0.12243713438510895, 'learning_rate': 0.00044823310465424396, 'epoch': 0.23}
+{'loss': 1.4857, 'grad_norm': 0.13998068869113922, 'learning_rate': 0.0004481067031686543, 'epoch': 0.23}
+{'loss': 1.5198, 'grad_norm': 0.12758256494998932, 'learning_rate': 0.00044798016541974957, 'epoch': 0.23}
+{'loss': 1.5367, 'grad_norm': 0.12850676476955414, 'learning_rate': 0.00044785349149456587, 'epoch': 0.23}
+{'loss': 1.5068, 'grad_norm': 0.13793225586414337, 'learning_rate': 0.00044772668148023326, 'epoch': 0.23}
+{'loss': 1.5201, 'grad_norm': 0.1265588104724884, 'learning_rate': 0.000447599735463975, 'epoch': 0.23}
+{'loss': 1.5092, 'grad_norm': 0.1240316703915596, 'learning_rate': 0.00044747265353310825, 'epoch': 0.23}
+{'loss': 1.5258, 'grad_norm': 0.14723320305347443, 'learning_rate': 0.00044734543577504336, 'epoch': 0.23}
+{'loss': 1.5243, 'grad_norm': 0.1298528015613556, 'learning_rate': 0.0004472180822772843, 'epoch': 0.23}
+{'loss': 1.5283, 'grad_norm': 0.14010047912597656, 'learning_rate': 0.0004470905931274285, 'epoch': 0.23}
+{'loss': 1.4995, 'grad_norm': 0.12050995975732803, 'learning_rate': 0.0004469629684131664, 'epoch': 0.24}
+{'loss': 1.48, 'grad_norm': 0.11360436677932739, 'learning_rate': 0.00044683520822228184, 'epoch': 0.24}
+{'loss': 1.5129, 'grad_norm': 0.13870498538017273, 'learning_rate': 0.0004467073126426519, 'epoch': 0.24}
+{'loss': 1.5207, 'grad_norm': 0.13831943273544312, 'learning_rate': 0.00044657928176224673, 'epoch': 0.24}
+{'loss': 1.4964, 'grad_norm': 0.12224448472261429, 'learning_rate': 0.00044645111566912944, 'epoch': 0.24}
+{'loss': 1.519, 'grad_norm': 0.15757496654987335, 'learning_rate': 0.00044632281445145634, 'epoch': 0.24}
+{'loss': 1.5026, 'grad_norm': 0.11966582387685776, 'learning_rate': 0.0004461943781974766, 'epoch': 0.24}
+{'loss': 1.5131, 'grad_norm': 0.150514617562294, 'learning_rate': 0.00044606580699553224, 'epoch': 0.24}
+{'loss': 1.5078, 'grad_norm': 0.11250437051057816, 'learning_rate': 0.000445937100934058, 'epoch': 0.24}
+{'loss': 1.5093, 'grad_norm': 0.12947465479373932, 'learning_rate': 0.0004458082601015817, 'epoch': 0.24}
+{'loss': 1.486, 'grad_norm': 0.12560199201107025, 'learning_rate': 0.0004456792845867235, 'epoch': 0.24}
+{'loss': 1.506, 'grad_norm': 0.14015133678913116, 'learning_rate': 0.0004455501744781964, 'epoch': 0.24}
+{'loss': 1.5185, 'grad_norm': 0.11568619310855865, 'learning_rate': 0.000445420929864806, 'epoch': 0.24}
+{'loss': 1.5116, 'grad_norm': 0.12280081957578659, 'learning_rate': 0.0004452915508354503, 'epoch': 0.24}
+{'loss': 1.508, 'grad_norm': 0.126478910446167, 'learning_rate': 0.00044516203747911967, 'epoch': 0.24}
+{'loss': 1.5103, 'grad_norm': 0.12151499092578888, 'learning_rate': 0.00044503238988489725, 'epoch': 0.24}
+{'loss': 1.4953, 'grad_norm': 0.10341131687164307, 'learning_rate': 0.0004449026081419581, 'epoch': 0.24}
+{'loss': 1.4949, 'grad_norm': 0.1354198008775711, 'learning_rate': 0.0004447726923395698, 'epoch': 0.24}
+{'loss': 1.4994, 'grad_norm': 0.11678629368543625, 'learning_rate': 0.000444642642567092, 'epoch': 0.24}
+{'loss': 1.5249, 'grad_norm': 0.14331790804862976, 'learning_rate': 0.0004445124589139767, 'epoch': 0.24}
+{'loss': 1.4933, 'grad_norm': 0.13986840844154358, 'learning_rate': 0.00044438214146976765, 'epoch': 0.24}
+{'loss': 1.4894, 'grad_norm': 0.12816354632377625, 'learning_rate': 0.00044425169032410094, 'epoch': 0.24}
+{'loss': 1.5012, 'grad_norm': 0.13740700483322144, 'learning_rate': 0.0004441211055667045, 'epoch': 0.24}
+{'loss': 1.5091, 'grad_norm': 0.14096644520759583, 'learning_rate': 0.0004439903872873982, 'epoch': 0.24}
+{'loss': 1.5079, 'grad_norm': 0.12093064188957214, 'learning_rate': 0.00044385953557609357, 'epoch': 0.24}
+{'loss': 1.4976, 'grad_norm': 0.14564631879329681, 'learning_rate': 0.00044372855052279424, 'epoch': 0.24}
+{'loss': 1.5149, 'grad_norm': 0.13125869631767273, 'learning_rate': 0.0004435974322175953, 'epoch': 0.24}
+{'loss': 1.5121, 'grad_norm': 0.13030697405338287, 'learning_rate': 0.00044346618075068357, 'epoch': 0.24}
+{'loss': 1.5108, 'grad_norm': 0.13580814003944397, 'learning_rate': 0.0004433347962123375, 'epoch': 0.24}
+{'loss': 1.5256, 'grad_norm': 0.13309192657470703, 'learning_rate': 0.00044320327869292706, 'epoch': 0.24}
+{'loss': 1.5332, 'grad_norm': 0.13899940252304077, 'learning_rate': 0.00044307162828291356, 'epoch': 0.24}
+{'loss': 1.5249, 'grad_norm': 0.12855979800224304, 'learning_rate': 0.0004429398450728499, 'epoch': 0.24}
+{'loss': 1.4837, 'grad_norm': 0.1444501429796219, 'learning_rate': 0.0004428079291533803, 'epoch': 0.24}
+{'loss': 1.472, 'grad_norm': 0.12430580705404282, 'learning_rate': 0.00044267588061524014, 'epoch': 0.24}
+{'loss': 1.4817, 'grad_norm': 0.12178106606006622, 'learning_rate': 0.00044254369954925603, 'epoch': 0.24}
+{'loss': 1.5166, 'grad_norm': 0.1505516767501831, 'learning_rate': 0.0004424113860463459, 'epoch': 0.24}
+{'loss': 1.4917, 'grad_norm': 0.13483990728855133, 'learning_rate': 0.0004422789401975187, 'epoch': 0.24}
+{'loss': 1.4833, 'grad_norm': 0.1637418270111084, 'learning_rate': 0.00044214636209387423, 'epoch': 0.24}
+{'loss': 1.5026, 'grad_norm': 0.12192908674478531, 'learning_rate': 0.0004420136518266035, 'epoch': 0.24}
+{'loss': 1.522, 'grad_norm': 0.1735212355852127, 'learning_rate': 0.00044188080948698825, 'epoch': 0.24}
+{'loss': 1.5027, 'grad_norm': 0.12280368059873581, 'learning_rate': 0.0004417478351664013, 'epoch': 0.25}
+{'loss': 1.5114, 'grad_norm': 0.13599349558353424, 'learning_rate': 0.000441614728956306, 'epoch': 0.25}
+{'loss': 1.4889, 'grad_norm': 0.1320868581533432, 'learning_rate': 0.0004414814909482565, 'epoch': 0.25}
+{'loss': 1.5072, 'grad_norm': 0.15756800770759583, 'learning_rate': 0.0004413481212338977, 'epoch': 0.25}
+{'loss': 1.5035, 'grad_norm': 0.13681641221046448, 'learning_rate': 0.00044121461990496487, 'epoch': 0.25}
+{'loss': 1.5139, 'grad_norm': 0.1434284746646881, 'learning_rate': 0.00044108098705328405, 'epoch': 0.25}
+{'loss': 1.4936, 'grad_norm': 0.1485235095024109, 'learning_rate': 0.0004409472227707716, 'epoch': 0.25}
+{'loss': 1.5036, 'grad_norm': 0.12482278048992157, 'learning_rate': 0.00044081332714943436, 'epoch': 0.25}
+{'loss': 1.5083, 'grad_norm': 0.15313886106014252, 'learning_rate': 0.00044067930028136946, 'epoch': 0.25}
+{'loss': 1.5261, 'grad_norm': 0.13620014488697052, 'learning_rate': 0.0004405451422587643, 'epoch': 0.25}
+{'loss': 1.4857, 'grad_norm': 0.12823143601417542, 'learning_rate': 0.0004404108531738965, 'epoch': 0.25}
+{'loss': 1.4948, 'grad_norm': 0.1464642584323883, 'learning_rate': 0.0004402764331191339, 'epoch': 0.25}
+{'loss': 1.4817, 'grad_norm': 0.1332581639289856, 'learning_rate': 0.0004401418821869343, 'epoch': 0.25}
+{'loss': 1.4962, 'grad_norm': 0.13027425110340118, 'learning_rate': 0.00044000720046984555, 'epoch': 0.25}
+{'loss': 1.5236, 'grad_norm': 0.14686186611652374, 'learning_rate': 0.00043987238806050566, 'epoch': 0.25}
+{'loss': 1.5201, 'grad_norm': 0.14078009128570557, 'learning_rate': 0.0004397374450516421, 'epoch': 0.25}
+{'loss': 1.5071, 'grad_norm': 0.14869919419288635, 'learning_rate': 0.0004396023715360727, 'epoch': 0.25}
+{'loss': 1.5048, 'grad_norm': 0.14847369492053986, 'learning_rate': 0.0004394671676067047, 'epoch': 0.25}
+{'loss': 1.5189, 'grad_norm': 0.130462646484375, 'learning_rate': 0.00043933183335653504, 'epoch': 0.25}
+{'loss': 1.5295, 'grad_norm': 0.14731483161449432, 'learning_rate': 0.00043919636887865043, 'epoch': 0.25}
+{'loss': 1.5019, 'grad_norm': 0.13759911060333252, 'learning_rate': 0.0004390607742662272, 'epoch': 0.25}
+{'loss': 1.5006, 'grad_norm': 0.12984901666641235, 'learning_rate': 0.000438925049612531, 'epoch': 0.25}
+{'loss': 1.4873, 'grad_norm': 0.1256549209356308, 'learning_rate': 0.0004387891950109171, 'epoch': 0.25}
+{'loss': 1.5101, 'grad_norm': 0.15183022618293762, 'learning_rate': 0.0004386532105548301, 'epoch': 0.25}
+{'loss': 1.4942, 'grad_norm': 0.12045282870531082, 'learning_rate': 0.0004385170963378039, 'epoch': 0.25}
+{'loss': 1.5005, 'grad_norm': 0.1424911916255951, 'learning_rate': 0.0004383808524534615, 'epoch': 0.25}
+{'loss': 1.5087, 'grad_norm': 0.14313076436519623, 'learning_rate': 0.00043824447899551547, 'epoch': 0.25}
+{'loss': 1.5152, 'grad_norm': 0.13766539096832275, 'learning_rate': 0.0004381079760577671, 'epoch': 0.25}
+{'loss': 1.5076, 'grad_norm': 0.15884937345981598, 'learning_rate': 0.0004379713437341071, 'epoch': 0.25}
+{'loss': 1.5067, 'grad_norm': 0.14779511094093323, 'learning_rate': 0.0004378345821185148, 'epoch': 0.25}
+{'loss': 1.5, 'grad_norm': 0.13992132246494293, 'learning_rate': 0.00043769769130505863, 'epoch': 0.25}
+{'loss': 1.5138, 'grad_norm': 0.1794748306274414, 'learning_rate': 0.00043756067138789616, 'epoch': 0.25}
+{'loss': 1.484, 'grad_norm': 0.15480288863182068, 'learning_rate': 0.00043742352246127334, 'epoch': 0.25}
+{'loss': 1.5077, 'grad_norm': 0.15145419538021088, 'learning_rate': 0.00043728624461952505, 'epoch': 0.25}
+{'loss': 1.5218, 'grad_norm': 0.15394623577594757, 'learning_rate': 0.00043714883795707476, 'epoch': 0.25}
+{'loss': 1.5058, 'grad_norm': 0.15377146005630493, 'learning_rate': 0.0004370113025684347, 'epoch': 0.25}
+{'loss': 1.517, 'grad_norm': 0.15500594675540924, 'learning_rate': 0.0004368736385482056, 'epoch': 0.25}
+{'loss': 1.5199, 'grad_norm': 0.13241876661777496, 'learning_rate': 0.0004367358459910764, 'epoch': 0.25}
+{'loss': 1.5119, 'grad_norm': 0.1338619738817215, 'learning_rate': 0.00043659792499182483, 'epoch': 0.25}
+{'loss': 1.5144, 'grad_norm': 0.15098212659358978, 'learning_rate': 0.0004364598756453167, 'epoch': 0.26}
+{'loss': 1.4895, 'grad_norm': 0.13359257578849792, 'learning_rate': 0.00043632169804650627, 'epoch': 0.26}
+{'loss': 1.5077, 'grad_norm': 0.13026224076747894, 'learning_rate': 0.00043618339229043596, 'epoch': 0.26}
+{'loss': 1.4971, 'grad_norm': 0.1438370794057846, 'learning_rate': 0.00043604495847223627, 'epoch': 0.26}
+{'loss': 1.506, 'grad_norm': 0.1380021572113037, 'learning_rate': 0.0004359063966871259, 'epoch': 0.26}
+{'loss': 1.4791, 'grad_norm': 0.14802570641040802, 'learning_rate': 0.0004357677070304115, 'epoch': 0.26}
+{'loss': 1.5124, 'grad_norm': 0.1520819067955017, 'learning_rate': 0.0004356288895974876, 'epoch': 0.26}
+{'loss': 1.4773, 'grad_norm': 0.1265915483236313, 'learning_rate': 0.00043548994448383674, 'epoch': 0.26}
+{'loss': 1.5128, 'grad_norm': 0.13494327664375305, 'learning_rate': 0.0004353508717850293, 'epoch': 0.26}
+{'loss': 1.4877, 'grad_norm': 0.13285134732723236, 'learning_rate': 0.00043521167159672335, 'epoch': 0.26}
+{'loss': 1.5002, 'grad_norm': 0.12196478992700577, 'learning_rate': 0.0004350723440146646, 'epoch': 0.26}
+{'loss': 1.5049, 'grad_norm': 0.12282173335552216, 'learning_rate': 0.0004349328891346865, 'epoch': 0.26}
+{'loss': 1.5041, 'grad_norm': 0.14828701317310333, 'learning_rate': 0.00043479330705271, 'epoch': 0.26}
+{'loss': 1.5035, 'grad_norm': 0.1372421532869339, 'learning_rate': 0.0004346535978647435, 'epoch': 0.26}
+{'loss': 1.5292, 'grad_norm': 0.12364313751459122, 'learning_rate': 0.00043451376166688297, 'epoch': 0.26}
+{'loss': 1.4862, 'grad_norm': 0.11219678819179535, 'learning_rate': 0.00043437379855531155, 'epoch': 0.26}
+{'loss': 1.4952, 'grad_norm': 0.1368369609117508, 'learning_rate': 0.00043423370862629985, 'epoch': 0.26}
+{'loss': 1.5092, 'grad_norm': 0.13014833629131317, 'learning_rate': 0.0004340934919762055, 'epoch': 0.26}
+{'loss': 1.4942, 'grad_norm': 0.11558260768651962, 'learning_rate': 0.0004339531487014736, 'epoch': 0.26}
+{'loss': 1.5042, 'grad_norm': 0.1250416338443756, 'learning_rate': 0.0004338126788986361, 'epoch': 0.26}
+{'loss': 1.506, 'grad_norm': 0.13394935429096222, 'learning_rate': 0.0004336720826643119, 'epoch': 0.26}
+{'loss': 1.5092, 'grad_norm': 0.13401468098163605, 'learning_rate': 0.0004335313600952072, 'epoch': 0.26}
+{'loss': 1.4902, 'grad_norm': 0.11769581586122513, 'learning_rate': 0.0004333905112881149, 'epoch': 0.26}
+{'loss': 1.5074, 'grad_norm': 0.1315116584300995, 'learning_rate': 0.00043324953633991467, 'epoch': 0.26}
+{'loss': 1.5222, 'grad_norm': 0.12045788019895554, 'learning_rate': 0.000433108435347573, 'epoch': 0.26}
+{'loss': 1.4631, 'grad_norm': 0.14031343162059784, 'learning_rate': 0.0004329672084081431, 'epoch': 0.26}
+{'loss': 1.482, 'grad_norm': 0.10603310167789459, 'learning_rate': 0.0004328258556187649, 'epoch': 0.26}
+{'loss': 1.4966, 'grad_norm': 0.13818426430225372, 'learning_rate': 0.0004326843770766645, 'epoch': 0.26}
+{'loss': 1.4911, 'grad_norm': 0.13069790601730347, 'learning_rate': 0.0004325427728791552, 'epoch': 0.26}
+{'loss': 1.4999, 'grad_norm': 0.11992364376783371, 'learning_rate': 0.000432401043123636, 'epoch': 0.26}
+{'loss': 1.4782, 'grad_norm': 0.15554115176200867, 'learning_rate': 0.00043225918790759275, 'epoch': 0.26}
+{'loss': 1.4973, 'grad_norm': 0.11508936434984207, 'learning_rate': 0.00043211720732859725, 'epoch': 0.26}
+{'loss': 1.4935, 'grad_norm': 0.1438439041376114, 'learning_rate': 0.00043197510148430785, 'epoch': 0.26}
+{'loss': 1.48, 'grad_norm': 0.12120014429092407, 'learning_rate': 0.0004318328704724689, 'epoch': 0.26}
+{'loss': 1.5186, 'grad_norm': 0.12994270026683807, 'learning_rate': 0.00043169051439091076, 'epoch': 0.26}
+{'loss': 1.4953, 'grad_norm': 0.13097043335437775, 'learning_rate': 0.0004315480333375501, 'epoch': 0.26}
+{'loss': 1.5112, 'grad_norm': 0.12299448996782303, 'learning_rate': 0.00043140542741038914, 'epoch': 0.26}
+{'loss': 1.5249, 'grad_norm': 0.15060065686702728, 'learning_rate': 0.0004312626967075164, 'epoch': 0.26}
+{'loss': 1.5088, 'grad_norm': 0.11112833768129349, 'learning_rate': 0.00043111984132710585, 'epoch': 0.26}
+{'loss': 1.5068, 'grad_norm': 0.12786436080932617, 'learning_rate': 0.0004309768613674175, 'epoch': 0.27}
+{'loss': 1.4997, 'grad_norm': 0.12515170872211456, 'learning_rate': 0.00043083375692679705, 'epoch': 0.27}
+{'loss': 1.4786, 'grad_norm': 0.13310296833515167, 'learning_rate': 0.0004306905281036756, 'epoch': 0.27}
+{'loss': 1.4843, 'grad_norm': 0.1344788372516632, 'learning_rate': 0.0004305471749965699, 'epoch': 0.27}
+{'loss': 1.519, 'grad_norm': 0.14258421957492828, 'learning_rate': 0.0004304036977040824, 'epoch': 0.27}
+{'loss': 1.4966, 'grad_norm': 0.1365627497434616, 'learning_rate': 0.0004302600963249006, 'epoch': 0.27}
+{'loss': 1.4835, 'grad_norm': 0.11521007865667343, 'learning_rate': 0.00043011637095779755, 'epoch': 0.27}
+{'loss': 1.5132, 'grad_norm': 0.12649822235107422, 'learning_rate': 0.00042997252170163164, 'epoch': 0.27}
+{'loss': 1.4894, 'grad_norm': 0.12090755999088287, 'learning_rate': 0.0004298285486553464, 'epoch': 0.27}
+{'loss': 1.4978, 'grad_norm': 0.11718504875898361, 'learning_rate': 0.00042968445191797044, 'epoch': 0.27}
+{'loss': 1.511, 'grad_norm': 0.1242181584239006, 'learning_rate': 0.0004295402315886176, 'epoch': 0.27}
+{'loss': 1.5141, 'grad_norm': 0.1309918463230133, 'learning_rate': 0.0004293958877664865, 'epoch': 0.27}
+{'loss': 1.5034, 'grad_norm': 0.12671838700771332, 'learning_rate': 0.0004292514205508611, 'epoch': 0.27}
+{'loss': 1.4988, 'grad_norm': 0.12995164096355438, 'learning_rate': 0.0004291068300411097, 'epoch': 0.27}
+{'loss': 1.4876, 'grad_norm': 0.12587715685367584, 'learning_rate': 0.0004289621163366858, 'epoch': 0.27}
+{'loss': 1.5054, 'grad_norm': 0.10985280573368073, 'learning_rate': 0.00042881727953712756, 'epoch': 0.27}
+{'loss': 1.4695, 'grad_norm': 0.12418408691883087, 'learning_rate': 0.00042867231974205776, 'epoch': 0.27}
+{'loss': 1.4923, 'grad_norm': 0.13614292442798615, 'learning_rate': 0.00042852723705118375, 'epoch': 0.27}
+{'loss': 1.4943, 'grad_norm': 0.13861429691314697, 'learning_rate': 0.00042838203156429745, 'epoch': 0.27}
+{'loss': 1.5021, 'grad_norm': 0.1353304535150528, 'learning_rate': 0.0004282367033812753, 'epoch': 0.27}
+{'loss': 1.4989, 'grad_norm': 0.13074298202991486, 'learning_rate': 0.000428091252602078, 'epoch': 0.27}
+{'loss': 1.4762, 'grad_norm': 0.13709835708141327, 'learning_rate': 0.00042794567932675066, 'epoch': 0.27}
+{'loss': 1.4997, 'grad_norm': 0.13181866705417633, 'learning_rate': 0.0004277999836554227, 'epoch': 0.27}
+{'loss': 1.4956, 'grad_norm': 0.12909401953220367, 'learning_rate': 0.00042765416568830766, 'epoch': 0.27}
+{'loss': 1.4699, 'grad_norm': 0.1173776388168335, 'learning_rate': 0.0004275082255257032, 'epoch': 0.27}
+{'loss': 1.4907, 'grad_norm': 0.12655335664749146, 'learning_rate': 0.00042736216326799096, 'epoch': 0.27}
+{'loss': 1.5235, 'grad_norm': 0.1339292973279953, 'learning_rate': 0.0004272159790156367, 'epoch': 0.27}
+{'loss': 1.4929, 'grad_norm': 0.11751672625541687, 'learning_rate': 0.00042706967286918997, 'epoch': 0.27}
+{'loss': 1.5048, 'grad_norm': 0.12693840265274048, 'learning_rate': 0.0004269232449292843, 'epoch': 0.27}
+{'loss': 1.4949, 'grad_norm': 0.11980853974819183, 'learning_rate': 0.00042677669529663686, 'epoch': 0.27}
+{'loss': 1.5015, 'grad_norm': 0.10865039378404617, 'learning_rate': 0.00042663002407204866, 'epoch': 0.27}
+{'loss': 1.4709, 'grad_norm': 0.12043112516403198, 'learning_rate': 0.0004264832313564041, 'epoch': 0.27}
+{'loss': 1.4735, 'grad_norm': 0.1170809268951416, 'learning_rate': 0.0004263363172506714, 'epoch': 0.27}
+{'loss': 1.4791, 'grad_norm': 0.11418091505765915, 'learning_rate': 0.0004261892818559021, 'epoch': 0.27}
+{'loss': 1.493, 'grad_norm': 0.1333509236574173, 'learning_rate': 0.0004260421252732314, 'epoch': 0.27}
+{'loss': 1.4946, 'grad_norm': 0.11469849199056625, 'learning_rate': 0.00042589484760387767, 'epoch': 0.27}
+{'loss': 1.5263, 'grad_norm': 0.11521615087985992, 'learning_rate': 0.00042574744894914243, 'epoch': 0.27}
+{'loss': 1.5014, 'grad_norm': 0.12299926578998566, 'learning_rate': 0.0004255999294104107, 'epoch': 0.27}
+{'loss': 1.4948, 'grad_norm': 0.1336812674999237, 'learning_rate': 0.00042545228908915056, 'epoch': 0.27}
+{'loss': 1.5031, 'grad_norm': 0.11144708096981049, 'learning_rate': 0.0004253045280869131, 'epoch': 0.28}
+{'loss': 1.5037, 'grad_norm': 0.15332914888858795, 'learning_rate': 0.0004251566465053325, 'epoch': 0.28}
+{'loss': 1.485, 'grad_norm': 0.1310010552406311, 'learning_rate': 0.00042500864444612574, 'epoch': 0.28}
+{'loss': 1.501, 'grad_norm': 0.12715059518814087, 'learning_rate': 0.0004248605220110929, 'epoch': 0.28}
+{'loss': 1.4792, 'grad_norm': 0.14616435766220093, 'learning_rate': 0.00042471227930211653, 'epoch': 0.28}
+{'loss': 1.501, 'grad_norm': 0.13287007808685303, 'learning_rate': 0.0004245639164211623, 'epoch': 0.28}
+{'loss': 1.4992, 'grad_norm': 0.14844723045825958, 'learning_rate': 0.0004244154334702782, 'epoch': 0.28}
+{'loss': 1.509, 'grad_norm': 0.14461614191532135, 'learning_rate': 0.0004242668305515951, 'epoch': 0.28}
+{'loss': 1.5322, 'grad_norm': 0.13754743337631226, 'learning_rate': 0.00042411810776732606, 'epoch': 0.28}
+{'loss': 1.5144, 'grad_norm': 0.15604934096336365, 'learning_rate': 0.0004239692652197668, 'epoch': 0.28}
+{'loss': 1.4744, 'grad_norm': 0.12879987061023712, 'learning_rate': 0.00042382030301129546, 'epoch': 0.28}
+{'loss': 1.5188, 'grad_norm': 0.13987237215042114, 'learning_rate': 0.0004236712212443723, 'epoch': 0.28}
+{'loss': 1.4956, 'grad_norm': 0.14516064524650574, 'learning_rate': 0.00042352202002154005, 'epoch': 0.28}
+{'loss': 1.5023, 'grad_norm': 0.12979985773563385, 'learning_rate': 0.0004233726994454232, 'epoch': 0.28}
+{'loss': 1.5165, 'grad_norm': 0.1137276366353035, 'learning_rate': 0.000423223259618729, 'epoch': 0.28}
+{'loss': 1.5039, 'grad_norm': 0.15672793984413147, 'learning_rate': 0.000423073700644246, 'epoch': 0.28}
+{'loss': 1.4974, 'grad_norm': 0.11079657077789307, 'learning_rate': 0.00042292402262484517, 'epoch': 0.28}
+{'loss': 1.4964, 'grad_norm': 0.12329713255167007, 'learning_rate': 0.0004227742256634792, 'epoch': 0.28}
+{'loss': 1.4849, 'grad_norm': 0.12986046075820923, 'learning_rate': 0.0004226243098631826, 'epoch': 0.28}
+{'loss': 1.5096, 'grad_norm': 0.12797486782073975, 'learning_rate': 0.00042247427532707174, 'epoch': 0.28}
+{'loss': 1.5025, 'grad_norm': 0.12977157533168793, 'learning_rate': 0.00042232412215834444, 'epoch': 0.28}
+{'loss': 1.4855, 'grad_norm': 0.12210682779550552, 'learning_rate': 0.00042217385046028024, 'epoch': 0.28}
+{'loss': 1.4947, 'grad_norm': 0.13920795917510986, 'learning_rate': 0.00042202346033624026, 'epoch': 0.28}
+{'loss': 1.4985, 'grad_norm': 0.1111726462841034, 'learning_rate': 0.0004218729518896671, 'epoch': 0.28}
+{'loss': 1.5126, 'grad_norm': 0.15470460057258606, 'learning_rate': 0.0004217223252240845, 'epoch': 0.28}
+{'loss': 1.4917, 'grad_norm': 0.12225961685180664, 'learning_rate': 0.00042157158044309775, 'epoch': 0.28}
+{'loss': 1.501, 'grad_norm': 0.14761722087860107, 'learning_rate': 0.00042142071765039325, 'epoch': 0.28}
+{'loss': 1.4992, 'grad_norm': 0.12391135096549988, 'learning_rate': 0.0004212697369497388, 'epoch': 0.28}
+{'loss': 1.514, 'grad_norm': 0.13123084604740143, 'learning_rate': 0.00042111863844498297, 'epoch': 0.28}
+{'loss': 1.5006, 'grad_norm': 0.15529833734035492, 'learning_rate': 0.0004209674222400557, 'epoch': 0.28}
+{'loss': 1.4876, 'grad_norm': 0.12349271029233932, 'learning_rate': 0.00042081608843896754, 'epoch': 0.28}
+{'loss': 1.4913, 'grad_norm': 0.18497443199157715, 'learning_rate': 0.00042066463714581013, 'epoch': 0.28}
+{'loss': 1.5112, 'grad_norm': 0.13008223474025726, 'learning_rate': 0.000420513068464756, 'epoch': 0.28}
+{'loss': 1.4904, 'grad_norm': 0.14973104000091553, 'learning_rate': 0.00042036138250005817, 'epoch': 0.28}
+{'loss': 1.5192, 'grad_norm': 0.15460620820522308, 'learning_rate': 0.00042020957935605066, 'epoch': 0.28}
+{'loss': 1.4778, 'grad_norm': 0.1677657514810562, 'learning_rate': 0.0004200576591371477, 'epoch': 0.28}
+{'loss': 1.5089, 'grad_norm': 0.14009803533554077, 'learning_rate': 0.00041990562194784434, 'epoch': 0.28}
+{'loss': 1.4932, 'grad_norm': 0.13644321262836456, 'learning_rate': 0.0004197534678927161, 'epoch': 0.28}
+{'loss': 1.4832, 'grad_norm': 0.14305083453655243, 'learning_rate': 0.0004196011970764186, 'epoch': 0.28}
+{'loss': 1.495, 'grad_norm': 0.12790030241012573, 'learning_rate': 0.000419448809603688, 'epoch': 0.29}
+{'loss': 1.4913, 'grad_norm': 0.13350404798984528, 'learning_rate': 0.00041929630557934085, 'epoch': 0.29}
+{'loss': 1.5246, 'grad_norm': 0.17339886724948883, 'learning_rate': 0.0004191436851082735, 'epoch': 0.29}
+{'loss': 1.4854, 'grad_norm': 0.1504998654127121, 'learning_rate': 0.00041899094829546244, 'epoch': 0.29}
+{'loss': 1.4985, 'grad_norm': 0.15006372332572937, 'learning_rate': 0.0004188380952459646, 'epoch': 0.29}
+{'loss': 1.492, 'grad_norm': 0.12890100479125977, 'learning_rate': 0.0004186851260649164, 'epoch': 0.29}
+{'loss': 1.5286, 'grad_norm': 0.16315777599811554, 'learning_rate': 0.00041853204085753426, 'epoch': 0.29}
+{'loss': 1.5056, 'grad_norm': 0.13253694772720337, 'learning_rate': 0.00041837883972911454, 'epoch': 0.29}
+{'loss': 1.4919, 'grad_norm': 0.16748782992362976, 'learning_rate': 0.00041822552278503335, 'epoch': 0.29}
+{'loss': 1.5151, 'grad_norm': 0.14261889457702637, 'learning_rate': 0.0004180720901307461, 'epoch': 0.29}
+{'loss': 1.4897, 'grad_norm': 0.16070011258125305, 'learning_rate': 0.0004179185418717883, 'epoch': 0.29}
+{'loss': 1.5123, 'grad_norm': 0.1368873566389084, 'learning_rate': 0.00041776487811377456, 'epoch': 0.29}
+{'loss': 1.4908, 'grad_norm': 0.14108850061893463, 'learning_rate': 0.00041761109896239917, 'epoch': 0.29}
+{'loss': 1.5281, 'grad_norm': 0.12522895634174347, 'learning_rate': 0.0004174572045234357, 'epoch': 0.29}
+{'loss': 1.5157, 'grad_norm': 0.1291976273059845, 'learning_rate': 0.00041730319490273707, 'epoch': 0.29}
+{'loss': 1.4884, 'grad_norm': 0.12744976580142975, 'learning_rate': 0.00041714907020623537, 'epoch': 0.29}
+{'loss': 1.4892, 'grad_norm': 0.16036202013492584, 'learning_rate': 0.0004169948305399418, 'epoch': 0.29}
+{'loss': 1.5177, 'grad_norm': 0.12691226601600647, 'learning_rate': 0.00041684047600994676, 'epoch': 0.29}
+{'loss': 1.4918, 'grad_norm': 0.14919781684875488, 'learning_rate': 0.00041668600672241975, 'epoch': 0.29}
+{'loss': 1.4813, 'grad_norm': 0.14449086785316467, 'learning_rate': 0.00041653142278360873, 'epoch': 0.29}
+{'loss': 1.5096, 'grad_norm': 0.12831075489521027, 'learning_rate': 0.00041637672429984106, 'epoch': 0.29}
+{'loss': 1.4969, 'grad_norm': 0.12853415310382843, 'learning_rate': 0.00041622191137752275, 'epoch': 0.29}
+{'loss': 1.5009, 'grad_norm': 0.13781704008579254, 'learning_rate': 0.0004160669841231382, 'epoch': 0.29}
+{'loss': 1.4823, 'grad_norm': 0.14696002006530762, 'learning_rate': 0.0004159119426432509, 'epoch': 0.29}
+{'loss': 1.5172, 'grad_norm': 0.12235972285270691, 'learning_rate': 0.0004157567870445026, 'epoch': 0.29}
+{'loss': 1.4901, 'grad_norm': 0.14948594570159912, 'learning_rate': 0.0004156015174336136, 'epoch': 0.29}
+{'loss': 1.5009, 'grad_norm': 0.131462961435318, 'learning_rate': 0.00041544613391738286, 'epoch': 0.29}
+{'loss': 1.4909, 'grad_norm': 0.1161777526140213, 'learning_rate': 0.0004152906366026873, 'epoch': 0.29}
+{'loss': 1.4876, 'grad_norm': 0.15112289786338806, 'learning_rate': 0.0004151350255964824, 'epoch': 0.29}
+{'loss': 1.4948, 'grad_norm': 0.12107715755701065, 'learning_rate': 0.00041497930100580177, 'epoch': 0.29}
+{'loss': 1.5054, 'grad_norm': 0.1547907441854477, 'learning_rate': 0.00041482346293775707, 'epoch': 0.29}
+{'loss': 1.5142, 'grad_norm': 0.1562524288892746, 'learning_rate': 0.00041466751149953806, 'epoch': 0.29}
+{'loss': 1.5098, 'grad_norm': 0.15727783739566803, 'learning_rate': 0.0004145114467984126, 'epoch': 0.29}
+{'loss': 1.495, 'grad_norm': 0.1460481733083725, 'learning_rate': 0.00041435526894172624, 'epoch': 0.29}
+{'loss': 1.5097, 'grad_norm': 0.1230895146727562, 'learning_rate': 0.0004141989780369025, 'epoch': 0.29}
+{'loss': 1.5046, 'grad_norm': 0.15621352195739746, 'learning_rate': 0.0004140425741914426, 'epoch': 0.29}
+{'loss': 1.5225, 'grad_norm': 0.17112191021442413, 'learning_rate': 0.0004138860575129254, 'epoch': 0.29}
+{'loss': 1.5105, 'grad_norm': 0.11874718964099884, 'learning_rate': 0.00041372942810900766, 'epoch': 0.29}
+{'loss': 1.5095, 'grad_norm': 0.1822090446949005, 'learning_rate': 0.00041357268608742317, 'epoch': 0.29}
+{'loss': 1.4913, 'grad_norm': 0.12518459558486938, 'learning_rate': 0.0004134158315559837, 'epoch': 0.3}
+{'loss': 1.5215, 'grad_norm': 0.17198289930820465, 'learning_rate': 0.0004132588646225781, 'epoch': 0.3}
+{'loss': 1.5026, 'grad_norm': 0.13617540895938873, 'learning_rate': 0.0004131017853951725, 'epoch': 0.3}
+{'loss': 1.4941, 'grad_norm': 0.14260804653167725, 'learning_rate': 0.00041294459398181046, 'epoch': 0.3}
+{'loss': 1.5262, 'grad_norm': 0.1652204990386963, 'learning_rate': 0.0004127872904906126, 'epoch': 0.3}
+{'loss': 1.5107, 'grad_norm': 0.12682141363620758, 'learning_rate': 0.0004126298750297767, 'epoch': 0.3}
+{'loss': 1.4824, 'grad_norm': 0.1606816053390503, 'learning_rate': 0.00041247234770757735, 'epoch': 0.3}
+{'loss': 1.506, 'grad_norm': 0.1354427933692932, 'learning_rate': 0.00041231470863236643, 'epoch': 0.3}
+{'loss': 1.5401, 'grad_norm': 0.13034501671791077, 'learning_rate': 0.0004121569579125724, 'epoch': 0.3}
+{'loss': 1.5063, 'grad_norm': 0.12249060720205307, 'learning_rate': 0.0004119990956567006, 'epoch': 0.3}
+{'loss': 1.4967, 'grad_norm': 0.14151893556118011, 'learning_rate': 0.0004118411219733331, 'epoch': 0.3}
+{'loss': 1.4997, 'grad_norm': 0.14585816860198975, 'learning_rate': 0.0004116830369711286, 'epoch': 0.3}
+{'loss': 1.5109, 'grad_norm': 0.1220119521021843, 'learning_rate': 0.00041152484075882245, 'epoch': 0.3}
+{'loss': 1.4858, 'grad_norm': 0.1307261735200882, 'learning_rate': 0.00041136653344522634, 'epoch': 0.3}
+{'loss': 1.4943, 'grad_norm': 0.1254889965057373, 'learning_rate': 0.0004112081151392283, 'epoch': 0.3}
+{'loss': 1.5038, 'grad_norm': 0.13556700944900513, 'learning_rate': 0.00041104958594979327, 'epoch': 0.3}
+{'loss': 1.5118, 'grad_norm': 0.13455773890018463, 'learning_rate': 0.0004108909459859616, 'epoch': 0.3}
+{'loss': 1.5277, 'grad_norm': 0.12637051939964294, 'learning_rate': 0.00041073219535685057, 'epoch': 0.3}
+{'loss': 1.486, 'grad_norm': 0.12180865556001663, 'learning_rate': 0.00041057333417165315, 'epoch': 0.3}
+{'loss': 1.4908, 'grad_norm': 0.12667043507099152, 'learning_rate': 0.0004104143625396386, 'epoch': 0.3}
+{'loss': 1.4857, 'grad_norm': 0.1359981745481491, 'learning_rate': 0.00041025528057015196, 'epoch': 0.3}
+{'loss': 1.5224, 'grad_norm': 0.1522986739873886, 'learning_rate': 0.0004100960883726142, 'epoch': 0.3}
+{'loss': 1.5033, 'grad_norm': 0.15671119093894958, 'learning_rate': 0.0004099367860565223, 'epoch': 0.3}
+{'loss': 1.4948, 'grad_norm': 0.14710131287574768, 'learning_rate': 0.00040977737373144873, 'epoch': 0.3}
+{'loss': 1.4918, 'grad_norm': 0.17878010869026184, 'learning_rate': 0.0004096178515070418, 'epoch': 0.3}
+{'loss': 1.4863, 'grad_norm': 0.13975852727890015, 'learning_rate': 0.0004094582194930253, 'epoch': 0.3}
+{'loss': 1.4931, 'grad_norm': 0.19316057860851288, 'learning_rate': 0.00040929847779919853, 'epoch': 0.3}
+{'loss': 1.5084, 'grad_norm': 0.12939774990081787, 'learning_rate': 0.0004091386265354364, 'epoch': 0.3}
+{'loss': 1.489, 'grad_norm': 0.15693674981594086, 'learning_rate': 0.000408978665811689, 'epoch': 0.3}
+{'loss': 1.4957, 'grad_norm': 0.14314232766628265, 'learning_rate': 0.00040881859573798176, 'epoch': 0.3}
+{'loss': 1.5114, 'grad_norm': 0.11863934993743896, 'learning_rate': 0.00040865841642441524, 'epoch': 0.3}
+{'loss': 1.4952, 'grad_norm': 0.14857685565948486, 'learning_rate': 0.0004084981279811656, 'epoch': 0.3}
+{'loss': 1.4899, 'grad_norm': 0.13732776045799255, 'learning_rate': 0.0004083377305184833, 'epoch': 0.3}
+{'loss': 1.5371, 'grad_norm': 0.12395503371953964, 'learning_rate': 0.0004081772241466944, 'epoch': 0.3}
+{'loss': 1.5074, 'grad_norm': 0.14496088027954102, 'learning_rate': 0.00040801660897619963, 'epoch': 0.3}
+{'loss': 1.5152, 'grad_norm': 0.11958615481853485, 'learning_rate': 0.00040785588511747453, 'epoch': 0.3}
+{'loss': 1.4883, 'grad_norm': 0.12644977867603302, 'learning_rate': 0.00040769505268106943, 'epoch': 0.3}
+{'loss': 1.4868, 'grad_norm': 0.12492536008358002, 'learning_rate': 0.0004075341117776095, 'epoch': 0.3}
+{'loss': 1.5075, 'grad_norm': 0.12813089787960052, 'learning_rate': 0.00040737306251779426, 'epoch': 0.3}
+{'loss': 1.5151, 'grad_norm': 0.12134295701980591, 'learning_rate': 0.000407211905012398, 'epoch': 0.31}
+{'loss': 1.498, 'grad_norm': 0.12760291993618011, 'learning_rate': 0.00040705063937226916, 'epoch': 0.31}
+{'loss': 1.4785, 'grad_norm': 0.11736136674880981, 'learning_rate': 0.00040688926570833095, 'epoch': 0.31}
+{'loss': 1.4943, 'grad_norm': 0.1361388862133026, 'learning_rate': 0.00040672778413158053, 'epoch': 0.31}
+{'loss': 1.4975, 'grad_norm': 0.12419994920492172, 'learning_rate': 0.00040656619475308944, 'epoch': 0.31}
+{'loss': 1.5077, 'grad_norm': 0.1234254315495491, 'learning_rate': 0.0004064044976840035, 'epoch': 0.31}
+{'loss': 1.4983, 'grad_norm': 0.12498118728399277, 'learning_rate': 0.0004062426930355423, 'epoch': 0.31}
+{'loss': 1.4812, 'grad_norm': 0.12478767335414886, 'learning_rate': 0.0004060807809189997, 'epoch': 0.31}
+{'loss': 1.5204, 'grad_norm': 0.12194189429283142, 'learning_rate': 0.0004059187614457432, 'epoch': 0.31}
+{'loss': 1.4858, 'grad_norm': 0.11491025239229202, 'learning_rate': 0.0004057566347272146, 'epoch': 0.31}
+{'loss': 1.4986, 'grad_norm': 0.11755455285310745, 'learning_rate': 0.00040559440087492896, 'epoch': 0.31}
+{'loss': 1.4872, 'grad_norm': 0.1313847452402115, 'learning_rate': 0.0004054320600004753, 'epoch': 0.31}
+{'loss': 1.4923, 'grad_norm': 0.12359597533941269, 'learning_rate': 0.00040526961221551617, 'epoch': 0.31}
+{'loss': 1.4921, 'grad_norm': 0.1361558586359024, 'learning_rate': 0.0004051070576317877, 'epoch': 0.31}
+{'loss': 1.4929, 'grad_norm': 0.12620662152767181, 'learning_rate': 0.0004049443963610996, 'epoch': 0.31}
+{'loss': 1.4998, 'grad_norm': 0.12245593965053558, 'learning_rate': 0.0004047816285153346, 'epoch': 0.31}
+{'loss': 1.4932, 'grad_norm': 0.1235613226890564, 'learning_rate': 0.0004046187542064491, 'epoch': 0.31}
+{'loss': 1.5042, 'grad_norm': 0.09989149868488312, 'learning_rate': 0.0004044557735464726, 'epoch': 0.31}
+{'loss': 1.4932, 'grad_norm': 0.12199388444423676, 'learning_rate': 0.00040429268664750773, 'epoch': 0.31}
+{'loss': 1.5004, 'grad_norm': 0.11141368746757507, 'learning_rate': 0.00040412949362173017, 'epoch': 0.31}
+{'loss': 1.5159, 'grad_norm': 0.1203092411160469, 'learning_rate': 0.0004039661945813886, 'epoch': 0.31}
+{'loss': 1.4888, 'grad_norm': 0.1120995283126831, 'learning_rate': 0.0004038027896388048, 'epoch': 0.31}
+{'loss': 1.485, 'grad_norm': 0.1180477887392044, 'learning_rate': 0.0004036392789063731, 'epoch': 0.31}
+{'loss': 1.4883, 'grad_norm': 0.1093808189034462, 'learning_rate': 0.0004034756624965608, 'epoch': 0.31}
+{'loss': 1.5005, 'grad_norm': 0.12125413864850998, 'learning_rate': 0.0004033119405219079, 'epoch': 0.31}
+{'loss': 1.4982, 'grad_norm': 0.11386846750974655, 'learning_rate': 0.00040314811309502676, 'epoch': 0.31}
+{'loss': 1.485, 'grad_norm': 0.12123636156320572, 'learning_rate': 0.00040298418032860264, 'epoch': 0.31}
+{'loss': 1.4992, 'grad_norm': 0.12244884669780731, 'learning_rate': 0.0004028201423353929, 'epoch': 0.31}
+{'loss': 1.4767, 'grad_norm': 0.10828673839569092, 'learning_rate': 0.00040265599922822753, 'epoch': 0.31}
+{'loss': 1.4818, 'grad_norm': 0.12111261487007141, 'learning_rate': 0.0004024917511200088, 'epoch': 0.31}
+{'loss': 1.5093, 'grad_norm': 0.1304173320531845, 'learning_rate': 0.00040232739812371104, 'epoch': 0.31}
+{'loss': 1.5102, 'grad_norm': 0.1260862797498703, 'learning_rate': 0.0004021629403523809, 'epoch': 0.31}
+{'loss': 1.5102, 'grad_norm': 0.14508531987667084, 'learning_rate': 0.00040199837791913694, 'epoch': 0.31}
+{'loss': 1.4913, 'grad_norm': 0.12329355627298355, 'learning_rate': 0.0004018337109371699, 'epoch': 0.31}
+{'loss': 1.5018, 'grad_norm': 0.1572047919034958, 'learning_rate': 0.00040166893951974216, 'epoch': 0.31}
+{'loss': 1.5048, 'grad_norm': 0.11377723515033722, 'learning_rate': 0.0004015040637801883, 'epoch': 0.31}
+{'loss': 1.5147, 'grad_norm': 0.15412478148937225, 'learning_rate': 0.0004013390838319143, 'epoch': 0.31}
+{'loss': 1.4823, 'grad_norm': 0.1272996962070465, 'learning_rate': 0.00040117399978839796, 'epoch': 0.31}
+{'loss': 1.5085, 'grad_norm': 0.1340358704328537, 'learning_rate': 0.0004010088117631888, 'epoch': 0.31}
+{'loss': 1.4548, 'grad_norm': 0.15528279542922974, 'learning_rate': 0.00040084351986990777, 'epoch': 0.32}
+{'loss': 1.4942, 'grad_norm': 0.12188870459794998, 'learning_rate': 0.00040067812422224703, 'epoch': 0.32}
+{'loss': 1.5034, 'grad_norm': 0.1515202820301056, 'learning_rate': 0.0004005126249339705, 'epoch': 0.32}
+{'loss': 1.4899, 'grad_norm': 0.11552582681179047, 'learning_rate': 0.00040034702211891315, 'epoch': 0.32}
+{'loss': 1.4989, 'grad_norm': 0.14476817846298218, 'learning_rate': 0.0004001813158909813, 'epoch': 0.32}
+{'loss': 1.5022, 'grad_norm': 0.13031359016895294, 'learning_rate': 0.0004000155063641522, 'epoch': 0.32}
+{'loss': 1.5034, 'grad_norm': 0.12562204897403717, 'learning_rate': 0.00039984959365247427, 'epoch': 0.32}
+{'loss': 1.4931, 'grad_norm': 0.12937748432159424, 'learning_rate': 0.0003996835778700669, 'epoch': 0.32}
+{'loss': 1.497, 'grad_norm': 0.12845739722251892, 'learning_rate': 0.00039951745913112055, 'epoch': 0.32}
+{'loss': 1.478, 'grad_norm': 0.12071293592453003, 'learning_rate': 0.00039935123754989603, 'epoch': 0.32}
+{'loss': 1.4942, 'grad_norm': 0.15566954016685486, 'learning_rate': 0.00039918491324072547, 'epoch': 0.32}
+{'loss': 1.4894, 'grad_norm': 0.12088368833065033, 'learning_rate': 0.0003990184863180112, 'epoch': 0.32}
+{'loss': 1.4566, 'grad_norm': 0.1557435542345047, 'learning_rate': 0.00039885195689622624, 'epoch': 0.32}
+{'loss': 1.4754, 'grad_norm': 0.11883368343114853, 'learning_rate': 0.0003986853250899143, 'epoch': 0.32}
+{'loss': 1.4808, 'grad_norm': 0.13088026642799377, 'learning_rate': 0.00039851859101368937, 'epoch': 0.32}
+{'loss': 1.5006, 'grad_norm': 0.13086409866809845, 'learning_rate': 0.0003983517547822358, 'epoch': 0.32}
+{'loss': 1.504, 'grad_norm': 0.12984545528888702, 'learning_rate': 0.00039818481651030815, 'epoch': 0.32}
+{'loss': 1.4902, 'grad_norm': 0.09477850049734116, 'learning_rate': 0.0003980177763127312, 'epoch': 0.32}
+{'loss': 1.5048, 'grad_norm': 0.1388547271490097, 'learning_rate': 0.00039785063430439996, 'epoch': 0.32}
+{'loss': 1.505, 'grad_norm': 0.12070304155349731, 'learning_rate': 0.0003976833906002792, 'epoch': 0.32}
+{'loss': 1.4989, 'grad_norm': 0.14240649342536926, 'learning_rate': 0.000397516045315404, 'epoch': 0.32}
+{'loss': 1.4776, 'grad_norm': 0.12234465777873993, 'learning_rate': 0.00039734859856487893, 'epoch': 0.32}
+{'loss': 1.4955, 'grad_norm': 0.14613379538059235, 'learning_rate': 0.0003971810504638787, 'epoch': 0.32}
+{'loss': 1.4819, 'grad_norm': 0.12236311286687851, 'learning_rate': 0.0003970134011276475, 'epoch': 0.32}
+{'loss': 1.5073, 'grad_norm': 0.13356178998947144, 'learning_rate': 0.00039684565067149916, 'epoch': 0.32}
+{'loss': 1.5176, 'grad_norm': 0.11440825462341309, 'learning_rate': 0.0003966777992108172, 'epoch': 0.32}
+{'loss': 1.4804, 'grad_norm': 0.12682382762432098, 'learning_rate': 0.0003965098468610545, 'epoch': 0.32}
+{'loss': 1.4728, 'grad_norm': 0.13068914413452148, 'learning_rate': 0.0003963417937377334, 'epoch': 0.32}
+{'loss': 1.4961, 'grad_norm': 0.11618273705244064, 'learning_rate': 0.0003961736399564454, 'epoch': 0.32}
+{'loss': 1.4882, 'grad_norm': 0.13854622840881348, 'learning_rate': 0.0003960053856328516, 'epoch': 0.32}
+{'loss': 1.4817, 'grad_norm': 0.12279540300369263, 'learning_rate': 0.00039583703088268184, 'epoch': 0.32}
+{'loss': 1.497, 'grad_norm': 0.13521048426628113, 'learning_rate': 0.0003956685758217352, 'epoch': 0.32}
+{'loss': 1.4944, 'grad_norm': 0.11662852764129639, 'learning_rate': 0.00039550002056587986, 'epoch': 0.32}
+{'loss': 1.475, 'grad_norm': 0.14479582011699677, 'learning_rate': 0.0003953313652310527, 'epoch': 0.32}
+{'loss': 1.4884, 'grad_norm': 0.13855625689029694, 'learning_rate': 0.00039516260993325983, 'epoch': 0.32}
+{'loss': 1.5059, 'grad_norm': 0.1330312192440033, 'learning_rate': 0.00039499375478857545, 'epoch': 0.32}
+{'loss': 1.5146, 'grad_norm': 0.15224280953407288, 'learning_rate': 0.0003948247999131432, 'epoch': 0.32}
+{'loss': 1.5012, 'grad_norm': 0.14721789956092834, 'learning_rate': 0.00039465574542317473, 'epoch': 0.32}
+{'loss': 1.4992, 'grad_norm': 0.14371754229068756, 'learning_rate': 0.0003944865914349506, 'epoch': 0.32}
+{'loss': 1.5008, 'grad_norm': 0.12469600141048431, 'learning_rate': 0.00039431733806481945, 'epoch': 0.33}
+{'loss': 1.4789, 'grad_norm': 0.13195116817951202, 'learning_rate': 0.0003941479854291986, 'epoch': 0.33}
+{'loss': 1.512, 'grad_norm': 0.11980216950178146, 'learning_rate': 0.0003939785336445735, 'epoch': 0.33}
+{'loss': 1.5019, 'grad_norm': 0.14082536101341248, 'learning_rate': 0.0003938089828274978, 'epoch': 0.33}
+{'loss': 1.4926, 'grad_norm': 0.11786523461341858, 'learning_rate': 0.0003936393330945933, 'epoch': 0.33}
+{'loss': 1.4995, 'grad_norm': 0.13626061379909515, 'learning_rate': 0.00039346958456254976, 'epoch': 0.33}
+{'loss': 1.4642, 'grad_norm': 0.13748253881931305, 'learning_rate': 0.00039329973734812494, 'epoch': 0.33}
+{'loss': 1.4707, 'grad_norm': 0.1352742314338684, 'learning_rate': 0.0003931297915681447, 'epoch': 0.33}
+{'loss': 1.5095, 'grad_norm': 0.16001546382904053, 'learning_rate': 0.00039295974733950215, 'epoch': 0.33}
+{'loss': 1.515, 'grad_norm': 0.1289094239473343, 'learning_rate': 0.00039278960477915877, 'epoch': 0.33}
+{'loss': 1.5011, 'grad_norm': 0.16724932193756104, 'learning_rate': 0.0003926193640041431, 'epoch': 0.33}
+{'loss': 1.501, 'grad_norm': 0.1297755092382431, 'learning_rate': 0.0003924490251315517, 'epoch': 0.33}
+{'loss': 1.4691, 'grad_norm': 0.16098712384700775, 'learning_rate': 0.0003922785882785483, 'epoch': 0.33}
+{'loss': 1.489, 'grad_norm': 0.11771927773952484, 'learning_rate': 0.0003921080535623641, 'epoch': 0.33}
+{'loss': 1.5011, 'grad_norm': 0.13697536289691925, 'learning_rate': 0.0003919374211002976, 'epoch': 0.33}
+{'loss': 1.4873, 'grad_norm': 0.13015782833099365, 'learning_rate': 0.0003917666910097147, 'epoch': 0.33}
+{'loss': 1.4923, 'grad_norm': 0.11180423945188522, 'learning_rate': 0.00039159586340804824, 'epoch': 0.33}
+{'loss': 1.5035, 'grad_norm': 0.1303025186061859, 'learning_rate': 0.00039142493841279823, 'epoch': 0.33}
+{'loss': 1.4977, 'grad_norm': 0.1253640204668045, 'learning_rate': 0.0003912539161415316, 'epoch': 0.33}
+{'loss': 1.4701, 'grad_norm': 0.10672624409198761, 'learning_rate': 0.0003910827967118823, 'epoch': 0.33}
+{'loss': 1.4969, 'grad_norm': 0.1359749436378479, 'learning_rate': 0.00039091158024155096, 'epoch': 0.33}
+{'loss': 1.4734, 'grad_norm': 0.11521953344345093, 'learning_rate': 0.00039074026684830516, 'epoch': 0.33}
+{'loss': 1.4884, 'grad_norm': 0.10873056948184967, 'learning_rate': 0.0003905688566499789, 'epoch': 0.33}
+{'loss': 1.4976, 'grad_norm': 0.12546399235725403, 'learning_rate': 0.00039039734976447304, 'epoch': 0.33}
+{'loss': 1.4766, 'grad_norm': 0.11662498116493225, 'learning_rate': 0.0003902257463097547, 'epoch': 0.33}
+{'loss': 1.4646, 'grad_norm': 0.12115941941738129, 'learning_rate': 0.00039005404640385746, 'epoch': 0.33}
+{'loss': 1.5019, 'grad_norm': 0.14320744574069977, 'learning_rate': 0.0003898822501648814, 'epoch': 0.33}
+{'loss': 1.481, 'grad_norm': 0.10918958485126495, 'learning_rate': 0.00038971035771099286, 'epoch': 0.33}
+{'loss': 1.4695, 'grad_norm': 0.13838070631027222, 'learning_rate': 0.00038953836916042405, 'epoch': 0.33}
+{'loss': 1.5028, 'grad_norm': 0.14020633697509766, 'learning_rate': 0.0003893662846314736, 'epoch': 0.33}
+{'loss': 1.4932, 'grad_norm': 0.1137852743268013, 'learning_rate': 0.0003891941042425061, 'epoch': 0.33}
+{'loss': 1.5056, 'grad_norm': 0.1320067048072815, 'learning_rate': 0.000389021828111952, 'epoch': 0.33}
+{'loss': 1.494, 'grad_norm': 0.11958782374858856, 'learning_rate': 0.0003888494563583075, 'epoch': 0.33}
+{'loss': 1.5127, 'grad_norm': 0.1182255893945694, 'learning_rate': 0.0003886769891001348, 'epoch': 0.33}
+{'loss': 1.5164, 'grad_norm': 0.13745750486850739, 'learning_rate': 0.0003885044264560618, 'epoch': 0.33}
+{'loss': 1.4935, 'grad_norm': 0.12039367109537125, 'learning_rate': 0.0003883317685447816, 'epoch': 0.33}
+{'loss': 1.4956, 'grad_norm': 0.1358025074005127, 'learning_rate': 0.0003881590154850534, 'epoch': 0.33}
+{'loss': 1.4787, 'grad_norm': 0.10938230901956558, 'learning_rate': 0.0003879861673957014, 'epoch': 0.33}
+{'loss': 1.4917, 'grad_norm': 0.15052282810211182, 'learning_rate': 0.0003878132243956155, 'epoch': 0.33}
+{'loss': 1.4999, 'grad_norm': 0.11037887632846832, 'learning_rate': 0.0003876401866037506, 'epoch': 0.34}
+{'loss': 1.4886, 'grad_norm': 0.12721289694309235, 'learning_rate': 0.00038746705413912695, 'epoch': 0.34}
+{'loss': 1.5112, 'grad_norm': 0.11566703021526337, 'learning_rate': 0.0003872938271208299, 'epoch': 0.34}
+{'loss': 1.5054, 'grad_norm': 0.13930214941501617, 'learning_rate': 0.0003871205056680098, 'epoch': 0.34}
+{'loss': 1.493, 'grad_norm': 0.12472247332334518, 'learning_rate': 0.0003869470898998821, 'epoch': 0.34}
+{'loss': 1.4935, 'grad_norm': 0.14627015590667725, 'learning_rate': 0.00038677357993572675, 'epoch': 0.34}
+{'loss': 1.5025, 'grad_norm': 0.11349465698003769, 'learning_rate': 0.00038659997589488894, 'epoch': 0.34}
+{'loss': 1.498, 'grad_norm': 0.11624632775783539, 'learning_rate': 0.00038642627789677833, 'epoch': 0.34}
+{'loss': 1.4974, 'grad_norm': 0.15873514115810394, 'learning_rate': 0.0003862524860608692, 'epoch': 0.34}
+{'loss': 1.5095, 'grad_norm': 0.11325763911008835, 'learning_rate': 0.0003860786005067005, 'epoch': 0.34}
+{'loss': 1.4888, 'grad_norm': 0.1463184356689453, 'learning_rate': 0.0003859046213538755, 'epoch': 0.34}
+{'loss': 1.4882, 'grad_norm': 0.10597191005945206, 'learning_rate': 0.0003857305487220619, 'epoch': 0.34}
+{'loss': 1.479, 'grad_norm': 0.14422869682312012, 'learning_rate': 0.0003855563827309917, 'epoch': 0.34}
+{'loss': 1.4729, 'grad_norm': 0.12177228927612305, 'learning_rate': 0.0003853821235004613, 'epoch': 0.34}
+{'loss': 1.5007, 'grad_norm': 0.14438070356845856, 'learning_rate': 0.00038520777115033086, 'epoch': 0.34}
+{'loss': 1.4908, 'grad_norm': 0.13233192265033722, 'learning_rate': 0.0003850333258005248, 'epoch': 0.34}
+{'loss': 1.5145, 'grad_norm': 0.1370241791009903, 'learning_rate': 0.00038485878757103163, 'epoch': 0.34}
+{'loss': 1.4844, 'grad_norm': 0.15833774209022522, 'learning_rate': 0.00038468415658190347, 'epoch': 0.34}
+{'loss': 1.4827, 'grad_norm': 0.15237781405448914, 'learning_rate': 0.00038450943295325647, 'epoch': 0.34}
+{'loss': 1.5055, 'grad_norm': 0.12139581888914108, 'learning_rate': 0.0003843346168052704, 'epoch': 0.34}
+{'loss': 1.4827, 'grad_norm': 0.12306024134159088, 'learning_rate': 0.00038415970825818866, 'epoch': 0.34}
+{'loss': 1.5015, 'grad_norm': 0.15097950398921967, 'learning_rate': 0.00038398470743231827, 'epoch': 0.34}
+{'loss': 1.4679, 'grad_norm': 0.11979272961616516, 'learning_rate': 0.00038380961444802966, 'epoch': 0.34}
+{'loss': 1.4681, 'grad_norm': 0.14944419264793396, 'learning_rate': 0.00038363442942575656, 'epoch': 0.34}
+{'loss': 1.4954, 'grad_norm': 0.15356367826461792, 'learning_rate': 0.00038345915248599627, 'epoch': 0.34}
+{'loss': 1.4866, 'grad_norm': 0.1405256688594818, 'learning_rate': 0.00038328378374930905, 'epoch': 0.34}
+{'loss': 1.457, 'grad_norm': 0.14369529485702515, 'learning_rate': 0.0003831083233363185, 'epoch': 0.34}
+{'loss': 1.4917, 'grad_norm': 0.11665641516447067, 'learning_rate': 0.0003829327713677111, 'epoch': 0.34}
+{'loss': 1.4855, 'grad_norm': 0.1316053420305252, 'learning_rate': 0.0003827571279642365, 'epoch': 0.34}
+{'loss': 1.473, 'grad_norm': 0.13635055720806122, 'learning_rate': 0.00038258139324670706, 'epoch': 0.34}
+{'loss': 1.4942, 'grad_norm': 0.1051618754863739, 'learning_rate': 0.0003824055673359979, 'epoch': 0.34}
+{'loss': 1.4714, 'grad_norm': 0.1449487954378128, 'learning_rate': 0.0003822296503530472, 'epoch': 0.34}
+{'loss': 1.4607, 'grad_norm': 0.13260091841220856, 'learning_rate': 0.00038205364241885545, 'epoch': 0.34}
+{'loss': 1.4775, 'grad_norm': 0.15794678032398224, 'learning_rate': 0.0003818775436544859, 'epoch': 0.34}
+{'loss': 1.4738, 'grad_norm': 0.14173267781734467, 'learning_rate': 0.000381701354181064, 'epoch': 0.34}
+{'loss': 1.5037, 'grad_norm': 0.126374751329422, 'learning_rate': 0.000381525074119778, 'epoch': 0.34}
+{'loss': 1.5218, 'grad_norm': 0.1340414434671402, 'learning_rate': 0.00038134870359187806, 'epoch': 0.34}
+{'loss': 1.4973, 'grad_norm': 0.13498619198799133, 'learning_rate': 0.00038117224271867696, 'epoch': 0.34}
+{'loss': 1.4875, 'grad_norm': 0.13934464752674103, 'learning_rate': 0.0003809956916215491, 'epoch': 0.34}
+{'loss': 1.4934, 'grad_norm': 0.14327064156532288, 'learning_rate': 0.00038081905042193167, 'epoch': 0.35}
+{'loss': 1.4889, 'grad_norm': 0.13211245834827423, 'learning_rate': 0.0003806423192413231, 'epoch': 0.35}
+{'loss': 1.4961, 'grad_norm': 0.13315258920192719, 'learning_rate': 0.00038046549820128407, 'epoch': 0.35}
+{'loss': 1.4948, 'grad_norm': 0.11776088923215866, 'learning_rate': 0.00038028858742343704, 'epoch': 0.35}
+{'loss': 1.5134, 'grad_norm': 0.1174955815076828, 'learning_rate': 0.0003801115870294662, 'epoch': 0.35}
+{'loss': 1.4865, 'grad_norm': 0.12997059524059296, 'learning_rate': 0.0003799344971411174, 'epoch': 0.35}
+{'loss': 1.4684, 'grad_norm': 0.12149768322706223, 'learning_rate': 0.0003797573178801979, 'epoch': 0.35}
+{'loss': 1.4721, 'grad_norm': 0.1254863440990448, 'learning_rate': 0.0003795800493685766, 'epoch': 0.35}
+{'loss': 1.4913, 'grad_norm': 0.13862183690071106, 'learning_rate': 0.0003794026917281838, 'epoch': 0.35}
+{'loss': 1.5137, 'grad_norm': 0.13488388061523438, 'learning_rate': 0.00037922524508101084, 'epoch': 0.35}
+{'loss': 1.4839, 'grad_norm': 0.12979617714881897, 'learning_rate': 0.00037904770954911063, 'epoch': 0.35}
+{'loss': 1.4875, 'grad_norm': 0.11979994922876358, 'learning_rate': 0.0003788700852545969, 'epoch': 0.35}
+{'loss': 1.4861, 'grad_norm': 0.11959948390722275, 'learning_rate': 0.00037869237231964487, 'epoch': 0.35}
+{'loss': 1.4744, 'grad_norm': 0.11643238365650177, 'learning_rate': 0.0003785145708664903, 'epoch': 0.35}
+{'loss': 1.5031, 'grad_norm': 0.13235867023468018, 'learning_rate': 0.0003783366810174298, 'epoch': 0.35}
+{'loss': 1.4539, 'grad_norm': 0.12057270109653473, 'learning_rate': 0.00037815870289482125, 'epoch': 0.35}
+{'loss': 1.4933, 'grad_norm': 0.10954797267913818, 'learning_rate': 0.0003779806366210828, 'epoch': 0.35}
+{'loss': 1.5019, 'grad_norm': 0.12929774820804596, 'learning_rate': 0.00037780248231869356, 'epoch': 0.35}
+{'loss': 1.4792, 'grad_norm': 0.12177577614784241, 'learning_rate': 0.00037762424011019287, 'epoch': 0.35}
+{'loss': 1.4882, 'grad_norm': 0.107796311378479, 'learning_rate': 0.00037744591011818076, 'epoch': 0.35}
+{'loss': 1.4873, 'grad_norm': 0.13065145909786224, 'learning_rate': 0.0003772674924653175, 'epoch': 0.35}
+{'loss': 1.4752, 'grad_norm': 0.11101137846708298, 'learning_rate': 0.00037708898727432385, 'epoch': 0.35}
+{'loss': 1.4751, 'grad_norm': 0.12497446686029434, 'learning_rate': 0.00037691039466798053, 'epoch': 0.35}
+{'loss': 1.497, 'grad_norm': 0.10879775881767273, 'learning_rate': 0.0003767317147691286, 'epoch': 0.35}
+{'loss': 1.4916, 'grad_norm': 0.11720461398363113, 'learning_rate': 0.0003765529477006692, 'epoch': 0.35}
+{'loss': 1.4802, 'grad_norm': 0.13373778760433197, 'learning_rate': 0.00037637409358556303, 'epoch': 0.35}
+{'loss': 1.477, 'grad_norm': 0.11291086673736572, 'learning_rate': 0.00037619515254683103, 'epoch': 0.35}
+{'loss': 1.478, 'grad_norm': 0.11345763504505157, 'learning_rate': 0.0003760161247075539, 'epoch': 0.35}
+{'loss': 1.4931, 'grad_norm': 0.11555561423301697, 'learning_rate': 0.00037583701019087203, 'epoch': 0.35}
+{'loss': 1.493, 'grad_norm': 0.10779879987239838, 'learning_rate': 0.00037565780911998526, 'epoch': 0.35}
+{'loss': 1.515, 'grad_norm': 0.1363300383090973, 'learning_rate': 0.000375478521618153, 'epoch': 0.35}
+{'loss': 1.4908, 'grad_norm': 0.11715845763683319, 'learning_rate': 0.00037529914780869454, 'epoch': 0.35}
+{'loss': 1.499, 'grad_norm': 0.13477399945259094, 'learning_rate': 0.00037511968781498795, 'epoch': 0.35}
+{'loss': 1.47, 'grad_norm': 0.1200917586684227, 'learning_rate': 0.00037494014176047075, 'epoch': 0.35}
+{'loss': 1.4927, 'grad_norm': 0.11556614190340042, 'learning_rate': 0.0003747605097686398, 'epoch': 0.35}
+{'loss': 1.5016, 'grad_norm': 0.11206825822591782, 'learning_rate': 0.0003745807919630511, 'epoch': 0.35}
+{'loss': 1.4834, 'grad_norm': 0.13058778643608093, 'learning_rate': 0.0003744009884673194, 'epoch': 0.35}
+{'loss': 1.4869, 'grad_norm': 0.1278085559606552, 'learning_rate': 0.0003742210994051186, 'epoch': 0.35}
+{'loss': 1.4737, 'grad_norm': 0.1096641793847084, 'learning_rate': 0.0003740411249001815, 'epoch': 0.35}
+{'loss': 1.4829, 'grad_norm': 0.12467087805271149, 'learning_rate': 0.00037386106507629956, 'epoch': 0.36}
+{'loss': 1.4721, 'grad_norm': 0.13065819442272186, 'learning_rate': 0.0003736809200573229, 'epoch': 0.36}
+{'loss': 1.4895, 'grad_norm': 0.11691638082265854, 'learning_rate': 0.0003735006899671603, 'epoch': 0.36}
+{'loss': 1.5015, 'grad_norm': 0.128263920545578, 'learning_rate': 0.000373320374929779, 'epoch': 0.36}
+{'loss': 1.4937, 'grad_norm': 0.09966874867677689, 'learning_rate': 0.0003731399750692049, 'epoch': 0.36}
+{'loss': 1.501, 'grad_norm': 0.11741706728935242, 'learning_rate': 0.00037295949050952185, 'epoch': 0.36}
+{'loss': 1.4715, 'grad_norm': 0.1232755184173584, 'learning_rate': 0.00037277892137487216, 'epoch': 0.36}
+{'loss': 1.474, 'grad_norm': 0.10357309132814407, 'learning_rate': 0.00037259826778945643, 'epoch': 0.36}
+{'loss': 1.5045, 'grad_norm': 0.12982074916362762, 'learning_rate': 0.0003724175298775332, 'epoch': 0.36}
+{'loss': 1.4858, 'grad_norm': 0.124974824488163, 'learning_rate': 0.000372236707763419, 'epoch': 0.36}
+{'loss': 1.5087, 'grad_norm': 0.13370685279369354, 'learning_rate': 0.00037205580157148837, 'epoch': 0.36}
+{'loss': 1.509, 'grad_norm': 0.14116935431957245, 'learning_rate': 0.0003718748114261736, 'epoch': 0.36}
+{'loss': 1.4731, 'grad_norm': 0.10924838483333588, 'learning_rate': 0.00037169373745196487, 'epoch': 0.36}
+{'loss': 1.5032, 'grad_norm': 0.15297244489192963, 'learning_rate': 0.0003715125797734098, 'epoch': 0.36}
+{'loss': 1.4756, 'grad_norm': 0.1254604458808899, 'learning_rate': 0.00037133133851511364, 'epoch': 0.36}
+{'loss': 1.5212, 'grad_norm': 0.13636481761932373, 'learning_rate': 0.0003711500138017393, 'epoch': 0.36}
+{'loss': 1.4749, 'grad_norm': 0.1341141015291214, 'learning_rate': 0.00037096860575800696, 'epoch': 0.36}
+{'loss': 1.4725, 'grad_norm': 0.14095161855220795, 'learning_rate': 0.0003707871145086941, 'epoch': 0.36}
+{'loss': 1.4872, 'grad_norm': 0.1373337060213089, 'learning_rate': 0.00037060554017863536, 'epoch': 0.36}
+{'loss': 1.4794, 'grad_norm': 0.13324692845344543, 'learning_rate': 0.0003704238828927229, 'epoch': 0.36}
+{'loss': 1.5011, 'grad_norm': 0.1482314169406891, 'learning_rate': 0.00037024214277590537, 'epoch': 0.36}
+{'loss': 1.4958, 'grad_norm': 0.11606114357709885, 'learning_rate': 0.00037006031995318885, 'epoch': 0.36}
+{'loss': 1.4815, 'grad_norm': 0.14449043571949005, 'learning_rate': 0.00036987841454963607, 'epoch': 0.36}
+{'loss': 1.4755, 'grad_norm': 0.12764716148376465, 'learning_rate': 0.0003696964266903667, 'epoch': 0.36}
+{'loss': 1.4706, 'grad_norm': 0.12481685727834702, 'learning_rate': 0.0003695143565005572, 'epoch': 0.36}
+{'loss': 1.4813, 'grad_norm': 0.12619218230247498, 'learning_rate': 0.0003693322041054402, 'epoch': 0.36}
+{'loss': 1.5056, 'grad_norm': 0.13406343758106232, 'learning_rate': 0.00036914996963030545, 'epoch': 0.36}
+{'loss': 1.5131, 'grad_norm': 0.13941949605941772, 'learning_rate': 0.0003689676532004988, 'epoch': 0.36}
+{'loss': 1.4828, 'grad_norm': 0.1314692497253418, 'learning_rate': 0.0003687852549414227, 'epoch': 0.36}
+{'loss': 1.4792, 'grad_norm': 0.13680516183376312, 'learning_rate': 0.0003686027749785355, 'epoch': 0.36}
+{'loss': 1.4826, 'grad_norm': 0.12532563507556915, 'learning_rate': 0.00036842021343735226, 'epoch': 0.36}
+{'loss': 1.4758, 'grad_norm': 0.1377563327550888, 'learning_rate': 0.00036823757044344383, 'epoch': 0.36}
+{'loss': 1.4618, 'grad_norm': 0.13393273949623108, 'learning_rate': 0.00036805484612243707, 'epoch': 0.36}
+{'loss': 1.4834, 'grad_norm': 0.11865919083356857, 'learning_rate': 0.00036787204060001493, 'epoch': 0.36}
+{'loss': 1.4833, 'grad_norm': 0.13866189122200012, 'learning_rate': 0.0003676891540019162, 'epoch': 0.36}
+{'loss': 1.4735, 'grad_norm': 0.11903101205825806, 'learning_rate': 0.0003675061864539352, 'epoch': 0.36}
+{'loss': 1.5084, 'grad_norm': 0.13229481875896454, 'learning_rate': 0.00036732313808192244, 'epoch': 0.36}
+{'loss': 1.5108, 'grad_norm': 0.14319108426570892, 'learning_rate': 0.00036714000901178336, 'epoch': 0.36}
+{'loss': 1.4684, 'grad_norm': 0.10409422963857651, 'learning_rate': 0.00036695679936947934, 'epoch': 0.36}
+{'loss': 1.4943, 'grad_norm': 0.10944902151823044, 'learning_rate': 0.00036677350928102716, 'epoch': 0.37}
+{'loss': 1.5074, 'grad_norm': 0.12767380475997925, 'learning_rate': 0.0003665901388724988, 'epoch': 0.37}
+{'loss': 1.4966, 'grad_norm': 0.111137755215168, 'learning_rate': 0.00036640668827002154, 'epoch': 0.37}
+{'loss': 1.4598, 'grad_norm': 0.12695425748825073, 'learning_rate': 0.0003662231575997779, 'epoch': 0.37}
+{'loss': 1.5062, 'grad_norm': 0.11359187215566635, 'learning_rate': 0.00036603954698800526, 'epoch': 0.37}
+{'loss': 1.4781, 'grad_norm': 0.11945782601833344, 'learning_rate': 0.0003658558565609962, 'epoch': 0.37}
+{'loss': 1.5153, 'grad_norm': 0.11362927407026291, 'learning_rate': 0.00036567208644509803, 'epoch': 0.37}
+{'loss': 1.4795, 'grad_norm': 0.13271237909793854, 'learning_rate': 0.0003654882367667131, 'epoch': 0.37}
+{'loss': 1.4785, 'grad_norm': 0.12191546708345413, 'learning_rate': 0.0003653043076522983, 'epoch': 0.37}
+{'loss': 1.4916, 'grad_norm': 0.12291296571493149, 'learning_rate': 0.0003651202992283651, 'epoch': 0.37}
+{'loss': 1.4866, 'grad_norm': 0.11721660941839218, 'learning_rate': 0.00036493621162147973, 'epoch': 0.37}
+{'loss': 1.4736, 'grad_norm': 0.11753544956445694, 'learning_rate': 0.0003647520449582628, 'epoch': 0.37}
+{'loss': 1.4962, 'grad_norm': 0.12289471924304962, 'learning_rate': 0.0003645677993653892, 'epoch': 0.37}
+{'loss': 1.4944, 'grad_norm': 0.12530827522277832, 'learning_rate': 0.00036438347496958826, 'epoch': 0.37}
+{'loss': 1.4726, 'grad_norm': 0.11379782855510712, 'learning_rate': 0.0003641990718976433, 'epoch': 0.37}
+{'loss': 1.5021, 'grad_norm': 0.11505698412656784, 'learning_rate': 0.00036401459027639207, 'epoch': 0.37}
+{'loss': 1.4856, 'grad_norm': 0.10811897367238998, 'learning_rate': 0.0003638300302327261, 'epoch': 0.37}
+{'loss': 1.4735, 'grad_norm': 0.12005460262298584, 'learning_rate': 0.00036364539189359093, 'epoch': 0.37}
+{'loss': 1.4696, 'grad_norm': 0.10603900998830795, 'learning_rate': 0.00036346067538598593, 'epoch': 0.37}
+{'loss': 1.4838, 'grad_norm': 0.12433905899524689, 'learning_rate': 0.0003632758808369643, 'epoch': 0.37}
+{'loss': 1.4804, 'grad_norm': 0.13491787016391754, 'learning_rate': 0.0003630910083736329, 'epoch': 0.37}
+{'loss': 1.4986, 'grad_norm': 0.12314731627702713, 'learning_rate': 0.00036290605812315215, 'epoch': 0.37}
+{'loss': 1.4909, 'grad_norm': 0.1331649273633957, 'learning_rate': 0.00036272103021273594, 'epoch': 0.37}
+{'loss': 1.4524, 'grad_norm': 0.10901643335819244, 'learning_rate': 0.00036253592476965174, 'epoch': 0.37}
+{'loss': 1.4972, 'grad_norm': 0.1448502391576767, 'learning_rate': 0.00036235074192122015, 'epoch': 0.37}
+{'loss': 1.4798, 'grad_norm': 0.12154188007116318, 'learning_rate': 0.00036216548179481505, 'epoch': 0.37}
+{'loss': 1.5069, 'grad_norm': 0.1341436505317688, 'learning_rate': 0.00036198014451786363, 'epoch': 0.37}
+{'loss': 1.4974, 'grad_norm': 0.12744754552841187, 'learning_rate': 0.00036179473021784607, 'epoch': 0.37}
+{'loss': 1.5007, 'grad_norm': 0.12006714940071106, 'learning_rate': 0.0003616092390222954, 'epoch': 0.37}
+{'loss': 1.4648, 'grad_norm': 0.17032144963741302, 'learning_rate': 0.0003614236710587976, 'epoch': 0.37}
+{'loss': 1.4773, 'grad_norm': 0.11944791674613953, 'learning_rate': 0.0003612380264549915, 'epoch': 0.37}
+{'loss': 1.4876, 'grad_norm': 0.14475199580192566, 'learning_rate': 0.0003610523053385688, 'epoch': 0.37}
+{'loss': 1.4966, 'grad_norm': 0.12449342012405396, 'learning_rate': 0.00036086650783727353, 'epoch': 0.37}
+{'loss': 1.525, 'grad_norm': 0.13602246344089508, 'learning_rate': 0.0003606806340789024, 'epoch': 0.37}
+{'loss': 1.4873, 'grad_norm': 0.1320749819278717, 'learning_rate': 0.00036049468419130446, 'epoch': 0.37}
+{'loss': 1.5023, 'grad_norm': 0.1458161175251007, 'learning_rate': 0.0003603086583023815, 'epoch': 0.37}
+{'loss': 1.5, 'grad_norm': 0.12211034446954727, 'learning_rate': 0.0003601225565400871, 'epoch': 0.37}
+{'loss': 1.4964, 'grad_norm': 0.12858092784881592, 'learning_rate': 0.00035993637903242734, 'epoch': 0.37}
+{'loss': 1.4801, 'grad_norm': 0.11415773630142212, 'learning_rate': 0.0003597501259074601, 'epoch': 0.37}
+{'loss': 1.4873, 'grad_norm': 0.12409669905900955, 'learning_rate': 0.00035956379729329586, 'epoch': 0.38}
+{'loss': 1.4795, 'grad_norm': 0.12341668456792831, 'learning_rate': 0.00035937739331809627, 'epoch': 0.38}
+{'loss': 1.4919, 'grad_norm': 0.11651358008384705, 'learning_rate': 0.00035919091411007535, 'epoch': 0.38}
+{'loss': 1.5089, 'grad_norm': 0.1080344095826149, 'learning_rate': 0.0003590043597974987, 'epoch': 0.38}
+{'loss': 1.491, 'grad_norm': 0.11975588649511337, 'learning_rate': 0.00035881773050868354, 'epoch': 0.38}
+{'loss': 1.4683, 'grad_norm': 0.119998037815094, 'learning_rate': 0.0003586310263719988, 'epoch': 0.38}
+{'loss': 1.4754, 'grad_norm': 0.12889088690280914, 'learning_rate': 0.0003584442475158645, 'epoch': 0.38}
+{'loss': 1.4856, 'grad_norm': 0.12659090757369995, 'learning_rate': 0.00035825739406875274, 'epoch': 0.38}
+{'loss': 1.4734, 'grad_norm': 0.11865239590406418, 'learning_rate': 0.0003580704661591863, 'epoch': 0.38}
+{'loss': 1.4824, 'grad_norm': 0.11455828696489334, 'learning_rate': 0.0003578834639157394, 'epoch': 0.38}
+{'loss': 1.5046, 'grad_norm': 0.12361449748277664, 'learning_rate': 0.0003576963874670374, 'epoch': 0.38}
+{'loss': 1.4785, 'grad_norm': 0.11303871870040894, 'learning_rate': 0.00035750923694175685, 'epoch': 0.38}
+{'loss': 1.5092, 'grad_norm': 0.1298375278711319, 'learning_rate': 0.00035732201246862496, 'epoch': 0.38}
+{'loss': 1.4846, 'grad_norm': 0.10708200186491013, 'learning_rate': 0.00035713471417642, 'epoch': 0.38}
+{'loss': 1.4962, 'grad_norm': 0.125935897231102, 'learning_rate': 0.0003569473421939709, 'epoch': 0.38}
+{'loss': 1.4971, 'grad_norm': 0.11802138388156891, 'learning_rate': 0.0003567598966501574, 'epoch': 0.38}
+{'loss': 1.479, 'grad_norm': 0.12230247259140015, 'learning_rate': 0.00035657237767390977, 'epoch': 0.38}
+{'loss': 1.4764, 'grad_norm': 0.1203894168138504, 'learning_rate': 0.00035638478539420877, 'epoch': 0.38}
+{'loss': 1.4624, 'grad_norm': 0.14177240431308746, 'learning_rate': 0.0003561971199400855, 'epoch': 0.38}
+{'loss': 1.4982, 'grad_norm': 0.11248406022787094, 'learning_rate': 0.00035600938144062167, 'epoch': 0.38}
+{'loss': 1.4938, 'grad_norm': 0.13348421454429626, 'learning_rate': 0.000355821570024949, 'epoch': 0.38}
+{'loss': 1.4916, 'grad_norm': 0.11415521800518036, 'learning_rate': 0.0003556336858222494, 'epoch': 0.38}
+{'loss': 1.4794, 'grad_norm': 0.12390593439340591, 'learning_rate': 0.0003554457289617548, 'epoch': 0.38}
+{'loss': 1.486, 'grad_norm': 0.1145525649189949, 'learning_rate': 0.0003552576995727472, 'epoch': 0.38}
+{'loss': 1.4807, 'grad_norm': 0.11170993745326996, 'learning_rate': 0.00035506959778455863, 'epoch': 0.38}
+{'loss': 1.4926, 'grad_norm': 0.13480530679225922, 'learning_rate': 0.0003548814237265705, 'epoch': 0.38}
+{'loss': 1.4886, 'grad_norm': 0.1054842546582222, 'learning_rate': 0.0003546931775282143, 'epoch': 0.38}
+{'loss': 1.4508, 'grad_norm': 0.12413320690393448, 'learning_rate': 0.000354504859318971, 'epoch': 0.38}
+{'loss': 1.4971, 'grad_norm': 0.13611993193626404, 'learning_rate': 0.00035431646922837114, 'epoch': 0.38}
+{'loss': 1.4944, 'grad_norm': 0.11338657885789871, 'learning_rate': 0.0003541280073859946, 'epoch': 0.38}
+{'loss': 1.5056, 'grad_norm': 0.13127592206001282, 'learning_rate': 0.00035393947392147075, 'epoch': 0.38}
+{'loss': 1.4971, 'grad_norm': 0.13393107056617737, 'learning_rate': 0.0003537508689644782, 'epoch': 0.38}
+{'loss': 1.4873, 'grad_norm': 0.12549979984760284, 'learning_rate': 0.0003535621926447446, 'epoch': 0.38}
+{'loss': 1.4448, 'grad_norm': 0.13081888854503632, 'learning_rate': 0.00035337344509204686, 'epoch': 0.38}
+{'loss': 1.5001, 'grad_norm': 0.12441971153020859, 'learning_rate': 0.0003531846264362108, 'epoch': 0.38}
+{'loss': 1.4799, 'grad_norm': 0.11494595557451248, 'learning_rate': 0.00035299573680711114, 'epoch': 0.38}
+{'loss': 1.4892, 'grad_norm': 0.11037338525056839, 'learning_rate': 0.0003528067763346714, 'epoch': 0.38}
+{'loss': 1.4739, 'grad_norm': 0.1251932680606842, 'learning_rate': 0.0003526177451488639, 'epoch': 0.38}
+{'loss': 1.5047, 'grad_norm': 0.10789985954761505, 'learning_rate': 0.0003524286433797096, 'epoch': 0.38}
+{'loss': 1.489, 'grad_norm': 0.12122058868408203, 'learning_rate': 0.00035223947115727787, 'epoch': 0.39}
+{'loss': 1.503, 'grad_norm': 0.140642911195755, 'learning_rate': 0.00035205022861168684, 'epoch': 0.39}
+{'loss': 1.4842, 'grad_norm': 0.11776228994131088, 'learning_rate': 0.0003518609158731025, 'epoch': 0.39}
+{'loss': 1.4579, 'grad_norm': 0.11502498388290405, 'learning_rate': 0.0003516715330717397, 'epoch': 0.39}
+{'loss': 1.4655, 'grad_norm': 0.14440083503723145, 'learning_rate': 0.00035148208033786117, 'epoch': 0.39}
+{'loss': 1.4718, 'grad_norm': 0.1167413666844368, 'learning_rate': 0.00035129255780177765, 'epoch': 0.39}
+{'loss': 1.4679, 'grad_norm': 0.1419934332370758, 'learning_rate': 0.00035110296559384815, 'epoch': 0.39}
+{'loss': 1.4671, 'grad_norm': 0.12227191030979156, 'learning_rate': 0.00035091330384447937, 'epoch': 0.39}
+{'loss': 1.501, 'grad_norm': 0.1439991444349289, 'learning_rate': 0.0003507235726841261, 'epoch': 0.39}
+{'loss': 1.4767, 'grad_norm': 0.11992479115724564, 'learning_rate': 0.0003505337722432906, 'epoch': 0.39}
+{'loss': 1.4976, 'grad_norm': 0.11997152864933014, 'learning_rate': 0.0003503439026525229, 'epoch': 0.39}
+{'loss': 1.4623, 'grad_norm': 0.139237180352211, 'learning_rate': 0.00035015396404242073, 'epoch': 0.39}
+{'loss': 1.4829, 'grad_norm': 0.11170864850282669, 'learning_rate': 0.000349963956543629, 'epoch': 0.39}
+{'loss': 1.5076, 'grad_norm': 0.11682403832674026, 'learning_rate': 0.00034977388028684033, 'epoch': 0.39}
+{'loss': 1.4957, 'grad_norm': 0.13258108496665955, 'learning_rate': 0.00034958373540279426, 'epoch': 0.39}
+{'loss': 1.4738, 'grad_norm': 0.11592711508274078, 'learning_rate': 0.0003493935220222779, 'epoch': 0.39}
+{'loss': 1.4627, 'grad_norm': 0.14901867508888245, 'learning_rate': 0.00034920324027612536, 'epoch': 0.39}
+{'loss': 1.4783, 'grad_norm': 0.1234905794262886, 'learning_rate': 0.0003490128902952176, 'epoch': 0.39}
+{'loss': 1.4836, 'grad_norm': 0.11010165512561798, 'learning_rate': 0.00034882247221048267, 'epoch': 0.39}
+{'loss': 1.4887, 'grad_norm': 0.1385764628648758, 'learning_rate': 0.0003486319861528955, 'epoch': 0.39}
+{'loss': 1.5088, 'grad_norm': 0.10668840259313583, 'learning_rate': 0.0003484414322534777, 'epoch': 0.39}
+{'loss': 1.4792, 'grad_norm': 0.12826670706272125, 'learning_rate': 0.0003482508106432975, 'epoch': 0.39}
+{'loss': 1.4891, 'grad_norm': 0.11490702629089355, 'learning_rate': 0.0003480601214534698, 'epoch': 0.39}
+{'loss': 1.4681, 'grad_norm': 0.11913575232028961, 'learning_rate': 0.000347869364815156, 'epoch': 0.39}
+{'loss': 1.4757, 'grad_norm': 0.12737822532653809, 'learning_rate': 0.00034767854085956376, 'epoch': 0.39}
+{'loss': 1.4674, 'grad_norm': 0.10753033310174942, 'learning_rate': 0.0003474876497179471, 'epoch': 0.39}
+{'loss': 1.4871, 'grad_norm': 0.12357885390520096, 'learning_rate': 0.00034729669152160634, 'epoch': 0.39}
+{'loss': 1.4794, 'grad_norm': 0.11096920818090439, 'learning_rate': 0.0003471056664018878, 'epoch': 0.39}
+{'loss': 1.4874, 'grad_norm': 0.10734375566244125, 'learning_rate': 0.0003469145744901839, 'epoch': 0.39}
+{'loss': 1.4724, 'grad_norm': 0.11539734154939651, 'learning_rate': 0.00034672341591793286, 'epoch': 0.39}
+{'loss': 1.4946, 'grad_norm': 0.11947871744632721, 'learning_rate': 0.00034653219081661927, 'epoch': 0.39}
+{'loss': 1.4649, 'grad_norm': 0.12379710376262665, 'learning_rate': 0.00034634089931777264, 'epoch': 0.39}
+{'loss': 1.4756, 'grad_norm': 0.12303750216960907, 'learning_rate': 0.00034614954155296883, 'epoch': 0.39}
+{'loss': 1.4654, 'grad_norm': 0.1162097305059433, 'learning_rate': 0.00034595811765382895, 'epoch': 0.39}
+{'loss': 1.489, 'grad_norm': 0.11128844320774078, 'learning_rate': 0.00034576662775201976, 'epoch': 0.39}
+{'loss': 1.463, 'grad_norm': 0.12518639862537384, 'learning_rate': 0.00034557507197925343, 'epoch': 0.39}
+{'loss': 1.4599, 'grad_norm': 0.11124669015407562, 'learning_rate': 0.00034538345046728717, 'epoch': 0.39}
+{'loss': 1.4999, 'grad_norm': 0.1303662210702896, 'learning_rate': 0.00034519176334792367, 'epoch': 0.39}
+{'loss': 1.4841, 'grad_norm': 0.11972097307443619, 'learning_rate': 0.00034500001075301077, 'epoch': 0.39}
+{'loss': 1.4881, 'grad_norm': 0.12038076668977737, 'learning_rate': 0.0003448081928144412, 'epoch': 0.4}
+{'loss': 1.4895, 'grad_norm': 0.1253601759672165, 'learning_rate': 0.0003446163096641527, 'epoch': 0.4}
+{'loss': 1.4876, 'grad_norm': 0.11616472154855728, 'learning_rate': 0.0003444243614341277, 'epoch': 0.4}
+{'loss': 1.5088, 'grad_norm': 0.11800981312990189, 'learning_rate': 0.00034423234825639375, 'epoch': 0.4}
+{'loss': 1.4996, 'grad_norm': 0.11262122541666031, 'learning_rate': 0.00034404027026302284, 'epoch': 0.4}
+{'loss': 1.4978, 'grad_norm': 0.1214495301246643, 'learning_rate': 0.0003438481275861315, 'epoch': 0.4}
+{'loss': 1.4815, 'grad_norm': 0.10653507709503174, 'learning_rate': 0.00034365592035788073, 'epoch': 0.4}
+{'loss': 1.4865, 'grad_norm': 0.12165084481239319, 'learning_rate': 0.00034346364871047625, 'epoch': 0.4}
+{'loss': 1.4691, 'grad_norm': 0.12131043523550034, 'learning_rate': 0.00034327131277616773, 'epoch': 0.4}
+{'loss': 1.4965, 'grad_norm': 0.12340396642684937, 'learning_rate': 0.00034307891268724915, 'epoch': 0.4}
+{'loss': 1.464, 'grad_norm': 0.11517343670129776, 'learning_rate': 0.00034288644857605877, 'epoch': 0.4}
+{'loss': 1.5156, 'grad_norm': 0.1194247230887413, 'learning_rate': 0.0003426939205749787, 'epoch': 0.4}
+{'loss': 1.496, 'grad_norm': 0.1214335709810257, 'learning_rate': 0.00034250132881643506, 'epoch': 0.4}
+{'loss': 1.4809, 'grad_norm': 0.10432761907577515, 'learning_rate': 0.0003423086734328979, 'epoch': 0.4}
+{'loss': 1.482, 'grad_norm': 0.10966215282678604, 'learning_rate': 0.0003421159545568809, 'epoch': 0.4}
+{'loss': 1.4881, 'grad_norm': 0.13347581028938293, 'learning_rate': 0.0003419231723209415, 'epoch': 0.4}
+{'loss': 1.4856, 'grad_norm': 0.10638446360826492, 'learning_rate': 0.0003417303268576807, 'epoch': 0.4}
+{'loss': 1.5074, 'grad_norm': 0.10945990681648254, 'learning_rate': 0.0003415374182997429, 'epoch': 0.4}
+{'loss': 1.4828, 'grad_norm': 0.11177587509155273, 'learning_rate': 0.0003413444467798162, 'epoch': 0.4}
+{'loss': 1.51, 'grad_norm': 0.10422435402870178, 'learning_rate': 0.00034115141243063157, 'epoch': 0.4}
+{'loss': 1.479, 'grad_norm': 0.10521190613508224, 'learning_rate': 0.00034095831538496357, 'epoch': 0.4}
+{'loss': 1.4733, 'grad_norm': 0.10318506509065628, 'learning_rate': 0.0003407651557756296, 'epoch': 0.4}
+{'loss': 1.4797, 'grad_norm': 0.10246970504522324, 'learning_rate': 0.00034057193373549036, 'epoch': 0.4}
+{'loss': 1.4738, 'grad_norm': 0.1031256690621376, 'learning_rate': 0.0003403786493974493, 'epoch': 0.4}
+{'loss': 1.4887, 'grad_norm': 0.11062158644199371, 'learning_rate': 0.0003401853028944528, 'epoch': 0.4}
+{'loss': 1.4912, 'grad_norm': 0.09613732993602753, 'learning_rate': 0.00033999189435948983, 'epoch': 0.4}
+{'loss': 1.4675, 'grad_norm': 0.11127958446741104, 'learning_rate': 0.0003397984239255924, 'epoch': 0.4}
+{'loss': 1.487, 'grad_norm': 0.1052016019821167, 'learning_rate': 0.0003396048917258348, 'epoch': 0.4}
+{'loss': 1.4761, 'grad_norm': 0.11146499961614609, 'learning_rate': 0.0003394112978933338, 'epoch': 0.4}
+{'loss': 1.461, 'grad_norm': 0.10506803542375565, 'learning_rate': 0.0003392176425612486, 'epoch': 0.4}
+{'loss': 1.4644, 'grad_norm': 0.09771980345249176, 'learning_rate': 0.0003390239258627809, 'epoch': 0.4}
+{'loss': 1.4916, 'grad_norm': 0.11730433255434036, 'learning_rate': 0.00033883014793117434, 'epoch': 0.4}
+{'loss': 1.4709, 'grad_norm': 0.10599453002214432, 'learning_rate': 0.0003386363088997148, 'epoch': 0.4}
+{'loss': 1.4768, 'grad_norm': 0.10888922214508057, 'learning_rate': 0.0003384424089017301, 'epoch': 0.4}
+{'loss': 1.4824, 'grad_norm': 0.10052023828029633, 'learning_rate': 0.0003382484480705903, 'epoch': 0.4}
+{'loss': 1.4779, 'grad_norm': 0.11065442860126495, 'learning_rate': 0.0003380544265397068, 'epoch': 0.4}
+{'loss': 1.47, 'grad_norm': 0.1227090135216713, 'learning_rate': 0.0003378603444425332, 'epoch': 0.4}
+{'loss': 1.4811, 'grad_norm': 0.12599775195121765, 'learning_rate': 0.0003376662019125645, 'epoch': 0.4}
+{'loss': 1.4888, 'grad_norm': 0.10555482655763626, 'learning_rate': 0.0003374719990833373, 'epoch': 0.4}
+{'loss': 1.4922, 'grad_norm': 0.10345903038978577, 'learning_rate': 0.0003372777360884298, 'epoch': 0.4}
+{'loss': 1.4902, 'grad_norm': 0.11120682209730148, 'learning_rate': 0.0003370834130614615, 'epoch': 0.41}
+{'loss': 1.4874, 'grad_norm': 0.10535139590501785, 'learning_rate': 0.00033688903013609316, 'epoch': 0.41}
+{'loss': 1.4669, 'grad_norm': 0.12048904597759247, 'learning_rate': 0.0003366945874460269, 'epoch': 0.41}
+{'loss': 1.47, 'grad_norm': 0.10024535655975342, 'learning_rate': 0.0003365000851250056, 'epoch': 0.41}
+{'loss': 1.4581, 'grad_norm': 0.11319663375616074, 'learning_rate': 0.0003363055233068136, 'epoch': 0.41}
+{'loss': 1.4572, 'grad_norm': 0.09897646307945251, 'learning_rate': 0.0003361109021252757, 'epoch': 0.41}
+{'loss': 1.5047, 'grad_norm': 0.10587882250547409, 'learning_rate': 0.00033591622171425813, 'epoch': 0.41}
+{'loss': 1.4881, 'grad_norm': 0.10676982998847961, 'learning_rate': 0.00033572148220766717, 'epoch': 0.41}
+{'loss': 1.4727, 'grad_norm': 0.09808617830276489, 'learning_rate': 0.0003355266837394502, 'epoch': 0.41}
+{'loss': 1.5177, 'grad_norm': 0.1129193902015686, 'learning_rate': 0.00033533182644359516, 'epoch': 0.41}
+{'loss': 1.4767, 'grad_norm': 0.11185400933027267, 'learning_rate': 0.0003351369104541301, 'epoch': 0.41}
+{'loss': 1.4965, 'grad_norm': 0.11918414384126663, 'learning_rate': 0.0003349419359051239, 'epoch': 0.41}
+{'loss': 1.5106, 'grad_norm': 0.1155332550406456, 'learning_rate': 0.00033474690293068527, 'epoch': 0.41}
+{'loss': 1.4901, 'grad_norm': 0.12714031338691711, 'learning_rate': 0.0003345518116649636, 'epoch': 0.41}
+{'loss': 1.4669, 'grad_norm': 0.11139184236526489, 'learning_rate': 0.00033435666224214785, 'epoch': 0.41}
+{'loss': 1.4708, 'grad_norm': 0.12013794481754303, 'learning_rate': 0.0003341614547964674, 'epoch': 0.41}
+{'loss': 1.4698, 'grad_norm': 0.1071619912981987, 'learning_rate': 0.0003339661894621912, 'epoch': 0.41}
+{'loss': 1.4752, 'grad_norm': 0.1119726225733757, 'learning_rate': 0.00033377086637362844, 'epoch': 0.41}
+{'loss': 1.4877, 'grad_norm': 0.12219592183828354, 'learning_rate': 0.0003335754856651276, 'epoch': 0.41}
+{'loss': 1.5069, 'grad_norm': 0.10885177552700043, 'learning_rate': 0.00033338004747107697, 'epoch': 0.41}
+{'loss': 1.4809, 'grad_norm': 0.12827186286449432, 'learning_rate': 0.0003331845519259045, 'epoch': 0.41}
+{'loss': 1.482, 'grad_norm': 0.10352588444948196, 'learning_rate': 0.00033298899916407737, 'epoch': 0.41}
+{'loss': 1.4766, 'grad_norm': 0.108644500374794, 'learning_rate': 0.00033279338932010237, 'epoch': 0.41}
+{'loss': 1.4879, 'grad_norm': 0.1282087117433548, 'learning_rate': 0.00033259772252852536, 'epoch': 0.41}
+{'loss': 1.4487, 'grad_norm': 0.09901989251375198, 'learning_rate': 0.0003324019989239313, 'epoch': 0.41}
+{'loss': 1.485, 'grad_norm': 0.11528699845075607, 'learning_rate': 0.00033220621864094436, 'epoch': 0.41}
+{'loss': 1.5098, 'grad_norm': 0.10271511971950531, 'learning_rate': 0.00033201038181422785, 'epoch': 0.41}
+{'loss': 1.5081, 'grad_norm': 0.1225351020693779, 'learning_rate': 0.0003318144885784836, 'epoch': 0.41}
+{'loss': 1.478, 'grad_norm': 0.09996921569108963, 'learning_rate': 0.0003316185390684526, 'epoch': 0.41}
+{'loss': 1.4531, 'grad_norm': 0.11487147957086563, 'learning_rate': 0.00033142253341891424, 'epoch': 0.41}
+{'loss': 1.4859, 'grad_norm': 0.11153014749288559, 'learning_rate': 0.0003312264717646868, 'epoch': 0.41}
+{'loss': 1.4857, 'grad_norm': 0.11951205134391785, 'learning_rate': 0.0003310303542406269, 'epoch': 0.41}
+{'loss': 1.4911, 'grad_norm': 0.10519862920045853, 'learning_rate': 0.0003308341809816296, 'epoch': 0.41}
+{'loss': 1.4653, 'grad_norm': 0.12557367980480194, 'learning_rate': 0.00033063795212262835, 'epoch': 0.41}
+{'loss': 1.482, 'grad_norm': 0.1315596103668213, 'learning_rate': 0.00033044166779859496, 'epoch': 0.41}
+{'loss': 1.4901, 'grad_norm': 0.11177274584770203, 'learning_rate': 0.0003302453281445391, 'epoch': 0.41}
+{'loss': 1.4849, 'grad_norm': 0.1284618079662323, 'learning_rate': 0.00033004893329550874, 'epoch': 0.41}
+{'loss': 1.4891, 'grad_norm': 0.11840531975030899, 'learning_rate': 0.00032985248338658976, 'epoch': 0.41}
+{'loss': 1.472, 'grad_norm': 0.11876016855239868, 'learning_rate': 0.00032965597855290574, 'epoch': 0.41}
+{'loss': 1.4787, 'grad_norm': 0.12974154949188232, 'learning_rate': 0.0003294594189296184, 'epoch': 0.42}
+{'loss': 1.481, 'grad_norm': 0.11468899250030518, 'learning_rate': 0.0003292628046519267, 'epoch': 0.42}
+{'loss': 1.4592, 'grad_norm': 0.12484443187713623, 'learning_rate': 0.0003290661358550677, 'epoch': 0.42}
+{'loss': 1.4881, 'grad_norm': 0.11164715886116028, 'learning_rate': 0.0003288694126743154, 'epoch': 0.42}
+{'loss': 1.4864, 'grad_norm': 0.12001016736030579, 'learning_rate': 0.00032867263524498163, 'epoch': 0.42}
+{'loss': 1.4841, 'grad_norm': 0.10505043715238571, 'learning_rate': 0.00032847580370241544, 'epoch': 0.42}
+{'loss': 1.4859, 'grad_norm': 0.12007724493741989, 'learning_rate': 0.0003282789181820029, 'epoch': 0.42}
+{'loss': 1.4901, 'grad_norm': 0.1085573211312294, 'learning_rate': 0.0003280819788191675, 'epoch': 0.42}
+{'loss': 1.5089, 'grad_norm': 0.10782230645418167, 'learning_rate': 0.0003278849857493696, 'epoch': 0.42}
+{'loss': 1.4819, 'grad_norm': 0.11746326088905334, 'learning_rate': 0.00032768793910810645, 'epoch': 0.42}
+{'loss': 1.4732, 'grad_norm': 0.10921087116003036, 'learning_rate': 0.00032749083903091234, 'epoch': 0.42}
+{'loss': 1.491, 'grad_norm': 0.11395810544490814, 'learning_rate': 0.0003272936856533581, 'epoch': 0.42}
+{'loss': 1.4709, 'grad_norm': 0.11919079720973969, 'learning_rate': 0.0003270964791110513, 'epoch': 0.42}
+{'loss': 1.4502, 'grad_norm': 0.11705580353736877, 'learning_rate': 0.0003268992195396363, 'epoch': 0.42}
+{'loss': 1.4896, 'grad_norm': 0.128993421792984, 'learning_rate': 0.0003267019070747935, 'epoch': 0.42}
+{'loss': 1.4791, 'grad_norm': 0.12816289067268372, 'learning_rate': 0.0003265045418522401, 'epoch': 0.42}
+{'loss': 1.4848, 'grad_norm': 0.12016099691390991, 'learning_rate': 0.00032630712400772923, 'epoch': 0.42}
+{'loss': 1.4667, 'grad_norm': 0.11528203636407852, 'learning_rate': 0.0003261096536770505, 'epoch': 0.42}
+{'loss': 1.4671, 'grad_norm': 0.1102675199508667, 'learning_rate': 0.0003259121309960295, 'epoch': 0.42}
+{'loss': 1.4674, 'grad_norm': 0.10320857912302017, 'learning_rate': 0.00032571455610052783, 'epoch': 0.42}
+{'loss': 1.4906, 'grad_norm': 0.12374694645404816, 'learning_rate': 0.00032551692912644297, 'epoch': 0.42}
+{'loss': 1.4905, 'grad_norm': 0.10491222888231277, 'learning_rate': 0.00032531925020970833, 'epoch': 0.42}
+{'loss': 1.4577, 'grad_norm': 0.11808589845895767, 'learning_rate': 0.00032512151948629295, 'epoch': 0.42}
+{'loss': 1.4752, 'grad_norm': 0.11989367008209229, 'learning_rate': 0.0003249237370922015, 'epoch': 0.42}
+{'loss': 1.479, 'grad_norm': 0.12909749150276184, 'learning_rate': 0.0003247259031634743, 'epoch': 0.42}
+{'loss': 1.487, 'grad_norm': 0.11771634221076965, 'learning_rate': 0.0003245280178361869, 'epoch': 0.42}
+{'loss': 1.4915, 'grad_norm': 0.10620877891778946, 'learning_rate': 0.0003243300812464506, 'epoch': 0.42}
+{'loss': 1.4902, 'grad_norm': 0.11636799573898315, 'learning_rate': 0.00032413209353041153, 'epoch': 0.42}
+{'loss': 1.4913, 'grad_norm': 0.12401661276817322, 'learning_rate': 0.0003239340548242511, 'epoch': 0.42}
+{'loss': 1.4719, 'grad_norm': 0.11514877527952194, 'learning_rate': 0.00032373596526418604, 'epoch': 0.42}
+{'loss': 1.4704, 'grad_norm': 0.110685333609581, 'learning_rate': 0.0003235378249864678, 'epoch': 0.42}
+{'loss': 1.493, 'grad_norm': 0.10703699290752411, 'learning_rate': 0.00032333963412738267, 'epoch': 0.42}
+{'loss': 1.4533, 'grad_norm': 0.12470019608736038, 'learning_rate': 0.00032314139282325194, 'epoch': 0.42}
+{'loss': 1.4589, 'grad_norm': 0.11683737486600876, 'learning_rate': 0.00032294310121043165, 'epoch': 0.42}
+{'loss': 1.4836, 'grad_norm': 0.1120573878288269, 'learning_rate': 0.0003227447594253121, 'epoch': 0.42}
+{'loss': 1.4655, 'grad_norm': 0.13595974445343018, 'learning_rate': 0.00032254636760431835, 'epoch': 0.42}
+{'loss': 1.4793, 'grad_norm': 0.1251661628484726, 'learning_rate': 0.0003223479258839098, 'epoch': 0.42}
+{'loss': 1.4688, 'grad_norm': 0.1479194164276123, 'learning_rate': 0.0003221494344005803, 'epoch': 0.42}
+{'loss': 1.5096, 'grad_norm': 0.10382041335105896, 'learning_rate': 0.0003219508932908578, 'epoch': 0.42}
+{'loss': 1.4588, 'grad_norm': 0.12647651135921478, 'learning_rate': 0.0003217523026913044, 'epoch': 0.43}
+{'loss': 1.4572, 'grad_norm': 0.09625055640935898, 'learning_rate': 0.00032155366273851617, 'epoch': 0.43}
+{'loss': 1.48, 'grad_norm': 0.12408006191253662, 'learning_rate': 0.0003213549735691233, 'epoch': 0.43}
+{'loss': 1.4717, 'grad_norm': 0.11951975524425507, 'learning_rate': 0.0003211562353197897, 'epoch': 0.43}
+{'loss': 1.5063, 'grad_norm': 0.1015571877360344, 'learning_rate': 0.0003209574481272131, 'epoch': 0.43}
+{'loss': 1.4884, 'grad_norm': 0.12091968953609467, 'learning_rate': 0.00032075861212812486, 'epoch': 0.43}
+{'loss': 1.4782, 'grad_norm': 0.09361428022384644, 'learning_rate': 0.00032055972745928996, 'epoch': 0.43}
+{'loss': 1.4762, 'grad_norm': 0.10913993418216705, 'learning_rate': 0.0003203607942575069, 'epoch': 0.43}
+{'loss': 1.4892, 'grad_norm': 0.11927895992994308, 'learning_rate': 0.0003201618126596072, 'epoch': 0.43}
+{'loss': 1.464, 'grad_norm': 0.09670710563659668, 'learning_rate': 0.00031996278280245624, 'epoch': 0.43}
+{'loss': 1.4983, 'grad_norm': 0.1293891966342926, 'learning_rate': 0.00031976370482295215, 'epoch': 0.43}
+{'loss': 1.469, 'grad_norm': 0.10087187588214874, 'learning_rate': 0.00031956457885802645, 'epoch': 0.43}
+{'loss': 1.4788, 'grad_norm': 0.11617691814899445, 'learning_rate': 0.0003193654050446433, 'epoch': 0.43}
+{'loss': 1.4751, 'grad_norm': 0.11872346699237823, 'learning_rate': 0.00031916618351980034, 'epoch': 0.43}
+{'loss': 1.5035, 'grad_norm': 0.11447066068649292, 'learning_rate': 0.00031896691442052737, 'epoch': 0.43}
+{'loss': 1.4646, 'grad_norm': 0.11610651761293411, 'learning_rate': 0.00031876759788388744, 'epoch': 0.43}
+{'loss': 1.5016, 'grad_norm': 0.11004680395126343, 'learning_rate': 0.0003185682340469759, 'epoch': 0.43}
+{'loss': 1.4772, 'grad_norm': 0.13576030731201172, 'learning_rate': 0.0003183688230469208, 'epoch': 0.43}
+{'loss': 1.4936, 'grad_norm': 0.10607118904590607, 'learning_rate': 0.00031816936502088264, 'epoch': 0.43}
+{'loss': 1.4787, 'grad_norm': 0.13248583674430847, 'learning_rate': 0.0003179698601060541, 'epoch': 0.43}
+{'loss': 1.4946, 'grad_norm': 0.11834017187356949, 'learning_rate': 0.0003177703084396603, 'epoch': 0.43}
+{'loss': 1.489, 'grad_norm': 0.10137704014778137, 'learning_rate': 0.0003175707101589585, 'epoch': 0.43}
+{'loss': 1.4736, 'grad_norm': 0.11524064093828201, 'learning_rate': 0.00031737106540123786, 'epoch': 0.43}
+{'loss': 1.4865, 'grad_norm': 0.1318112313747406, 'learning_rate': 0.0003171713743038196, 'epoch': 0.43}
+{'loss': 1.5148, 'grad_norm': 0.1025625467300415, 'learning_rate': 0.00031697163700405685, 'epoch': 0.43}
+{'loss': 1.485, 'grad_norm': 0.12485840171575546, 'learning_rate': 0.0003167718536393346, 'epoch': 0.43}
+{'loss': 1.4703, 'grad_norm': 0.11713150888681412, 'learning_rate': 0.00031657202434706933, 'epoch': 0.43}
+{'loss': 1.5041, 'grad_norm': 0.11715780198574066, 'learning_rate': 0.00031637214926470914, 'epoch': 0.43}
+{'loss': 1.467, 'grad_norm': 0.1323363482952118, 'learning_rate': 0.0003161722285297338, 'epoch': 0.43}
+{'loss': 1.4601, 'grad_norm': 0.11034806072711945, 'learning_rate': 0.0003159722622796543, 'epoch': 0.43}
+{'loss': 1.4742, 'grad_norm': 0.1268293708562851, 'learning_rate': 0.00031577225065201306, 'epoch': 0.43}
+{'loss': 1.455, 'grad_norm': 0.12399350106716156, 'learning_rate': 0.0003155721937843836, 'epoch': 0.43}
+{'loss': 1.4717, 'grad_norm': 0.1005186140537262, 'learning_rate': 0.0003153720918143705, 'epoch': 0.43}
+{'loss': 1.483, 'grad_norm': 0.11559666693210602, 'learning_rate': 0.0003151719448796098, 'epoch': 0.43}
+{'loss': 1.4754, 'grad_norm': 0.09722550213336945, 'learning_rate': 0.00031497175311776785, 'epoch': 0.43}
+{'loss': 1.4767, 'grad_norm': 0.12023774534463882, 'learning_rate': 0.00031477151666654227, 'epoch': 0.43}
+{'loss': 1.4641, 'grad_norm': 0.11854889988899231, 'learning_rate': 0.00031457123566366115, 'epoch': 0.43}
+{'loss': 1.4892, 'grad_norm': 0.11095640063285828, 'learning_rate': 0.00031437091024688347, 'epoch': 0.43}
+{'loss': 1.4706, 'grad_norm': 0.11757752299308777, 'learning_rate': 0.00031417054055399865, 'epoch': 0.43}
+{'loss': 1.4776, 'grad_norm': 0.09813801944255829, 'learning_rate': 0.00031397012672282636, 'epoch': 0.44}
+{'loss': 1.4977, 'grad_norm': 0.0980236828327179, 'learning_rate': 0.0003137696688912171, 'epoch': 0.44}
+{'loss': 1.471, 'grad_norm': 0.09490156173706055, 'learning_rate': 0.0003135691671970512, 'epoch': 0.44}
+{'loss': 1.4859, 'grad_norm': 0.10663796216249466, 'learning_rate': 0.0003133686217782393, 'epoch': 0.44}
+{'loss': 1.4718, 'grad_norm': 0.10130159556865692, 'learning_rate': 0.0003131680327727221, 'epoch': 0.44}
+{'loss': 1.4791, 'grad_norm': 0.1087929978966713, 'learning_rate': 0.00031296740031847047, 'epoch': 0.44}
+{'loss': 1.4728, 'grad_norm': 0.10689453780651093, 'learning_rate': 0.000312766724553485, 'epoch': 0.44}
+{'loss': 1.4778, 'grad_norm': 0.09876851737499237, 'learning_rate': 0.0003125660056157958, 'epoch': 0.44}
+{'loss': 1.473, 'grad_norm': 0.11671560257673264, 'learning_rate': 0.00031236524364346326, 'epoch': 0.44}
+{'loss': 1.4919, 'grad_norm': 0.10368052870035172, 'learning_rate': 0.0003121644387745769, 'epoch': 0.44}
+{'loss': 1.4837, 'grad_norm': 0.11262961477041245, 'learning_rate': 0.000311963591147256, 'epoch': 0.44}
+{'loss': 1.4919, 'grad_norm': 0.10824555903673172, 'learning_rate': 0.00031176270089964907, 'epoch': 0.44}
+{'loss': 1.4892, 'grad_norm': 0.11418884992599487, 'learning_rate': 0.0003115617681699341, 'epoch': 0.44}
+{'loss': 1.4688, 'grad_norm': 0.105660080909729, 'learning_rate': 0.0003113607930963182, 'epoch': 0.44}
+{'loss': 1.496, 'grad_norm': 0.12864960730075836, 'learning_rate': 0.0003111597758170376, 'epoch': 0.44}
+{'loss': 1.4752, 'grad_norm': 0.10900801420211792, 'learning_rate': 0.0003109587164703576, 'epoch': 0.44}
+{'loss': 1.4691, 'grad_norm': 0.12813574075698853, 'learning_rate': 0.00031075761519457247, 'epoch': 0.44}
+{'loss': 1.467, 'grad_norm': 0.11435965448617935, 'learning_rate': 0.0003105564721280053, 'epoch': 0.44}
+{'loss': 1.484, 'grad_norm': 0.12117153406143188, 'learning_rate': 0.0003103552874090079, 'epoch': 0.44}
+{'loss': 1.5102, 'grad_norm': 0.13687439262866974, 'learning_rate': 0.0003101540611759605, 'epoch': 0.44}
+{'loss': 1.4677, 'grad_norm': 0.1326213777065277, 'learning_rate': 0.00030995279356727234, 'epoch': 0.44}
+{'loss': 1.4636, 'grad_norm': 0.13491058349609375, 'learning_rate': 0.00030975148472138085, 'epoch': 0.44}
+{'loss': 1.4482, 'grad_norm': 0.11091665178537369, 'learning_rate': 0.000309550134776752, 'epoch': 0.44}
+{'loss': 1.4701, 'grad_norm': 0.16512304544448853, 'learning_rate': 0.0003093487438718796, 'epoch': 0.44}
+{'loss': 1.4675, 'grad_norm': 0.12004148960113525, 'learning_rate': 0.00030914731214528614, 'epoch': 0.44}
+{'loss': 1.4659, 'grad_norm': 0.14085155725479126, 'learning_rate': 0.000308945839735522, 'epoch': 0.44}
+{'loss': 1.4811, 'grad_norm': 0.14535480737686157, 'learning_rate': 0.0003087443267811654, 'epoch': 0.44}
+{'loss': 1.4813, 'grad_norm': 0.12397401034832001, 'learning_rate': 0.0003085427734208226, 'epoch': 0.44}
+{'loss': 1.4797, 'grad_norm': 0.12292053550481796, 'learning_rate': 0.00030834117979312766, 'epoch': 0.44}
+{'loss': 1.4888, 'grad_norm': 0.10419702529907227, 'learning_rate': 0.0003081395460367423, 'epoch': 0.44}
+{'loss': 1.478, 'grad_norm': 0.12420931458473206, 'learning_rate': 0.0003079378722903559, 'epoch': 0.44}
+{'loss': 1.4876, 'grad_norm': 0.12123307585716248, 'learning_rate': 0.00030773615869268505, 'epoch': 0.44}
+{'loss': 1.4683, 'grad_norm': 0.08943233639001846, 'learning_rate': 0.0003075344053824742, 'epoch': 0.44}
+{'loss': 1.4771, 'grad_norm': 0.12287605553865433, 'learning_rate': 0.0003073326124984949, 'epoch': 0.44}
+{'loss': 1.484, 'grad_norm': 0.1301567703485489, 'learning_rate': 0.00030713078017954594, 'epoch': 0.44}
+{'loss': 1.4818, 'grad_norm': 0.12390006333589554, 'learning_rate': 0.000306928908564453, 'epoch': 0.44}
+{'loss': 1.4882, 'grad_norm': 0.10921990871429443, 'learning_rate': 0.00030672699779206924, 'epoch': 0.44}
+{'loss': 1.4796, 'grad_norm': 0.12264915555715561, 'learning_rate': 0.0003065250480012745, 'epoch': 0.44}
+{'loss': 1.475, 'grad_norm': 0.1353391855955124, 'learning_rate': 0.00030632305933097536, 'epoch': 0.44}
+{'loss': 1.493, 'grad_norm': 0.1010441780090332, 'learning_rate': 0.00030612103192010525, 'epoch': 0.45}
+{'loss': 1.4842, 'grad_norm': 0.14101079106330872, 'learning_rate': 0.0003059189659076244, 'epoch': 0.45}
+{'loss': 1.5124, 'grad_norm': 0.11921074986457825, 'learning_rate': 0.00030571686143251943, 'epoch': 0.45}
+{'loss': 1.4859, 'grad_norm': 0.11307244002819061, 'learning_rate': 0.00030551471863380324, 'epoch': 0.45}
+{'loss': 1.4687, 'grad_norm': 0.11282927542924881, 'learning_rate': 0.00030531253765051555, 'epoch': 0.45}
+{'loss': 1.4787, 'grad_norm': 0.11241172254085541, 'learning_rate': 0.00030511031862172187, 'epoch': 0.45}
+{'loss': 1.4786, 'grad_norm': 0.09664022922515869, 'learning_rate': 0.0003049080616865142, 'epoch': 0.45}
+{'loss': 1.4854, 'grad_norm': 0.10172466188669205, 'learning_rate': 0.00030470576698401043, 'epoch': 0.45}
+{'loss': 1.4724, 'grad_norm': 0.12265833467245102, 'learning_rate': 0.00030450343465335456, 'epoch': 0.45}
+{'loss': 1.48, 'grad_norm': 0.09568174183368683, 'learning_rate': 0.00030430106483371645, 'epoch': 0.45}
+{'loss': 1.4984, 'grad_norm': 0.10347745567560196, 'learning_rate': 0.0003040986576642916, 'epoch': 0.45}
+{'loss': 1.4881, 'grad_norm': 0.12896718084812164, 'learning_rate': 0.00030389621328430136, 'epoch': 0.45}
+{'loss': 1.4934, 'grad_norm': 0.10951691120862961, 'learning_rate': 0.00030369373183299254, 'epoch': 0.45}
+{'loss': 1.4769, 'grad_norm': 0.13073331117630005, 'learning_rate': 0.00030349121344963766, 'epoch': 0.45}
+{'loss': 1.4951, 'grad_norm': 0.09852580726146698, 'learning_rate': 0.0003032886582735344, 'epoch': 0.45}
+{'loss': 1.4592, 'grad_norm': 0.11123869568109512, 'learning_rate': 0.00030308606644400594, 'epoch': 0.45}
+{'loss': 1.4753, 'grad_norm': 0.13388361036777496, 'learning_rate': 0.0003028834381004005, 'epoch': 0.45}
+{'loss': 1.4859, 'grad_norm': 0.1168285682797432, 'learning_rate': 0.0003026807733820917, 'epoch': 0.45}
+{'loss': 1.4837, 'grad_norm': 0.13920585811138153, 'learning_rate': 0.0003024780724284777, 'epoch': 0.45}
+{'loss': 1.4743, 'grad_norm': 0.10690651088953018, 'learning_rate': 0.0003022753353789821, 'epoch': 0.45}
+{'loss': 1.4838, 'grad_norm': 0.1352282017469406, 'learning_rate': 0.000302072562373053, 'epoch': 0.45}
+{'loss': 1.4851, 'grad_norm': 0.11037737876176834, 'learning_rate': 0.0003018697535501633, 'epoch': 0.45}
+{'loss': 1.4736, 'grad_norm': 0.09983405470848083, 'learning_rate': 0.00030166690904981065, 'epoch': 0.45}
+{'loss': 1.4697, 'grad_norm': 0.11951609700918198, 'learning_rate': 0.0003014640290115171, 'epoch': 0.45}
+{'loss': 1.4937, 'grad_norm': 0.10340005904436111, 'learning_rate': 0.0003012611135748292, 'epoch': 0.45}
+{'loss': 1.4731, 'grad_norm': 0.1331241875886917, 'learning_rate': 0.0003010581628793179, 'epoch': 0.45}
+{'loss': 1.4789, 'grad_norm': 0.12791354954242706, 'learning_rate': 0.00030085517706457827, 'epoch': 0.45}
+{'loss': 1.5085, 'grad_norm': 0.13139069080352783, 'learning_rate': 0.0003006521562702295, 'epoch': 0.45}
+{'loss': 1.4655, 'grad_norm': 0.135459303855896, 'learning_rate': 0.0003004491006359153, 'epoch': 0.45}
+{'loss': 1.4811, 'grad_norm': 0.10763111710548401, 'learning_rate': 0.0003002460103013028, 'epoch': 0.45}
+{'loss': 1.4611, 'grad_norm': 0.14755186438560486, 'learning_rate': 0.000300042885406083, 'epoch': 0.45}
+{'loss': 1.4833, 'grad_norm': 0.10504093021154404, 'learning_rate': 0.00029983972608997123, 'epoch': 0.45}
+{'loss': 1.4763, 'grad_norm': 0.12045205384492874, 'learning_rate': 0.0002996365324927059, 'epoch': 0.45}
+{'loss': 1.4764, 'grad_norm': 0.11750216037034988, 'learning_rate': 0.00029943330475404935, 'epoch': 0.45}
+{'loss': 1.489, 'grad_norm': 0.1224765032529831, 'learning_rate': 0.0002992300430137872, 'epoch': 0.45}
+{'loss': 1.4683, 'grad_norm': 0.11513195186853409, 'learning_rate': 0.0002990267474117285, 'epoch': 0.45}
+{'loss': 1.502, 'grad_norm': 0.11633650213479996, 'learning_rate': 0.0002988234180877059, 'epoch': 0.45}
+{'loss': 1.4852, 'grad_norm': 0.11351056396961212, 'learning_rate': 0.00029862005518157457, 'epoch': 0.45}
+{'loss': 1.4673, 'grad_norm': 0.10719077289104462, 'learning_rate': 0.00029841665883321354, 'epoch': 0.45}
+{'loss': 1.4543, 'grad_norm': 0.12146337330341339, 'learning_rate': 0.00029821322918252433, 'epoch': 0.46}
+{'loss': 1.4805, 'grad_norm': 0.10923673212528229, 'learning_rate': 0.0002980097663694316, 'epoch': 0.46}
+{'loss': 1.4979, 'grad_norm': 0.11020327359437943, 'learning_rate': 0.00029780627053388264, 'epoch': 0.46}
+{'loss': 1.4826, 'grad_norm': 0.1282222718000412, 'learning_rate': 0.00029760274181584763, 'epoch': 0.46}
+{'loss': 1.4821, 'grad_norm': 0.10070189833641052, 'learning_rate': 0.0002973991803553193, 'epoch': 0.46}
+{'loss': 1.5026, 'grad_norm': 0.1338949352502823, 'learning_rate': 0.00029719558629231287, 'epoch': 0.46}
+{'loss': 1.4855, 'grad_norm': 0.10698045045137405, 'learning_rate': 0.0002969919597668661, 'epoch': 0.46}
+{'loss': 1.4734, 'grad_norm': 0.11018472164869308, 'learning_rate': 0.00029678830091903885, 'epoch': 0.46}
+{'loss': 1.5007, 'grad_norm': 0.10910321772098541, 'learning_rate': 0.0002965846098889134, 'epoch': 0.46}
+{'loss': 1.4452, 'grad_norm': 0.10818206518888474, 'learning_rate': 0.0002963808868165943, 'epoch': 0.46}
+{'loss': 1.4871, 'grad_norm': 0.10656886547803879, 'learning_rate': 0.0002961771318422077, 'epoch': 0.46}
+{'loss': 1.5009, 'grad_norm': 0.13069939613342285, 'learning_rate': 0.0002959733451059021, 'epoch': 0.46}
+{'loss': 1.5005, 'grad_norm': 0.10583922266960144, 'learning_rate': 0.00029576952674784763, 'epoch': 0.46}
+{'loss': 1.4861, 'grad_norm': 0.1255834400653839, 'learning_rate': 0.0002955656769082363, 'epoch': 0.46}
+{'loss': 1.4924, 'grad_norm': 0.12648916244506836, 'learning_rate': 0.0002953617957272817, 'epoch': 0.46}
+{'loss': 1.4906, 'grad_norm': 0.10360376536846161, 'learning_rate': 0.00029515788334521896, 'epoch': 0.46}
+{'loss': 1.4746, 'grad_norm': 0.11267195641994476, 'learning_rate': 0.00029495393990230484, 'epoch': 0.46}
+{'loss': 1.4717, 'grad_norm': 0.11634371429681778, 'learning_rate': 0.0002947499655388171, 'epoch': 0.46}
+{'loss': 1.4844, 'grad_norm': 0.1063932254910469, 'learning_rate': 0.0002945459603950552, 'epoch': 0.46}
+{'loss': 1.4734, 'grad_norm': 0.10119267553091049, 'learning_rate': 0.00029434192461133936, 'epoch': 0.46}
+{'loss': 1.4885, 'grad_norm': 0.11999841034412384, 'learning_rate': 0.00029413785832801124, 'epoch': 0.46}
+{'loss': 1.4788, 'grad_norm': 0.10804448276758194, 'learning_rate': 0.00029393376168543333, 'epoch': 0.46}
+{'loss': 1.4864, 'grad_norm': 0.09580836445093155, 'learning_rate': 0.0002937296348239889, 'epoch': 0.46}
+{'loss': 1.4355, 'grad_norm': 0.11530754715204239, 'learning_rate': 0.0002935254778840821, 'epoch': 0.46}
+{'loss': 1.4815, 'grad_norm': 0.13334795832633972, 'learning_rate': 0.0002933212910061379, 'epoch': 0.46}
+{'loss': 1.4514, 'grad_norm': 0.10847148299217224, 'learning_rate': 0.00029311707433060164, 'epoch': 0.46}
+{'loss': 1.4829, 'grad_norm': 0.12509897351264954, 'learning_rate': 0.0002929128279979392, 'epoch': 0.46}
+{'loss': 1.4701, 'grad_norm': 0.10921335965394974, 'learning_rate': 0.0002927085521486369, 'epoch': 0.46}
+{'loss': 1.4939, 'grad_norm': 0.12339125573635101, 'learning_rate': 0.0002925042469232014, 'epoch': 0.46}
+{'loss': 1.4791, 'grad_norm': 0.12364333122968674, 'learning_rate': 0.0002922999124621596, 'epoch': 0.46}
+{'loss': 1.522, 'grad_norm': 0.10741409659385681, 'learning_rate': 0.00029209554890605844, 'epoch': 0.46}
+{'loss': 1.4766, 'grad_norm': 0.13228380680084229, 'learning_rate': 0.00029189115639546463, 'epoch': 0.46}
+{'loss': 1.45, 'grad_norm': 0.11556030064821243, 'learning_rate': 0.0002916867350709654, 'epoch': 0.46}
+{'loss': 1.4647, 'grad_norm': 0.10642652213573456, 'learning_rate': 0.00029148228507316714, 'epoch': 0.46}
+{'loss': 1.4758, 'grad_norm': 0.1305464208126068, 'learning_rate': 0.00029127780654269656, 'epoch': 0.46}
+{'loss': 1.4907, 'grad_norm': 0.11168721318244934, 'learning_rate': 0.0002910732996201993, 'epoch': 0.46}
+{'loss': 1.4779, 'grad_norm': 0.12309792637825012, 'learning_rate': 0.00029086876444634125, 'epoch': 0.46}
+{'loss': 1.4667, 'grad_norm': 0.12284751236438751, 'learning_rate': 0.0002906642011618073, 'epoch': 0.46}
+{'loss': 1.4709, 'grad_norm': 0.1211024820804596, 'learning_rate': 0.00029045960990730177, 'epoch': 0.46}
+{'loss': 1.5203, 'grad_norm': 0.11121907830238342, 'learning_rate': 0.0002902549908235482, 'epoch': 0.47}
+{'loss': 1.4937, 'grad_norm': 0.10730580985546112, 'learning_rate': 0.0002900503440512894, 'epoch': 0.47}
+{'loss': 1.4889, 'grad_norm': 0.12323647737503052, 'learning_rate': 0.00028984566973128703, 'epoch': 0.47}
+{'loss': 1.4787, 'grad_norm': 0.09810015559196472, 'learning_rate': 0.0002896409680043218, 'epoch': 0.47}
+{'loss': 1.469, 'grad_norm': 0.10913316160440445, 'learning_rate': 0.0002894362390111934, 'epoch': 0.47}
+{'loss': 1.4794, 'grad_norm': 0.10845201462507248, 'learning_rate': 0.00028923148289271993, 'epoch': 0.47}
+{'loss': 1.4947, 'grad_norm': 0.09646334499120712, 'learning_rate': 0.00028902669978973853, 'epoch': 0.47}
+{'loss': 1.463, 'grad_norm': 0.10084371268749237, 'learning_rate': 0.00028882188984310467, 'epoch': 0.47}
+{'loss': 1.4883, 'grad_norm': 0.12907201051712036, 'learning_rate': 0.00028861705319369236, 'epoch': 0.47}
+{'loss': 1.4891, 'grad_norm': 0.10470334440469742, 'learning_rate': 0.00028841218998239396, 'epoch': 0.47}
+{'loss': 1.4838, 'grad_norm': 0.12936745584011078, 'learning_rate': 0.00028820730035012, 'epoch': 0.47}
+{'loss': 1.4819, 'grad_norm': 0.11541248857975006, 'learning_rate': 0.00028800238443779934, 'epoch': 0.47}
+{'loss': 1.4581, 'grad_norm': 0.10188242048025131, 'learning_rate': 0.000287797442386379, 'epoch': 0.47}
+{'loss': 1.4829, 'grad_norm': 0.13739468157291412, 'learning_rate': 0.0002875924743368236, 'epoch': 0.47}
+{'loss': 1.4747, 'grad_norm': 0.11430296301841736, 'learning_rate': 0.00028738748043011616, 'epoch': 0.47}
+{'loss': 1.4802, 'grad_norm': 0.11717133969068527, 'learning_rate': 0.0002871824608072569, 'epoch': 0.47}
+{'loss': 1.5022, 'grad_norm': 0.13721372187137604, 'learning_rate': 0.00028697741560926424, 'epoch': 0.47}
+{'loss': 1.4772, 'grad_norm': 0.1276608109474182, 'learning_rate': 0.00028677234497717397, 'epoch': 0.47}
+{'loss': 1.4847, 'grad_norm': 0.13529659807682037, 'learning_rate': 0.00028656724905203924, 'epoch': 0.47}
+{'loss': 1.4708, 'grad_norm': 0.10995054244995117, 'learning_rate': 0.0002863621279749309, 'epoch': 0.47}
+{'loss': 1.4486, 'grad_norm': 0.12759724259376526, 'learning_rate': 0.00028615698188693697, 'epoch': 0.47}
+{'loss': 1.4584, 'grad_norm': 0.12093440443277359, 'learning_rate': 0.0002859518109291625, 'epoch': 0.47}
+{'loss': 1.4675, 'grad_norm': 0.12222199887037277, 'learning_rate': 0.00028574661524272994, 'epoch': 0.47}
+{'loss': 1.4651, 'grad_norm': 0.11595451831817627, 'learning_rate': 0.0002855413949687784, 'epoch': 0.47}
+{'loss': 1.4902, 'grad_norm': 0.1279744803905487, 'learning_rate': 0.00028533615024846435, 'epoch': 0.47}
+{'loss': 1.485, 'grad_norm': 0.13940688967704773, 'learning_rate': 0.0002851308812229608, 'epoch': 0.47}
+{'loss': 1.4812, 'grad_norm': 0.1390136033296585, 'learning_rate': 0.0002849255880334574, 'epoch': 0.47}
+{'loss': 1.4839, 'grad_norm': 0.11033672094345093, 'learning_rate': 0.00028472027082116055, 'epoch': 0.47}
+{'loss': 1.4657, 'grad_norm': 0.12245742976665497, 'learning_rate': 0.00028451492972729307, 'epoch': 0.47}
+{'loss': 1.4785, 'grad_norm': 0.12208680063486099, 'learning_rate': 0.00028430956489309455, 'epoch': 0.47}
+{'loss': 1.4896, 'grad_norm': 0.1069803461432457, 'learning_rate': 0.00028410417645982047, 'epoch': 0.47}
+{'loss': 1.4836, 'grad_norm': 0.12867067754268646, 'learning_rate': 0.0002838987645687427, 'epoch': 0.47}
+{'loss': 1.4657, 'grad_norm': 0.11885853856801987, 'learning_rate': 0.00028369332936114937, 'epoch': 0.47}
+{'loss': 1.469, 'grad_norm': 0.12414639443159103, 'learning_rate': 0.0002834878709783445, 'epoch': 0.47}
+{'loss': 1.5116, 'grad_norm': 0.1313270926475525, 'learning_rate': 0.000283282389561648, 'epoch': 0.47}
+{'loss': 1.4564, 'grad_norm': 0.11047551780939102, 'learning_rate': 0.0002830768852523959, 'epoch': 0.47}
+{'loss': 1.4765, 'grad_norm': 0.11522917449474335, 'learning_rate': 0.0002828713581919397, 'epoch': 0.47}
+{'loss': 1.4642, 'grad_norm': 0.13793711364269257, 'learning_rate': 0.0002826658085216466, 'epoch': 0.47}
+{'loss': 1.4865, 'grad_norm': 0.11916612833738327, 'learning_rate': 0.0002824602363828994, 'epoch': 0.47}
+{'loss': 1.4655, 'grad_norm': 0.11749139428138733, 'learning_rate': 0.0002822546419170965, 'epoch': 0.48}
+{'loss': 1.4591, 'grad_norm': 0.11636258661746979, 'learning_rate': 0.0002820490252656513, 'epoch': 0.48}
+{'loss': 1.512, 'grad_norm': 0.14852465689182281, 'learning_rate': 0.0002818433865699928, 'epoch': 0.48}
+{'loss': 1.4695, 'grad_norm': 0.10709094256162643, 'learning_rate': 0.00028163772597156493, 'epoch': 0.48}
+{'loss': 1.4529, 'grad_norm': 0.1006891056895256, 'learning_rate': 0.00028143204361182696, 'epoch': 0.48}
+{'loss': 1.4699, 'grad_norm': 0.13096050918102264, 'learning_rate': 0.0002812263396322528, 'epoch': 0.48}
+{'loss': 1.4809, 'grad_norm': 0.11987989395856857, 'learning_rate': 0.00028102061417433144, 'epoch': 0.48}
+{'loss': 1.4613, 'grad_norm': 0.11597207188606262, 'learning_rate': 0.0002808148673795665, 'epoch': 0.48}
+{'loss': 1.4681, 'grad_norm': 0.11968564987182617, 'learning_rate': 0.0002806090993894765, 'epoch': 0.48}
+{'loss': 1.4842, 'grad_norm': 0.1093645691871643, 'learning_rate': 0.00028040331034559436, 'epoch': 0.48}
+{'loss': 1.4598, 'grad_norm': 0.12579365074634552, 'learning_rate': 0.0002801975003894675, 'epoch': 0.48}
+{'loss': 1.4716, 'grad_norm': 0.11466977000236511, 'learning_rate': 0.0002799916696626577, 'epoch': 0.48}
+{'loss': 1.4627, 'grad_norm': 0.12696252763271332, 'learning_rate': 0.0002797858183067411, 'epoch': 0.48}
+{'loss': 1.4923, 'grad_norm': 0.12533241510391235, 'learning_rate': 0.0002795799464633081, 'epoch': 0.48}
+{'loss': 1.5049, 'grad_norm': 0.11091739684343338, 'learning_rate': 0.000279374054273963, 'epoch': 0.48}
+{'loss': 1.4874, 'grad_norm': 0.11839918047189713, 'learning_rate': 0.00027916814188032405, 'epoch': 0.48}
+{'loss': 1.4677, 'grad_norm': 0.10339438170194626, 'learning_rate': 0.0002789622094240239, 'epoch': 0.48}
+{'loss': 1.4644, 'grad_norm': 0.1121533066034317, 'learning_rate': 0.00027875625704670837, 'epoch': 0.48}
+{'loss': 1.4487, 'grad_norm': 0.10778693854808807, 'learning_rate': 0.00027855028489003736, 'epoch': 0.48}
+{'loss': 1.4675, 'grad_norm': 0.09482889622449875, 'learning_rate': 0.00027834429309568415, 'epoch': 0.48}
+{'loss': 1.5014, 'grad_norm': 0.10401751846075058, 'learning_rate': 0.00027813828180533567, 'epoch': 0.48}
+{'loss': 1.487, 'grad_norm': 0.11774768680334091, 'learning_rate': 0.0002779322511606924, 'epoch': 0.48}
+{'loss': 1.4909, 'grad_norm': 0.10089012235403061, 'learning_rate': 0.0002777262013034677, 'epoch': 0.48}
+{'loss': 1.4948, 'grad_norm': 0.1112491562962532, 'learning_rate': 0.00027752013237538855, 'epoch': 0.48}
+{'loss': 1.4933, 'grad_norm': 0.09615898877382278, 'learning_rate': 0.0002773140445181949, 'epoch': 0.48}
+{'loss': 1.4986, 'grad_norm': 0.09723377227783203, 'learning_rate': 0.0002771079378736398, 'epoch': 0.48}
+{'loss': 1.4791, 'grad_norm': 0.12343946844339371, 'learning_rate': 0.00027690181258348896, 'epoch': 0.48}
+{'loss': 1.453, 'grad_norm': 0.12056571990251541, 'learning_rate': 0.00027669566878952125, 'epoch': 0.48}
+{'loss': 1.4774, 'grad_norm': 0.10676094144582748, 'learning_rate': 0.00027648950663352814, 'epoch': 0.48}
+{'loss': 1.4769, 'grad_norm': 0.10225627571344376, 'learning_rate': 0.00027628332625731353, 'epoch': 0.48}
+{'loss': 1.4401, 'grad_norm': 0.11934181302785873, 'learning_rate': 0.0002760771278026942, 'epoch': 0.48}
+{'loss': 1.4654, 'grad_norm': 0.10875316709280014, 'learning_rate': 0.0002758709114114992, 'epoch': 0.48}
+{'loss': 1.4821, 'grad_norm': 0.11782264709472656, 'learning_rate': 0.0002756646772255698, 'epoch': 0.48}
+{'loss': 1.4667, 'grad_norm': 0.10261189192533493, 'learning_rate': 0.00027545842538675974, 'epoch': 0.48}
+{'loss': 1.4721, 'grad_norm': 0.11750581115484238, 'learning_rate': 0.00027525215603693465, 'epoch': 0.48}
+{'loss': 1.4608, 'grad_norm': 0.10455111414194107, 'learning_rate': 0.00027504586931797255, 'epoch': 0.48}
+{'loss': 1.4569, 'grad_norm': 0.1398959457874298, 'learning_rate': 0.00027483956537176294, 'epoch': 0.48}
+{'loss': 1.4711, 'grad_norm': 0.10002094507217407, 'learning_rate': 0.0002746332443402077, 'epoch': 0.48}
+{'loss': 1.4667, 'grad_norm': 0.12243480235338211, 'learning_rate': 0.00027442690636521994, 'epoch': 0.48}
+{'loss': 1.4799, 'grad_norm': 0.1153986006975174, 'learning_rate': 0.0002742205515887248, 'epoch': 0.49}
+{'loss': 1.471, 'grad_norm': 0.11195157468318939, 'learning_rate': 0.0002740141801526589, 'epoch': 0.49}
+{'loss': 1.4574, 'grad_norm': 0.12038632482290268, 'learning_rate': 0.0002738077921989701, 'epoch': 0.49}
+{'loss': 1.4643, 'grad_norm': 0.11948662996292114, 'learning_rate': 0.000273601387869618, 'epoch': 0.49}
+{'loss': 1.4697, 'grad_norm': 0.11617347598075867, 'learning_rate': 0.00027339496730657305, 'epoch': 0.49}
+{'loss': 1.4521, 'grad_norm': 0.11335073411464691, 'learning_rate': 0.00027318853065181725, 'epoch': 0.49}
+{'loss': 1.4968, 'grad_norm': 0.1183604970574379, 'learning_rate': 0.0002729820780473434, 'epoch': 0.49}
+{'loss': 1.4598, 'grad_norm': 0.11140904575586319, 'learning_rate': 0.00027277560963515524, 'epoch': 0.49}
+{'loss': 1.4692, 'grad_norm': 0.11006031930446625, 'learning_rate': 0.0002725691255572678, 'epoch': 0.49}
+{'loss': 1.4861, 'grad_norm': 0.09946774691343307, 'learning_rate': 0.0002723626259557063, 'epoch': 0.49}
+{'loss': 1.4739, 'grad_norm': 0.1158561110496521, 'learning_rate': 0.000272156110972507, 'epoch': 0.49}
+{'loss': 1.4967, 'grad_norm': 0.1232684999704361, 'learning_rate': 0.00027194958074971677, 'epoch': 0.49}
+{'loss': 1.4355, 'grad_norm': 0.09845241904258728, 'learning_rate': 0.0002717430354293928, 'epoch': 0.49}
+{'loss': 1.4908, 'grad_norm': 0.12114608287811279, 'learning_rate': 0.00027153647515360267, 'epoch': 0.49}
+{'loss': 1.4803, 'grad_norm': 0.13164842128753662, 'learning_rate': 0.00027132990006442436, 'epoch': 0.49}
+{'loss': 1.4759, 'grad_norm': 0.1025143712759018, 'learning_rate': 0.00027112331030394596, 'epoch': 0.49}
+{'loss': 1.4749, 'grad_norm': 0.1043596863746643, 'learning_rate': 0.0002709167060142656, 'epoch': 0.49}
+{'loss': 1.4639, 'grad_norm': 0.12955071032047272, 'learning_rate': 0.00027071008733749164, 'epoch': 0.49}
+{'loss': 1.462, 'grad_norm': 0.12717890739440918, 'learning_rate': 0.00027050345441574197, 'epoch': 0.49}
+{'loss': 1.4845, 'grad_norm': 0.09811807423830032, 'learning_rate': 0.0002702968073911446, 'epoch': 0.49}
+{'loss': 1.4878, 'grad_norm': 0.11186826229095459, 'learning_rate': 0.0002700901464058371, 'epoch': 0.49}
+{'loss': 1.4842, 'grad_norm': 0.10457193851470947, 'learning_rate': 0.00026988347160196663, 'epoch': 0.49}
+{'loss': 1.4879, 'grad_norm': 0.09700610488653183, 'learning_rate': 0.00026967678312168984, 'epoch': 0.49}
+{'loss': 1.475, 'grad_norm': 0.094756580889225, 'learning_rate': 0.000269470081107173, 'epoch': 0.49}
+{'loss': 1.4578, 'grad_norm': 0.09410934895277023, 'learning_rate': 0.0002692633657005914, 'epoch': 0.49}
+{'loss': 1.4743, 'grad_norm': 0.11274243146181107, 'learning_rate': 0.0002690566370441296, 'epoch': 0.49}
+{'loss': 1.4618, 'grad_norm': 0.10155342519283295, 'learning_rate': 0.0002688498952799814, 'epoch': 0.49}
+{'loss': 1.4657, 'grad_norm': 0.10330218821763992, 'learning_rate': 0.0002686431405503496, 'epoch': 0.49}
+{'loss': 1.491, 'grad_norm': 0.10540875047445297, 'learning_rate': 0.00026843637299744585, 'epoch': 0.49}
+{'loss': 1.4669, 'grad_norm': 0.10097438097000122, 'learning_rate': 0.00026822959276349056, 'epoch': 0.49}
+{'loss': 1.4916, 'grad_norm': 0.10367245227098465, 'learning_rate': 0.000268022799990713, 'epoch': 0.49}
+{'loss': 1.4678, 'grad_norm': 0.12498769909143448, 'learning_rate': 0.00026781599482135097, 'epoch': 0.49}
+{'loss': 1.4754, 'grad_norm': 0.10184291005134583, 'learning_rate': 0.00026760917739765096, 'epoch': 0.49}
+{'loss': 1.4476, 'grad_norm': 0.10659965127706528, 'learning_rate': 0.0002674023478618676, 'epoch': 0.49}
+{'loss': 1.4676, 'grad_norm': 0.11073251068592072, 'learning_rate': 0.00026719550635626407, 'epoch': 0.49}
+{'loss': 1.4859, 'grad_norm': 0.10806646943092346, 'learning_rate': 0.0002669886530231117, 'epoch': 0.49}
+{'loss': 1.4582, 'grad_norm': 0.10519539564847946, 'learning_rate': 0.0002667817880046901, 'epoch': 0.49}
+{'loss': 1.4637, 'grad_norm': 0.09867243468761444, 'learning_rate': 0.00026657491144328673, 'epoch': 0.49}
+{'loss': 1.4618, 'grad_norm': 0.09588871151208878, 'learning_rate': 0.00026636802348119687, 'epoch': 0.49}
+{'loss': 1.4681, 'grad_norm': 0.10587999224662781, 'learning_rate': 0.0002661611242607242, 'epoch': 0.5}
+{'loss': 1.4885, 'grad_norm': 0.11858320981264114, 'learning_rate': 0.00026595421392417947, 'epoch': 0.5}
+{'loss': 1.4803, 'grad_norm': 0.11217830330133438, 'learning_rate': 0.0002657472926138815, 'epoch': 0.5}
+{'loss': 1.4821, 'grad_norm': 0.1081523597240448, 'learning_rate': 0.0002655403604721565, 'epoch': 0.5}
+{'loss': 1.4842, 'grad_norm': 0.09716946631669998, 'learning_rate': 0.0002653334176413382, 'epoch': 0.5}
+{'loss': 1.4962, 'grad_norm': 0.11189936101436615, 'learning_rate': 0.00026512646426376775, 'epoch': 0.5}
+{'loss': 1.4537, 'grad_norm': 0.1119479238986969, 'learning_rate': 0.0002649195004817932, 'epoch': 0.5}
+{'loss': 1.4689, 'grad_norm': 0.09153281152248383, 'learning_rate': 0.00026471252643777023, 'epoch': 0.5}
+{'loss': 1.4585, 'grad_norm': 0.09991999715566635, 'learning_rate': 0.0002645055422740612, 'epoch': 0.5}
+{'loss': 1.4777, 'grad_norm': 0.09546826034784317, 'learning_rate': 0.00026429854813303576, 'epoch': 0.5}
+{'loss': 1.4881, 'grad_norm': 0.09668780118227005, 'learning_rate': 0.00026409154415707014, 'epoch': 0.5}
+{'loss': 1.4547, 'grad_norm': 0.10765296220779419, 'learning_rate': 0.0002638845304885475, 'epoch': 0.5}
+{'loss': 1.4612, 'grad_norm': 0.10647263377904892, 'learning_rate': 0.00026367750726985755, 'epoch': 0.5}
+{'loss': 1.46, 'grad_norm': 0.10501626878976822, 'learning_rate': 0.00026347047464339666, 'epoch': 0.5}
+{'loss': 1.4687, 'grad_norm': 0.10125406086444855, 'learning_rate': 0.0002632634327515677, 'epoch': 0.5}
+{'loss': 1.4966, 'grad_norm': 0.11779548227787018, 'learning_rate': 0.0002630563817367798, 'epoch': 0.5}
+{'loss': 1.4847, 'grad_norm': 0.10509753227233887, 'learning_rate': 0.00026284932174144843, 'epoch': 0.5}
+{'loss': 1.4591, 'grad_norm': 0.09242981672286987, 'learning_rate': 0.0002626422529079953, 'epoch': 0.5}
+{'loss': 1.4848, 'grad_norm': 0.09833275526762009, 'learning_rate': 0.000262435175378848, 'epoch': 0.5}
+{'loss': 1.4587, 'grad_norm': 0.09553489089012146, 'learning_rate': 0.0002622280892964403, 'epoch': 0.5}
+{'loss': 1.4745, 'grad_norm': 0.09373877942562103, 'learning_rate': 0.0002620209948032117, 'epoch': 0.5}
+{'loss': 1.4677, 'grad_norm': 0.09582319855690002, 'learning_rate': 0.00026181389204160774, 'epoch': 0.5}
+{'loss': 1.4993, 'grad_norm': 0.09723783284425735, 'learning_rate': 0.0002616067811540793, 'epoch': 0.5}
+{'loss': 1.491, 'grad_norm': 0.1054263561964035, 'learning_rate': 0.00026139966228308313, 'epoch': 0.5}
+{'loss': 1.4933, 'grad_norm': 0.10423461347818375, 'learning_rate': 0.0002611925355710814, 'epoch': 0.5}
+{'loss': 1.4847, 'grad_norm': 0.09798857569694519, 'learning_rate': 0.00026098540116054156, 'epoch': 0.5}
+{'loss': 1.4702, 'grad_norm': 0.11555708199739456, 'learning_rate': 0.00026077825919393636, 'epoch': 0.5}
+{'loss': 1.4867, 'grad_norm': 0.09595026820898056, 'learning_rate': 0.000260571109813744, 'epoch': 0.5}
+{'loss': 1.4792, 'grad_norm': 0.11687906831502914, 'learning_rate': 0.00026036395316244746, 'epoch': 0.5}
+{'loss': 1.467, 'grad_norm': 0.10420636832714081, 'learning_rate': 0.000260156789382535, 'epoch': 0.5}
+{'loss': 1.474, 'grad_norm': 0.09391005337238312, 'learning_rate': 0.00025994961861649943, 'epoch': 0.5}
+{'loss': 1.4601, 'grad_norm': 0.10685805231332779, 'learning_rate': 0.00025974244100683883, 'epoch': 0.5}
+{'loss': 1.4536, 'grad_norm': 0.11379747837781906, 'learning_rate': 0.0002595352566960555, 'epoch': 0.5}
+{'loss': 1.4968, 'grad_norm': 0.10900747030973434, 'learning_rate': 0.0002593280658266568, 'epoch': 0.5}
+{'loss': 1.4696, 'grad_norm': 0.11068890988826752, 'learning_rate': 0.0002591208685411542, 'epoch': 0.5}
+{'loss': 1.4786, 'grad_norm': 0.10784022510051727, 'learning_rate': 0.0002589136649820639, 'epoch': 0.5}
+{'loss': 1.4691, 'grad_norm': 0.10273153334856033, 'learning_rate': 0.0002587064552919063, 'epoch': 0.5}
+{'loss': 1.4821, 'grad_norm': 0.11540823429822922, 'learning_rate': 0.00025849923961320594, 'epoch': 0.5}
+{'loss': 1.4831, 'grad_norm': 0.1086963415145874, 'learning_rate': 0.0002582920180884915, 'epoch': 0.5}
+{'loss': 1.4687, 'grad_norm': 0.12346106022596359, 'learning_rate': 0.00025808479086029577, 'epoch': 0.51}
+{'loss': 1.4785, 'grad_norm': 0.11804191023111343, 'learning_rate': 0.0002578775580711555, 'epoch': 0.51}
+{'loss': 1.4775, 'grad_norm': 0.10317382961511612, 'learning_rate': 0.00025767031986361107, 'epoch': 0.51}
+{'loss': 1.4577, 'grad_norm': 0.12252066284418106, 'learning_rate': 0.00025746307638020667, 'epoch': 0.51}
+{'loss': 1.4579, 'grad_norm': 0.12243875116109848, 'learning_rate': 0.0002572558277634903, 'epoch': 0.51}
+{'loss': 1.4766, 'grad_norm': 0.11287544667720795, 'learning_rate': 0.0002570485741560132, 'epoch': 0.51}
+{'loss': 1.4666, 'grad_norm': 0.1264672428369522, 'learning_rate': 0.00025684131570033025, 'epoch': 0.51}
+{'loss': 1.4658, 'grad_norm': 0.11389925330877304, 'learning_rate': 0.0002566340525389995, 'epoch': 0.51}
+{'loss': 1.4848, 'grad_norm': 0.13039283454418182, 'learning_rate': 0.00025642678481458254, 'epoch': 0.51}
+{'loss': 1.4545, 'grad_norm': 0.11240220069885254, 'learning_rate': 0.0002562195126696438, 'epoch': 0.51}
+{'loss': 1.4817, 'grad_norm': 0.12563975155353546, 'learning_rate': 0.00025601223624675064, 'epoch': 0.51}
+{'loss': 1.4728, 'grad_norm': 0.1314869076013565, 'learning_rate': 0.00025580495568847377, 'epoch': 0.51}
+{'loss': 1.4699, 'grad_norm': 0.1239628717303276, 'learning_rate': 0.0002555976711373865, 'epoch': 0.51}
+{'loss': 1.4871, 'grad_norm': 0.10908062756061554, 'learning_rate': 0.000255390382736065, 'epoch': 0.51}
+{'loss': 1.4822, 'grad_norm': 0.1252225786447525, 'learning_rate': 0.0002551830906270878, 'epoch': 0.51}
+{'loss': 1.4628, 'grad_norm': 0.10681980848312378, 'learning_rate': 0.00025497579495303635, 'epoch': 0.51}
+{'loss': 1.4916, 'grad_norm': 0.1138078048825264, 'learning_rate': 0.0002547684958564945, 'epoch': 0.51}
+{'loss': 1.4642, 'grad_norm': 0.14174491167068481, 'learning_rate': 0.00025456119348004805, 'epoch': 0.51}
+{'loss': 1.4749, 'grad_norm': 0.10078420490026474, 'learning_rate': 0.0002543538879662856, 'epoch': 0.51}
+{'loss': 1.4858, 'grad_norm': 0.13308928906917572, 'learning_rate': 0.00025414657945779757, 'epoch': 0.51}
+{'loss': 1.4837, 'grad_norm': 0.10872478783130646, 'learning_rate': 0.0002539392680971766, 'epoch': 0.51}
+{'loss': 1.4606, 'grad_norm': 0.1197497621178627, 'learning_rate': 0.0002537319540270172, 'epoch': 0.51}
+{'loss': 1.4587, 'grad_norm': 0.13123834133148193, 'learning_rate': 0.0002535246373899156, 'epoch': 0.51}
+{'loss': 1.479, 'grad_norm': 0.12981298565864563, 'learning_rate': 0.0002533173183284703, 'epoch': 0.51}
+{'loss': 1.4833, 'grad_norm': 0.13060756027698517, 'learning_rate': 0.00025310999698528074, 'epoch': 0.51}
+{'loss': 1.4683, 'grad_norm': 0.14050811529159546, 'learning_rate': 0.0002529026735029487, 'epoch': 0.51}
+{'loss': 1.4855, 'grad_norm': 0.11684616655111313, 'learning_rate': 0.0002526953480240767, 'epoch': 0.51}
+{'loss': 1.4821, 'grad_norm': 0.15675243735313416, 'learning_rate': 0.0002524880206912694, 'epoch': 0.51}
+{'loss': 1.4688, 'grad_norm': 0.12439175695180893, 'learning_rate': 0.00025228069164713195, 'epoch': 0.51}
+{'loss': 1.4619, 'grad_norm': 0.12813839316368103, 'learning_rate': 0.0002520733610342712, 'epoch': 0.51}
+{'loss': 1.473, 'grad_norm': 0.12980684638023376, 'learning_rate': 0.0002518660289952949, 'epoch': 0.51}
+{'loss': 1.4751, 'grad_norm': 0.11183923482894897, 'learning_rate': 0.00025165869567281176, 'epoch': 0.51}
+{'loss': 1.4794, 'grad_norm': 0.14655980467796326, 'learning_rate': 0.0002514513612094316, 'epoch': 0.51}
+{'loss': 1.4902, 'grad_norm': 0.13121376931667328, 'learning_rate': 0.0002512440257477646, 'epoch': 0.51}
+{'loss': 1.4679, 'grad_norm': 0.12020337581634521, 'learning_rate': 0.0002510366894304221, 'epoch': 0.51}
+{'loss': 1.4619, 'grad_norm': 0.1497403383255005, 'learning_rate': 0.00025082935240001563, 'epoch': 0.51}
+{'loss': 1.4706, 'grad_norm': 0.10900697112083435, 'learning_rate': 0.00025062201479915755, 'epoch': 0.51}
+{'loss': 1.4583, 'grad_norm': 0.12008120119571686, 'learning_rate': 0.0002504146767704602, 'epoch': 0.51}
+{'loss': 1.4808, 'grad_norm': 0.13297139108181, 'learning_rate': 0.0002502073384565366, 'epoch': 0.51}
+{'loss': 1.4632, 'grad_norm': 0.1164836660027504, 'learning_rate': 0.00025, 'epoch': 0.52}
+{'loss': 1.4879, 'grad_norm': 0.12386152148246765, 'learning_rate': 0.0002497926615434634, 'epoch': 0.52}
+{'loss': 1.4763, 'grad_norm': 0.13299991190433502, 'learning_rate': 0.00024958532322953984, 'epoch': 0.52}
+{'loss': 1.4832, 'grad_norm': 0.11419133096933365, 'learning_rate': 0.00024937798520084246, 'epoch': 0.52}
+{'loss': 1.4834, 'grad_norm': 0.1229148879647255, 'learning_rate': 0.0002491706475999844, 'epoch': 0.52}
+{'loss': 1.4764, 'grad_norm': 0.12236281484365463, 'learning_rate': 0.00024896331056957797, 'epoch': 0.52}
+{'loss': 1.4716, 'grad_norm': 0.11956819891929626, 'learning_rate': 0.00024875597425223544, 'epoch': 0.52}
+{'loss': 1.4877, 'grad_norm': 0.1343354433774948, 'learning_rate': 0.00024854863879056853, 'epoch': 0.52}
+{'loss': 1.4651, 'grad_norm': 0.10590052604675293, 'learning_rate': 0.00024834130432718825, 'epoch': 0.52}
+{'loss': 1.4456, 'grad_norm': 0.12475109845399857, 'learning_rate': 0.0002481339710047052, 'epoch': 0.52}
+{'loss': 1.4546, 'grad_norm': 0.11107459664344788, 'learning_rate': 0.0002479266389657289, 'epoch': 0.52}
+{'loss': 1.4625, 'grad_norm': 0.10426893830299377, 'learning_rate': 0.0002477193083528682, 'epoch': 0.52}
+{'loss': 1.4998, 'grad_norm': 0.10967748612165451, 'learning_rate': 0.00024751197930873063, 'epoch': 0.52}
+{'loss': 1.4555, 'grad_norm': 0.13112366199493408, 'learning_rate': 0.00024730465197592323, 'epoch': 0.52}
+{'loss': 1.4914, 'grad_norm': 0.1295570284128189, 'learning_rate': 0.00024709732649705134, 'epoch': 0.52}
+{'loss': 1.4559, 'grad_norm': 0.14849016070365906, 'learning_rate': 0.00024689000301471927, 'epoch': 0.52}
+{'loss': 1.4577, 'grad_norm': 0.11210256814956665, 'learning_rate': 0.00024668268167152985, 'epoch': 0.52}
+{'loss': 1.4653, 'grad_norm': 0.1352892816066742, 'learning_rate': 0.0002464753626100844, 'epoch': 0.52}
+{'loss': 1.4722, 'grad_norm': 0.13636891543865204, 'learning_rate': 0.00024626804597298286, 'epoch': 0.52}
+{'loss': 1.4665, 'grad_norm': 0.11025355011224747, 'learning_rate': 0.00024606073190282343, 'epoch': 0.52}
+{'loss': 1.4648, 'grad_norm': 0.13346734642982483, 'learning_rate': 0.0002458534205422025, 'epoch': 0.52}
+{'loss': 1.4538, 'grad_norm': 0.11795354634523392, 'learning_rate': 0.00024564611203371447, 'epoch': 0.52}
+{'loss': 1.4701, 'grad_norm': 0.11723358184099197, 'learning_rate': 0.00024543880651995196, 'epoch': 0.52}
+{'loss': 1.4637, 'grad_norm': 0.13051575422286987, 'learning_rate': 0.0002452315041435056, 'epoch': 0.52}
+{'loss': 1.4602, 'grad_norm': 0.11819805204868317, 'learning_rate': 0.00024502420504696367, 'epoch': 0.52}
+{'loss': 1.4679, 'grad_norm': 0.12346945703029633, 'learning_rate': 0.0002448169093729122, 'epoch': 0.52}
+{'loss': 1.4526, 'grad_norm': 0.12387431412935257, 'learning_rate': 0.00024460961726393513, 'epoch': 0.52}
+{'loss': 1.4479, 'grad_norm': 0.11670510470867157, 'learning_rate': 0.0002444023288626135, 'epoch': 0.52}
+{'loss': 1.4784, 'grad_norm': 0.1311303675174713, 'learning_rate': 0.0002441950443115263, 'epoch': 0.52}
+{'loss': 1.4567, 'grad_norm': 0.0983484536409378, 'learning_rate': 0.0002439877637532494, 'epoch': 0.52}
+{'loss': 1.4645, 'grad_norm': 0.0981510803103447, 'learning_rate': 0.00024378048733035635, 'epoch': 0.52}
+{'loss': 1.4572, 'grad_norm': 0.12021144479513168, 'learning_rate': 0.0002435732151854174, 'epoch': 0.52}
+{'loss': 1.478, 'grad_norm': 0.09917303174734116, 'learning_rate': 0.00024336594746100044, 'epoch': 0.52}
+{'loss': 1.4658, 'grad_norm': 0.10654979199171066, 'learning_rate': 0.00024315868429966982, 'epoch': 0.52}
+{'loss': 1.4522, 'grad_norm': 0.10135477036237717, 'learning_rate': 0.00024295142584398682, 'epoch': 0.52}
+{'loss': 1.4862, 'grad_norm': 0.10153945535421371, 'learning_rate': 0.00024274417223650978, 'epoch': 0.52}
+{'loss': 1.4515, 'grad_norm': 0.09677296876907349, 'learning_rate': 0.0002425369236197933, 'epoch': 0.52}
+{'loss': 1.4807, 'grad_norm': 0.11420632898807526, 'learning_rate': 0.000242329680136389, 'epoch': 0.52}
+{'loss': 1.4544, 'grad_norm': 0.09805615246295929, 'learning_rate': 0.00024212244192884454, 'epoch': 0.52}
+{'loss': 1.4551, 'grad_norm': 0.11123868077993393, 'learning_rate': 0.00024191520913970427, 'epoch': 0.53}
+{'loss': 1.4632, 'grad_norm': 0.11655160039663315, 'learning_rate': 0.0002417079819115086, 'epoch': 0.53}
+{'loss': 1.4672, 'grad_norm': 0.10809696465730667, 'learning_rate': 0.0002415007603867941, 'epoch': 0.53}
+{'loss': 1.4903, 'grad_norm': 0.09505082666873932, 'learning_rate': 0.0002412935447080937, 'epoch': 0.53}
+{'loss': 1.4489, 'grad_norm': 0.11268399655818939, 'learning_rate': 0.0002410863350179361, 'epoch': 0.53}
+{'loss': 1.4694, 'grad_norm': 0.09734022617340088, 'learning_rate': 0.00024087913145884584, 'epoch': 0.53}
+{'loss': 1.4605, 'grad_norm': 0.11081193387508392, 'learning_rate': 0.00024067193417334328, 'epoch': 0.53}
+{'loss': 1.4363, 'grad_norm': 0.10352520644664764, 'learning_rate': 0.00024046474330394446, 'epoch': 0.53}
+{'loss': 1.4587, 'grad_norm': 0.09951557964086533, 'learning_rate': 0.00024025755899316124, 'epoch': 0.53}
+{'loss': 1.4619, 'grad_norm': 0.10107800364494324, 'learning_rate': 0.0002400503813835006, 'epoch': 0.53}
+{'loss': 1.4725, 'grad_norm': 0.11794403195381165, 'learning_rate': 0.0002398432106174651, 'epoch': 0.53}
+{'loss': 1.4635, 'grad_norm': 0.115006223320961, 'learning_rate': 0.0002396360468375525, 'epoch': 0.53}
+{'loss': 1.4766, 'grad_norm': 0.10483064502477646, 'learning_rate': 0.00023942889018625603, 'epoch': 0.53}
+{'loss': 1.4865, 'grad_norm': 0.1128559485077858, 'learning_rate': 0.00023922174080606365, 'epoch': 0.53}
+{'loss': 1.4572, 'grad_norm': 0.11259880661964417, 'learning_rate': 0.0002390145988394585, 'epoch': 0.53}
+{'loss': 1.4772, 'grad_norm': 0.0992962121963501, 'learning_rate': 0.00023880746442891864, 'epoch': 0.53}
+{'loss': 1.4814, 'grad_norm': 0.11760569363832474, 'learning_rate': 0.0002386003377169168, 'epoch': 0.53}
+{'loss': 1.4656, 'grad_norm': 0.10410677641630173, 'learning_rate': 0.00023839321884592068, 'epoch': 0.53}
+{'loss': 1.4593, 'grad_norm': 0.11507338285446167, 'learning_rate': 0.0002381861079583923, 'epoch': 0.53}
+{'loss': 1.4584, 'grad_norm': 0.11554556339979172, 'learning_rate': 0.00023797900519678835, 'epoch': 0.53}
+{'loss': 1.4589, 'grad_norm': 0.10712598264217377, 'learning_rate': 0.00023777191070355983, 'epoch': 0.53}
+{'loss': 1.4656, 'grad_norm': 0.1164868175983429, 'learning_rate': 0.00023756482462115205, 'epoch': 0.53}
+{'loss': 1.4658, 'grad_norm': 0.110523521900177, 'learning_rate': 0.00023735774709200474, 'epoch': 0.53}
+{'loss': 1.47, 'grad_norm': 0.1032356396317482, 'learning_rate': 0.00023715067825855158, 'epoch': 0.53}
+{'loss': 1.4818, 'grad_norm': 0.11296281963586807, 'learning_rate': 0.00023694361826322025, 'epoch': 0.53}
+{'loss': 1.4654, 'grad_norm': 0.09495002031326294, 'learning_rate': 0.00023673656724843234, 'epoch': 0.53}
+{'loss': 1.482, 'grad_norm': 0.1112079843878746, 'learning_rate': 0.0002365295253566033, 'epoch': 0.53}
+{'loss': 1.478, 'grad_norm': 0.12477347254753113, 'learning_rate': 0.00023632249273014249, 'epoch': 0.53}
+{'loss': 1.4695, 'grad_norm': 0.11249282956123352, 'learning_rate': 0.00023611546951145257, 'epoch': 0.53}
+{'loss': 1.4524, 'grad_norm': 0.12158647179603577, 'learning_rate': 0.0002359084558429299, 'epoch': 0.53}
+{'loss': 1.4914, 'grad_norm': 0.10280292481184006, 'learning_rate': 0.0002357014518669643, 'epoch': 0.53}
+{'loss': 1.4668, 'grad_norm': 0.10949216037988663, 'learning_rate': 0.00023549445772593877, 'epoch': 0.53}
+{'loss': 1.4497, 'grad_norm': 0.11746576428413391, 'learning_rate': 0.00023528747356222986, 'epoch': 0.53}
+{'loss': 1.4766, 'grad_norm': 0.12705585360527039, 'learning_rate': 0.0002350804995182068, 'epoch': 0.53}
+{'loss': 1.4564, 'grad_norm': 0.11199857294559479, 'learning_rate': 0.00023487353573623234, 'epoch': 0.53}
+{'loss': 1.4731, 'grad_norm': 0.10598936676979065, 'learning_rate': 0.00023466658235866175, 'epoch': 0.53}
+{'loss': 1.4768, 'grad_norm': 0.1218731626868248, 'learning_rate': 0.00023445963952784348, 'epoch': 0.53}
+{'loss': 1.4649, 'grad_norm': 0.09631019085645676, 'learning_rate': 0.00023425270738611852, 'epoch': 0.53}
+{'loss': 1.4805, 'grad_norm': 0.10569511353969574, 'learning_rate': 0.0002340457860758206, 'epoch': 0.53}
+{'loss': 1.5126, 'grad_norm': 0.10349743068218231, 'learning_rate': 0.00023383887573927593, 'epoch': 0.54}
+{'loss': 1.4782, 'grad_norm': 0.10276800394058228, 'learning_rate': 0.0002336319765188031, 'epoch': 0.54}
+{'loss': 1.4733, 'grad_norm': 0.11986389756202698, 'learning_rate': 0.0002334250885567133, 'epoch': 0.54}
+{'loss': 1.4699, 'grad_norm': 0.12653429806232452, 'learning_rate': 0.00023321821199530994, 'epoch': 0.54}
+{'loss': 1.479, 'grad_norm': 0.11197547614574432, 'learning_rate': 0.00023301134697688834, 'epoch': 0.54}
+{'loss': 1.4712, 'grad_norm': 0.1221618726849556, 'learning_rate': 0.000232804493643736, 'epoch': 0.54}
+{'loss': 1.4847, 'grad_norm': 0.12237238138914108, 'learning_rate': 0.00023259765213813245, 'epoch': 0.54}
+{'loss': 1.4677, 'grad_norm': 0.10386469960212708, 'learning_rate': 0.0002323908226023491, 'epoch': 0.54}
+{'loss': 1.4777, 'grad_norm': 0.10175793617963791, 'learning_rate': 0.00023218400517864904, 'epoch': 0.54}
+{'loss': 1.4659, 'grad_norm': 0.10650072246789932, 'learning_rate': 0.00023197720000928704, 'epoch': 0.54}
+{'loss': 1.48, 'grad_norm': 0.10632654279470444, 'learning_rate': 0.00023177040723650953, 'epoch': 0.54}
+{'loss': 1.493, 'grad_norm': 0.10304858535528183, 'learning_rate': 0.00023156362700255418, 'epoch': 0.54}
+{'loss': 1.4733, 'grad_norm': 0.11784008890390396, 'learning_rate': 0.00023135685944965044, 'epoch': 0.54}
+{'loss': 1.4646, 'grad_norm': 0.11997342854738235, 'learning_rate': 0.00023115010472001866, 'epoch': 0.54}
+{'loss': 1.4551, 'grad_norm': 0.09648064523935318, 'learning_rate': 0.00023094336295587047, 'epoch': 0.54}
+{'loss': 1.483, 'grad_norm': 0.11223283410072327, 'learning_rate': 0.00023073663429940862, 'epoch': 0.54}
+{'loss': 1.4961, 'grad_norm': 0.11865106225013733, 'learning_rate': 0.00023052991889282702, 'epoch': 0.54}
+{'loss': 1.4852, 'grad_norm': 0.10572225600481033, 'learning_rate': 0.00023032321687831015, 'epoch': 0.54}
+{'loss': 1.4631, 'grad_norm': 0.10157034546136856, 'learning_rate': 0.0002301165283980334, 'epoch': 0.54}
+{'loss': 1.478, 'grad_norm': 0.121642105281353, 'learning_rate': 0.00022990985359416297, 'epoch': 0.54}
+{'loss': 1.4556, 'grad_norm': 0.0970761775970459, 'learning_rate': 0.0002297031926088554, 'epoch': 0.54}
+{'loss': 1.4777, 'grad_norm': 0.10924773663282394, 'learning_rate': 0.00022949654558425807, 'epoch': 0.54}
+{'loss': 1.4786, 'grad_norm': 0.09202203899621964, 'learning_rate': 0.00022928991266250843, 'epoch': 0.54}
+{'loss': 1.4796, 'grad_norm': 0.11781536042690277, 'learning_rate': 0.00022908329398573443, 'epoch': 0.54}
+{'loss': 1.4559, 'grad_norm': 0.09639443457126617, 'learning_rate': 0.00022887668969605416, 'epoch': 0.54}
+{'loss': 1.4653, 'grad_norm': 0.10832042992115021, 'learning_rate': 0.00022867009993557567, 'epoch': 0.54}
+{'loss': 1.4895, 'grad_norm': 0.10018036514520645, 'learning_rate': 0.00022846352484639734, 'epoch': 0.54}
+{'loss': 1.4646, 'grad_norm': 0.11789803206920624, 'learning_rate': 0.00022825696457060726, 'epoch': 0.54}
+{'loss': 1.4473, 'grad_norm': 0.10935553163290024, 'learning_rate': 0.0002280504192502833, 'epoch': 0.54}
+{'loss': 1.4576, 'grad_norm': 0.10794234275817871, 'learning_rate': 0.00022784388902749304, 'epoch': 0.54}
+{'loss': 1.4667, 'grad_norm': 0.10505015403032303, 'learning_rate': 0.00022763737404429374, 'epoch': 0.54}
+{'loss': 1.4715, 'grad_norm': 0.10544467717409134, 'learning_rate': 0.00022743087444273232, 'epoch': 0.54}
+{'loss': 1.4677, 'grad_norm': 0.11427533626556396, 'learning_rate': 0.0002272243903648448, 'epoch': 0.54}
+{'loss': 1.4923, 'grad_norm': 0.10555566102266312, 'learning_rate': 0.0002270179219526567, 'epoch': 0.54}
+{'loss': 1.488, 'grad_norm': 0.10006695240736008, 'learning_rate': 0.00022681146934818276, 'epoch': 0.54}
+{'loss': 1.4384, 'grad_norm': 0.10471135377883911, 'learning_rate': 0.00022660503269342693, 'epoch': 0.54}
+{'loss': 1.4606, 'grad_norm': 0.11913592368364334, 'learning_rate': 0.00022639861213038208, 'epoch': 0.54}
+{'loss': 1.4497, 'grad_norm': 0.10515623539686203, 'learning_rate': 0.0002261922078010299, 'epoch': 0.54}
+{'loss': 1.4764, 'grad_norm': 0.09652107208967209, 'learning_rate': 0.00022598581984734122, 'epoch': 0.54}
+{'loss': 1.4768, 'grad_norm': 0.11430958658456802, 'learning_rate': 0.0002257794484112752, 'epoch': 0.55}
+{'loss': 1.4371, 'grad_norm': 0.1005440503358841, 'learning_rate': 0.0002255730936347801, 'epoch': 0.55}
+{'loss': 1.46, 'grad_norm': 0.08613147586584091, 'learning_rate': 0.00022536675565979237, 'epoch': 0.55}
+{'loss': 1.4629, 'grad_norm': 0.10320724546909332, 'learning_rate': 0.00022516043462823707, 'epoch': 0.55}
+{'loss': 1.4678, 'grad_norm': 0.11057008802890778, 'learning_rate': 0.0002249541306820276, 'epoch': 0.55}
+{'loss': 1.475, 'grad_norm': 0.08711419999599457, 'learning_rate': 0.00022474784396306534, 'epoch': 0.55}
+{'loss': 1.4594, 'grad_norm': 0.09559328854084015, 'learning_rate': 0.00022454157461324027, 'epoch': 0.55}
+{'loss': 1.4695, 'grad_norm': 0.10241686552762985, 'learning_rate': 0.00022433532277443022, 'epoch': 0.55}
+{'loss': 1.4647, 'grad_norm': 0.10552456974983215, 'learning_rate': 0.0002241290885885009, 'epoch': 0.55}
+{'loss': 1.4762, 'grad_norm': 0.10913757234811783, 'learning_rate': 0.00022392287219730585, 'epoch': 0.55}
+{'loss': 1.4788, 'grad_norm': 0.09880803525447845, 'learning_rate': 0.00022371667374268645, 'epoch': 0.55}
+{'loss': 1.4793, 'grad_norm': 0.1118982657790184, 'learning_rate': 0.00022351049336647192, 'epoch': 0.55}
+{'loss': 1.4785, 'grad_norm': 0.11071882396936417, 'learning_rate': 0.0002233043312104788, 'epoch': 0.55}
+{'loss': 1.4703, 'grad_norm': 0.09835954010486603, 'learning_rate': 0.00022309818741651105, 'epoch': 0.55}
+{'loss': 1.4725, 'grad_norm': 0.11361554265022278, 'learning_rate': 0.00022289206212636022, 'epoch': 0.55}
+{'loss': 1.4541, 'grad_norm': 0.09712918847799301, 'learning_rate': 0.00022268595548180509, 'epoch': 0.55}
+{'loss': 1.473, 'grad_norm': 0.10716962814331055, 'learning_rate': 0.0002224798676246115, 'epoch': 0.55}
+{'loss': 1.454, 'grad_norm': 0.11030250787734985, 'learning_rate': 0.00022227379869653235, 'epoch': 0.55}
+{'loss': 1.4732, 'grad_norm': 0.11593721807003021, 'learning_rate': 0.00022206774883930773, 'epoch': 0.55}
+{'loss': 1.4676, 'grad_norm': 0.11772583425045013, 'learning_rate': 0.0002218617181946643, 'epoch': 0.55}
+{'loss': 1.4794, 'grad_norm': 0.09934022277593613, 'learning_rate': 0.00022165570690431592, 'epoch': 0.55}
+{'loss': 1.4771, 'grad_norm': 0.10930576175451279, 'learning_rate': 0.0002214497151099627, 'epoch': 0.55}
+{'loss': 1.4968, 'grad_norm': 0.1297008991241455, 'learning_rate': 0.00022124374295329167, 'epoch': 0.55}
+{'loss': 1.452, 'grad_norm': 0.10392700135707855, 'learning_rate': 0.00022103779057597618, 'epoch': 0.55}
+{'loss': 1.467, 'grad_norm': 0.14330880343914032, 'learning_rate': 0.00022083185811967588, 'epoch': 0.55}
+{'loss': 1.455, 'grad_norm': 0.11008960753679276, 'learning_rate': 0.00022062594572603707, 'epoch': 0.55}
+{'loss': 1.4789, 'grad_norm': 0.11965605616569519, 'learning_rate': 0.000220420053536692, 'epoch': 0.55}
+{'loss': 1.4774, 'grad_norm': 0.10841977596282959, 'learning_rate': 0.00022021418169325895, 'epoch': 0.55}
+{'loss': 1.4813, 'grad_norm': 0.10451941937208176, 'learning_rate': 0.00022000833033734239, 'epoch': 0.55}
+{'loss': 1.4449, 'grad_norm': 0.11190100759267807, 'learning_rate': 0.00021980249961053259, 'epoch': 0.55}
+{'loss': 1.4745, 'grad_norm': 0.10667430609464645, 'learning_rate': 0.00021959668965440565, 'epoch': 0.55}
+{'loss': 1.4666, 'grad_norm': 0.10813071578741074, 'learning_rate': 0.00021939090061052352, 'epoch': 0.55}
+{'loss': 1.462, 'grad_norm': 0.11504539102315903, 'learning_rate': 0.00021918513262043348, 'epoch': 0.55}
+{'loss': 1.4693, 'grad_norm': 0.10766783356666565, 'learning_rate': 0.0002189793858256686, 'epoch': 0.55}
+{'loss': 1.4914, 'grad_norm': 0.12151826173067093, 'learning_rate': 0.0002187736603677472, 'epoch': 0.55}
+{'loss': 1.4758, 'grad_norm': 0.10665595531463623, 'learning_rate': 0.00021856795638817305, 'epoch': 0.55}
+{'loss': 1.4683, 'grad_norm': 0.1022794097661972, 'learning_rate': 0.00021836227402843508, 'epoch': 0.55}
+{'loss': 1.4578, 'grad_norm': 0.11741677671670914, 'learning_rate': 0.00021815661343000726, 'epoch': 0.55}
+{'loss': 1.4693, 'grad_norm': 0.10418785363435745, 'learning_rate': 0.0002179509747343487, 'epoch': 0.55}
+{'loss': 1.4429, 'grad_norm': 0.11565535515546799, 'learning_rate': 0.0002177453580829036, 'epoch': 0.56}
+{'loss': 1.4827, 'grad_norm': 0.10045456141233444, 'learning_rate': 0.00021753976361710064, 'epoch': 0.56}
+{'loss': 1.4624, 'grad_norm': 0.11310414224863052, 'learning_rate': 0.00021733419147835348, 'epoch': 0.56}
+{'loss': 1.4686, 'grad_norm': 0.10273125022649765, 'learning_rate': 0.00021712864180806042, 'epoch': 0.56}
+{'loss': 1.4487, 'grad_norm': 0.09970252215862274, 'learning_rate': 0.00021692311474760413, 'epoch': 0.56}
+{'loss': 1.4719, 'grad_norm': 0.12520752847194672, 'learning_rate': 0.00021671761043835203, 'epoch': 0.56}
+{'loss': 1.4647, 'grad_norm': 0.10915100574493408, 'learning_rate': 0.00021651212902165556, 'epoch': 0.56}
+{'loss': 1.4824, 'grad_norm': 0.12323974817991257, 'learning_rate': 0.0002163066706388507, 'epoch': 0.56}
+{'loss': 1.4614, 'grad_norm': 0.10861141979694366, 'learning_rate': 0.00021610123543125737, 'epoch': 0.56}
+{'loss': 1.4493, 'grad_norm': 0.1208677813410759, 'learning_rate': 0.00021589582354017957, 'epoch': 0.56}
+{'loss': 1.4501, 'grad_norm': 0.09693540632724762, 'learning_rate': 0.00021569043510690544, 'epoch': 0.56}
+{'loss': 1.4486, 'grad_norm': 0.10132025927305222, 'learning_rate': 0.0002154850702727069, 'epoch': 0.56}
+{'loss': 1.4782, 'grad_norm': 0.10813021659851074, 'learning_rate': 0.0002152797291788396, 'epoch': 0.56}
+{'loss': 1.4554, 'grad_norm': 0.09316977113485336, 'learning_rate': 0.00021507441196654266, 'epoch': 0.56}
+{'loss': 1.474, 'grad_norm': 0.10858616232872009, 'learning_rate': 0.00021486911877703922, 'epoch': 0.56}
+{'loss': 1.4612, 'grad_norm': 0.10672974586486816, 'learning_rate': 0.00021466384975153563, 'epoch': 0.56}
+{'loss': 1.4522, 'grad_norm': 0.09464147686958313, 'learning_rate': 0.0002144586050312216, 'epoch': 0.56}
+{'loss': 1.4563, 'grad_norm': 0.1170448437333107, 'learning_rate': 0.00021425338475727015, 'epoch': 0.56}
+{'loss': 1.4773, 'grad_norm': 0.11014347523450851, 'learning_rate': 0.0002140481890708375, 'epoch': 0.56}
+{'loss': 1.4533, 'grad_norm': 0.09797237068414688, 'learning_rate': 0.0002138430181130631, 'epoch': 0.56}
+{'loss': 1.4473, 'grad_norm': 0.09861178696155548, 'learning_rate': 0.00021363787202506913, 'epoch': 0.56}
+{'loss': 1.455, 'grad_norm': 0.11109095811843872, 'learning_rate': 0.00021343275094796077, 'epoch': 0.56}
+{'loss': 1.4553, 'grad_norm': 0.10984671860933304, 'learning_rate': 0.00021322765502282615, 'epoch': 0.56}
+{'loss': 1.4441, 'grad_norm': 0.09672688692808151, 'learning_rate': 0.00021302258439073575, 'epoch': 0.56}
+{'loss': 1.4568, 'grad_norm': 0.09680571407079697, 'learning_rate': 0.00021281753919274313, 'epoch': 0.56}
+{'loss': 1.4877, 'grad_norm': 0.10127315670251846, 'learning_rate': 0.0002126125195698839, 'epoch': 0.56}
+{'loss': 1.4695, 'grad_norm': 0.0990474671125412, 'learning_rate': 0.00021240752566317639, 'epoch': 0.56}
+{'loss': 1.4585, 'grad_norm': 0.09529146552085876, 'learning_rate': 0.00021220255761362112, 'epoch': 0.56}
+{'loss': 1.4878, 'grad_norm': 0.10893725603818893, 'learning_rate': 0.00021199761556220064, 'epoch': 0.56}
+{'loss': 1.459, 'grad_norm': 0.09055662155151367, 'learning_rate': 0.00021179269964988, 'epoch': 0.56}
+{'loss': 1.4655, 'grad_norm': 0.11652852594852448, 'learning_rate': 0.00021158781001760614, 'epoch': 0.56}
+{'loss': 1.4823, 'grad_norm': 0.09823038429021835, 'learning_rate': 0.00021138294680630773, 'epoch': 0.56}
+{'loss': 1.4541, 'grad_norm': 0.10993506759405136, 'learning_rate': 0.00021117811015689531, 'epoch': 0.56}
+{'loss': 1.457, 'grad_norm': 0.11273593455553055, 'learning_rate': 0.00021097330021026145, 'epoch': 0.56}
+{'loss': 1.4768, 'grad_norm': 0.11039087921380997, 'learning_rate': 0.00021076851710728008, 'epoch': 0.56}
+{'loss': 1.4631, 'grad_norm': 0.10142630338668823, 'learning_rate': 0.0002105637609888067, 'epoch': 0.56}
+{'loss': 1.4834, 'grad_norm': 0.09882191568613052, 'learning_rate': 0.0002103590319956782, 'epoch': 0.56}
+{'loss': 1.4526, 'grad_norm': 0.10594620555639267, 'learning_rate': 0.00021015433026871298, 'epoch': 0.56}
+{'loss': 1.4583, 'grad_norm': 0.10173308104276657, 'learning_rate': 0.00020994965594871062, 'epoch': 0.56}
+{'loss': 1.4788, 'grad_norm': 0.10569039732217789, 'learning_rate': 0.00020974500917645184, 'epoch': 0.56}
+{'loss': 1.4779, 'grad_norm': 0.09939296543598175, 'learning_rate': 0.0002095403900926983, 'epoch': 0.57}
+{'loss': 1.4562, 'grad_norm': 0.10549620538949966, 'learning_rate': 0.00020933579883819278, 'epoch': 0.57}
+{'loss': 1.4765, 'grad_norm': 0.09698974341154099, 'learning_rate': 0.00020913123555365876, 'epoch': 0.57}
+{'loss': 1.4795, 'grad_norm': 0.10123463720083237, 'learning_rate': 0.00020892670037980072, 'epoch': 0.57}
+{'loss': 1.5087, 'grad_norm': 0.10685233771800995, 'learning_rate': 0.00020872219345730353, 'epoch': 0.57}
+{'loss': 1.4772, 'grad_norm': 0.099946990609169, 'learning_rate': 0.00020851771492683285, 'epoch': 0.57}
+{'loss': 1.4419, 'grad_norm': 0.09821699559688568, 'learning_rate': 0.00020831326492903472, 'epoch': 0.57}
+{'loss': 1.4992, 'grad_norm': 0.09892848879098892, 'learning_rate': 0.00020810884360453533, 'epoch': 0.57}
+{'loss': 1.4755, 'grad_norm': 0.09832116961479187, 'learning_rate': 0.00020790445109394163, 'epoch': 0.57}
+{'loss': 1.4566, 'grad_norm': 0.0975489392876625, 'learning_rate': 0.00020770008753784043, 'epoch': 0.57}
+{'loss': 1.4699, 'grad_norm': 0.1139073520898819, 'learning_rate': 0.00020749575307679863, 'epoch': 0.57}
+{'loss': 1.4651, 'grad_norm': 0.10139407962560654, 'learning_rate': 0.00020729144785136316, 'epoch': 0.57}
+{'loss': 1.4662, 'grad_norm': 0.0956195816397667, 'learning_rate': 0.0002070871720020609, 'epoch': 0.57}
+{'loss': 1.4508, 'grad_norm': 0.10598396509885788, 'learning_rate': 0.00020688292566939842, 'epoch': 0.57}
+{'loss': 1.4685, 'grad_norm': 0.09759016335010529, 'learning_rate': 0.00020667870899386214, 'epoch': 0.57}
+{'loss': 1.4555, 'grad_norm': 0.10753704607486725, 'learning_rate': 0.00020647452211591789, 'epoch': 0.57}
+{'loss': 1.4717, 'grad_norm': 0.11987859755754471, 'learning_rate': 0.0002062703651760111, 'epoch': 0.57}
+{'loss': 1.4608, 'grad_norm': 0.09037179499864578, 'learning_rate': 0.00020606623831456668, 'epoch': 0.57}
+{'loss': 1.4813, 'grad_norm': 0.11072013527154922, 'learning_rate': 0.00020586214167198877, 'epoch': 0.57}
+{'loss': 1.472, 'grad_norm': 0.099703848361969, 'learning_rate': 0.0002056580753886607, 'epoch': 0.57}
+{'loss': 1.4569, 'grad_norm': 0.10977114737033844, 'learning_rate': 0.0002054540396049449, 'epoch': 0.57}
+{'loss': 1.4785, 'grad_norm': 0.09971605241298676, 'learning_rate': 0.00020525003446118288, 'epoch': 0.57}
+{'loss': 1.4709, 'grad_norm': 0.11462138593196869, 'learning_rate': 0.00020504606009769523, 'epoch': 0.57}
+{'loss': 1.4655, 'grad_norm': 0.09400418400764465, 'learning_rate': 0.00020484211665478102, 'epoch': 0.57}
+{'loss': 1.4917, 'grad_norm': 0.10694177448749542, 'learning_rate': 0.0002046382042727183, 'epoch': 0.57}
+{'loss': 1.4712, 'grad_norm': 0.118796706199646, 'learning_rate': 0.00020443432309176374, 'epoch': 0.57}
+{'loss': 1.4563, 'grad_norm': 0.11035284399986267, 'learning_rate': 0.00020423047325215235, 'epoch': 0.57}
+{'loss': 1.4423, 'grad_norm': 0.10344243794679642, 'learning_rate': 0.00020402665489409796, 'epoch': 0.57}
+{'loss': 1.4697, 'grad_norm': 0.09978164732456207, 'learning_rate': 0.00020382286815779233, 'epoch': 0.57}
+{'loss': 1.4826, 'grad_norm': 0.10250619053840637, 'learning_rate': 0.0002036191131834058, 'epoch': 0.57}
+{'loss': 1.481, 'grad_norm': 0.11198055744171143, 'learning_rate': 0.00020341539011108667, 'epoch': 0.57}
+{'loss': 1.4673, 'grad_norm': 0.12066992372274399, 'learning_rate': 0.0002032116990809612, 'epoch': 0.57}
+{'loss': 1.468, 'grad_norm': 0.104502834379673, 'learning_rate': 0.00020300804023313395, 'epoch': 0.57}
+{'loss': 1.458, 'grad_norm': 0.1069004163146019, 'learning_rate': 0.00020280441370768717, 'epoch': 0.57}
+{'loss': 1.4707, 'grad_norm': 0.12321275472640991, 'learning_rate': 0.0002026008196446808, 'epoch': 0.57}
+{'loss': 1.4624, 'grad_norm': 0.11768852919340134, 'learning_rate': 0.0002023972581841524, 'epoch': 0.57}
+{'loss': 1.4735, 'grad_norm': 0.12262671440839767, 'learning_rate': 0.0002021937294661174, 'epoch': 0.57}
+{'loss': 1.4328, 'grad_norm': 0.12410760670900345, 'learning_rate': 0.0002019902336305685, 'epoch': 0.57}
+{'loss': 1.4761, 'grad_norm': 0.10847148299217224, 'learning_rate': 0.00020178677081747573, 'epoch': 0.57}
+{'loss': 1.4783, 'grad_norm': 0.11398869007825851, 'learning_rate': 0.0002015833411667865, 'epoch': 0.58}
+{'loss': 1.4716, 'grad_norm': 0.10732714086771011, 'learning_rate': 0.00020137994481842536, 'epoch': 0.58}
+{'loss': 1.4849, 'grad_norm': 0.11836591362953186, 'learning_rate': 0.0002011765819122942, 'epoch': 0.58}
+{'loss': 1.4748, 'grad_norm': 0.09794218838214874, 'learning_rate': 0.00020097325258827152, 'epoch': 0.58}
+{'loss': 1.4494, 'grad_norm': 0.11368638277053833, 'learning_rate': 0.00020076995698621288, 'epoch': 0.58}
+{'loss': 1.4738, 'grad_norm': 0.11726749688386917, 'learning_rate': 0.0002005666952459507, 'epoch': 0.58}
+{'loss': 1.4422, 'grad_norm': 0.10165821760892868, 'learning_rate': 0.0002003634675072941, 'epoch': 0.58}
+{'loss': 1.4892, 'grad_norm': 0.1201600432395935, 'learning_rate': 0.0002001602739100288, 'epoch': 0.58}
+{'loss': 1.4786, 'grad_norm': 0.11190735548734665, 'learning_rate': 0.00019995711459391697, 'epoch': 0.58}
+{'loss': 1.4618, 'grad_norm': 0.0992753803730011, 'learning_rate': 0.00019975398969869731, 'epoch': 0.58}
+{'loss': 1.486, 'grad_norm': 0.1281576007604599, 'learning_rate': 0.0001995508993640848, 'epoch': 0.58}
+{'loss': 1.4576, 'grad_norm': 0.10925734043121338, 'learning_rate': 0.00019934784372977043, 'epoch': 0.58}
+{'loss': 1.477, 'grad_norm': 0.11539655178785324, 'learning_rate': 0.0001991448229354218, 'epoch': 0.58}
+{'loss': 1.4866, 'grad_norm': 0.09986067563295364, 'learning_rate': 0.0001989418371206822, 'epoch': 0.58}
+{'loss': 1.4387, 'grad_norm': 0.10003118216991425, 'learning_rate': 0.00019873888642517088, 'epoch': 0.58}
+{'loss': 1.4567, 'grad_norm': 0.10481284558773041, 'learning_rate': 0.0001985359709884829, 'epoch': 0.58}
+{'loss': 1.4817, 'grad_norm': 0.09521520882844925, 'learning_rate': 0.00019833309095018933, 'epoch': 0.58}
+{'loss': 1.4729, 'grad_norm': 0.10654415935277939, 'learning_rate': 0.00019813024644983672, 'epoch': 0.58}
+{'loss': 1.4558, 'grad_norm': 0.09881007671356201, 'learning_rate': 0.00019792743762694705, 'epoch': 0.58}
+{'loss': 1.4778, 'grad_norm': 0.10222657024860382, 'learning_rate': 0.00019772466462101795, 'epoch': 0.58}
+{'loss': 1.4698, 'grad_norm': 0.11216176301240921, 'learning_rate': 0.00019752192757152226, 'epoch': 0.58}
+{'loss': 1.4508, 'grad_norm': 0.10061079263687134, 'learning_rate': 0.00019731922661790836, 'epoch': 0.58}
+{'loss': 1.4715, 'grad_norm': 0.1009952574968338, 'learning_rate': 0.0001971165618995995, 'epoch': 0.58}
+{'loss': 1.4739, 'grad_norm': 0.10490289330482483, 'learning_rate': 0.00019691393355599407, 'epoch': 0.58}
+{'loss': 1.4489, 'grad_norm': 0.10679233819246292, 'learning_rate': 0.00019671134172646564, 'epoch': 0.58}
+{'loss': 1.4744, 'grad_norm': 0.10251012444496155, 'learning_rate': 0.00019650878655036235, 'epoch': 0.58}
+{'loss': 1.4432, 'grad_norm': 0.1072465181350708, 'learning_rate': 0.0001963062681670075, 'epoch': 0.58}
+{'loss': 1.469, 'grad_norm': 0.10564512759447098, 'learning_rate': 0.0001961037867156987, 'epoch': 0.58}
+{'loss': 1.4598, 'grad_norm': 0.1150422915816307, 'learning_rate': 0.00019590134233570848, 'epoch': 0.58}
+{'loss': 1.4598, 'grad_norm': 0.10586998611688614, 'learning_rate': 0.00019569893516628364, 'epoch': 0.58}
+{'loss': 1.4639, 'grad_norm': 0.11077434569597244, 'learning_rate': 0.0001954965653466454, 'epoch': 0.58}
+{'loss': 1.4829, 'grad_norm': 0.12074287980794907, 'learning_rate': 0.00019529423301598958, 'epoch': 0.58}
+{'loss': 1.4613, 'grad_norm': 0.1009705662727356, 'learning_rate': 0.00019509193831348582, 'epoch': 0.58}
+{'loss': 1.4876, 'grad_norm': 0.11171694844961166, 'learning_rate': 0.0001948896813782782, 'epoch': 0.58}
+{'loss': 1.4737, 'grad_norm': 0.12223561108112335, 'learning_rate': 0.0001946874623494845, 'epoch': 0.58}
+{'loss': 1.4647, 'grad_norm': 0.09629612416028976, 'learning_rate': 0.00019448528136619675, 'epoch': 0.58}
+{'loss': 1.4527, 'grad_norm': 0.1039901077747345, 'learning_rate': 0.00019428313856748063, 'epoch': 0.58}
+{'loss': 1.4704, 'grad_norm': 0.10307156294584274, 'learning_rate': 0.00019408103409237562, 'epoch': 0.58}
+{'loss': 1.4647, 'grad_norm': 0.10872811079025269, 'learning_rate': 0.00019387896807989481, 'epoch': 0.58}
+{'loss': 1.4634, 'grad_norm': 0.09669329971075058, 'learning_rate': 0.00019367694066902468, 'epoch': 0.59}
+{'loss': 1.4944, 'grad_norm': 0.11368121951818466, 'learning_rate': 0.00019347495199872552, 'epoch': 0.59}
+{'loss': 1.4766, 'grad_norm': 0.10671144723892212, 'learning_rate': 0.00019327300220793077, 'epoch': 0.59}
+{'loss': 1.4533, 'grad_norm': 0.09215142577886581, 'learning_rate': 0.00019307109143554705, 'epoch': 0.59}
+{'loss': 1.4628, 'grad_norm': 0.09998449683189392, 'learning_rate': 0.00019286921982045416, 'epoch': 0.59}
+{'loss': 1.4457, 'grad_norm': 0.101351298391819, 'learning_rate': 0.00019266738750150505, 'epoch': 0.59}
+{'loss': 1.4916, 'grad_norm': 0.10623369365930557, 'learning_rate': 0.00019246559461752577, 'epoch': 0.59}
+{'loss': 1.4539, 'grad_norm': 0.09570833295583725, 'learning_rate': 0.000192263841307315, 'epoch': 0.59}
+{'loss': 1.456, 'grad_norm': 0.09592301398515701, 'learning_rate': 0.00019206212770964422, 'epoch': 0.59}
+{'loss': 1.4414, 'grad_norm': 0.09430939704179764, 'learning_rate': 0.00019186045396325777, 'epoch': 0.59}
+{'loss': 1.46, 'grad_norm': 0.10840614140033722, 'learning_rate': 0.00019165882020687232, 'epoch': 0.59}
+{'loss': 1.451, 'grad_norm': 0.1088624820113182, 'learning_rate': 0.00019145722657917745, 'epoch': 0.59}
+{'loss': 1.4605, 'grad_norm': 0.1010124534368515, 'learning_rate': 0.00019125567321883467, 'epoch': 0.59}
+{'loss': 1.4757, 'grad_norm': 0.12171852588653564, 'learning_rate': 0.00019105416026447808, 'epoch': 0.59}
+{'loss': 1.4905, 'grad_norm': 0.09828382730484009, 'learning_rate': 0.00019085268785471382, 'epoch': 0.59}
+{'loss': 1.4632, 'grad_norm': 0.10270105302333832, 'learning_rate': 0.00019065125612812044, 'epoch': 0.59}
+{'loss': 1.479, 'grad_norm': 0.0997835323214531, 'learning_rate': 0.00019044986522324806, 'epoch': 0.59}
+{'loss': 1.4876, 'grad_norm': 0.1057395339012146, 'learning_rate': 0.00019024851527861913, 'epoch': 0.59}
+{'loss': 1.463, 'grad_norm': 0.10004455596208572, 'learning_rate': 0.00019004720643272773, 'epoch': 0.59}
+{'loss': 1.4786, 'grad_norm': 0.1105455756187439, 'learning_rate': 0.00018984593882403951, 'epoch': 0.59}
+{'loss': 1.4533, 'grad_norm': 0.09904106706380844, 'learning_rate': 0.0001896447125909922, 'epoch': 0.59}
+{'loss': 1.4594, 'grad_norm': 0.11174833029508591, 'learning_rate': 0.00018944352787199473, 'epoch': 0.59}
+{'loss': 1.473, 'grad_norm': 0.10934324562549591, 'learning_rate': 0.00018924238480542754, 'epoch': 0.59}
+{'loss': 1.4541, 'grad_norm': 0.10184066742658615, 'learning_rate': 0.00018904128352964243, 'epoch': 0.59}
+{'loss': 1.4566, 'grad_norm': 0.09781689941883087, 'learning_rate': 0.00018884022418296238, 'epoch': 0.59}
+{'loss': 1.4695, 'grad_norm': 0.11173295229673386, 'learning_rate': 0.00018863920690368184, 'epoch': 0.59}
+{'loss': 1.4492, 'grad_norm': 0.10760202258825302, 'learning_rate': 0.00018843823183006597, 'epoch': 0.59}
+{'loss': 1.4488, 'grad_norm': 0.09209860116243362, 'learning_rate': 0.00018823729910035097, 'epoch': 0.59}
+{'loss': 1.4588, 'grad_norm': 0.10600819438695908, 'learning_rate': 0.0001880364088527441, 'epoch': 0.59}
+{'loss': 1.4534, 'grad_norm': 0.10994187742471695, 'learning_rate': 0.00018783556122542312, 'epoch': 0.59}
+{'loss': 1.4778, 'grad_norm': 0.10151839256286621, 'learning_rate': 0.0001876347563565368, 'epoch': 0.59}
+{'loss': 1.4458, 'grad_norm': 0.09667214751243591, 'learning_rate': 0.00018743399438420422, 'epoch': 0.59}
+{'loss': 1.4603, 'grad_norm': 0.10992620885372162, 'learning_rate': 0.00018723327544651513, 'epoch': 0.59}
+{'loss': 1.4608, 'grad_norm': 0.1072932779788971, 'learning_rate': 0.00018703259968152949, 'epoch': 0.59}
+{'loss': 1.4499, 'grad_norm': 0.09259498864412308, 'learning_rate': 0.00018683196722727786, 'epoch': 0.59}
+{'loss': 1.4701, 'grad_norm': 0.10312093049287796, 'learning_rate': 0.00018663137822176075, 'epoch': 0.59}
+{'loss': 1.4553, 'grad_norm': 0.11162883043289185, 'learning_rate': 0.00018643083280294888, 'epoch': 0.59}
+{'loss': 1.4455, 'grad_norm': 0.10564073920249939, 'learning_rate': 0.00018623033110878295, 'epoch': 0.59}
+{'loss': 1.4477, 'grad_norm': 0.10884002596139908, 'learning_rate': 0.00018602987327717357, 'epoch': 0.59}
+{'loss': 1.4705, 'grad_norm': 0.10904845595359802, 'learning_rate': 0.00018582945944600138, 'epoch': 0.6}
+{'loss': 1.4511, 'grad_norm': 0.10435543209314346, 'learning_rate': 0.00018562908975311654, 'epoch': 0.6}
+{'loss': 1.4831, 'grad_norm': 0.09797900170087814, 'learning_rate': 0.0001854287643363389, 'epoch': 0.6}
+{'loss': 1.4698, 'grad_norm': 0.09069884568452835, 'learning_rate': 0.00018522848333345782, 'epoch': 0.6}
+{'loss': 1.4706, 'grad_norm': 0.09980785101652145, 'learning_rate': 0.00018502824688223214, 'epoch': 0.6}
+{'loss': 1.4679, 'grad_norm': 0.10563842207193375, 'learning_rate': 0.00018482805512039024, 'epoch': 0.6}
+{'loss': 1.479, 'grad_norm': 0.09390337765216827, 'learning_rate': 0.00018462790818562946, 'epoch': 0.6}
+{'loss': 1.4886, 'grad_norm': 0.10563081502914429, 'learning_rate': 0.00018442780621561648, 'epoch': 0.6}
+{'loss': 1.4456, 'grad_norm': 0.0973520576953888, 'learning_rate': 0.00018422774934798703, 'epoch': 0.6}
+{'loss': 1.4717, 'grad_norm': 0.11085084825754166, 'learning_rate': 0.0001840277377203457, 'epoch': 0.6}
+{'loss': 1.4775, 'grad_norm': 0.1076977476477623, 'learning_rate': 0.00018382777147026624, 'epoch': 0.6}
+{'loss': 1.4555, 'grad_norm': 0.11203417927026749, 'learning_rate': 0.00018362785073529087, 'epoch': 0.6}
+{'loss': 1.4805, 'grad_norm': 0.12400969117879868, 'learning_rate': 0.00018342797565293074, 'epoch': 0.6}
+{'loss': 1.4709, 'grad_norm': 0.11484117060899734, 'learning_rate': 0.00018322814636066538, 'epoch': 0.6}
+{'loss': 1.4762, 'grad_norm': 0.10483568906784058, 'learning_rate': 0.00018302836299594313, 'epoch': 0.6}
+{'loss': 1.4962, 'grad_norm': 0.11688206344842911, 'learning_rate': 0.00018282862569618047, 'epoch': 0.6}
+{'loss': 1.4625, 'grad_norm': 0.1053343340754509, 'learning_rate': 0.00018262893459876223, 'epoch': 0.6}
+{'loss': 1.4677, 'grad_norm': 0.10367520898580551, 'learning_rate': 0.00018242928984104161, 'epoch': 0.6}
+{'loss': 1.4603, 'grad_norm': 0.12310822308063507, 'learning_rate': 0.00018222969156033968, 'epoch': 0.6}
+{'loss': 1.4551, 'grad_norm': 0.10443403571844101, 'learning_rate': 0.00018203013989394595, 'epoch': 0.6}
+{'loss': 1.4547, 'grad_norm': 0.11117446422576904, 'learning_rate': 0.00018183063497911742, 'epoch': 0.6}
+{'loss': 1.4478, 'grad_norm': 0.10006633400917053, 'learning_rate': 0.00018163117695307927, 'epoch': 0.6}
+{'loss': 1.4709, 'grad_norm': 0.10519643872976303, 'learning_rate': 0.00018143176595302425, 'epoch': 0.6}
+{'loss': 1.4136, 'grad_norm': 0.12019851803779602, 'learning_rate': 0.00018123240211611263, 'epoch': 0.6}
+{'loss': 1.4587, 'grad_norm': 0.10310380905866623, 'learning_rate': 0.0001810330855794726, 'epoch': 0.6}
+{'loss': 1.4588, 'grad_norm': 0.1265900731086731, 'learning_rate': 0.00018083381648019976, 'epoch': 0.6}
+{'loss': 1.453, 'grad_norm': 0.10302605479955673, 'learning_rate': 0.00018063459495535673, 'epoch': 0.6}
+{'loss': 1.4594, 'grad_norm': 0.1104634553194046, 'learning_rate': 0.00018043542114197365, 'epoch': 0.6}
+{'loss': 1.4643, 'grad_norm': 0.10209616273641586, 'learning_rate': 0.0001802362951770478, 'epoch': 0.6}
+{'loss': 1.4663, 'grad_norm': 0.09348839521408081, 'learning_rate': 0.0001800372171975438, 'epoch': 0.6}
+{'loss': 1.4394, 'grad_norm': 0.11216729879379272, 'learning_rate': 0.00017983818734039285, 'epoch': 0.6}
+{'loss': 1.4746, 'grad_norm': 0.12096302956342697, 'learning_rate': 0.0001796392057424932, 'epoch': 0.6}
+{'loss': 1.443, 'grad_norm': 0.10744315385818481, 'learning_rate': 0.0001794402725407101, 'epoch': 0.6}
+{'loss': 1.4446, 'grad_norm': 0.08400867879390717, 'learning_rate': 0.0001792413878718751, 'epoch': 0.6}
+{'loss': 1.4445, 'grad_norm': 0.11003633588552475, 'learning_rate': 0.00017904255187278694, 'epoch': 0.6}
+{'loss': 1.4792, 'grad_norm': 0.10228729248046875, 'learning_rate': 0.00017884376468021036, 'epoch': 0.6}
+{'loss': 1.4947, 'grad_norm': 0.10255948454141617, 'learning_rate': 0.00017864502643087678, 'epoch': 0.6}
+{'loss': 1.4715, 'grad_norm': 0.11585240066051483, 'learning_rate': 0.00017844633726148384, 'epoch': 0.6}
+{'loss': 1.48, 'grad_norm': 0.13379725813865662, 'learning_rate': 0.00017824769730869568, 'epoch': 0.6}
+{'loss': 1.4792, 'grad_norm': 0.10173936933279037, 'learning_rate': 0.0001780491067091422, 'epoch': 0.61}
+{'loss': 1.4629, 'grad_norm': 0.11558987945318222, 'learning_rate': 0.0001778505655994197, 'epoch': 0.61}
+{'loss': 1.446, 'grad_norm': 0.11371848732233047, 'learning_rate': 0.00017765207411609026, 'epoch': 0.61}
+{'loss': 1.4645, 'grad_norm': 0.09976955503225327, 'learning_rate': 0.0001774536323956817, 'epoch': 0.61}
+{'loss': 1.4634, 'grad_norm': 0.10401574522256851, 'learning_rate': 0.00017725524057468796, 'epoch': 0.61}
+{'loss': 1.4586, 'grad_norm': 0.12427880614995956, 'learning_rate': 0.0001770568987895684, 'epoch': 0.61}
+{'loss': 1.4531, 'grad_norm': 0.10531571507453918, 'learning_rate': 0.00017685860717674807, 'epoch': 0.61}
+{'loss': 1.4555, 'grad_norm': 0.0913878008723259, 'learning_rate': 0.0001766603658726174, 'epoch': 0.61}
+{'loss': 1.4544, 'grad_norm': 0.1191403716802597, 'learning_rate': 0.00017646217501353224, 'epoch': 0.61}
+{'loss': 1.503, 'grad_norm': 0.10764693468809128, 'learning_rate': 0.00017626403473581398, 'epoch': 0.61}
+{'loss': 1.4657, 'grad_norm': 0.09748728573322296, 'learning_rate': 0.0001760659451757489, 'epoch': 0.61}
+{'loss': 1.4797, 'grad_norm': 0.11927206814289093, 'learning_rate': 0.00017586790646958856, 'epoch': 0.61}
+{'loss': 1.4698, 'grad_norm': 0.10976357758045197, 'learning_rate': 0.0001756699187535495, 'epoch': 0.61}
+{'loss': 1.4819, 'grad_norm': 0.10126186907291412, 'learning_rate': 0.00017547198216381305, 'epoch': 0.61}
+{'loss': 1.4665, 'grad_norm': 0.14425165951251984, 'learning_rate': 0.00017527409683652578, 'epoch': 0.61}
+{'loss': 1.4679, 'grad_norm': 0.11644265055656433, 'learning_rate': 0.00017507626290779853, 'epoch': 0.61}
+{'loss': 1.4834, 'grad_norm': 0.1094156950712204, 'learning_rate': 0.00017487848051370714, 'epoch': 0.61}
+{'loss': 1.4734, 'grad_norm': 0.13537625968456268, 'learning_rate': 0.0001746807497902917, 'epoch': 0.61}
+{'loss': 1.4928, 'grad_norm': 0.11350543051958084, 'learning_rate': 0.0001744830708735571, 'epoch': 0.61}
+{'loss': 1.4677, 'grad_norm': 0.11495111882686615, 'learning_rate': 0.0001742854438994722, 'epoch': 0.61}
+{'loss': 1.4603, 'grad_norm': 0.1088104397058487, 'learning_rate': 0.00017408786900397055, 'epoch': 0.61}
+{'loss': 1.4612, 'grad_norm': 0.09523436427116394, 'learning_rate': 0.0001738903463229496, 'epoch': 0.61}
+{'loss': 1.4891, 'grad_norm': 0.12172165513038635, 'learning_rate': 0.00017369287599227078, 'epoch': 0.61}
+{'loss': 1.4852, 'grad_norm': 0.10615327954292297, 'learning_rate': 0.0001734954581477599, 'epoch': 0.61}
+{'loss': 1.4521, 'grad_norm': 0.10047748684883118, 'learning_rate': 0.0001732980929252065, 'epoch': 0.61}
+{'loss': 1.4721, 'grad_norm': 0.11855430155992508, 'learning_rate': 0.00017310078046036377, 'epoch': 0.61}
+{'loss': 1.4677, 'grad_norm': 0.09665440022945404, 'learning_rate': 0.00017290352088894867, 'epoch': 0.61}
+{'loss': 1.4781, 'grad_norm': 0.11297024041414261, 'learning_rate': 0.0001727063143466419, 'epoch': 0.61}
+{'loss': 1.4386, 'grad_norm': 0.11244060099124908, 'learning_rate': 0.0001725091609690877, 'epoch': 0.61}
+{'loss': 1.466, 'grad_norm': 0.09873463958501816, 'learning_rate': 0.0001723120608918936, 'epoch': 0.61}
+{'loss': 1.4585, 'grad_norm': 0.09847331792116165, 'learning_rate': 0.00017211501425063044, 'epoch': 0.61}
+{'loss': 1.4799, 'grad_norm': 0.10546374320983887, 'learning_rate': 0.00017191802118083255, 'epoch': 0.61}
+{'loss': 1.4817, 'grad_norm': 0.10270319133996964, 'learning_rate': 0.0001717210818179971, 'epoch': 0.61}
+{'loss': 1.4696, 'grad_norm': 0.11055809259414673, 'learning_rate': 0.00017152419629758465, 'epoch': 0.61}
+{'loss': 1.4612, 'grad_norm': 0.09738337248563766, 'learning_rate': 0.00017132736475501838, 'epoch': 0.61}
+{'loss': 1.4961, 'grad_norm': 0.10343033075332642, 'learning_rate': 0.00017113058732568464, 'epoch': 0.61}
+{'loss': 1.4658, 'grad_norm': 0.103042833507061, 'learning_rate': 0.00017093386414493233, 'epoch': 0.61}
+{'loss': 1.4882, 'grad_norm': 0.10084259510040283, 'learning_rate': 0.00017073719534807324, 'epoch': 0.61}
+{'loss': 1.4443, 'grad_norm': 0.10946566611528397, 'learning_rate': 0.00017054058107038167, 'epoch': 0.61}
+{'loss': 1.4738, 'grad_norm': 0.11088087409734726, 'learning_rate': 0.00017034402144709427, 'epoch': 0.62}
+{'loss': 1.4744, 'grad_norm': 0.12358513474464417, 'learning_rate': 0.00017014751661341033, 'epoch': 0.62}
+{'loss': 1.4446, 'grad_norm': 0.11582503467798233, 'learning_rate': 0.00016995106670449124, 'epoch': 0.62}
+{'loss': 1.4474, 'grad_norm': 0.10604629665613174, 'learning_rate': 0.00016975467185546093, 'epoch': 0.62}
+{'loss': 1.4789, 'grad_norm': 0.11664334684610367, 'learning_rate': 0.00016955833220140508, 'epoch': 0.62}
+{'loss': 1.4692, 'grad_norm': 0.11434866487979889, 'learning_rate': 0.00016936204787737166, 'epoch': 0.62}
+{'loss': 1.47, 'grad_norm': 0.1080498918890953, 'learning_rate': 0.00016916581901837052, 'epoch': 0.62}
+{'loss': 1.464, 'grad_norm': 0.11647119373083115, 'learning_rate': 0.00016896964575937318, 'epoch': 0.62}
+{'loss': 1.4683, 'grad_norm': 0.1005936935544014, 'learning_rate': 0.00016877352823531323, 'epoch': 0.62}
+{'loss': 1.4579, 'grad_norm': 0.10517699271440506, 'learning_rate': 0.0001685774665810858, 'epoch': 0.62}
+{'loss': 1.4651, 'grad_norm': 0.11800573766231537, 'learning_rate': 0.00016838146093154751, 'epoch': 0.62}
+{'loss': 1.4829, 'grad_norm': 0.10538221150636673, 'learning_rate': 0.00016818551142151644, 'epoch': 0.62}
+{'loss': 1.4877, 'grad_norm': 0.10144968330860138, 'learning_rate': 0.0001679896181857722, 'epoch': 0.62}
+{'loss': 1.4817, 'grad_norm': 0.09993358701467514, 'learning_rate': 0.00016779378135905565, 'epoch': 0.62}
+{'loss': 1.4483, 'grad_norm': 0.11695890128612518, 'learning_rate': 0.00016759800107606882, 'epoch': 0.62}
+{'loss': 1.4454, 'grad_norm': 0.10719045996665955, 'learning_rate': 0.00016740227747147473, 'epoch': 0.62}
+{'loss': 1.4531, 'grad_norm': 0.10094498097896576, 'learning_rate': 0.00016720661067989759, 'epoch': 0.62}
+{'loss': 1.4587, 'grad_norm': 0.10631106793880463, 'learning_rate': 0.0001670110008359226, 'epoch': 0.62}
+{'loss': 1.4747, 'grad_norm': 0.10018086433410645, 'learning_rate': 0.00016681544807409555, 'epoch': 0.62}
+{'loss': 1.4437, 'grad_norm': 0.10107818990945816, 'learning_rate': 0.0001666199525289231, 'epoch': 0.62}
+{'loss': 1.4728, 'grad_norm': 0.09759639948606491, 'learning_rate': 0.00016642451433487255, 'epoch': 0.62}
+{'loss': 1.4716, 'grad_norm': 0.1065828949213028, 'learning_rate': 0.0001662291336263716, 'epoch': 0.62}
+{'loss': 1.4669, 'grad_norm': 0.10084180533885956, 'learning_rate': 0.0001660338105378088, 'epoch': 0.62}
+{'loss': 1.4617, 'grad_norm': 0.1093299463391304, 'learning_rate': 0.00016583854520353268, 'epoch': 0.62}
+{'loss': 1.4801, 'grad_norm': 0.10440920293331146, 'learning_rate': 0.00016564333775785222, 'epoch': 0.62}
+{'loss': 1.4694, 'grad_norm': 0.11235123127698898, 'learning_rate': 0.00016544818833503654, 'epoch': 0.62}
+{'loss': 1.4902, 'grad_norm': 0.08596530556678772, 'learning_rate': 0.00016525309706931472, 'epoch': 0.62}
+{'loss': 1.4791, 'grad_norm': 0.11170744150876999, 'learning_rate': 0.00016505806409487615, 'epoch': 0.62}
+{'loss': 1.4397, 'grad_norm': 0.11266715079545975, 'learning_rate': 0.00016486308954586992, 'epoch': 0.62}
+{'loss': 1.4619, 'grad_norm': 0.10150962322950363, 'learning_rate': 0.00016466817355640495, 'epoch': 0.62}
+{'loss': 1.4535, 'grad_norm': 0.10670481622219086, 'learning_rate': 0.00016447331626054984, 'epoch': 0.62}
+{'loss': 1.4548, 'grad_norm': 0.08874718099832535, 'learning_rate': 0.00016427851779233282, 'epoch': 0.62}
+{'loss': 1.4458, 'grad_norm': 0.10887182503938675, 'learning_rate': 0.00016408377828574196, 'epoch': 0.62}
+{'loss': 1.4642, 'grad_norm': 0.12209514528512955, 'learning_rate': 0.0001638890978747243, 'epoch': 0.62}
+{'loss': 1.4655, 'grad_norm': 0.10180863738059998, 'learning_rate': 0.00016369447669318648, 'epoch': 0.62}
+{'loss': 1.4537, 'grad_norm': 0.11862625926733017, 'learning_rate': 0.00016349991487499437, 'epoch': 0.62}
+{'loss': 1.4666, 'grad_norm': 0.11161337047815323, 'learning_rate': 0.00016330541255397314, 'epoch': 0.62}
+{'loss': 1.4469, 'grad_norm': 0.11292406916618347, 'learning_rate': 0.00016311096986390683, 'epoch': 0.62}
+{'loss': 1.457, 'grad_norm': 0.10493854433298111, 'learning_rate': 0.0001629165869385385, 'epoch': 0.62}
+{'loss': 1.4635, 'grad_norm': 0.09777618944644928, 'learning_rate': 0.00016272226391157024, 'epoch': 0.63}
+{'loss': 1.4436, 'grad_norm': 0.11017069220542908, 'learning_rate': 0.0001625280009166627, 'epoch': 0.63}
+{'loss': 1.4537, 'grad_norm': 0.11599795520305634, 'learning_rate': 0.00016233379808743557, 'epoch': 0.63}
+{'loss': 1.4577, 'grad_norm': 0.1059880331158638, 'learning_rate': 0.00016213965555746685, 'epoch': 0.63}
+{'loss': 1.4715, 'grad_norm': 0.1040516048669815, 'learning_rate': 0.00016194557346029323, 'epoch': 0.63}
+{'loss': 1.4553, 'grad_norm': 0.10063302516937256, 'learning_rate': 0.00016175155192940983, 'epoch': 0.63}
+{'loss': 1.473, 'grad_norm': 0.10984490811824799, 'learning_rate': 0.00016155759109826983, 'epoch': 0.63}
+{'loss': 1.4565, 'grad_norm': 0.10244099050760269, 'learning_rate': 0.00016136369110028521, 'epoch': 0.63}
+{'loss': 1.4648, 'grad_norm': 0.10412396490573883, 'learning_rate': 0.00016116985206882572, 'epoch': 0.63}
+{'loss': 1.4485, 'grad_norm': 0.10946635156869888, 'learning_rate': 0.0001609760741372192, 'epoch': 0.63}
+{'loss': 1.4728, 'grad_norm': 0.10933028161525726, 'learning_rate': 0.00016078235743875144, 'epoch': 0.63}
+{'loss': 1.474, 'grad_norm': 0.09212509542703629, 'learning_rate': 0.0001605887021066663, 'epoch': 0.63}
+{'loss': 1.4608, 'grad_norm': 0.125571608543396, 'learning_rate': 0.00016039510827416527, 'epoch': 0.63}
+{'loss': 1.4883, 'grad_norm': 0.11336330324411392, 'learning_rate': 0.0001602015760744076, 'epoch': 0.63}
+{'loss': 1.4836, 'grad_norm': 0.09361250698566437, 'learning_rate': 0.00016000810564051015, 'epoch': 0.63}
+{'loss': 1.4377, 'grad_norm': 0.12277642637491226, 'learning_rate': 0.00015981469710554724, 'epoch': 0.63}
+{'loss': 1.4373, 'grad_norm': 0.11389942467212677, 'learning_rate': 0.00015962135060255066, 'epoch': 0.63}
+{'loss': 1.4564, 'grad_norm': 0.10594063997268677, 'learning_rate': 0.00015942806626450965, 'epoch': 0.63}
+{'loss': 1.4571, 'grad_norm': 0.11628498136997223, 'learning_rate': 0.00015923484422437044, 'epoch': 0.63}
+{'loss': 1.4769, 'grad_norm': 0.11191117763519287, 'learning_rate': 0.0001590416846150365, 'epoch': 0.63}
+{'loss': 1.449, 'grad_norm': 0.10825575143098831, 'learning_rate': 0.0001588485875693684, 'epoch': 0.63}
+{'loss': 1.4739, 'grad_norm': 0.13165263831615448, 'learning_rate': 0.00015865555322018383, 'epoch': 0.63}
+{'loss': 1.4455, 'grad_norm': 0.12191306054592133, 'learning_rate': 0.00015846258170025714, 'epoch': 0.63}
+{'loss': 1.4413, 'grad_norm': 0.10563434660434723, 'learning_rate': 0.0001582696731423194, 'epoch': 0.63}
+{'loss': 1.4424, 'grad_norm': 0.1238936185836792, 'learning_rate': 0.0001580768276790586, 'epoch': 0.63}
+{'loss': 1.4677, 'grad_norm': 0.12979958951473236, 'learning_rate': 0.00015788404544311914, 'epoch': 0.63}
+{'loss': 1.4578, 'grad_norm': 0.10240475833415985, 'learning_rate': 0.00015769132656710214, 'epoch': 0.63}
+{'loss': 1.4666, 'grad_norm': 0.14850233495235443, 'learning_rate': 0.00015749867118356492, 'epoch': 0.63}
+{'loss': 1.4665, 'grad_norm': 0.11293559521436691, 'learning_rate': 0.00015730607942502134, 'epoch': 0.63}
+{'loss': 1.4642, 'grad_norm': 0.10614538192749023, 'learning_rate': 0.00015711355142394132, 'epoch': 0.63}
+{'loss': 1.4565, 'grad_norm': 0.1159023568034172, 'learning_rate': 0.00015692108731275083, 'epoch': 0.63}
+{'loss': 1.4686, 'grad_norm': 0.11671290546655655, 'learning_rate': 0.0001567286872238323, 'epoch': 0.63}
+{'loss': 1.4299, 'grad_norm': 0.09951038658618927, 'learning_rate': 0.00015653635128952382, 'epoch': 0.63}
+{'loss': 1.4661, 'grad_norm': 0.10922589898109436, 'learning_rate': 0.00015634407964211934, 'epoch': 0.63}
+{'loss': 1.4586, 'grad_norm': 0.11514914780855179, 'learning_rate': 0.00015615187241386857, 'epoch': 0.63}
+{'loss': 1.4624, 'grad_norm': 0.10812145471572876, 'learning_rate': 0.0001559597297369772, 'epoch': 0.63}
+{'loss': 1.4593, 'grad_norm': 0.1023617684841156, 'learning_rate': 0.00015576765174360628, 'epoch': 0.63}
+{'loss': 1.4785, 'grad_norm': 0.09238968044519424, 'learning_rate': 0.00015557563856587238, 'epoch': 0.63}
+{'loss': 1.4472, 'grad_norm': 0.10033747553825378, 'learning_rate': 0.00015538369033584742, 'epoch': 0.63}
+{'loss': 1.4432, 'grad_norm': 0.10157011449337006, 'learning_rate': 0.00015519180718555882, 'epoch': 0.64}
+{'loss': 1.4529, 'grad_norm': 0.10355804860591888, 'learning_rate': 0.0001549999892469892, 'epoch': 0.64}
+{'loss': 1.457, 'grad_norm': 0.09969379752874374, 'learning_rate': 0.00015480823665207637, 'epoch': 0.64}
+{'loss': 1.4771, 'grad_norm': 0.09843681007623672, 'learning_rate': 0.0001546165495327129, 'epoch': 0.64}
+{'loss': 1.4497, 'grad_norm': 0.10325326770544052, 'learning_rate': 0.0001544249280207467, 'epoch': 0.64}
+{'loss': 1.4422, 'grad_norm': 0.09031688421964645, 'learning_rate': 0.00015423337224798023, 'epoch': 0.64}
+{'loss': 1.4732, 'grad_norm': 0.08959154784679413, 'learning_rate': 0.0001540418823461711, 'epoch': 0.64}
+{'loss': 1.4569, 'grad_norm': 0.08978364616632462, 'learning_rate': 0.0001538504584470312, 'epoch': 0.64}
+{'loss': 1.4604, 'grad_norm': 0.09440506249666214, 'learning_rate': 0.00015365910068222745, 'epoch': 0.64}
+{'loss': 1.4713, 'grad_norm': 0.08724458515644073, 'learning_rate': 0.00015346780918338088, 'epoch': 0.64}
+{'loss': 1.4512, 'grad_norm': 0.10002467781305313, 'learning_rate': 0.00015327658408206707, 'epoch': 0.64}
+{'loss': 1.4752, 'grad_norm': 0.0988638624548912, 'learning_rate': 0.00015308542550981615, 'epoch': 0.64}
+{'loss': 1.4686, 'grad_norm': 0.09134810417890549, 'learning_rate': 0.00015289433359811229, 'epoch': 0.64}
+{'loss': 1.4338, 'grad_norm': 0.10889118909835815, 'learning_rate': 0.00015270330847839375, 'epoch': 0.64}
+{'loss': 1.4684, 'grad_norm': 0.10072141140699387, 'learning_rate': 0.00015251235028205295, 'epoch': 0.64}
+{'loss': 1.4591, 'grad_norm': 0.10324445366859436, 'learning_rate': 0.00015232145914043625, 'epoch': 0.64}
+{'loss': 1.4604, 'grad_norm': 0.09109603613615036, 'learning_rate': 0.000152130635184844, 'epoch': 0.64}
+{'loss': 1.4638, 'grad_norm': 0.08833971619606018, 'learning_rate': 0.00015193987854653023, 'epoch': 0.64}
+{'loss': 1.4756, 'grad_norm': 0.09599807113409042, 'learning_rate': 0.0001517491893567025, 'epoch': 0.64}
+{'loss': 1.4676, 'grad_norm': 0.10289082676172256, 'learning_rate': 0.00015155856774652228, 'epoch': 0.64}
+{'loss': 1.4497, 'grad_norm': 0.09565429389476776, 'learning_rate': 0.00015136801384710448, 'epoch': 0.64}
+{'loss': 1.4746, 'grad_norm': 0.09697787463665009, 'learning_rate': 0.00015117752778951736, 'epoch': 0.64}
+{'loss': 1.4626, 'grad_norm': 0.1004202589392662, 'learning_rate': 0.00015098710970478247, 'epoch': 0.64}
+{'loss': 1.4389, 'grad_norm': 0.10437507927417755, 'learning_rate': 0.00015079675972387474, 'epoch': 0.64}
+{'loss': 1.463, 'grad_norm': 0.08768054097890854, 'learning_rate': 0.0001506064779777221, 'epoch': 0.64}
+{'loss': 1.4749, 'grad_norm': 0.10114456713199615, 'learning_rate': 0.00015041626459720578, 'epoch': 0.64}
+{'loss': 1.4616, 'grad_norm': 0.10624305158853531, 'learning_rate': 0.00015022611971315974, 'epoch': 0.64}
+{'loss': 1.4525, 'grad_norm': 0.09872671961784363, 'learning_rate': 0.00015003604345637105, 'epoch': 0.64}
+{'loss': 1.4823, 'grad_norm': 0.10687866061925888, 'learning_rate': 0.0001498460359575794, 'epoch': 0.64}
+{'loss': 1.4784, 'grad_norm': 0.11885860562324524, 'learning_rate': 0.0001496560973474771, 'epoch': 0.64}
+{'loss': 1.4552, 'grad_norm': 0.10159946978092194, 'learning_rate': 0.00014946622775670942, 'epoch': 0.64}
+{'loss': 1.4548, 'grad_norm': 0.1311645209789276, 'learning_rate': 0.00014927642731587393, 'epoch': 0.64}
+{'loss': 1.4489, 'grad_norm': 0.11653568595647812, 'learning_rate': 0.00014908669615552067, 'epoch': 0.64}
+{'loss': 1.4503, 'grad_norm': 0.10714311897754669, 'learning_rate': 0.0001488970344061519, 'epoch': 0.64}
+{'loss': 1.471, 'grad_norm': 0.10445038974285126, 'learning_rate': 0.00014870744219822236, 'epoch': 0.64}
+{'loss': 1.4625, 'grad_norm': 0.12126021087169647, 'learning_rate': 0.00014851791966213884, 'epoch': 0.64}
+{'loss': 1.4552, 'grad_norm': 0.11785495281219482, 'learning_rate': 0.0001483284669282603, 'epoch': 0.64}
+{'loss': 1.4633, 'grad_norm': 0.10028611868619919, 'learning_rate': 0.00014813908412689746, 'epoch': 0.64}
+{'loss': 1.4619, 'grad_norm': 0.10766439884901047, 'learning_rate': 0.00014794977138831323, 'epoch': 0.64}
+{'loss': 1.4705, 'grad_norm': 0.09953409433364868, 'learning_rate': 0.00014776052884272206, 'epoch': 0.65}
+{'loss': 1.4223, 'grad_norm': 0.10319290310144424, 'learning_rate': 0.00014757135662029041, 'epoch': 0.65}
+{'loss': 1.449, 'grad_norm': 0.11488083004951477, 'learning_rate': 0.00014738225485113615, 'epoch': 0.65}
+{'loss': 1.4617, 'grad_norm': 0.09782873839139938, 'learning_rate': 0.00014719322366532866, 'epoch': 0.65}
+{'loss': 1.4815, 'grad_norm': 0.10259281098842621, 'learning_rate': 0.0001470042631928889, 'epoch': 0.65}
+{'loss': 1.4714, 'grad_norm': 0.10390951484441757, 'learning_rate': 0.00014681537356378923, 'epoch': 0.65}
+{'loss': 1.4495, 'grad_norm': 0.0958252102136612, 'learning_rate': 0.0001466265549079532, 'epoch': 0.65}
+{'loss': 1.4812, 'grad_norm': 0.1285228133201599, 'learning_rate': 0.00014643780735525545, 'epoch': 0.65}
+{'loss': 1.4704, 'grad_norm': 0.11692432314157486, 'learning_rate': 0.00014624913103552189, 'epoch': 0.65}
+{'loss': 1.459, 'grad_norm': 0.11477558314800262, 'learning_rate': 0.00014606052607852923, 'epoch': 0.65}
+{'loss': 1.4841, 'grad_norm': 0.11945255100727081, 'learning_rate': 0.0001458719926140054, 'epoch': 0.65}
+{'loss': 1.4685, 'grad_norm': 0.13103733956813812, 'learning_rate': 0.00014568353077162887, 'epoch': 0.65}
+{'loss': 1.4632, 'grad_norm': 0.11594894528388977, 'learning_rate': 0.00014549514068102904, 'epoch': 0.65}
+{'loss': 1.4676, 'grad_norm': 0.11128522455692291, 'learning_rate': 0.0001453068224717858, 'epoch': 0.65}
+{'loss': 1.4522, 'grad_norm': 0.14759023487567902, 'learning_rate': 0.0001451185762734295, 'epoch': 0.65}
+{'loss': 1.4966, 'grad_norm': 0.10425377637147903, 'learning_rate': 0.00014493040221544146, 'epoch': 0.65}
+{'loss': 1.5015, 'grad_norm': 0.10258416831493378, 'learning_rate': 0.00014474230042725271, 'epoch': 0.65}
+{'loss': 1.4821, 'grad_norm': 0.15318123996257782, 'learning_rate': 0.00014455427103824523, 'epoch': 0.65}
+{'loss': 1.4554, 'grad_norm': 0.10858342796564102, 'learning_rate': 0.0001443663141777506, 'epoch': 0.65}
+{'loss': 1.4626, 'grad_norm': 0.11033730208873749, 'learning_rate': 0.000144178429975051, 'epoch': 0.65}
+{'loss': 1.4583, 'grad_norm': 0.13890781998634338, 'learning_rate': 0.00014399061855937834, 'epoch': 0.65}
+{'loss': 1.4546, 'grad_norm': 0.10780026018619537, 'learning_rate': 0.00014380288005991454, 'epoch': 0.65}
+{'loss': 1.4801, 'grad_norm': 0.10429741442203522, 'learning_rate': 0.00014361521460579138, 'epoch': 0.65}
+{'loss': 1.4204, 'grad_norm': 0.11413104087114334, 'learning_rate': 0.0001434276223260903, 'epoch': 0.65}
+{'loss': 1.4765, 'grad_norm': 0.1096610426902771, 'learning_rate': 0.00014324010334984267, 'epoch': 0.65}
+{'loss': 1.4671, 'grad_norm': 0.10096573084592819, 'learning_rate': 0.00014305265780602911, 'epoch': 0.65}
+{'loss': 1.442, 'grad_norm': 0.1283748745918274, 'learning_rate': 0.00014286528582358005, 'epoch': 0.65}
+{'loss': 1.4562, 'grad_norm': 0.09360364824533463, 'learning_rate': 0.00014267798753137513, 'epoch': 0.65}
+{'loss': 1.4427, 'grad_norm': 0.1002335324883461, 'learning_rate': 0.00014249076305824316, 'epoch': 0.65}
+{'loss': 1.4604, 'grad_norm': 0.09282123297452927, 'learning_rate': 0.0001423036125329626, 'epoch': 0.65}
+{'loss': 1.4586, 'grad_norm': 0.08992602676153183, 'learning_rate': 0.0001421165360842607, 'epoch': 0.65}
+{'loss': 1.4366, 'grad_norm': 0.11014391481876373, 'learning_rate': 0.00014192953384081387, 'epoch': 0.65}
+{'loss': 1.4501, 'grad_norm': 0.09882279485464096, 'learning_rate': 0.00014174260593124733, 'epoch': 0.65}
+{'loss': 1.4323, 'grad_norm': 0.11898170411586761, 'learning_rate': 0.0001415557524841354, 'epoch': 0.65}
+{'loss': 1.4639, 'grad_norm': 0.10051845759153366, 'learning_rate': 0.00014136897362800128, 'epoch': 0.65}
+{'loss': 1.471, 'grad_norm': 0.10932403057813644, 'learning_rate': 0.00014118226949131647, 'epoch': 0.65}
+{'loss': 1.4567, 'grad_norm': 0.10685449838638306, 'learning_rate': 0.00014099564020250132, 'epoch': 0.65}
+{'loss': 1.4607, 'grad_norm': 0.1004403680562973, 'learning_rate': 0.0001408090858899246, 'epoch': 0.65}
+{'loss': 1.4767, 'grad_norm': 0.09618978202342987, 'learning_rate': 0.00014062260668190374, 'epoch': 0.65}
+{'loss': 1.4727, 'grad_norm': 0.09703623503446579, 'learning_rate': 0.0001404362027067042, 'epoch': 0.66}
+{'loss': 1.4738, 'grad_norm': 0.09898590296506882, 'learning_rate': 0.0001402498740925398, 'epoch': 0.66}
+{'loss': 1.4301, 'grad_norm': 0.10109176486730576, 'learning_rate': 0.00014006362096757275, 'epoch': 0.66}
+{'loss': 1.4633, 'grad_norm': 0.0936121791601181, 'learning_rate': 0.0001398774434599129, 'epoch': 0.66}
+{'loss': 1.4417, 'grad_norm': 0.10921298712491989, 'learning_rate': 0.0001396913416976185, 'epoch': 0.66}
+{'loss': 1.4569, 'grad_norm': 0.09895940870046616, 'learning_rate': 0.00013950531580869552, 'epoch': 0.66}
+{'loss': 1.4822, 'grad_norm': 0.09675993025302887, 'learning_rate': 0.00013931936592109773, 'epoch': 0.66}
+{'loss': 1.4672, 'grad_norm': 0.10265492647886276, 'learning_rate': 0.00013913349216272659, 'epoch': 0.66}
+{'loss': 1.465, 'grad_norm': 0.10288569331169128, 'learning_rate': 0.00013894769466143127, 'epoch': 0.66}
+{'loss': 1.4638, 'grad_norm': 0.10789869725704193, 'learning_rate': 0.0001387619735450084, 'epoch': 0.66}
+{'loss': 1.4648, 'grad_norm': 0.08483941853046417, 'learning_rate': 0.0001385763289412024, 'epoch': 0.66}
+{'loss': 1.4722, 'grad_norm': 0.10447020083665848, 'learning_rate': 0.0001383907609777047, 'epoch': 0.66}
+{'loss': 1.462, 'grad_norm': 0.09696955233812332, 'learning_rate': 0.00013820526978215402, 'epoch': 0.66}
+{'loss': 1.4546, 'grad_norm': 0.09228654950857162, 'learning_rate': 0.00013801985548213632, 'epoch': 0.66}
+{'loss': 1.4336, 'grad_norm': 0.09027259796857834, 'learning_rate': 0.00013783451820518493, 'epoch': 0.66}
+{'loss': 1.4535, 'grad_norm': 0.09865795075893402, 'learning_rate': 0.00013764925807877994, 'epoch': 0.66}
+{'loss': 1.4794, 'grad_norm': 0.08921871334314346, 'learning_rate': 0.0001374640752303483, 'epoch': 0.66}
+{'loss': 1.4925, 'grad_norm': 0.11317956447601318, 'learning_rate': 0.000137278969787264, 'epoch': 0.66}
+{'loss': 1.4712, 'grad_norm': 0.10600131005048752, 'learning_rate': 0.00013709394187684786, 'epoch': 0.66}
+{'loss': 1.4807, 'grad_norm': 0.08989130705595016, 'learning_rate': 0.00013690899162636713, 'epoch': 0.66}
+{'loss': 1.4834, 'grad_norm': 0.10257551074028015, 'learning_rate': 0.00013672411916303576, 'epoch': 0.66}
+{'loss': 1.4673, 'grad_norm': 0.09743180871009827, 'learning_rate': 0.0001365393246140142, 'epoch': 0.66}
+{'loss': 1.4505, 'grad_norm': 0.10253091156482697, 'learning_rate': 0.00013635460810640916, 'epoch': 0.66}
+{'loss': 1.4481, 'grad_norm': 0.09469515830278397, 'learning_rate': 0.00013616996976727397, 'epoch': 0.66}
+{'loss': 1.4343, 'grad_norm': 0.10675916820764542, 'learning_rate': 0.00013598540972360794, 'epoch': 0.66}
+{'loss': 1.4508, 'grad_norm': 0.10328453034162521, 'learning_rate': 0.00013580092810235673, 'epoch': 0.66}
+{'loss': 1.4702, 'grad_norm': 0.1077500507235527, 'learning_rate': 0.00013561652503041186, 'epoch': 0.66}
+{'loss': 1.4482, 'grad_norm': 0.10429754853248596, 'learning_rate': 0.0001354322006346108, 'epoch': 0.66}
+{'loss': 1.4795, 'grad_norm': 0.11552505940198898, 'learning_rate': 0.00013524795504173725, 'epoch': 0.66}
+{'loss': 1.46, 'grad_norm': 0.11618303507566452, 'learning_rate': 0.0001350637883785203, 'epoch': 0.66}
+{'loss': 1.4547, 'grad_norm': 0.09857580065727234, 'learning_rate': 0.000134879700771635, 'epoch': 0.66}
+{'loss': 1.4517, 'grad_norm': 0.10432493686676025, 'learning_rate': 0.0001346956923477018, 'epoch': 0.66}
+{'loss': 1.4727, 'grad_norm': 0.115797258913517, 'learning_rate': 0.00013451176323328687, 'epoch': 0.66}
+{'loss': 1.4717, 'grad_norm': 0.10787389427423477, 'learning_rate': 0.00013432791355490198, 'epoch': 0.66}
+{'loss': 1.4464, 'grad_norm': 0.09744325280189514, 'learning_rate': 0.0001341441434390039, 'epoch': 0.66}
+{'loss': 1.4638, 'grad_norm': 0.0972963348031044, 'learning_rate': 0.00013396045301199483, 'epoch': 0.66}
+{'loss': 1.471, 'grad_norm': 0.09505592286586761, 'learning_rate': 0.00013377684240022214, 'epoch': 0.66}
+{'loss': 1.4565, 'grad_norm': 0.0989653468132019, 'learning_rate': 0.00013359331172997847, 'epoch': 0.66}
+{'loss': 1.46, 'grad_norm': 0.09862331300973892, 'learning_rate': 0.00013340986112750125, 'epoch': 0.66}
+{'loss': 1.4526, 'grad_norm': 0.09702354669570923, 'learning_rate': 0.00013322649071897285, 'epoch': 0.67}
+{'loss': 1.4705, 'grad_norm': 0.08543431013822556, 'learning_rate': 0.0001330432006305207, 'epoch': 0.67}
+{'loss': 1.4257, 'grad_norm': 0.10637002438306808, 'learning_rate': 0.00013285999098821665, 'epoch': 0.67}
+{'loss': 1.4679, 'grad_norm': 0.10177875310182571, 'learning_rate': 0.00013267686191807763, 'epoch': 0.67}
+{'loss': 1.459, 'grad_norm': 0.10408209264278412, 'learning_rate': 0.00013249381354606476, 'epoch': 0.67}
+{'loss': 1.4449, 'grad_norm': 0.11112922430038452, 'learning_rate': 0.0001323108459980839, 'epoch': 0.67}
+{'loss': 1.4549, 'grad_norm': 0.10694786161184311, 'learning_rate': 0.0001321279593999852, 'epoch': 0.67}
+{'loss': 1.4719, 'grad_norm': 0.09768747538328171, 'learning_rate': 0.00013194515387756297, 'epoch': 0.67}
+{'loss': 1.4852, 'grad_norm': 0.10456877946853638, 'learning_rate': 0.00013176242955655626, 'epoch': 0.67}
+{'loss': 1.4666, 'grad_norm': 0.10622695833444595, 'learning_rate': 0.00013157978656264775, 'epoch': 0.67}
+{'loss': 1.4433, 'grad_norm': 0.09060116112232208, 'learning_rate': 0.00013139722502146452, 'epoch': 0.67}
+{'loss': 1.465, 'grad_norm': 0.10610774904489517, 'learning_rate': 0.00013121474505857744, 'epoch': 0.67}
+{'loss': 1.4571, 'grad_norm': 0.10440204292535782, 'learning_rate': 0.00013103234679950117, 'epoch': 0.67}
+{'loss': 1.4544, 'grad_norm': 0.10024233162403107, 'learning_rate': 0.00013085003036969456, 'epoch': 0.67}
+{'loss': 1.4872, 'grad_norm': 0.10161616653203964, 'learning_rate': 0.00013066779589455984, 'epoch': 0.67}
+{'loss': 1.4521, 'grad_norm': 0.10191305726766586, 'learning_rate': 0.00013048564349944295, 'epoch': 0.67}
+{'loss': 1.473, 'grad_norm': 0.10306788980960846, 'learning_rate': 0.00013030357330963326, 'epoch': 0.67}
+{'loss': 1.478, 'grad_norm': 0.09698649495840073, 'learning_rate': 0.00013012158545036388, 'epoch': 0.67}
+{'loss': 1.4599, 'grad_norm': 0.11729058623313904, 'learning_rate': 0.00012993968004681116, 'epoch': 0.67}
+{'loss': 1.4695, 'grad_norm': 0.10164891928434372, 'learning_rate': 0.0001297578572240947, 'epoch': 0.67}
+{'loss': 1.4571, 'grad_norm': 0.09140811860561371, 'learning_rate': 0.00012957611710727723, 'epoch': 0.67}
+{'loss': 1.4693, 'grad_norm': 0.11561691015958786, 'learning_rate': 0.00012939445982136462, 'epoch': 0.67}
+{'loss': 1.451, 'grad_norm': 0.09858107566833496, 'learning_rate': 0.000129212885491306, 'epoch': 0.67}
+{'loss': 1.4614, 'grad_norm': 0.10430561006069183, 'learning_rate': 0.00012903139424199313, 'epoch': 0.67}
+{'loss': 1.4518, 'grad_norm': 0.10529306530952454, 'learning_rate': 0.0001288499861982607, 'epoch': 0.67}
+{'loss': 1.4628, 'grad_norm': 0.110445037484169, 'learning_rate': 0.00012866866148488637, 'epoch': 0.67}
+{'loss': 1.4872, 'grad_norm': 0.10108974575996399, 'learning_rate': 0.00012848742022659022, 'epoch': 0.67}
+{'loss': 1.4633, 'grad_norm': 0.09964673221111298, 'learning_rate': 0.0001283062625480351, 'epoch': 0.67}
+{'loss': 1.4519, 'grad_norm': 0.1200341060757637, 'learning_rate': 0.00012812518857382638, 'epoch': 0.67}
+{'loss': 1.4871, 'grad_norm': 0.09659235924482346, 'learning_rate': 0.0001279441984285117, 'epoch': 0.67}
+{'loss': 1.4449, 'grad_norm': 0.0929545909166336, 'learning_rate': 0.00012776329223658113, 'epoch': 0.67}
+{'loss': 1.4407, 'grad_norm': 0.11230683326721191, 'learning_rate': 0.0001275824701224669, 'epoch': 0.67}
+{'loss': 1.4741, 'grad_norm': 0.11042510718107224, 'learning_rate': 0.00012740173221054358, 'epoch': 0.67}
+{'loss': 1.4524, 'grad_norm': 0.1038660928606987, 'learning_rate': 0.00012722107862512787, 'epoch': 0.67}
+{'loss': 1.4711, 'grad_norm': 0.11799038201570511, 'learning_rate': 0.00012704050949047824, 'epoch': 0.67}
+{'loss': 1.4655, 'grad_norm': 0.09784175455570221, 'learning_rate': 0.00012686002493079524, 'epoch': 0.67}
+{'loss': 1.4466, 'grad_norm': 0.10669370740652084, 'learning_rate': 0.00012667962507022096, 'epoch': 0.67}
+{'loss': 1.4662, 'grad_norm': 0.09813816100358963, 'learning_rate': 0.00012649931003283976, 'epoch': 0.67}
+{'loss': 1.4464, 'grad_norm': 0.09223797172307968, 'learning_rate': 0.0001263190799426772, 'epoch': 0.67}
+{'loss': 1.4482, 'grad_norm': 0.09801521897315979, 'learning_rate': 0.00012613893492370047, 'epoch': 0.68}
+{'loss': 1.4657, 'grad_norm': 0.09676109254360199, 'learning_rate': 0.00012595887509981844, 'epoch': 0.68}
+{'loss': 1.4622, 'grad_norm': 0.09531006217002869, 'learning_rate': 0.00012577890059488136, 'epoch': 0.68}
+{'loss': 1.4624, 'grad_norm': 0.0943860113620758, 'learning_rate': 0.00012559901153268065, 'epoch': 0.68}
+{'loss': 1.4627, 'grad_norm': 0.11485814303159714, 'learning_rate': 0.000125419208036949, 'epoch': 0.68}
+{'loss': 1.4614, 'grad_norm': 0.10076217353343964, 'learning_rate': 0.00012523949023136028, 'epoch': 0.68}
+{'loss': 1.4724, 'grad_norm': 0.08584795892238617, 'learning_rate': 0.0001250598582395293, 'epoch': 0.68}
+{'loss': 1.4806, 'grad_norm': 0.10297611355781555, 'learning_rate': 0.00012488031218501217, 'epoch': 0.68}
+{'loss': 1.4564, 'grad_norm': 0.09173043817281723, 'learning_rate': 0.00012470085219130545, 'epoch': 0.68}
+{'loss': 1.4607, 'grad_norm': 0.09401063621044159, 'learning_rate': 0.00012452147838184694, 'epoch': 0.68}
+{'loss': 1.4854, 'grad_norm': 0.09924453496932983, 'learning_rate': 0.00012434219088001483, 'epoch': 0.68}
+{'loss': 1.46, 'grad_norm': 0.09478873759508133, 'learning_rate': 0.00012416298980912798, 'epoch': 0.68}
+{'loss': 1.4651, 'grad_norm': 0.1008218377828598, 'learning_rate': 0.00012398387529244612, 'epoch': 0.68}
+{'loss': 1.4658, 'grad_norm': 0.09059418737888336, 'learning_rate': 0.00012380484745316904, 'epoch': 0.68}
+{'loss': 1.4572, 'grad_norm': 0.09688062965869904, 'learning_rate': 0.00012362590641443712, 'epoch': 0.68}
+{'loss': 1.4634, 'grad_norm': 0.0855334922671318, 'learning_rate': 0.0001234470522993309, 'epoch': 0.68}
+{'loss': 1.4906, 'grad_norm': 0.09625721722841263, 'learning_rate': 0.0001232682852308713, 'epoch': 0.68}
+{'loss': 1.4146, 'grad_norm': 0.09614404290914536, 'learning_rate': 0.00012308960533201943, 'epoch': 0.68}
+{'loss': 1.4324, 'grad_norm': 0.1004287376999855, 'learning_rate': 0.0001229110127256762, 'epoch': 0.68}
+{'loss': 1.4574, 'grad_norm': 0.10011138021945953, 'learning_rate': 0.00012273250753468254, 'epoch': 0.68}
+{'loss': 1.4835, 'grad_norm': 0.09016236662864685, 'learning_rate': 0.00012255408988181925, 'epoch': 0.68}
+{'loss': 1.4755, 'grad_norm': 0.1021822839975357, 'learning_rate': 0.00012237575988980717, 'epoch': 0.68}
+{'loss': 1.4723, 'grad_norm': 0.09208779036998749, 'learning_rate': 0.0001221975176813065, 'epoch': 0.68}
+{'loss': 1.4436, 'grad_norm': 0.10466814786195755, 'learning_rate': 0.00012201936337891714, 'epoch': 0.68}
+{'loss': 1.4492, 'grad_norm': 0.09877774119377136, 'learning_rate': 0.00012184129710517877, 'epoch': 0.68}
+{'loss': 1.4406, 'grad_norm': 0.08888191729784012, 'learning_rate': 0.00012166331898257017, 'epoch': 0.68}
+{'loss': 1.4516, 'grad_norm': 0.10585206001996994, 'learning_rate': 0.00012148542913350977, 'epoch': 0.68}
+{'loss': 1.4376, 'grad_norm': 0.10319393128156662, 'learning_rate': 0.00012130762768035517, 'epoch': 0.68}
+{'loss': 1.4201, 'grad_norm': 0.09964680671691895, 'learning_rate': 0.00012112991474540311, 'epoch': 0.68}
+{'loss': 1.4629, 'grad_norm': 0.09811821579933167, 'learning_rate': 0.00012095229045088949, 'epoch': 0.68}
+{'loss': 1.477, 'grad_norm': 0.0921340361237526, 'learning_rate': 0.00012077475491898921, 'epoch': 0.68}
+{'loss': 1.4704, 'grad_norm': 0.10487533360719681, 'learning_rate': 0.00012059730827181634, 'epoch': 0.68}
+{'loss': 1.4684, 'grad_norm': 0.0910114198923111, 'learning_rate': 0.00012041995063142339, 'epoch': 0.68}
+{'loss': 1.4775, 'grad_norm': 0.09464036673307419, 'learning_rate': 0.00012024268211980214, 'epoch': 0.68}
+{'loss': 1.487, 'grad_norm': 0.10517535358667374, 'learning_rate': 0.0001200655028588827, 'epoch': 0.68}
+{'loss': 1.4924, 'grad_norm': 0.10091499239206314, 'learning_rate': 0.00011988841297053379, 'epoch': 0.68}
+{'loss': 1.4676, 'grad_norm': 0.0959746316075325, 'learning_rate': 0.00011971141257656301, 'epoch': 0.68}
+{'loss': 1.4535, 'grad_norm': 0.09698832035064697, 'learning_rate': 0.00011953450179871606, 'epoch': 0.68}
+{'loss': 1.4673, 'grad_norm': 0.09267719835042953, 'learning_rate': 0.00011935768075867707, 'epoch': 0.68}
+{'loss': 1.4542, 'grad_norm': 0.10440683364868164, 'learning_rate': 0.0001191809495780684, 'epoch': 0.69}
+{'loss': 1.432, 'grad_norm': 0.10009440034627914, 'learning_rate': 0.0001190043083784508, 'epoch': 0.69}
+{'loss': 1.4565, 'grad_norm': 0.10216202586889267, 'learning_rate': 0.00011882775728132309, 'epoch': 0.69}
+{'loss': 1.4561, 'grad_norm': 0.09716501832008362, 'learning_rate': 0.00011865129640812198, 'epoch': 0.69}
+{'loss': 1.425, 'grad_norm': 0.08753267675638199, 'learning_rate': 0.00011847492588022213, 'epoch': 0.69}
+{'loss': 1.45, 'grad_norm': 0.10720015317201614, 'learning_rate': 0.000118298645818936, 'epoch': 0.69}
+{'loss': 1.4541, 'grad_norm': 0.09071522206068039, 'learning_rate': 0.00011812245634551421, 'epoch': 0.69}
+{'loss': 1.4547, 'grad_norm': 0.1126088947057724, 'learning_rate': 0.00011794635758114464, 'epoch': 0.69}
+{'loss': 1.4637, 'grad_norm': 0.12247200310230255, 'learning_rate': 0.00011777034964695282, 'epoch': 0.69}
+{'loss': 1.467, 'grad_norm': 0.11193470656871796, 'learning_rate': 0.00011759443266400213, 'epoch': 0.69}
+{'loss': 1.4429, 'grad_norm': 0.10650838911533356, 'learning_rate': 0.00011741860675329296, 'epoch': 0.69}
+{'loss': 1.4824, 'grad_norm': 0.118252694606781, 'learning_rate': 0.00011724287203576353, 'epoch': 0.69}
+{'loss': 1.4548, 'grad_norm': 0.1149669885635376, 'learning_rate': 0.00011706722863228892, 'epoch': 0.69}
+{'loss': 1.477, 'grad_norm': 0.10328783094882965, 'learning_rate': 0.00011689167666368155, 'epoch': 0.69}
+{'loss': 1.4583, 'grad_norm': 0.11321966350078583, 'learning_rate': 0.00011671621625069103, 'epoch': 0.69}
+{'loss': 1.4464, 'grad_norm': 0.12217070907354355, 'learning_rate': 0.00011654084751400379, 'epoch': 0.69}
+{'loss': 1.4451, 'grad_norm': 0.10434461385011673, 'learning_rate': 0.00011636557057424344, 'epoch': 0.69}
+{'loss': 1.449, 'grad_norm': 0.11072831600904465, 'learning_rate': 0.00011619038555197042, 'epoch': 0.69}
+{'loss': 1.4587, 'grad_norm': 0.13259407877922058, 'learning_rate': 0.00011601529256768181, 'epoch': 0.69}
+{'loss': 1.4388, 'grad_norm': 0.10618046671152115, 'learning_rate': 0.00011584029174181132, 'epoch': 0.69}
+{'loss': 1.4322, 'grad_norm': 0.1034625917673111, 'learning_rate': 0.00011566538319472963, 'epoch': 0.69}
+{'loss': 1.4485, 'grad_norm': 0.1237969622015953, 'learning_rate': 0.00011549056704674357, 'epoch': 0.69}
+{'loss': 1.4533, 'grad_norm': 0.11100710928440094, 'learning_rate': 0.00011531584341809661, 'epoch': 0.69}
+{'loss': 1.4478, 'grad_norm': 0.09478534758090973, 'learning_rate': 0.0001151412124289684, 'epoch': 0.69}
+{'loss': 1.473, 'grad_norm': 0.09862956404685974, 'learning_rate': 0.00011496667419947515, 'epoch': 0.69}
+{'loss': 1.4535, 'grad_norm': 0.13229741156101227, 'learning_rate': 0.00011479222884966916, 'epoch': 0.69}
+{'loss': 1.4465, 'grad_norm': 0.10910629481077194, 'learning_rate': 0.00011461787649953875, 'epoch': 0.69}
+{'loss': 1.4633, 'grad_norm': 0.1310073584318161, 'learning_rate': 0.00011444361726900832, 'epoch': 0.69}
+{'loss': 1.468, 'grad_norm': 0.1126147210597992, 'learning_rate': 0.0001142694512779382, 'epoch': 0.69}
+{'loss': 1.4681, 'grad_norm': 0.11106126755475998, 'learning_rate': 0.00011409537864612454, 'epoch': 0.69}
+{'loss': 1.4638, 'grad_norm': 0.1012069433927536, 'learning_rate': 0.00011392139949329957, 'epoch': 0.69}
+{'loss': 1.4616, 'grad_norm': 0.1053268313407898, 'learning_rate': 0.00011374751393913078, 'epoch': 0.69}
+{'loss': 1.4313, 'grad_norm': 0.1238599643111229, 'learning_rate': 0.0001135737221032217, 'epoch': 0.69}
+{'loss': 1.4721, 'grad_norm': 0.10415923595428467, 'learning_rate': 0.0001134000241051111, 'epoch': 0.69}
+{'loss': 1.482, 'grad_norm': 0.11286134272813797, 'learning_rate': 0.00011322642006427322, 'epoch': 0.69}
+{'loss': 1.4682, 'grad_norm': 0.1256989687681198, 'learning_rate': 0.00011305291010011795, 'epoch': 0.69}
+{'loss': 1.4618, 'grad_norm': 0.0977579802274704, 'learning_rate': 0.00011287949433199018, 'epoch': 0.69}
+{'loss': 1.4319, 'grad_norm': 0.10265498608350754, 'learning_rate': 0.00011270617287917016, 'epoch': 0.69}
+{'loss': 1.4524, 'grad_norm': 0.1093534603714943, 'learning_rate': 0.00011253294586087304, 'epoch': 0.69}
+{'loss': 1.4677, 'grad_norm': 0.11881173402070999, 'learning_rate': 0.00011235981339624935, 'epoch': 0.7}
+{'loss': 1.4654, 'grad_norm': 0.10482939332723618, 'learning_rate': 0.00011218677560438448, 'epoch': 0.7}
+{'loss': 1.4749, 'grad_norm': 0.09340111166238785, 'learning_rate': 0.00011201383260429859, 'epoch': 0.7}
+{'loss': 1.4632, 'grad_norm': 0.11875393986701965, 'learning_rate': 0.0001118409845149467, 'epoch': 0.7}
+{'loss': 1.4803, 'grad_norm': 0.11730652302503586, 'learning_rate': 0.00011166823145521842, 'epoch': 0.7}
+{'loss': 1.4638, 'grad_norm': 0.09773712605237961, 'learning_rate': 0.00011149557354393832, 'epoch': 0.7}
+{'loss': 1.4505, 'grad_norm': 0.11470286548137665, 'learning_rate': 0.00011132301089986527, 'epoch': 0.7}
+{'loss': 1.456, 'grad_norm': 0.1008046567440033, 'learning_rate': 0.00011115054364169253, 'epoch': 0.7}
+{'loss': 1.4572, 'grad_norm': 0.09327536076307297, 'learning_rate': 0.0001109781718880481, 'epoch': 0.7}
+{'loss': 1.467, 'grad_norm': 0.11423107981681824, 'learning_rate': 0.00011080589575749386, 'epoch': 0.7}
+{'loss': 1.4568, 'grad_norm': 0.10121176391839981, 'learning_rate': 0.00011063371536852637, 'epoch': 0.7}
+{'loss': 1.4608, 'grad_norm': 0.10808847844600677, 'learning_rate': 0.00011046163083957597, 'epoch': 0.7}
+{'loss': 1.4811, 'grad_norm': 0.09977345168590546, 'learning_rate': 0.00011028964228900723, 'epoch': 0.7}
+{'loss': 1.4704, 'grad_norm': 0.09497155994176865, 'learning_rate': 0.00011011774983511865, 'epoch': 0.7}
+{'loss': 1.472, 'grad_norm': 0.09249036014080048, 'learning_rate': 0.00010994595359614257, 'epoch': 0.7}
+{'loss': 1.4319, 'grad_norm': 0.10323017835617065, 'learning_rate': 0.00010977425369024543, 'epoch': 0.7}
+{'loss': 1.4623, 'grad_norm': 0.09409938007593155, 'learning_rate': 0.00010960265023552701, 'epoch': 0.7}
+{'loss': 1.4676, 'grad_norm': 0.09211853891611099, 'learning_rate': 0.00010943114335002113, 'epoch': 0.7}
+{'loss': 1.4492, 'grad_norm': 0.09629344940185547, 'learning_rate': 0.00010925973315169485, 'epoch': 0.7}
+{'loss': 1.4854, 'grad_norm': 0.10836419463157654, 'learning_rate': 0.00010908841975844905, 'epoch': 0.7}
+{'loss': 1.4695, 'grad_norm': 0.09705720096826553, 'learning_rate': 0.00010891720328811777, 'epoch': 0.7}
+{'loss': 1.4678, 'grad_norm': 0.08932452648878098, 'learning_rate': 0.00010874608385846846, 'epoch': 0.7}
+{'loss': 1.4618, 'grad_norm': 0.10008641332387924, 'learning_rate': 0.00010857506158720187, 'epoch': 0.7}
+{'loss': 1.4836, 'grad_norm': 0.10000961273908615, 'learning_rate': 0.00010840413659195178, 'epoch': 0.7}
+{'loss': 1.457, 'grad_norm': 0.105465367436409, 'learning_rate': 0.00010823330899028524, 'epoch': 0.7}
+{'loss': 1.481, 'grad_norm': 0.1036549061536789, 'learning_rate': 0.00010806257889970237, 'epoch': 0.7}
+{'loss': 1.452, 'grad_norm': 0.11510683596134186, 'learning_rate': 0.00010789194643763597, 'epoch': 0.7}
+{'loss': 1.4438, 'grad_norm': 0.11268110573291779, 'learning_rate': 0.00010772141172145181, 'epoch': 0.7}
+{'loss': 1.4694, 'grad_norm': 0.09074576199054718, 'learning_rate': 0.00010755097486844831, 'epoch': 0.7}
+{'loss': 1.4789, 'grad_norm': 0.10927116870880127, 'learning_rate': 0.0001073806359958569, 'epoch': 0.7}
+{'loss': 1.4546, 'grad_norm': 0.10345825552940369, 'learning_rate': 0.00010721039522084134, 'epoch': 0.7}
+{'loss': 1.4696, 'grad_norm': 0.09916937351226807, 'learning_rate': 0.00010704025266049782, 'epoch': 0.7}
+{'loss': 1.4734, 'grad_norm': 0.09612708538770676, 'learning_rate': 0.00010687020843185538, 'epoch': 0.7}
+{'loss': 1.4664, 'grad_norm': 0.10974070429801941, 'learning_rate': 0.00010670026265187499, 'epoch': 0.7}
+{'loss': 1.4473, 'grad_norm': 0.09840896725654602, 'learning_rate': 0.00010653041543745027, 'epoch': 0.7}
+{'loss': 1.4529, 'grad_norm': 0.10251779854297638, 'learning_rate': 0.00010636066690540677, 'epoch': 0.7}
+{'loss': 1.464, 'grad_norm': 0.1033451035618782, 'learning_rate': 0.00010619101717250226, 'epoch': 0.7}
+{'loss': 1.4428, 'grad_norm': 0.10517998784780502, 'learning_rate': 0.0001060214663554265, 'epoch': 0.7}
+{'loss': 1.4761, 'grad_norm': 0.10926774889230728, 'learning_rate': 0.00010585201457080144, 'epoch': 0.7}
+{'loss': 1.4563, 'grad_norm': 0.11410937458276749, 'learning_rate': 0.00010568266193518053, 'epoch': 0.71}
+{'loss': 1.46, 'grad_norm': 0.0927853211760521, 'learning_rate': 0.00010551340856504946, 'epoch': 0.71}
+{'loss': 1.4407, 'grad_norm': 0.10689569264650345, 'learning_rate': 0.0001053442545768253, 'epoch': 0.71}
+{'loss': 1.466, 'grad_norm': 0.11708860844373703, 'learning_rate': 0.0001051752000868568, 'epoch': 0.71}
+{'loss': 1.4666, 'grad_norm': 0.11117303371429443, 'learning_rate': 0.00010500624521142455, 'epoch': 0.71}
+{'loss': 1.472, 'grad_norm': 0.10040947049856186, 'learning_rate': 0.00010483739006674029, 'epoch': 0.71}
+{'loss': 1.4862, 'grad_norm': 0.1109396293759346, 'learning_rate': 0.00010466863476894733, 'epoch': 0.71}
+{'loss': 1.4548, 'grad_norm': 0.10982964187860489, 'learning_rate': 0.00010449997943412018, 'epoch': 0.71}
+{'loss': 1.4743, 'grad_norm': 0.11857694387435913, 'learning_rate': 0.00010433142417826477, 'epoch': 0.71}
+{'loss': 1.4681, 'grad_norm': 0.10281968861818314, 'learning_rate': 0.00010416296911731818, 'epoch': 0.71}
+{'loss': 1.4609, 'grad_norm': 0.0918886661529541, 'learning_rate': 0.00010399461436714844, 'epoch': 0.71}
+{'loss': 1.4409, 'grad_norm': 0.09731963276863098, 'learning_rate': 0.00010382636004355459, 'epoch': 0.71}
+{'loss': 1.4419, 'grad_norm': 0.1099175289273262, 'learning_rate': 0.00010365820626226671, 'epoch': 0.71}
+{'loss': 1.4814, 'grad_norm': 0.09716429561376572, 'learning_rate': 0.00010349015313894552, 'epoch': 0.71}
+{'loss': 1.4444, 'grad_norm': 0.09879443049430847, 'learning_rate': 0.00010332220078918286, 'epoch': 0.71}
+{'loss': 1.4693, 'grad_norm': 0.09690919518470764, 'learning_rate': 0.00010315434932850081, 'epoch': 0.71}
+{'loss': 1.458, 'grad_norm': 0.10085907578468323, 'learning_rate': 0.00010298659887235254, 'epoch': 0.71}
+{'loss': 1.4196, 'grad_norm': 0.11426200717687607, 'learning_rate': 0.00010281894953612134, 'epoch': 0.71}
+{'loss': 1.4514, 'grad_norm': 0.10148154944181442, 'learning_rate': 0.00010265140143512103, 'epoch': 0.71}
+{'loss': 1.4604, 'grad_norm': 0.09944193810224533, 'learning_rate': 0.00010248395468459607, 'epoch': 0.71}
+{'loss': 1.4521, 'grad_norm': 0.10537935048341751, 'learning_rate': 0.00010231660939972084, 'epoch': 0.71}
+{'loss': 1.455, 'grad_norm': 0.10711679607629776, 'learning_rate': 0.00010214936569560019, 'epoch': 0.71}
+{'loss': 1.4625, 'grad_norm': 0.10267636924982071, 'learning_rate': 0.00010198222368726884, 'epoch': 0.71}
+{'loss': 1.4615, 'grad_norm': 0.09739132225513458, 'learning_rate': 0.00010181518348969188, 'epoch': 0.71}
+{'loss': 1.4325, 'grad_norm': 0.11179821938276291, 'learning_rate': 0.00010164824521776423, 'epoch': 0.71}
+{'loss': 1.4483, 'grad_norm': 0.10315048694610596, 'learning_rate': 0.00010148140898631064, 'epoch': 0.71}
+{'loss': 1.4615, 'grad_norm': 0.1048884242773056, 'learning_rate': 0.00010131467491008573, 'epoch': 0.71}
+{'loss': 1.4381, 'grad_norm': 0.09616083651781082, 'learning_rate': 0.00010114804310377377, 'epoch': 0.71}
+{'loss': 1.4547, 'grad_norm': 0.09654206782579422, 'learning_rate': 0.00010098151368198887, 'epoch': 0.71}
+{'loss': 1.4438, 'grad_norm': 0.10344291478395462, 'learning_rate': 0.00010081508675927461, 'epoch': 0.71}
+{'loss': 1.4312, 'grad_norm': 0.10108815133571625, 'learning_rate': 0.00010064876245010394, 'epoch': 0.71}
+{'loss': 1.4396, 'grad_norm': 0.10523328185081482, 'learning_rate': 0.0001004825408688795, 'epoch': 0.71}
+{'loss': 1.4454, 'grad_norm': 0.10260371118783951, 'learning_rate': 0.00010031642212993303, 'epoch': 0.71}
+{'loss': 1.4756, 'grad_norm': 0.12265556305646896, 'learning_rate': 0.00010015040634752576, 'epoch': 0.71}
+{'loss': 1.4748, 'grad_norm': 0.10223975032567978, 'learning_rate': 9.998449363584788e-05, 'epoch': 0.71}
+{'loss': 1.4497, 'grad_norm': 0.10897180438041687, 'learning_rate': 9.981868410901878e-05, 'epoch': 0.71}
+{'loss': 1.4753, 'grad_norm': 0.10734881460666656, 'learning_rate': 9.96529778810869e-05, 'epoch': 0.71}
+{'loss': 1.4631, 'grad_norm': 0.09635914862155914, 'learning_rate': 9.948737506602954e-05, 'epoch': 0.71}
+{'loss': 1.4648, 'grad_norm': 0.11353498697280884, 'learning_rate': 9.932187577775303e-05, 'epoch': 0.71}
+{'loss': 1.4748, 'grad_norm': 0.1282048523426056, 'learning_rate': 9.91564801300923e-05, 'epoch': 0.72}
+{'loss': 1.4548, 'grad_norm': 0.1097697839140892, 'learning_rate': 9.899118823681122e-05, 'epoch': 0.72}
+{'loss': 1.4455, 'grad_norm': 0.10574142634868622, 'learning_rate': 9.882600021160198e-05, 'epoch': 0.72}
+{'loss': 1.4463, 'grad_norm': 0.100094735622406, 'learning_rate': 9.866091616808573e-05, 'epoch': 0.72}
+{'loss': 1.4276, 'grad_norm': 0.10872854292392731, 'learning_rate': 9.849593621981176e-05, 'epoch': 0.72}
+{'loss': 1.4604, 'grad_norm': 0.1078304573893547, 'learning_rate': 9.833106048025786e-05, 'epoch': 0.72}
+{'loss': 1.4644, 'grad_norm': 0.10116660594940186, 'learning_rate': 9.81662890628302e-05, 'epoch': 0.72}
+{'loss': 1.4575, 'grad_norm': 0.09987711906433105, 'learning_rate': 9.800162208086309e-05, 'epoch': 0.72}
+{'loss': 1.4474, 'grad_norm': 0.10813263058662415, 'learning_rate': 9.783705964761907e-05, 'epoch': 0.72}
+{'loss': 1.4694, 'grad_norm': 0.1210625171661377, 'learning_rate': 9.767260187628896e-05, 'epoch': 0.72}
+{'loss': 1.4546, 'grad_norm': 0.10005592554807663, 'learning_rate': 9.750824887999124e-05, 'epoch': 0.72}
+{'loss': 1.4437, 'grad_norm': 0.10656310617923737, 'learning_rate': 9.734400077177252e-05, 'epoch': 0.72}
+{'loss': 1.4716, 'grad_norm': 0.0984458327293396, 'learning_rate': 9.717985766460713e-05, 'epoch': 0.72}
+{'loss': 1.4781, 'grad_norm': 0.08982107788324356, 'learning_rate': 9.701581967139747e-05, 'epoch': 0.72}
+{'loss': 1.4677, 'grad_norm': 0.09692402184009552, 'learning_rate': 9.685188690497334e-05, 'epoch': 0.72}
+{'loss': 1.4589, 'grad_norm': 0.10999800264835358, 'learning_rate': 9.668805947809218e-05, 'epoch': 0.72}
+{'loss': 1.4573, 'grad_norm': 0.10800468176603317, 'learning_rate': 9.652433750343923e-05, 'epoch': 0.72}
+{'loss': 1.449, 'grad_norm': 0.10585682839155197, 'learning_rate': 9.636072109362687e-05, 'epoch': 0.72}
+{'loss': 1.4832, 'grad_norm': 0.09841158241033554, 'learning_rate': 9.619721036119522e-05, 'epoch': 0.72}
+{'loss': 1.4561, 'grad_norm': 0.0956108495593071, 'learning_rate': 9.60338054186114e-05, 'epoch': 0.72}
+{'loss': 1.441, 'grad_norm': 0.09921886771917343, 'learning_rate': 9.587050637826991e-05, 'epoch': 0.72}
+{'loss': 1.427, 'grad_norm': 0.0962526798248291, 'learning_rate': 9.570731335249228e-05, 'epoch': 0.72}
+{'loss': 1.4457, 'grad_norm': 0.0995425134897232, 'learning_rate': 9.554422645352742e-05, 'epoch': 0.72}
+{'loss': 1.4859, 'grad_norm': 0.10419812053442001, 'learning_rate': 9.538124579355084e-05, 'epoch': 0.72}
+{'loss': 1.4495, 'grad_norm': 0.09079711139202118, 'learning_rate': 9.521837148466538e-05, 'epoch': 0.72}
+{'loss': 1.4535, 'grad_norm': 0.09753591567277908, 'learning_rate': 9.505560363890048e-05, 'epoch': 0.72}
+{'loss': 1.4344, 'grad_norm': 0.10574059933423996, 'learning_rate': 9.489294236821224e-05, 'epoch': 0.72}
+{'loss': 1.4427, 'grad_norm': 0.09120788425207138, 'learning_rate': 9.473038778448384e-05, 'epoch': 0.72}
+{'loss': 1.4559, 'grad_norm': 0.1120109111070633, 'learning_rate': 9.456793999952478e-05, 'epoch': 0.72}
+{'loss': 1.4284, 'grad_norm': 0.09403865039348602, 'learning_rate': 9.440559912507113e-05, 'epoch': 0.72}
+{'loss': 1.4598, 'grad_norm': 0.10747847706079483, 'learning_rate': 9.424336527278543e-05, 'epoch': 0.72}
+{'loss': 1.4572, 'grad_norm': 0.0948275774717331, 'learning_rate': 9.408123855425671e-05, 'epoch': 0.72}
+{'loss': 1.4583, 'grad_norm': 0.10614725947380066, 'learning_rate': 9.391921908100032e-05, 'epoch': 0.72}
+{'loss': 1.4751, 'grad_norm': 0.09971106052398682, 'learning_rate': 9.375730696445772e-05, 'epoch': 0.72}
+{'loss': 1.4646, 'grad_norm': 0.10467682033777237, 'learning_rate': 9.359550231599657e-05, 'epoch': 0.72}
+{'loss': 1.4509, 'grad_norm': 0.1042659729719162, 'learning_rate': 9.343380524691061e-05, 'epoch': 0.72}
+{'loss': 1.4507, 'grad_norm': 0.10161246359348297, 'learning_rate': 9.327221586841952e-05, 'epoch': 0.72}
+{'loss': 1.4569, 'grad_norm': 0.09639960527420044, 'learning_rate': 9.311073429166913e-05, 'epoch': 0.72}
+{'loss': 1.4519, 'grad_norm': 0.09863852709531784, 'learning_rate': 9.294936062773082e-05, 'epoch': 0.72}
+{'loss': 1.4515, 'grad_norm': 0.12342733144760132, 'learning_rate': 9.278809498760205e-05, 'epoch': 0.72}
+{'loss': 1.4579, 'grad_norm': 0.09378080815076828, 'learning_rate': 9.262693748220569e-05, 'epoch': 0.73}
+{'loss': 1.4886, 'grad_norm': 0.09363611787557602, 'learning_rate': 9.24658882223905e-05, 'epoch': 0.73}
+{'loss': 1.466, 'grad_norm': 0.10403735190629959, 'learning_rate': 9.230494731893058e-05, 'epoch': 0.73}
+{'loss': 1.4527, 'grad_norm': 0.09766646474599838, 'learning_rate': 9.214411488252555e-05, 'epoch': 0.73}
+{'loss': 1.4551, 'grad_norm': 0.09597407281398773, 'learning_rate': 9.198339102380049e-05, 'epoch': 0.73}
+{'loss': 1.4684, 'grad_norm': 0.09716596454381943, 'learning_rate': 9.182277585330565e-05, 'epoch': 0.73}
+{'loss': 1.4511, 'grad_norm': 0.09577038884162903, 'learning_rate': 9.166226948151676e-05, 'epoch': 0.73}
+{'loss': 1.4647, 'grad_norm': 0.0874025970697403, 'learning_rate': 9.150187201883445e-05, 'epoch': 0.73}
+{'loss': 1.4743, 'grad_norm': 0.1031898632645607, 'learning_rate': 9.134158357558473e-05, 'epoch': 0.73}
+{'loss': 1.426, 'grad_norm': 0.10760301351547241, 'learning_rate': 9.118140426201834e-05, 'epoch': 0.73}
+{'loss': 1.4803, 'grad_norm': 0.09650180488824844, 'learning_rate': 9.102133418831104e-05, 'epoch': 0.73}
+{'loss': 1.4634, 'grad_norm': 0.08868547528982162, 'learning_rate': 9.086137346456366e-05, 'epoch': 0.73}
+{'loss': 1.4168, 'grad_norm': 0.09515222907066345, 'learning_rate': 9.070152220080152e-05, 'epoch': 0.73}
+{'loss': 1.4696, 'grad_norm': 0.09845176339149475, 'learning_rate': 9.054178050697482e-05, 'epoch': 0.73}
+{'loss': 1.4399, 'grad_norm': 0.08796968311071396, 'learning_rate': 9.038214849295822e-05, 'epoch': 0.73}
+{'loss': 1.4588, 'grad_norm': 0.09389892965555191, 'learning_rate': 9.022262626855121e-05, 'epoch': 0.73}
+{'loss': 1.4559, 'grad_norm': 0.09934831410646439, 'learning_rate': 9.006321394347769e-05, 'epoch': 0.73}
+{'loss': 1.4362, 'grad_norm': 0.10957438498735428, 'learning_rate': 8.990391162738581e-05, 'epoch': 0.73}
+{'loss': 1.4571, 'grad_norm': 0.10067648440599442, 'learning_rate': 8.974471942984813e-05, 'epoch': 0.73}
+{'loss': 1.4593, 'grad_norm': 0.10443474352359772, 'learning_rate': 8.958563746036144e-05, 'epoch': 0.73}
+{'loss': 1.4585, 'grad_norm': 0.0980529934167862, 'learning_rate': 8.942666582834688e-05, 'epoch': 0.73}
+{'loss': 1.468, 'grad_norm': 0.10402431339025497, 'learning_rate': 8.926780464314951e-05, 'epoch': 0.73}
+{'loss': 1.4661, 'grad_norm': 0.09437691420316696, 'learning_rate': 8.91090540140384e-05, 'epoch': 0.73}
+{'loss': 1.4602, 'grad_norm': 0.09237179160118103, 'learning_rate': 8.895041405020685e-05, 'epoch': 0.73}
+{'loss': 1.4607, 'grad_norm': 0.09408979117870331, 'learning_rate': 8.879188486077161e-05, 'epoch': 0.73}
+{'loss': 1.4754, 'grad_norm': 0.11024779826402664, 'learning_rate': 8.863346655477373e-05, 'epoch': 0.73}
+{'loss': 1.4876, 'grad_norm': 0.09570153802633286, 'learning_rate': 8.84751592411776e-05, 'epoch': 0.73}
+{'loss': 1.46, 'grad_norm': 0.09057355672121048, 'learning_rate': 8.831696302887144e-05, 'epoch': 0.73}
+{'loss': 1.4478, 'grad_norm': 0.08764151483774185, 'learning_rate': 8.815887802666698e-05, 'epoch': 0.73}
+{'loss': 1.4729, 'grad_norm': 0.0973956435918808, 'learning_rate': 8.800090434329944e-05, 'epoch': 0.73}
+{'loss': 1.4677, 'grad_norm': 0.09926841408014297, 'learning_rate': 8.784304208742758e-05, 'epoch': 0.73}
+{'loss': 1.4517, 'grad_norm': 0.10647168755531311, 'learning_rate': 8.768529136763359e-05, 'epoch': 0.73}
+{'loss': 1.4732, 'grad_norm': 0.08960290253162384, 'learning_rate': 8.752765229242268e-05, 'epoch': 0.73}
+{'loss': 1.47, 'grad_norm': 0.10574962943792343, 'learning_rate': 8.737012497022342e-05, 'epoch': 0.73}
+{'loss': 1.4546, 'grad_norm': 0.1083366870880127, 'learning_rate': 8.721270950938744e-05, 'epoch': 0.73}
+{'loss': 1.4288, 'grad_norm': 0.08270809799432755, 'learning_rate': 8.705540601818962e-05, 'epoch': 0.73}
+{'loss': 1.4478, 'grad_norm': 0.09069564193487167, 'learning_rate': 8.689821460482761e-05, 'epoch': 0.73}
+{'loss': 1.4485, 'grad_norm': 0.12385264784097672, 'learning_rate': 8.674113537742198e-05, 'epoch': 0.73}
+{'loss': 1.4505, 'grad_norm': 0.09152045845985413, 'learning_rate': 8.658416844401626e-05, 'epoch': 0.73}
+{'loss': 1.4598, 'grad_norm': 0.09494836628437042, 'learning_rate': 8.642731391257678e-05, 'epoch': 0.74}
+{'loss': 1.4497, 'grad_norm': 0.09733226895332336, 'learning_rate': 8.627057189099238e-05, 'epoch': 0.74}
+{'loss': 1.4693, 'grad_norm': 0.11605702340602875, 'learning_rate': 8.61139424870746e-05, 'epoch': 0.74}
+{'loss': 1.4959, 'grad_norm': 0.09559664130210876, 'learning_rate': 8.59574258085575e-05, 'epoch': 0.74}
+{'loss': 1.4633, 'grad_norm': 0.09897928684949875, 'learning_rate': 8.580102196309752e-05, 'epoch': 0.74}
+{'loss': 1.4518, 'grad_norm': 0.10683014988899231, 'learning_rate': 8.564473105827381e-05, 'epoch': 0.74}
+{'loss': 1.4488, 'grad_norm': 0.1024513989686966, 'learning_rate': 8.548855320158735e-05, 'epoch': 0.74}
+{'loss': 1.423, 'grad_norm': 0.09737226366996765, 'learning_rate': 8.533248850046191e-05, 'epoch': 0.74}
+{'loss': 1.4678, 'grad_norm': 0.09651491791009903, 'learning_rate': 8.517653706224296e-05, 'epoch': 0.74}
+{'loss': 1.4507, 'grad_norm': 0.09565789252519608, 'learning_rate': 8.50206989941982e-05, 'epoch': 0.74}
+{'loss': 1.4544, 'grad_norm': 0.10417884588241577, 'learning_rate': 8.48649744035176e-05, 'epoch': 0.74}
+{'loss': 1.4734, 'grad_norm': 0.09843338280916214, 'learning_rate': 8.470936339731275e-05, 'epoch': 0.74}
+{'loss': 1.4639, 'grad_norm': 0.09800621122121811, 'learning_rate': 8.455386608261722e-05, 'epoch': 0.74}
+{'loss': 1.463, 'grad_norm': 0.10137893259525299, 'learning_rate': 8.439848256638639e-05, 'epoch': 0.74}
+{'loss': 1.4553, 'grad_norm': 0.09912637621164322, 'learning_rate': 8.424321295549739e-05, 'epoch': 0.74}
+{'loss': 1.4618, 'grad_norm': 0.11718560755252838, 'learning_rate': 8.408805735674912e-05, 'epoch': 0.74}
+{'loss': 1.4424, 'grad_norm': 0.09692226350307465, 'learning_rate': 8.393301587686181e-05, 'epoch': 0.74}
+{'loss': 1.4644, 'grad_norm': 0.09967315942049026, 'learning_rate': 8.377808862247733e-05, 'epoch': 0.74}
+{'loss': 1.4187, 'grad_norm': 0.12295716255903244, 'learning_rate': 8.362327570015888e-05, 'epoch': 0.74}
+{'loss': 1.4684, 'grad_norm': 0.09044200927019119, 'learning_rate': 8.346857721639128e-05, 'epoch': 0.74}
+{'loss': 1.4421, 'grad_norm': 0.09215552359819412, 'learning_rate': 8.331399327758035e-05, 'epoch': 0.74}
+{'loss': 1.4506, 'grad_norm': 0.09228378534317017, 'learning_rate': 8.315952399005319e-05, 'epoch': 0.74}
+{'loss': 1.4826, 'grad_norm': 0.11163046211004257, 'learning_rate': 8.30051694600582e-05, 'epoch': 0.74}
+{'loss': 1.4843, 'grad_norm': 0.10997265577316284, 'learning_rate': 8.285092979376463e-05, 'epoch': 0.74}
+{'loss': 1.4476, 'grad_norm': 0.10163386911153793, 'learning_rate': 8.269680509726293e-05, 'epoch': 0.74}
+{'loss': 1.4499, 'grad_norm': 0.10506890714168549, 'learning_rate': 8.254279547656432e-05, 'epoch': 0.74}
+{'loss': 1.4635, 'grad_norm': 0.11990904062986374, 'learning_rate': 8.238890103760088e-05, 'epoch': 0.74}
+{'loss': 1.4504, 'grad_norm': 0.10362480580806732, 'learning_rate': 8.223512188622553e-05, 'epoch': 0.74}
+{'loss': 1.4526, 'grad_norm': 0.100362129509449, 'learning_rate': 8.208145812821175e-05, 'epoch': 0.74}
+{'loss': 1.4604, 'grad_norm': 0.11169184744358063, 'learning_rate': 8.192790986925395e-05, 'epoch': 0.74}
+{'loss': 1.4822, 'grad_norm': 0.0888962522149086, 'learning_rate': 8.17744772149667e-05, 'epoch': 0.74}
+{'loss': 1.4385, 'grad_norm': 0.0994032695889473, 'learning_rate': 8.162116027088545e-05, 'epoch': 0.74}
+{'loss': 1.4542, 'grad_norm': 0.09114919602870941, 'learning_rate': 8.146795914246579e-05, 'epoch': 0.74}
+{'loss': 1.4364, 'grad_norm': 0.10080486536026001, 'learning_rate': 8.131487393508366e-05, 'epoch': 0.74}
+{'loss': 1.4704, 'grad_norm': 0.09742450714111328, 'learning_rate': 8.116190475403545e-05, 'epoch': 0.74}
+{'loss': 1.4546, 'grad_norm': 0.09359446913003922, 'learning_rate': 8.10090517045376e-05, 'epoch': 0.74}
+{'loss': 1.4679, 'grad_norm': 0.0930708646774292, 'learning_rate': 8.085631489172665e-05, 'epoch': 0.74}
+{'loss': 1.4644, 'grad_norm': 0.10963308066129684, 'learning_rate': 8.07036944206592e-05, 'epoch': 0.74}
+{'loss': 1.4391, 'grad_norm': 0.093195840716362, 'learning_rate': 8.055119039631192e-05, 'epoch': 0.74}
+{'loss': 1.4536, 'grad_norm': 0.11874877661466599, 'learning_rate': 8.039880292358142e-05, 'epoch': 0.75}
+{'loss': 1.4581, 'grad_norm': 0.0955749973654747, 'learning_rate': 8.024653210728397e-05, 'epoch': 0.75}
+{'loss': 1.4809, 'grad_norm': 0.10085420310497284, 'learning_rate': 8.009437805215572e-05, 'epoch': 0.75}
+{'loss': 1.4556, 'grad_norm': 0.10228763520717621, 'learning_rate': 7.994234086285235e-05, 'epoch': 0.75}
+{'loss': 1.4536, 'grad_norm': 0.10569111257791519, 'learning_rate': 7.979042064394942e-05, 'epoch': 0.75}
+{'loss': 1.4509, 'grad_norm': 0.09654664248228073, 'learning_rate': 7.963861749994188e-05, 'epoch': 0.75}
+{'loss': 1.4467, 'grad_norm': 0.09583034366369247, 'learning_rate': 7.948693153524403e-05, 'epoch': 0.75}
+{'loss': 1.4601, 'grad_norm': 0.1047203540802002, 'learning_rate': 7.93353628541899e-05, 'epoch': 0.75}
+{'loss': 1.4562, 'grad_norm': 0.09536329656839371, 'learning_rate': 7.918391156103247e-05, 'epoch': 0.75}
+{'loss': 1.4699, 'grad_norm': 0.09532632678747177, 'learning_rate': 7.903257775994432e-05, 'epoch': 0.75}
+{'loss': 1.4662, 'grad_norm': 0.10813013464212418, 'learning_rate': 7.888136155501701e-05, 'epoch': 0.75}
+{'loss': 1.49, 'grad_norm': 0.08832453936338425, 'learning_rate': 7.873026305026126e-05, 'epoch': 0.75}
+{'loss': 1.4698, 'grad_norm': 0.08642369508743286, 'learning_rate': 7.857928234960682e-05, 'epoch': 0.75}
+{'loss': 1.4441, 'grad_norm': 0.10462916642427444, 'learning_rate': 7.842841955690232e-05, 'epoch': 0.75}
+{'loss': 1.4432, 'grad_norm': 0.10600439459085464, 'learning_rate': 7.827767477591552e-05, 'epoch': 0.75}
+{'loss': 1.4408, 'grad_norm': 0.09771107137203217, 'learning_rate': 7.812704811033294e-05, 'epoch': 0.75}
+{'loss': 1.4552, 'grad_norm': 0.0998082384467125, 'learning_rate': 7.797653966375973e-05, 'epoch': 0.75}
+{'loss': 1.4339, 'grad_norm': 0.09309057146310806, 'learning_rate': 7.782614953971981e-05, 'epoch': 0.75}
+{'loss': 1.4434, 'grad_norm': 0.09383375197649002, 'learning_rate': 7.767587784165559e-05, 'epoch': 0.75}
+{'loss': 1.4355, 'grad_norm': 0.10697820782661438, 'learning_rate': 7.752572467292831e-05, 'epoch': 0.75}
+{'loss': 1.4629, 'grad_norm': 0.09672108292579651, 'learning_rate': 7.737569013681744e-05, 'epoch': 0.75}
+{'loss': 1.461, 'grad_norm': 0.10524524748325348, 'learning_rate': 7.722577433652084e-05, 'epoch': 0.75}
+{'loss': 1.4679, 'grad_norm': 0.106979139149189, 'learning_rate': 7.707597737515481e-05, 'epoch': 0.75}
+{'loss': 1.4634, 'grad_norm': 0.10519702732563019, 'learning_rate': 7.692629935575401e-05, 'epoch': 0.75}
+{'loss': 1.4207, 'grad_norm': 0.10539951920509338, 'learning_rate': 7.677674038127106e-05, 'epoch': 0.75}
+{'loss': 1.4498, 'grad_norm': 0.1010337620973587, 'learning_rate': 7.662730055457679e-05, 'epoch': 0.75}
+{'loss': 1.4332, 'grad_norm': 0.11741098016500473, 'learning_rate': 7.647797997846007e-05, 'epoch': 0.75}
+{'loss': 1.4507, 'grad_norm': 0.0960327684879303, 'learning_rate': 7.632877875562771e-05, 'epoch': 0.75}
+{'loss': 1.4474, 'grad_norm': 0.09650664776563644, 'learning_rate': 7.617969698870459e-05, 'epoch': 0.75}
+{'loss': 1.4575, 'grad_norm': 0.1017289087176323, 'learning_rate': 7.603073478023317e-05, 'epoch': 0.75}
+{'loss': 1.4413, 'grad_norm': 0.10639382153749466, 'learning_rate': 7.588189223267397e-05, 'epoch': 0.75}
+{'loss': 1.4489, 'grad_norm': 0.09780710190534592, 'learning_rate': 7.573316944840498e-05, 'epoch': 0.75}
+{'loss': 1.4401, 'grad_norm': 0.08812312036752701, 'learning_rate': 7.558456652972174e-05, 'epoch': 0.75}
+{'loss': 1.4535, 'grad_norm': 0.09812675416469574, 'learning_rate': 7.543608357883771e-05, 'epoch': 0.75}
+{'loss': 1.4354, 'grad_norm': 0.09474021941423416, 'learning_rate': 7.52877206978835e-05, 'epoch': 0.75}
+{'loss': 1.4534, 'grad_norm': 0.09624483436346054, 'learning_rate': 7.513947798890722e-05, 'epoch': 0.75}
+{'loss': 1.4667, 'grad_norm': 0.09225315600633621, 'learning_rate': 7.49913555538743e-05, 'epoch': 0.75}
+{'loss': 1.4461, 'grad_norm': 0.10113218426704407, 'learning_rate': 7.48433534946675e-05, 'epoch': 0.75}
+{'loss': 1.4826, 'grad_norm': 0.08982525765895844, 'learning_rate': 7.46954719130869e-05, 'epoch': 0.75}
+{'loss': 1.4703, 'grad_norm': 0.10895650088787079, 'learning_rate': 7.454771091084944e-05, 'epoch': 0.76}
+{'loss': 1.4691, 'grad_norm': 0.09834412485361099, 'learning_rate': 7.440007058958934e-05, 'epoch': 0.76}
+{'loss': 1.4646, 'grad_norm': 0.10881984978914261, 'learning_rate': 7.425255105085757e-05, 'epoch': 0.76}
+{'loss': 1.4684, 'grad_norm': 0.09113252907991409, 'learning_rate': 7.41051523961224e-05, 'epoch': 0.76}
+{'loss': 1.447, 'grad_norm': 0.08729580789804459, 'learning_rate': 7.395787472676862e-05, 'epoch': 0.76}
+{'loss': 1.4544, 'grad_norm': 0.09188524633646011, 'learning_rate': 7.381071814409785e-05, 'epoch': 0.76}
+{'loss': 1.4444, 'grad_norm': 0.10262393951416016, 'learning_rate': 7.366368274932863e-05, 'epoch': 0.76}
+{'loss': 1.4517, 'grad_norm': 0.0982205793261528, 'learning_rate': 7.351676864359588e-05, 'epoch': 0.76}
+{'loss': 1.4505, 'grad_norm': 0.09210342913866043, 'learning_rate': 7.336997592795139e-05, 'epoch': 0.76}
+{'loss': 1.4522, 'grad_norm': 0.09891042113304138, 'learning_rate': 7.322330470336314e-05, 'epoch': 0.76}
+{'loss': 1.4764, 'grad_norm': 0.10165917128324509, 'learning_rate': 7.307675507071574e-05, 'epoch': 0.76}
+{'loss': 1.4499, 'grad_norm': 0.09087205678224564, 'learning_rate': 7.29303271308101e-05, 'epoch': 0.76}
+{'loss': 1.4551, 'grad_norm': 0.10902275145053864, 'learning_rate': 7.278402098436335e-05, 'epoch': 0.76}
+{'loss': 1.4453, 'grad_norm': 0.09467349946498871, 'learning_rate': 7.263783673200914e-05, 'epoch': 0.76}
+{'loss': 1.4767, 'grad_norm': 0.09529124945402145, 'learning_rate': 7.249177447429684e-05, 'epoch': 0.76}
+{'loss': 1.461, 'grad_norm': 0.09226656705141068, 'learning_rate': 7.234583431169236e-05, 'epoch': 0.76}
+{'loss': 1.4715, 'grad_norm': 0.09905820339918137, 'learning_rate': 7.220001634457735e-05, 'epoch': 0.76}
+{'loss': 1.4594, 'grad_norm': 0.09310801327228546, 'learning_rate': 7.205432067324932e-05, 'epoch': 0.76}
+{'loss': 1.4328, 'grad_norm': 0.09806010872125626, 'learning_rate': 7.190874739792205e-05, 'epoch': 0.76}
+{'loss': 1.4549, 'grad_norm': 0.08284635841846466, 'learning_rate': 7.17632966187248e-05, 'epoch': 0.76}
+{'loss': 1.4473, 'grad_norm': 0.0903167799115181, 'learning_rate': 7.161796843570265e-05, 'epoch': 0.76}
+{'loss': 1.464, 'grad_norm': 0.10152078419923782, 'learning_rate': 7.14727629488163e-05, 'epoch': 0.76}
+{'loss': 1.4638, 'grad_norm': 0.0887274220585823, 'learning_rate': 7.132768025794222e-05, 'epoch': 0.76}
+{'loss': 1.4457, 'grad_norm': 0.09176074713468552, 'learning_rate': 7.118272046287244e-05, 'epoch': 0.76}
+{'loss': 1.4429, 'grad_norm': 0.09287870675325394, 'learning_rate': 7.103788366331424e-05, 'epoch': 0.76}
+{'loss': 1.4704, 'grad_norm': 0.10562576353549957, 'learning_rate': 7.089316995889039e-05, 'epoch': 0.76}
+{'loss': 1.4401, 'grad_norm': 0.10074307769536972, 'learning_rate': 7.074857944913896e-05, 'epoch': 0.76}
+{'loss': 1.4483, 'grad_norm': 0.1019100621342659, 'learning_rate': 7.060411223351349e-05, 'epoch': 0.76}
+{'loss': 1.4617, 'grad_norm': 0.1016785055398941, 'learning_rate': 7.045976841138247e-05, 'epoch': 0.76}
+{'loss': 1.4658, 'grad_norm': 0.10296057164669037, 'learning_rate': 7.031554808202956e-05, 'epoch': 0.76}
+{'loss': 1.4544, 'grad_norm': 0.09733027964830399, 'learning_rate': 7.017145134465363e-05, 'epoch': 0.76}
+{'loss': 1.4675, 'grad_norm': 0.09435576945543289, 'learning_rate': 7.002747829836833e-05, 'epoch': 0.76}
+{'loss': 1.4541, 'grad_norm': 0.09391435235738754, 'learning_rate': 6.988362904220244e-05, 'epoch': 0.76}
+{'loss': 1.4444, 'grad_norm': 0.10018488764762878, 'learning_rate': 6.973990367509946e-05, 'epoch': 0.76}
+{'loss': 1.4476, 'grad_norm': 0.0963563621044159, 'learning_rate': 6.959630229591768e-05, 'epoch': 0.76}
+{'loss': 1.4601, 'grad_norm': 0.08840703219175339, 'learning_rate': 6.945282500343014e-05, 'epoch': 0.76}
+{'loss': 1.4396, 'grad_norm': 0.08956316113471985, 'learning_rate': 6.930947189632445e-05, 'epoch': 0.76}
+{'loss': 1.4526, 'grad_norm': 0.10366928577423096, 'learning_rate': 6.916624307320293e-05, 'epoch': 0.76}
+{'loss': 1.4585, 'grad_norm': 0.10531241446733475, 'learning_rate': 6.902313863258247e-05, 'epoch': 0.76}
+{'loss': 1.4516, 'grad_norm': 0.08933313190937042, 'learning_rate': 6.88801586728942e-05, 'epoch': 0.77}
+{'loss': 1.4585, 'grad_norm': 0.10001737624406815, 'learning_rate': 6.873730329248365e-05, 'epoch': 0.77}
+{'loss': 1.4485, 'grad_norm': 0.09221356362104416, 'learning_rate': 6.859457258961086e-05, 'epoch': 0.77}
+{'loss': 1.4498, 'grad_norm': 0.09818374365568161, 'learning_rate': 6.845196666244995e-05, 'epoch': 0.77}
+{'loss': 1.4491, 'grad_norm': 0.09892790019512177, 'learning_rate': 6.830948560908926e-05, 'epoch': 0.77}
+{'loss': 1.4733, 'grad_norm': 0.10245688259601593, 'learning_rate': 6.81671295275311e-05, 'epoch': 0.77}
+{'loss': 1.4453, 'grad_norm': 0.10458899289369583, 'learning_rate': 6.802489851569208e-05, 'epoch': 0.77}
+{'loss': 1.4467, 'grad_norm': 0.1049523800611496, 'learning_rate': 6.788279267140274e-05, 'epoch': 0.77}
+{'loss': 1.4611, 'grad_norm': 0.09868689626455307, 'learning_rate': 6.774081209240732e-05, 'epoch': 0.77}
+{'loss': 1.4825, 'grad_norm': 0.1141316369175911, 'learning_rate': 6.759895687636403e-05, 'epoch': 0.77}
+{'loss': 1.4478, 'grad_norm': 0.10420868545770645, 'learning_rate': 6.745722712084488e-05, 'epoch': 0.77}
+{'loss': 1.4396, 'grad_norm': 0.1181211769580841, 'learning_rate': 6.731562292333546e-05, 'epoch': 0.77}
+{'loss': 1.4567, 'grad_norm': 0.0929531380534172, 'learning_rate': 6.71741443812352e-05, 'epoch': 0.77}
+{'loss': 1.4448, 'grad_norm': 0.0936269462108612, 'learning_rate': 6.703279159185687e-05, 'epoch': 0.77}
+{'loss': 1.4546, 'grad_norm': 0.10006259381771088, 'learning_rate': 6.689156465242702e-05, 'epoch': 0.77}
+{'loss': 1.4797, 'grad_norm': 0.10543286055326462, 'learning_rate': 6.675046366008539e-05, 'epoch': 0.77}
+{'loss': 1.4522, 'grad_norm': 0.10161758959293365, 'learning_rate': 6.66094887118851e-05, 'epoch': 0.77}
+{'loss': 1.4699, 'grad_norm': 0.08919238299131393, 'learning_rate': 6.64686399047928e-05, 'epoch': 0.77}
+{'loss': 1.4585, 'grad_norm': 0.10110685229301453, 'learning_rate': 6.632791733568813e-05, 'epoch': 0.77}
+{'loss': 1.448, 'grad_norm': 0.10575766861438751, 'learning_rate': 6.618732110136403e-05, 'epoch': 0.77}
+{'loss': 1.4596, 'grad_norm': 0.10406388342380524, 'learning_rate': 6.604685129852645e-05, 'epoch': 0.77}
+{'loss': 1.4779, 'grad_norm': 0.0844215601682663, 'learning_rate': 6.590650802379448e-05, 'epoch': 0.77}
+{'loss': 1.4729, 'grad_norm': 0.09727674722671509, 'learning_rate': 6.576629137370019e-05, 'epoch': 0.77}
+{'loss': 1.4439, 'grad_norm': 0.09315315634012222, 'learning_rate': 6.562620144468848e-05, 'epoch': 0.77}
+{'loss': 1.4497, 'grad_norm': 0.10834673047065735, 'learning_rate': 6.548623833311709e-05, 'epoch': 0.77}
+{'loss': 1.4448, 'grad_norm': 0.10409127920866013, 'learning_rate': 6.53464021352565e-05, 'epoch': 0.77}
+{'loss': 1.4344, 'grad_norm': 0.09155338257551193, 'learning_rate': 6.520669294729004e-05, 'epoch': 0.77}
+{'loss': 1.4546, 'grad_norm': 0.11708977818489075, 'learning_rate': 6.506711086531356e-05, 'epoch': 0.77}
+{'loss': 1.4706, 'grad_norm': 0.09265370666980743, 'learning_rate': 6.49276559853354e-05, 'epoch': 0.77}
+{'loss': 1.4506, 'grad_norm': 0.0921945869922638, 'learning_rate': 6.47883284032767e-05, 'epoch': 0.77}
+{'loss': 1.4323, 'grad_norm': 0.09654266387224197, 'learning_rate': 6.464912821497065e-05, 'epoch': 0.77}
+{'loss': 1.4463, 'grad_norm': 0.10412557423114777, 'learning_rate': 6.451005551616326e-05, 'epoch': 0.77}
+{'loss': 1.4621, 'grad_norm': 0.09118954092264175, 'learning_rate': 6.437111040251245e-05, 'epoch': 0.77}
+{'loss': 1.4403, 'grad_norm': 0.10336571931838989, 'learning_rate': 6.42322929695886e-05, 'epoch': 0.77}
+{'loss': 1.4564, 'grad_norm': 0.1026543527841568, 'learning_rate': 6.409360331287417e-05, 'epoch': 0.77}
+{'loss': 1.4545, 'grad_norm': 0.09944062680006027, 'learning_rate': 6.395504152776374e-05, 'epoch': 0.77}
+{'loss': 1.4749, 'grad_norm': 0.09039361029863358, 'learning_rate': 6.38166077095641e-05, 'epoch': 0.77}
+{'loss': 1.4281, 'grad_norm': 0.10788832604885101, 'learning_rate': 6.367830195349373e-05, 'epoch': 0.77}
+{'loss': 1.4164, 'grad_norm': 0.09894987940788269, 'learning_rate': 6.354012435468335e-05, 'epoch': 0.77}
+{'loss': 1.4464, 'grad_norm': 0.09017142653465271, 'learning_rate': 6.340207500817526e-05, 'epoch': 0.78}
+{'loss': 1.4634, 'grad_norm': 0.09043928235769272, 'learning_rate': 6.326415400892362e-05, 'epoch': 0.78}
+{'loss': 1.4693, 'grad_norm': 0.08448656648397446, 'learning_rate': 6.312636145179451e-05, 'epoch': 0.78}
+{'loss': 1.4592, 'grad_norm': 0.09281150251626968, 'learning_rate': 6.298869743156533e-05, 'epoch': 0.78}
+{'loss': 1.4414, 'grad_norm': 0.10455390065908432, 'learning_rate': 6.285116204292529e-05, 'epoch': 0.78}
+{'loss': 1.4641, 'grad_norm': 0.10286051779985428, 'learning_rate': 6.2713755380475e-05, 'epoch': 0.78}
+{'loss': 1.4399, 'grad_norm': 0.08716325461864471, 'learning_rate': 6.257647753872664e-05, 'epoch': 0.78}
+{'loss': 1.4699, 'grad_norm': 0.08779744058847427, 'learning_rate': 6.243932861210383e-05, 'epoch': 0.78}
+{'loss': 1.4633, 'grad_norm': 0.09729794412851334, 'learning_rate': 6.230230869494135e-05, 'epoch': 0.78}
+{'loss': 1.4664, 'grad_norm': 0.09889216721057892, 'learning_rate': 6.21654178814853e-05, 'epoch': 0.78}
+{'loss': 1.4629, 'grad_norm': 0.09693919867277145, 'learning_rate': 6.202865626589296e-05, 'epoch': 0.78}
+{'loss': 1.4515, 'grad_norm': 0.09802346676588058, 'learning_rate': 6.189202394223292e-05, 'epoch': 0.78}
+{'loss': 1.4914, 'grad_norm': 0.09771383553743362, 'learning_rate': 6.175552100448461e-05, 'epoch': 0.78}
+{'loss': 1.4394, 'grad_norm': 0.10433857887983322, 'learning_rate': 6.16191475465385e-05, 'epoch': 0.78}
+{'loss': 1.4496, 'grad_norm': 0.0998033881187439, 'learning_rate': 6.148290366219617e-05, 'epoch': 0.78}
+{'loss': 1.4622, 'grad_norm': 0.09427473694086075, 'learning_rate': 6.134678944516989e-05, 'epoch': 0.78}
+{'loss': 1.4321, 'grad_norm': 0.10343467444181442, 'learning_rate': 6.121080498908288e-05, 'epoch': 0.78}
+{'loss': 1.4747, 'grad_norm': 0.11042464524507523, 'learning_rate': 6.107495038746902e-05, 'epoch': 0.78}
+{'loss': 1.4563, 'grad_norm': 0.09806320071220398, 'learning_rate': 6.093922573377286e-05, 'epoch': 0.78}
+{'loss': 1.458, 'grad_norm': 0.08894778043031693, 'learning_rate': 6.080363112134965e-05, 'epoch': 0.78}
+{'loss': 1.4474, 'grad_norm': 0.10613233596086502, 'learning_rate': 6.066816664346503e-05, 'epoch': 0.78}
+{'loss': 1.4629, 'grad_norm': 0.1229301318526268, 'learning_rate': 6.0532832393295326e-05, 'epoch': 0.78}
+{'loss': 1.4379, 'grad_norm': 0.09259426593780518, 'learning_rate': 6.039762846392729e-05, 'epoch': 0.78}
+{'loss': 1.4558, 'grad_norm': 0.08447358012199402, 'learning_rate': 6.026255494835789e-05, 'epoch': 0.78}
+{'loss': 1.4694, 'grad_norm': 0.10834082216024399, 'learning_rate': 6.012761193949437e-05, 'epoch': 0.78}
+{'loss': 1.4587, 'grad_norm': 0.10315993428230286, 'learning_rate': 5.9992799530154435e-05, 'epoch': 0.78}
+{'loss': 1.4392, 'grad_norm': 0.08847541362047195, 'learning_rate': 5.985811781306577e-05, 'epoch': 0.78}
+{'loss': 1.4437, 'grad_norm': 0.08357654511928558, 'learning_rate': 5.972356688086619e-05, 'epoch': 0.78}
+{'loss': 1.4529, 'grad_norm': 0.09583541750907898, 'learning_rate': 5.95891468261035e-05, 'epoch': 0.78}
+{'loss': 1.4546, 'grad_norm': 0.08924967050552368, 'learning_rate': 5.945485774123569e-05, 'epoch': 0.78}
+{'loss': 1.4397, 'grad_norm': 0.08815496414899826, 'learning_rate': 5.932069971863055e-05, 'epoch': 0.78}
+{'loss': 1.4728, 'grad_norm': 0.09615348279476166, 'learning_rate': 5.918667285056567e-05, 'epoch': 0.78}
+{'loss': 1.465, 'grad_norm': 0.0956745520234108, 'learning_rate': 5.905277722922844e-05, 'epoch': 0.78}
+{'loss': 1.4489, 'grad_norm': 0.09234564006328583, 'learning_rate': 5.8919012946716036e-05, 'epoch': 0.78}
+{'loss': 1.4699, 'grad_norm': 0.08493800461292267, 'learning_rate': 5.878538009503517e-05, 'epoch': 0.78}
+{'loss': 1.4392, 'grad_norm': 0.09946135431528091, 'learning_rate': 5.86518787661024e-05, 'epoch': 0.78}
+{'loss': 1.4407, 'grad_norm': 0.09581807255744934, 'learning_rate': 5.85185090517435e-05, 'epoch': 0.78}
+{'loss': 1.4541, 'grad_norm': 0.09153050184249878, 'learning_rate': 5.838527104369401e-05, 'epoch': 0.78}
+{'loss': 1.4693, 'grad_norm': 0.10050018876791, 'learning_rate': 5.825216483359874e-05, 'epoch': 0.78}
+{'loss': 1.4477, 'grad_norm': 0.09480379521846771, 'learning_rate': 5.81191905130117e-05, 'epoch': 0.79}
+{'loss': 1.4524, 'grad_norm': 0.09450724720954895, 'learning_rate': 5.7986348173396544e-05, 'epoch': 0.79}
+{'loss': 1.4321, 'grad_norm': 0.10205518454313278, 'learning_rate': 5.785363790612583e-05, 'epoch': 0.79}
+{'loss': 1.4623, 'grad_norm': 0.09584024548530579, 'learning_rate': 5.7721059802481406e-05, 'epoch': 0.79}
+{'loss': 1.4635, 'grad_norm': 0.09382874518632889, 'learning_rate': 5.758861395365411e-05, 'epoch': 0.79}
+{'loss': 1.4541, 'grad_norm': 0.09337646514177322, 'learning_rate': 5.745630045074393e-05, 'epoch': 0.79}
+{'loss': 1.4568, 'grad_norm': 0.09196581691503525, 'learning_rate': 5.73241193847599e-05, 'epoch': 0.79}
+{'loss': 1.4533, 'grad_norm': 0.11167928576469421, 'learning_rate': 5.719207084661973e-05, 'epoch': 0.79}
+{'loss': 1.4456, 'grad_norm': 0.09024642407894135, 'learning_rate': 5.7060154927150135e-05, 'epoch': 0.79}
+{'loss': 1.4548, 'grad_norm': 0.09110552817583084, 'learning_rate': 5.6928371717086454e-05, 'epoch': 0.79}
+{'loss': 1.4506, 'grad_norm': 0.09751195460557938, 'learning_rate': 5.6796721307073e-05, 'epoch': 0.79}
+{'loss': 1.4557, 'grad_norm': 0.10229825228452682, 'learning_rate': 5.666520378766255e-05, 'epoch': 0.79}
+{'loss': 1.4608, 'grad_norm': 0.09512118995189667, 'learning_rate': 5.653381924931641e-05, 'epoch': 0.79}
+{'loss': 1.4516, 'grad_norm': 0.09993913024663925, 'learning_rate': 5.640256778240474e-05, 'epoch': 0.79}
+{'loss': 1.4519, 'grad_norm': 0.1089072972536087, 'learning_rate': 5.6271449477205723e-05, 'epoch': 0.79}
+{'loss': 1.446, 'grad_norm': 0.09642422944307327, 'learning_rate': 5.614046442390641e-05, 'epoch': 0.79}
+{'loss': 1.4617, 'grad_norm': 0.10332862287759781, 'learning_rate': 5.600961271260185e-05, 'epoch': 0.79}
+{'loss': 1.4438, 'grad_norm': 0.10635814815759659, 'learning_rate': 5.5878894433295525e-05, 'epoch': 0.79}
+{'loss': 1.4394, 'grad_norm': 0.09107156842947006, 'learning_rate': 5.574830967589911e-05, 'epoch': 0.79}
+{'loss': 1.4485, 'grad_norm': 0.09357579052448273, 'learning_rate': 5.561785853023238e-05, 'epoch': 0.79}
+{'loss': 1.4457, 'grad_norm': 0.09964025020599365, 'learning_rate': 5.5487541086023384e-05, 'epoch': 0.79}
+{'loss': 1.4367, 'grad_norm': 0.08689224720001221, 'learning_rate': 5.5357357432907984e-05, 'epoch': 0.79}
+{'loss': 1.4798, 'grad_norm': 0.0945463627576828, 'learning_rate': 5.5227307660430245e-05, 'epoch': 0.79}
+{'loss': 1.4346, 'grad_norm': 0.09124957770109177, 'learning_rate': 5.509739185804188e-05, 'epoch': 0.79}
+{'loss': 1.4675, 'grad_norm': 0.09481127560138702, 'learning_rate': 5.496761011510279e-05, 'epoch': 0.79}
+{'loss': 1.4361, 'grad_norm': 0.09694354236125946, 'learning_rate': 5.483796252088036e-05, 'epoch': 0.79}
+{'loss': 1.4818, 'grad_norm': 0.09326429665088654, 'learning_rate': 5.470844916454984e-05, 'epoch': 0.79}
+{'loss': 1.4784, 'grad_norm': 0.08965656161308289, 'learning_rate': 5.4579070135194114e-05, 'epoch': 0.79}
+{'loss': 1.4421, 'grad_norm': 0.087260901927948, 'learning_rate': 5.444982552180364e-05, 'epoch': 0.79}
+{'loss': 1.4803, 'grad_norm': 0.09444994479417801, 'learning_rate': 5.4320715413276514e-05, 'epoch': 0.79}
+{'loss': 1.4947, 'grad_norm': 0.095990389585495, 'learning_rate': 5.419173989841833e-05, 'epoch': 0.79}
+{'loss': 1.4551, 'grad_norm': 0.10068154335021973, 'learning_rate': 5.406289906594203e-05, 'epoch': 0.79}
+{'loss': 1.454, 'grad_norm': 0.09262852370738983, 'learning_rate': 5.3934193004467865e-05, 'epoch': 0.79}
+{'loss': 1.4646, 'grad_norm': 0.10072845965623856, 'learning_rate': 5.380562180252341e-05, 'epoch': 0.79}
+{'loss': 1.4536, 'grad_norm': 0.10413715988397598, 'learning_rate': 5.3677185548543674e-05, 'epoch': 0.79}
+{'loss': 1.4561, 'grad_norm': 0.09565126895904541, 'learning_rate': 5.354888433087063e-05, 'epoch': 0.79}
+{'loss': 1.4567, 'grad_norm': 0.09362449496984482, 'learning_rate': 5.342071823775332e-05, 'epoch': 0.79}
+{'loss': 1.4577, 'grad_norm': 0.09238416701555252, 'learning_rate': 5.329268735734816e-05, 'epoch': 0.79}
+{'loss': 1.4527, 'grad_norm': 0.10108961910009384, 'learning_rate': 5.316479177771816e-05, 'epoch': 0.79}
+{'loss': 1.4268, 'grad_norm': 0.09778450429439545, 'learning_rate': 5.303703158683362e-05, 'epoch': 0.8}
+{'loss': 1.4209, 'grad_norm': 0.08859676867723465, 'learning_rate': 5.2909406872571534e-05, 'epoch': 0.8}
+{'loss': 1.4607, 'grad_norm': 0.0912599265575409, 'learning_rate': 5.278191772271571e-05, 'epoch': 0.8}
+{'loss': 1.4442, 'grad_norm': 0.08849319815635681, 'learning_rate': 5.2654564224956654e-05, 'epoch': 0.8}
+{'loss': 1.4196, 'grad_norm': 0.10564977675676346, 'learning_rate': 5.2527346466891805e-05, 'epoch': 0.8}
+{'loss': 1.4587, 'grad_norm': 0.09750256687402725, 'learning_rate': 5.2400264536024975e-05, 'epoch': 0.8}
+{'loss': 1.474, 'grad_norm': 0.11021817475557327, 'learning_rate': 5.2273318519766775e-05, 'epoch': 0.8}
+{'loss': 1.4626, 'grad_norm': 0.079295314848423, 'learning_rate': 5.214650850543412e-05, 'epoch': 0.8}
+{'loss': 1.4691, 'grad_norm': 0.09845267981290817, 'learning_rate': 5.2019834580250447e-05, 'epoch': 0.8}
+{'loss': 1.471, 'grad_norm': 0.09051714092493057, 'learning_rate': 5.189329683134572e-05, 'epoch': 0.8}
+{'loss': 1.4386, 'grad_norm': 0.09653940796852112, 'learning_rate': 5.176689534575607e-05, 'epoch': 0.8}
+{'loss': 1.4512, 'grad_norm': 0.09183105826377869, 'learning_rate': 5.164063021042401e-05, 'epoch': 0.8}
+{'loss': 1.4348, 'grad_norm': 0.08806943148374557, 'learning_rate': 5.151450151219808e-05, 'epoch': 0.8}
+{'loss': 1.4714, 'grad_norm': 0.09773106873035431, 'learning_rate': 5.138850933783323e-05, 'epoch': 0.8}
+{'loss': 1.4614, 'grad_norm': 0.10560869425535202, 'learning_rate': 5.126265377399045e-05, 'epoch': 0.8}
+{'loss': 1.4756, 'grad_norm': 0.09412465989589691, 'learning_rate': 5.113693490723664e-05, 'epoch': 0.8}
+{'loss': 1.4563, 'grad_norm': 0.09212872385978699, 'learning_rate': 5.101135282404473e-05, 'epoch': 0.8}
+{'loss': 1.4628, 'grad_norm': 0.09209731221199036, 'learning_rate': 5.0885907610793594e-05, 'epoch': 0.8}
+{'loss': 1.4382, 'grad_norm': 0.09199738502502441, 'learning_rate': 5.0760599353767865e-05, 'epoch': 0.8}
+{'loss': 1.441, 'grad_norm': 0.10067075490951538, 'learning_rate': 5.0635428139158226e-05, 'epoch': 0.8}
+{'loss': 1.4768, 'grad_norm': 0.08661320805549622, 'learning_rate': 5.051039405306074e-05, 'epoch': 0.8}
+{'loss': 1.4589, 'grad_norm': 0.08654959499835968, 'learning_rate': 5.038549718147753e-05, 'epoch': 0.8}
+{'loss': 1.4512, 'grad_norm': 0.0973142758011818, 'learning_rate': 5.026073761031596e-05, 'epoch': 0.8}
+{'loss': 1.4755, 'grad_norm': 0.08548978716135025, 'learning_rate': 5.0136115425389315e-05, 'epoch': 0.8}
+{'loss': 1.4372, 'grad_norm': 0.09685386717319489, 'learning_rate': 5.001163071241613e-05, 'epoch': 0.8}
+{'loss': 1.4561, 'grad_norm': 0.08409729599952698, 'learning_rate': 4.988728355702046e-05, 'epoch': 0.8}
+{'loss': 1.4485, 'grad_norm': 0.09571515023708344, 'learning_rate': 4.9763074044731736e-05, 'epoch': 0.8}
+{'loss': 1.454, 'grad_norm': 0.08821270614862442, 'learning_rate': 4.963900226098467e-05, 'epoch': 0.8}
+{'loss': 1.438, 'grad_norm': 0.08805494010448456, 'learning_rate': 4.951506829111943e-05, 'epoch': 0.8}
+{'loss': 1.463, 'grad_norm': 0.08676985651254654, 'learning_rate': 4.939127222038115e-05, 'epoch': 0.8}
+{'loss': 1.445, 'grad_norm': 0.09727949649095535, 'learning_rate': 4.926761413392028e-05, 'epoch': 0.8}
+{'loss': 1.4293, 'grad_norm': 0.09047413617372513, 'learning_rate': 4.91440941167923e-05, 'epoch': 0.8}
+{'loss': 1.4409, 'grad_norm': 0.09234650433063507, 'learning_rate': 4.902071225395763e-05, 'epoch': 0.8}
+{'loss': 1.4569, 'grad_norm': 0.09710269421339035, 'learning_rate': 4.889746863028188e-05, 'epoch': 0.8}
+{'loss': 1.4574, 'grad_norm': 0.10370036214590073, 'learning_rate': 4.877436333053542e-05, 'epoch': 0.8}
+{'loss': 1.4702, 'grad_norm': 0.08760205656290054, 'learning_rate': 4.865139643939345e-05, 'epoch': 0.8}
+{'loss': 1.441, 'grad_norm': 0.08301026374101639, 'learning_rate': 4.852856804143602e-05, 'epoch': 0.8}
+{'loss': 1.436, 'grad_norm': 0.08514584600925446, 'learning_rate': 4.840587822114797e-05, 'epoch': 0.8}
+{'loss': 1.442, 'grad_norm': 0.0925959050655365, 'learning_rate': 4.8283327062918854e-05, 'epoch': 0.8}
+{'loss': 1.458, 'grad_norm': 0.09071905165910721, 'learning_rate': 4.816091465104269e-05, 'epoch': 0.81}
+{'loss': 1.4547, 'grad_norm': 0.08928773552179337, 'learning_rate': 4.803864106971814e-05, 'epoch': 0.81}
+{'loss': 1.4485, 'grad_norm': 0.0839470699429512, 'learning_rate': 4.7916506403048374e-05, 'epoch': 0.81}
+{'loss': 1.4375, 'grad_norm': 0.09950991719961166, 'learning_rate': 4.7794510735041096e-05, 'epoch': 0.81}
+{'loss': 1.4315, 'grad_norm': 0.09520118683576584, 'learning_rate': 4.767265414960828e-05, 'epoch': 0.81}
+{'loss': 1.4503, 'grad_norm': 0.10458916425704956, 'learning_rate': 4.755093673056623e-05, 'epoch': 0.81}
+{'loss': 1.4479, 'grad_norm': 0.09751684963703156, 'learning_rate': 4.7429358561635715e-05, 'epoch': 0.81}
+{'loss': 1.447, 'grad_norm': 0.10040420293807983, 'learning_rate': 4.730791972644144e-05, 'epoch': 0.81}
+{'loss': 1.4635, 'grad_norm': 0.09612058103084564, 'learning_rate': 4.7186620308512535e-05, 'epoch': 0.81}
+{'loss': 1.4471, 'grad_norm': 0.09669296443462372, 'learning_rate': 4.706546039128212e-05, 'epoch': 0.81}
+{'loss': 1.4243, 'grad_norm': 0.09708504378795624, 'learning_rate': 4.694444005808732e-05, 'epoch': 0.81}
+{'loss': 1.4638, 'grad_norm': 0.09286659955978394, 'learning_rate': 4.6823559392169286e-05, 'epoch': 0.81}
+{'loss': 1.44, 'grad_norm': 0.08683976531028748, 'learning_rate': 4.670281847667307e-05, 'epoch': 0.81}
+{'loss': 1.4453, 'grad_norm': 0.08554995059967041, 'learning_rate': 4.6582217394647716e-05, 'epoch': 0.81}
+{'loss': 1.4401, 'grad_norm': 0.10462518781423569, 'learning_rate': 4.646175622904605e-05, 'epoch': 0.81}
+{'loss': 1.4511, 'grad_norm': 0.09396172314882278, 'learning_rate': 4.6341435062724564e-05, 'epoch': 0.81}
+{'loss': 1.4484, 'grad_norm': 0.09822653979063034, 'learning_rate': 4.622125397844351e-05, 'epoch': 0.81}
+{'loss': 1.4556, 'grad_norm': 0.09284654259681702, 'learning_rate': 4.610121305886672e-05, 'epoch': 0.81}
+{'loss': 1.4749, 'grad_norm': 0.10522551089525223, 'learning_rate': 4.5981312386561835e-05, 'epoch': 0.81}
+{'loss': 1.4408, 'grad_norm': 0.09816362708806992, 'learning_rate': 4.586155204399981e-05, 'epoch': 0.81}
+{'loss': 1.4456, 'grad_norm': 0.09471825510263443, 'learning_rate': 4.574193211355507e-05, 'epoch': 0.81}
+{'loss': 1.4363, 'grad_norm': 0.08242971450090408, 'learning_rate': 4.5622452677505674e-05, 'epoch': 0.81}
+{'loss': 1.437, 'grad_norm': 0.09479724615812302, 'learning_rate': 4.550311381803279e-05, 'epoch': 0.81}
+{'loss': 1.4403, 'grad_norm': 0.09491363167762756, 'learning_rate': 4.538391561722113e-05, 'epoch': 0.81}
+{'loss': 1.4393, 'grad_norm': 0.0933288037776947, 'learning_rate': 4.5264858157058495e-05, 'epoch': 0.81}
+{'loss': 1.4415, 'grad_norm': 0.08593294024467468, 'learning_rate': 4.5145941519435904e-05, 'epoch': 0.81}
+{'loss': 1.4264, 'grad_norm': 0.08872629702091217, 'learning_rate': 4.5027165786147486e-05, 'epoch': 0.81}
+{'loss': 1.4784, 'grad_norm': 0.09653124958276749, 'learning_rate': 4.490853103889061e-05, 'epoch': 0.81}
+{'loss': 1.4258, 'grad_norm': 0.09700138866901398, 'learning_rate': 4.4790037359265485e-05, 'epoch': 0.81}
+{'loss': 1.445, 'grad_norm': 0.09374997019767761, 'learning_rate': 4.4671684828775454e-05, 'epoch': 0.81}
+{'loss': 1.4427, 'grad_norm': 0.10257488489151001, 'learning_rate': 4.4553473528826636e-05, 'epoch': 0.81}
+{'loss': 1.4475, 'grad_norm': 0.08370818942785263, 'learning_rate': 4.443540354072798e-05, 'epoch': 0.81}
+{'loss': 1.4468, 'grad_norm': 0.08748378604650497, 'learning_rate': 4.431747494569144e-05, 'epoch': 0.81}
+{'loss': 1.4427, 'grad_norm': 0.09027471393346786, 'learning_rate': 4.419968782483158e-05, 'epoch': 0.81}
+{'loss': 1.4658, 'grad_norm': 0.10138443857431412, 'learning_rate': 4.4082042259165625e-05, 'epoch': 0.81}
+{'loss': 1.4555, 'grad_norm': 0.08814287185668945, 'learning_rate': 4.396453832961342e-05, 'epoch': 0.81}
+{'loss': 1.4482, 'grad_norm': 0.09249766916036606, 'learning_rate': 4.3847176116997514e-05, 'epoch': 0.81}
+{'loss': 1.4544, 'grad_norm': 0.10155937075614929, 'learning_rate': 4.3729955702042936e-05, 'epoch': 0.81}
+{'loss': 1.4394, 'grad_norm': 0.09459453076124191, 'learning_rate': 4.361287716537715e-05, 'epoch': 0.81}
+{'loss': 1.4514, 'grad_norm': 0.09829413890838623, 'learning_rate': 4.3495940587530005e-05, 'epoch': 0.82}
+{'loss': 1.445, 'grad_norm': 0.08018434047698975, 'learning_rate': 4.3379146048933756e-05, 'epoch': 0.82}
+{'loss': 1.4489, 'grad_norm': 0.08370495587587357, 'learning_rate': 4.326249362992288e-05, 'epoch': 0.82}
+{'loss': 1.4446, 'grad_norm': 0.10818285495042801, 'learning_rate': 4.314598341073428e-05, 'epoch': 0.82}
+{'loss': 1.4426, 'grad_norm': 0.12586864829063416, 'learning_rate': 4.30296154715068e-05, 'epoch': 0.82}
+{'loss': 1.4399, 'grad_norm': 0.09277670830488205, 'learning_rate': 4.291338989228169e-05, 'epoch': 0.82}
+{'loss': 1.4523, 'grad_norm': 0.08972375094890594, 'learning_rate': 4.279730675300203e-05, 'epoch': 0.82}
+{'loss': 1.4678, 'grad_norm': 0.09179998934268951, 'learning_rate': 4.268136613351314e-05, 'epoch': 0.82}
+{'loss': 1.448, 'grad_norm': 0.10090351104736328, 'learning_rate': 4.2565568113562185e-05, 'epoch': 0.82}
+{'loss': 1.4306, 'grad_norm': 0.10788152366876602, 'learning_rate': 4.244991277279822e-05, 'epoch': 0.82}
+{'loss': 1.4543, 'grad_norm': 0.09496960043907166, 'learning_rate': 4.233440019077228e-05, 'epoch': 0.82}
+{'loss': 1.4624, 'grad_norm': 0.09697805345058441, 'learning_rate': 4.2219030446937035e-05, 'epoch': 0.82}
+{'loss': 1.4336, 'grad_norm': 0.09419422596693039, 'learning_rate': 4.210380362064711e-05, 'epoch': 0.82}
+{'loss': 1.4721, 'grad_norm': 0.09797709435224533, 'learning_rate': 4.1988719791158675e-05, 'epoch': 0.82}
+{'loss': 1.4479, 'grad_norm': 0.0873885303735733, 'learning_rate': 4.187377903762968e-05, 'epoch': 0.82}
+{'loss': 1.452, 'grad_norm': 0.08770439028739929, 'learning_rate': 4.175898143911952e-05, 'epoch': 0.82}
+{'loss': 1.4459, 'grad_norm': 0.09639738500118256, 'learning_rate': 4.164432707458915e-05, 'epoch': 0.82}
+{'loss': 1.4787, 'grad_norm': 0.09337412565946579, 'learning_rate': 4.1529816022901095e-05, 'epoch': 0.82}
+{'loss': 1.4544, 'grad_norm': 0.09529398381710052, 'learning_rate': 4.1415448362819266e-05, 'epoch': 0.82}
+{'loss': 1.4625, 'grad_norm': 0.09437073767185211, 'learning_rate': 4.130122417300888e-05, 'epoch': 0.82}
+{'loss': 1.4675, 'grad_norm': 0.08980106562376022, 'learning_rate': 4.118714353203651e-05, 'epoch': 0.82}
+{'loss': 1.4569, 'grad_norm': 0.08208850026130676, 'learning_rate': 4.107320651836999e-05, 'epoch': 0.82}
+{'loss': 1.4444, 'grad_norm': 0.09143935889005661, 'learning_rate': 4.0959413210378496e-05, 'epoch': 0.82}
+{'loss': 1.4046, 'grad_norm': 0.09979363530874252, 'learning_rate': 4.0845763686332135e-05, 'epoch': 0.82}
+{'loss': 1.435, 'grad_norm': 0.08813372254371643, 'learning_rate': 4.073225802440228e-05, 'epoch': 0.82}
+{'loss': 1.4306, 'grad_norm': 0.0987972617149353, 'learning_rate': 4.061889630266116e-05, 'epoch': 0.82}
+{'loss': 1.4653, 'grad_norm': 0.09695392847061157, 'learning_rate': 4.05056785990823e-05, 'epoch': 0.82}
+{'loss': 1.4717, 'grad_norm': 0.08670131117105484, 'learning_rate': 4.0392604991539907e-05, 'epoch': 0.82}
+{'loss': 1.4456, 'grad_norm': 0.10313843190670013, 'learning_rate': 4.0279675557809094e-05, 'epoch': 0.82}
+{'loss': 1.4388, 'grad_norm': 0.10217850655317307, 'learning_rate': 4.016689037556601e-05, 'epoch': 0.82}
+{'loss': 1.442, 'grad_norm': 0.09547042101621628, 'learning_rate': 4.0054249522387344e-05, 'epoch': 0.82}
+{'loss': 1.4359, 'grad_norm': 0.09402191638946533, 'learning_rate': 3.994175307575071e-05, 'epoch': 0.82}
+{'loss': 1.4349, 'grad_norm': 0.10060042142868042, 'learning_rate': 3.982940111303426e-05, 'epoch': 0.82}
+{'loss': 1.4606, 'grad_norm': 0.09172262251377106, 'learning_rate': 3.9717193711516804e-05, 'epoch': 0.82}
+{'loss': 1.4616, 'grad_norm': 0.10189990699291229, 'learning_rate': 3.96051309483777e-05, 'epoch': 0.82}
+{'loss': 1.4314, 'grad_norm': 0.09626408666372299, 'learning_rate': 3.94932129006968e-05, 'epoch': 0.82}
+{'loss': 1.4831, 'grad_norm': 0.09216510504484177, 'learning_rate': 3.938143964545452e-05, 'epoch': 0.82}
+{'loss': 1.4258, 'grad_norm': 0.09086699783802032, 'learning_rate': 3.9269811259531666e-05, 'epoch': 0.82}
+{'loss': 1.4585, 'grad_norm': 0.09067032486200333, 'learning_rate': 3.915832781970932e-05, 'epoch': 0.82}
+{'loss': 1.4343, 'grad_norm': 0.0983545258641243, 'learning_rate': 3.90469894026689e-05, 'epoch': 0.83}
+{'loss': 1.427, 'grad_norm': 0.09681595116853714, 'learning_rate': 3.893579608499198e-05, 'epoch': 0.83}
+{'loss': 1.4391, 'grad_norm': 0.08607757836580276, 'learning_rate': 3.882474794316057e-05, 'epoch': 0.83}
+{'loss': 1.4602, 'grad_norm': 0.09054598957300186, 'learning_rate': 3.871384505355663e-05, 'epoch': 0.83}
+{'loss': 1.4424, 'grad_norm': 0.08999460935592651, 'learning_rate': 3.8603087492462165e-05, 'epoch': 0.83}
+{'loss': 1.458, 'grad_norm': 0.08967132866382599, 'learning_rate': 3.849247533605943e-05, 'epoch': 0.83}
+{'loss': 1.4697, 'grad_norm': 0.0982522964477539, 'learning_rate': 3.838200866043054e-05, 'epoch': 0.83}
+{'loss': 1.4625, 'grad_norm': 0.0955570712685585, 'learning_rate': 3.827168754155755e-05, 'epoch': 0.83}
+{'loss': 1.4269, 'grad_norm': 0.08943471312522888, 'learning_rate': 3.816151205532237e-05, 'epoch': 0.83}
+{'loss': 1.4611, 'grad_norm': 0.0903536006808281, 'learning_rate': 3.8051482277506795e-05, 'epoch': 0.83}
+{'loss': 1.4714, 'grad_norm': 0.09266536682844162, 'learning_rate': 3.794159828379229e-05, 'epoch': 0.83}
+{'loss': 1.4573, 'grad_norm': 0.09707270562648773, 'learning_rate': 3.783186014976028e-05, 'epoch': 0.83}
+{'loss': 1.4645, 'grad_norm': 0.0877581313252449, 'learning_rate': 3.772226795089159e-05, 'epoch': 0.83}
+{'loss': 1.4408, 'grad_norm': 0.09140225499868393, 'learning_rate': 3.761282176256689e-05, 'epoch': 0.83}
+{'loss': 1.4605, 'grad_norm': 0.09764981269836426, 'learning_rate': 3.750352166006626e-05, 'epoch': 0.83}
+{'loss': 1.4514, 'grad_norm': 0.0909046083688736, 'learning_rate': 3.73943677185693e-05, 'epoch': 0.83}
+{'loss': 1.4481, 'grad_norm': 0.08592024445533752, 'learning_rate': 3.72853600131553e-05, 'epoch': 0.83}
+{'loss': 1.4385, 'grad_norm': 0.09092126041650772, 'learning_rate': 3.717649861880268e-05, 'epoch': 0.83}
+{'loss': 1.4349, 'grad_norm': 0.08714934438467026, 'learning_rate': 3.706778361038934e-05, 'epoch': 0.83}
+{'loss': 1.4537, 'grad_norm': 0.0888555496931076, 'learning_rate': 3.695921506269251e-05, 'epoch': 0.83}
+{'loss': 1.4519, 'grad_norm': 0.09307117760181427, 'learning_rate': 3.685079305038866e-05, 'epoch': 0.83}
+{'loss': 1.4537, 'grad_norm': 0.09490645676851273, 'learning_rate': 3.674251764805353e-05, 'epoch': 0.83}
+{'loss': 1.462, 'grad_norm': 0.09323875606060028, 'learning_rate': 3.6634388930161936e-05, 'epoch': 0.83}
+{'loss': 1.4413, 'grad_norm': 0.09421965479850769, 'learning_rate': 3.6526406971087807e-05, 'epoch': 0.83}
+{'loss': 1.4467, 'grad_norm': 0.08514175564050674, 'learning_rate': 3.641857184510408e-05, 'epoch': 0.83}
+{'loss': 1.4322, 'grad_norm': 0.08235539495944977, 'learning_rate': 3.631088362638291e-05, 'epoch': 0.83}
+{'loss': 1.4387, 'grad_norm': 0.08825523406267166, 'learning_rate': 3.620334238899514e-05, 'epoch': 0.83}
+{'loss': 1.4264, 'grad_norm': 0.09100860357284546, 'learning_rate': 3.6095948206910646e-05, 'epoch': 0.83}
+{'loss': 1.458, 'grad_norm': 0.09006892144680023, 'learning_rate': 3.598870115399821e-05, 'epoch': 0.83}
+{'loss': 1.4502, 'grad_norm': 0.08618456870317459, 'learning_rate': 3.588160130402523e-05, 'epoch': 0.83}
+{'loss': 1.4523, 'grad_norm': 0.0889948308467865, 'learning_rate': 3.577464873065814e-05, 'epoch': 0.83}
+{'loss': 1.4453, 'grad_norm': 0.08601070940494537, 'learning_rate': 3.566784350746177e-05, 'epoch': 0.83}
+{'loss': 1.4318, 'grad_norm': 0.08669009059667587, 'learning_rate': 3.556118570789976e-05, 'epoch': 0.83}
+{'loss': 1.4451, 'grad_norm': 0.09649056196212769, 'learning_rate': 3.545467540533434e-05, 'epoch': 0.83}
+{'loss': 1.4529, 'grad_norm': 0.09108791500329971, 'learning_rate': 3.5348312673026184e-05, 'epoch': 0.83}
+{'loss': 1.4505, 'grad_norm': 0.09143483638763428, 'learning_rate': 3.524209758413466e-05, 'epoch': 0.83}
+{'loss': 1.4552, 'grad_norm': 0.09354334324598312, 'learning_rate': 3.513603021171738e-05, 'epoch': 0.83}
+{'loss': 1.4514, 'grad_norm': 0.09327151626348495, 'learning_rate': 3.5030110628730516e-05, 'epoch': 0.83}
+{'loss': 1.4625, 'grad_norm': 0.1029617041349411, 'learning_rate': 3.4924338908028485e-05, 'epoch': 0.83}
+{'loss': 1.4397, 'grad_norm': 0.09804300218820572, 'learning_rate': 3.481871512236395e-05, 'epoch': 0.84}
+{'loss': 1.4506, 'grad_norm': 0.08418670296669006, 'learning_rate': 3.471323934438806e-05, 'epoch': 0.84}
+{'loss': 1.4709, 'grad_norm': 0.08595820516347885, 'learning_rate': 3.4607911646649836e-05, 'epoch': 0.84}
+{'loss': 1.4561, 'grad_norm': 0.08749748021364212, 'learning_rate': 3.4502732101596715e-05, 'epoch': 0.84}
+{'loss': 1.4721, 'grad_norm': 0.09072178602218628, 'learning_rate': 3.4397700781574e-05, 'epoch': 0.84}
+{'loss': 1.4494, 'grad_norm': 0.08956273645162582, 'learning_rate': 3.429281775882523e-05, 'epoch': 0.84}
+{'loss': 1.4369, 'grad_norm': 0.08783949911594391, 'learning_rate': 3.4188083105491956e-05, 'epoch': 0.84}
+{'loss': 1.4573, 'grad_norm': 0.09149658679962158, 'learning_rate': 3.408349689361348e-05, 'epoch': 0.84}
+{'loss': 1.497, 'grad_norm': 0.08582641184329987, 'learning_rate': 3.39790591951272e-05, 'epoch': 0.84}
+{'loss': 1.4387, 'grad_norm': 0.08673780411481857, 'learning_rate': 3.387477008186812e-05, 'epoch': 0.84}
+{'loss': 1.4674, 'grad_norm': 0.09153174608945847, 'learning_rate': 3.37706296255694e-05, 'epoch': 0.84}
+{'loss': 1.4501, 'grad_norm': 0.08776886761188507, 'learning_rate': 3.3666637897861675e-05, 'epoch': 0.84}
+{'loss': 1.4231, 'grad_norm': 0.08302821218967438, 'learning_rate': 3.356279497027326e-05, 'epoch': 0.84}
+{'loss': 1.4745, 'grad_norm': 0.08241868764162064, 'learning_rate': 3.345910091423035e-05, 'epoch': 0.84}
+{'loss': 1.4303, 'grad_norm': 0.08512894064188004, 'learning_rate': 3.335555580105651e-05, 'epoch': 0.84}
+{'loss': 1.4609, 'grad_norm': 0.09145300090312958, 'learning_rate': 3.325215970197304e-05, 'epoch': 0.84}
+{'loss': 1.4617, 'grad_norm': 0.09261232614517212, 'learning_rate': 3.3148912688098636e-05, 'epoch': 0.84}
+{'loss': 1.4632, 'grad_norm': 0.0941968634724617, 'learning_rate': 3.3045814830449465e-05, 'epoch': 0.84}
+{'loss': 1.4557, 'grad_norm': 0.08789439499378204, 'learning_rate': 3.2942866199939084e-05, 'epoch': 0.84}
+{'loss': 1.4573, 'grad_norm': 0.09807714819908142, 'learning_rate': 3.284006686737842e-05, 'epoch': 0.84}
+{'loss': 1.4353, 'grad_norm': 0.09461427479982376, 'learning_rate': 3.273741690347573e-05, 'epoch': 0.84}
+{'loss': 1.4295, 'grad_norm': 0.08827178180217743, 'learning_rate': 3.2634916378836616e-05, 'epoch': 0.84}
+{'loss': 1.4449, 'grad_norm': 0.08378275483846664, 'learning_rate': 3.2532565363963707e-05, 'epoch': 0.84}
+{'loss': 1.4604, 'grad_norm': 0.08421788364648819, 'learning_rate': 3.2430363929256854e-05, 'epoch': 0.84}
+{'loss': 1.4749, 'grad_norm': 0.0872507095336914, 'learning_rate': 3.2328312145013165e-05, 'epoch': 0.84}
+{'loss': 1.4908, 'grad_norm': 0.08837133646011353, 'learning_rate': 3.2226410081426654e-05, 'epoch': 0.84}
+{'loss': 1.4619, 'grad_norm': 0.09556989371776581, 'learning_rate': 3.212465780858836e-05, 'epoch': 0.84}
+{'loss': 1.4528, 'grad_norm': 0.08844263851642609, 'learning_rate': 3.202305539648631e-05, 'epoch': 0.84}
+{'loss': 1.4398, 'grad_norm': 0.09154388308525085, 'learning_rate': 3.192160291500557e-05, 'epoch': 0.84}
+{'loss': 1.4441, 'grad_norm': 0.08473507314920425, 'learning_rate': 3.182030043392794e-05, 'epoch': 0.84}
+{'loss': 1.4359, 'grad_norm': 0.08694544434547424, 'learning_rate': 3.1719148022932134e-05, 'epoch': 0.84}
+{'loss': 1.4705, 'grad_norm': 0.09301137179136276, 'learning_rate': 3.1618145751593555e-05, 'epoch': 0.84}
+{'loss': 1.4485, 'grad_norm': 0.0821710154414177, 'learning_rate': 3.151729368938441e-05, 'epoch': 0.84}
+{'loss': 1.448, 'grad_norm': 0.08988913148641586, 'learning_rate': 3.1416591905673474e-05, 'epoch': 0.84}
+{'loss': 1.4403, 'grad_norm': 0.0910901203751564, 'learning_rate': 3.131604046972636e-05, 'epoch': 0.84}
+{'loss': 1.4587, 'grad_norm': 0.0881044790148735, 'learning_rate': 3.1215639450705045e-05, 'epoch': 0.84}
+{'loss': 1.4516, 'grad_norm': 0.084982730448246, 'learning_rate': 3.111538891766824e-05, 'epoch': 0.84}
+{'loss': 1.445, 'grad_norm': 0.09810741245746613, 'learning_rate': 3.1015288939571034e-05, 'epoch': 0.84}
+{'loss': 1.4544, 'grad_norm': 0.09339568018913269, 'learning_rate': 3.0915339585264935e-05, 'epoch': 0.84}
+{'loss': 1.4304, 'grad_norm': 0.0887642428278923, 'learning_rate': 3.081554092349798e-05, 'epoch': 0.85}
+{'loss': 1.4589, 'grad_norm': 0.08894941955804825, 'learning_rate': 3.071589302291441e-05, 'epoch': 0.85}
+{'loss': 1.4642, 'grad_norm': 0.09766078740358353, 'learning_rate': 3.061639595205484e-05, 'epoch': 0.85}
+{'loss': 1.4479, 'grad_norm': 0.08598972856998444, 'learning_rate': 3.05170497793561e-05, 'epoch': 0.85}
+{'loss': 1.4521, 'grad_norm': 0.08783058077096939, 'learning_rate': 3.041785457315127e-05, 'epoch': 0.85}
+{'loss': 1.4488, 'grad_norm': 0.08345067501068115, 'learning_rate': 3.0318810401669674e-05, 'epoch': 0.85}
+{'loss': 1.4114, 'grad_norm': 0.08853480964899063, 'learning_rate': 3.0219917333036555e-05, 'epoch': 0.85}
+{'loss': 1.4603, 'grad_norm': 0.09131031483411789, 'learning_rate': 3.0121175435273373e-05, 'epoch': 0.85}
+{'loss': 1.4567, 'grad_norm': 0.0891224592924118, 'learning_rate': 3.0022584776297462e-05, 'epoch': 0.85}
+{'loss': 1.4469, 'grad_norm': 0.09328149259090424, 'learning_rate': 2.9924145423922382e-05, 'epoch': 0.85}
+{'loss': 1.454, 'grad_norm': 0.09098463505506516, 'learning_rate': 2.982585744585736e-05, 'epoch': 0.85}
+{'loss': 1.4514, 'grad_norm': 0.09485306590795517, 'learning_rate': 2.97277209097076e-05, 'epoch': 0.85}
+{'loss': 1.4607, 'grad_norm': 0.09652037173509598, 'learning_rate': 2.9629735882974213e-05, 'epoch': 0.85}
+{'loss': 1.4252, 'grad_norm': 0.08454405516386032, 'learning_rate': 2.9531902433053953e-05, 'epoch': 0.85}
+{'loss': 1.4521, 'grad_norm': 0.08424347639083862, 'learning_rate': 2.9434220627239493e-05, 'epoch': 0.85}
+{'loss': 1.4439, 'grad_norm': 0.08769067376852036, 'learning_rate': 2.9336690532719064e-05, 'epoch': 0.85}
+{'loss': 1.46, 'grad_norm': 0.08361614495515823, 'learning_rate': 2.9239312216576552e-05, 'epoch': 0.85}
+{'loss': 1.4532, 'grad_norm': 0.09284762293100357, 'learning_rate': 2.9142085745791523e-05, 'epoch': 0.85}
+{'loss': 1.4227, 'grad_norm': 0.08935578912496567, 'learning_rate': 2.9045011187238958e-05, 'epoch': 0.85}
+{'loss': 1.4523, 'grad_norm': 0.09057894349098206, 'learning_rate': 2.8948088607689577e-05, 'epoch': 0.85}
+{'loss': 1.4393, 'grad_norm': 0.07939255982637405, 'learning_rate': 2.8851318073809335e-05, 'epoch': 0.85}
+{'loss': 1.4377, 'grad_norm': 0.08853920549154282, 'learning_rate': 2.8754699652159792e-05, 'epoch': 0.85}
+{'loss': 1.4489, 'grad_norm': 0.08664017915725708, 'learning_rate': 2.8658233409197737e-05, 'epoch': 0.85}
+{'loss': 1.4315, 'grad_norm': 0.09304749220609665, 'learning_rate': 2.856191941127531e-05, 'epoch': 0.85}
+{'loss': 1.4492, 'grad_norm': 0.09068318456411362, 'learning_rate': 2.846575772464005e-05, 'epoch': 0.85}
+{'loss': 1.4585, 'grad_norm': 0.08287797123193741, 'learning_rate': 2.8369748415434605e-05, 'epoch': 0.85}
+{'loss': 1.4315, 'grad_norm': 0.08837643265724182, 'learning_rate': 2.827389154969684e-05, 'epoch': 0.85}
+{'loss': 1.4645, 'grad_norm': 0.0858677476644516, 'learning_rate': 2.8178187193359738e-05, 'epoch': 0.85}
+{'loss': 1.4564, 'grad_norm': 0.0880073830485344, 'learning_rate': 2.8082635412251505e-05, 'epoch': 0.85}
+{'loss': 1.4378, 'grad_norm': 0.0850205197930336, 'learning_rate': 2.7987236272095318e-05, 'epoch': 0.85}
+{'loss': 1.4369, 'grad_norm': 0.08597781509160995, 'learning_rate': 2.7891989838509353e-05, 'epoch': 0.85}
+{'loss': 1.4478, 'grad_norm': 0.08722693473100662, 'learning_rate': 2.779689617700676e-05, 'epoch': 0.85}
+{'loss': 1.4526, 'grad_norm': 0.08919273316860199, 'learning_rate': 2.7701955352995523e-05, 'epoch': 0.85}
+{'loss': 1.4385, 'grad_norm': 0.09410356730222702, 'learning_rate': 2.760716743177874e-05, 'epoch': 0.85}
+{'loss': 1.4311, 'grad_norm': 0.09280327707529068, 'learning_rate': 2.751253247855412e-05, 'epoch': 0.85}
+{'loss': 1.4509, 'grad_norm': 0.08944002538919449, 'learning_rate': 2.7418050558414176e-05, 'epoch': 0.85}
+{'loss': 1.4525, 'grad_norm': 0.09273309260606766, 'learning_rate': 2.7323721736346285e-05, 'epoch': 0.85}
+{'loss': 1.4699, 'grad_norm': 0.09089984744787216, 'learning_rate': 2.7229546077232352e-05, 'epoch': 0.85}
+{'loss': 1.4502, 'grad_norm': 0.08541694283485413, 'learning_rate': 2.713552364584915e-05, 'epoch': 0.85}
+{'loss': 1.4215, 'grad_norm': 0.09104419499635696, 'learning_rate': 2.7041654506867826e-05, 'epoch': 0.86}
+{'loss': 1.4416, 'grad_norm': 0.09296787530183792, 'learning_rate': 2.694793872485424e-05, 'epoch': 0.86}
+{'loss': 1.4414, 'grad_norm': 0.0911557674407959, 'learning_rate': 2.6854376364268683e-05, 'epoch': 0.86}
+{'loss': 1.4606, 'grad_norm': 0.08884413540363312, 'learning_rate': 2.6760967489465937e-05, 'epoch': 0.86}
+{'loss': 1.4359, 'grad_norm': 0.08883921802043915, 'learning_rate': 2.666771216469527e-05, 'epoch': 0.86}
+{'loss': 1.4445, 'grad_norm': 0.09115000069141388, 'learning_rate': 2.657461045410034e-05, 'epoch': 0.86}
+{'loss': 1.46, 'grad_norm': 0.10101299732923508, 'learning_rate': 2.6481662421719067e-05, 'epoch': 0.86}
+{'loss': 1.451, 'grad_norm': 0.09921068698167801, 'learning_rate': 2.6388868131483613e-05, 'epoch': 0.86}
+{'loss': 1.461, 'grad_norm': 0.09537740796804428, 'learning_rate': 2.6296227647220617e-05, 'epoch': 0.86}
+{'loss': 1.4577, 'grad_norm': 0.08671884983778, 'learning_rate': 2.6203741032650718e-05, 'epoch': 0.86}
+{'loss': 1.4501, 'grad_norm': 0.09143499284982681, 'learning_rate': 2.6111408351388783e-05, 'epoch': 0.86}
+{'loss': 1.462, 'grad_norm': 0.10766156762838364, 'learning_rate': 2.6019229666943784e-05, 'epoch': 0.86}
+{'loss': 1.4651, 'grad_norm': 0.10178443789482117, 'learning_rate': 2.5927205042718784e-05, 'epoch': 0.86}
+{'loss': 1.4375, 'grad_norm': 0.10831014066934586, 'learning_rate': 2.583533454201101e-05, 'epoch': 0.86}
+{'loss': 1.46, 'grad_norm': 0.08660891652107239, 'learning_rate': 2.5743618228011438e-05, 'epoch': 0.86}
+{'loss': 1.4436, 'grad_norm': 0.09086357802152634, 'learning_rate': 2.565205616380517e-05, 'epoch': 0.86}
+{'loss': 1.4814, 'grad_norm': 0.0942024514079094, 'learning_rate': 2.55606484123711e-05, 'epoch': 0.86}
+{'loss': 1.4581, 'grad_norm': 0.08646140247583389, 'learning_rate': 2.5469395036581994e-05, 'epoch': 0.86}
+{'loss': 1.4581, 'grad_norm': 0.0927598774433136, 'learning_rate': 2.5378296099204556e-05, 'epoch': 0.86}
+{'loss': 1.4403, 'grad_norm': 0.09104486554861069, 'learning_rate': 2.5287351662899085e-05, 'epoch': 0.86}
+{'loss': 1.4526, 'grad_norm': 0.0929078534245491, 'learning_rate': 2.5196561790219813e-05, 'epoch': 0.86}
+{'loss': 1.429, 'grad_norm': 0.09241479635238647, 'learning_rate': 2.510592654361446e-05, 'epoch': 0.86}
+{'loss': 1.464, 'grad_norm': 0.08331425487995148, 'learning_rate': 2.501544598542449e-05, 'epoch': 0.86}
+{'loss': 1.4324, 'grad_norm': 0.10044022649526596, 'learning_rate': 2.492512017788498e-05, 'epoch': 0.86}
+{'loss': 1.4339, 'grad_norm': 0.0857832208275795, 'learning_rate': 2.4834949183124538e-05, 'epoch': 0.86}
+{'loss': 1.4499, 'grad_norm': 0.08747606724500656, 'learning_rate': 2.4744933063165274e-05, 'epoch': 0.86}
+{'loss': 1.4496, 'grad_norm': 0.09276490658521652, 'learning_rate': 2.4655071879922746e-05, 'epoch': 0.86}
+{'loss': 1.448, 'grad_norm': 0.09597116708755493, 'learning_rate': 2.4565365695206037e-05, 'epoch': 0.86}
+{'loss': 1.4495, 'grad_norm': 0.0953536108136177, 'learning_rate': 2.4475814570717568e-05, 'epoch': 0.86}
+{'loss': 1.4591, 'grad_norm': 0.08719881623983383, 'learning_rate': 2.43864185680531e-05, 'epoch': 0.86}
+{'loss': 1.4525, 'grad_norm': 0.08592190593481064, 'learning_rate': 2.429717774870166e-05, 'epoch': 0.86}
+{'loss': 1.435, 'grad_norm': 0.08972761034965515, 'learning_rate': 2.4208092174045543e-05, 'epoch': 0.86}
+{'loss': 1.473, 'grad_norm': 0.0869181677699089, 'learning_rate': 2.41191619053604e-05, 'epoch': 0.86}
+{'loss': 1.451, 'grad_norm': 0.09517479687929153, 'learning_rate': 2.403038700381488e-05, 'epoch': 0.86}
+{'loss': 1.4208, 'grad_norm': 0.0859559029340744, 'learning_rate': 2.3941767530470783e-05, 'epoch': 0.86}
+{'loss': 1.4439, 'grad_norm': 0.09509015083312988, 'learning_rate': 2.3853303546283178e-05, 'epoch': 0.86}
+{'loss': 1.4481, 'grad_norm': 0.08963561058044434, 'learning_rate': 2.3764995112099925e-05, 'epoch': 0.86}
+{'loss': 1.4345, 'grad_norm': 0.08571062982082367, 'learning_rate': 2.3676842288662183e-05, 'epoch': 0.86}
+{'loss': 1.4566, 'grad_norm': 0.08879031240940094, 'learning_rate': 2.358884513660381e-05, 'epoch': 0.86}
+{'loss': 1.4356, 'grad_norm': 0.08680032193660736, 'learning_rate': 2.3501003716451752e-05, 'epoch': 0.87}
+{'loss': 1.4386, 'grad_norm': 0.08447567373514175, 'learning_rate': 2.3413318088625736e-05, 'epoch': 0.87}
+{'loss': 1.4691, 'grad_norm': 0.08761436492204666, 'learning_rate': 2.33257883134384e-05, 'epoch': 0.87}
+{'loss': 1.4604, 'grad_norm': 0.08151589334011078, 'learning_rate': 2.32384144510952e-05, 'epoch': 0.87}
+{'loss': 1.4523, 'grad_norm': 0.08552427589893341, 'learning_rate': 2.315119656169426e-05, 'epoch': 0.87}
+{'loss': 1.4372, 'grad_norm': 0.09189745038747787, 'learning_rate': 2.306413470522653e-05, 'epoch': 0.87}
+{'loss': 1.4446, 'grad_norm': 0.09059523046016693, 'learning_rate': 2.297722894157553e-05, 'epoch': 0.87}
+{'loss': 1.4365, 'grad_norm': 0.09208357334136963, 'learning_rate': 2.2890479330517548e-05, 'epoch': 0.87}
+{'loss': 1.4468, 'grad_norm': 0.07806629687547684, 'learning_rate': 2.2803885931721337e-05, 'epoch': 0.87}
+{'loss': 1.452, 'grad_norm': 0.08705124258995056, 'learning_rate': 2.271744880474824e-05, 'epoch': 0.87}
+{'loss': 1.4533, 'grad_norm': 0.09397600591182709, 'learning_rate': 2.2631168009052126e-05, 'epoch': 0.87}
+{'loss': 1.431, 'grad_norm': 0.08736676722764969, 'learning_rate': 2.25450436039793e-05, 'epoch': 0.87}
+{'loss': 1.4386, 'grad_norm': 0.08962908387184143, 'learning_rate': 2.245907564876859e-05, 'epoch': 0.87}
+{'loss': 1.4509, 'grad_norm': 0.08077401667833328, 'learning_rate': 2.2373264202551175e-05, 'epoch': 0.87}
+{'loss': 1.4654, 'grad_norm': 0.08470852673053741, 'learning_rate': 2.2287609324350506e-05, 'epoch': 0.87}
+{'loss': 1.4471, 'grad_norm': 0.09199582785367966, 'learning_rate': 2.2202111073082398e-05, 'epoch': 0.87}
+{'loss': 1.4483, 'grad_norm': 0.08537033200263977, 'learning_rate': 2.2116769507554922e-05, 'epoch': 0.87}
+{'loss': 1.4564, 'grad_norm': 0.08192149549722672, 'learning_rate': 2.203158468646843e-05, 'epoch': 0.87}
+{'loss': 1.4482, 'grad_norm': 0.0874193087220192, 'learning_rate': 2.1946556668415414e-05, 'epoch': 0.87}
+{'loss': 1.447, 'grad_norm': 0.08257035166025162, 'learning_rate': 2.1861685511880448e-05, 'epoch': 0.87}
+{'loss': 1.4444, 'grad_norm': 0.0897006168961525, 'learning_rate': 2.1776971275240394e-05, 'epoch': 0.87}
+{'loss': 1.4406, 'grad_norm': 0.08470001071691513, 'learning_rate': 2.1692414016763918e-05, 'epoch': 0.87}
+{'loss': 1.4319, 'grad_norm': 0.0868096873164177, 'learning_rate': 2.1608013794612026e-05, 'epoch': 0.87}
+{'loss': 1.4488, 'grad_norm': 0.09191184490919113, 'learning_rate': 2.1523770666837445e-05, 'epoch': 0.87}
+{'loss': 1.4559, 'grad_norm': 0.09201496094465256, 'learning_rate': 2.1439684691384992e-05, 'epoch': 0.87}
+{'loss': 1.4762, 'grad_norm': 0.09414926916360855, 'learning_rate': 2.1355755926091235e-05, 'epoch': 0.87}
+{'loss': 1.4466, 'grad_norm': 0.09843472391366959, 'learning_rate': 2.1271984428684888e-05, 'epoch': 0.87}
+{'loss': 1.4471, 'grad_norm': 0.08653584122657776, 'learning_rate': 2.118837025678616e-05, 'epoch': 0.87}
+{'loss': 1.4356, 'grad_norm': 0.09692183136940002, 'learning_rate': 2.1104913467907354e-05, 'epoch': 0.87}
+{'loss': 1.4258, 'grad_norm': 0.08449280261993408, 'learning_rate': 2.102161411945233e-05, 'epoch': 0.87}
+{'loss': 1.4362, 'grad_norm': 0.08828826248645782, 'learning_rate': 2.0938472268716618e-05, 'epoch': 0.87}
+{'loss': 1.4598, 'grad_norm': 0.08242850750684738, 'learning_rate': 2.085548797288761e-05, 'epoch': 0.87}
+{'loss': 1.4485, 'grad_norm': 0.08221732825040817, 'learning_rate': 2.0772661289044174e-05, 'epoch': 0.87}
+{'loss': 1.4522, 'grad_norm': 0.08690012991428375, 'learning_rate': 2.0689992274156828e-05, 'epoch': 0.87}
+{'loss': 1.4575, 'grad_norm': 0.0865190178155899, 'learning_rate': 2.060748098508758e-05, 'epoch': 0.87}
+{'loss': 1.4373, 'grad_norm': 0.08764185756444931, 'learning_rate': 2.0525127478590032e-05, 'epoch': 0.87}
+{'loss': 1.4477, 'grad_norm': 0.08636493235826492, 'learning_rate': 2.044293181130924e-05, 'epoch': 0.87}
+{'loss': 1.4336, 'grad_norm': 0.08648256212472916, 'learning_rate': 2.036089403978167e-05, 'epoch': 0.87}
+{'loss': 1.4464, 'grad_norm': 0.08061033487319946, 'learning_rate': 2.0279014220435183e-05, 'epoch': 0.87}
+{'loss': 1.4516, 'grad_norm': 0.08564825356006622, 'learning_rate': 2.019729240958898e-05, 'epoch': 0.88}
+{'loss': 1.4677, 'grad_norm': 0.08428812026977539, 'learning_rate': 2.0115728663453597e-05, 'epoch': 0.88}
+{'loss': 1.4583, 'grad_norm': 0.07932829111814499, 'learning_rate': 2.003432303813088e-05, 'epoch': 0.88}
+{'loss': 1.4518, 'grad_norm': 0.08605781197547913, 'learning_rate': 1.9953075589613873e-05, 'epoch': 0.88}
+{'loss': 1.4266, 'grad_norm': 0.09631519019603729, 'learning_rate': 1.987198637378687e-05, 'epoch': 0.88}
+{'loss': 1.4528, 'grad_norm': 0.08660748600959778, 'learning_rate': 1.9791055446425233e-05, 'epoch': 0.88}
+{'loss': 1.4799, 'grad_norm': 0.09017867594957352, 'learning_rate': 1.9710282863195594e-05, 'epoch': 0.88}
+{'loss': 1.4089, 'grad_norm': 0.10613247007131577, 'learning_rate': 1.9629668679655542e-05, 'epoch': 0.88}
+{'loss': 1.4401, 'grad_norm': 0.10625562816858292, 'learning_rate': 1.9549212951253753e-05, 'epoch': 0.88}
+{'loss': 1.4728, 'grad_norm': 0.08256316930055618, 'learning_rate': 1.9468915733329928e-05, 'epoch': 0.88}
+{'loss': 1.4605, 'grad_norm': 0.08599618077278137, 'learning_rate': 1.9388777081114694e-05, 'epoch': 0.88}
+{'loss': 1.4506, 'grad_norm': 0.08428742736577988, 'learning_rate': 1.930879704972971e-05, 'epoch': 0.88}
+{'loss': 1.4681, 'grad_norm': 0.08904173970222473, 'learning_rate': 1.922897569418744e-05, 'epoch': 0.88}
+{'loss': 1.471, 'grad_norm': 0.08416454493999481, 'learning_rate': 1.9149313069391272e-05, 'epoch': 0.88}
+{'loss': 1.4566, 'grad_norm': 0.08603379130363464, 'learning_rate': 1.9069809230135375e-05, 'epoch': 0.88}
+{'loss': 1.4496, 'grad_norm': 0.09139414131641388, 'learning_rate': 1.8990464231104648e-05, 'epoch': 0.88}
+{'loss': 1.4291, 'grad_norm': 0.08339578658342361, 'learning_rate': 1.8911278126874876e-05, 'epoch': 0.88}
+{'loss': 1.464, 'grad_norm': 0.09184025973081589, 'learning_rate': 1.8832250971912433e-05, 'epoch': 0.88}
+{'loss': 1.443, 'grad_norm': 0.08425179123878479, 'learning_rate': 1.8753382820574345e-05, 'epoch': 0.88}
+{'loss': 1.4322, 'grad_norm': 0.09193672984838486, 'learning_rate': 1.8674673727108432e-05, 'epoch': 0.88}
+{'loss': 1.438, 'grad_norm': 0.08653165400028229, 'learning_rate': 1.8596123745652894e-05, 'epoch': 0.88}
+{'loss': 1.4473, 'grad_norm': 0.08993884921073914, 'learning_rate': 1.8517732930236704e-05, 'epoch': 0.88}
+{'loss': 1.473, 'grad_norm': 0.0883014053106308, 'learning_rate': 1.8439501334779203e-05, 'epoch': 0.88}
+{'loss': 1.4405, 'grad_norm': 0.09201785922050476, 'learning_rate': 1.8361429013090263e-05, 'epoch': 0.88}
+{'loss': 1.4359, 'grad_norm': 0.08433827757835388, 'learning_rate': 1.8283516018870213e-05, 'epoch': 0.88}
+{'loss': 1.4621, 'grad_norm': 0.0849287211894989, 'learning_rate': 1.820576240570973e-05, 'epoch': 0.88}
+{'loss': 1.4272, 'grad_norm': 0.09015075117349625, 'learning_rate': 1.8128168227089987e-05, 'epoch': 0.88}
+{'loss': 1.4463, 'grad_norm': 0.09079999476671219, 'learning_rate': 1.805073353638237e-05, 'epoch': 0.88}
+{'loss': 1.4866, 'grad_norm': 0.09660188853740692, 'learning_rate': 1.797345838684869e-05, 'epoch': 0.88}
+{'loss': 1.4197, 'grad_norm': 0.09161407500505447, 'learning_rate': 1.789634283164085e-05, 'epoch': 0.88}
+{'loss': 1.4303, 'grad_norm': 0.08614904433488846, 'learning_rate': 1.7819386923801196e-05, 'epoch': 0.88}
+{'loss': 1.4754, 'grad_norm': 0.08563700318336487, 'learning_rate': 1.774259071626208e-05, 'epoch': 0.88}
+{'loss': 1.4313, 'grad_norm': 0.08785781264305115, 'learning_rate': 1.7665954261846084e-05, 'epoch': 0.88}
+{'loss': 1.4382, 'grad_norm': 0.09380047768354416, 'learning_rate': 1.7589477613265876e-05, 'epoch': 0.88}
+{'loss': 1.4484, 'grad_norm': 0.08659186214208603, 'learning_rate': 1.7513160823124237e-05, 'epoch': 0.88}
+{'loss': 1.4503, 'grad_norm': 0.0858338326215744, 'learning_rate': 1.743700394391398e-05, 'epoch': 0.88}
+{'loss': 1.4559, 'grad_norm': 0.08311797678470612, 'learning_rate': 1.7361007028018018e-05, 'epoch': 0.88}
+{'loss': 1.4393, 'grad_norm': 0.08684274554252625, 'learning_rate': 1.7285170127709055e-05, 'epoch': 0.88}
+{'loss': 1.4453, 'grad_norm': 0.08586309105157852, 'learning_rate': 1.7209493295149843e-05, 'epoch': 0.88}
+{'loss': 1.4379, 'grad_norm': 0.08674287796020508, 'learning_rate': 1.713397658239299e-05, 'epoch': 0.88}
+{'loss': 1.456, 'grad_norm': 0.09050807356834412, 'learning_rate': 1.7058620041381064e-05, 'epoch': 0.89}
+{'loss': 1.4623, 'grad_norm': 0.08252190053462982, 'learning_rate': 1.6983423723946345e-05, 'epoch': 0.89}
+{'loss': 1.4441, 'grad_norm': 0.08803921192884445, 'learning_rate': 1.6908387681810965e-05, 'epoch': 0.89}
+{'loss': 1.4671, 'grad_norm': 0.08217848092317581, 'learning_rate': 1.6833511966586834e-05, 'epoch': 0.89}
+{'loss': 1.4497, 'grad_norm': 0.08716195821762085, 'learning_rate': 1.6758796629775503e-05, 'epoch': 0.89}
+{'loss': 1.4459, 'grad_norm': 0.08200434595346451, 'learning_rate': 1.6684241722768336e-05, 'epoch': 0.89}
+{'loss': 1.4636, 'grad_norm': 0.0859762504696846, 'learning_rate': 1.6609847296846254e-05, 'epoch': 0.89}
+{'loss': 1.4565, 'grad_norm': 0.09760522097349167, 'learning_rate': 1.65356134031798e-05, 'epoch': 0.89}
+{'loss': 1.4581, 'grad_norm': 0.09299614280462265, 'learning_rate': 1.6461540092829076e-05, 'epoch': 0.89}
+{'loss': 1.4409, 'grad_norm': 0.08745826780796051, 'learning_rate': 1.638762741674385e-05, 'epoch': 0.89}
+{'loss': 1.4372, 'grad_norm': 0.08462685346603394, 'learning_rate': 1.6313875425763264e-05, 'epoch': 0.89}
+{'loss': 1.429, 'grad_norm': 0.08268671482801437, 'learning_rate': 1.6240284170616045e-05, 'epoch': 0.89}
+{'loss': 1.4413, 'grad_norm': 0.0946563258767128, 'learning_rate': 1.616685370192028e-05, 'epoch': 0.89}
+{'loss': 1.4536, 'grad_norm': 0.08123474568128586, 'learning_rate': 1.6093584070183436e-05, 'epoch': 0.89}
+{'loss': 1.4736, 'grad_norm': 0.07637792080640793, 'learning_rate': 1.602047532580253e-05, 'epoch': 0.89}
+{'loss': 1.4357, 'grad_norm': 0.0869256854057312, 'learning_rate': 1.5947527519063755e-05, 'epoch': 0.89}
+{'loss': 1.4597, 'grad_norm': 0.0844389945268631, 'learning_rate': 1.5874740700142582e-05, 'epoch': 0.89}
+{'loss': 1.4559, 'grad_norm': 0.08276975154876709, 'learning_rate': 1.5802114919103854e-05, 'epoch': 0.89}
+{'loss': 1.435, 'grad_norm': 0.08868848532438278, 'learning_rate': 1.5729650225901586e-05, 'epoch': 0.89}
+{'loss': 1.4643, 'grad_norm': 0.08693496882915497, 'learning_rate': 1.5657346670379102e-05, 'epoch': 0.89}
+{'loss': 1.4935, 'grad_norm': 0.085381418466568, 'learning_rate': 1.558520430226873e-05, 'epoch': 0.89}
+{'loss': 1.4542, 'grad_norm': 0.08577454090118408, 'learning_rate': 1.5513223171192025e-05, 'epoch': 0.89}
+{'loss': 1.4378, 'grad_norm': 0.08914237469434738, 'learning_rate': 1.544140332665961e-05, 'epoch': 0.89}
+{'loss': 1.4374, 'grad_norm': 0.08384966850280762, 'learning_rate': 1.536974481807113e-05, 'epoch': 0.89}
+{'loss': 1.4617, 'grad_norm': 0.09043250232934952, 'learning_rate': 1.5298247694715384e-05, 'epoch': 0.89}
+{'loss': 1.4415, 'grad_norm': 0.07841500639915466, 'learning_rate': 1.5226912005770034e-05, 'epoch': 0.89}
+{'loss': 1.4408, 'grad_norm': 0.0827263742685318, 'learning_rate': 1.51557378003018e-05, 'epoch': 0.89}
+{'loss': 1.464, 'grad_norm': 0.08665890991687775, 'learning_rate': 1.5084725127266219e-05, 'epoch': 0.89}
+{'loss': 1.4257, 'grad_norm': 0.08626240491867065, 'learning_rate': 1.5013874035507858e-05, 'epoch': 0.89}
+{'loss': 1.4471, 'grad_norm': 0.09031499177217484, 'learning_rate': 1.4943184573760067e-05, 'epoch': 0.89}
+{'loss': 1.4647, 'grad_norm': 0.07756557315587997, 'learning_rate': 1.4872656790645006e-05, 'epoch': 0.89}
+{'loss': 1.4542, 'grad_norm': 0.08274371922016144, 'learning_rate': 1.4802290734673623e-05, 'epoch': 0.89}
+{'loss': 1.4529, 'grad_norm': 0.07812152802944183, 'learning_rate': 1.4732086454245674e-05, 'epoch': 0.89}
+{'loss': 1.4488, 'grad_norm': 0.08530136197805405, 'learning_rate': 1.4662043997649672e-05, 'epoch': 0.89}
+{'loss': 1.4265, 'grad_norm': 0.07502786070108414, 'learning_rate': 1.4592163413062687e-05, 'epoch': 0.89}
+{'loss': 1.4335, 'grad_norm': 0.08304502069950104, 'learning_rate': 1.4522444748550605e-05, 'epoch': 0.89}
+{'loss': 1.4498, 'grad_norm': 0.08783017098903656, 'learning_rate': 1.4452888052067848e-05, 'epoch': 0.89}
+{'loss': 1.4514, 'grad_norm': 0.09052915871143341, 'learning_rate': 1.438349337145739e-05, 'epoch': 0.89}
+{'loss': 1.4497, 'grad_norm': 0.09081678837537766, 'learning_rate': 1.4314260754450915e-05, 'epoch': 0.89}
+{'loss': 1.441, 'grad_norm': 0.08798355609178543, 'learning_rate': 1.424519024866855e-05, 'epoch': 0.9}
+{'loss': 1.45, 'grad_norm': 0.08468858897686005, 'learning_rate': 1.4176281901618849e-05, 'epoch': 0.9}
+{'loss': 1.4407, 'grad_norm': 0.08081523329019547, 'learning_rate': 1.4107535760698898e-05, 'epoch': 0.9}
+{'loss': 1.4395, 'grad_norm': 0.09686758369207382, 'learning_rate': 1.4038951873194234e-05, 'epoch': 0.9}
+{'loss': 1.4476, 'grad_norm': 0.08676572889089584, 'learning_rate': 1.3970530286278788e-05, 'epoch': 0.9}
+{'loss': 1.4485, 'grad_norm': 0.0888487920165062, 'learning_rate': 1.3902271047014831e-05, 'epoch': 0.9}
+{'loss': 1.4381, 'grad_norm': 0.08602336794137955, 'learning_rate': 1.3834174202352972e-05, 'epoch': 0.9}
+{'loss': 1.4332, 'grad_norm': 0.08089709281921387, 'learning_rate': 1.3766239799132052e-05, 'epoch': 0.9}
+{'loss': 1.45, 'grad_norm': 0.0838732123374939, 'learning_rate': 1.3698467884079357e-05, 'epoch': 0.9}
+{'loss': 1.4309, 'grad_norm': 0.08170711249113083, 'learning_rate': 1.3630858503810212e-05, 'epoch': 0.9}
+{'loss': 1.4598, 'grad_norm': 0.08643009513616562, 'learning_rate': 1.356341170482825e-05, 'epoch': 0.9}
+{'loss': 1.4474, 'grad_norm': 0.07954037934541702, 'learning_rate': 1.3496127533525332e-05, 'epoch': 0.9}
+{'loss': 1.4413, 'grad_norm': 0.08371494710445404, 'learning_rate': 1.3429006036181274e-05, 'epoch': 0.9}
+{'loss': 1.484, 'grad_norm': 0.08560121804475784, 'learning_rate': 1.33620472589642e-05, 'epoch': 0.9}
+{'loss': 1.4426, 'grad_norm': 0.08779020607471466, 'learning_rate': 1.3295251247930212e-05, 'epoch': 0.9}
+{'loss': 1.4513, 'grad_norm': 0.0819387435913086, 'learning_rate': 1.322861804902345e-05, 'epoch': 0.9}
+{'loss': 1.4525, 'grad_norm': 0.09408097714185715, 'learning_rate': 1.3162147708076083e-05, 'epoch': 0.9}
+{'loss': 1.4306, 'grad_norm': 0.08093219250440598, 'learning_rate': 1.3095840270808234e-05, 'epoch': 0.9}
+{'loss': 1.4553, 'grad_norm': 0.08139288425445557, 'learning_rate': 1.3029695782828061e-05, 'epoch': 0.9}
+{'loss': 1.4243, 'grad_norm': 0.08027176558971405, 'learning_rate': 1.2963714289631584e-05, 'epoch': 0.9}
+{'loss': 1.4483, 'grad_norm': 0.08846119791269302, 'learning_rate': 1.2897895836602724e-05, 'epoch': 0.9}
+{'loss': 1.4343, 'grad_norm': 0.08209916949272156, 'learning_rate': 1.2832240469013212e-05, 'epoch': 0.9}
+{'loss': 1.4308, 'grad_norm': 0.09367188811302185, 'learning_rate': 1.2766748232022618e-05, 'epoch': 0.9}
+{'loss': 1.4584, 'grad_norm': 0.08227252960205078, 'learning_rate': 1.2701419170678408e-05, 'epoch': 0.9}
+{'loss': 1.417, 'grad_norm': 0.0858144760131836, 'learning_rate': 1.2636253329915692e-05, 'epoch': 0.9}
+{'loss': 1.4565, 'grad_norm': 0.08910353481769562, 'learning_rate': 1.257125075455734e-05, 'epoch': 0.9}
+{'loss': 1.4704, 'grad_norm': 0.07938062399625778, 'learning_rate': 1.2506411489313918e-05, 'epoch': 0.9}
+{'loss': 1.4347, 'grad_norm': 0.08061791956424713, 'learning_rate': 1.2441735578783753e-05, 'epoch': 0.9}
+{'loss': 1.4502, 'grad_norm': 0.081102654337883, 'learning_rate': 1.2377223067452675e-05, 'epoch': 0.9}
+{'loss': 1.4568, 'grad_norm': 0.07778075337409973, 'learning_rate': 1.2312873999694246e-05, 'epoch': 0.9}
+{'loss': 1.4517, 'grad_norm': 0.09744929522275925, 'learning_rate': 1.2248688419769477e-05, 'epoch': 0.9}
+{'loss': 1.455, 'grad_norm': 0.08578687161207199, 'learning_rate': 1.2184666371827024e-05, 'epoch': 0.9}
+{'loss': 1.4694, 'grad_norm': 0.07963786274194717, 'learning_rate': 1.212080789990308e-05, 'epoch': 0.9}
+{'loss': 1.4553, 'grad_norm': 0.08576276153326035, 'learning_rate': 1.205711304792123e-05, 'epoch': 0.9}
+{'loss': 1.4713, 'grad_norm': 0.08465862274169922, 'learning_rate': 1.1993581859692598e-05, 'epoch': 0.9}
+{'loss': 1.4591, 'grad_norm': 0.07819917052984238, 'learning_rate': 1.1930214378915726e-05, 'epoch': 0.9}
+{'loss': 1.4494, 'grad_norm': 0.08249283581972122, 'learning_rate': 1.1867010649176473e-05, 'epoch': 0.9}
+{'loss': 1.4463, 'grad_norm': 0.08413268625736237, 'learning_rate': 1.1803970713948176e-05, 'epoch': 0.9}
+{'loss': 1.4443, 'grad_norm': 0.07795780152082443, 'learning_rate': 1.1741094616591453e-05, 'epoch': 0.9}
+{'loss': 1.4563, 'grad_norm': 0.0853448212146759, 'learning_rate': 1.1678382400354236e-05, 'epoch': 0.91}
+{'loss': 1.4233, 'grad_norm': 0.08678904920816422, 'learning_rate': 1.161583410837172e-05, 'epoch': 0.91}
+{'loss': 1.4515, 'grad_norm': 0.09458561986684799, 'learning_rate': 1.1553449783666347e-05, 'epoch': 0.91}
+{'loss': 1.4373, 'grad_norm': 0.08957464247941971, 'learning_rate': 1.1491229469147879e-05, 'epoch': 0.91}
+{'loss': 1.431, 'grad_norm': 0.09021987020969391, 'learning_rate': 1.1429173207613108e-05, 'epoch': 0.91}
+{'loss': 1.4654, 'grad_norm': 0.08405249565839767, 'learning_rate': 1.1367281041746087e-05, 'epoch': 0.91}
+{'loss': 1.4367, 'grad_norm': 0.08104750514030457, 'learning_rate': 1.1305553014117953e-05, 'epoch': 0.91}
+{'loss': 1.4469, 'grad_norm': 0.08371378481388092, 'learning_rate': 1.1243989167186997e-05, 'epoch': 0.91}
+{'loss': 1.4353, 'grad_norm': 0.08247575163841248, 'learning_rate': 1.1182589543298539e-05, 'epoch': 0.91}
+{'loss': 1.4482, 'grad_norm': 0.08680085837841034, 'learning_rate': 1.1121354184684906e-05, 'epoch': 0.91}
+{'loss': 1.4412, 'grad_norm': 0.09404655545949936, 'learning_rate': 1.1060283133465577e-05, 'epoch': 0.91}
+{'loss': 1.4476, 'grad_norm': 0.07916726171970367, 'learning_rate': 1.0999376431646834e-05, 'epoch': 0.91}
+{'loss': 1.4469, 'grad_norm': 0.07764965295791626, 'learning_rate': 1.093863412112206e-05, 'epoch': 0.91}
+{'loss': 1.4582, 'grad_norm': 0.08018966019153595, 'learning_rate': 1.0878056243671497e-05, 'epoch': 0.91}
+{'loss': 1.4279, 'grad_norm': 0.08181978017091751, 'learning_rate': 1.0817642840962316e-05, 'epoch': 0.91}
+{'loss': 1.4516, 'grad_norm': 0.08336438238620758, 'learning_rate': 1.0757393954548527e-05, 'epoch': 0.91}
+{'loss': 1.4357, 'grad_norm': 0.08958722651004791, 'learning_rate': 1.0697309625870927e-05, 'epoch': 0.91}
+{'loss': 1.4355, 'grad_norm': 0.08033870160579681, 'learning_rate': 1.0637389896257289e-05, 'epoch': 0.91}
+{'loss': 1.4294, 'grad_norm': 0.08294133841991425, 'learning_rate': 1.0577634806922032e-05, 'epoch': 0.91}
+{'loss': 1.4348, 'grad_norm': 0.08418585360050201, 'learning_rate': 1.0518044398966393e-05, 'epoch': 0.91}
+{'loss': 1.4475, 'grad_norm': 0.08263108134269714, 'learning_rate': 1.0458618713378303e-05, 'epoch': 0.91}
+{'loss': 1.4582, 'grad_norm': 0.08618175238370895, 'learning_rate': 1.0399357791032377e-05, 'epoch': 0.91}
+{'loss': 1.4422, 'grad_norm': 0.0817870944738388, 'learning_rate': 1.0340261672689977e-05, 'epoch': 0.91}
+{'loss': 1.4537, 'grad_norm': 0.08871075510978699, 'learning_rate': 1.028133039899906e-05, 'epoch': 0.91}
+{'loss': 1.4479, 'grad_norm': 0.09144391864538193, 'learning_rate': 1.0222564010494178e-05, 'epoch': 0.91}
+{'loss': 1.4544, 'grad_norm': 0.09189509600400925, 'learning_rate': 1.0163962547596467e-05, 'epoch': 0.91}
+{'loss': 1.4506, 'grad_norm': 0.09131528437137604, 'learning_rate': 1.0105526050613655e-05, 'epoch': 0.91}
+{'loss': 1.4357, 'grad_norm': 0.07859499007463455, 'learning_rate': 1.0047254559740065e-05, 'epoch': 0.91}
+{'loss': 1.4268, 'grad_norm': 0.08491532504558563, 'learning_rate': 9.989148115056412e-06, 'epoch': 0.91}
+{'loss': 1.4531, 'grad_norm': 0.08514460176229477, 'learning_rate': 9.931206756529893e-06, 'epoch': 0.91}
+{'loss': 1.4459, 'grad_norm': 0.08465422689914703, 'learning_rate': 9.87343052401421e-06, 'epoch': 0.91}
+{'loss': 1.4631, 'grad_norm': 0.08899298310279846, 'learning_rate': 9.815819457249519e-06, 'epoch': 0.91}
+{'loss': 1.447, 'grad_norm': 0.08070686459541321, 'learning_rate': 9.758373595862236e-06, 'epoch': 0.91}
+{'loss': 1.4415, 'grad_norm': 0.07854781299829483, 'learning_rate': 9.701092979365278e-06, 'epoch': 0.91}
+{'loss': 1.4663, 'grad_norm': 0.08080374449491501, 'learning_rate': 9.643977647157825e-06, 'epoch': 0.91}
+{'loss': 1.462, 'grad_norm': 0.08607181161642075, 'learning_rate': 9.587027638525398e-06, 'epoch': 0.91}
+{'loss': 1.4218, 'grad_norm': 0.08543191850185394, 'learning_rate': 9.530242992639855e-06, 'epoch': 0.91}
+{'loss': 1.4461, 'grad_norm': 0.08134803920984268, 'learning_rate': 9.473623748559202e-06, 'epoch': 0.91}
+{'loss': 1.4413, 'grad_norm': 0.09221307188272476, 'learning_rate': 9.417169945227732e-06, 'epoch': 0.91}
+{'loss': 1.4623, 'grad_norm': 0.09010780602693558, 'learning_rate': 9.360881621475997e-06, 'epoch': 0.92}
+{'loss': 1.4532, 'grad_norm': 0.08667925745248795, 'learning_rate': 9.30475881602058e-06, 'epoch': 0.92}
+{'loss': 1.4536, 'grad_norm': 0.08297085016965866, 'learning_rate': 9.248801567464383e-06, 'epoch': 0.92}
+{'loss': 1.4513, 'grad_norm': 0.07796954363584518, 'learning_rate': 9.193009914296363e-06, 'epoch': 0.92}
+{'loss': 1.4418, 'grad_norm': 0.08533476293087006, 'learning_rate': 9.137383894891576e-06, 'epoch': 0.92}
+{'loss': 1.4446, 'grad_norm': 0.08537203073501587, 'learning_rate': 9.08192354751114e-06, 'epoch': 0.92}
+{'loss': 1.4428, 'grad_norm': 0.08209042251110077, 'learning_rate': 9.026628910302176e-06, 'epoch': 0.92}
+{'loss': 1.4553, 'grad_norm': 0.08109384775161743, 'learning_rate': 8.971500021297958e-06, 'epoch': 0.92}
+{'loss': 1.4497, 'grad_norm': 0.08385471999645233, 'learning_rate': 8.91653691841765e-06, 'epoch': 0.92}
+{'loss': 1.4447, 'grad_norm': 0.07922899723052979, 'learning_rate': 8.861739639466377e-06, 'epoch': 0.92}
+{'loss': 1.4273, 'grad_norm': 0.07628526538610458, 'learning_rate': 8.807108222135235e-06, 'epoch': 0.92}
+{'loss': 1.4511, 'grad_norm': 0.08688867837190628, 'learning_rate': 8.752642704001307e-06, 'epoch': 0.92}
+{'loss': 1.4447, 'grad_norm': 0.08701664209365845, 'learning_rate': 8.69834312252743e-06, 'epoch': 0.92}
+{'loss': 1.4205, 'grad_norm': 0.07959990203380585, 'learning_rate': 8.644209515062396e-06, 'epoch': 0.92}
+{'loss': 1.4478, 'grad_norm': 0.07987836748361588, 'learning_rate': 8.59024191884078e-06, 'epoch': 0.92}
+{'loss': 1.4565, 'grad_norm': 0.08369604498147964, 'learning_rate': 8.536440370983e-06, 'epoch': 0.92}
+{'loss': 1.4598, 'grad_norm': 0.08341971039772034, 'learning_rate': 8.482804908495317e-06, 'epoch': 0.92}
+{'loss': 1.4594, 'grad_norm': 0.07992762327194214, 'learning_rate': 8.429335568269635e-06, 'epoch': 0.92}
+{'loss': 1.4566, 'grad_norm': 0.0886632576584816, 'learning_rate': 8.376032387083704e-06, 'epoch': 0.92}
+{'loss': 1.4248, 'grad_norm': 0.08308612555265427, 'learning_rate': 8.322895401600944e-06, 'epoch': 0.92}
+{'loss': 1.4531, 'grad_norm': 0.08739527314901352, 'learning_rate': 8.26992464837037e-06, 'epoch': 0.92}
+{'loss': 1.4455, 'grad_norm': 0.0860353484749794, 'learning_rate': 8.217120163826835e-06, 'epoch': 0.92}
+{'loss': 1.4385, 'grad_norm': 0.085854671895504, 'learning_rate': 8.164481984290705e-06, 'epoch': 0.92}
+{'loss': 1.4361, 'grad_norm': 0.07918980717658997, 'learning_rate': 8.11201014596799e-06, 'epoch': 0.92}
+{'loss': 1.4399, 'grad_norm': 0.08567393571138382, 'learning_rate': 8.059704684950265e-06, 'epoch': 0.92}
+{'loss': 1.4524, 'grad_norm': 0.08303381502628326, 'learning_rate': 8.007565637214692e-06, 'epoch': 0.92}
+{'loss': 1.4487, 'grad_norm': 0.07670651376247406, 'learning_rate': 7.955593038623975e-06, 'epoch': 0.92}
+{'loss': 1.4221, 'grad_norm': 0.08741986006498337, 'learning_rate': 7.903786924926326e-06, 'epoch': 0.92}
+{'loss': 1.4553, 'grad_norm': 0.08781059831380844, 'learning_rate': 7.852147331755432e-06, 'epoch': 0.92}
+{'loss': 1.448, 'grad_norm': 0.08059325069189072, 'learning_rate': 7.800674294630411e-06, 'epoch': 0.92}
+{'loss': 1.4686, 'grad_norm': 0.08917026221752167, 'learning_rate': 7.749367848955885e-06, 'epoch': 0.92}
+{'loss': 1.4364, 'grad_norm': 0.07753986120223999, 'learning_rate': 7.698228030021848e-06, 'epoch': 0.92}
+{'loss': 1.4552, 'grad_norm': 0.07949803024530411, 'learning_rate': 7.64725487300369e-06, 'epoch': 0.92}
+{'loss': 1.4684, 'grad_norm': 0.08562806993722916, 'learning_rate': 7.596448412962198e-06, 'epoch': 0.92}
+{'loss': 1.4586, 'grad_norm': 0.08363474160432816, 'learning_rate': 7.545808684843392e-06, 'epoch': 0.92}
+{'loss': 1.4387, 'grad_norm': 0.08650422096252441, 'learning_rate': 7.4953357234787965e-06, 'epoch': 0.92}
+{'loss': 1.4256, 'grad_norm': 0.08241990208625793, 'learning_rate': 7.445029563585088e-06, 'epoch': 0.92}
+{'loss': 1.4535, 'grad_norm': 0.08481201529502869, 'learning_rate': 7.394890239764196e-06, 'epoch': 0.92}
+{'loss': 1.4546, 'grad_norm': 0.0828108936548233, 'learning_rate': 7.3449177865033965e-06, 'epoch': 0.92}
+{'loss': 1.4293, 'grad_norm': 0.08146817982196808, 'learning_rate': 7.295112238175084e-06, 'epoch': 0.93}
+{'loss': 1.4294, 'grad_norm': 0.08553392440080643, 'learning_rate': 7.245473629036992e-06, 'epoch': 0.93}
+{'loss': 1.4558, 'grad_norm': 0.0777285248041153, 'learning_rate': 7.196001993231837e-06, 'epoch': 0.93}
+{'loss': 1.4422, 'grad_norm': 0.08307592570781708, 'learning_rate': 7.146697364787652e-06, 'epoch': 0.93}
+{'loss': 1.4364, 'grad_norm': 0.08293524384498596, 'learning_rate': 7.097559777617557e-06, 'epoch': 0.93}
+{'loss': 1.4357, 'grad_norm': 0.08522029221057892, 'learning_rate': 7.048589265519684e-06, 'epoch': 0.93}
+{'loss': 1.4537, 'grad_norm': 0.08761979639530182, 'learning_rate': 6.999785862177366e-06, 'epoch': 0.93}
+{'loss': 1.4726, 'grad_norm': 0.08061046898365021, 'learning_rate': 6.951149601158946e-06, 'epoch': 0.93}
+{'loss': 1.4503, 'grad_norm': 0.08366942405700684, 'learning_rate': 6.902680515917775e-06, 'epoch': 0.93}
+{'loss': 1.4768, 'grad_norm': 0.08231719583272934, 'learning_rate': 6.854378639792241e-06, 'epoch': 0.93}
+{'loss': 1.4349, 'grad_norm': 0.07766827195882797, 'learning_rate': 6.80624400600574e-06, 'epoch': 0.93}
+{'loss': 1.4299, 'grad_norm': 0.07899591326713562, 'learning_rate': 6.758276647666622e-06, 'epoch': 0.93}
+{'loss': 1.461, 'grad_norm': 0.08222214877605438, 'learning_rate': 6.7104765977681616e-06, 'epoch': 0.93}
+{'loss': 1.4469, 'grad_norm': 0.08310691267251968, 'learning_rate': 6.662843889188558e-06, 'epoch': 0.93}
+{'loss': 1.4362, 'grad_norm': 0.08385258913040161, 'learning_rate': 6.61537855469091e-06, 'epoch': 0.93}
+{'loss': 1.4746, 'grad_norm': 0.08207842707633972, 'learning_rate': 6.568080626923239e-06, 'epoch': 0.93}
+{'loss': 1.4534, 'grad_norm': 0.07849827408790588, 'learning_rate': 6.520950138418358e-06, 'epoch': 0.93}
+{'loss': 1.4409, 'grad_norm': 0.08411017805337906, 'learning_rate': 6.473987121593888e-06, 'epoch': 0.93}
+{'loss': 1.4379, 'grad_norm': 0.08863582462072372, 'learning_rate': 6.4271916087523805e-06, 'epoch': 0.93}
+{'loss': 1.4409, 'grad_norm': 0.08014749735593796, 'learning_rate': 6.380563632081005e-06, 'epoch': 0.93}
+{'loss': 1.4528, 'grad_norm': 0.08206743001937866, 'learning_rate': 6.334103223651883e-06, 'epoch': 0.93}
+{'loss': 1.442, 'grad_norm': 0.07828154414892197, 'learning_rate': 6.287810415421702e-06, 'epoch': 0.93}
+{'loss': 1.4503, 'grad_norm': 0.07934942096471786, 'learning_rate': 6.241685239231992e-06, 'epoch': 0.93}
+{'loss': 1.4697, 'grad_norm': 0.08043826371431351, 'learning_rate': 6.195727726808903e-06, 'epoch': 0.93}
+{'loss': 1.4502, 'grad_norm': 0.0795588418841362, 'learning_rate': 6.149937909763314e-06, 'epoch': 0.93}
+{'loss': 1.4645, 'grad_norm': 0.08800839632749557, 'learning_rate': 6.1043158195907e-06, 'epoch': 0.93}
+{'loss': 1.4542, 'grad_norm': 0.08310100436210632, 'learning_rate': 6.058861487671264e-06, 'epoch': 0.93}
+{'loss': 1.4512, 'grad_norm': 0.08439686894416809, 'learning_rate': 6.013574945269746e-06, 'epoch': 0.93}
+{'loss': 1.4613, 'grad_norm': 0.08044012635946274, 'learning_rate': 5.968456223535451e-06, 'epoch': 0.93}
+{'loss': 1.4418, 'grad_norm': 0.07943624258041382, 'learning_rate': 5.923505353502362e-06, 'epoch': 0.93}
+{'loss': 1.4501, 'grad_norm': 0.08535381406545639, 'learning_rate': 5.878722366088912e-06, 'epoch': 0.93}
+{'loss': 1.4505, 'grad_norm': 0.08472933620214462, 'learning_rate': 5.834107292098073e-06, 'epoch': 0.93}
+{'loss': 1.4513, 'grad_norm': 0.08257198333740234, 'learning_rate': 5.789660162217325e-06, 'epoch': 0.93}
+{'loss': 1.4492, 'grad_norm': 0.07701610773801804, 'learning_rate': 5.745381007018657e-06, 'epoch': 0.93}
+{'loss': 1.4368, 'grad_norm': 0.08771172165870667, 'learning_rate': 5.7012698569585405e-06, 'epoch': 0.93}
+{'loss': 1.4459, 'grad_norm': 0.09189939498901367, 'learning_rate': 5.657326742377844e-06, 'epoch': 0.93}
+{'loss': 1.442, 'grad_norm': 0.08250078558921814, 'learning_rate': 5.613551693501834e-06, 'epoch': 0.93}
+{'loss': 1.4634, 'grad_norm': 0.07931376248598099, 'learning_rate': 5.56994474044023e-06, 'epoch': 0.93}
+{'loss': 1.4507, 'grad_norm': 0.08067012578248978, 'learning_rate': 5.526505913187096e-06, 'epoch': 0.93}
+{'loss': 1.436, 'grad_norm': 0.08115348219871521, 'learning_rate': 5.483235241620893e-06, 'epoch': 0.94}
+{'loss': 1.4459, 'grad_norm': 0.08928301185369492, 'learning_rate': 5.440132755504368e-06, 'epoch': 0.94}
+{'loss': 1.4749, 'grad_norm': 0.08064393699169159, 'learning_rate': 5.397198484484667e-06, 'epoch': 0.94}
+{'loss': 1.4628, 'grad_norm': 0.0788697898387909, 'learning_rate': 5.3544324580931115e-06, 'epoch': 0.94}
+{'loss': 1.4606, 'grad_norm': 0.07878674566745758, 'learning_rate': 5.311834705745394e-06, 'epoch': 0.94}
+{'loss': 1.4606, 'grad_norm': 0.08023310452699661, 'learning_rate': 5.269405256741467e-06, 'epoch': 0.94}
+{'loss': 1.4405, 'grad_norm': 0.08749093115329742, 'learning_rate': 5.227144140265427e-06, 'epoch': 0.94}
+{'loss': 1.4408, 'grad_norm': 0.07951261103153229, 'learning_rate': 5.185051385385719e-06, 'epoch': 0.94}
+{'loss': 1.4367, 'grad_norm': 0.08385059237480164, 'learning_rate': 5.143127021054822e-06, 'epoch': 0.94}
+{'loss': 1.4398, 'grad_norm': 0.0808209702372551, 'learning_rate': 5.101371076109557e-06, 'epoch': 0.94}
+{'loss': 1.4459, 'grad_norm': 0.08658815920352936, 'learning_rate': 5.059783579270838e-06, 'epoch': 0.94}
+{'loss': 1.4453, 'grad_norm': 0.08237142115831375, 'learning_rate': 5.018364559143674e-06, 'epoch': 0.94}
+{'loss': 1.4461, 'grad_norm': 0.08457684516906738, 'learning_rate': 4.97711404421719e-06, 'epoch': 0.94}
+{'loss': 1.462, 'grad_norm': 0.08266229927539825, 'learning_rate': 4.936032062864693e-06, 'epoch': 0.94}
+{'loss': 1.4406, 'grad_norm': 0.07949872314929962, 'learning_rate': 4.895118643343494e-06, 'epoch': 0.94}
+{'loss': 1.4539, 'grad_norm': 0.07813426852226257, 'learning_rate': 4.854373813794999e-06, 'epoch': 0.94}
+{'loss': 1.4522, 'grad_norm': 0.08154205232858658, 'learning_rate': 4.813797602244596e-06, 'epoch': 0.94}
+{'loss': 1.4486, 'grad_norm': 0.08544541150331497, 'learning_rate': 4.773390036601794e-06, 'epoch': 0.94}
+{'loss': 1.4392, 'grad_norm': 0.08703020960092545, 'learning_rate': 4.73315114465997e-06, 'epoch': 0.94}
+{'loss': 1.4321, 'grad_norm': 0.07876250892877579, 'learning_rate': 4.693080954096624e-06, 'epoch': 0.94}
+{'loss': 1.443, 'grad_norm': 0.08215483278036118, 'learning_rate': 4.653179492473153e-06, 'epoch': 0.94}
+{'loss': 1.4508, 'grad_norm': 0.08162707090377808, 'learning_rate': 4.613446787234854e-06, 'epoch': 0.94}
+{'loss': 1.4461, 'grad_norm': 0.08768782019615173, 'learning_rate': 4.573882865711004e-06, 'epoch': 0.94}
+{'loss': 1.4616, 'grad_norm': 0.08232306689023972, 'learning_rate': 4.534487755114752e-06, 'epoch': 0.94}
+{'loss': 1.4241, 'grad_norm': 0.07949665933847427, 'learning_rate': 4.495261482543172e-06, 'epoch': 0.94}
+{'loss': 1.4512, 'grad_norm': 0.0828658938407898, 'learning_rate': 4.45620407497721e-06, 'epoch': 0.94}
+{'loss': 1.4423, 'grad_norm': 0.09102895855903625, 'learning_rate': 4.417315559281598e-06, 'epoch': 0.94}
+{'loss': 1.4371, 'grad_norm': 0.08468537032604218, 'learning_rate': 4.378595962204968e-06, 'epoch': 0.94}
+{'loss': 1.45, 'grad_norm': 0.08455350250005722, 'learning_rate': 4.340045310379737e-06, 'epoch': 0.94}
+{'loss': 1.4404, 'grad_norm': 0.0754440575838089, 'learning_rate': 4.301663630322139e-06, 'epoch': 0.94}
+{'loss': 1.4214, 'grad_norm': 0.08183741569519043, 'learning_rate': 4.2634509484321125e-06, 'epoch': 0.94}
+{'loss': 1.4569, 'grad_norm': 0.07876460999250412, 'learning_rate': 4.225407290993466e-06, 'epoch': 0.94}
+{'loss': 1.4306, 'grad_norm': 0.08073407411575317, 'learning_rate': 4.187532684173601e-06, 'epoch': 0.94}
+{'loss': 1.4267, 'grad_norm': 0.08289708197116852, 'learning_rate': 4.1498271540238165e-06, 'epoch': 0.94}
+{'loss': 1.4395, 'grad_norm': 0.07725226134061813, 'learning_rate': 4.1122907264789785e-06, 'epoch': 0.94}
+{'loss': 1.4623, 'grad_norm': 0.07878829538822174, 'learning_rate': 4.074923427357741e-06, 'epoch': 0.94}
+{'loss': 1.442, 'grad_norm': 0.0778995156288147, 'learning_rate': 4.0377252823622924e-06, 'epoch': 0.94}
+{'loss': 1.4447, 'grad_norm': 0.08111298084259033, 'learning_rate': 4.000696317078611e-06, 'epoch': 0.94}
+{'loss': 1.4787, 'grad_norm': 0.07896897941827774, 'learning_rate': 3.963836556976241e-06, 'epoch': 0.94}
+{'loss': 1.4425, 'grad_norm': 0.07693403214216232, 'learning_rate': 3.9271460274083735e-06, 'epoch': 0.95}
+{'loss': 1.4345, 'grad_norm': 0.08006959408521652, 'learning_rate': 3.890624753611738e-06, 'epoch': 0.95}
+{'loss': 1.4482, 'grad_norm': 0.0827193334698677, 'learning_rate': 3.854272760706712e-06, 'epoch': 0.95}
+{'loss': 1.451, 'grad_norm': 0.08896124362945557, 'learning_rate': 3.818090073697183e-06, 'epoch': 0.95}
+{'loss': 1.4677, 'grad_norm': 0.0805635005235672, 'learning_rate': 3.782076717470634e-06, 'epoch': 0.95}
+{'loss': 1.4622, 'grad_norm': 0.07854555547237396, 'learning_rate': 3.7462327167980815e-06, 'epoch': 0.95}
+{'loss': 1.4721, 'grad_norm': 0.08240614086389542, 'learning_rate': 3.7105580963339713e-06, 'epoch': 0.95}
+{'loss': 1.4488, 'grad_norm': 0.08078131079673767, 'learning_rate': 3.6750528806163142e-06, 'epoch': 0.95}
+{'loss': 1.4388, 'grad_norm': 0.07828361541032791, 'learning_rate': 3.63971709406663e-06, 'epoch': 0.95}
+{'loss': 1.4314, 'grad_norm': 0.08135116845369339, 'learning_rate': 3.6045507609898388e-06, 'epoch': 0.95}
+{'loss': 1.4274, 'grad_norm': 0.08239009976387024, 'learning_rate': 3.569553905574313e-06, 'epoch': 0.95}
+{'loss': 1.4593, 'grad_norm': 0.08022153377532959, 'learning_rate': 3.5347265518918538e-06, 'epoch': 0.95}
+{'loss': 1.4297, 'grad_norm': 0.08423613756895065, 'learning_rate': 3.5000687238977146e-06, 'epoch': 0.95}
+{'loss': 1.4711, 'grad_norm': 0.07978236675262451, 'learning_rate': 3.465580445430522e-06, 'epoch': 0.95}
+{'loss': 1.4548, 'grad_norm': 0.08548235148191452, 'learning_rate': 3.431261740212244e-06, 'epoch': 0.95}
+{'loss': 1.4547, 'grad_norm': 0.08777068555355072, 'learning_rate': 3.3971126318482758e-06, 'epoch': 0.95}
+{'loss': 1.4452, 'grad_norm': 0.0783480703830719, 'learning_rate': 3.363133143827274e-06, 'epoch': 0.95}
+{'loss': 1.4821, 'grad_norm': 0.08539809286594391, 'learning_rate': 3.3293232995213195e-06, 'epoch': 0.95}
+{'loss': 1.4362, 'grad_norm': 0.08064398169517517, 'learning_rate': 3.295683122185783e-06, 'epoch': 0.95}
+{'loss': 1.4354, 'grad_norm': 0.08244559913873672, 'learning_rate': 3.2622126349592663e-06, 'epoch': 0.95}
+{'loss': 1.4599, 'grad_norm': 0.07822078466415405, 'learning_rate': 3.2289118608637703e-06, 'epoch': 0.95}
+{'loss': 1.4477, 'grad_norm': 0.08355173468589783, 'learning_rate': 3.195780822804417e-06, 'epoch': 0.95}
+{'loss': 1.4587, 'grad_norm': 0.07932484894990921, 'learning_rate': 3.1628195435697007e-06, 'epoch': 0.95}
+{'loss': 1.4471, 'grad_norm': 0.08084732294082642, 'learning_rate': 3.130028045831318e-06, 'epoch': 0.95}
+{'loss': 1.454, 'grad_norm': 0.07731989771127701, 'learning_rate': 3.097406352144172e-06, 'epoch': 0.95}
+{'loss': 1.4417, 'grad_norm': 0.07906493544578552, 'learning_rate': 3.0649544849463416e-06, 'epoch': 0.95}
+{'loss': 1.4387, 'grad_norm': 0.07835066318511963, 'learning_rate': 3.0326724665591663e-06, 'epoch': 0.95}
+{'loss': 1.4285, 'grad_norm': 0.08174125850200653, 'learning_rate': 3.000560319187079e-06, 'epoch': 0.95}
+{'loss': 1.4507, 'grad_norm': 0.09036405384540558, 'learning_rate': 2.9686180649177718e-06, 'epoch': 0.95}
+{'loss': 1.4458, 'grad_norm': 0.08255428820848465, 'learning_rate': 2.9368457257219484e-06, 'epoch': 0.95}
+{'loss': 1.4377, 'grad_norm': 0.07755564898252487, 'learning_rate': 2.9052433234535437e-06, 'epoch': 0.95}
+{'loss': 1.4543, 'grad_norm': 0.07976150512695312, 'learning_rate': 2.873810879849559e-06, 'epoch': 0.95}
+{'loss': 1.4418, 'grad_norm': 0.08325425535440445, 'learning_rate': 2.842548416530116e-06, 'epoch': 0.95}
+{'loss': 1.4385, 'grad_norm': 0.08053990453481674, 'learning_rate': 2.811455954998432e-06, 'epoch': 0.95}
+{'loss': 1.4767, 'grad_norm': 0.08316071331501007, 'learning_rate': 2.780533516640732e-06, 'epoch': 0.95}
+{'loss': 1.4296, 'grad_norm': 0.08077846467494965, 'learning_rate': 2.7497811227263357e-06, 'epoch': 0.95}
+{'loss': 1.461, 'grad_norm': 0.08445563167333603, 'learning_rate': 2.7191987944076014e-06, 'epoch': 0.95}
+{'loss': 1.489, 'grad_norm': 0.07864101231098175, 'learning_rate': 2.688786552719896e-06, 'epoch': 0.95}
+{'loss': 1.454, 'grad_norm': 0.08741216361522675, 'learning_rate': 2.658544418581654e-06, 'epoch': 0.95}
+{'loss': 1.4319, 'grad_norm': 0.08828790485858917, 'learning_rate': 2.6284724127942084e-06, 'epoch': 0.96}
+{'loss': 1.441, 'grad_norm': 0.08274243026971817, 'learning_rate': 2.598570556041957e-06, 'epoch': 0.96}
+{'loss': 1.4235, 'grad_norm': 0.08022429049015045, 'learning_rate': 2.5688388688921983e-06, 'epoch': 0.96}
+{'loss': 1.4223, 'grad_norm': 0.08162587136030197, 'learning_rate': 2.53927737179524e-06, 'epoch': 0.96}
+{'loss': 1.4521, 'grad_norm': 0.0790264904499054, 'learning_rate': 2.5098860850842896e-06, 'epoch': 0.96}
+{'loss': 1.4246, 'grad_norm': 0.07472089678049088, 'learning_rate': 2.480665028975537e-06, 'epoch': 0.96}
+{'loss': 1.454, 'grad_norm': 0.0844656303524971, 'learning_rate': 2.4516142235679606e-06, 'epoch': 0.96}
+{'loss': 1.4471, 'grad_norm': 0.08333124965429306, 'learning_rate': 2.4227336888435757e-06, 'epoch': 0.96}
+{'loss': 1.4592, 'grad_norm': 0.08125673979520798, 'learning_rate': 2.394023444667215e-06, 'epoch': 0.96}
+{'loss': 1.4653, 'grad_norm': 0.08258194476366043, 'learning_rate': 2.3654835107865257e-06, 'epoch': 0.96}
+{'loss': 1.4742, 'grad_norm': 0.0789746642112732, 'learning_rate': 2.3371139068321665e-06, 'epoch': 0.96}
+{'loss': 1.4421, 'grad_norm': 0.08199600130319595, 'learning_rate': 2.3089146523174453e-06, 'epoch': 0.96}
+{'loss': 1.4581, 'grad_norm': 0.08214154094457626, 'learning_rate': 2.2808857666386797e-06, 'epoch': 0.96}
+{'loss': 1.4486, 'grad_norm': 0.07468092441558838, 'learning_rate': 2.253027269074892e-06, 'epoch': 0.96}
+{'loss': 1.4529, 'grad_norm': 0.07694298774003983, 'learning_rate': 2.225339178787894e-06, 'epoch': 0.96}
+{'loss': 1.4485, 'grad_norm': 0.08075036853551865, 'learning_rate': 2.197821514822368e-06, 'epoch': 0.96}
+{'loss': 1.4474, 'grad_norm': 0.08199124038219452, 'learning_rate': 2.170474296105701e-06, 'epoch': 0.96}
+{'loss': 1.4493, 'grad_norm': 0.0805383026599884, 'learning_rate': 2.143297541448097e-06, 'epoch': 0.96}
+{'loss': 1.4459, 'grad_norm': 0.08092492818832397, 'learning_rate': 2.116291269542492e-06, 'epoch': 0.96}
+{'loss': 1.4541, 'grad_norm': 0.07895483821630478, 'learning_rate': 2.0894554989645543e-06, 'epoch': 0.96}
+{'loss': 1.4594, 'grad_norm': 0.08175049722194672, 'learning_rate': 2.06279024817263e-06, 'epoch': 0.96}
+{'loss': 1.4695, 'grad_norm': 0.08939865976572037, 'learning_rate': 2.0362955355078537e-06, 'epoch': 0.96}
+{'loss': 1.4552, 'grad_norm': 0.08397020399570465, 'learning_rate': 2.0099713791940365e-06, 'epoch': 0.96}
+{'loss': 1.4348, 'grad_norm': 0.08103714138269424, 'learning_rate': 1.983817797337667e-06, 'epoch': 0.96}
+{'loss': 1.4348, 'grad_norm': 0.0842779353260994, 'learning_rate': 1.957834807927883e-06, 'epoch': 0.96}
+{'loss': 1.4394, 'grad_norm': 0.08421527594327927, 'learning_rate': 1.9320224288365275e-06, 'epoch': 0.96}
+{'loss': 1.4439, 'grad_norm': 0.08511245250701904, 'learning_rate': 1.9063806778180648e-06, 'epoch': 0.96}
+{'loss': 1.4418, 'grad_norm': 0.08671516180038452, 'learning_rate': 1.8809095725096092e-06, 'epoch': 0.96}
+{'loss': 1.4467, 'grad_norm': 0.08007258921861649, 'learning_rate': 1.8556091304309241e-06, 'epoch': 0.96}
+{'loss': 1.4334, 'grad_norm': 0.08938030153512955, 'learning_rate': 1.8304793689843391e-06, 'epoch': 0.96}
+{'loss': 1.4602, 'grad_norm': 0.08125317096710205, 'learning_rate': 1.8055203054547775e-06, 'epoch': 0.96}
+{'loss': 1.4632, 'grad_norm': 0.09331440925598145, 'learning_rate': 1.7807319570098124e-06, 'epoch': 0.96}
+{'loss': 1.4582, 'grad_norm': 0.07497131079435349, 'learning_rate': 1.756114340699555e-06, 'epoch': 0.96}
+{'loss': 1.4646, 'grad_norm': 0.09267903864383698, 'learning_rate': 1.7316674734566828e-06, 'epoch': 0.96}
+{'loss': 1.443, 'grad_norm': 0.07827825099229813, 'learning_rate': 1.7073913720964673e-06, 'epoch': 0.96}
+{'loss': 1.4554, 'grad_norm': 0.08231236040592194, 'learning_rate': 1.6832860533166073e-06, 'epoch': 0.96}
+{'loss': 1.4458, 'grad_norm': 0.08643368631601334, 'learning_rate': 1.6593515336975062e-06, 'epoch': 0.96}
+{'loss': 1.4601, 'grad_norm': 0.07887640595436096, 'learning_rate': 1.63558782970194e-06, 'epoch': 0.96}
+{'loss': 1.4478, 'grad_norm': 0.07243739068508148, 'learning_rate': 1.6119949576752502e-06, 'epoch': 0.96}
+{'loss': 1.4575, 'grad_norm': 0.0789547935128212, 'learning_rate': 1.5885729338452615e-06, 'epoch': 0.97}
+{'loss': 1.4274, 'grad_norm': 0.08269539475440979, 'learning_rate': 1.565321774322337e-06, 'epoch': 0.97}
+{'loss': 1.4637, 'grad_norm': 0.07867307960987091, 'learning_rate': 1.5422414950992391e-06, 'epoch': 0.97}
+{'loss': 1.4471, 'grad_norm': 0.08144620805978775, 'learning_rate': 1.5193321120512415e-06, 'epoch': 0.97}
+{'loss': 1.4249, 'grad_norm': 0.0771014615893364, 'learning_rate': 1.4965936409360447e-06, 'epoch': 0.97}
+{'loss': 1.4452, 'grad_norm': 0.08268643915653229, 'learning_rate': 1.4740260973938325e-06, 'epoch': 0.97}
+{'loss': 1.4484, 'grad_norm': 0.08060731738805771, 'learning_rate': 1.45162949694716e-06, 'epoch': 0.97}
+{'loss': 1.452, 'grad_norm': 0.08124164491891861, 'learning_rate': 1.429403855001038e-06, 'epoch': 0.97}
+{'loss': 1.4175, 'grad_norm': 0.08856614679098129, 'learning_rate': 1.4073491868428767e-06, 'epoch': 0.97}
+{'loss': 1.4782, 'grad_norm': 0.07998087257146835, 'learning_rate': 1.3854655076425137e-06, 'epoch': 0.97}
+{'loss': 1.4245, 'grad_norm': 0.07646452635526657, 'learning_rate': 1.363752832452131e-06, 'epoch': 0.97}
+{'loss': 1.4636, 'grad_norm': 0.08290079981088638, 'learning_rate': 1.3422111762063372e-06, 'epoch': 0.97}
+{'loss': 1.4358, 'grad_norm': 0.08069880306720734, 'learning_rate': 1.3208405537220858e-06, 'epoch': 0.97}
+{'loss': 1.45, 'grad_norm': 0.07985205203294754, 'learning_rate': 1.2996409796986464e-06, 'epoch': 0.97}
+{'loss': 1.4432, 'grad_norm': 0.08176085352897644, 'learning_rate': 1.2786124687177158e-06, 'epoch': 0.97}
+{'loss': 1.4489, 'grad_norm': 0.08176524937152863, 'learning_rate': 1.2577550352432798e-06, 'epoch': 0.97}
+{'loss': 1.4558, 'grad_norm': 0.07669877260923386, 'learning_rate': 1.237068693621668e-06, 'epoch': 0.97}
+{'loss': 1.4381, 'grad_norm': 0.07871327549219131, 'learning_rate': 1.2165534580814709e-06, 'epoch': 0.97}
+{'loss': 1.451, 'grad_norm': 0.08117017894983292, 'learning_rate': 1.196209342733734e-06, 'epoch': 0.97}
+{'loss': 1.4538, 'grad_norm': 0.08162618428468704, 'learning_rate': 1.176036361571653e-06, 'epoch': 0.97}
+{'loss': 1.4295, 'grad_norm': 0.08131635934114456, 'learning_rate': 1.1560345284707397e-06, 'epoch': 0.97}
+{'loss': 1.4616, 'grad_norm': 0.08948436379432678, 'learning_rate': 1.1362038571888777e-06, 'epoch': 0.97}
+{'loss': 1.4652, 'grad_norm': 0.0781949982047081, 'learning_rate': 1.1165443613661009e-06, 'epoch': 0.97}
+{'loss': 1.4445, 'grad_norm': 0.07687373459339142, 'learning_rate': 1.0970560545247866e-06, 'epoch': 0.97}
+{'loss': 1.4484, 'grad_norm': 0.08147989213466644, 'learning_rate': 1.0777389500695178e-06, 'epoch': 0.97}
+{'loss': 1.4394, 'grad_norm': 0.07896038144826889, 'learning_rate': 1.0585930612871664e-06, 'epoch': 0.97}
+{'loss': 1.4437, 'grad_norm': 0.08219451457262039, 'learning_rate': 1.0396184013467813e-06, 'epoch': 0.97}
+{'loss': 1.4564, 'grad_norm': 0.08080063760280609, 'learning_rate': 1.0208149832997004e-06, 'epoch': 0.97}
+{'loss': 1.4412, 'grad_norm': 0.07869596034288406, 'learning_rate': 1.0021828200793836e-06, 'epoch': 0.97}
+{'loss': 1.4489, 'grad_norm': 0.07838594168424606, 'learning_rate': 9.837219245015794e-07, 'epoch': 0.97}
+{'loss': 1.4194, 'grad_norm': 0.07938198745250702, 'learning_rate': 9.654323092642136e-07, 'epoch': 0.97}
+{'loss': 1.4627, 'grad_norm': 0.08073174953460693, 'learning_rate': 9.473139869473901e-07, 'epoch': 0.97}
+{'loss': 1.4532, 'grad_norm': 0.08576810359954834, 'learning_rate': 9.2936697001339e-07, 'epoch': 0.97}
+{'loss': 1.4672, 'grad_norm': 0.0793943926692009, 'learning_rate': 9.11591270806672e-07, 'epoch': 0.97}
+{'loss': 1.4372, 'grad_norm': 0.08041810244321823, 'learning_rate': 8.939869015538727e-07, 'epoch': 0.97}
+{'loss': 1.4339, 'grad_norm': 0.08257368206977844, 'learning_rate': 8.765538743637502e-07, 'epoch': 0.97}
+{'loss': 1.4539, 'grad_norm': 0.0825619027018547, 'learning_rate': 8.592922012272408e-07, 'epoch': 0.97}
+{'loss': 1.4532, 'grad_norm': 0.07780717313289642, 'learning_rate': 8.422018940174026e-07, 'epoch': 0.97}
+{'loss': 1.4683, 'grad_norm': 0.08049733936786652, 'learning_rate': 8.252829644894155e-07, 'epoch': 0.97}
+{'loss': 1.4446, 'grad_norm': 0.08243642002344131, 'learning_rate': 8.08535424280582e-07, 'epoch': 0.98}
+{'loss': 1.4585, 'grad_norm': 0.08631779998540878, 'learning_rate': 7.919592849103263e-07, 'epoch': 0.98}
+{'loss': 1.4658, 'grad_norm': 0.07906650751829147, 'learning_rate': 7.755545577802225e-07, 'epoch': 0.98}
+{'loss': 1.461, 'grad_norm': 0.08227667212486267, 'learning_rate': 7.593212541738837e-07, 'epoch': 0.98}
+{'loss': 1.4514, 'grad_norm': 0.08382328599691391, 'learning_rate': 7.432593852569892e-07, 'epoch': 0.98}
+{'loss': 1.4641, 'grad_norm': 0.08350219577550888, 'learning_rate': 7.273689620773683e-07, 'epoch': 0.98}
+{'loss': 1.4208, 'grad_norm': 0.08505261689424515, 'learning_rate': 7.11649995564917e-07, 'epoch': 0.98}
+{'loss': 1.4519, 'grad_norm': 0.09040440618991852, 'learning_rate': 6.961024965315421e-07, 'epoch': 0.98}
+{'loss': 1.4551, 'grad_norm': 0.08193422108888626, 'learning_rate': 6.80726475671245e-07, 'epoch': 0.98}
+{'loss': 1.4459, 'grad_norm': 0.08002467453479767, 'learning_rate': 6.655219435601212e-07, 'epoch': 0.98}
+{'loss': 1.4715, 'grad_norm': 0.08192060142755508, 'learning_rate': 6.504889106562495e-07, 'epoch': 0.98}
+{'loss': 1.4244, 'grad_norm': 0.08224765211343765, 'learning_rate': 6.356273872997754e-07, 'epoch': 0.98}
+{'loss': 1.4327, 'grad_norm': 0.08312256634235382, 'learning_rate': 6.209373837128551e-07, 'epoch': 0.98}
+{'loss': 1.4457, 'grad_norm': 0.07916860282421112, 'learning_rate': 6.064189099997119e-07, 'epoch': 0.98}
+{'loss': 1.4537, 'grad_norm': 0.08035676181316376, 'learning_rate': 5.920719761465243e-07, 'epoch': 0.98}
+{'loss': 1.4775, 'grad_norm': 0.07902907580137253, 'learning_rate': 5.778965920215096e-07, 'epoch': 0.98}
+{'loss': 1.4537, 'grad_norm': 0.07552307099103928, 'learning_rate': 5.638927673749239e-07, 'epoch': 0.98}
+{'loss': 1.4504, 'grad_norm': 0.08163587003946304, 'learning_rate': 5.500605118389512e-07, 'epoch': 0.98}
+{'loss': 1.4216, 'grad_norm': 0.07957227528095245, 'learning_rate': 5.363998349278421e-07, 'epoch': 0.98}
+{'loss': 1.4472, 'grad_norm': 0.08020813018083572, 'learning_rate': 5.229107460377746e-07, 'epoch': 0.98}
+{'loss': 1.4299, 'grad_norm': 0.0843651071190834, 'learning_rate': 5.095932544469106e-07, 'epoch': 0.98}
+{'loss': 1.4807, 'grad_norm': 0.07799921929836273, 'learning_rate': 4.964473693154226e-07, 'epoch': 0.98}
+{'loss': 1.4716, 'grad_norm': 0.08125309646129608, 'learning_rate': 4.834730996853831e-07, 'epoch': 0.98}
+{'loss': 1.4557, 'grad_norm': 0.07902021706104279, 'learning_rate': 4.7067045448084824e-07, 'epoch': 0.98}
+{'loss': 1.4446, 'grad_norm': 0.08299969136714935, 'learning_rate': 4.580394425078571e-07, 'epoch': 0.98}
+{'loss': 1.4574, 'grad_norm': 0.08888185769319534, 'learning_rate': 4.4558007245437684e-07, 'epoch': 0.98}
+{'loss': 1.4424, 'grad_norm': 0.0742400661110878, 'learning_rate': 4.332923528903299e-07, 'epoch': 0.98}
+{'loss': 1.4361, 'grad_norm': 0.07948880642652512, 'learning_rate': 4.2117629226748333e-07, 'epoch': 0.98}
+{'loss': 1.4669, 'grad_norm': 0.07724887132644653, 'learning_rate': 4.092318989196708e-07, 'epoch': 0.98}
+{'loss': 1.4387, 'grad_norm': 0.07699531316757202, 'learning_rate': 3.9745918106254275e-07, 'epoch': 0.98}
+{'loss': 1.4689, 'grad_norm': 0.07855266332626343, 'learning_rate': 3.85858146793705e-07, 'epoch': 0.98}
+{'loss': 1.4544, 'grad_norm': 0.08511904627084732, 'learning_rate': 3.744288040926913e-07, 'epoch': 0.98}
+{'loss': 1.4371, 'grad_norm': 0.08226718753576279, 'learning_rate': 3.6317116082087987e-07, 'epoch': 0.98}
+{'loss': 1.445, 'grad_norm': 0.07788438349962234, 'learning_rate': 3.5208522472165996e-07, 'epoch': 0.98}
+{'loss': 1.4326, 'grad_norm': 0.08141710609197617, 'learning_rate': 3.4117100342018204e-07, 'epoch': 0.98}
+{'loss': 1.4521, 'grad_norm': 0.08422581106424332, 'learning_rate': 3.3042850442357995e-07, 'epoch': 0.98}
+{'loss': 1.4667, 'grad_norm': 0.07984812557697296, 'learning_rate': 3.198577351208598e-07, 'epoch': 0.98}
+{'loss': 1.4692, 'grad_norm': 0.07729633152484894, 'learning_rate': 3.0945870278287213e-07, 'epoch': 0.98}
+{'loss': 1.4445, 'grad_norm': 0.07924918830394745, 'learning_rate': 2.992314145623676e-07, 'epoch': 0.98}
+{'loss': 1.4517, 'grad_norm': 0.07787962257862091, 'learning_rate': 2.8917587749394125e-07, 'epoch': 0.99}
+{'loss': 1.4536, 'grad_norm': 0.07890234887599945, 'learning_rate': 2.7929209849408834e-07, 'epoch': 0.99}
+{'loss': 1.4334, 'grad_norm': 0.07991304993629456, 'learning_rate': 2.6958008436114843e-07, 'epoch': 0.99}
+{'loss': 1.4441, 'grad_norm': 0.07655435800552368, 'learning_rate': 2.6003984177533356e-07, 'epoch': 0.99}
+{'loss': 1.4472, 'grad_norm': 0.08028778433799744, 'learning_rate': 2.506713772986446e-07, 'epoch': 0.99}
+{'loss': 1.4251, 'grad_norm': 0.08274601399898529, 'learning_rate': 2.414746973750104e-07, 'epoch': 0.99}
+{'loss': 1.4334, 'grad_norm': 0.08474823832511902, 'learning_rate': 2.324498083301485e-07, 'epoch': 0.99}
+{'loss': 1.4579, 'grad_norm': 0.08266361057758331, 'learning_rate': 2.2359671637162127e-07, 'epoch': 0.99}
+{'loss': 1.4713, 'grad_norm': 0.08072429895401001, 'learning_rate': 2.1491542758883542e-07, 'epoch': 0.99}
+{'loss': 1.4529, 'grad_norm': 0.07700441032648087, 'learning_rate': 2.0640594795304224e-07, 'epoch': 0.99}
+{'loss': 1.4339, 'grad_norm': 0.07759179174900055, 'learning_rate': 1.9806828331730976e-07, 'epoch': 0.99}
+{'loss': 1.4519, 'grad_norm': 0.07693202793598175, 'learning_rate': 1.8990243941646723e-07, 'epoch': 0.99}
+{'loss': 1.4385, 'grad_norm': 0.07836523652076721, 'learning_rate': 1.8190842186724398e-07, 'epoch': 0.99}
+{'loss': 1.4516, 'grad_norm': 0.07646693289279938, 'learning_rate': 1.7408623616813058e-07, 'epoch': 0.99}
+{'loss': 1.4453, 'grad_norm': 0.07807450741529465, 'learning_rate': 1.6643588769946206e-07, 'epoch': 0.99}
+{'loss': 1.4569, 'grad_norm': 0.07902417331933975, 'learning_rate': 1.589573817233625e-07, 'epoch': 0.99}
+{'loss': 1.4472, 'grad_norm': 0.07846006751060486, 'learning_rate': 1.5165072338374498e-07, 'epoch': 0.99}
+{'loss': 1.4795, 'grad_norm': 0.07636517286300659, 'learning_rate': 1.4451591770631156e-07, 'epoch': 0.99}
+{'loss': 1.4472, 'grad_norm': 0.08001387119293213, 'learning_rate': 1.3755296959863663e-07, 'epoch': 0.99}
+{'loss': 1.4514, 'grad_norm': 0.07880565524101257, 'learning_rate': 1.3076188384997246e-07, 'epoch': 0.99}
+{'loss': 1.4723, 'grad_norm': 0.07780278474092484, 'learning_rate': 1.2414266513147143e-07, 'epoch': 0.99}
+{'loss': 1.427, 'grad_norm': 0.08309092372655869, 'learning_rate': 1.1769531799596389e-07, 'epoch': 0.99}
+{'loss': 1.4372, 'grad_norm': 0.08437540382146835, 'learning_rate': 1.1141984687815243e-07, 'epoch': 0.99}
+{'loss': 1.458, 'grad_norm': 0.07884686440229416, 'learning_rate': 1.0531625609447315e-07, 'epoch': 0.99}
+{'loss': 1.4447, 'grad_norm': 0.07575181871652603, 'learning_rate': 9.938454984312339e-08, 'epoch': 0.99}
+{'loss': 1.4497, 'grad_norm': 0.07676674425601959, 'learning_rate': 9.362473220411727e-08, 'epoch': 0.99}
+{'loss': 1.4402, 'grad_norm': 0.07982034236192703, 'learning_rate': 8.803680713923012e-08, 'epoch': 0.99}
+{'loss': 1.426, 'grad_norm': 0.07589271664619446, 'learning_rate': 8.26207784919708e-08, 'epoch': 0.99}
+{'loss': 1.4494, 'grad_norm': 0.08275775611400604, 'learning_rate': 7.737664998763716e-08, 'epoch': 0.99}
+{'loss': 1.436, 'grad_norm': 0.08509320765733719, 'learning_rate': 7.230442523328828e-08, 'epoch': 0.99}
+{'loss': 1.4333, 'grad_norm': 0.0763576477766037, 'learning_rate': 6.740410771777228e-08, 'epoch': 0.99}
+{'loss': 1.4331, 'grad_norm': 0.0805678740143776, 'learning_rate': 6.267570081161523e-08, 'epoch': 0.99}
+{'loss': 1.4334, 'grad_norm': 0.07957722246646881, 'learning_rate': 5.811920776715995e-08, 'epoch': 0.99}
+{'loss': 1.474, 'grad_norm': 0.08214949071407318, 'learning_rate': 5.373463171851056e-08, 'epoch': 0.99}
+{'loss': 1.4359, 'grad_norm': 0.08174991607666016, 'learning_rate': 4.952197568147687e-08, 'epoch': 0.99}
+{'loss': 1.4474, 'grad_norm': 0.07481222599744797, 'learning_rate': 4.5481242553657706e-08, 'epoch': 0.99}
+{'loss': 1.4348, 'grad_norm': 0.08464117348194122, 'learning_rate': 4.161243511438539e-08, 'epoch': 0.99}
+{'loss': 1.4202, 'grad_norm': 0.07419583201408386, 'learning_rate': 3.791555602469798e-08, 'epoch': 0.99}
+{'loss': 1.4325, 'grad_norm': 0.08132831752300262, 'learning_rate': 3.439060782747805e-08, 'epoch': 0.99}
+{'loss': 1.4232, 'grad_norm': 0.08278647065162659, 'learning_rate': 3.103759294723063e-08, 'epoch': 1.0}
+{'loss': 1.4355, 'grad_norm': 0.07505648583173752, 'learning_rate': 2.7856513690249775e-08, 'epoch': 1.0}
+{'loss': 1.458, 'grad_norm': 0.08736341446638107, 'learning_rate': 2.4847372244590773e-08, 'epoch': 1.0}
+{'loss': 1.4414, 'grad_norm': 0.07731934636831284, 'learning_rate': 2.2010170680042408e-08, 'epoch': 1.0}
+{'loss': 1.4632, 'grad_norm': 0.07938302308320999, 'learning_rate': 1.9344910948071448e-08, 'epoch': 1.0}
+{'loss': 1.4508, 'grad_norm': 0.07997548580169678, 'learning_rate': 1.6851594881933663e-08, 'epoch': 1.0}
+{'loss': 1.4542, 'grad_norm': 0.07737421989440918, 'learning_rate': 1.4530224196618314e-08, 'epoch': 1.0}
+{'loss': 1.4226, 'grad_norm': 0.0802701786160469, 'learning_rate': 1.2380800488820399e-08, 'epoch': 1.0}
+{'loss': 1.4671, 'grad_norm': 0.08196279406547546, 'learning_rate': 1.0403325236940652e-08, 'epoch': 1.0}
+{'loss': 1.4718, 'grad_norm': 0.08406909555196762, 'learning_rate': 8.59779980119657e-09, 'epoch': 1.0}
+{'loss': 1.4657, 'grad_norm': 0.07659950107336044, 'learning_rate': 6.964225423428117e-09, 'epoch': 1.0}
+{'loss': 1.4289, 'grad_norm': 0.08745068311691284, 'learning_rate': 5.5026032272920135e-09, 'epoch': 1.0}
+{'loss': 1.4434, 'grad_norm': 0.07788874208927155, 'learning_rate': 4.2129342181229655e-09, 'epoch': 1.0}
+{'loss': 1.4429, 'grad_norm': 0.08164329081773758, 'learning_rate': 3.0952192829614146e-09, 'epoch': 1.0}
+{'loss': 1.4457, 'grad_norm': 0.07851941883563995, 'learning_rate': 2.1494591906368042e-09, 'epoch': 1.0}
+{'loss': 1.4481, 'grad_norm': 0.07784360647201538, 'learning_rate': 1.3756545916843166e-09, 'epoch': 1.0}
+{'loss': 1.4507, 'grad_norm': 0.08388788998126984, 'learning_rate': 7.73806018289358e-10, 'epoch': 1.0}
+{'loss': 1.4292, 'grad_norm': 0.08383210748434067, 'learning_rate': 3.4391388448185013e-10, 'epoch': 1.0}
+{'loss': 1.462, 'grad_norm': 0.08269983530044556, 'learning_rate': 8.597848591418433e-11, 'epoch': 1.0}
+{'loss': 1.4571, 'grad_norm': 0.07904735952615738, 'learning_rate': 0.0, 'epoch': 1.0}
+{'train_runtime': 32912.666, 'train_samples_per_second': 30.383, 'train_steps_per_second': 0.119, 'train_loss': 1.5007602677123093, 'epoch': 1.0}
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/requirements.txt b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f47bafa7ba36fa343927f31d466b172f425e32c8
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/requirements.txt
@@ -0,0 +1,125 @@
+nvidia-nvtx-cu11==11.8.86
+nvidia-nvtx-cu12==12.4.127
+pandas==2.3.3
+peft==0.17.1
+nvidia-cufft-cu12==11.2.1.3
+Jinja2==3.1.6
+httpcore==1.0.9
+nvidia-cuda-runtime-cu11==11.8.89
+charset-normalizer==3.4.4
+scikit-learn==1.7.2
+nvidia-cusolver-cu11==11.4.1.48
+timm==1.0.12
+nvidia-cusparse-cu11==11.7.5.86
+aiosignal==1.4.0
+nvidia-curand-cu11==10.3.0.86
+pydantic_core==2.41.5
+mpmath==1.3.0
+async-timeout==5.0.1
+fsspec==2025.10.0
+numpy==2.2.6
+GitPython==3.1.46
+tqdm==4.67.1
+click==8.3.1
+accelerate==1.12.0
+nvidia-cuda-runtime-cu12==12.4.127
+threadpoolctl==3.6.0
+exceptiongroup==1.3.1
+smmap==5.0.2
+xxhash==3.6.0
+nvidia-cusparse-cu12==12.3.1.170
+pytz==2025.2
+aiohappyeyeballs==2.6.1
+requests==2.32.5
+dill==0.4.0
+nvidia-cuda-cupti-cu11==11.8.87
+nvidia-cusparselt-cu12==0.6.2
+torch==2.4.0+cu118
+pillow==12.0.0
+pip==25.3
+wheel==0.45.1
+protobuf==6.33.4
+nvidia-curand-cu12==10.3.5.147
+ninja==1.13.0
+nvidia-cufft-cu11==10.9.0.58
+safetensors==0.7.0
+annotated-types==0.7.0
+hjson==3.1.0
+certifi==2026.1.4
+scipy==1.15.3
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-nvrtc-cu11==11.8.89
+typing-inspection==0.4.2
+urllib3==2.6.3
+torchaudio==2.6.0+cu124
+torch==2.6.0+cu124
+networkx==3.4.2
+deepspeed==0.18.4
+yarl==1.22.0
+sympy==1.13.1
+packaging==25.0
+h11==0.16.0
+nvidia-nvjitlink-cu12==12.4.127
+gitdb==4.0.12
+nvidia-cudnn-cu11==9.1.0.70
+nvidia-cudnn-cu12==9.1.0.70
+sentry-sdk==2.49.0
+tzdata==2025.3
+setuptools==80.9.0
+hf-xet==1.2.0
+MarkupSafe==2.1.5
+pyarrow==22.0.0
+httpx==0.28.1
+py-cpuinfo==9.0.0
+nvidia-nccl-cu12==2.21.5
+huggingface-hub==0.36.0
+xformers==0.0.29.post3
+evaluate==0.4.6
+python-dateutil==2.9.0.post0
+idna==3.11
+filelock==3.20.2
+multiprocess==0.70.18
+attrs==25.4.0
+anyio==4.12.1
+pydantic==2.12.5
+nvidia-cuda-cupti-cu12==12.4.127
+typing_extensions==4.15.0
+datasets==4.4.2
+einops==0.8.1
+nvidia-cusolver-cu12==11.6.1.9
+multidict==6.7.0
+regex==2025.11.3
+nvidia-nccl-cu11==2.20.5
+tokenizers==0.19.1
+nvidia-cublas-cu12==12.4.5.8
+psutil==7.2.1
+aiohttp==3.13.3
+propcache==0.4.1
+platformdirs==4.5.1
+triton==3.2.0
+msgpack==1.1.2
+nvidia-cublas-cu11==11.11.3.6
+llm2vec==0.2.3
+torchvision==0.21.0+cu124
+joblib==1.5.3
+wandb==0.23.1
+six==1.17.0
+PyYAML==6.0.3
+frozenlist==1.8.0
+transformers==4.44.0
+zipp==3.19.2
+more-itertools==10.3.0
+importlib_metadata==8.0.0
+jaraco.functools==4.0.1
+inflect==7.3.1
+jaraco.text==3.12.1
+wheel==0.45.1
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+typing_extensions==4.12.2
+typeguard==4.3.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+jaraco.context==5.3.0
+packaging==24.2
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/wandb-metadata.json b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..6e1bec49690f114b9622012fd557942b68e4889a
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/wandb-metadata.json
@@ -0,0 +1,146 @@
+{
+  "os":  "Linux-5.4.0-42-generic-x86_64-with-glibc2.35",
+  "python":  "CPython 3.10.19",
+  "startedAt":  "2026-01-14T09:08:27.516123Z",
+  "args":  [
+    "--local_rank=0",
+    "--deepspeed",
+    "./script/deepspeed/zero2.json",
+    "--model_name_or_path",
+    "/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct",
+    "--model_type",
+    "llama3-8b",
+    "--version",
+    "plain",
+    "--data_path",
+    "/llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json",
+    "--mm_projector_type",
+    "mlp2x_gelu",
+    "--tune_mm_mlp_adapter",
+    "True",
+    "--image_aspect_ratio",
+    "square",
+    "--bf16",
+    "True",
+    "--output_dir",
+    "/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain",
+    "--num_train_epochs",
+    "1",
+    "--per_device_train_batch_size",
+    "8",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "4",
+    "--evaluation_strategy",
+    "no",
+    "--save_strategy",
+    "steps",
+    "--save_steps",
+    "100000",
+    "--save_total_limit",
+    "1",
+    "--learning_rate",
+    "5e-4",
+    "--weight_decay",
+    "0.",
+    "--warmup_ratio",
+    "0.03",
+    "--lr_scheduler_type",
+    "cosine",
+    "--logging_steps",
+    "1",
+    "--tf32",
+    "True",
+    "--model_max_length",
+    "2048",
+    "--gradient_checkpointing",
+    "True",
+    "--dataloader_num_workers",
+    "4",
+    "--lazy_preprocess",
+    "True",
+    "--report_to",
+    "wandb"
+  ],
+  "program":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py",
+  "codePath":  "bunny/train/train.py",
+  "codePathLocal":  "bunny/train/train.py",
+  "email":  "yuxm02@gmail.com",
+  "root":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense",
+  "host":  "h-liuchonghan-rler1225-a800-a100-2nodes-m-0",
+  "executable":  "/llm-align/liuchonghan/env/envs/bunny/bin/python",
+  "cpu_count":  128,
+  "cpu_count_logical":  255,
+  "gpu":  "NVIDIA A800-SXM4-80GB",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "53687091200",
+      "used":  "15148818432"
+    }
+  },
+  "memory":  {
+    "total":  "2164358094848"
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-de894aa2-80ed-5287-811c-51192fa8348e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550"
+    }
+  ],
+  "cudaVersion":  "12.4",
+  "writerId":  "tbevn34tjls6va6joh8frfsgpapnqymx"
+}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/wandb-summary.json b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..3dd18c7b5151c0434a91e2e0ca4713ad4c0b60e0
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_step":3906,"train/epoch":0.999936,"train_steps_per_second":0.119,"train_loss":1.5007602677123093,"_runtime":32905,"train/grad_norm":0.07904735952615738,"train_samples_per_second":30.383,"train/learning_rate":0,"total_flos":1.4782740625270768e+19,"train_runtime":32912.666,"_wandb":{"runtime":32905},"_timestamp":1.768414611724077e+09,"train/loss":1.4571,"train/global_step":3906}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug-core.log b/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..6b108bb2970f3cccfda41f196a4cedba2fea87f2
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2026-01-14T17:08:28.428271618+08:00","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmp9hapnar7/port-1885721.txt","pid":1885721,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false,"enable-dcgm-profiling":false}
+{"time":"2026-01-14T17:08:28.429408947+08:00","level":"INFO","msg":"server: will exit if parent process dies","ppid":1885721}
+{"time":"2026-01-14T17:08:28.429386945+08:00","level":"INFO","msg":"server: accepting connections","addr":{"Name":"/tmp/wandb-1885721-1897178-998601671/socket","Net":"unix"}}
+{"time":"2026-01-14T17:08:28.5956094+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"1(@)"}
+{"time":"2026-01-14T17:08:28.62040775+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"uobkoafb","id":"1(@)"}
+{"time":"2026-01-14T17:08:29.388008148+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"uobkoafb","id":"1(@)"}
+{"time":"2026-01-14T23:15:25.278244999+08:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"1(@)"}
+{"time":"2026-01-14T23:15:25.278361854+08:00","level":"INFO","msg":"connection: closing","id":"1(@)"}
+{"time":"2026-01-14T23:15:25.278405649+08:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2026-01-14T23:15:25.278445741+08:00","level":"INFO","msg":"connection: closed successfully","id":"1(@)"}
+{"time":"2026-01-14T23:15:25.278592352+08:00","level":"INFO","msg":"server: listener closed","addr":{"Name":"/tmp/wandb-1885721-1897178-998601671/socket","Net":"unix"}}
+{"time":"2026-01-14T23:15:54.187726657+08:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"1(@)"}
+{"time":"2026-01-14T23:15:54.187795387+08:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"1(@)"}
+{"time":"2026-01-14T23:15:54.187818646+08:00","level":"INFO","msg":"server is closed"}
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..af362c3c9e1de6ff9c45403dda07b18f3101ec77
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2026-01-14T17:08:28.621192268+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-14T17:08:29.303979412+08:00","level":"INFO","msg":"stream: created new stream","id":"as22o934"}
+{"time":"2026-01-14T17:08:29.30411715+08:00","level":"INFO","msg":"handler: started","stream_id":"as22o934"}
+{"time":"2026-01-14T17:08:29.304602376+08:00","level":"INFO","msg":"stream: started","id":"as22o934"}
+{"time":"2026-01-14T17:08:29.304619698+08:00","level":"INFO","msg":"writer: started","stream_id":"as22o934"}
+{"time":"2026-01-14T17:08:29.304711267+08:00","level":"INFO","msg":"sender: started","stream_id":"as22o934"}
+{"time":"2026-01-14T21:27:47.160238514+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/as22o934/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T23:29:54.76461508+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/as22o934/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T23:38:28.980358956+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/as22o934/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T23:38:51.166330275+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/as22o934/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-14T23:45:34.41006927+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/as22o934/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-15T01:46:46.659008114+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/as22o934/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-15T02:16:55.6489901+08:00","level":"INFO","msg":"stream: closing","id":"as22o934"}
+{"time":"2026-01-15T02:16:58.039306545+08:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2026-01-15T02:16:58.637401859+08:00","level":"INFO","msg":"handler: closed","stream_id":"as22o934"}
+{"time":"2026-01-15T02:16:58.637553916+08:00","level":"INFO","msg":"sender: closed","stream_id":"as22o934"}
+{"time":"2026-01-15T02:16:58.637584719+08:00","level":"INFO","msg":"stream: closed","id":"as22o934"}
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug.log b/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..a165cd4acc65deb96d666b6fa9a04d6e796a8502
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug.log
@@ -0,0 +1,26 @@
+2026-01-14 17:08:27,523 INFO    MainThread:305207 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-14 17:08:27,523 INFO    MainThread:305207 [wandb_setup.py:_flush():80] Configure stats pid to 305207
+2026-01-14 17:08:27,523 INFO    MainThread:305207 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-14 17:08:27,523 INFO    MainThread:305207 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/settings
+2026-01-14 17:08:27,523 INFO    MainThread:305207 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-14 17:08:27,524 INFO    MainThread:305207 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug.log
+2026-01-14 17:08:27,524 INFO    MainThread:305207 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260114_170827-as22o934/logs/debug-internal.log
+2026-01-14 17:08:27,524 INFO    MainThread:305207 [wandb_init.py:init():841] calling init triggers
+2026-01-14 17:08:27,524 INFO    MainThread:305207 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-14 17:08:27,524 INFO    MainThread:305207 [wandb_init.py:init():889] starting backend
+2026-01-14 17:08:28,602 INFO    MainThread:305207 [wandb_init.py:init():892] sending inform_init request
+2026-01-14 17:08:28,617 INFO    MainThread:305207 [wandb_init.py:init():900] backend started and connected
+2026-01-14 17:08:28,619 INFO    MainThread:305207 [wandb_init.py:init():970] updated telemetry
+2026-01-14 17:08:28,620 INFO    MainThread:305207 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2026-01-14 17:08:29,735 INFO    MainThread:305207 [wandb_init.py:init():1041] starting run threads in backend
+2026-01-14 17:08:30,125 INFO    MainThread:305207 [wandb_run.py:_console_start():2521] atexit reg
+2026-01-14 17:08:30,125 INFO    MainThread:305207 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2026-01-14 17:08:30,126 INFO    MainThread:305207 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2026-01-14 17:08:30,126 INFO    MainThread:305207 [wandb_run.py:_redirect():2461] Redirects installed.
+2026-01-14 17:08:30,147 INFO    MainThread:305207 [wandb_init.py:init():1081] run started, returning control to user process
+2026-01-14 17:08:30,150 INFO    MainThread:305207 [wandb_run.py:_config_callback():1396] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 8192, 'hidden_size': 4096, 'intermediate_size': 14336, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': False, 'rope_theta': 500000.0, 'rope_scaling': None, 'attention_bias': False, 'attention_dropout': 0.0, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': '/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct', 'transformers_version': '4.44.0', 'model_type': 'bunny-llama', 'use_mm_proj': True, 'mm_projector_type': 'mlp2x_gelu', 'mm_hidden_size': 1280, 'image_aspect_ratio': 'square', 'tokenizer_padding_side': 'right', 'tokenizer_model_max_length': 2048, 'tune_mm_mlp_adapter': True, 'freeze_mm_mlp_adapter': False, 'mm_projector_lr': None, 'use_s2': False, 'output_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'eval_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0005, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 1.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan14_17-05-42_h-liuchonghan-rler1225-a800-a100-2nodes-m-0', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1.0, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100000, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': True, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': './script/deepspeed/zero2.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': True, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'no', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'eval_use_gather_object': False, 'cache_dir': None, 'mpt_attn_impl': 'triton', 'model_max_length': 2048, 'group_by_modality_length': False}
+2026-01-14 17:08:30,167 INFO    MainThread:305207 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 8052289536 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7feb44c5ffa0>>
+2026-01-14 17:08:30,167 INFO    MainThread:305207 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 8052289536 None
+2026-01-15 02:16:55,649 INFO    wandb-AsyncioManager-main:305207 [service_client.py:_forward_responses():80] Reached EOF.
+2026-01-15 02:16:55,649 INFO    wandb-AsyncioManager-main:305207 [mailbox.py:close():137] Closing mailbox, abandoning 1 handles.
diff --git a/Unicorn_dense/wandb/run-20260114_170827-as22o934/run-as22o934.wandb b/Unicorn_dense/wandb/run-20260114_170827-as22o934/run-as22o934.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..f02774c6d46da0f218b3b6786f2573fa518a9b4d
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260114_170827-as22o934/run-as22o934.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:24086cc3f2e74cdec95e40c37750007ce9938d8a4a48b8decb7db6f1ff42039d
+size 16979219
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/config.yaml b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..48c33206460711e2ee9fe64294495a6795886988
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/config.yaml
@@ -0,0 +1,617 @@
+_name_or_path:
+    value: /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+_wandb:
+    value:
+        cli_version: 0.23.1
+        e:
+            zthw7aswy8gzcyfswe99b65q6ei75utt:
+                args:
+                    - --local_rank=0
+                    - --deepspeed
+                    - ./script/deepspeed/zero2.json
+                    - --model_name_or_path
+                    - /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+                    - --model_type
+                    - llama3-8b
+                    - --version
+                    - plain
+                    - --data_path
+                    - /llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json
+                    - --mm_projector_type
+                    - mlp2x_gelu
+                    - --tune_mm_mlp_adapter
+                    - "True"
+                    - --image_aspect_ratio
+                    - square
+                    - --bf16
+                    - "True"
+                    - --output_dir
+                    - /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+                    - --num_train_epochs
+                    - "1"
+                    - --per_device_train_batch_size
+                    - "8"
+                    - --per_device_eval_batch_size
+                    - "4"
+                    - --gradient_accumulation_steps
+                    - "4"
+                    - --evaluation_strategy
+                    - "no"
+                    - --save_strategy
+                    - steps
+                    - --save_steps
+                    - "100000"
+                    - --save_total_limit
+                    - "1"
+                    - --learning_rate
+                    - "5e-4"
+                    - --weight_decay
+                    - "0."
+                    - --warmup_ratio
+                    - "0.03"
+                    - --lr_scheduler_type
+                    - cosine
+                    - --logging_steps
+                    - "1"
+                    - --tf32
+                    - "True"
+                    - --model_max_length
+                    - "2048"
+                    - --gradient_checkpointing
+                    - "True"
+                    - --dataloader_num_workers
+                    - "4"
+                    - --lazy_preprocess
+                    - "True"
+                    - --report_to
+                    - wandb
+                codePath: bunny/train/train.py
+                codePathLocal: bunny/train/train.py
+                cpu_count: 128
+                cpu_count_logical: 255
+                cudaVersion: "12.4"
+                disk:
+                    /:
+                        total: "53687091200"
+                        used: "15148822528"
+                email: yuxm02@gmail.com
+                executable: /llm-align/liuchonghan/env/envs/bunny/bin/python
+                gpu: NVIDIA A800-SXM4-80GB
+                gpu_count: 8
+                gpu_nvidia:
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-de894aa2-80ed-5287-811c-51192fa8348e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550
+                host: h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+                memory:
+                    total: "2164358094848"
+                os: Linux-5.4.0-42-generic-x86_64-with-glibc2.35
+                program: /llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py
+                python: CPython 3.10.19
+                root: /llm-align/liuchonghan/xiaomin/Unicorn_dense
+                startedAt: "2026-01-15T02:35:08.598950Z"
+                writerId: zthw7aswy8gzcyfswe99b65q6ei75utt
+        m:
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "2": '*'
+              "5": 1
+              "6":
+                - 1
+              "7": []
+        python_version: 3.10.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "3":
+                - 7
+                - 13
+                - 19
+                - 62
+                - 66
+            "4": 3.10.19
+            "5": 0.23.1
+            "6": 4.44.0
+            "9":
+                "1": transformers_trainer
+            "12": 0.23.1
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: true
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+cache_dir:
+    value: null
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 4
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: ./script/deepspeed/zero2.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: false
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: null
+eval_strategy:
+    value: "no"
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: "no"
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: false
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+freeze_mm_mlp_adapter:
+    value: false
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 4
+gradient_checkpointing:
+    value: true
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+group_by_modality_length:
+    value: false
+half_precision_backend:
+    value: auto
+hidden_act:
+    value: silu
+hidden_size:
+    value: 4096
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+image_aspect_ratio:
+    value: square
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 14336
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 0.0005
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan15_10-32-31_h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr_scheduler_type:
+    value: cosine
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 8192
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mm_hidden_size:
+    value: 1280
+mm_projector_lr:
+    value: null
+mm_projector_type:
+    value: mlp2x_gelu
+model/num_parameters:
+    value: 8052289536
+model_max_length:
+    value: 2048
+model_type:
+    value: bunny-llama
+mp_parameters:
+    value: ""
+mpt_attn_impl:
+    value: triton
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 32
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 32
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 1
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 4
+per_device_train_batch_size:
+    value: 8
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: false
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value: null
+rope_theta:
+    value: 500000
+run_name:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100000
+save_strategy:
+    value: steps
+save_total_limit:
+    value: 1
+seed:
+    value: 42
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: true
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: false
+tokenizer_class:
+    value: null
+tokenizer_model_max_length:
+    value: 2048
+tokenizer_padding_side:
+    value: right
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+transformers_version:
+    value: 4.44.0
+tune_mm_mlp_adapter:
+    value: true
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: false
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_mm_proj:
+    value: true
+use_mps_device:
+    value: false
+use_s2:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.03
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/output.log b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..f09128fc534fa2c6e785e6282e7f7c1817909d4b
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/output.log
@@ -0,0 +1,3910 @@
+  0%|                                                                                                                                                                                               | 0/3906 [00:00<?, ?it/s]/llm-align/liuchonghan/env/envs/bunny/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py:745: UserWarning: torch.utils.checkpoint: the use_reentrant parameter should be passed explicitly. In version 2.5 we will raise an exception if use_reentrant is not passed. use_reentrant=False is recommended, but if you need to preserve the current default behavior, you can pass use_reentrant=True. Refer to docs for more details on the differences between the two variants.
+  return fn(*args, **kwargs)
+                                                                                                                                                                                                                             
+{'loss': 2.9478, 'grad_norm': 39.59782409667969, 'learning_rate': 4.23728813559322e-06, 'epoch': 0.0}
+{'loss': 3.0269, 'grad_norm': 44.836177825927734, 'learning_rate': 8.47457627118644e-06, 'epoch': 0.0}
+{'loss': 2.7776, 'grad_norm': 32.712623596191406, 'learning_rate': 1.2711864406779663e-05, 'epoch': 0.0}
+{'loss': 2.3787, 'grad_norm': 20.15403175354004, 'learning_rate': 1.694915254237288e-05, 'epoch': 0.0}
+{'loss': 2.127, 'grad_norm': 2.1745083332061768, 'learning_rate': 2.11864406779661e-05, 'epoch': 0.0}
+{'loss': 2.0737, 'grad_norm': 1.2106114625930786, 'learning_rate': 2.5423728813559325e-05, 'epoch': 0.0}
+{'loss': 2.0349, 'grad_norm': 0.96697998046875, 'learning_rate': 2.9661016949152544e-05, 'epoch': 0.0}
+{'loss': 2.0301, 'grad_norm': 0.7175275087356567, 'learning_rate': 3.389830508474576e-05, 'epoch': 0.0}
+{'loss': 2.0381, 'grad_norm': 0.6388923525810242, 'learning_rate': 3.813559322033899e-05, 'epoch': 0.0}
+{'loss': 2.03, 'grad_norm': 0.46506160497665405, 'learning_rate': 4.23728813559322e-05, 'epoch': 0.0}
+{'loss': 2.0136, 'grad_norm': 0.4314224421977997, 'learning_rate': 4.6610169491525425e-05, 'epoch': 0.0}
+{'loss': 2.01, 'grad_norm': 0.3730262517929077, 'learning_rate': 5.084745762711865e-05, 'epoch': 0.0}
+{'loss': 2.0184, 'grad_norm': 0.2983655035495758, 'learning_rate': 5.508474576271186e-05, 'epoch': 0.0}
+{'loss': 2.0073, 'grad_norm': 0.28278598189353943, 'learning_rate': 5.932203389830509e-05, 'epoch': 0.0}
+{'loss': 1.9938, 'grad_norm': 0.2823842167854309, 'learning_rate': 6.35593220338983e-05, 'epoch': 0.0}
+{'loss': 2.0184, 'grad_norm': 0.3063506782054901, 'learning_rate': 6.779661016949152e-05, 'epoch': 0.0}
+{'loss': 1.9979, 'grad_norm': 0.2898770570755005, 'learning_rate': 7.203389830508474e-05, 'epoch': 0.0}
+{'loss': 1.9959, 'grad_norm': 0.31616508960723877, 'learning_rate': 7.627118644067798e-05, 'epoch': 0.0}
+{'loss': 1.9944, 'grad_norm': 0.31416642665863037, 'learning_rate': 8.050847457627118e-05, 'epoch': 0.0}
+{'loss': 1.99, 'grad_norm': 0.30219122767448425, 'learning_rate': 8.47457627118644e-05, 'epoch': 0.01}
+{'loss': 2.0041, 'grad_norm': 0.30536341667175293, 'learning_rate': 8.898305084745763e-05, 'epoch': 0.01}
+{'loss': 1.9941, 'grad_norm': 0.30423110723495483, 'learning_rate': 9.322033898305085e-05, 'epoch': 0.01}
+{'loss': 1.988, 'grad_norm': 0.3084714114665985, 'learning_rate': 9.745762711864407e-05, 'epoch': 0.01}
+{'loss': 1.9753, 'grad_norm': 0.3207811415195465, 'learning_rate': 0.0001016949152542373, 'epoch': 0.01}
+{'loss': 1.9791, 'grad_norm': 0.28515928983688354, 'learning_rate': 0.0001059322033898305, 'epoch': 0.01}
+{'loss': 1.9825, 'grad_norm': 0.2968435287475586, 'learning_rate': 0.00011016949152542372, 'epoch': 0.01}
+{'loss': 1.9493, 'grad_norm': 0.26585882902145386, 'learning_rate': 0.00011440677966101696, 'epoch': 0.01}
+{'loss': 1.9776, 'grad_norm': 0.2769918143749237, 'learning_rate': 0.00011864406779661017, 'epoch': 0.01}
+{'loss': 1.9621, 'grad_norm': 0.257890909910202, 'learning_rate': 0.0001228813559322034, 'epoch': 0.01}
+{'loss': 1.9275, 'grad_norm': 0.22967325150966644, 'learning_rate': 0.0001271186440677966, 'epoch': 0.01}
+{'loss': 1.9342, 'grad_norm': 0.21192675828933716, 'learning_rate': 0.00013135593220338986, 'epoch': 0.01}
+{'loss': 1.9514, 'grad_norm': 0.21877706050872803, 'learning_rate': 0.00013559322033898305, 'epoch': 0.01}
+{'loss': 1.9411, 'grad_norm': 0.22884038090705872, 'learning_rate': 0.00013983050847457627, 'epoch': 0.01}
+{'loss': 1.9352, 'grad_norm': 0.22348329424858093, 'learning_rate': 0.00014406779661016949, 'epoch': 0.01}
+{'loss': 1.8951, 'grad_norm': 0.2160007506608963, 'learning_rate': 0.0001483050847457627, 'epoch': 0.01}
+{'loss': 1.8957, 'grad_norm': 0.22152160108089447, 'learning_rate': 0.00015254237288135595, 'epoch': 0.01}
+{'loss': 1.8988, 'grad_norm': 0.20048198103904724, 'learning_rate': 0.00015677966101694914, 'epoch': 0.01}
+{'loss': 1.906, 'grad_norm': 0.18605221807956696, 'learning_rate': 0.00016101694915254236, 'epoch': 0.01}
+{'loss': 1.905, 'grad_norm': 0.1884065866470337, 'learning_rate': 0.0001652542372881356, 'epoch': 0.01}
+{'loss': 1.8928, 'grad_norm': 0.17549645900726318, 'learning_rate': 0.0001694915254237288, 'epoch': 0.01}
+{'loss': 1.9142, 'grad_norm': 0.17932146787643433, 'learning_rate': 0.00017372881355932204, 'epoch': 0.01}
+{'loss': 1.8708, 'grad_norm': 0.16982845962047577, 'learning_rate': 0.00017796610169491526, 'epoch': 0.01}
+{'loss': 1.8678, 'grad_norm': 0.16605286300182343, 'learning_rate': 0.00018220338983050845, 'epoch': 0.01}
+{'loss': 1.8594, 'grad_norm': 0.1640871912240982, 'learning_rate': 0.0001864406779661017, 'epoch': 0.01}
+{'loss': 1.8431, 'grad_norm': 0.165708526968956, 'learning_rate': 0.00019067796610169492, 'epoch': 0.01}
+{'loss': 1.8617, 'grad_norm': 0.17221498489379883, 'learning_rate': 0.00019491525423728814, 'epoch': 0.01}
+{'loss': 1.8487, 'grad_norm': 0.16187851130962372, 'learning_rate': 0.00019915254237288136, 'epoch': 0.01}
+{'loss': 1.8397, 'grad_norm': 0.15334346890449524, 'learning_rate': 0.0002033898305084746, 'epoch': 0.01}
+{'loss': 1.8285, 'grad_norm': 0.15473435819149017, 'learning_rate': 0.0002076271186440678, 'epoch': 0.01}
+{'loss': 1.834, 'grad_norm': 0.1417362093925476, 'learning_rate': 0.000211864406779661, 'epoch': 0.01}
+{'loss': 1.816, 'grad_norm': 0.1352943331003189, 'learning_rate': 0.00021610169491525426, 'epoch': 0.01}
+{'loss': 1.833, 'grad_norm': 0.13622429966926575, 'learning_rate': 0.00022033898305084745, 'epoch': 0.01}
+{'loss': 1.8171, 'grad_norm': 0.12556646764278412, 'learning_rate': 0.0002245762711864407, 'epoch': 0.01}
+{'loss': 1.7965, 'grad_norm': 0.12096840888261795, 'learning_rate': 0.0002288135593220339, 'epoch': 0.01}
+{'loss': 1.8279, 'grad_norm': 0.12183316051959991, 'learning_rate': 0.0002330508474576271, 'epoch': 0.01}
+{'loss': 1.7927, 'grad_norm': 0.12062972784042358, 'learning_rate': 0.00023728813559322035, 'epoch': 0.01}
+{'loss': 1.7914, 'grad_norm': 0.11489548534154892, 'learning_rate': 0.00024152542372881357, 'epoch': 0.01}
+{'loss': 1.7955, 'grad_norm': 0.11174417287111282, 'learning_rate': 0.0002457627118644068, 'epoch': 0.01}
+{'loss': 1.791, 'grad_norm': 0.11203043907880783, 'learning_rate': 0.00025, 'epoch': 0.02}
+{'loss': 1.7655, 'grad_norm': 0.10734447091817856, 'learning_rate': 0.0002542372881355932, 'epoch': 0.02}
+{'loss': 1.7637, 'grad_norm': 0.11820301413536072, 'learning_rate': 0.00025847457627118644, 'epoch': 0.02}
+{'loss': 1.8272, 'grad_norm': 0.11355579644441605, 'learning_rate': 0.0002627118644067797, 'epoch': 0.02}
+{'loss': 1.7541, 'grad_norm': 0.11603313684463501, 'learning_rate': 0.0002669491525423729, 'epoch': 0.02}
+{'loss': 1.759, 'grad_norm': 0.10872141271829605, 'learning_rate': 0.0002711864406779661, 'epoch': 0.02}
+{'loss': 1.763, 'grad_norm': 0.1024591326713562, 'learning_rate': 0.0002754237288135593, 'epoch': 0.02}
+{'loss': 1.7917, 'grad_norm': 0.09807861596345901, 'learning_rate': 0.00027966101694915254, 'epoch': 0.02}
+{'loss': 1.7381, 'grad_norm': 0.09013281017541885, 'learning_rate': 0.0002838983050847458, 'epoch': 0.02}
+{'loss': 1.7619, 'grad_norm': 0.08646468818187714, 'learning_rate': 0.00028813559322033897, 'epoch': 0.02}
+{'loss': 1.763, 'grad_norm': 0.08936524391174316, 'learning_rate': 0.0002923728813559322, 'epoch': 0.02}
+{'loss': 1.7362, 'grad_norm': 0.08685265481472015, 'learning_rate': 0.0002966101694915254, 'epoch': 0.02}
+{'loss': 1.7409, 'grad_norm': 0.0844775140285492, 'learning_rate': 0.00030084745762711863, 'epoch': 0.02}
+{'loss': 1.7521, 'grad_norm': 0.0827605128288269, 'learning_rate': 0.0003050847457627119, 'epoch': 0.02}
+{'loss': 1.7775, 'grad_norm': 0.09026740491390228, 'learning_rate': 0.0003093220338983051, 'epoch': 0.02}
+{'loss': 1.7721, 'grad_norm': 0.08314316719770432, 'learning_rate': 0.0003135593220338983, 'epoch': 0.02}
+{'loss': 1.7626, 'grad_norm': 0.08648236095905304, 'learning_rate': 0.0003177966101694915, 'epoch': 0.02}
+{'loss': 1.7551, 'grad_norm': 0.08895757049322128, 'learning_rate': 0.0003220338983050847, 'epoch': 0.02}
+{'loss': 1.7255, 'grad_norm': 0.0787414163351059, 'learning_rate': 0.000326271186440678, 'epoch': 0.02}
+{'loss': 1.7399, 'grad_norm': 0.08591374009847641, 'learning_rate': 0.0003305084745762712, 'epoch': 0.02}
+{'loss': 1.7207, 'grad_norm': 0.08748267590999603, 'learning_rate': 0.00033474576271186443, 'epoch': 0.02}
+{'loss': 1.7327, 'grad_norm': 0.08244986832141876, 'learning_rate': 0.0003389830508474576, 'epoch': 0.02}
+{'loss': 1.7355, 'grad_norm': 0.08376947045326233, 'learning_rate': 0.0003432203389830508, 'epoch': 0.02}
+{'loss': 1.7195, 'grad_norm': 0.08414468914270401, 'learning_rate': 0.0003474576271186441, 'epoch': 0.02}
+{'loss': 1.7386, 'grad_norm': 0.082009457051754, 'learning_rate': 0.0003516949152542373, 'epoch': 0.02}
+{'loss': 1.7146, 'grad_norm': 0.06970246881246567, 'learning_rate': 0.0003559322033898305, 'epoch': 0.02}
+{'loss': 1.7444, 'grad_norm': 0.08874828368425369, 'learning_rate': 0.00036016949152542374, 'epoch': 0.02}
+{'loss': 1.6851, 'grad_norm': 0.08119077980518341, 'learning_rate': 0.0003644067796610169, 'epoch': 0.02}
+{'loss': 1.695, 'grad_norm': 0.08957646042108536, 'learning_rate': 0.0003686440677966102, 'epoch': 0.02}
+{'loss': 1.7249, 'grad_norm': 0.08740533888339996, 'learning_rate': 0.0003728813559322034, 'epoch': 0.02}
+{'loss': 1.7364, 'grad_norm': 0.07226583361625671, 'learning_rate': 0.0003771186440677966, 'epoch': 0.02}
+{'loss': 1.7188, 'grad_norm': 0.07215491682291031, 'learning_rate': 0.00038135593220338984, 'epoch': 0.02}
+{'loss': 1.724, 'grad_norm': 0.09314693510532379, 'learning_rate': 0.0003855932203389831, 'epoch': 0.02}
+{'loss': 1.711, 'grad_norm': 0.09545809030532837, 'learning_rate': 0.00038983050847457627, 'epoch': 0.02}
+{'loss': 1.6904, 'grad_norm': 0.08504818379878998, 'learning_rate': 0.0003940677966101695, 'epoch': 0.02}
+{'loss': 1.7147, 'grad_norm': 0.09354909509420395, 'learning_rate': 0.0003983050847457627, 'epoch': 0.02}
+{'loss': 1.7225, 'grad_norm': 0.09087367355823517, 'learning_rate': 0.00040254237288135593, 'epoch': 0.02}
+{'loss': 1.7196, 'grad_norm': 0.1036672368645668, 'learning_rate': 0.0004067796610169492, 'epoch': 0.02}
+{'loss': 1.6788, 'grad_norm': 0.10376691818237305, 'learning_rate': 0.0004110169491525424, 'epoch': 0.02}
+{'loss': 1.7174, 'grad_norm': 0.08858918398618698, 'learning_rate': 0.0004152542372881356, 'epoch': 0.03}
+{'loss': 1.688, 'grad_norm': 0.09933933615684509, 'learning_rate': 0.0004194915254237288, 'epoch': 0.03}
+{'loss': 1.7285, 'grad_norm': 0.09742969274520874, 'learning_rate': 0.000423728813559322, 'epoch': 0.03}
+{'loss': 1.6924, 'grad_norm': 0.08258858323097229, 'learning_rate': 0.0004279661016949153, 'epoch': 0.03}
+{'loss': 1.7078, 'grad_norm': 0.15675075352191925, 'learning_rate': 0.0004322033898305085, 'epoch': 0.03}
+{'loss': 1.7149, 'grad_norm': 0.10919545590877533, 'learning_rate': 0.00043644067796610173, 'epoch': 0.03}
+{'loss': 1.7193, 'grad_norm': 0.12147063761949539, 'learning_rate': 0.0004406779661016949, 'epoch': 0.03}
+{'loss': 1.6961, 'grad_norm': 0.1078588217496872, 'learning_rate': 0.0004449152542372881, 'epoch': 0.03}
+{'loss': 1.6916, 'grad_norm': 0.10507822036743164, 'learning_rate': 0.0004491525423728814, 'epoch': 0.03}
+{'loss': 1.6899, 'grad_norm': 0.11354969441890717, 'learning_rate': 0.0004533898305084746, 'epoch': 0.03}
+{'loss': 1.6919, 'grad_norm': 0.12909221649169922, 'learning_rate': 0.0004576271186440678, 'epoch': 0.03}
+{'loss': 1.686, 'grad_norm': 0.0963970273733139, 'learning_rate': 0.00046186440677966104, 'epoch': 0.03}
+{'loss': 1.693, 'grad_norm': 0.13426311314105988, 'learning_rate': 0.0004661016949152542, 'epoch': 0.03}
+{'loss': 1.6995, 'grad_norm': 0.12174718081951141, 'learning_rate': 0.0004703389830508475, 'epoch': 0.03}
+{'loss': 1.6824, 'grad_norm': 0.10992003977298737, 'learning_rate': 0.0004745762711864407, 'epoch': 0.03}
+{'loss': 1.6605, 'grad_norm': 0.10626950114965439, 'learning_rate': 0.0004788135593220339, 'epoch': 0.03}
+{'loss': 1.67, 'grad_norm': 0.09525781124830246, 'learning_rate': 0.00048305084745762714, 'epoch': 0.03}
+{'loss': 1.7011, 'grad_norm': 0.11626233905553818, 'learning_rate': 0.0004872881355932203, 'epoch': 0.03}
+{'loss': 1.6802, 'grad_norm': 0.11011996120214462, 'learning_rate': 0.0004915254237288136, 'epoch': 0.03}
+{'loss': 1.6839, 'grad_norm': 0.10478108376264572, 'learning_rate': 0.0004957627118644068, 'epoch': 0.03}
+{'loss': 1.6567, 'grad_norm': 0.14657096564769745, 'learning_rate': 0.0005, 'epoch': 0.03}
+{'loss': 1.6947, 'grad_norm': 0.10733051598072052, 'learning_rate': 0.0004999999140215142, 'epoch': 0.03}
+{'loss': 1.6696, 'grad_norm': 0.10191158950328827, 'learning_rate': 0.0004999996560861156, 'epoch': 0.03}
+{'loss': 1.6904, 'grad_norm': 0.12021699547767639, 'learning_rate': 0.0004999992261939817, 'epoch': 0.03}
+{'loss': 1.6792, 'grad_norm': 0.12368645519018173, 'learning_rate': 0.0004999986243454084, 'epoch': 0.03}
+{'loss': 1.6705, 'grad_norm': 0.14314542710781097, 'learning_rate': 0.0004999978505408094, 'epoch': 0.03}
+{'loss': 1.683, 'grad_norm': 0.14672432839870453, 'learning_rate': 0.000499996904780717, 'epoch': 0.03}
+{'loss': 1.6658, 'grad_norm': 0.14276373386383057, 'learning_rate': 0.0004999957870657818, 'epoch': 0.03}
+{'loss': 1.6521, 'grad_norm': 0.14089810848236084, 'learning_rate': 0.0004999944973967727, 'epoch': 0.03}
+{'loss': 1.6657, 'grad_norm': 0.11394043266773224, 'learning_rate': 0.0004999930357745766, 'epoch': 0.03}
+{'loss': 1.652, 'grad_norm': 0.13274513185024261, 'learning_rate': 0.0004999914022001988, 'epoch': 0.03}
+{'loss': 1.6701, 'grad_norm': 0.14917777478694916, 'learning_rate': 0.000499989596674763, 'epoch': 0.03}
+{'loss': 1.6492, 'grad_norm': 0.09801314026117325, 'learning_rate': 0.0004999876191995112, 'epoch': 0.03}
+{'loss': 1.6327, 'grad_norm': 0.12602241337299347, 'learning_rate': 0.0004999854697758034, 'epoch': 0.03}
+{'loss': 1.6694, 'grad_norm': 0.12559916079044342, 'learning_rate': 0.000499983148405118, 'epoch': 0.03}
+{'loss': 1.6973, 'grad_norm': 0.12825565040111542, 'learning_rate': 0.0004999806550890519, 'epoch': 0.03}
+{'loss': 1.6169, 'grad_norm': 0.11753872781991959, 'learning_rate': 0.0004999779898293199, 'epoch': 0.03}
+{'loss': 1.6624, 'grad_norm': 0.16943268477916718, 'learning_rate': 0.0004999751526277554, 'epoch': 0.03}
+{'loss': 1.6582, 'grad_norm': 0.1406358927488327, 'learning_rate': 0.0004999721434863098, 'epoch': 0.03}
+{'loss': 1.6735, 'grad_norm': 0.14857381582260132, 'learning_rate': 0.0004999689624070528, 'epoch': 0.04}
+{'loss': 1.6482, 'grad_norm': 0.14640289545059204, 'learning_rate': 0.0004999656093921725, 'epoch': 0.04}
+{'loss': 1.654, 'grad_norm': 0.17328794300556183, 'learning_rate': 0.0004999620844439753, 'epoch': 0.04}
+{'loss': 1.6671, 'grad_norm': 0.13009394705295563, 'learning_rate': 0.0004999583875648857, 'epoch': 0.04}
+{'loss': 1.6459, 'grad_norm': 0.1628272533416748, 'learning_rate': 0.0004999545187574463, 'epoch': 0.04}
+{'loss': 1.6856, 'grad_norm': 0.14172738790512085, 'learning_rate': 0.0004999504780243186, 'epoch': 0.04}
+{'loss': 1.6692, 'grad_norm': 0.1309901922941208, 'learning_rate': 0.0004999462653682815, 'epoch': 0.04}
+{'loss': 1.648, 'grad_norm': 0.1805105060338974, 'learning_rate': 0.0004999418807922328, 'epoch': 0.04}
+{'loss': 1.6279, 'grad_norm': 0.12524445354938507, 'learning_rate': 0.0004999373242991884, 'epoch': 0.04}
+{'loss': 1.6564, 'grad_norm': 0.11595073342323303, 'learning_rate': 0.0004999325958922823, 'epoch': 0.04}
+{'loss': 1.6711, 'grad_norm': 0.1724850833415985, 'learning_rate': 0.0004999276955747667, 'epoch': 0.04}
+{'loss': 1.6415, 'grad_norm': 0.15197722613811493, 'learning_rate': 0.0004999226233500124, 'epoch': 0.04}
+{'loss': 1.6746, 'grad_norm': 0.13629662990570068, 'learning_rate': 0.000499917379221508, 'epoch': 0.04}
+{'loss': 1.6322, 'grad_norm': 0.1611946076154709, 'learning_rate': 0.0004999119631928608, 'epoch': 0.04}
+{'loss': 1.6441, 'grad_norm': 0.1254308968782425, 'learning_rate': 0.0004999063752677959, 'epoch': 0.04}
+{'loss': 1.6409, 'grad_norm': 0.15694481134414673, 'learning_rate': 0.0004999006154501568, 'epoch': 0.04}
+{'loss': 1.6475, 'grad_norm': 0.14933811128139496, 'learning_rate': 0.0004998946837439055, 'epoch': 0.04}
+{'loss': 1.6716, 'grad_norm': 0.12080004811286926, 'learning_rate': 0.0004998885801531219, 'epoch': 0.04}
+{'loss': 1.6871, 'grad_norm': 0.12438134104013443, 'learning_rate': 0.000499882304682004, 'epoch': 0.04}
+{'loss': 1.6498, 'grad_norm': 0.11178728193044662, 'learning_rate': 0.0004998758573348686, 'epoch': 0.04}
+{'loss': 1.6348, 'grad_norm': 0.11848755180835724, 'learning_rate': 0.0004998692381161501, 'epoch': 0.04}
+{'loss': 1.6522, 'grad_norm': 0.13085444271564484, 'learning_rate': 0.0004998624470304014, 'epoch': 0.04}
+{'loss': 1.6251, 'grad_norm': 0.09026607871055603, 'learning_rate': 0.0004998554840822937, 'epoch': 0.04}
+{'loss': 1.6259, 'grad_norm': 0.15554699301719666, 'learning_rate': 0.0004998483492766163, 'epoch': 0.04}
+{'loss': 1.6262, 'grad_norm': 0.1537018120288849, 'learning_rate': 0.0004998410426182766, 'epoch': 0.04}
+{'loss': 1.6294, 'grad_norm': 0.08506545424461365, 'learning_rate': 0.0004998335641123005, 'epoch': 0.04}
+{'loss': 1.6534, 'grad_norm': 0.12519259750843048, 'learning_rate': 0.0004998259137638319, 'epoch': 0.04}
+{'loss': 1.6524, 'grad_norm': 0.12437593191862106, 'learning_rate': 0.0004998180915781327, 'epoch': 0.04}
+{'loss': 1.6547, 'grad_norm': 0.1779448539018631, 'learning_rate': 0.0004998100975605836, 'epoch': 0.04}
+{'loss': 1.6314, 'grad_norm': 0.22898393869400024, 'learning_rate': 0.0004998019317166827, 'epoch': 0.04}
+{'loss': 1.6482, 'grad_norm': 0.2561580538749695, 'learning_rate': 0.0004997935940520469, 'epoch': 0.04}
+{'loss': 1.6581, 'grad_norm': 0.15690957009792328, 'learning_rate': 0.0004997850845724111, 'epoch': 0.04}
+{'loss': 1.6383, 'grad_norm': 0.1602352410554886, 'learning_rate': 0.0004997764032836283, 'epoch': 0.04}
+{'loss': 1.6494, 'grad_norm': 0.2080097645521164, 'learning_rate': 0.0004997675501916698, 'epoch': 0.04}
+{'loss': 1.6324, 'grad_norm': 0.14060774445533752, 'learning_rate': 0.000499758525302625, 'epoch': 0.04}
+{'loss': 1.6397, 'grad_norm': 0.1822909712791443, 'learning_rate': 0.0004997493286227014, 'epoch': 0.04}
+{'loss': 1.6166, 'grad_norm': 0.1190953478217125, 'learning_rate': 0.0004997399601582248, 'epoch': 0.04}
+{'loss': 1.648, 'grad_norm': 0.19532668590545654, 'learning_rate': 0.0004997304199156388, 'epoch': 0.04}
+{'loss': 1.6621, 'grad_norm': 0.15606242418289185, 'learning_rate': 0.0004997207079015059, 'epoch': 0.04}
+{'loss': 1.6266, 'grad_norm': 0.15411685407161713, 'learning_rate': 0.000499710824122506, 'epoch': 0.05}
+{'loss': 1.6477, 'grad_norm': 0.18215490877628326, 'learning_rate': 0.0004997007685854376, 'epoch': 0.05}
+{'loss': 1.6434, 'grad_norm': 0.2606390416622162, 'learning_rate': 0.0004996905412972171, 'epoch': 0.05}
+{'loss': 1.6231, 'grad_norm': 0.269955575466156, 'learning_rate': 0.0004996801422648791, 'epoch': 0.05}
+{'loss': 1.6352, 'grad_norm': 0.16056233644485474, 'learning_rate': 0.0004996695714955765, 'epoch': 0.05}
+{'loss': 1.6261, 'grad_norm': 0.19765405356884003, 'learning_rate': 0.0004996588289965799, 'epoch': 0.05}
+{'loss': 1.609, 'grad_norm': 0.23471862077713013, 'learning_rate': 0.0004996479147752784, 'epoch': 0.05}
+{'loss': 1.6221, 'grad_norm': 0.16508302092552185, 'learning_rate': 0.0004996368288391792, 'epoch': 0.05}
+{'loss': 1.6205, 'grad_norm': 0.18065454065799713, 'learning_rate': 0.0004996255711959074, 'epoch': 0.05}
+{'loss': 1.6636, 'grad_norm': 0.24204927682876587, 'learning_rate': 0.0004996141418532063, 'epoch': 0.05}
+{'loss': 1.6536, 'grad_norm': 0.16264720261096954, 'learning_rate': 0.0004996025408189375, 'epoch': 0.05}
+{'loss': 1.6111, 'grad_norm': 0.23200315237045288, 'learning_rate': 0.0004995907681010803, 'epoch': 0.05}
+{'loss': 1.6318, 'grad_norm': 0.2852577269077301, 'learning_rate': 0.0004995788237077325, 'epoch': 0.05}
+{'loss': 1.6261, 'grad_norm': 0.15738531947135925, 'learning_rate': 0.0004995667076471096, 'epoch': 0.05}
+{'loss': 1.6302, 'grad_norm': 0.238145649433136, 'learning_rate': 0.0004995544199275456, 'epoch': 0.05}
+{'loss': 1.622, 'grad_norm': 0.19305309653282166, 'learning_rate': 0.0004995419605574921, 'epoch': 0.05}
+{'loss': 1.6074, 'grad_norm': 0.17556297779083252, 'learning_rate': 0.0004995293295455192, 'epoch': 0.05}
+{'loss': 1.6333, 'grad_norm': 0.2041654735803604, 'learning_rate': 0.0004995165269003147, 'epoch': 0.05}
+{'loss': 1.668, 'grad_norm': 0.24891316890716553, 'learning_rate': 0.0004995035526306846, 'epoch': 0.05}
+{'loss': 1.6323, 'grad_norm': 0.1978132128715515, 'learning_rate': 0.0004994904067455531, 'epoch': 0.05}
+{'loss': 1.6217, 'grad_norm': 0.23466461896896362, 'learning_rate': 0.0004994770892539622, 'epoch': 0.05}
+{'loss': 1.6032, 'grad_norm': 0.150569885969162, 'learning_rate': 0.0004994636001650722, 'epoch': 0.05}
+{'loss': 1.6016, 'grad_norm': 0.20926038920879364, 'learning_rate': 0.0004994499394881611, 'epoch': 0.05}
+{'loss': 1.6203, 'grad_norm': 0.1699231117963791, 'learning_rate': 0.0004994361072326251, 'epoch': 0.05}
+{'loss': 1.6217, 'grad_norm': 0.2661513090133667, 'learning_rate': 0.0004994221034079785, 'epoch': 0.05}
+{'loss': 1.6239, 'grad_norm': 0.1892920583486557, 'learning_rate': 0.0004994079280238535, 'epoch': 0.05}
+{'loss': 1.6418, 'grad_norm': 0.22653932869434357, 'learning_rate': 0.0004993935810900003, 'epoch': 0.05}
+{'loss': 1.6404, 'grad_norm': 0.272411972284317, 'learning_rate': 0.0004993790626162871, 'epoch': 0.05}
+{'loss': 1.6156, 'grad_norm': 0.28982046246528625, 'learning_rate': 0.0004993643726127002, 'epoch': 0.05}
+{'loss': 1.643, 'grad_norm': 0.19947083294391632, 'learning_rate': 0.0004993495110893438, 'epoch': 0.05}
+{'loss': 1.6198, 'grad_norm': 0.2658978998661041, 'learning_rate': 0.0004993344780564399, 'epoch': 0.05}
+{'loss': 1.6032, 'grad_norm': 0.21829168498516083, 'learning_rate': 0.0004993192735243288, 'epoch': 0.05}
+{'loss': 1.6108, 'grad_norm': 0.19057130813598633, 'learning_rate': 0.0004993038975034684, 'epoch': 0.05}
+{'loss': 1.6249, 'grad_norm': 0.2432831972837448, 'learning_rate': 0.000499288350004435, 'epoch': 0.05}
+{'loss': 1.6073, 'grad_norm': 0.14858973026275635, 'learning_rate': 0.0004992726310379227, 'epoch': 0.05}
+{'loss': 1.6199, 'grad_norm': 0.23917384445667267, 'learning_rate': 0.000499256740614743, 'epoch': 0.05}
+{'loss': 1.6227, 'grad_norm': 0.23344452679157257, 'learning_rate': 0.0004992406787458261, 'epoch': 0.05}
+{'loss': 1.5889, 'grad_norm': 0.2227386236190796, 'learning_rate': 0.0004992244454422198, 'epoch': 0.05}
+{'loss': 1.6301, 'grad_norm': 0.17197930812835693, 'learning_rate': 0.0004992080407150897, 'epoch': 0.05}
+{'loss': 1.6533, 'grad_norm': 0.17860138416290283, 'learning_rate': 0.0004991914645757194, 'epoch': 0.06}
+{'loss': 1.5989, 'grad_norm': 0.14886903762817383, 'learning_rate': 0.0004991747170355106, 'epoch': 0.06}
+{'loss': 1.6223, 'grad_norm': 0.2048811912536621, 'learning_rate': 0.0004991577981059826, 'epoch': 0.06}
+{'loss': 1.6182, 'grad_norm': 0.1795802265405655, 'learning_rate': 0.0004991407077987727, 'epoch': 0.06}
+{'loss': 1.6174, 'grad_norm': 0.2572025656700134, 'learning_rate': 0.0004991234461256363, 'epoch': 0.06}
+{'loss': 1.6107, 'grad_norm': 0.1796415150165558, 'learning_rate': 0.0004991060130984462, 'epoch': 0.06}
+{'loss': 1.5922, 'grad_norm': 0.19917777180671692, 'learning_rate': 0.0004990884087291934, 'epoch': 0.06}
+{'loss': 1.6148, 'grad_norm': 0.18821130692958832, 'learning_rate': 0.0004990706330299866, 'epoch': 0.06}
+{'loss': 1.5956, 'grad_norm': 0.17213556170463562, 'learning_rate': 0.0004990526860130526, 'epoch': 0.06}
+{'loss': 1.637, 'grad_norm': 0.23477433621883392, 'learning_rate': 0.0004990345676907358, 'epoch': 0.06}
+{'loss': 1.619, 'grad_norm': 0.2086155265569687, 'learning_rate': 0.0004990162780754984, 'epoch': 0.06}
+{'loss': 1.6019, 'grad_norm': 0.2394500970840454, 'learning_rate': 0.0004989978171799207, 'epoch': 0.06}
+{'loss': 1.5901, 'grad_norm': 0.19408494234085083, 'learning_rate': 0.0004989791850167003, 'epoch': 0.06}
+{'loss': 1.6017, 'grad_norm': 0.1761266440153122, 'learning_rate': 0.0004989603815986532, 'epoch': 0.06}
+{'loss': 1.6204, 'grad_norm': 0.2065284699201584, 'learning_rate': 0.0004989414069387128, 'epoch': 0.06}
+{'loss': 1.5881, 'grad_norm': 0.1667240858078003, 'learning_rate': 0.0004989222610499305, 'epoch': 0.06}
+{'loss': 1.626, 'grad_norm': 0.22352588176727295, 'learning_rate': 0.0004989029439454752, 'epoch': 0.06}
+{'loss': 1.6552, 'grad_norm': 0.2100880742073059, 'learning_rate': 0.0004988834556386339, 'epoch': 0.06}
+{'loss': 1.6256, 'grad_norm': 0.18758873641490936, 'learning_rate': 0.0004988637961428112, 'epoch': 0.06}
+{'loss': 1.5958, 'grad_norm': 0.19213053584098816, 'learning_rate': 0.0004988439654715292, 'epoch': 0.06}
+{'loss': 1.5918, 'grad_norm': 0.2634721100330353, 'learning_rate': 0.0004988239636384284, 'epoch': 0.06}
+{'loss': 1.6011, 'grad_norm': 0.19846226274967194, 'learning_rate': 0.0004988037906572662, 'epoch': 0.06}
+{'loss': 1.6149, 'grad_norm': 0.1898777037858963, 'learning_rate': 0.0004987834465419185, 'epoch': 0.06}
+{'loss': 1.6011, 'grad_norm': 0.22242093086242676, 'learning_rate': 0.0004987629313063784, 'epoch': 0.06}
+{'loss': 1.5834, 'grad_norm': 0.15996450185775757, 'learning_rate': 0.0004987422449647567, 'epoch': 0.06}
+{'loss': 1.5971, 'grad_norm': 0.2112743854522705, 'learning_rate': 0.0004987213875312823, 'epoch': 0.06}
+{'loss': 1.6083, 'grad_norm': 0.19072411954402924, 'learning_rate': 0.0004987003590203014, 'epoch': 0.06}
+{'loss': 1.6034, 'grad_norm': 0.17382635176181793, 'learning_rate': 0.0004986791594462779, 'epoch': 0.06}
+{'loss': 1.6123, 'grad_norm': 0.19238713383674622, 'learning_rate': 0.0004986577888237936, 'epoch': 0.06}
+{'loss': 1.6049, 'grad_norm': 0.15938714146614075, 'learning_rate': 0.0004986362471675478, 'epoch': 0.06}
+{'loss': 1.6017, 'grad_norm': 0.1685529202222824, 'learning_rate': 0.0004986145344923575, 'epoch': 0.06}
+{'loss': 1.5867, 'grad_norm': 0.14945676922798157, 'learning_rate': 0.0004985926508131571, 'epoch': 0.06}
+{'loss': 1.5978, 'grad_norm': 0.17231899499893188, 'learning_rate': 0.000498570596144999, 'epoch': 0.06}
+{'loss': 1.6247, 'grad_norm': 0.16297347843647003, 'learning_rate': 0.000498548370503053, 'epoch': 0.06}
+{'loss': 1.591, 'grad_norm': 0.15536066889762878, 'learning_rate': 0.0004985259739026062, 'epoch': 0.06}
+{'loss': 1.6163, 'grad_norm': 0.171682670712471, 'learning_rate': 0.000498503406359064, 'epoch': 0.06}
+{'loss': 1.6001, 'grad_norm': 0.16535034775733948, 'learning_rate': 0.0004984806678879488, 'epoch': 0.06}
+{'loss': 1.5955, 'grad_norm': 0.16600434482097626, 'learning_rate': 0.0004984577585049008, 'epoch': 0.06}
+{'loss': 1.6057, 'grad_norm': 0.17306120693683624, 'learning_rate': 0.0004984346782256776, 'epoch': 0.06}
+{'loss': 1.604, 'grad_norm': 0.15080395340919495, 'learning_rate': 0.0004984114270661547, 'epoch': 0.07}
+{'loss': 1.6104, 'grad_norm': 0.19237278401851654, 'learning_rate': 0.0004983880050423247, 'epoch': 0.07}
+{'loss': 1.6016, 'grad_norm': 0.18857155740261078, 'learning_rate': 0.0004983644121702981, 'epoch': 0.07}
+{'loss': 1.5896, 'grad_norm': 0.20769499242305756, 'learning_rate': 0.0004983406484663025, 'epoch': 0.07}
+{'loss': 1.607, 'grad_norm': 0.22381170094013214, 'learning_rate': 0.0004983167139466834, 'epoch': 0.07}
+{'loss': 1.5949, 'grad_norm': 0.23607240617275238, 'learning_rate': 0.0004982926086279036, 'epoch': 0.07}
+{'loss': 1.6047, 'grad_norm': 0.262874573469162, 'learning_rate': 0.0004982683325265434, 'epoch': 0.07}
+{'loss': 1.5956, 'grad_norm': 0.24637550115585327, 'learning_rate': 0.0004982438856593004, 'epoch': 0.07}
+{'loss': 1.6147, 'grad_norm': 0.22472155094146729, 'learning_rate': 0.0004982192680429902, 'epoch': 0.07}
+{'loss': 1.6026, 'grad_norm': 0.2608441114425659, 'learning_rate': 0.0004981944796945452, 'epoch': 0.07}
+{'loss': 1.5922, 'grad_norm': 0.22329922020435333, 'learning_rate': 0.0004981695206310156, 'epoch': 0.07}
+{'loss': 1.6232, 'grad_norm': 0.2126600295305252, 'learning_rate': 0.0004981443908695691, 'epoch': 0.07}
+{'loss': 1.6023, 'grad_norm': 0.25044703483581543, 'learning_rate': 0.0004981190904274904, 'epoch': 0.07}
+{'loss': 1.5892, 'grad_norm': 0.1924257129430771, 'learning_rate': 0.000498093619322182, 'epoch': 0.07}
+{'loss': 1.6, 'grad_norm': 0.17500944435596466, 'learning_rate': 0.0004980679775711635, 'epoch': 0.07}
+{'loss': 1.5836, 'grad_norm': 0.2164078652858734, 'learning_rate': 0.0004980421651920721, 'epoch': 0.07}
+{'loss': 1.577, 'grad_norm': 0.20130930840969086, 'learning_rate': 0.0004980161822026624, 'epoch': 0.07}
+{'loss': 1.6127, 'grad_norm': 0.2077558934688568, 'learning_rate': 0.000497990028620806, 'epoch': 0.07}
+{'loss': 1.6085, 'grad_norm': 0.2316032499074936, 'learning_rate': 0.0004979637044644921, 'epoch': 0.07}
+{'loss': 1.5934, 'grad_norm': 0.25584468245506287, 'learning_rate': 0.0004979372097518274, 'epoch': 0.07}
+{'loss': 1.5911, 'grad_norm': 0.17000791430473328, 'learning_rate': 0.0004979105445010355, 'epoch': 0.07}
+{'loss': 1.6064, 'grad_norm': 0.25031062960624695, 'learning_rate': 0.0004978837087304575, 'epoch': 0.07}
+{'loss': 1.5984, 'grad_norm': 0.16680848598480225, 'learning_rate': 0.0004978567024585519, 'epoch': 0.07}
+{'loss': 1.5874, 'grad_norm': 0.20778708159923553, 'learning_rate': 0.0004978295257038942, 'epoch': 0.07}
+{'loss': 1.584, 'grad_norm': 0.21677468717098236, 'learning_rate': 0.0004978021784851776, 'epoch': 0.07}
+{'loss': 1.6062, 'grad_norm': 0.1606505811214447, 'learning_rate': 0.0004977746608212122, 'epoch': 0.07}
+{'loss': 1.5692, 'grad_norm': 0.22062347829341888, 'learning_rate': 0.0004977469727309251, 'epoch': 0.07}
+{'loss': 1.5902, 'grad_norm': 0.16281983256340027, 'learning_rate': 0.0004977191142333614, 'epoch': 0.07}
+{'loss': 1.5754, 'grad_norm': 0.19559930264949799, 'learning_rate': 0.0004976910853476826, 'epoch': 0.07}
+{'loss': 1.5929, 'grad_norm': 0.14866268634796143, 'learning_rate': 0.0004976628860931679, 'epoch': 0.07}
+{'loss': 1.5962, 'grad_norm': 0.20280557870864868, 'learning_rate': 0.0004976345164892134, 'epoch': 0.07}
+{'loss': 1.5933, 'grad_norm': 0.2081330120563507, 'learning_rate': 0.0004976059765553328, 'epoch': 0.07}
+{'loss': 1.5694, 'grad_norm': 0.2528875172138214, 'learning_rate': 0.0004975772663111564, 'epoch': 0.07}
+{'loss': 1.6082, 'grad_norm': 0.1632104218006134, 'learning_rate': 0.0004975483857764321, 'epoch': 0.07}
+{'loss': 1.5878, 'grad_norm': 0.24532216787338257, 'learning_rate': 0.0004975193349710245, 'epoch': 0.07}
+{'loss': 1.5879, 'grad_norm': 0.2960253357887268, 'learning_rate': 0.0004974901139149158, 'epoch': 0.07}
+{'loss': 1.5821, 'grad_norm': 0.20600152015686035, 'learning_rate': 0.0004974607226282047, 'epoch': 0.07}
+{'loss': 1.5814, 'grad_norm': 0.26765215396881104, 'learning_rate': 0.0004974311611311078, 'epoch': 0.07}
+{'loss': 1.5791, 'grad_norm': 0.2538452744483948, 'learning_rate': 0.000497401429443958, 'epoch': 0.07}
+{'loss': 1.5687, 'grad_norm': 0.2339516133069992, 'learning_rate': 0.0004973715275872058, 'epoch': 0.08}
+{'loss': 1.5875, 'grad_norm': 0.25820988416671753, 'learning_rate': 0.0004973414555814184, 'epoch': 0.08}
+{'loss': 1.5905, 'grad_norm': 0.3102041482925415, 'learning_rate': 0.0004973112134472801, 'epoch': 0.08}
+{'loss': 1.5984, 'grad_norm': 0.24309048056602478, 'learning_rate': 0.0004972808012055923, 'epoch': 0.08}
+{'loss': 1.5938, 'grad_norm': 0.2565351724624634, 'learning_rate': 0.0004972502188772737, 'epoch': 0.08}
+{'loss': 1.5982, 'grad_norm': 0.21940262615680695, 'learning_rate': 0.0004972194664833593, 'epoch': 0.08}
+{'loss': 1.6112, 'grad_norm': 0.24170611798763275, 'learning_rate': 0.0004971885440450016, 'epoch': 0.08}
+{'loss': 1.5688, 'grad_norm': 0.2284044325351715, 'learning_rate': 0.00049715745158347, 'epoch': 0.08}
+{'loss': 1.5787, 'grad_norm': 0.17219668626785278, 'learning_rate': 0.0004971261891201505, 'epoch': 0.08}
+{'loss': 1.5878, 'grad_norm': 0.22823990881443024, 'learning_rate': 0.0004970947566765465, 'epoch': 0.08}
+{'loss': 1.5721, 'grad_norm': 0.1820853054523468, 'learning_rate': 0.0004970631542742781, 'epoch': 0.08}
+{'loss': 1.5962, 'grad_norm': 0.22384001314640045, 'learning_rate': 0.0004970313819350822, 'epoch': 0.08}
+{'loss': 1.5798, 'grad_norm': 0.1408090889453888, 'learning_rate': 0.000496999439680813, 'epoch': 0.08}
+{'loss': 1.5798, 'grad_norm': 0.20023730397224426, 'learning_rate': 0.0004969673275334409, 'epoch': 0.08}
+{'loss': 1.5888, 'grad_norm': 0.14943453669548035, 'learning_rate': 0.0004969350455150536, 'epoch': 0.08}
+{'loss': 1.5604, 'grad_norm': 0.17532303929328918, 'learning_rate': 0.0004969025936478558, 'epoch': 0.08}
+{'loss': 1.606, 'grad_norm': 0.14937786757946014, 'learning_rate': 0.0004968699719541687, 'epoch': 0.08}
+{'loss': 1.5683, 'grad_norm': 0.2225656360387802, 'learning_rate': 0.0004968371804564304, 'epoch': 0.08}
+{'loss': 1.5576, 'grad_norm': 0.22566284239292145, 'learning_rate': 0.0004968042191771956, 'epoch': 0.08}
+{'loss': 1.5693, 'grad_norm': 0.18079252541065216, 'learning_rate': 0.0004967710881391363, 'epoch': 0.08}
+{'loss': 1.5858, 'grad_norm': 0.21739903092384338, 'learning_rate': 0.0004967377873650407, 'epoch': 0.08}
+{'loss': 1.5589, 'grad_norm': 0.21574722230434418, 'learning_rate': 0.0004967043168778143, 'epoch': 0.08}
+{'loss': 1.5599, 'grad_norm': 0.18197038769721985, 'learning_rate': 0.0004966706767004787, 'epoch': 0.08}
+{'loss': 1.5879, 'grad_norm': 0.20973323285579681, 'learning_rate': 0.0004966368668561727, 'epoch': 0.08}
+{'loss': 1.598, 'grad_norm': 0.2028416395187378, 'learning_rate': 0.0004966028873681517, 'epoch': 0.08}
+{'loss': 1.5844, 'grad_norm': 0.18352428078651428, 'learning_rate': 0.0004965687382597878, 'epoch': 0.08}
+{'loss': 1.6258, 'grad_norm': 0.22477000951766968, 'learning_rate': 0.0004965344195545694, 'epoch': 0.08}
+{'loss': 1.5773, 'grad_norm': 0.1992710828781128, 'learning_rate': 0.0004964999312761023, 'epoch': 0.08}
+{'loss': 1.5793, 'grad_norm': 0.20338498055934906, 'learning_rate': 0.0004964652734481082, 'epoch': 0.08}
+{'loss': 1.6095, 'grad_norm': 0.24937574565410614, 'learning_rate': 0.0004964304460944257, 'epoch': 0.08}
+{'loss': 1.5874, 'grad_norm': 0.1861359179019928, 'learning_rate': 0.0004963954492390101, 'epoch': 0.08}
+{'loss': 1.5966, 'grad_norm': 0.2320084124803543, 'learning_rate': 0.0004963602829059334, 'epoch': 0.08}
+{'loss': 1.5743, 'grad_norm': 0.23529988527297974, 'learning_rate': 0.0004963249471193837, 'epoch': 0.08}
+{'loss': 1.5657, 'grad_norm': 0.18068405985832214, 'learning_rate': 0.0004962894419036661, 'epoch': 0.08}
+{'loss': 1.5697, 'grad_norm': 0.25150924921035767, 'learning_rate': 0.0004962537672832019, 'epoch': 0.08}
+{'loss': 1.5744, 'grad_norm': 0.217463418841362, 'learning_rate': 0.0004962179232825294, 'epoch': 0.08}
+{'loss': 1.5814, 'grad_norm': 0.17907363176345825, 'learning_rate': 0.0004961819099263029, 'epoch': 0.08}
+{'loss': 1.5851, 'grad_norm': 0.1664106398820877, 'learning_rate': 0.0004961457272392933, 'epoch': 0.08}
+{'loss': 1.5972, 'grad_norm': 0.22294588387012482, 'learning_rate': 0.0004961093752463882, 'epoch': 0.08}
+{'loss': 1.5754, 'grad_norm': 0.21479709446430206, 'learning_rate': 0.0004960728539725916, 'epoch': 0.08}
+{'loss': 1.5654, 'grad_norm': 0.2322673499584198, 'learning_rate': 0.0004960361634430238, 'epoch': 0.09}
+{'loss': 1.5705, 'grad_norm': 0.17361000180244446, 'learning_rate': 0.0004959993036829214, 'epoch': 0.09}
+{'loss': 1.5786, 'grad_norm': 0.25376731157302856, 'learning_rate': 0.0004959622747176377, 'epoch': 0.09}
+{'loss': 1.5849, 'grad_norm': 0.21844582259655, 'learning_rate': 0.0004959250765726422, 'epoch': 0.09}
+{'loss': 1.5842, 'grad_norm': 0.16170988976955414, 'learning_rate': 0.000495887709273521, 'epoch': 0.09}
+{'loss': 1.5735, 'grad_norm': 0.20606638491153717, 'learning_rate': 0.0004958501728459762, 'epoch': 0.09}
+{'loss': 1.5629, 'grad_norm': 0.14573276042938232, 'learning_rate': 0.0004958124673158264, 'epoch': 0.09}
+{'loss': 1.585, 'grad_norm': 0.22779734432697296, 'learning_rate': 0.0004957745927090066, 'epoch': 0.09}
+{'loss': 1.5706, 'grad_norm': 0.1624060571193695, 'learning_rate': 0.0004957365490515679, 'epoch': 0.09}
+{'loss': 1.5474, 'grad_norm': 0.19724443554878235, 'learning_rate': 0.0004956983363696779, 'epoch': 0.09}
+{'loss': 1.5681, 'grad_norm': 0.15548399090766907, 'learning_rate': 0.0004956599546896203, 'epoch': 0.09}
+{'loss': 1.5655, 'grad_norm': 0.18598969280719757, 'learning_rate': 0.000495621404037795, 'epoch': 0.09}
+{'loss': 1.5399, 'grad_norm': 0.1421547681093216, 'learning_rate': 0.0004955826844407185, 'epoch': 0.09}
+{'loss': 1.5575, 'grad_norm': 0.21138809621334076, 'learning_rate': 0.0004955437959250228, 'epoch': 0.09}
+{'loss': 1.5338, 'grad_norm': 0.20444251596927643, 'learning_rate': 0.0004955047385174568, 'epoch': 0.09}
+{'loss': 1.5575, 'grad_norm': 0.16604764759540558, 'learning_rate': 0.0004954655122448852, 'epoch': 0.09}
+{'loss': 1.5736, 'grad_norm': 0.20478014647960663, 'learning_rate': 0.000495426117134289, 'epoch': 0.09}
+{'loss': 1.5817, 'grad_norm': 0.1646244078874588, 'learning_rate': 0.0004953865532127652, 'epoch': 0.09}
+{'loss': 1.5748, 'grad_norm': 0.19250772893428802, 'learning_rate': 0.0004953468205075269, 'epoch': 0.09}
+{'loss': 1.5678, 'grad_norm': 0.2320955991744995, 'learning_rate': 0.0004953069190459033, 'epoch': 0.09}
+{'loss': 1.5697, 'grad_norm': 0.19609594345092773, 'learning_rate': 0.00049526684885534, 'epoch': 0.09}
+{'loss': 1.5666, 'grad_norm': 0.23219366371631622, 'learning_rate': 0.0004952266099633982, 'epoch': 0.09}
+{'loss': 1.5661, 'grad_norm': 0.3068366050720215, 'learning_rate': 0.0004951862023977555, 'epoch': 0.09}
+{'loss': 1.6039, 'grad_norm': 0.20350299775600433, 'learning_rate': 0.0004951456261862051, 'epoch': 0.09}
+{'loss': 1.5696, 'grad_norm': 0.2103157788515091, 'learning_rate': 0.0004951048813566565, 'epoch': 0.09}
+{'loss': 1.5598, 'grad_norm': 0.21138736605644226, 'learning_rate': 0.0004950639679371353, 'epoch': 0.09}
+{'loss': 1.5741, 'grad_norm': 0.21194805204868317, 'learning_rate': 0.0004950228859557828, 'epoch': 0.09}
+{'loss': 1.558, 'grad_norm': 0.24810123443603516, 'learning_rate': 0.0004949816354408564, 'epoch': 0.09}
+{'loss': 1.5849, 'grad_norm': 0.238982155919075, 'learning_rate': 0.0004949402164207291, 'epoch': 0.09}
+{'loss': 1.5571, 'grad_norm': 0.16595269739627838, 'learning_rate': 0.0004948986289238904, 'epoch': 0.09}
+{'loss': 1.5643, 'grad_norm': 0.24411827325820923, 'learning_rate': 0.0004948568729789452, 'epoch': 0.09}
+{'loss': 1.5734, 'grad_norm': 0.18044273555278778, 'learning_rate': 0.0004948149486146143, 'epoch': 0.09}
+{'loss': 1.56, 'grad_norm': 0.2117714285850525, 'learning_rate': 0.0004947728558597346, 'epoch': 0.09}
+{'loss': 1.5521, 'grad_norm': 0.21659596264362335, 'learning_rate': 0.0004947305947432585, 'epoch': 0.09}
+{'loss': 1.5558, 'grad_norm': 0.22027340531349182, 'learning_rate': 0.0004946881652942546, 'epoch': 0.09}
+{'loss': 1.586, 'grad_norm': 0.19830234348773956, 'learning_rate': 0.000494645567541907, 'epoch': 0.09}
+{'loss': 1.561, 'grad_norm': 0.20123036205768585, 'learning_rate': 0.0004946028015155153, 'epoch': 0.09}
+{'loss': 1.5583, 'grad_norm': 0.1905049979686737, 'learning_rate': 0.0004945598672444956, 'epoch': 0.09}
+{'loss': 1.5535, 'grad_norm': 0.18991108238697052, 'learning_rate': 0.0004945167647583791, 'epoch': 0.09}
+{'loss': 1.5585, 'grad_norm': 0.18760554492473602, 'learning_rate': 0.000494473494086813, 'epoch': 0.1}
+{'loss': 1.5617, 'grad_norm': 0.20062555372714996, 'learning_rate': 0.0004944300552595598, 'epoch': 0.1}
+{'loss': 1.5582, 'grad_norm': 0.18409006297588348, 'learning_rate': 0.0004943864483064981, 'epoch': 0.1}
+{'loss': 1.5824, 'grad_norm': 0.3190680742263794, 'learning_rate': 0.0004943426732576221, 'epoch': 0.1}
+{'loss': 1.5702, 'grad_norm': 0.287326842546463, 'learning_rate': 0.0004942987301430415, 'epoch': 0.1}
+{'loss': 1.5648, 'grad_norm': 0.20108473300933838, 'learning_rate': 0.0004942546189929814, 'epoch': 0.1}
+{'loss': 1.5589, 'grad_norm': 0.2775539457798004, 'learning_rate': 0.0004942103398377827, 'epoch': 0.1}
+{'loss': 1.5668, 'grad_norm': 0.21758462488651276, 'learning_rate': 0.0004941658927079019, 'epoch': 0.1}
+{'loss': 1.5728, 'grad_norm': 0.2223016321659088, 'learning_rate': 0.0004941212776339111, 'epoch': 0.1}
+{'loss': 1.5754, 'grad_norm': 0.2651851773262024, 'learning_rate': 0.0004940764946464976, 'epoch': 0.1}
+{'loss': 1.565, 'grad_norm': 0.1655929833650589, 'learning_rate': 0.0004940315437764645, 'epoch': 0.1}
+{'loss': 1.5699, 'grad_norm': 0.23144012689590454, 'learning_rate': 0.0004939864250547302, 'epoch': 0.1}
+{'loss': 1.5589, 'grad_norm': 0.18882611393928528, 'learning_rate': 0.0004939411385123288, 'epoch': 0.1}
+{'loss': 1.5641, 'grad_norm': 0.18303298950195312, 'learning_rate': 0.0004938956841804093, 'epoch': 0.1}
+{'loss': 1.5618, 'grad_norm': 0.192630797624588, 'learning_rate': 0.0004938500620902367, 'epoch': 0.1}
+{'loss': 1.5599, 'grad_norm': 0.20830969512462616, 'learning_rate': 0.0004938042722731911, 'epoch': 0.1}
+{'loss': 1.5506, 'grad_norm': 0.1961328089237213, 'learning_rate': 0.0004937583147607681, 'epoch': 0.1}
+{'loss': 1.5709, 'grad_norm': 0.17258889973163605, 'learning_rate': 0.0004937121895845783, 'epoch': 0.1}
+{'loss': 1.5716, 'grad_norm': 0.16944481432437897, 'learning_rate': 0.0004936658967763481, 'epoch': 0.1}
+{'loss': 1.5733, 'grad_norm': 0.16922760009765625, 'learning_rate': 0.000493619436367919, 'epoch': 0.1}
+{'loss': 1.5927, 'grad_norm': 0.16346463561058044, 'learning_rate': 0.0004935728083912477, 'epoch': 0.1}
+{'loss': 1.5531, 'grad_norm': 0.16874748468399048, 'learning_rate': 0.0004935260128784061, 'epoch': 0.1}
+{'loss': 1.5404, 'grad_norm': 0.16734342277050018, 'learning_rate': 0.0004934790498615817, 'epoch': 0.1}
+{'loss': 1.5616, 'grad_norm': 0.1527974009513855, 'learning_rate': 0.0004934319193730767, 'epoch': 0.1}
+{'loss': 1.5398, 'grad_norm': 0.1723545640707016, 'learning_rate': 0.0004933846214453091, 'epoch': 0.1}
+{'loss': 1.5708, 'grad_norm': 0.16375240683555603, 'learning_rate': 0.0004933371561108114, 'epoch': 0.1}
+{'loss': 1.5446, 'grad_norm': 0.19111455976963043, 'learning_rate': 0.0004932895234022319, 'epoch': 0.1}
+{'loss': 1.5548, 'grad_norm': 0.18669836223125458, 'learning_rate': 0.0004932417233523334, 'epoch': 0.1}
+{'loss': 1.5738, 'grad_norm': 0.17643536627292633, 'learning_rate': 0.0004931937559939942, 'epoch': 0.1}
+{'loss': 1.5621, 'grad_norm': 0.18100477755069733, 'learning_rate': 0.0004931456213602078, 'epoch': 0.1}
+{'loss': 1.5527, 'grad_norm': 0.20292510092258453, 'learning_rate': 0.0004930973194840823, 'epoch': 0.1}
+{'loss': 1.5331, 'grad_norm': 0.17928241193294525, 'learning_rate': 0.000493048850398841, 'epoch': 0.1}
+{'loss': 1.5446, 'grad_norm': 0.1813059002161026, 'learning_rate': 0.0004930002141378227, 'epoch': 0.1}
+{'loss': 1.5593, 'grad_norm': 0.1481197625398636, 'learning_rate': 0.0004929514107344803, 'epoch': 0.1}
+{'loss': 1.5601, 'grad_norm': 0.20236557722091675, 'learning_rate': 0.0004929024402223826, 'epoch': 0.1}
+{'loss': 1.5713, 'grad_norm': 0.15610595047473907, 'learning_rate': 0.0004928533026352124, 'epoch': 0.1}
+{'loss': 1.5762, 'grad_norm': 0.25147372484207153, 'learning_rate': 0.0004928039980067681, 'epoch': 0.1}
+{'loss': 1.5733, 'grad_norm': 0.15668006241321564, 'learning_rate': 0.0004927545263709631, 'epoch': 0.1}
+{'loss': 1.5559, 'grad_norm': 0.2303183227777481, 'learning_rate': 0.0004927048877618249, 'epoch': 0.1}
+{'loss': 1.5662, 'grad_norm': 0.2193695604801178, 'learning_rate': 0.0004926550822134967, 'epoch': 0.11}
+{'loss': 1.5716, 'grad_norm': 0.21564185619354248, 'learning_rate': 0.0004926051097602359, 'epoch': 0.11}
+{'loss': 1.5617, 'grad_norm': 0.22790798544883728, 'learning_rate': 0.0004925549704364149, 'epoch': 0.11}
+{'loss': 1.5622, 'grad_norm': 0.20412985980510712, 'learning_rate': 0.0004925046642765212, 'epoch': 0.11}
+{'loss': 1.556, 'grad_norm': 0.1846615970134735, 'learning_rate': 0.0004924541913151566, 'epoch': 0.11}
+{'loss': 1.5632, 'grad_norm': 0.19868400692939758, 'learning_rate': 0.0004924035515870379, 'epoch': 0.11}
+{'loss': 1.5615, 'grad_norm': 0.1511862576007843, 'learning_rate': 0.0004923527451269964, 'epoch': 0.11}
+{'loss': 1.536, 'grad_norm': 0.1936899870634079, 'learning_rate': 0.0004923017719699782, 'epoch': 0.11}
+{'loss': 1.5582, 'grad_norm': 0.15858930349349976, 'learning_rate': 0.0004922506321510441, 'epoch': 0.11}
+{'loss': 1.5623, 'grad_norm': 0.1943541318178177, 'learning_rate': 0.0004921993257053696, 'epoch': 0.11}
+{'loss': 1.5534, 'grad_norm': 0.15210500359535217, 'learning_rate': 0.0004921478526682446, 'epoch': 0.11}
+{'loss': 1.5621, 'grad_norm': 0.19093100726604462, 'learning_rate': 0.0004920962130750737, 'epoch': 0.11}
+{'loss': 1.5723, 'grad_norm': 0.17554832994937897, 'learning_rate': 0.000492044406961376, 'epoch': 0.11}
+{'loss': 1.541, 'grad_norm': 0.18758094310760498, 'learning_rate': 0.0004919924343627853, 'epoch': 0.11}
+{'loss': 1.5585, 'grad_norm': 0.21394668519496918, 'learning_rate': 0.0004919402953150498, 'epoch': 0.11}
+{'loss': 1.5618, 'grad_norm': 0.19010481238365173, 'learning_rate': 0.0004918879898540321, 'epoch': 0.11}
+{'loss': 1.5521, 'grad_norm': 0.19311164319515228, 'learning_rate': 0.0004918355180157094, 'epoch': 0.11}
+{'loss': 1.5504, 'grad_norm': 0.20368489623069763, 'learning_rate': 0.0004917828798361732, 'epoch': 0.11}
+{'loss': 1.5618, 'grad_norm': 0.18949034810066223, 'learning_rate': 0.0004917300753516296, 'epoch': 0.11}
+{'loss': 1.5522, 'grad_norm': 0.22117938101291656, 'learning_rate': 0.0004916771045983991, 'epoch': 0.11}
+{'loss': 1.5483, 'grad_norm': 0.17436198890209198, 'learning_rate': 0.0004916239676129163, 'epoch': 0.11}
+{'loss': 1.5577, 'grad_norm': 0.20018720626831055, 'learning_rate': 0.0004915706644317303, 'epoch': 0.11}
+{'loss': 1.569, 'grad_norm': 0.19910258054733276, 'learning_rate': 0.0004915171950915047, 'epoch': 0.11}
+{'loss': 1.5578, 'grad_norm': 0.19778016209602356, 'learning_rate': 0.000491463559629017, 'epoch': 0.11}
+{'loss': 1.5538, 'grad_norm': 0.20526130497455597, 'learning_rate': 0.0004914097580811592, 'epoch': 0.11}
+{'loss': 1.5533, 'grad_norm': 0.19629456102848053, 'learning_rate': 0.0004913557904849377, 'epoch': 0.11}
+{'loss': 1.5462, 'grad_norm': 0.2266242802143097, 'learning_rate': 0.0004913016568774725, 'epoch': 0.11}
+{'loss': 1.5643, 'grad_norm': 0.2643970847129822, 'learning_rate': 0.0004912473572959987, 'epoch': 0.11}
+{'loss': 1.5541, 'grad_norm': 0.16709662973880768, 'learning_rate': 0.0004911928917778648, 'epoch': 0.11}
+{'loss': 1.5518, 'grad_norm': 0.2030177265405655, 'learning_rate': 0.0004911382603605337, 'epoch': 0.11}
+{'loss': 1.5542, 'grad_norm': 0.2035190314054489, 'learning_rate': 0.0004910834630815823, 'epoch': 0.11}
+{'loss': 1.5744, 'grad_norm': 0.18677762150764465, 'learning_rate': 0.000491028499978702, 'epoch': 0.11}
+{'loss': 1.5422, 'grad_norm': 0.20933754742145538, 'learning_rate': 0.0004909733710896978, 'epoch': 0.11}
+{'loss': 1.5375, 'grad_norm': 0.1898391991853714, 'learning_rate': 0.0004909180764524889, 'epoch': 0.11}
+{'loss': 1.5633, 'grad_norm': 0.2010117471218109, 'learning_rate': 0.0004908626161051084, 'epoch': 0.11}
+{'loss': 1.5547, 'grad_norm': 0.20512741804122925, 'learning_rate': 0.0004908069900857036, 'epoch': 0.11}
+{'loss': 1.5727, 'grad_norm': 0.1963711977005005, 'learning_rate': 0.0004907511984325356, 'epoch': 0.11}
+{'loss': 1.5595, 'grad_norm': 0.18307000398635864, 'learning_rate': 0.0004906952411839794, 'epoch': 0.11}
+{'loss': 1.5456, 'grad_norm': 0.1996242254972458, 'learning_rate': 0.0004906391183785241, 'epoch': 0.11}
+{'loss': 1.5417, 'grad_norm': 0.18244865536689758, 'learning_rate': 0.0004905828300547722, 'epoch': 0.12}
+{'loss': 1.5411, 'grad_norm': 0.2119656503200531, 'learning_rate': 0.0004905263762514408, 'epoch': 0.12}
+{'loss': 1.5503, 'grad_norm': 0.2195645272731781, 'learning_rate': 0.0004904697570073602, 'epoch': 0.12}
+{'loss': 1.5667, 'grad_norm': 0.16514618694782257, 'learning_rate': 0.0004904129723614746, 'epoch': 0.12}
+{'loss': 1.5789, 'grad_norm': 0.21620412170886993, 'learning_rate': 0.0004903560223528422, 'epoch': 0.12}
+{'loss': 1.5748, 'grad_norm': 0.1949157565832138, 'learning_rate': 0.0004902989070206347, 'epoch': 0.12}
+{'loss': 1.562, 'grad_norm': 0.18305212259292603, 'learning_rate': 0.0004902416264041377, 'epoch': 0.12}
+{'loss': 1.5556, 'grad_norm': 0.1692531853914261, 'learning_rate': 0.0004901841805427505, 'epoch': 0.12}
+{'loss': 1.5464, 'grad_norm': 0.1579292118549347, 'learning_rate': 0.0004901265694759858, 'epoch': 0.12}
+{'loss': 1.553, 'grad_norm': 0.16909471154212952, 'learning_rate': 0.0004900687932434701, 'epoch': 0.12}
+{'loss': 1.5731, 'grad_norm': 0.16353635489940643, 'learning_rate': 0.0004900108518849437, 'epoch': 0.12}
+{'loss': 1.5766, 'grad_norm': 0.17608119547367096, 'learning_rate': 0.00048995274544026, 'epoch': 0.12}
+{'loss': 1.5508, 'grad_norm': 0.1722160130739212, 'learning_rate': 0.0004898944739493864, 'epoch': 0.12}
+{'loss': 1.5385, 'grad_norm': 0.16088201105594635, 'learning_rate': 0.0004898360374524036, 'epoch': 0.12}
+{'loss': 1.5572, 'grad_norm': 0.191229447722435, 'learning_rate': 0.0004897774359895058, 'epoch': 0.12}
+{'loss': 1.524, 'grad_norm': 0.13029666244983673, 'learning_rate': 0.0004897186696010009, 'epoch': 0.12}
+{'loss': 1.5595, 'grad_norm': 0.1865958273410797, 'learning_rate': 0.00048965973832731, 'epoch': 0.12}
+{'loss': 1.5171, 'grad_norm': 0.14527754485607147, 'learning_rate': 0.0004896006422089676, 'epoch': 0.12}
+{'loss': 1.5828, 'grad_norm': 0.17069801688194275, 'learning_rate': 0.0004895413812866218, 'epoch': 0.12}
+{'loss': 1.5666, 'grad_norm': 0.16042901575565338, 'learning_rate': 0.0004894819556010337, 'epoch': 0.12}
+{'loss': 1.5561, 'grad_norm': 0.15975512564182281, 'learning_rate': 0.000489422365193078, 'epoch': 0.12}
+{'loss': 1.5909, 'grad_norm': 0.15757139027118683, 'learning_rate': 0.0004893626101037427, 'epoch': 0.12}
+{'loss': 1.5466, 'grad_norm': 0.15853698551654816, 'learning_rate': 0.0004893026903741291, 'epoch': 0.12}
+{'loss': 1.547, 'grad_norm': 0.1886083483695984, 'learning_rate': 0.0004892426060454515, 'epoch': 0.12}
+{'loss': 1.5601, 'grad_norm': 0.14668646454811096, 'learning_rate': 0.0004891823571590377, 'epoch': 0.12}
+{'loss': 1.5539, 'grad_norm': 0.1865610033273697, 'learning_rate': 0.0004891219437563285, 'epoch': 0.12}
+{'loss': 1.5743, 'grad_norm': 0.19958364963531494, 'learning_rate': 0.0004890613658788779, 'epoch': 0.12}
+{'loss': 1.5517, 'grad_norm': 0.1735110580921173, 'learning_rate': 0.0004890006235683532, 'epoch': 0.12}
+{'loss': 1.5422, 'grad_norm': 0.16058580577373505, 'learning_rate': 0.0004889397168665345, 'epoch': 0.12}
+{'loss': 1.5756, 'grad_norm': 0.15357725322246552, 'learning_rate': 0.0004888786458153151, 'epoch': 0.12}
+{'loss': 1.5515, 'grad_norm': 0.16657884418964386, 'learning_rate': 0.0004888174104567015, 'epoch': 0.12}
+{'loss': 1.5695, 'grad_norm': 0.18928620219230652, 'learning_rate': 0.000488756010832813, 'epoch': 0.12}
+{'loss': 1.539, 'grad_norm': 0.18223325908184052, 'learning_rate': 0.000488694446985882, 'epoch': 0.12}
+{'loss': 1.5594, 'grad_norm': 0.1842578947544098, 'learning_rate': 0.0004886327189582538, 'epoch': 0.12}
+{'loss': 1.5389, 'grad_norm': 0.17312119901180267, 'learning_rate': 0.0004885708267923869, 'epoch': 0.12}
+{'loss': 1.5506, 'grad_norm': 0.2088952362537384, 'learning_rate': 0.0004885087705308521, 'epoch': 0.12}
+{'loss': 1.5404, 'grad_norm': 0.1728949099779129, 'learning_rate': 0.0004884465502163337, 'epoch': 0.12}
+{'loss': 1.5874, 'grad_norm': 0.1802927404642105, 'learning_rate': 0.0004883841658916284, 'epoch': 0.12}
+{'loss': 1.5571, 'grad_norm': 0.19513559341430664, 'learning_rate': 0.0004883216175996458, 'epoch': 0.12}
+{'loss': 1.5632, 'grad_norm': 0.18946526944637299, 'learning_rate': 0.0004882589053834086, 'epoch': 0.13}
+{'loss': 1.5366, 'grad_norm': 0.1482619047164917, 'learning_rate': 0.0004881960292860518, 'epoch': 0.13}
+{'loss': 1.5306, 'grad_norm': 0.20216980576515198, 'learning_rate': 0.0004881329893508235, 'epoch': 0.13}
+{'loss': 1.5484, 'grad_norm': 0.1597088724374771, 'learning_rate': 0.0004880697856210843, 'epoch': 0.13}
+{'loss': 1.5428, 'grad_norm': 0.1875653862953186, 'learning_rate': 0.00048800641814030746, 'epoch': 0.13}
+{'loss': 1.5583, 'grad_norm': 0.2151525318622589, 'learning_rate': 0.0004879428869520788, 'epoch': 0.13}
+{'loss': 1.5457, 'grad_norm': 0.16335752606391907, 'learning_rate': 0.00048787919210009693, 'epoch': 0.13}
+{'loss': 1.5458, 'grad_norm': 0.20747064054012299, 'learning_rate': 0.000487815333628173, 'epoch': 0.13}
+{'loss': 1.5313, 'grad_norm': 0.16395904123783112, 'learning_rate': 0.00048775131158023056, 'epoch': 0.13}
+{'loss': 1.5417, 'grad_norm': 0.23268377780914307, 'learning_rate': 0.0004876871260003058, 'epoch': 0.13}
+{'loss': 1.5443, 'grad_norm': 0.15947234630584717, 'learning_rate': 0.0004876227769325473, 'epoch': 0.13}
+{'loss': 1.5577, 'grad_norm': 0.2281477153301239, 'learning_rate': 0.0004875582644212163, 'epoch': 0.13}
+{'loss': 1.5671, 'grad_norm': 0.1706409603357315, 'learning_rate': 0.00048749358851068607, 'epoch': 0.13}
+{'loss': 1.5866, 'grad_norm': 0.21792080998420715, 'learning_rate': 0.0004874287492454427, 'epoch': 0.13}
+{'loss': 1.5706, 'grad_norm': 0.17825083434581757, 'learning_rate': 0.0004873637466700843, 'epoch': 0.13}
+{'loss': 1.5341, 'grad_norm': 0.17084045708179474, 'learning_rate': 0.0004872985808293216, 'epoch': 0.13}
+{'loss': 1.5433, 'grad_norm': 0.2185775488615036, 'learning_rate': 0.0004872332517679774, 'epoch': 0.13}
+{'loss': 1.5284, 'grad_norm': 0.17884741723537445, 'learning_rate': 0.0004871677595309868, 'epoch': 0.13}
+{'loss': 1.5439, 'grad_norm': 0.19336050748825073, 'learning_rate': 0.0004871021041633973, 'epoch': 0.13}
+{'loss': 1.5392, 'grad_norm': 0.1736382395029068, 'learning_rate': 0.0004870362857103684, 'epoch': 0.13}
+{'loss': 1.5474, 'grad_norm': 0.25905200839042664, 'learning_rate': 0.00048697030421717194, 'epoch': 0.13}
+{'loss': 1.528, 'grad_norm': 0.17207753658294678, 'learning_rate': 0.00048690415972919176, 'epoch': 0.13}
+{'loss': 1.5341, 'grad_norm': 0.18939898908138275, 'learning_rate': 0.000486837852291924, 'epoch': 0.13}
+{'loss': 1.5326, 'grad_norm': 0.1693633496761322, 'learning_rate': 0.0004867713819509766, 'epoch': 0.13}
+{'loss': 1.5465, 'grad_norm': 0.20664580166339874, 'learning_rate': 0.0004867047487520698, 'epoch': 0.13}
+{'loss': 1.5527, 'grad_norm': 0.17675523459911346, 'learning_rate': 0.00048663795274103585, 'epoch': 0.13}
+{'loss': 1.5496, 'grad_norm': 0.16933953762054443, 'learning_rate': 0.0004865709939638188, 'epoch': 0.13}
+{'loss': 1.5492, 'grad_norm': 0.1731080561876297, 'learning_rate': 0.0004865038724664747, 'epoch': 0.13}
+{'loss': 1.5315, 'grad_norm': 0.16666147112846375, 'learning_rate': 0.0004864365882951718, 'epoch': 0.13}
+{'loss': 1.5414, 'grad_norm': 0.20148076117038727, 'learning_rate': 0.0004863691414961898, 'epoch': 0.13}
+{'loss': 1.5048, 'grad_norm': 0.18128904700279236, 'learning_rate': 0.0004863015321159206, 'epoch': 0.13}
+{'loss': 1.518, 'grad_norm': 0.16064296662807465, 'learning_rate': 0.00048623376020086794, 'epoch': 0.13}
+{'loss': 1.5401, 'grad_norm': 0.190424844622612, 'learning_rate': 0.00048616582579764705, 'epoch': 0.13}
+{'loss': 1.556, 'grad_norm': 0.16660797595977783, 'learning_rate': 0.0004860977289529852, 'epoch': 0.13}
+{'loss': 1.5358, 'grad_norm': 0.24205152690410614, 'learning_rate': 0.00048602946971372117, 'epoch': 0.13}
+{'loss': 1.5347, 'grad_norm': 0.16495051980018616, 'learning_rate': 0.00048596104812680574, 'epoch': 0.13}
+{'loss': 1.5551, 'grad_norm': 0.2167130559682846, 'learning_rate': 0.0004858924642393011, 'epoch': 0.13}
+{'loss': 1.57, 'grad_norm': 0.16751526296138763, 'learning_rate': 0.00048582371809838124, 'epoch': 0.13}
+{'loss': 1.5606, 'grad_norm': 0.1708439588546753, 'learning_rate': 0.00048575480975133144, 'epoch': 0.13}
+{'loss': 1.5423, 'grad_norm': 0.1590839922428131, 'learning_rate': 0.0004856857392455491, 'epoch': 0.14}
+{'loss': 1.5503, 'grad_norm': 0.18414340913295746, 'learning_rate': 0.00048561650662854263, 'epoch': 0.14}
+{'loss': 1.5472, 'grad_norm': 0.1902107298374176, 'learning_rate': 0.0004855471119479322, 'epoch': 0.14}
+{'loss': 1.5631, 'grad_norm': 0.15855927765369415, 'learning_rate': 0.0004854775552514494, 'epoch': 0.14}
+{'loss': 1.5346, 'grad_norm': 0.14866606891155243, 'learning_rate': 0.00048540783658693735, 'epoch': 0.14}
+{'loss': 1.5568, 'grad_norm': 0.16776826977729797, 'learning_rate': 0.0004853379560023504, 'epoch': 0.14}
+{'loss': 1.5514, 'grad_norm': 0.1584939956665039, 'learning_rate': 0.00048526791354575434, 'epoch': 0.14}
+{'loss': 1.5209, 'grad_norm': 0.15278324484825134, 'learning_rate': 0.0004851977092653264, 'epoch': 0.14}
+{'loss': 1.5258, 'grad_norm': 0.16101562976837158, 'learning_rate': 0.00048512734320935505, 'epoch': 0.14}
+{'loss': 1.5462, 'grad_norm': 0.1619265079498291, 'learning_rate': 0.0004850568154262399, 'epoch': 0.14}
+{'loss': 1.5335, 'grad_norm': 0.14592142403125763, 'learning_rate': 0.00048498612596449217, 'epoch': 0.14}
+{'loss': 1.561, 'grad_norm': 0.15361131727695465, 'learning_rate': 0.0004849152748727338, 'epoch': 0.14}
+{'loss': 1.5534, 'grad_norm': 0.14850512146949768, 'learning_rate': 0.0004848442621996982, 'epoch': 0.14}
+{'loss': 1.523, 'grad_norm': 0.1691308170557022, 'learning_rate': 0.00048477308799423, 'epoch': 0.14}
+{'loss': 1.543, 'grad_norm': 0.12212313711643219, 'learning_rate': 0.0004847017523052846, 'epoch': 0.14}
+{'loss': 1.5454, 'grad_norm': 0.1639714390039444, 'learning_rate': 0.00048463025518192886, 'epoch': 0.14}
+{'loss': 1.538, 'grad_norm': 0.14038966596126556, 'learning_rate': 0.00048455859667334046, 'epoch': 0.14}
+{'loss': 1.5363, 'grad_norm': 0.13506095111370087, 'learning_rate': 0.000484486776828808, 'epoch': 0.14}
+{'loss': 1.5331, 'grad_norm': 0.177260160446167, 'learning_rate': 0.0004844147956977313, 'epoch': 0.14}
+{'loss': 1.5647, 'grad_norm': 0.1516541689634323, 'learning_rate': 0.0004843426533296209, 'epoch': 0.14}
+{'loss': 1.4957, 'grad_norm': 0.1668323576450348, 'learning_rate': 0.0004842703497740984, 'epoch': 0.14}
+{'loss': 1.5331, 'grad_norm': 0.1752515435218811, 'learning_rate': 0.0004841978850808961, 'epoch': 0.14}
+{'loss': 1.5448, 'grad_norm': 0.17119252681732178, 'learning_rate': 0.0004841252592998575, 'epoch': 0.14}
+{'loss': 1.5613, 'grad_norm': 0.18155959248542786, 'learning_rate': 0.0004840524724809363, 'epoch': 0.14}
+{'loss': 1.539, 'grad_norm': 0.17412592470645905, 'learning_rate': 0.0004839795246741975, 'epoch': 0.14}
+{'loss': 1.5372, 'grad_norm': 0.17060647904872894, 'learning_rate': 0.00048390641592981656, 'epoch': 0.14}
+{'loss': 1.5247, 'grad_norm': 0.1944814771413803, 'learning_rate': 0.00048383314629807974, 'epoch': 0.14}
+{'loss': 1.5585, 'grad_norm': 0.1719142198562622, 'learning_rate': 0.00048375971582938394, 'epoch': 0.14}
+{'loss': 1.5283, 'grad_norm': 0.170408695936203, 'learning_rate': 0.00048368612457423677, 'epoch': 0.14}
+{'loss': 1.4999, 'grad_norm': 0.1732081174850464, 'learning_rate': 0.0004836123725832562, 'epoch': 0.14}
+{'loss': 1.5443, 'grad_norm': 0.172788605093956, 'learning_rate': 0.00048353845990717093, 'epoch': 0.14}
+{'loss': 1.5448, 'grad_norm': 0.20614346861839294, 'learning_rate': 0.0004834643865968202, 'epoch': 0.14}
+{'loss': 1.5559, 'grad_norm': 0.19046899676322937, 'learning_rate': 0.00048339015270315377, 'epoch': 0.14}
+{'loss': 1.5428, 'grad_norm': 0.15256616473197937, 'learning_rate': 0.0004833157582772317, 'epoch': 0.14}
+{'loss': 1.5626, 'grad_norm': 0.15903271734714508, 'learning_rate': 0.0004832412033702245, 'epoch': 0.14}
+{'loss': 1.5115, 'grad_norm': 0.1479860246181488, 'learning_rate': 0.00048316648803341315, 'epoch': 0.14}
+{'loss': 1.5508, 'grad_norm': 0.1688949465751648, 'learning_rate': 0.00048309161231818905, 'epoch': 0.14}
+{'loss': 1.5285, 'grad_norm': 0.1938437968492508, 'learning_rate': 0.0004830165762760537, 'epoch': 0.14}
+{'loss': 1.5442, 'grad_norm': 0.15192896127700806, 'learning_rate': 0.00048294137995861895, 'epoch': 0.14}
+{'loss': 1.5622, 'grad_norm': 0.16392478346824646, 'learning_rate': 0.00048286602341760703, 'epoch': 0.15}
+{'loss': 1.551, 'grad_norm': 0.1542520374059677, 'learning_rate': 0.0004827905067048502, 'epoch': 0.15}
+{'loss': 1.5285, 'grad_norm': 0.14092430472373962, 'learning_rate': 0.000482714829872291, 'epoch': 0.15}
+{'loss': 1.5586, 'grad_norm': 0.21343328058719635, 'learning_rate': 0.000482638992971982, 'epoch': 0.15}
+{'loss': 1.5633, 'grad_norm': 0.1496542990207672, 'learning_rate': 0.000482562996056086, 'epoch': 0.15}
+{'loss': 1.5335, 'grad_norm': 0.17353565990924835, 'learning_rate': 0.00048248683917687574, 'epoch': 0.15}
+{'loss': 1.518, 'grad_norm': 0.2038482278585434, 'learning_rate': 0.00048241052238673414, 'epoch': 0.15}
+{'loss': 1.5281, 'grad_norm': 0.17734472453594208, 'learning_rate': 0.000482334045738154, 'epoch': 0.15}
+{'loss': 1.5646, 'grad_norm': 0.20632493495941162, 'learning_rate': 0.00048225740928373796, 'epoch': 0.15}
+{'loss': 1.5496, 'grad_norm': 0.19198894500732422, 'learning_rate': 0.0004821806130761988, 'epoch': 0.15}
+{'loss': 1.555, 'grad_norm': 0.16386128962039948, 'learning_rate': 0.0004821036571683591, 'epoch': 0.15}
+{'loss': 1.5338, 'grad_norm': 0.18616293370723724, 'learning_rate': 0.00048202654161315134, 'epoch': 0.15}
+{'loss': 1.5165, 'grad_norm': 0.1381356418132782, 'learning_rate': 0.0004819492664636176, 'epoch': 0.15}
+{'loss': 1.5547, 'grad_norm': 0.18231739103794098, 'learning_rate': 0.0004818718317729101, 'epoch': 0.15}
+{'loss': 1.5368, 'grad_norm': 0.14740495383739471, 'learning_rate': 0.0004817942375942903, 'epoch': 0.15}
+{'loss': 1.5669, 'grad_norm': 0.17200177907943726, 'learning_rate': 0.0004817164839811299, 'epoch': 0.15}
+{'loss': 1.5397, 'grad_norm': 0.1794493943452835, 'learning_rate': 0.00048163857098690977, 'epoch': 0.15}
+{'loss': 1.5208, 'grad_norm': 0.16953259706497192, 'learning_rate': 0.0004815604986652208, 'epoch': 0.15}
+{'loss': 1.5288, 'grad_norm': 0.1751609593629837, 'learning_rate': 0.00048148226706976326, 'epoch': 0.15}
+{'loss': 1.5385, 'grad_norm': 0.14861923456192017, 'learning_rate': 0.0004814038762543471, 'epoch': 0.15}
+{'loss': 1.5229, 'grad_norm': 0.15236251056194305, 'learning_rate': 0.00048132532627289163, 'epoch': 0.15}
+{'loss': 1.521, 'grad_norm': 0.1649065911769867, 'learning_rate': 0.00048124661717942563, 'epoch': 0.15}
+{'loss': 1.5527, 'grad_norm': 0.16696032881736755, 'learning_rate': 0.00048116774902808756, 'epoch': 0.15}
+{'loss': 1.5307, 'grad_norm': 0.1486711949110031, 'learning_rate': 0.00048108872187312514, 'epoch': 0.15}
+{'loss': 1.538, 'grad_norm': 0.17584289610385895, 'learning_rate': 0.0004810095357688954, 'epoch': 0.15}
+{'loss': 1.4954, 'grad_norm': 0.1674448400735855, 'learning_rate': 0.00048093019076986466, 'epoch': 0.15}
+{'loss': 1.5478, 'grad_norm': 0.19023865461349487, 'learning_rate': 0.00048085068693060876, 'epoch': 0.15}
+{'loss': 1.5371, 'grad_norm': 0.1519019901752472, 'learning_rate': 0.0004807710243058125, 'epoch': 0.15}
+{'loss': 1.5407, 'grad_norm': 0.16165104508399963, 'learning_rate': 0.0004806912029502703, 'epoch': 0.15}
+{'loss': 1.524, 'grad_norm': 0.15899716317653656, 'learning_rate': 0.0004806112229188854, 'epoch': 0.15}
+{'loss': 1.5652, 'grad_norm': 0.152469202876091, 'learning_rate': 0.00048053108426667016, 'epoch': 0.15}
+{'loss': 1.5813, 'grad_norm': 0.1799284964799881, 'learning_rate': 0.00048045078704874627, 'epoch': 0.15}
+{'loss': 1.5132, 'grad_norm': 0.16733551025390625, 'learning_rate': 0.00048037033132034446, 'epoch': 0.15}
+{'loss': 1.533, 'grad_norm': 0.1810077726840973, 'learning_rate': 0.00048028971713680443, 'epoch': 0.15}
+{'loss': 1.5161, 'grad_norm': 0.15235157310962677, 'learning_rate': 0.00048020894455357477, 'epoch': 0.15}
+{'loss': 1.543, 'grad_norm': 0.16290566325187683, 'learning_rate': 0.0004801280136262132, 'epoch': 0.15}
+{'loss': 1.5184, 'grad_norm': 0.15632092952728271, 'learning_rate': 0.0004800469244103861, 'epoch': 0.15}
+{'loss': 1.5385, 'grad_norm': 0.17715740203857422, 'learning_rate': 0.0004799656769618691, 'epoch': 0.15}
+{'loss': 1.528, 'grad_norm': 0.15762770175933838, 'learning_rate': 0.00047988427133654647, 'epoch': 0.15}
+{'loss': 1.5167, 'grad_norm': 0.23033462464809418, 'learning_rate': 0.00047980270759041105, 'epoch': 0.16}
+{'loss': 1.5373, 'grad_norm': 0.1660657376050949, 'learning_rate': 0.00047972098577956485, 'epoch': 0.16}
+{'loss': 1.537, 'grad_norm': 0.1949494630098343, 'learning_rate': 0.0004796391059602183, 'epoch': 0.16}
+{'loss': 1.5347, 'grad_norm': 0.1487811803817749, 'learning_rate': 0.0004795570681886907, 'epoch': 0.16}
+{'loss': 1.5377, 'grad_norm': 0.1972154825925827, 'learning_rate': 0.00047947487252140996, 'epoch': 0.16}
+{'loss': 1.5238, 'grad_norm': 0.18074944615364075, 'learning_rate': 0.0004793925190149124, 'epoch': 0.16}
+{'loss': 1.5539, 'grad_norm': 0.16556377708911896, 'learning_rate': 0.00047931000772584323, 'epoch': 0.16}
+{'loss': 1.5227, 'grad_norm': 0.15538346767425537, 'learning_rate': 0.00047922733871095586, 'epoch': 0.16}
+{'loss': 1.5444, 'grad_norm': 0.14929097890853882, 'learning_rate': 0.0004791445120271124, 'epoch': 0.16}
+{'loss': 1.5454, 'grad_norm': 0.1605459600687027, 'learning_rate': 0.0004790615277312834, 'epoch': 0.16}
+{'loss': 1.5384, 'grad_norm': 0.16224165260791779, 'learning_rate': 0.0004789783858805477, 'epoch': 0.16}
+{'loss': 1.5687, 'grad_norm': 0.1658932864665985, 'learning_rate': 0.0004788950865320927, 'epoch': 0.16}
+{'loss': 1.5519, 'grad_norm': 0.16668051481246948, 'learning_rate': 0.00047881162974321384, 'epoch': 0.16}
+{'loss': 1.5426, 'grad_norm': 0.15000665187835693, 'learning_rate': 0.00047872801557131517, 'epoch': 0.16}
+{'loss': 1.5405, 'grad_norm': 0.18354356288909912, 'learning_rate': 0.0004786442440739088, 'epoch': 0.16}
+{'loss': 1.5603, 'grad_norm': 0.17494599521160126, 'learning_rate': 0.0004785603153086151, 'epoch': 0.16}
+{'loss': 1.5277, 'grad_norm': 0.18669894337654114, 'learning_rate': 0.00047847622933316257, 'epoch': 0.16}
+{'loss': 1.5291, 'grad_norm': 0.1805475801229477, 'learning_rate': 0.00047839198620538796, 'epoch': 0.16}
+{'loss': 1.5402, 'grad_norm': 0.1717575490474701, 'learning_rate': 0.0004783075859832361, 'epoch': 0.16}
+{'loss': 1.5549, 'grad_norm': 0.18460150063037872, 'learning_rate': 0.00047822302872475966, 'epoch': 0.16}
+{'loss': 1.5309, 'grad_norm': 0.16437837481498718, 'learning_rate': 0.00047813831448811954, 'epoch': 0.16}
+{'loss': 1.5054, 'grad_norm': 0.18251194059848785, 'learning_rate': 0.00047805344333158464, 'epoch': 0.16}
+{'loss': 1.5288, 'grad_norm': 0.13629315793514252, 'learning_rate': 0.00047796841531353156, 'epoch': 0.16}
+{'loss': 1.5321, 'grad_norm': 0.15717807412147522, 'learning_rate': 0.0004778832304924451, 'epoch': 0.16}
+{'loss': 1.5288, 'grad_norm': 0.14635367691516876, 'learning_rate': 0.00047779788892691766, 'epoch': 0.16}
+{'loss': 1.5511, 'grad_norm': 0.16069059073925018, 'learning_rate': 0.00047771239067564953, 'epoch': 0.16}
+{'loss': 1.5354, 'grad_norm': 0.1658705621957779, 'learning_rate': 0.0004776267357974489, 'epoch': 0.16}
+{'loss': 1.5421, 'grad_norm': 0.13483497500419617, 'learning_rate': 0.00047754092435123145, 'epoch': 0.16}
+{'loss': 1.5316, 'grad_norm': 0.18300123512744904, 'learning_rate': 0.0004774549563960207, 'epoch': 0.16}
+{'loss': 1.516, 'grad_norm': 0.13562427461147308, 'learning_rate': 0.0004773688319909479, 'epoch': 0.16}
+{'loss': 1.5319, 'grad_norm': 0.1939796805381775, 'learning_rate': 0.0004772825511952518, 'epoch': 0.16}
+{'loss': 1.5131, 'grad_norm': 0.21208393573760986, 'learning_rate': 0.0004771961140682787, 'epoch': 0.16}
+{'loss': 1.5235, 'grad_norm': 0.1378943771123886, 'learning_rate': 0.00047710952066948244, 'epoch': 0.16}
+{'loss': 1.5275, 'grad_norm': 0.16649919748306274, 'learning_rate': 0.0004770227710584245, 'epoch': 0.16}
+{'loss': 1.5316, 'grad_norm': 0.17672082781791687, 'learning_rate': 0.0004769358652947735, 'epoch': 0.16}
+{'loss': 1.5497, 'grad_norm': 0.16038045287132263, 'learning_rate': 0.0004768488034383057, 'epoch': 0.16}
+{'loss': 1.5341, 'grad_norm': 0.18340708315372467, 'learning_rate': 0.0004767615855489048, 'epoch': 0.16}
+{'loss': 1.5481, 'grad_norm': 0.18699948489665985, 'learning_rate': 0.0004766742116865617, 'epoch': 0.16}
+{'loss': 1.5188, 'grad_norm': 0.17712263762950897, 'learning_rate': 0.00047658668191137435, 'epoch': 0.16}
+{'loss': 1.5061, 'grad_norm': 0.1727982461452484, 'learning_rate': 0.00047649899628354834, 'epoch': 0.17}
+{'loss': 1.5481, 'grad_norm': 0.13430793583393097, 'learning_rate': 0.0004764111548633962, 'epoch': 0.17}
+{'loss': 1.5223, 'grad_norm': 0.16381527483463287, 'learning_rate': 0.0004763231577113378, 'epoch': 0.17}
+{'loss': 1.521, 'grad_norm': 0.13354849815368652, 'learning_rate': 0.00047623500488790007, 'epoch': 0.17}
+{'loss': 1.5206, 'grad_norm': 0.16953890025615692, 'learning_rate': 0.0004761466964537169, 'epoch': 0.17}
+{'loss': 1.5153, 'grad_norm': 0.15773244202136993, 'learning_rate': 0.0004760582324695292, 'epoch': 0.17}
+{'loss': 1.527, 'grad_norm': 0.1666080802679062, 'learning_rate': 0.0004759696129961852, 'epoch': 0.17}
+{'loss': 1.5384, 'grad_norm': 0.16451941430568695, 'learning_rate': 0.00047588083809463967, 'epoch': 0.17}
+{'loss': 1.5342, 'grad_norm': 0.17802071571350098, 'learning_rate': 0.0004757919078259545, 'epoch': 0.17}
+{'loss': 1.5506, 'grad_norm': 0.14269930124282837, 'learning_rate': 0.00047570282225129835, 'epoch': 0.17}
+{'loss': 1.5272, 'grad_norm': 0.211965411901474, 'learning_rate': 0.0004756135814319469, 'epoch': 0.17}
+{'loss': 1.583, 'grad_norm': 0.15597942471504211, 'learning_rate': 0.00047552418542928245, 'epoch': 0.17}
+{'loss': 1.5299, 'grad_norm': 0.18533457815647125, 'learning_rate': 0.00047543463430479397, 'epoch': 0.17}
+{'loss': 1.5118, 'grad_norm': 0.1653495877981186, 'learning_rate': 0.00047534492812007726, 'epoch': 0.17}
+{'loss': 1.515, 'grad_norm': 0.1959269642829895, 'learning_rate': 0.0004752550669368347, 'epoch': 0.17}
+{'loss': 1.5271, 'grad_norm': 0.18567439913749695, 'learning_rate': 0.0004751650508168755, 'epoch': 0.17}
+{'loss': 1.5387, 'grad_norm': 0.16472212970256805, 'learning_rate': 0.00047507487982211504, 'epoch': 0.17}
+{'loss': 1.5353, 'grad_norm': 0.16501875221729279, 'learning_rate': 0.0004749845540145755, 'epoch': 0.17}
+{'loss': 1.5434, 'grad_norm': 0.17065712809562683, 'learning_rate': 0.00047489407345638557, 'epoch': 0.17}
+{'loss': 1.5426, 'grad_norm': 0.16319380700588226, 'learning_rate': 0.00047480343820978024, 'epoch': 0.17}
+{'loss': 1.5307, 'grad_norm': 0.21214249730110168, 'learning_rate': 0.00047471264833710093, 'epoch': 0.17}
+{'loss': 1.5479, 'grad_norm': 0.1772184520959854, 'learning_rate': 0.0004746217039007955, 'epoch': 0.17}
+{'loss': 1.5448, 'grad_norm': 0.17815589904785156, 'learning_rate': 0.00047453060496341804, 'epoch': 0.17}
+{'loss': 1.5123, 'grad_norm': 0.1940351277589798, 'learning_rate': 0.00047443935158762897, 'epoch': 0.17}
+{'loss': 1.5365, 'grad_norm': 0.15862956643104553, 'learning_rate': 0.0004743479438361948, 'epoch': 0.17}
+{'loss': 1.5117, 'grad_norm': 0.17800313234329224, 'learning_rate': 0.0004742563817719886, 'epoch': 0.17}
+{'loss': 1.534, 'grad_norm': 0.15815143287181854, 'learning_rate': 0.00047416466545798896, 'epoch': 0.17}
+{'loss': 1.5042, 'grad_norm': 0.16958698630332947, 'learning_rate': 0.0004740727949572812, 'epoch': 0.17}
+{'loss': 1.5197, 'grad_norm': 0.15476642549037933, 'learning_rate': 0.0004739807703330563, 'epoch': 0.17}
+{'loss': 1.5244, 'grad_norm': 0.1662174016237259, 'learning_rate': 0.0004738885916486113, 'epoch': 0.17}
+{'loss': 1.5225, 'grad_norm': 0.1675146073102951, 'learning_rate': 0.00047379625896734937, 'epoch': 0.17}
+{'loss': 1.5137, 'grad_norm': 0.14015258848667145, 'learning_rate': 0.0004737037723527794, 'epoch': 0.17}
+{'loss': 1.5544, 'grad_norm': 0.1713768094778061, 'learning_rate': 0.00047361113186851635, 'epoch': 0.17}
+{'loss': 1.5016, 'grad_norm': 0.17226840555667877, 'learning_rate': 0.000473518337578281, 'epoch': 0.17}
+{'loss': 1.5117, 'grad_norm': 0.16803479194641113, 'learning_rate': 0.00047342538954589963, 'epoch': 0.17}
+{'loss': 1.537, 'grad_norm': 0.1731942743062973, 'learning_rate': 0.00047333228783530466, 'epoch': 0.17}
+{'loss': 1.5176, 'grad_norm': 0.16703595221042633, 'learning_rate': 0.0004732390325105341, 'epoch': 0.17}
+{'loss': 1.509, 'grad_norm': 0.17506562173366547, 'learning_rate': 0.0004731456236357314, 'epoch': 0.17}
+{'loss': 1.5162, 'grad_norm': 0.16738361120224, 'learning_rate': 0.0004730520612751458, 'epoch': 0.17}
+{'loss': 1.5123, 'grad_norm': 0.1686466932296753, 'learning_rate': 0.0004729583454931322, 'epoch': 0.18}
+{'loss': 1.5523, 'grad_norm': 0.18223042786121368, 'learning_rate': 0.00047286447635415087, 'epoch': 0.18}
+{'loss': 1.564, 'grad_norm': 0.14920370280742645, 'learning_rate': 0.0004727704539227676, 'epoch': 0.18}
+{'loss': 1.5248, 'grad_norm': 0.15278618037700653, 'learning_rate': 0.00047267627826365376, 'epoch': 0.18}
+{'loss': 1.5262, 'grad_norm': 0.14771872758865356, 'learning_rate': 0.0004725819494415858, 'epoch': 0.18}
+{'loss': 1.5133, 'grad_norm': 0.15362712740898132, 'learning_rate': 0.0004724874675214459, 'epoch': 0.18}
+{'loss': 1.5378, 'grad_norm': 0.15329213440418243, 'learning_rate': 0.0004723928325682213, 'epoch': 0.18}
+{'loss': 1.5132, 'grad_norm': 0.17334772646427155, 'learning_rate': 0.0004722980446470045, 'epoch': 0.18}
+{'loss': 1.512, 'grad_norm': 0.13808657228946686, 'learning_rate': 0.0004722031038229933, 'epoch': 0.18}
+{'loss': 1.5334, 'grad_norm': 0.18939970433712006, 'learning_rate': 0.0004721080101614907, 'epoch': 0.18}
+{'loss': 1.537, 'grad_norm': 0.14676806330680847, 'learning_rate': 0.0004720127637279047, 'epoch': 0.18}
+{'loss': 1.5189, 'grad_norm': 0.15470141172409058, 'learning_rate': 0.0004719173645877485, 'epoch': 0.18}
+{'loss': 1.5406, 'grad_norm': 0.16928543150424957, 'learning_rate': 0.0004718218128066403, 'epoch': 0.18}
+{'loss': 1.5157, 'grad_norm': 0.18449336290359497, 'learning_rate': 0.0004717261084503032, 'epoch': 0.18}
+{'loss': 1.5293, 'grad_norm': 0.13979533314704895, 'learning_rate': 0.0004716302515845654, 'epoch': 0.18}
+{'loss': 1.5516, 'grad_norm': 0.18543778359889984, 'learning_rate': 0.00047153424227536, 'epoch': 0.18}
+{'loss': 1.5492, 'grad_norm': 0.13006211817264557, 'learning_rate': 0.00047143808058872473, 'epoch': 0.18}
+{'loss': 1.518, 'grad_norm': 0.19886475801467896, 'learning_rate': 0.0004713417665908023, 'epoch': 0.18}
+{'loss': 1.5304, 'grad_norm': 0.15721379220485687, 'learning_rate': 0.00047124530034784026, 'epoch': 0.18}
+{'loss': 1.5139, 'grad_norm': 0.18103569746017456, 'learning_rate': 0.00047114868192619066, 'epoch': 0.18}
+{'loss': 1.5309, 'grad_norm': 0.14429551362991333, 'learning_rate': 0.00047105191139231047, 'epoch': 0.18}
+{'loss': 1.5424, 'grad_norm': 0.1849316656589508, 'learning_rate': 0.0004709549888127611, 'epoch': 0.18}
+{'loss': 1.5225, 'grad_norm': 0.14210164546966553, 'learning_rate': 0.00047085791425420856, 'epoch': 0.18}
+{'loss': 1.5206, 'grad_norm': 0.13644011318683624, 'learning_rate': 0.0004707606877834235, 'epoch': 0.18}
+{'loss': 1.516, 'grad_norm': 0.14629514515399933, 'learning_rate': 0.000470663309467281, 'epoch': 0.18}
+{'loss': 1.5414, 'grad_norm': 0.12555791437625885, 'learning_rate': 0.0004705657793727605, 'epoch': 0.18}
+{'loss': 1.5393, 'grad_norm': 0.14566712081432343, 'learning_rate': 0.00047046809756694604, 'epoch': 0.18}
+{'loss': 1.5446, 'grad_norm': 0.16728532314300537, 'learning_rate': 0.00047037026411702584, 'epoch': 0.18}
+{'loss': 1.5422, 'grad_norm': 0.1917099803686142, 'learning_rate': 0.0004702722790902924, 'epoch': 0.18}
+{'loss': 1.5379, 'grad_norm': 0.1405932903289795, 'learning_rate': 0.0004701741425541427, 'epoch': 0.18}
+{'loss': 1.5189, 'grad_norm': 0.14889489114284515, 'learning_rate': 0.00047007585457607763, 'epoch': 0.18}
+{'loss': 1.5428, 'grad_norm': 0.14588665962219238, 'learning_rate': 0.00046997741522370254, 'epoch': 0.18}
+{'loss': 1.5259, 'grad_norm': 0.13911424577236176, 'learning_rate': 0.00046987882456472663, 'epoch': 0.18}
+{'loss': 1.5202, 'grad_norm': 0.15373015403747559, 'learning_rate': 0.0004697800826669635, 'epoch': 0.18}
+{'loss': 1.5251, 'grad_norm': 0.15798380970954895, 'learning_rate': 0.0004696811895983303, 'epoch': 0.18}
+{'loss': 1.5422, 'grad_norm': 0.17009873688220978, 'learning_rate': 0.00046958214542684875, 'epoch': 0.18}
+{'loss': 1.4964, 'grad_norm': 0.1814926713705063, 'learning_rate': 0.00046948295022064394, 'epoch': 0.18}
+{'loss': 1.546, 'grad_norm': 0.1386849731206894, 'learning_rate': 0.0004693836040479452, 'epoch': 0.18}
+{'loss': 1.541, 'grad_norm': 0.20654471218585968, 'learning_rate': 0.0004692841069770856, 'epoch': 0.18}
+{'loss': 1.5036, 'grad_norm': 0.16779984533786774, 'learning_rate': 0.00046918445907650206, 'epoch': 0.19}
+{'loss': 1.5378, 'grad_norm': 0.17354460060596466, 'learning_rate': 0.0004690846604147351, 'epoch': 0.19}
+{'loss': 1.5286, 'grad_norm': 0.16914252936840057, 'learning_rate': 0.000468984711060429, 'epoch': 0.19}
+{'loss': 1.5064, 'grad_norm': 0.17177362740039825, 'learning_rate': 0.0004688846110823318, 'epoch': 0.19}
+{'loss': 1.5386, 'grad_norm': 0.15453311800956726, 'learning_rate': 0.000468784360549295, 'epoch': 0.19}
+{'loss': 1.5439, 'grad_norm': 0.19681748747825623, 'learning_rate': 0.00046868395953027366, 'epoch': 0.19}
+{'loss': 1.5235, 'grad_norm': 0.16434191167354584, 'learning_rate': 0.0004685834080943265, 'epoch': 0.19}
+{'loss': 1.5333, 'grad_norm': 0.19990944862365723, 'learning_rate': 0.0004684827063106156, 'epoch': 0.19}
+{'loss': 1.5459, 'grad_norm': 0.1437211036682129, 'learning_rate': 0.0004683818542484065, 'epoch': 0.19}
+{'loss': 1.5233, 'grad_norm': 0.1906149685382843, 'learning_rate': 0.0004682808519770679, 'epoch': 0.19}
+{'loss': 1.5045, 'grad_norm': 0.15416666865348816, 'learning_rate': 0.00046817969956607205, 'epoch': 0.19}
+{'loss': 1.5029, 'grad_norm': 0.20133325457572937, 'learning_rate': 0.00046807839708499447, 'epoch': 0.19}
+{'loss': 1.5301, 'grad_norm': 0.1483834981918335, 'learning_rate': 0.0004679769446035137, 'epoch': 0.19}
+{'loss': 1.5003, 'grad_norm': 0.1864762008190155, 'learning_rate': 0.0004678753421914117, 'epoch': 0.19}
+{'loss': 1.5225, 'grad_norm': 0.15358304977416992, 'learning_rate': 0.00046777358991857346, 'epoch': 0.19}
+{'loss': 1.5225, 'grad_norm': 0.15655753016471863, 'learning_rate': 0.0004676716878549868, 'epoch': 0.19}
+{'loss': 1.5231, 'grad_norm': 0.1515127718448639, 'learning_rate': 0.0004675696360707431, 'epoch': 0.19}
+{'loss': 1.5403, 'grad_norm': 0.17764034867286682, 'learning_rate': 0.00046746743463603636, 'epoch': 0.19}
+{'loss': 1.4925, 'grad_norm': 0.14619790017604828, 'learning_rate': 0.00046736508362116335, 'epoch': 0.19}
+{'loss': 1.5185, 'grad_norm': 0.19084709882736206, 'learning_rate': 0.00046726258309652427, 'epoch': 0.19}
+{'loss': 1.5463, 'grad_norm': 0.1547900289297104, 'learning_rate': 0.0004671599331326216, 'epoch': 0.19}
+{'loss': 1.5387, 'grad_norm': 0.2078755646944046, 'learning_rate': 0.000467057133800061, 'epoch': 0.19}
+{'loss': 1.5231, 'grad_norm': 0.18877089023590088, 'learning_rate': 0.0004669541851695506, 'epoch': 0.19}
+{'loss': 1.5338, 'grad_norm': 0.1557733118534088, 'learning_rate': 0.0004668510873119014, 'epoch': 0.19}
+{'loss': 1.5316, 'grad_norm': 0.20209282636642456, 'learning_rate': 0.00046674784029802696, 'epoch': 0.19}
+{'loss': 1.5245, 'grad_norm': 0.15283380448818207, 'learning_rate': 0.00046664444419894347, 'epoch': 0.19}
+{'loss': 1.5186, 'grad_norm': 0.17516961693763733, 'learning_rate': 0.0004665408990857697, 'epoch': 0.19}
+{'loss': 1.5105, 'grad_norm': 0.1679372787475586, 'learning_rate': 0.00046643720502972675, 'epoch': 0.19}
+{'loss': 1.5124, 'grad_norm': 0.14940829575061798, 'learning_rate': 0.0004663333621021384, 'epoch': 0.19}
+{'loss': 1.5388, 'grad_norm': 0.1551060825586319, 'learning_rate': 0.0004662293703744306, 'epoch': 0.19}
+{'loss': 1.5243, 'grad_norm': 0.16272294521331787, 'learning_rate': 0.0004661252299181319, 'epoch': 0.19}
+{'loss': 1.5349, 'grad_norm': 0.17406396567821503, 'learning_rate': 0.00046602094080487285, 'epoch': 0.19}
+{'loss': 1.5026, 'grad_norm': 0.14698536694049835, 'learning_rate': 0.00046591650310638655, 'epoch': 0.19}
+{'loss': 1.5399, 'grad_norm': 0.1445140689611435, 'learning_rate': 0.0004658119168945081, 'epoch': 0.19}
+{'loss': 1.4993, 'grad_norm': 0.1463565230369568, 'learning_rate': 0.0004657071822411748, 'epoch': 0.19}
+{'loss': 1.5239, 'grad_norm': 0.16090621054172516, 'learning_rate': 0.000465602299218426, 'epoch': 0.19}
+{'loss': 1.5143, 'grad_norm': 0.14390994608402252, 'learning_rate': 0.0004654972678984034, 'epoch': 0.19}
+{'loss': 1.5293, 'grad_norm': 0.1327754557132721, 'learning_rate': 0.0004653920883533502, 'epoch': 0.19}
+{'loss': 1.5162, 'grad_norm': 0.14075613021850586, 'learning_rate': 0.000465286760655612, 'epoch': 0.19}
+{'loss': 1.5054, 'grad_norm': 0.1555154025554657, 'learning_rate': 0.0004651812848776361, 'epoch': 0.2}
+{'loss': 1.5047, 'grad_norm': 0.13443316519260406, 'learning_rate': 0.00046507566109197155, 'epoch': 0.2}
+{'loss': 1.5316, 'grad_norm': 0.16379323601722717, 'learning_rate': 0.0004649698893712695, 'epoch': 0.2}
+{'loss': 1.5155, 'grad_norm': 0.14147785305976868, 'learning_rate': 0.0004648639697882826, 'epoch': 0.2}
+{'loss': 1.5415, 'grad_norm': 0.16449253261089325, 'learning_rate': 0.00046475790241586534, 'epoch': 0.2}
+{'loss': 1.5177, 'grad_norm': 0.14608073234558105, 'learning_rate': 0.0004646516873269738, 'epoch': 0.2}
+{'loss': 1.5582, 'grad_norm': 0.15615525841712952, 'learning_rate': 0.00046454532459466567, 'epoch': 0.2}
+{'loss': 1.5297, 'grad_norm': 0.14463579654693604, 'learning_rate': 0.0004644388142921003, 'epoch': 0.2}
+{'loss': 1.5145, 'grad_norm': 0.1549447774887085, 'learning_rate': 0.00046433215649253825, 'epoch': 0.2}
+{'loss': 1.5335, 'grad_norm': 0.14295414090156555, 'learning_rate': 0.00046422535126934187, 'epoch': 0.2}
+{'loss': 1.5117, 'grad_norm': 0.1483657956123352, 'learning_rate': 0.00046411839869597474, 'epoch': 0.2}
+{'loss': 1.5315, 'grad_norm': 0.1538524627685547, 'learning_rate': 0.0004640112988460018, 'epoch': 0.2}
+{'loss': 1.5509, 'grad_norm': 0.157261461019516, 'learning_rate': 0.00046390405179308936, 'epoch': 0.2}
+{'loss': 1.5015, 'grad_norm': 0.14076361060142517, 'learning_rate': 0.00046379665761100486, 'epoch': 0.2}
+{'loss': 1.5, 'grad_norm': 0.1590251922607422, 'learning_rate': 0.0004636891163736171, 'epoch': 0.2}
+{'loss': 1.5308, 'grad_norm': 0.17375335097312927, 'learning_rate': 0.0004635814281548959, 'epoch': 0.2}
+{'loss': 1.5404, 'grad_norm': 0.1821674108505249, 'learning_rate': 0.0004634735930289122, 'epoch': 0.2}
+{'loss': 1.4974, 'grad_norm': 0.15443578362464905, 'learning_rate': 0.0004633656110698381, 'epoch': 0.2}
+{'loss': 1.5378, 'grad_norm': 0.1523972451686859, 'learning_rate': 0.0004632574823519465, 'epoch': 0.2}
+{'loss': 1.5344, 'grad_norm': 0.14036336541175842, 'learning_rate': 0.0004631492069496113, 'epoch': 0.2}
+{'loss': 1.5565, 'grad_norm': 0.15225544571876526, 'learning_rate': 0.0004630407849373075, 'epoch': 0.2}
+{'loss': 1.4937, 'grad_norm': 0.11958003044128418, 'learning_rate': 0.0004629322163896107, 'epoch': 0.2}
+{'loss': 1.5242, 'grad_norm': 0.1302667111158371, 'learning_rate': 0.0004628235013811973, 'epoch': 0.2}
+{'loss': 1.5232, 'grad_norm': 0.14658135175704956, 'learning_rate': 0.0004627146399868447, 'epoch': 0.2}
+{'loss': 1.5299, 'grad_norm': 0.13792094588279724, 'learning_rate': 0.0004626056322814307, 'epoch': 0.2}
+{'loss': 1.5279, 'grad_norm': 0.17635902762413025, 'learning_rate': 0.0004624964783399338, 'epoch': 0.2}
+{'loss': 1.5278, 'grad_norm': 0.15909244120121002, 'learning_rate': 0.00046238717823743314, 'epoch': 0.2}
+{'loss': 1.5038, 'grad_norm': 0.1532612293958664, 'learning_rate': 0.0004622777320491084, 'epoch': 0.2}
+{'loss': 1.5183, 'grad_norm': 0.17084583640098572, 'learning_rate': 0.00046216813985023973, 'epoch': 0.2}
+{'loss': 1.5131, 'grad_norm': 0.15795592963695526, 'learning_rate': 0.0004620584017162077, 'epoch': 0.2}
+{'loss': 1.5216, 'grad_norm': 0.16387289762496948, 'learning_rate': 0.00046194851772249324, 'epoch': 0.2}
+{'loss': 1.524, 'grad_norm': 0.14762021601200104, 'learning_rate': 0.00046183848794467767, 'epoch': 0.2}
+{'loss': 1.542, 'grad_norm': 0.14729531109333038, 'learning_rate': 0.0004617283124584425, 'epoch': 0.2}
+{'loss': 1.5173, 'grad_norm': 0.1388666033744812, 'learning_rate': 0.00046161799133956946, 'epoch': 0.2}
+{'loss': 1.5052, 'grad_norm': 0.14776919782161713, 'learning_rate': 0.00046150752466394055, 'epoch': 0.2}
+{'loss': 1.5388, 'grad_norm': 0.14053769409656525, 'learning_rate': 0.00046139691250753783, 'epoch': 0.2}
+{'loss': 1.506, 'grad_norm': 0.13185515999794006, 'learning_rate': 0.0004612861549464434, 'epoch': 0.2}
+{'loss': 1.5198, 'grad_norm': 0.1563938707113266, 'learning_rate': 0.00046117525205683946, 'epoch': 0.2}
+{'loss': 1.5125, 'grad_norm': 0.13525272905826569, 'learning_rate': 0.00046106420391500805, 'epoch': 0.2}
+{'loss': 1.5427, 'grad_norm': 0.15394943952560425, 'learning_rate': 0.0004609530105973312, 'epoch': 0.21}
+{'loss': 1.5158, 'grad_norm': 0.15662136673927307, 'learning_rate': 0.00046084167218029073, 'epoch': 0.21}
+{'loss': 1.5356, 'grad_norm': 0.15911337733268738, 'learning_rate': 0.00046073018874046837, 'epoch': 0.21}
+{'loss': 1.5276, 'grad_norm': 0.1850365251302719, 'learning_rate': 0.0004606185603545455, 'epoch': 0.21}
+{'loss': 1.5067, 'grad_norm': 0.12718477845191956, 'learning_rate': 0.0004605067870993033, 'epoch': 0.21}
+{'loss': 1.5161, 'grad_norm': 0.17770107090473175, 'learning_rate': 0.0004603948690516224, 'epoch': 0.21}
+{'loss': 1.5154, 'grad_norm': 0.14272721111774445, 'learning_rate': 0.0004602828062884833, 'epoch': 0.21}
+{'loss': 1.5099, 'grad_norm': 0.17271600663661957, 'learning_rate': 0.00046017059888696577, 'epoch': 0.21}
+{'loss': 1.5164, 'grad_norm': 0.14753620326519012, 'learning_rate': 0.0004600582469242493, 'epoch': 0.21}
+{'loss': 1.5074, 'grad_norm': 0.15666604042053223, 'learning_rate': 0.0004599457504776127, 'epoch': 0.21}
+{'loss': 1.4985, 'grad_norm': 0.12725387513637543, 'learning_rate': 0.00045983310962443403, 'epoch': 0.21}
+{'loss': 1.5522, 'grad_norm': 0.1560787856578827, 'learning_rate': 0.00045972032444219094, 'epoch': 0.21}
+{'loss': 1.525, 'grad_norm': 0.16847248375415802, 'learning_rate': 0.00045960739500846014, 'epoch': 0.21}
+{'loss': 1.5035, 'grad_norm': 0.2018299400806427, 'learning_rate': 0.0004594943214009177, 'epoch': 0.21}
+{'loss': 1.5265, 'grad_norm': 0.14242999255657196, 'learning_rate': 0.0004593811036973389, 'epoch': 0.21}
+{'loss': 1.4863, 'grad_norm': 0.19239512085914612, 'learning_rate': 0.00045926774197559774, 'epoch': 0.21}
+{'loss': 1.5105, 'grad_norm': 0.15247942507266998, 'learning_rate': 0.0004591542363136679, 'epoch': 0.21}
+{'loss': 1.5144, 'grad_norm': 0.1750376969575882, 'learning_rate': 0.00045904058678962153, 'epoch': 0.21}
+{'loss': 1.5035, 'grad_norm': 0.1530376672744751, 'learning_rate': 0.00045892679348163003, 'epoch': 0.21}
+{'loss': 1.5279, 'grad_norm': 0.18999354541301727, 'learning_rate': 0.00045881285646796356, 'epoch': 0.21}
+{'loss': 1.5075, 'grad_norm': 0.13955427706241608, 'learning_rate': 0.00045869877582699114, 'epoch': 0.21}
+{'loss': 1.5013, 'grad_norm': 0.1711846888065338, 'learning_rate': 0.00045858455163718076, 'epoch': 0.21}
+{'loss': 1.5317, 'grad_norm': 0.12504807114601135, 'learning_rate': 0.00045847018397709896, 'epoch': 0.21}
+{'loss': 1.525, 'grad_norm': 0.15511877834796906, 'learning_rate': 0.0004583556729254109, 'epoch': 0.21}
+{'loss': 1.5191, 'grad_norm': 0.14300112426280975, 'learning_rate': 0.0004582410185608805, 'epoch': 0.21}
+{'loss': 1.511, 'grad_norm': 0.14299006760120392, 'learning_rate': 0.0004581262209623703, 'epoch': 0.21}
+{'loss': 1.5444, 'grad_norm': 0.13365311920642853, 'learning_rate': 0.0004580112802088413, 'epoch': 0.21}
+{'loss': 1.5136, 'grad_norm': 0.15373028814792633, 'learning_rate': 0.00045789619637935295, 'epoch': 0.21}
+{'loss': 1.5263, 'grad_norm': 0.12825384736061096, 'learning_rate': 0.000457780969553063, 'epoch': 0.21}
+{'loss': 1.5335, 'grad_norm': 0.14149583876132965, 'learning_rate': 0.00045766559980922784, 'epoch': 0.21}
+{'loss': 1.5388, 'grad_norm': 0.13949090242385864, 'learning_rate': 0.00045755008722720184, 'epoch': 0.21}
+{'loss': 1.4962, 'grad_norm': 0.1353805512189865, 'learning_rate': 0.00045743443188643785, 'epoch': 0.21}
+{'loss': 1.5135, 'grad_norm': 0.14255653321743011, 'learning_rate': 0.0004573186338664869, 'epoch': 0.21}
+{'loss': 1.5038, 'grad_norm': 0.1228441372513771, 'learning_rate': 0.0004572026932469979, 'epoch': 0.21}
+{'loss': 1.4873, 'grad_norm': 0.14040614664554596, 'learning_rate': 0.00045708661010771836, 'epoch': 0.21}
+{'loss': 1.5093, 'grad_norm': 0.14466919004917145, 'learning_rate': 0.0004569703845284932, 'epoch': 0.21}
+{'loss': 1.5092, 'grad_norm': 0.12749631702899933, 'learning_rate': 0.0004568540165892658, 'epoch': 0.21}
+{'loss': 1.5149, 'grad_norm': 0.1453937441110611, 'learning_rate': 0.00045673750637007714, 'epoch': 0.21}
+{'loss': 1.5159, 'grad_norm': 0.13209189474582672, 'learning_rate': 0.0004566208539510663, 'epoch': 0.21}
+{'loss': 1.5142, 'grad_norm': 0.13784630596637726, 'learning_rate': 0.00045650405941247005, 'epoch': 0.22}
+{'loss': 1.4892, 'grad_norm': 0.11284179240465164, 'learning_rate': 0.00045638712283462284, 'epoch': 0.22}
+{'loss': 1.5038, 'grad_norm': 0.1593174785375595, 'learning_rate': 0.00045627004429795706, 'epoch': 0.22}
+{'loss': 1.5206, 'grad_norm': 0.1279454529285431, 'learning_rate': 0.0004561528238830025, 'epoch': 0.22}
+{'loss': 1.5051, 'grad_norm': 0.13850180804729462, 'learning_rate': 0.00045603546167038663, 'epoch': 0.22}
+{'loss': 1.5132, 'grad_norm': 0.14450553059577942, 'learning_rate': 0.00045591795774083447, 'epoch': 0.22}
+{'loss': 1.5146, 'grad_norm': 0.16213920712471008, 'learning_rate': 0.0004558003121751685, 'epoch': 0.22}
+{'loss': 1.5383, 'grad_norm': 0.14577600359916687, 'learning_rate': 0.0004556825250543086, 'epoch': 0.22}
+{'loss': 1.5123, 'grad_norm': 0.17671515047550201, 'learning_rate': 0.00045556459645927205, 'epoch': 0.22}
+{'loss': 1.5288, 'grad_norm': 0.14061547815799713, 'learning_rate': 0.00045544652647117344, 'epoch': 0.22}
+{'loss': 1.5319, 'grad_norm': 0.16643092036247253, 'learning_rate': 0.0004553283151712246, 'epoch': 0.22}
+{'loss': 1.5246, 'grad_norm': 0.13750112056732178, 'learning_rate': 0.0004552099626407345, 'epoch': 0.22}
+{'loss': 1.5115, 'grad_norm': 0.17559483647346497, 'learning_rate': 0.00045509146896110944, 'epoch': 0.22}
+{'loss': 1.4922, 'grad_norm': 0.15756122767925262, 'learning_rate': 0.0004549728342138525, 'epoch': 0.22}
+{'loss': 1.517, 'grad_norm': 0.19823428988456726, 'learning_rate': 0.0004548540584805642, 'epoch': 0.22}
+{'loss': 1.5388, 'grad_norm': 0.1545206606388092, 'learning_rate': 0.00045473514184294153, 'epoch': 0.22}
+{'loss': 1.5145, 'grad_norm': 0.1993834376335144, 'learning_rate': 0.0004546160843827789, 'epoch': 0.22}
+{'loss': 1.5304, 'grad_norm': 0.15938067436218262, 'learning_rate': 0.00045449688618196714, 'epoch': 0.22}
+{'loss': 1.5046, 'grad_norm': 0.180556058883667, 'learning_rate': 0.00045437754732249435, 'epoch': 0.22}
+{'loss': 1.5039, 'grad_norm': 0.15141025185585022, 'learning_rate': 0.000454258067886445, 'epoch': 0.22}
+{'loss': 1.521, 'grad_norm': 0.16718891263008118, 'learning_rate': 0.00045413844795600024, 'epoch': 0.22}
+{'loss': 1.5142, 'grad_norm': 0.1314626783132553, 'learning_rate': 0.00045401868761343824, 'epoch': 0.22}
+{'loss': 1.5257, 'grad_norm': 0.14935028553009033, 'learning_rate': 0.0004538987869411333, 'epoch': 0.22}
+{'loss': 1.4986, 'grad_norm': 0.14892137050628662, 'learning_rate': 0.00045377874602155655, 'epoch': 0.22}
+{'loss': 1.4835, 'grad_norm': 0.14303992688655853, 'learning_rate': 0.00045365856493727547, 'epoch': 0.22}
+{'loss': 1.5169, 'grad_norm': 0.16853214800357819, 'learning_rate': 0.00045353824377095396, 'epoch': 0.22}
+{'loss': 1.5091, 'grad_norm': 0.14084303379058838, 'learning_rate': 0.0004534177826053523, 'epoch': 0.22}
+{'loss': 1.5097, 'grad_norm': 0.14292128384113312, 'learning_rate': 0.00045329718152332694, 'epoch': 0.22}
+{'loss': 1.5388, 'grad_norm': 0.14368018507957458, 'learning_rate': 0.00045317644060783083, 'epoch': 0.22}
+{'loss': 1.5108, 'grad_norm': 0.17607106268405914, 'learning_rate': 0.0004530555599419127, 'epoch': 0.22}
+{'loss': 1.5036, 'grad_norm': 0.1454886496067047, 'learning_rate': 0.0004529345396087179, 'epoch': 0.22}
+{'loss': 1.5248, 'grad_norm': 0.16836488246917725, 'learning_rate': 0.0004528133796914875, 'epoch': 0.22}
+{'loss': 1.5078, 'grad_norm': 0.1493697166442871, 'learning_rate': 0.00045269208027355856, 'epoch': 0.22}
+{'loss': 1.5057, 'grad_norm': 0.16775143146514893, 'learning_rate': 0.00045257064143836435, 'epoch': 0.22}
+{'loss': 1.5059, 'grad_norm': 0.1551496684551239, 'learning_rate': 0.0004524490632694338, 'epoch': 0.22}
+{'loss': 1.5058, 'grad_norm': 0.1653251200914383, 'learning_rate': 0.0004523273458503918, 'epoch': 0.22}
+{'loss': 1.5041, 'grad_norm': 0.13934645056724548, 'learning_rate': 0.00045220548926495896, 'epoch': 0.22}
+{'loss': 1.5244, 'grad_norm': 0.1703343391418457, 'learning_rate': 0.00045208349359695166, 'epoch': 0.22}
+{'loss': 1.5171, 'grad_norm': 0.1480049341917038, 'learning_rate': 0.0004519613589302819, 'epoch': 0.22}
+{'loss': 1.5412, 'grad_norm': 0.16569440066814423, 'learning_rate': 0.00045183908534895733, 'epoch': 0.23}
+{'loss': 1.5072, 'grad_norm': 0.16755560040473938, 'learning_rate': 0.0004517166729370812, 'epoch': 0.23}
+{'loss': 1.4975, 'grad_norm': 0.13305608928203583, 'learning_rate': 0.00045159412177885207, 'epoch': 0.23}
+{'loss': 1.5329, 'grad_norm': 0.1470220386981964, 'learning_rate': 0.00045147143195856397, 'epoch': 0.23}
+{'loss': 1.5327, 'grad_norm': 0.1492963582277298, 'learning_rate': 0.00045134860356060657, 'epoch': 0.23}
+{'loss': 1.5317, 'grad_norm': 0.17982333898544312, 'learning_rate': 0.00045122563666946463, 'epoch': 0.23}
+{'loss': 1.5221, 'grad_norm': 0.16081872582435608, 'learning_rate': 0.00045110253136971813, 'epoch': 0.23}
+{'loss': 1.5022, 'grad_norm': 0.1538907289505005, 'learning_rate': 0.00045097928774604233, 'epoch': 0.23}
+{'loss': 1.5154, 'grad_norm': 0.18364381790161133, 'learning_rate': 0.0004508559058832078, 'epoch': 0.23}
+{'loss': 1.4909, 'grad_norm': 0.15961705148220062, 'learning_rate': 0.0004507323858660798, 'epoch': 0.23}
+{'loss': 1.5428, 'grad_norm': 0.1699926257133484, 'learning_rate': 0.00045060872777961887, 'epoch': 0.23}
+{'loss': 1.5186, 'grad_norm': 0.12974467873573303, 'learning_rate': 0.0004504849317088806, 'epoch': 0.23}
+{'loss': 1.5223, 'grad_norm': 0.18219497799873352, 'learning_rate': 0.00045036099773901534, 'epoch': 0.23}
+{'loss': 1.5217, 'grad_norm': 0.14034134149551392, 'learning_rate': 0.0004502369259552683, 'epoch': 0.23}
+{'loss': 1.5205, 'grad_norm': 0.18162275850772858, 'learning_rate': 0.00045011271644297956, 'epoch': 0.23}
+{'loss': 1.5037, 'grad_norm': 0.12712790071964264, 'learning_rate': 0.0004499883692875839, 'epoch': 0.23}
+{'loss': 1.4979, 'grad_norm': 0.14494386315345764, 'learning_rate': 0.0004498638845746107, 'epoch': 0.23}
+{'loss': 1.5313, 'grad_norm': 0.14230360090732574, 'learning_rate': 0.000449739262389684, 'epoch': 0.23}
+{'loss': 1.5019, 'grad_norm': 0.13782113790512085, 'learning_rate': 0.00044961450281852253, 'epoch': 0.23}
+{'loss': 1.4965, 'grad_norm': 0.16186369955539703, 'learning_rate': 0.00044948960594693924, 'epoch': 0.23}
+{'loss': 1.5055, 'grad_norm': 0.15324760973453522, 'learning_rate': 0.0004493645718608418, 'epoch': 0.23}
+{'loss': 1.4876, 'grad_norm': 0.15291443467140198, 'learning_rate': 0.00044923940064623216, 'epoch': 0.23}
+{'loss': 1.5015, 'grad_norm': 0.14250412583351135, 'learning_rate': 0.0004491140923892065, 'epoch': 0.23}
+{'loss': 1.4917, 'grad_norm': 0.12823957204818726, 'learning_rate': 0.00044898864717595534, 'epoch': 0.23}
+{'loss': 1.5238, 'grad_norm': 0.14259931445121765, 'learning_rate': 0.0004488630650927634, 'epoch': 0.23}
+{'loss': 1.5029, 'grad_norm': 0.14147832989692688, 'learning_rate': 0.00044873734622600956, 'epoch': 0.23}
+{'loss': 1.5208, 'grad_norm': 0.14174573123455048, 'learning_rate': 0.0004486114906621668, 'epoch': 0.23}
+{'loss': 1.4989, 'grad_norm': 0.13309063017368317, 'learning_rate': 0.00044848549848780197, 'epoch': 0.23}
+{'loss': 1.5231, 'grad_norm': 0.14698973298072815, 'learning_rate': 0.00044835936978957603, 'epoch': 0.23}
+{'loss': 1.5337, 'grad_norm': 0.11734765022993088, 'learning_rate': 0.00044823310465424396, 'epoch': 0.23}
+{'loss': 1.4885, 'grad_norm': 0.14728328585624695, 'learning_rate': 0.0004481067031686543, 'epoch': 0.23}
+{'loss': 1.5264, 'grad_norm': 0.11884268373250961, 'learning_rate': 0.00044798016541974957, 'epoch': 0.23}
+{'loss': 1.5482, 'grad_norm': 0.15038824081420898, 'learning_rate': 0.00044785349149456587, 'epoch': 0.23}
+{'loss': 1.5105, 'grad_norm': 0.13767772912979126, 'learning_rate': 0.00044772668148023326, 'epoch': 0.23}
+{'loss': 1.5221, 'grad_norm': 0.151717409491539, 'learning_rate': 0.000447599735463975, 'epoch': 0.23}
+{'loss': 1.5212, 'grad_norm': 0.14148157835006714, 'learning_rate': 0.00044747265353310825, 'epoch': 0.23}
+{'loss': 1.528, 'grad_norm': 0.1392854005098343, 'learning_rate': 0.00044734543577504336, 'epoch': 0.23}
+{'loss': 1.5307, 'grad_norm': 0.1276719719171524, 'learning_rate': 0.0004472180822772843, 'epoch': 0.23}
+{'loss': 1.5339, 'grad_norm': 0.14660786092281342, 'learning_rate': 0.0004470905931274285, 'epoch': 0.23}
+{'loss': 1.5078, 'grad_norm': 0.13803520798683167, 'learning_rate': 0.0004469629684131664, 'epoch': 0.24}
+{'loss': 1.4867, 'grad_norm': 0.14432820677757263, 'learning_rate': 0.00044683520822228184, 'epoch': 0.24}
+{'loss': 1.5185, 'grad_norm': 0.12425001710653305, 'learning_rate': 0.0004467073126426519, 'epoch': 0.24}
+{'loss': 1.5222, 'grad_norm': 0.14464612305164337, 'learning_rate': 0.00044657928176224673, 'epoch': 0.24}
+{'loss': 1.5049, 'grad_norm': 0.12149437516927719, 'learning_rate': 0.00044645111566912944, 'epoch': 0.24}
+{'loss': 1.5244, 'grad_norm': 0.14819374680519104, 'learning_rate': 0.00044632281445145634, 'epoch': 0.24}
+{'loss': 1.5063, 'grad_norm': 0.13805055618286133, 'learning_rate': 0.0004461943781974766, 'epoch': 0.24}
+{'loss': 1.5147, 'grad_norm': 0.1426243931055069, 'learning_rate': 0.00044606580699553224, 'epoch': 0.24}
+{'loss': 1.512, 'grad_norm': 0.12581220269203186, 'learning_rate': 0.000445937100934058, 'epoch': 0.24}
+{'loss': 1.5161, 'grad_norm': 0.1500980257987976, 'learning_rate': 0.0004458082601015817, 'epoch': 0.24}
+{'loss': 1.4909, 'grad_norm': 0.1446622908115387, 'learning_rate': 0.0004456792845867235, 'epoch': 0.24}
+{'loss': 1.51, 'grad_norm': 0.14669661223888397, 'learning_rate': 0.0004455501744781964, 'epoch': 0.24}
+{'loss': 1.527, 'grad_norm': 0.12716513872146606, 'learning_rate': 0.000445420929864806, 'epoch': 0.24}
+{'loss': 1.5199, 'grad_norm': 0.12079136073589325, 'learning_rate': 0.0004452915508354503, 'epoch': 0.24}
+{'loss': 1.5125, 'grad_norm': 0.13986606895923615, 'learning_rate': 0.00044516203747911967, 'epoch': 0.24}
+{'loss': 1.5166, 'grad_norm': 0.12035858631134033, 'learning_rate': 0.00044503238988489725, 'epoch': 0.24}
+{'loss': 1.5007, 'grad_norm': 0.1409519910812378, 'learning_rate': 0.0004449026081419581, 'epoch': 0.24}
+{'loss': 1.4983, 'grad_norm': 0.12186139822006226, 'learning_rate': 0.0004447726923395698, 'epoch': 0.24}
+{'loss': 1.504, 'grad_norm': 0.1408003270626068, 'learning_rate': 0.000444642642567092, 'epoch': 0.24}
+{'loss': 1.5288, 'grad_norm': 0.1276867538690567, 'learning_rate': 0.0004445124589139767, 'epoch': 0.24}
+{'loss': 1.4995, 'grad_norm': 0.15420933067798615, 'learning_rate': 0.00044438214146976765, 'epoch': 0.24}
+{'loss': 1.4929, 'grad_norm': 0.1601075679063797, 'learning_rate': 0.00044425169032410094, 'epoch': 0.24}
+{'loss': 1.5079, 'grad_norm': 0.2005966305732727, 'learning_rate': 0.0004441211055667045, 'epoch': 0.24}
+{'loss': 1.5149, 'grad_norm': 0.15691827237606049, 'learning_rate': 0.0004439903872873982, 'epoch': 0.24}
+{'loss': 1.5126, 'grad_norm': 0.1421225666999817, 'learning_rate': 0.00044385953557609357, 'epoch': 0.24}
+{'loss': 1.5053, 'grad_norm': 0.15459716320037842, 'learning_rate': 0.00044372855052279424, 'epoch': 0.24}
+{'loss': 1.5233, 'grad_norm': 0.1643369048833847, 'learning_rate': 0.0004435974322175953, 'epoch': 0.24}
+{'loss': 1.5198, 'grad_norm': 0.16861115396022797, 'learning_rate': 0.00044346618075068357, 'epoch': 0.24}
+{'loss': 1.5158, 'grad_norm': 0.14704196155071259, 'learning_rate': 0.0004433347962123375, 'epoch': 0.24}
+{'loss': 1.5333, 'grad_norm': 0.18615873157978058, 'learning_rate': 0.00044320327869292706, 'epoch': 0.24}
+{'loss': 1.539, 'grad_norm': 0.1362057328224182, 'learning_rate': 0.00044307162828291356, 'epoch': 0.24}
+{'loss': 1.5303, 'grad_norm': 0.1789676547050476, 'learning_rate': 0.0004429398450728499, 'epoch': 0.24}
+{'loss': 1.4873, 'grad_norm': 0.14753089845180511, 'learning_rate': 0.0004428079291533803, 'epoch': 0.24}
+{'loss': 1.4806, 'grad_norm': 0.1769993156194687, 'learning_rate': 0.00044267588061524014, 'epoch': 0.24}
+{'loss': 1.4894, 'grad_norm': 0.1411038488149643, 'learning_rate': 0.00044254369954925603, 'epoch': 0.24}
+{'loss': 1.5263, 'grad_norm': 0.1601632684469223, 'learning_rate': 0.0004424113860463459, 'epoch': 0.24}
+{'loss': 1.4985, 'grad_norm': 0.13171106576919556, 'learning_rate': 0.0004422789401975187, 'epoch': 0.24}
+{'loss': 1.4844, 'grad_norm': 0.17352180182933807, 'learning_rate': 0.00044214636209387423, 'epoch': 0.24}
+{'loss': 1.5076, 'grad_norm': 0.1421157866716385, 'learning_rate': 0.0004420136518266035, 'epoch': 0.24}
+{'loss': 1.5266, 'grad_norm': 0.16624335944652557, 'learning_rate': 0.00044188080948698825, 'epoch': 0.24}
+{'loss': 1.5095, 'grad_norm': 0.14546607434749603, 'learning_rate': 0.0004417478351664013, 'epoch': 0.25}
+{'loss': 1.5165, 'grad_norm': 0.1283377856016159, 'learning_rate': 0.000441614728956306, 'epoch': 0.25}
+{'loss': 1.4956, 'grad_norm': 0.17022716999053955, 'learning_rate': 0.0004414814909482565, 'epoch': 0.25}
+{'loss': 1.51, 'grad_norm': 0.15428057312965393, 'learning_rate': 0.0004413481212338977, 'epoch': 0.25}
+{'loss': 1.5114, 'grad_norm': 0.16363736987113953, 'learning_rate': 0.00044121461990496487, 'epoch': 0.25}
+{'loss': 1.5183, 'grad_norm': 0.14196272194385529, 'learning_rate': 0.00044108098705328405, 'epoch': 0.25}
+{'loss': 1.5003, 'grad_norm': 0.18479159474372864, 'learning_rate': 0.0004409472227707716, 'epoch': 0.25}
+{'loss': 1.5052, 'grad_norm': 0.11327385902404785, 'learning_rate': 0.00044081332714943436, 'epoch': 0.25}
+{'loss': 1.5167, 'grad_norm': 0.1852351874113083, 'learning_rate': 0.00044067930028136946, 'epoch': 0.25}
+{'loss': 1.5359, 'grad_norm': 0.1354382187128067, 'learning_rate': 0.0004405451422587643, 'epoch': 0.25}
+{'loss': 1.4939, 'grad_norm': 0.1864776611328125, 'learning_rate': 0.0004404108531738965, 'epoch': 0.25}
+{'loss': 1.497, 'grad_norm': 0.14480343461036682, 'learning_rate': 0.0004402764331191339, 'epoch': 0.25}
+{'loss': 1.4874, 'grad_norm': 0.16787762939929962, 'learning_rate': 0.0004401418821869343, 'epoch': 0.25}
+{'loss': 1.5059, 'grad_norm': 0.15726500749588013, 'learning_rate': 0.00044000720046984555, 'epoch': 0.25}
+{'loss': 1.5264, 'grad_norm': 0.1671546846628189, 'learning_rate': 0.00043987238806050566, 'epoch': 0.25}
+{'loss': 1.528, 'grad_norm': 0.14609506726264954, 'learning_rate': 0.0004397374450516421, 'epoch': 0.25}
+{'loss': 1.5157, 'grad_norm': 0.16779494285583496, 'learning_rate': 0.0004396023715360727, 'epoch': 0.25}
+{'loss': 1.5098, 'grad_norm': 0.15373583137989044, 'learning_rate': 0.0004394671676067047, 'epoch': 0.25}
+{'loss': 1.5269, 'grad_norm': 0.13828116655349731, 'learning_rate': 0.00043933183335653504, 'epoch': 0.25}
+{'loss': 1.5352, 'grad_norm': 0.15864551067352295, 'learning_rate': 0.00043919636887865043, 'epoch': 0.25}
+{'loss': 1.5097, 'grad_norm': 0.14628078043460846, 'learning_rate': 0.0004390607742662272, 'epoch': 0.25}
+{'loss': 1.5047, 'grad_norm': 0.1395779401063919, 'learning_rate': 0.000438925049612531, 'epoch': 0.25}
+{'loss': 1.4929, 'grad_norm': 0.15088793635368347, 'learning_rate': 0.0004387891950109171, 'epoch': 0.25}
+{'loss': 1.5142, 'grad_norm': 0.14096859097480774, 'learning_rate': 0.0004386532105548301, 'epoch': 0.25}
+{'loss': 1.5035, 'grad_norm': 0.14785708487033844, 'learning_rate': 0.0004385170963378039, 'epoch': 0.25}
+{'loss': 1.505, 'grad_norm': 0.12838153541088104, 'learning_rate': 0.0004383808524534615, 'epoch': 0.25}
+{'loss': 1.5139, 'grad_norm': 0.1731770634651184, 'learning_rate': 0.00043824447899551547, 'epoch': 0.25}
+{'loss': 1.5203, 'grad_norm': 0.12523014843463898, 'learning_rate': 0.0004381079760577671, 'epoch': 0.25}
+{'loss': 1.5108, 'grad_norm': 0.17194300889968872, 'learning_rate': 0.0004379713437341071, 'epoch': 0.25}
+{'loss': 1.5086, 'grad_norm': 0.13415254652500153, 'learning_rate': 0.0004378345821185148, 'epoch': 0.25}
+{'loss': 1.5039, 'grad_norm': 0.17043402791023254, 'learning_rate': 0.00043769769130505863, 'epoch': 0.25}
+{'loss': 1.5165, 'grad_norm': 0.15554453432559967, 'learning_rate': 0.00043756067138789616, 'epoch': 0.25}
+{'loss': 1.489, 'grad_norm': 0.18112674355506897, 'learning_rate': 0.00043742352246127334, 'epoch': 0.25}
+{'loss': 1.5124, 'grad_norm': 0.14449088275432587, 'learning_rate': 0.00043728624461952505, 'epoch': 0.25}
+{'loss': 1.5235, 'grad_norm': 0.15086983144283295, 'learning_rate': 0.00043714883795707476, 'epoch': 0.25}
+{'loss': 1.512, 'grad_norm': 0.15440891683101654, 'learning_rate': 0.0004370113025684347, 'epoch': 0.25}
+{'loss': 1.5219, 'grad_norm': 0.13231073319911957, 'learning_rate': 0.0004368736385482056, 'epoch': 0.25}
+{'loss': 1.5239, 'grad_norm': 0.14334967732429504, 'learning_rate': 0.0004367358459910764, 'epoch': 0.25}
+{'loss': 1.5146, 'grad_norm': 0.12879954278469086, 'learning_rate': 0.00043659792499182483, 'epoch': 0.25}
+{'loss': 1.5208, 'grad_norm': 0.14811287820339203, 'learning_rate': 0.0004364598756453167, 'epoch': 0.26}
+{'loss': 1.4966, 'grad_norm': 0.14748196303844452, 'learning_rate': 0.00043632169804650627, 'epoch': 0.26}
+{'loss': 1.5131, 'grad_norm': 0.129947692155838, 'learning_rate': 0.00043618339229043596, 'epoch': 0.26}
+{'loss': 1.4997, 'grad_norm': 0.1313713788986206, 'learning_rate': 0.00043604495847223627, 'epoch': 0.26}
+{'loss': 1.5084, 'grad_norm': 0.13062988221645355, 'learning_rate': 0.0004359063966871259, 'epoch': 0.26}
+{'loss': 1.4837, 'grad_norm': 0.1290644109249115, 'learning_rate': 0.0004357677070304115, 'epoch': 0.26}
+{'loss': 1.5169, 'grad_norm': 0.13398520648479462, 'learning_rate': 0.0004356288895974876, 'epoch': 0.26}
+{'loss': 1.4823, 'grad_norm': 0.13483352959156036, 'learning_rate': 0.00043548994448383674, 'epoch': 0.26}
+{'loss': 1.5178, 'grad_norm': 0.14428840577602386, 'learning_rate': 0.0004353508717850293, 'epoch': 0.26}
+{'loss': 1.4909, 'grad_norm': 0.13517150282859802, 'learning_rate': 0.00043521167159672335, 'epoch': 0.26}
+{'loss': 1.5029, 'grad_norm': 0.13966047763824463, 'learning_rate': 0.0004350723440146646, 'epoch': 0.26}
+{'loss': 1.5086, 'grad_norm': 0.13895411789417267, 'learning_rate': 0.0004349328891346865, 'epoch': 0.26}
+{'loss': 1.507, 'grad_norm': 0.14558281004428864, 'learning_rate': 0.00043479330705271, 'epoch': 0.26}
+{'loss': 1.5061, 'grad_norm': 0.15468668937683105, 'learning_rate': 0.0004346535978647435, 'epoch': 0.26}
+{'loss': 1.5367, 'grad_norm': 0.14222422242164612, 'learning_rate': 0.00043451376166688297, 'epoch': 0.26}
+{'loss': 1.4948, 'grad_norm': 0.15773870050907135, 'learning_rate': 0.00043437379855531155, 'epoch': 0.26}
+{'loss': 1.4981, 'grad_norm': 0.12410983443260193, 'learning_rate': 0.00043423370862629985, 'epoch': 0.26}
+{'loss': 1.5156, 'grad_norm': 0.16389378905296326, 'learning_rate': 0.0004340934919762055, 'epoch': 0.26}
+{'loss': 1.4975, 'grad_norm': 0.11546159535646439, 'learning_rate': 0.0004339531487014736, 'epoch': 0.26}
+{'loss': 1.508, 'grad_norm': 0.16927069425582886, 'learning_rate': 0.0004338126788986361, 'epoch': 0.26}
+{'loss': 1.5123, 'grad_norm': 0.12127456814050674, 'learning_rate': 0.0004336720826643119, 'epoch': 0.26}
+{'loss': 1.5154, 'grad_norm': 0.15384460985660553, 'learning_rate': 0.0004335313600952072, 'epoch': 0.26}
+{'loss': 1.4937, 'grad_norm': 0.11871682107448578, 'learning_rate': 0.0004333905112881149, 'epoch': 0.26}
+{'loss': 1.5117, 'grad_norm': 0.1385493129491806, 'learning_rate': 0.00043324953633991467, 'epoch': 0.26}
+{'loss': 1.5275, 'grad_norm': 0.12814369797706604, 'learning_rate': 0.000433108435347573, 'epoch': 0.26}
+{'loss': 1.468, 'grad_norm': 0.13850393891334534, 'learning_rate': 0.0004329672084081431, 'epoch': 0.26}
+{'loss': 1.4858, 'grad_norm': 0.12853999435901642, 'learning_rate': 0.0004328258556187649, 'epoch': 0.26}
+{'loss': 1.5014, 'grad_norm': 0.17354974150657654, 'learning_rate': 0.0004326843770766645, 'epoch': 0.26}
+{'loss': 1.4941, 'grad_norm': 0.12390262633562088, 'learning_rate': 0.0004325427728791552, 'epoch': 0.26}
+{'loss': 1.505, 'grad_norm': 0.15390309691429138, 'learning_rate': 0.000432401043123636, 'epoch': 0.26}
+{'loss': 1.4836, 'grad_norm': 0.14768502116203308, 'learning_rate': 0.00043225918790759275, 'epoch': 0.26}
+{'loss': 1.5022, 'grad_norm': 0.15116222202777863, 'learning_rate': 0.00043211720732859725, 'epoch': 0.26}
+{'loss': 1.5001, 'grad_norm': 0.16050706803798676, 'learning_rate': 0.00043197510148430785, 'epoch': 0.26}
+{'loss': 1.4893, 'grad_norm': 0.13507327437400818, 'learning_rate': 0.0004318328704724689, 'epoch': 0.26}
+{'loss': 1.5247, 'grad_norm': 0.18303531408309937, 'learning_rate': 0.00043169051439091076, 'epoch': 0.26}
+{'loss': 1.4992, 'grad_norm': 0.14238381385803223, 'learning_rate': 0.0004315480333375501, 'epoch': 0.26}
+{'loss': 1.5184, 'grad_norm': 0.1534160077571869, 'learning_rate': 0.00043140542741038914, 'epoch': 0.26}
+{'loss': 1.531, 'grad_norm': 0.15558108687400818, 'learning_rate': 0.0004312626967075164, 'epoch': 0.26}
+{'loss': 1.5162, 'grad_norm': 0.14442884922027588, 'learning_rate': 0.00043111984132710585, 'epoch': 0.26}
+{'loss': 1.5153, 'grad_norm': 0.14737559854984283, 'learning_rate': 0.0004309768613674175, 'epoch': 0.27}
+{'loss': 1.504, 'grad_norm': 0.15737415850162506, 'learning_rate': 0.00043083375692679705, 'epoch': 0.27}
+{'loss': 1.4834, 'grad_norm': 0.13108007609844208, 'learning_rate': 0.0004306905281036756, 'epoch': 0.27}
+{'loss': 1.4896, 'grad_norm': 0.15105567872524261, 'learning_rate': 0.0004305471749965699, 'epoch': 0.27}
+{'loss': 1.5191, 'grad_norm': 0.13337279856204987, 'learning_rate': 0.0004304036977040824, 'epoch': 0.27}
+{'loss': 1.5039, 'grad_norm': 0.1505054235458374, 'learning_rate': 0.0004302600963249006, 'epoch': 0.27}
+{'loss': 1.4867, 'grad_norm': 0.12845849990844727, 'learning_rate': 0.00043011637095779755, 'epoch': 0.27}
+{'loss': 1.5193, 'grad_norm': 0.13041214644908905, 'learning_rate': 0.00042997252170163164, 'epoch': 0.27}
+{'loss': 1.4984, 'grad_norm': 0.1436012089252472, 'learning_rate': 0.0004298285486553464, 'epoch': 0.27}
+{'loss': 1.5064, 'grad_norm': 0.12657567858695984, 'learning_rate': 0.00042968445191797044, 'epoch': 0.27}
+{'loss': 1.5166, 'grad_norm': 0.14406515657901764, 'learning_rate': 0.0004295402315886176, 'epoch': 0.27}
+{'loss': 1.5182, 'grad_norm': 0.150679811835289, 'learning_rate': 0.0004293958877664865, 'epoch': 0.27}
+{'loss': 1.5096, 'grad_norm': 0.1404978185892105, 'learning_rate': 0.0004292514205508611, 'epoch': 0.27}
+{'loss': 1.5051, 'grad_norm': 0.14601033926010132, 'learning_rate': 0.0004291068300411097, 'epoch': 0.27}
+{'loss': 1.493, 'grad_norm': 0.12891697883605957, 'learning_rate': 0.0004289621163366858, 'epoch': 0.27}
+{'loss': 1.5104, 'grad_norm': 0.12980610132217407, 'learning_rate': 0.00042881727953712756, 'epoch': 0.27}
+{'loss': 1.4751, 'grad_norm': 0.13445952534675598, 'learning_rate': 0.00042867231974205776, 'epoch': 0.27}
+{'loss': 1.499, 'grad_norm': 0.12668882310390472, 'learning_rate': 0.00042852723705118375, 'epoch': 0.27}
+{'loss': 1.4998, 'grad_norm': 0.13321858644485474, 'learning_rate': 0.00042838203156429745, 'epoch': 0.27}
+{'loss': 1.5058, 'grad_norm': 0.13992203772068024, 'learning_rate': 0.0004282367033812753, 'epoch': 0.27}
+{'loss': 1.5045, 'grad_norm': 0.15030714869499207, 'learning_rate': 0.000428091252602078, 'epoch': 0.27}
+{'loss': 1.4792, 'grad_norm': 0.13707506656646729, 'learning_rate': 0.00042794567932675066, 'epoch': 0.27}
+{'loss': 1.5076, 'grad_norm': 0.16044405102729797, 'learning_rate': 0.0004277999836554227, 'epoch': 0.27}
+{'loss': 1.5009, 'grad_norm': 0.13492755591869354, 'learning_rate': 0.00042765416568830766, 'epoch': 0.27}
+{'loss': 1.4765, 'grad_norm': 0.1437803953886032, 'learning_rate': 0.0004275082255257032, 'epoch': 0.27}
+{'loss': 1.4944, 'grad_norm': 0.13443779945373535, 'learning_rate': 0.00042736216326799096, 'epoch': 0.27}
+{'loss': 1.5284, 'grad_norm': 0.11858925968408585, 'learning_rate': 0.0004272159790156367, 'epoch': 0.27}
+{'loss': 1.4981, 'grad_norm': 0.12773866951465607, 'learning_rate': 0.00042706967286918997, 'epoch': 0.27}
+{'loss': 1.5098, 'grad_norm': 0.13519059121608734, 'learning_rate': 0.0004269232449292843, 'epoch': 0.27}
+{'loss': 1.5008, 'grad_norm': 0.1425517201423645, 'learning_rate': 0.00042677669529663686, 'epoch': 0.27}
+{'loss': 1.5051, 'grad_norm': 0.15267065167427063, 'learning_rate': 0.00042663002407204866, 'epoch': 0.27}
+{'loss': 1.476, 'grad_norm': 0.14005914330482483, 'learning_rate': 0.0004264832313564041, 'epoch': 0.27}
+{'loss': 1.4806, 'grad_norm': 0.13937880098819733, 'learning_rate': 0.0004263363172506714, 'epoch': 0.27}
+{'loss': 1.485, 'grad_norm': 0.14176198840141296, 'learning_rate': 0.0004261892818559021, 'epoch': 0.27}
+{'loss': 1.5014, 'grad_norm': 0.13341598212718964, 'learning_rate': 0.0004260421252732314, 'epoch': 0.27}
+{'loss': 1.4994, 'grad_norm': 0.14179302752017975, 'learning_rate': 0.00042589484760387767, 'epoch': 0.27}
+{'loss': 1.5339, 'grad_norm': 0.1526114046573639, 'learning_rate': 0.00042574744894914243, 'epoch': 0.27}
+{'loss': 1.5077, 'grad_norm': 0.15393616259098053, 'learning_rate': 0.0004255999294104107, 'epoch': 0.27}
+{'loss': 1.4995, 'grad_norm': 0.1291065216064453, 'learning_rate': 0.00042545228908915056, 'epoch': 0.27}
+{'loss': 1.5084, 'grad_norm': 0.16835814714431763, 'learning_rate': 0.0004253045280869131, 'epoch': 0.28}
+{'loss': 1.5074, 'grad_norm': 0.1314914971590042, 'learning_rate': 0.0004251566465053325, 'epoch': 0.28}
+{'loss': 1.4894, 'grad_norm': 0.1560802310705185, 'learning_rate': 0.00042500864444612574, 'epoch': 0.28}
+{'loss': 1.505, 'grad_norm': 0.1520756483078003, 'learning_rate': 0.0004248605220110929, 'epoch': 0.28}
+{'loss': 1.4841, 'grad_norm': 0.16586805880069733, 'learning_rate': 0.00042471227930211653, 'epoch': 0.28}
+{'loss': 1.5072, 'grad_norm': 0.15953098237514496, 'learning_rate': 0.0004245639164211623, 'epoch': 0.28}
+{'loss': 1.5068, 'grad_norm': 0.15061917901039124, 'learning_rate': 0.0004244154334702782, 'epoch': 0.28}
+{'loss': 1.5131, 'grad_norm': 0.15205104649066925, 'learning_rate': 0.0004242668305515951, 'epoch': 0.28}
+{'loss': 1.5381, 'grad_norm': 0.15918029844760895, 'learning_rate': 0.00042411810776732606, 'epoch': 0.28}
+{'loss': 1.5205, 'grad_norm': 0.13715288043022156, 'learning_rate': 0.0004239692652197668, 'epoch': 0.28}
+{'loss': 1.4834, 'grad_norm': 0.14696817100048065, 'learning_rate': 0.00042382030301129546, 'epoch': 0.28}
+{'loss': 1.5261, 'grad_norm': 0.1554773896932602, 'learning_rate': 0.0004236712212443723, 'epoch': 0.28}
+{'loss': 1.5032, 'grad_norm': 0.16388487815856934, 'learning_rate': 0.00042352202002154005, 'epoch': 0.28}
+{'loss': 1.5058, 'grad_norm': 0.13906392455101013, 'learning_rate': 0.0004233726994454232, 'epoch': 0.28}
+{'loss': 1.5226, 'grad_norm': 0.15125559270381927, 'learning_rate': 0.000423223259618729, 'epoch': 0.28}
+{'loss': 1.503, 'grad_norm': 0.1360579878091812, 'learning_rate': 0.000423073700644246, 'epoch': 0.28}
+{'loss': 1.5027, 'grad_norm': 0.16031977534294128, 'learning_rate': 0.00042292402262484517, 'epoch': 0.28}
+{'loss': 1.5043, 'grad_norm': 0.14019928872585297, 'learning_rate': 0.0004227742256634792, 'epoch': 0.28}
+{'loss': 1.4921, 'grad_norm': 0.15592500567436218, 'learning_rate': 0.0004226243098631826, 'epoch': 0.28}
+{'loss': 1.5117, 'grad_norm': 0.1314195841550827, 'learning_rate': 0.00042247427532707174, 'epoch': 0.28}
+{'loss': 1.5069, 'grad_norm': 0.15312975645065308, 'learning_rate': 0.00042232412215834444, 'epoch': 0.28}
+{'loss': 1.4902, 'grad_norm': 0.12725891172885895, 'learning_rate': 0.00042217385046028024, 'epoch': 0.28}
+{'loss': 1.4972, 'grad_norm': 0.14373154938220978, 'learning_rate': 0.00042202346033624026, 'epoch': 0.28}
+{'loss': 1.5017, 'grad_norm': 0.13489405810832977, 'learning_rate': 0.0004218729518896671, 'epoch': 0.28}
+{'loss': 1.5197, 'grad_norm': 0.12930157780647278, 'learning_rate': 0.0004217223252240845, 'epoch': 0.28}
+{'loss': 1.5004, 'grad_norm': 0.16371917724609375, 'learning_rate': 0.00042157158044309775, 'epoch': 0.28}
+{'loss': 1.5053, 'grad_norm': 0.13788215816020966, 'learning_rate': 0.00042142071765039325, 'epoch': 0.28}
+{'loss': 1.5078, 'grad_norm': 0.15158264338970184, 'learning_rate': 0.0004212697369497388, 'epoch': 0.28}
+{'loss': 1.5187, 'grad_norm': 0.12375736236572266, 'learning_rate': 0.00042111863844498297, 'epoch': 0.28}
+{'loss': 1.503, 'grad_norm': 0.13933511078357697, 'learning_rate': 0.0004209674222400557, 'epoch': 0.28}
+{'loss': 1.4961, 'grad_norm': 0.14759129285812378, 'learning_rate': 0.00042081608843896754, 'epoch': 0.28}
+{'loss': 1.499, 'grad_norm': 0.14843983948230743, 'learning_rate': 0.00042066463714581013, 'epoch': 0.28}
+{'loss': 1.5152, 'grad_norm': 0.13094505667686462, 'learning_rate': 0.000420513068464756, 'epoch': 0.28}
+{'loss': 1.4932, 'grad_norm': 0.12978114187717438, 'learning_rate': 0.00042036138250005817, 'epoch': 0.28}
+{'loss': 1.5264, 'grad_norm': 0.14513641595840454, 'learning_rate': 0.00042020957935605066, 'epoch': 0.28}
+{'loss': 1.4799, 'grad_norm': 0.14852330088615417, 'learning_rate': 0.0004200576591371477, 'epoch': 0.28}
+{'loss': 1.5136, 'grad_norm': 0.1502557098865509, 'learning_rate': 0.00041990562194784434, 'epoch': 0.28}
+{'loss': 1.498, 'grad_norm': 0.13863146305084229, 'learning_rate': 0.0004197534678927161, 'epoch': 0.28}
+{'loss': 1.4879, 'grad_norm': 0.13771362602710724, 'learning_rate': 0.0004196011970764186, 'epoch': 0.28}
+{'loss': 1.4996, 'grad_norm': 0.12851235270500183, 'learning_rate': 0.000419448809603688, 'epoch': 0.29}
+{'loss': 1.4947, 'grad_norm': 0.1418437659740448, 'learning_rate': 0.00041929630557934085, 'epoch': 0.29}
+{'loss': 1.5312, 'grad_norm': 0.15982869267463684, 'learning_rate': 0.0004191436851082735, 'epoch': 0.29}
+{'loss': 1.4908, 'grad_norm': 0.11551675200462341, 'learning_rate': 0.00041899094829546244, 'epoch': 0.29}
+{'loss': 1.5013, 'grad_norm': 0.13819213211536407, 'learning_rate': 0.0004188380952459646, 'epoch': 0.29}
+{'loss': 1.495, 'grad_norm': 0.12752963602542877, 'learning_rate': 0.0004186851260649164, 'epoch': 0.29}
+{'loss': 1.5327, 'grad_norm': 0.1261989027261734, 'learning_rate': 0.00041853204085753426, 'epoch': 0.29}
+{'loss': 1.513, 'grad_norm': 0.132036492228508, 'learning_rate': 0.00041837883972911454, 'epoch': 0.29}
+{'loss': 1.4985, 'grad_norm': 0.13792619109153748, 'learning_rate': 0.00041822552278503335, 'epoch': 0.29}
+{'loss': 1.516, 'grad_norm': 0.12551935017108917, 'learning_rate': 0.0004180720901307461, 'epoch': 0.29}
+{'loss': 1.4921, 'grad_norm': 0.15903136134147644, 'learning_rate': 0.0004179185418717883, 'epoch': 0.29}
+{'loss': 1.5181, 'grad_norm': 0.12548445165157318, 'learning_rate': 0.00041776487811377456, 'epoch': 0.29}
+{'loss': 1.4924, 'grad_norm': 0.1253627985715866, 'learning_rate': 0.00041761109896239917, 'epoch': 0.29}
+{'loss': 1.5353, 'grad_norm': 0.14158746600151062, 'learning_rate': 0.0004174572045234357, 'epoch': 0.29}
+{'loss': 1.5225, 'grad_norm': 0.1207164078950882, 'learning_rate': 0.00041730319490273707, 'epoch': 0.29}
+{'loss': 1.4946, 'grad_norm': 0.13510346412658691, 'learning_rate': 0.00041714907020623537, 'epoch': 0.29}
+{'loss': 1.4939, 'grad_norm': 0.15878677368164062, 'learning_rate': 0.0004169948305399418, 'epoch': 0.29}
+{'loss': 1.5221, 'grad_norm': 0.11904986947774887, 'learning_rate': 0.00041684047600994676, 'epoch': 0.29}
+{'loss': 1.4984, 'grad_norm': 0.1515558660030365, 'learning_rate': 0.00041668600672241975, 'epoch': 0.29}
+{'loss': 1.4849, 'grad_norm': 0.14704394340515137, 'learning_rate': 0.00041653142278360873, 'epoch': 0.29}
+{'loss': 1.5111, 'grad_norm': 0.11329121887683868, 'learning_rate': 0.00041637672429984106, 'epoch': 0.29}
+{'loss': 1.502, 'grad_norm': 0.1370634287595749, 'learning_rate': 0.00041622191137752275, 'epoch': 0.29}
+{'loss': 1.5078, 'grad_norm': 0.12428833544254303, 'learning_rate': 0.0004160669841231382, 'epoch': 0.29}
+{'loss': 1.4857, 'grad_norm': 0.14362196624279022, 'learning_rate': 0.0004159119426432509, 'epoch': 0.29}
+{'loss': 1.5256, 'grad_norm': 0.13541872799396515, 'learning_rate': 0.0004157567870445026, 'epoch': 0.29}
+{'loss': 1.4954, 'grad_norm': 0.10688657313585281, 'learning_rate': 0.0004156015174336136, 'epoch': 0.29}
+{'loss': 1.5056, 'grad_norm': 0.12357503175735474, 'learning_rate': 0.00041544613391738286, 'epoch': 0.29}
+{'loss': 1.494, 'grad_norm': 0.1181705892086029, 'learning_rate': 0.0004152906366026873, 'epoch': 0.29}
+{'loss': 1.4938, 'grad_norm': 0.13839974999427795, 'learning_rate': 0.0004151350255964824, 'epoch': 0.29}
+{'loss': 1.5025, 'grad_norm': 0.11773887276649475, 'learning_rate': 0.00041497930100580177, 'epoch': 0.29}
+{'loss': 1.5153, 'grad_norm': 0.14086399972438812, 'learning_rate': 0.00041482346293775707, 'epoch': 0.29}
+{'loss': 1.5148, 'grad_norm': 0.11748314648866653, 'learning_rate': 0.00041466751149953806, 'epoch': 0.29}
+{'loss': 1.5143, 'grad_norm': 0.16667312383651733, 'learning_rate': 0.0004145114467984126, 'epoch': 0.29}
+{'loss': 1.5022, 'grad_norm': 0.13218821585178375, 'learning_rate': 0.00041435526894172624, 'epoch': 0.29}
+{'loss': 1.513, 'grad_norm': 0.14318087697029114, 'learning_rate': 0.0004141989780369025, 'epoch': 0.29}
+{'loss': 1.5105, 'grad_norm': 0.15475404262542725, 'learning_rate': 0.0004140425741914426, 'epoch': 0.29}
+{'loss': 1.5247, 'grad_norm': 0.14847339689731598, 'learning_rate': 0.0004138860575129254, 'epoch': 0.29}
+{'loss': 1.5135, 'grad_norm': 0.16054020822048187, 'learning_rate': 0.00041372942810900766, 'epoch': 0.29}
+{'loss': 1.5119, 'grad_norm': 0.1434667706489563, 'learning_rate': 0.00041357268608742317, 'epoch': 0.29}
+{'loss': 1.5013, 'grad_norm': 0.15246275067329407, 'learning_rate': 0.0004134158315559837, 'epoch': 0.3}
+{'loss': 1.5248, 'grad_norm': 0.13307641446590424, 'learning_rate': 0.0004132588646225781, 'epoch': 0.3}
+{'loss': 1.5066, 'grad_norm': 0.12149671465158463, 'learning_rate': 0.0004131017853951725, 'epoch': 0.3}
+{'loss': 1.4973, 'grad_norm': 0.1410045027732849, 'learning_rate': 0.00041294459398181046, 'epoch': 0.3}
+{'loss': 1.5317, 'grad_norm': 0.1276780068874359, 'learning_rate': 0.0004127872904906126, 'epoch': 0.3}
+{'loss': 1.5171, 'grad_norm': 0.12048286944627762, 'learning_rate': 0.0004126298750297767, 'epoch': 0.3}
+{'loss': 1.4836, 'grad_norm': 0.1286637783050537, 'learning_rate': 0.00041247234770757735, 'epoch': 0.3}
+{'loss': 1.5115, 'grad_norm': 0.11428478360176086, 'learning_rate': 0.00041231470863236643, 'epoch': 0.3}
+{'loss': 1.5413, 'grad_norm': 0.1289650946855545, 'learning_rate': 0.0004121569579125724, 'epoch': 0.3}
+{'loss': 1.5115, 'grad_norm': 0.12330873310565948, 'learning_rate': 0.0004119990956567006, 'epoch': 0.3}
+{'loss': 1.5012, 'grad_norm': 0.13162140548229218, 'learning_rate': 0.0004118411219733331, 'epoch': 0.3}
+{'loss': 1.5039, 'grad_norm': 0.14208726584911346, 'learning_rate': 0.0004116830369711286, 'epoch': 0.3}
+{'loss': 1.5179, 'grad_norm': 0.15048760175704956, 'learning_rate': 0.00041152484075882245, 'epoch': 0.3}
+{'loss': 1.4894, 'grad_norm': 0.14492860436439514, 'learning_rate': 0.00041136653344522634, 'epoch': 0.3}
+{'loss': 1.498, 'grad_norm': 0.13663296401500702, 'learning_rate': 0.0004112081151392283, 'epoch': 0.3}
+{'loss': 1.5076, 'grad_norm': 0.13749994337558746, 'learning_rate': 0.00041104958594979327, 'epoch': 0.3}
+{'loss': 1.517, 'grad_norm': 0.14601747691631317, 'learning_rate': 0.0004108909459859616, 'epoch': 0.3}
+{'loss': 1.5305, 'grad_norm': 0.16018950939178467, 'learning_rate': 0.00041073219535685057, 'epoch': 0.3}
+{'loss': 1.492, 'grad_norm': 0.12511038780212402, 'learning_rate': 0.00041057333417165315, 'epoch': 0.3}
+{'loss': 1.4955, 'grad_norm': 0.13461054861545563, 'learning_rate': 0.0004104143625396386, 'epoch': 0.3}
+{'loss': 1.4918, 'grad_norm': 0.14820660650730133, 'learning_rate': 0.00041025528057015196, 'epoch': 0.3}
+{'loss': 1.525, 'grad_norm': 0.14743395149707794, 'learning_rate': 0.0004100960883726142, 'epoch': 0.3}
+{'loss': 1.5056, 'grad_norm': 0.15546086430549622, 'learning_rate': 0.0004099367860565223, 'epoch': 0.3}
+{'loss': 1.5023, 'grad_norm': 0.17244112491607666, 'learning_rate': 0.00040977737373144873, 'epoch': 0.3}
+{'loss': 1.4953, 'grad_norm': 0.16672462224960327, 'learning_rate': 0.0004096178515070418, 'epoch': 0.3}
+{'loss': 1.4916, 'grad_norm': 0.18372736871242523, 'learning_rate': 0.0004094582194930253, 'epoch': 0.3}
+{'loss': 1.4938, 'grad_norm': 0.16305702924728394, 'learning_rate': 0.00040929847779919853, 'epoch': 0.3}
+{'loss': 1.5117, 'grad_norm': 0.1443578451871872, 'learning_rate': 0.0004091386265354364, 'epoch': 0.3}
+{'loss': 1.4939, 'grad_norm': 0.15630921721458435, 'learning_rate': 0.000408978665811689, 'epoch': 0.3}
+{'loss': 1.4958, 'grad_norm': 0.15077073872089386, 'learning_rate': 0.00040881859573798176, 'epoch': 0.3}
+{'loss': 1.5172, 'grad_norm': 0.14677894115447998, 'learning_rate': 0.00040865841642441524, 'epoch': 0.3}
+{'loss': 1.4999, 'grad_norm': 0.16651101410388947, 'learning_rate': 0.0004084981279811656, 'epoch': 0.3}
+{'loss': 1.4935, 'grad_norm': 0.11966177076101303, 'learning_rate': 0.0004083377305184833, 'epoch': 0.3}
+{'loss': 1.5419, 'grad_norm': 0.1510651856660843, 'learning_rate': 0.0004081772241466944, 'epoch': 0.3}
+{'loss': 1.5111, 'grad_norm': 0.12809836864471436, 'learning_rate': 0.00040801660897619963, 'epoch': 0.3}
+{'loss': 1.5176, 'grad_norm': 0.14031186699867249, 'learning_rate': 0.00040785588511747453, 'epoch': 0.3}
+{'loss': 1.4907, 'grad_norm': 0.12406676262617111, 'learning_rate': 0.00040769505268106943, 'epoch': 0.3}
+{'loss': 1.4906, 'grad_norm': 0.14711199700832367, 'learning_rate': 0.0004075341117776095, 'epoch': 0.3}
+{'loss': 1.5167, 'grad_norm': 0.1314798891544342, 'learning_rate': 0.00040737306251779426, 'epoch': 0.3}
+{'loss': 1.5214, 'grad_norm': 0.1434740424156189, 'learning_rate': 0.000407211905012398, 'epoch': 0.31}
+{'loss': 1.5035, 'grad_norm': 0.12523551285266876, 'learning_rate': 0.00040705063937226916, 'epoch': 0.31}
+{'loss': 1.4826, 'grad_norm': 0.13232092559337616, 'learning_rate': 0.00040688926570833095, 'epoch': 0.31}
+{'loss': 1.5017, 'grad_norm': 0.1418338119983673, 'learning_rate': 0.00040672778413158053, 'epoch': 0.31}
+{'loss': 1.5022, 'grad_norm': 0.12821970880031586, 'learning_rate': 0.00040656619475308944, 'epoch': 0.31}
+{'loss': 1.5155, 'grad_norm': 0.149588942527771, 'learning_rate': 0.0004064044976840035, 'epoch': 0.31}
+{'loss': 1.5013, 'grad_norm': 0.12125970423221588, 'learning_rate': 0.0004062426930355423, 'epoch': 0.31}
+{'loss': 1.488, 'grad_norm': 0.18059340119361877, 'learning_rate': 0.0004060807809189997, 'epoch': 0.31}
+{'loss': 1.526, 'grad_norm': 0.12266339361667633, 'learning_rate': 0.0004059187614457432, 'epoch': 0.31}
+{'loss': 1.4936, 'grad_norm': 0.16249829530715942, 'learning_rate': 0.0004057566347272146, 'epoch': 0.31}
+{'loss': 1.5026, 'grad_norm': 0.12289897352457047, 'learning_rate': 0.00040559440087492896, 'epoch': 0.31}
+{'loss': 1.494, 'grad_norm': 0.14613789319992065, 'learning_rate': 0.0004054320600004753, 'epoch': 0.31}
+{'loss': 1.4953, 'grad_norm': 0.14471881091594696, 'learning_rate': 0.00040526961221551617, 'epoch': 0.31}
+{'loss': 1.4995, 'grad_norm': 0.13531172275543213, 'learning_rate': 0.0004051070576317877, 'epoch': 0.31}
+{'loss': 1.4964, 'grad_norm': 0.13856293261051178, 'learning_rate': 0.0004049443963610996, 'epoch': 0.31}
+{'loss': 1.5045, 'grad_norm': 0.13756193220615387, 'learning_rate': 0.0004047816285153346, 'epoch': 0.31}
+{'loss': 1.4954, 'grad_norm': 0.13989827036857605, 'learning_rate': 0.0004046187542064491, 'epoch': 0.31}
+{'loss': 1.5086, 'grad_norm': 0.1285998672246933, 'learning_rate': 0.0004044557735464726, 'epoch': 0.31}
+{'loss': 1.4973, 'grad_norm': 0.15206174552440643, 'learning_rate': 0.00040429268664750773, 'epoch': 0.31}
+{'loss': 1.5058, 'grad_norm': 0.13847015798091888, 'learning_rate': 0.00040412949362173017, 'epoch': 0.31}
+{'loss': 1.52, 'grad_norm': 0.12865003943443298, 'learning_rate': 0.0004039661945813886, 'epoch': 0.31}
+{'loss': 1.4956, 'grad_norm': 0.1452648788690567, 'learning_rate': 0.0004038027896388048, 'epoch': 0.31}
+{'loss': 1.4853, 'grad_norm': 0.129766047000885, 'learning_rate': 0.0004036392789063731, 'epoch': 0.31}
+{'loss': 1.4916, 'grad_norm': 0.11121848970651627, 'learning_rate': 0.0004034756624965608, 'epoch': 0.31}
+{'loss': 1.512, 'grad_norm': 0.1524474024772644, 'learning_rate': 0.0004033119405219079, 'epoch': 0.31}
+{'loss': 1.5062, 'grad_norm': 0.12800925970077515, 'learning_rate': 0.00040314811309502676, 'epoch': 0.31}
+{'loss': 1.4873, 'grad_norm': 0.12458644807338715, 'learning_rate': 0.00040298418032860264, 'epoch': 0.31}
+{'loss': 1.5054, 'grad_norm': 0.13588060438632965, 'learning_rate': 0.0004028201423353929, 'epoch': 0.31}
+{'loss': 1.4809, 'grad_norm': 0.13832129538059235, 'learning_rate': 0.00040265599922822753, 'epoch': 0.31}
+{'loss': 1.4847, 'grad_norm': 0.12416160106658936, 'learning_rate': 0.0004024917511200088, 'epoch': 0.31}
+{'loss': 1.516, 'grad_norm': 0.14133714139461517, 'learning_rate': 0.00040232739812371104, 'epoch': 0.31}
+{'loss': 1.5173, 'grad_norm': 0.13514409959316254, 'learning_rate': 0.0004021629403523809, 'epoch': 0.31}
+{'loss': 1.5144, 'grad_norm': 0.13492707908153534, 'learning_rate': 0.00040199837791913694, 'epoch': 0.31}
+{'loss': 1.4981, 'grad_norm': 0.14847597479820251, 'learning_rate': 0.0004018337109371699, 'epoch': 0.31}
+{'loss': 1.5065, 'grad_norm': 0.11859370023012161, 'learning_rate': 0.00040166893951974216, 'epoch': 0.31}
+{'loss': 1.5084, 'grad_norm': 0.13130363821983337, 'learning_rate': 0.0004015040637801883, 'epoch': 0.31}
+{'loss': 1.5191, 'grad_norm': 0.15393397212028503, 'learning_rate': 0.0004013390838319143, 'epoch': 0.31}
+{'loss': 1.4896, 'grad_norm': 0.10963176190853119, 'learning_rate': 0.00040117399978839796, 'epoch': 0.31}
+{'loss': 1.5125, 'grad_norm': 0.17354069650173187, 'learning_rate': 0.0004010088117631888, 'epoch': 0.31}
+{'loss': 1.4572, 'grad_norm': 0.14083953201770782, 'learning_rate': 0.00040084351986990777, 'epoch': 0.32}
+{'loss': 1.5027, 'grad_norm': 0.16169799864292145, 'learning_rate': 0.00040067812422224703, 'epoch': 0.32}
+{'loss': 1.5071, 'grad_norm': 0.12819695472717285, 'learning_rate': 0.0004005126249339705, 'epoch': 0.32}
+{'loss': 1.4971, 'grad_norm': 0.16070309281349182, 'learning_rate': 0.00040034702211891315, 'epoch': 0.32}
+{'loss': 1.5032, 'grad_norm': 0.13762003183364868, 'learning_rate': 0.0004001813158909813, 'epoch': 0.32}
+{'loss': 1.5088, 'grad_norm': 0.14986281096935272, 'learning_rate': 0.0004000155063641522, 'epoch': 0.32}
+{'loss': 1.5079, 'grad_norm': 0.14023718237876892, 'learning_rate': 0.00039984959365247427, 'epoch': 0.32}
+{'loss': 1.4952, 'grad_norm': 0.1349410116672516, 'learning_rate': 0.0003996835778700669, 'epoch': 0.32}
+{'loss': 1.5006, 'grad_norm': 0.1588781625032425, 'learning_rate': 0.00039951745913112055, 'epoch': 0.32}
+{'loss': 1.483, 'grad_norm': 0.13066355884075165, 'learning_rate': 0.00039935123754989603, 'epoch': 0.32}
+{'loss': 1.4995, 'grad_norm': 0.16191095113754272, 'learning_rate': 0.00039918491324072547, 'epoch': 0.32}
+{'loss': 1.4935, 'grad_norm': 0.12540778517723083, 'learning_rate': 0.0003990184863180112, 'epoch': 0.32}
+{'loss': 1.4567, 'grad_norm': 0.16445977985858917, 'learning_rate': 0.00039885195689622624, 'epoch': 0.32}
+{'loss': 1.4824, 'grad_norm': 0.12639033794403076, 'learning_rate': 0.0003986853250899143, 'epoch': 0.32}
+{'loss': 1.4867, 'grad_norm': 0.16650986671447754, 'learning_rate': 0.00039851859101368937, 'epoch': 0.32}
+{'loss': 1.5053, 'grad_norm': 0.132876455783844, 'learning_rate': 0.0003983517547822358, 'epoch': 0.32}
+{'loss': 1.5086, 'grad_norm': 0.14402586221694946, 'learning_rate': 0.00039818481651030815, 'epoch': 0.32}
+{'loss': 1.4964, 'grad_norm': 0.12770652770996094, 'learning_rate': 0.0003980177763127312, 'epoch': 0.32}
+{'loss': 1.5083, 'grad_norm': 0.1412181854248047, 'learning_rate': 0.00039785063430439996, 'epoch': 0.32}
+{'loss': 1.5075, 'grad_norm': 0.16795110702514648, 'learning_rate': 0.0003976833906002792, 'epoch': 0.32}
+{'loss': 1.5023, 'grad_norm': 0.1360243260860443, 'learning_rate': 0.000397516045315404, 'epoch': 0.32}
+{'loss': 1.4855, 'grad_norm': 0.16677714884281158, 'learning_rate': 0.00039734859856487893, 'epoch': 0.32}
+{'loss': 1.5017, 'grad_norm': 0.1298535168170929, 'learning_rate': 0.0003971810504638787, 'epoch': 0.32}
+{'loss': 1.4903, 'grad_norm': 0.15660418570041656, 'learning_rate': 0.0003970134011276475, 'epoch': 0.32}
+{'loss': 1.5154, 'grad_norm': 0.12605638802051544, 'learning_rate': 0.00039684565067149916, 'epoch': 0.32}
+{'loss': 1.5243, 'grad_norm': 0.12754438817501068, 'learning_rate': 0.0003966777992108172, 'epoch': 0.32}
+{'loss': 1.4837, 'grad_norm': 0.16362978518009186, 'learning_rate': 0.0003965098468610545, 'epoch': 0.32}
+{'loss': 1.4779, 'grad_norm': 0.1189349964261055, 'learning_rate': 0.0003963417937377334, 'epoch': 0.32}
+{'loss': 1.5019, 'grad_norm': 0.16698074340820312, 'learning_rate': 0.0003961736399564454, 'epoch': 0.32}
+{'loss': 1.4936, 'grad_norm': 0.1402643471956253, 'learning_rate': 0.0003960053856328516, 'epoch': 0.32}
+{'loss': 1.4881, 'grad_norm': 0.14005254209041595, 'learning_rate': 0.00039583703088268184, 'epoch': 0.32}
+{'loss': 1.5014, 'grad_norm': 0.12621384859085083, 'learning_rate': 0.0003956685758217352, 'epoch': 0.32}
+{'loss': 1.4964, 'grad_norm': 0.14468997716903687, 'learning_rate': 0.00039550002056587986, 'epoch': 0.32}
+{'loss': 1.4762, 'grad_norm': 0.1349668651819229, 'learning_rate': 0.0003953313652310527, 'epoch': 0.32}
+{'loss': 1.4981, 'grad_norm': 0.15865033864974976, 'learning_rate': 0.00039516260993325983, 'epoch': 0.32}
+{'loss': 1.5131, 'grad_norm': 0.14173798263072968, 'learning_rate': 0.00039499375478857545, 'epoch': 0.32}
+{'loss': 1.516, 'grad_norm': 0.13295771181583405, 'learning_rate': 0.0003948247999131432, 'epoch': 0.32}
+{'loss': 1.5053, 'grad_norm': 0.13818034529685974, 'learning_rate': 0.00039465574542317473, 'epoch': 0.32}
+{'loss': 1.5012, 'grad_norm': 0.14045365154743195, 'learning_rate': 0.0003944865914349506, 'epoch': 0.32}
+{'loss': 1.5083, 'grad_norm': 0.13409224152565002, 'learning_rate': 0.00039431733806481945, 'epoch': 0.33}
+{'loss': 1.4827, 'grad_norm': 0.13122573494911194, 'learning_rate': 0.0003941479854291986, 'epoch': 0.33}
+{'loss': 1.5168, 'grad_norm': 0.15768848359584808, 'learning_rate': 0.0003939785336445735, 'epoch': 0.33}
+{'loss': 1.5066, 'grad_norm': 0.13047419488430023, 'learning_rate': 0.0003938089828274978, 'epoch': 0.33}
+{'loss': 1.4974, 'grad_norm': 0.16633287072181702, 'learning_rate': 0.0003936393330945933, 'epoch': 0.33}
+{'loss': 1.5054, 'grad_norm': 0.12368270754814148, 'learning_rate': 0.00039346958456254976, 'epoch': 0.33}
+{'loss': 1.4699, 'grad_norm': 0.1846078634262085, 'learning_rate': 0.00039329973734812494, 'epoch': 0.33}
+{'loss': 1.475, 'grad_norm': 0.12884986400604248, 'learning_rate': 0.0003931297915681447, 'epoch': 0.33}
+{'loss': 1.5124, 'grad_norm': 0.15006335079669952, 'learning_rate': 0.00039295974733950215, 'epoch': 0.33}
+{'loss': 1.5193, 'grad_norm': 0.15555229783058167, 'learning_rate': 0.00039278960477915877, 'epoch': 0.33}
+{'loss': 1.5058, 'grad_norm': 0.1273825615644455, 'learning_rate': 0.0003926193640041431, 'epoch': 0.33}
+{'loss': 1.5068, 'grad_norm': 0.1833227127790451, 'learning_rate': 0.0003924490251315517, 'epoch': 0.33}
+{'loss': 1.4739, 'grad_norm': 0.16608543694019318, 'learning_rate': 0.0003922785882785483, 'epoch': 0.33}
+{'loss': 1.4952, 'grad_norm': 0.1587347835302353, 'learning_rate': 0.0003921080535623641, 'epoch': 0.33}
+{'loss': 1.5113, 'grad_norm': 0.18616800010204315, 'learning_rate': 0.0003919374211002976, 'epoch': 0.33}
+{'loss': 1.4911, 'grad_norm': 0.13693980872631073, 'learning_rate': 0.0003917666910097147, 'epoch': 0.33}
+{'loss': 1.4986, 'grad_norm': 0.15692779421806335, 'learning_rate': 0.00039159586340804824, 'epoch': 0.33}
+{'loss': 1.5108, 'grad_norm': 0.1617709845304489, 'learning_rate': 0.00039142493841279823, 'epoch': 0.33}
+{'loss': 1.5018, 'grad_norm': 0.13476337492465973, 'learning_rate': 0.0003912539161415316, 'epoch': 0.33}
+{'loss': 1.4762, 'grad_norm': 0.16471104323863983, 'learning_rate': 0.0003910827967118823, 'epoch': 0.33}
+{'loss': 1.4987, 'grad_norm': 0.12737618386745453, 'learning_rate': 0.00039091158024155096, 'epoch': 0.33}
+{'loss': 1.4799, 'grad_norm': 0.15378767251968384, 'learning_rate': 0.00039074026684830516, 'epoch': 0.33}
+{'loss': 1.4913, 'grad_norm': 0.14708545804023743, 'learning_rate': 0.0003905688566499789, 'epoch': 0.33}
+{'loss': 1.4996, 'grad_norm': 0.12832161784172058, 'learning_rate': 0.00039039734976447304, 'epoch': 0.33}
+{'loss': 1.4825, 'grad_norm': 0.13432835042476654, 'learning_rate': 0.0003902257463097547, 'epoch': 0.33}
+{'loss': 1.4694, 'grad_norm': 0.12022741883993149, 'learning_rate': 0.00039005404640385746, 'epoch': 0.33}
+{'loss': 1.5068, 'grad_norm': 0.1373019963502884, 'learning_rate': 0.0003898822501648814, 'epoch': 0.33}
+{'loss': 1.487, 'grad_norm': 0.12799926102161407, 'learning_rate': 0.00038971035771099286, 'epoch': 0.33}
+{'loss': 1.474, 'grad_norm': 0.12157684564590454, 'learning_rate': 0.00038953836916042405, 'epoch': 0.33}
+{'loss': 1.5116, 'grad_norm': 0.12459824979305267, 'learning_rate': 0.0003893662846314736, 'epoch': 0.33}
+{'loss': 1.4983, 'grad_norm': 0.13759581744670868, 'learning_rate': 0.0003891941042425061, 'epoch': 0.33}
+{'loss': 1.5094, 'grad_norm': 0.13553868234157562, 'learning_rate': 0.000389021828111952, 'epoch': 0.33}
+{'loss': 1.5, 'grad_norm': 0.14576174318790436, 'learning_rate': 0.0003888494563583075, 'epoch': 0.33}
+{'loss': 1.5184, 'grad_norm': 0.13066652417182922, 'learning_rate': 0.0003886769891001348, 'epoch': 0.33}
+{'loss': 1.5217, 'grad_norm': 0.15468761324882507, 'learning_rate': 0.0003885044264560618, 'epoch': 0.33}
+{'loss': 1.4965, 'grad_norm': 0.12147822976112366, 'learning_rate': 0.0003883317685447816, 'epoch': 0.33}
+{'loss': 1.4968, 'grad_norm': 0.13562755286693573, 'learning_rate': 0.0003881590154850534, 'epoch': 0.33}
+{'loss': 1.4857, 'grad_norm': 0.14170736074447632, 'learning_rate': 0.0003879861673957014, 'epoch': 0.33}
+{'loss': 1.4986, 'grad_norm': 0.12233792245388031, 'learning_rate': 0.0003878132243956155, 'epoch': 0.33}
+{'loss': 1.505, 'grad_norm': 0.13253316283226013, 'learning_rate': 0.0003876401866037506, 'epoch': 0.34}
+{'loss': 1.4935, 'grad_norm': 0.1478702425956726, 'learning_rate': 0.00038746705413912695, 'epoch': 0.34}
+{'loss': 1.5129, 'grad_norm': 0.12720593810081482, 'learning_rate': 0.0003872938271208299, 'epoch': 0.34}
+{'loss': 1.5123, 'grad_norm': 0.11812938004732132, 'learning_rate': 0.0003871205056680098, 'epoch': 0.34}
+{'loss': 1.4969, 'grad_norm': 0.13907532393932343, 'learning_rate': 0.0003869470898998821, 'epoch': 0.34}
+{'loss': 1.4985, 'grad_norm': 0.13071560859680176, 'learning_rate': 0.00038677357993572675, 'epoch': 0.34}
+{'loss': 1.5127, 'grad_norm': 0.11711651086807251, 'learning_rate': 0.00038659997589488894, 'epoch': 0.34}
+{'loss': 1.5038, 'grad_norm': 0.12836919724941254, 'learning_rate': 0.00038642627789677833, 'epoch': 0.34}
+{'loss': 1.5014, 'grad_norm': 0.12938764691352844, 'learning_rate': 0.0003862524860608692, 'epoch': 0.34}
+{'loss': 1.5179, 'grad_norm': 0.10741108655929565, 'learning_rate': 0.0003860786005067005, 'epoch': 0.34}
+{'loss': 1.4986, 'grad_norm': 0.14943283796310425, 'learning_rate': 0.0003859046213538755, 'epoch': 0.34}
+{'loss': 1.4965, 'grad_norm': 0.10442674160003662, 'learning_rate': 0.0003857305487220619, 'epoch': 0.34}
+{'loss': 1.4812, 'grad_norm': 0.13376666605472565, 'learning_rate': 0.0003855563827309917, 'epoch': 0.34}
+{'loss': 1.4781, 'grad_norm': 0.11799711734056473, 'learning_rate': 0.0003853821235004613, 'epoch': 0.34}
+{'loss': 1.5047, 'grad_norm': 0.13910359144210815, 'learning_rate': 0.00038520777115033086, 'epoch': 0.34}
+{'loss': 1.4956, 'grad_norm': 0.14856576919555664, 'learning_rate': 0.0003850333258005248, 'epoch': 0.34}
+{'loss': 1.5177, 'grad_norm': 0.12270762771368027, 'learning_rate': 0.00038485878757103163, 'epoch': 0.34}
+{'loss': 1.4925, 'grad_norm': 0.16219951212406158, 'learning_rate': 0.00038468415658190347, 'epoch': 0.34}
+{'loss': 1.4892, 'grad_norm': 0.132022887468338, 'learning_rate': 0.00038450943295325647, 'epoch': 0.34}
+{'loss': 1.5097, 'grad_norm': 0.14134150743484497, 'learning_rate': 0.0003843346168052704, 'epoch': 0.34}
+{'loss': 1.4889, 'grad_norm': 0.1515195071697235, 'learning_rate': 0.00038415970825818866, 'epoch': 0.34}
+{'loss': 1.5038, 'grad_norm': 0.12525321543216705, 'learning_rate': 0.00038398470743231827, 'epoch': 0.34}
+{'loss': 1.4748, 'grad_norm': 0.1482848823070526, 'learning_rate': 0.00038380961444802966, 'epoch': 0.34}
+{'loss': 1.4733, 'grad_norm': 0.12681342661380768, 'learning_rate': 0.00038363442942575656, 'epoch': 0.34}
+{'loss': 1.5023, 'grad_norm': 0.17195391654968262, 'learning_rate': 0.00038345915248599627, 'epoch': 0.34}
+{'loss': 1.4906, 'grad_norm': 0.13593249022960663, 'learning_rate': 0.00038328378374930905, 'epoch': 0.34}
+{'loss': 1.4598, 'grad_norm': 0.1350010633468628, 'learning_rate': 0.0003831083233363185, 'epoch': 0.34}
+{'loss': 1.4955, 'grad_norm': 0.145635724067688, 'learning_rate': 0.0003829327713677111, 'epoch': 0.34}
+{'loss': 1.4932, 'grad_norm': 0.14052428305149078, 'learning_rate': 0.0003827571279642365, 'epoch': 0.34}
+{'loss': 1.4752, 'grad_norm': 0.1438516229391098, 'learning_rate': 0.00038258139324670706, 'epoch': 0.34}
+{'loss': 1.5012, 'grad_norm': 0.13120467960834503, 'learning_rate': 0.0003824055673359979, 'epoch': 0.34}
+{'loss': 1.4738, 'grad_norm': 0.14141622185707092, 'learning_rate': 0.0003822296503530472, 'epoch': 0.34}
+{'loss': 1.4655, 'grad_norm': 0.14476275444030762, 'learning_rate': 0.00038205364241885545, 'epoch': 0.34}
+{'loss': 1.48, 'grad_norm': 0.13913877308368683, 'learning_rate': 0.0003818775436544859, 'epoch': 0.34}
+{'loss': 1.4807, 'grad_norm': 0.1723606139421463, 'learning_rate': 0.000381701354181064, 'epoch': 0.34}
+{'loss': 1.5096, 'grad_norm': 0.13547372817993164, 'learning_rate': 0.000381525074119778, 'epoch': 0.34}
+{'loss': 1.525, 'grad_norm': 0.14903031289577484, 'learning_rate': 0.00038134870359187806, 'epoch': 0.34}
+{'loss': 1.5, 'grad_norm': 0.1521107256412506, 'learning_rate': 0.00038117224271867696, 'epoch': 0.34}
+{'loss': 1.4922, 'grad_norm': 0.14226216077804565, 'learning_rate': 0.0003809956916215491, 'epoch': 0.34}
+{'loss': 1.4998, 'grad_norm': 0.14546585083007812, 'learning_rate': 0.00038081905042193167, 'epoch': 0.35}
+{'loss': 1.4927, 'grad_norm': 0.15068571269512177, 'learning_rate': 0.0003806423192413231, 'epoch': 0.35}
+{'loss': 1.5005, 'grad_norm': 0.14810489118099213, 'learning_rate': 0.00038046549820128407, 'epoch': 0.35}
+{'loss': 1.5001, 'grad_norm': 0.14593689143657684, 'learning_rate': 0.00038028858742343704, 'epoch': 0.35}
+{'loss': 1.5152, 'grad_norm': 0.11288407444953918, 'learning_rate': 0.0003801115870294662, 'epoch': 0.35}
+{'loss': 1.4886, 'grad_norm': 0.13341881334781647, 'learning_rate': 0.0003799344971411174, 'epoch': 0.35}
+{'loss': 1.4742, 'grad_norm': 0.14678636193275452, 'learning_rate': 0.0003797573178801979, 'epoch': 0.35}
+{'loss': 1.4757, 'grad_norm': 0.12928444147109985, 'learning_rate': 0.0003795800493685766, 'epoch': 0.35}
+{'loss': 1.498, 'grad_norm': 0.1305241882801056, 'learning_rate': 0.0003794026917281838, 'epoch': 0.35}
+{'loss': 1.516, 'grad_norm': 0.12406068295240402, 'learning_rate': 0.00037922524508101084, 'epoch': 0.35}
+{'loss': 1.4913, 'grad_norm': 0.13050690293312073, 'learning_rate': 0.00037904770954911063, 'epoch': 0.35}
+{'loss': 1.4937, 'grad_norm': 0.12708555161952972, 'learning_rate': 0.0003788700852545969, 'epoch': 0.35}
+{'loss': 1.4919, 'grad_norm': 0.1385801136493683, 'learning_rate': 0.00037869237231964487, 'epoch': 0.35}
+{'loss': 1.4787, 'grad_norm': 0.11712267994880676, 'learning_rate': 0.0003785145708664903, 'epoch': 0.35}
+{'loss': 1.5067, 'grad_norm': 0.1577700823545456, 'learning_rate': 0.0003783366810174298, 'epoch': 0.35}
+{'loss': 1.4555, 'grad_norm': 0.10689548403024673, 'learning_rate': 0.00037815870289482125, 'epoch': 0.35}
+{'loss': 1.5024, 'grad_norm': 0.17343126237392426, 'learning_rate': 0.0003779806366210828, 'epoch': 0.35}
+{'loss': 1.5053, 'grad_norm': 0.12501057982444763, 'learning_rate': 0.00037780248231869356, 'epoch': 0.35}
+{'loss': 1.4807, 'grad_norm': 0.12582877278327942, 'learning_rate': 0.00037762424011019287, 'epoch': 0.35}
+{'loss': 1.4881, 'grad_norm': 0.14687788486480713, 'learning_rate': 0.00037744591011818076, 'epoch': 0.35}
+{'loss': 1.4884, 'grad_norm': 0.13111284375190735, 'learning_rate': 0.0003772674924653175, 'epoch': 0.35}
+{'loss': 1.479, 'grad_norm': 0.15131954848766327, 'learning_rate': 0.00037708898727432385, 'epoch': 0.35}
+{'loss': 1.4784, 'grad_norm': 0.12450969219207764, 'learning_rate': 0.00037691039466798053, 'epoch': 0.35}
+{'loss': 1.5077, 'grad_norm': 0.16068129241466522, 'learning_rate': 0.0003767317147691286, 'epoch': 0.35}
+{'loss': 1.4935, 'grad_norm': 0.12795759737491608, 'learning_rate': 0.0003765529477006692, 'epoch': 0.35}
+{'loss': 1.4884, 'grad_norm': 0.16787974536418915, 'learning_rate': 0.00037637409358556303, 'epoch': 0.35}
+{'loss': 1.4837, 'grad_norm': 0.14519266784191132, 'learning_rate': 0.00037619515254683103, 'epoch': 0.35}
+{'loss': 1.4845, 'grad_norm': 0.13983173668384552, 'learning_rate': 0.0003760161247075539, 'epoch': 0.35}
+{'loss': 1.5007, 'grad_norm': 0.15908488631248474, 'learning_rate': 0.00037583701019087203, 'epoch': 0.35}
+{'loss': 1.4963, 'grad_norm': 0.121690534055233, 'learning_rate': 0.00037565780911998526, 'epoch': 0.35}
+{'loss': 1.5234, 'grad_norm': 0.18779152631759644, 'learning_rate': 0.000375478521618153, 'epoch': 0.35}
+{'loss': 1.4935, 'grad_norm': 0.14795492589473724, 'learning_rate': 0.00037529914780869454, 'epoch': 0.35}
+{'loss': 1.5044, 'grad_norm': 0.1492922604084015, 'learning_rate': 0.00037511968781498795, 'epoch': 0.35}
+{'loss': 1.4724, 'grad_norm': 0.1572195440530777, 'learning_rate': 0.00037494014176047075, 'epoch': 0.35}
+{'loss': 1.4942, 'grad_norm': 0.11671847850084305, 'learning_rate': 0.0003747605097686398, 'epoch': 0.35}
+{'loss': 1.5059, 'grad_norm': 0.16847284138202667, 'learning_rate': 0.0003745807919630511, 'epoch': 0.35}
+{'loss': 1.4883, 'grad_norm': 0.11656644195318222, 'learning_rate': 0.0003744009884673194, 'epoch': 0.35}
+{'loss': 1.4895, 'grad_norm': 0.1487746238708496, 'learning_rate': 0.0003742210994051186, 'epoch': 0.35}
+{'loss': 1.478, 'grad_norm': 0.14656691253185272, 'learning_rate': 0.0003740411249001815, 'epoch': 0.35}
+{'loss': 1.4878, 'grad_norm': 0.13238732516765594, 'learning_rate': 0.00037386106507629956, 'epoch': 0.36}
+{'loss': 1.4789, 'grad_norm': 0.1364690661430359, 'learning_rate': 0.0003736809200573229, 'epoch': 0.36}
+{'loss': 1.492, 'grad_norm': 0.14268286526203156, 'learning_rate': 0.0003735006899671603, 'epoch': 0.36}
+{'loss': 1.5084, 'grad_norm': 0.13575637340545654, 'learning_rate': 0.000373320374929779, 'epoch': 0.36}
+{'loss': 1.501, 'grad_norm': 0.1227855458855629, 'learning_rate': 0.0003731399750692049, 'epoch': 0.36}
+{'loss': 1.5071, 'grad_norm': 0.13988539576530457, 'learning_rate': 0.00037295949050952185, 'epoch': 0.36}
+{'loss': 1.4759, 'grad_norm': 0.13050593435764313, 'learning_rate': 0.00037277892137487216, 'epoch': 0.36}
+{'loss': 1.4817, 'grad_norm': 0.12877397239208221, 'learning_rate': 0.00037259826778945643, 'epoch': 0.36}
+{'loss': 1.5084, 'grad_norm': 0.1541639119386673, 'learning_rate': 0.0003724175298775332, 'epoch': 0.36}
+{'loss': 1.4904, 'grad_norm': 0.1649111956357956, 'learning_rate': 0.000372236707763419, 'epoch': 0.36}
+{'loss': 1.5168, 'grad_norm': 0.1508573442697525, 'learning_rate': 0.00037205580157148837, 'epoch': 0.36}
+{'loss': 1.5172, 'grad_norm': 0.16365878283977509, 'learning_rate': 0.0003718748114261736, 'epoch': 0.36}
+{'loss': 1.4802, 'grad_norm': 0.1250413954257965, 'learning_rate': 0.00037169373745196487, 'epoch': 0.36}
+{'loss': 1.5058, 'grad_norm': 0.15179914236068726, 'learning_rate': 0.0003715125797734098, 'epoch': 0.36}
+{'loss': 1.4817, 'grad_norm': 0.1595589965581894, 'learning_rate': 0.00037133133851511364, 'epoch': 0.36}
+{'loss': 1.5236, 'grad_norm': 0.12192974984645844, 'learning_rate': 0.0003711500138017393, 'epoch': 0.36}
+{'loss': 1.4801, 'grad_norm': 0.18283560872077942, 'learning_rate': 0.00037096860575800696, 'epoch': 0.36}
+{'loss': 1.4782, 'grad_norm': 0.118355393409729, 'learning_rate': 0.0003707871145086941, 'epoch': 0.36}
+{'loss': 1.4932, 'grad_norm': 0.15734264254570007, 'learning_rate': 0.00037060554017863536, 'epoch': 0.36}
+{'loss': 1.4866, 'grad_norm': 0.14906860888004303, 'learning_rate': 0.0003704238828927229, 'epoch': 0.36}
+{'loss': 1.5089, 'grad_norm': 0.15074007213115692, 'learning_rate': 0.00037024214277590537, 'epoch': 0.36}
+{'loss': 1.4993, 'grad_norm': 0.12661735713481903, 'learning_rate': 0.00037006031995318885, 'epoch': 0.36}
+{'loss': 1.4859, 'grad_norm': 0.14795196056365967, 'learning_rate': 0.00036987841454963607, 'epoch': 0.36}
+{'loss': 1.479, 'grad_norm': 0.13274821639060974, 'learning_rate': 0.0003696964266903667, 'epoch': 0.36}
+{'loss': 1.4737, 'grad_norm': 0.13905757665634155, 'learning_rate': 0.0003695143565005572, 'epoch': 0.36}
+{'loss': 1.4856, 'grad_norm': 0.13673749566078186, 'learning_rate': 0.0003693322041054402, 'epoch': 0.36}
+{'loss': 1.5119, 'grad_norm': 0.12540210783481598, 'learning_rate': 0.00036914996963030545, 'epoch': 0.36}
+{'loss': 1.5214, 'grad_norm': 0.14691294729709625, 'learning_rate': 0.0003689676532004988, 'epoch': 0.36}
+{'loss': 1.4891, 'grad_norm': 0.13949179649353027, 'learning_rate': 0.0003687852549414227, 'epoch': 0.36}
+{'loss': 1.4863, 'grad_norm': 0.14476105570793152, 'learning_rate': 0.0003686027749785355, 'epoch': 0.36}
+{'loss': 1.4895, 'grad_norm': 0.13773955404758453, 'learning_rate': 0.00036842021343735226, 'epoch': 0.36}
+{'loss': 1.4801, 'grad_norm': 0.13375000655651093, 'learning_rate': 0.00036823757044344383, 'epoch': 0.36}
+{'loss': 1.4633, 'grad_norm': 0.15172412991523743, 'learning_rate': 0.00036805484612243707, 'epoch': 0.36}
+{'loss': 1.4894, 'grad_norm': 0.12913671135902405, 'learning_rate': 0.00036787204060001493, 'epoch': 0.36}
+{'loss': 1.4865, 'grad_norm': 0.13781464099884033, 'learning_rate': 0.0003676891540019162, 'epoch': 0.36}
+{'loss': 1.4787, 'grad_norm': 0.11305593699216843, 'learning_rate': 0.0003675061864539352, 'epoch': 0.36}
+{'loss': 1.5097, 'grad_norm': 0.15700751543045044, 'learning_rate': 0.00036732313808192244, 'epoch': 0.36}
+{'loss': 1.5134, 'grad_norm': 0.11528804898262024, 'learning_rate': 0.00036714000901178336, 'epoch': 0.36}
+{'loss': 1.4738, 'grad_norm': 0.1359240561723709, 'learning_rate': 0.00036695679936947934, 'epoch': 0.36}
+{'loss': 1.4961, 'grad_norm': 0.12391845136880875, 'learning_rate': 0.00036677350928102716, 'epoch': 0.37}
+{'loss': 1.5118, 'grad_norm': 0.15847089886665344, 'learning_rate': 0.0003665901388724988, 'epoch': 0.37}
+{'loss': 1.4976, 'grad_norm': 0.13126873970031738, 'learning_rate': 0.00036640668827002154, 'epoch': 0.37}
+{'loss': 1.464, 'grad_norm': 0.12659582495689392, 'learning_rate': 0.0003662231575997779, 'epoch': 0.37}
+{'loss': 1.5108, 'grad_norm': 0.1451588273048401, 'learning_rate': 0.00036603954698800526, 'epoch': 0.37}
+{'loss': 1.4838, 'grad_norm': 0.12646016478538513, 'learning_rate': 0.0003658558565609962, 'epoch': 0.37}
+{'loss': 1.5195, 'grad_norm': 0.13798774778842926, 'learning_rate': 0.00036567208644509803, 'epoch': 0.37}
+{'loss': 1.4852, 'grad_norm': 0.13482367992401123, 'learning_rate': 0.0003654882367667131, 'epoch': 0.37}
+{'loss': 1.4867, 'grad_norm': 0.14249175786972046, 'learning_rate': 0.0003653043076522983, 'epoch': 0.37}
+{'loss': 1.4957, 'grad_norm': 0.13907086849212646, 'learning_rate': 0.0003651202992283651, 'epoch': 0.37}
+{'loss': 1.4919, 'grad_norm': 0.1267087608575821, 'learning_rate': 0.00036493621162147973, 'epoch': 0.37}
+{'loss': 1.4799, 'grad_norm': 0.11582259088754654, 'learning_rate': 0.0003647520449582628, 'epoch': 0.37}
+{'loss': 1.4996, 'grad_norm': 0.14472348988056183, 'learning_rate': 0.0003645677993653892, 'epoch': 0.37}
+{'loss': 1.5012, 'grad_norm': 0.12940996885299683, 'learning_rate': 0.00036438347496958826, 'epoch': 0.37}
+{'loss': 1.4754, 'grad_norm': 0.12718285620212555, 'learning_rate': 0.0003641990718976433, 'epoch': 0.37}
+{'loss': 1.5034, 'grad_norm': 0.1213633269071579, 'learning_rate': 0.00036401459027639207, 'epoch': 0.37}
+{'loss': 1.4914, 'grad_norm': 0.1254519522190094, 'learning_rate': 0.0003638300302327261, 'epoch': 0.37}
+{'loss': 1.4784, 'grad_norm': 0.1190568134188652, 'learning_rate': 0.00036364539189359093, 'epoch': 0.37}
+{'loss': 1.4728, 'grad_norm': 0.11331172287464142, 'learning_rate': 0.00036346067538598593, 'epoch': 0.37}
+{'loss': 1.4895, 'grad_norm': 0.1361720710992813, 'learning_rate': 0.0003632758808369643, 'epoch': 0.37}
+{'loss': 1.483, 'grad_norm': 0.12465392798185349, 'learning_rate': 0.0003630910083736329, 'epoch': 0.37}
+{'loss': 1.5005, 'grad_norm': 0.12236831337213516, 'learning_rate': 0.00036290605812315215, 'epoch': 0.37}
+{'loss': 1.4929, 'grad_norm': 0.12079836428165436, 'learning_rate': 0.00036272103021273594, 'epoch': 0.37}
+{'loss': 1.4577, 'grad_norm': 0.14792636036872864, 'learning_rate': 0.00036253592476965174, 'epoch': 0.37}
+{'loss': 1.501, 'grad_norm': 0.12568625807762146, 'learning_rate': 0.00036235074192122015, 'epoch': 0.37}
+{'loss': 1.4828, 'grad_norm': 0.1336870938539505, 'learning_rate': 0.00036216548179481505, 'epoch': 0.37}
+{'loss': 1.5117, 'grad_norm': 0.15356305241584778, 'learning_rate': 0.00036198014451786363, 'epoch': 0.37}
+{'loss': 1.5018, 'grad_norm': 0.12338780611753464, 'learning_rate': 0.00036179473021784607, 'epoch': 0.37}
+{'loss': 1.5053, 'grad_norm': 0.14300893247127533, 'learning_rate': 0.0003616092390222954, 'epoch': 0.37}
+{'loss': 1.4645, 'grad_norm': 0.14174339175224304, 'learning_rate': 0.0003614236710587976, 'epoch': 0.37}
+{'loss': 1.4823, 'grad_norm': 0.1268705129623413, 'learning_rate': 0.0003612380264549915, 'epoch': 0.37}
+{'loss': 1.4899, 'grad_norm': 0.11607716232538223, 'learning_rate': 0.0003610523053385688, 'epoch': 0.37}
+{'loss': 1.4971, 'grad_norm': 0.14551441371440887, 'learning_rate': 0.00036086650783727353, 'epoch': 0.37}
+{'loss': 1.5254, 'grad_norm': 0.11543340235948563, 'learning_rate': 0.0003606806340789024, 'epoch': 0.37}
+{'loss': 1.4902, 'grad_norm': 0.1469700187444687, 'learning_rate': 0.00036049468419130446, 'epoch': 0.37}
+{'loss': 1.5041, 'grad_norm': 0.1239282563328743, 'learning_rate': 0.0003603086583023815, 'epoch': 0.37}
+{'loss': 1.5085, 'grad_norm': 0.15810731053352356, 'learning_rate': 0.0003601225565400871, 'epoch': 0.37}
+{'loss': 1.4968, 'grad_norm': 0.13224652409553528, 'learning_rate': 0.00035993637903242734, 'epoch': 0.37}
+{'loss': 1.484, 'grad_norm': 0.16123735904693604, 'learning_rate': 0.0003597501259074601, 'epoch': 0.37}
+{'loss': 1.4905, 'grad_norm': 0.15392042696475983, 'learning_rate': 0.00035956379729329586, 'epoch': 0.38}
+{'loss': 1.4846, 'grad_norm': 0.17044951021671295, 'learning_rate': 0.00035937739331809627, 'epoch': 0.38}
+{'loss': 1.4978, 'grad_norm': 0.13964664936065674, 'learning_rate': 0.00035919091411007535, 'epoch': 0.38}
+{'loss': 1.5146, 'grad_norm': 0.1424037218093872, 'learning_rate': 0.0003590043597974987, 'epoch': 0.38}
+{'loss': 1.4938, 'grad_norm': 0.1339794099330902, 'learning_rate': 0.00035881773050868354, 'epoch': 0.38}
+{'loss': 1.4736, 'grad_norm': 0.1374484896659851, 'learning_rate': 0.0003586310263719988, 'epoch': 0.38}
+{'loss': 1.4769, 'grad_norm': 0.12963660061359406, 'learning_rate': 0.0003584442475158645, 'epoch': 0.38}
+{'loss': 1.4891, 'grad_norm': 0.13746614754199982, 'learning_rate': 0.00035825739406875274, 'epoch': 0.38}
+{'loss': 1.4779, 'grad_norm': 0.17434895038604736, 'learning_rate': 0.0003580704661591863, 'epoch': 0.38}
+{'loss': 1.4877, 'grad_norm': 0.11242213845252991, 'learning_rate': 0.0003578834639157394, 'epoch': 0.38}
+{'loss': 1.5111, 'grad_norm': 0.15026316046714783, 'learning_rate': 0.0003576963874670374, 'epoch': 0.38}
+{'loss': 1.4856, 'grad_norm': 0.14357644319534302, 'learning_rate': 0.00035750923694175685, 'epoch': 0.38}
+{'loss': 1.5132, 'grad_norm': 0.12697885930538177, 'learning_rate': 0.00035732201246862496, 'epoch': 0.38}
+{'loss': 1.4923, 'grad_norm': 0.18310002982616425, 'learning_rate': 0.00035713471417642, 'epoch': 0.38}
+{'loss': 1.5027, 'grad_norm': 0.1342150717973709, 'learning_rate': 0.0003569473421939709, 'epoch': 0.38}
+{'loss': 1.502, 'grad_norm': 0.1801798790693283, 'learning_rate': 0.0003567598966501574, 'epoch': 0.38}
+{'loss': 1.4838, 'grad_norm': 0.13882872462272644, 'learning_rate': 0.00035657237767390977, 'epoch': 0.38}
+{'loss': 1.4831, 'grad_norm': 0.15836885571479797, 'learning_rate': 0.00035638478539420877, 'epoch': 0.38}
+{'loss': 1.4685, 'grad_norm': 0.17317494750022888, 'learning_rate': 0.0003561971199400855, 'epoch': 0.38}
+{'loss': 1.5045, 'grad_norm': 0.13934150338172913, 'learning_rate': 0.00035600938144062167, 'epoch': 0.38}
+{'loss': 1.4974, 'grad_norm': 0.1865190863609314, 'learning_rate': 0.000355821570024949, 'epoch': 0.38}
+{'loss': 1.4951, 'grad_norm': 0.12674927711486816, 'learning_rate': 0.0003556336858222494, 'epoch': 0.38}
+{'loss': 1.4876, 'grad_norm': 0.18675310909748077, 'learning_rate': 0.0003554457289617548, 'epoch': 0.38}
+{'loss': 1.4866, 'grad_norm': 0.15193888545036316, 'learning_rate': 0.0003552576995727472, 'epoch': 0.38}
+{'loss': 1.4864, 'grad_norm': 0.15978477895259857, 'learning_rate': 0.00035506959778455863, 'epoch': 0.38}
+{'loss': 1.4992, 'grad_norm': 0.166721910238266, 'learning_rate': 0.0003548814237265705, 'epoch': 0.38}
+{'loss': 1.4947, 'grad_norm': 0.144264817237854, 'learning_rate': 0.0003546931775282143, 'epoch': 0.38}
+{'loss': 1.4576, 'grad_norm': 0.15708112716674805, 'learning_rate': 0.000354504859318971, 'epoch': 0.38}
+{'loss': 1.5046, 'grad_norm': 0.1692708283662796, 'learning_rate': 0.00035431646922837114, 'epoch': 0.38}
+{'loss': 1.4996, 'grad_norm': 0.14350809156894684, 'learning_rate': 0.0003541280073859946, 'epoch': 0.38}
+{'loss': 1.5135, 'grad_norm': 0.1818474531173706, 'learning_rate': 0.00035393947392147075, 'epoch': 0.38}
+{'loss': 1.5002, 'grad_norm': 0.12372679263353348, 'learning_rate': 0.0003537508689644782, 'epoch': 0.38}
+{'loss': 1.4936, 'grad_norm': 0.18411055207252502, 'learning_rate': 0.0003535621926447446, 'epoch': 0.38}
+{'loss': 1.4481, 'grad_norm': 0.1388729065656662, 'learning_rate': 0.00035337344509204686, 'epoch': 0.38}
+{'loss': 1.5067, 'grad_norm': 0.16538123786449432, 'learning_rate': 0.0003531846264362108, 'epoch': 0.38}
+{'loss': 1.4858, 'grad_norm': 0.13277363777160645, 'learning_rate': 0.00035299573680711114, 'epoch': 0.38}
+{'loss': 1.4914, 'grad_norm': 0.10952883958816528, 'learning_rate': 0.0003528067763346714, 'epoch': 0.38}
+{'loss': 1.4795, 'grad_norm': 0.14440307021141052, 'learning_rate': 0.0003526177451488639, 'epoch': 0.38}
+{'loss': 1.5136, 'grad_norm': 0.15250390768051147, 'learning_rate': 0.0003524286433797096, 'epoch': 0.38}
+{'loss': 1.4896, 'grad_norm': 0.12237472087144852, 'learning_rate': 0.00035223947115727787, 'epoch': 0.39}
+{'loss': 1.5073, 'grad_norm': 0.1484285593032837, 'learning_rate': 0.00035205022861168684, 'epoch': 0.39}
+{'loss': 1.4879, 'grad_norm': 0.12480293959379196, 'learning_rate': 0.0003518609158731025, 'epoch': 0.39}
+{'loss': 1.4624, 'grad_norm': 0.1408115029335022, 'learning_rate': 0.0003516715330717397, 'epoch': 0.39}
+{'loss': 1.4662, 'grad_norm': 0.1309753954410553, 'learning_rate': 0.00035148208033786117, 'epoch': 0.39}
+{'loss': 1.4793, 'grad_norm': 0.14984402060508728, 'learning_rate': 0.00035129255780177765, 'epoch': 0.39}
+{'loss': 1.4723, 'grad_norm': 0.1224726215004921, 'learning_rate': 0.00035110296559384815, 'epoch': 0.39}
+{'loss': 1.47, 'grad_norm': 0.13849037885665894, 'learning_rate': 0.00035091330384447937, 'epoch': 0.39}
+{'loss': 1.5058, 'grad_norm': 0.12981149554252625, 'learning_rate': 0.0003507235726841261, 'epoch': 0.39}
+{'loss': 1.481, 'grad_norm': 0.14605018496513367, 'learning_rate': 0.0003505337722432906, 'epoch': 0.39}
+{'loss': 1.5051, 'grad_norm': 0.14322905242443085, 'learning_rate': 0.0003503439026525229, 'epoch': 0.39}
+{'loss': 1.4655, 'grad_norm': 0.12165789306163788, 'learning_rate': 0.00035015396404242073, 'epoch': 0.39}
+{'loss': 1.4907, 'grad_norm': 0.14759406447410583, 'learning_rate': 0.000349963956543629, 'epoch': 0.39}
+{'loss': 1.5135, 'grad_norm': 0.13629519939422607, 'learning_rate': 0.00034977388028684033, 'epoch': 0.39}
+{'loss': 1.5009, 'grad_norm': 0.1266704499721527, 'learning_rate': 0.00034958373540279426, 'epoch': 0.39}
+{'loss': 1.4788, 'grad_norm': 0.13675765693187714, 'learning_rate': 0.0003493935220222779, 'epoch': 0.39}
+{'loss': 1.4612, 'grad_norm': 0.13197503983974457, 'learning_rate': 0.00034920324027612536, 'epoch': 0.39}
+{'loss': 1.4844, 'grad_norm': 0.12732771039009094, 'learning_rate': 0.0003490128902952176, 'epoch': 0.39}
+{'loss': 1.488, 'grad_norm': 0.11923360079526901, 'learning_rate': 0.00034882247221048267, 'epoch': 0.39}
+{'loss': 1.4903, 'grad_norm': 0.11059924215078354, 'learning_rate': 0.0003486319861528955, 'epoch': 0.39}
+{'loss': 1.5139, 'grad_norm': 0.11703309416770935, 'learning_rate': 0.0003484414322534777, 'epoch': 0.39}
+{'loss': 1.4848, 'grad_norm': 0.111978679895401, 'learning_rate': 0.0003482508106432975, 'epoch': 0.39}
+{'loss': 1.4928, 'grad_norm': 0.13046635687351227, 'learning_rate': 0.0003480601214534698, 'epoch': 0.39}
+{'loss': 1.4741, 'grad_norm': 0.13015948235988617, 'learning_rate': 0.000347869364815156, 'epoch': 0.39}
+{'loss': 1.4766, 'grad_norm': 0.1056818813085556, 'learning_rate': 0.00034767854085956376, 'epoch': 0.39}
+{'loss': 1.4704, 'grad_norm': 0.1370123028755188, 'learning_rate': 0.0003474876497179471, 'epoch': 0.39}
+{'loss': 1.4898, 'grad_norm': 0.12127295136451721, 'learning_rate': 0.00034729669152160634, 'epoch': 0.39}
+{'loss': 1.4873, 'grad_norm': 0.11908352375030518, 'learning_rate': 0.0003471056664018878, 'epoch': 0.39}
+{'loss': 1.4907, 'grad_norm': 0.1219668909907341, 'learning_rate': 0.0003469145744901839, 'epoch': 0.39}
+{'loss': 1.4778, 'grad_norm': 0.12422328442335129, 'learning_rate': 0.00034672341591793286, 'epoch': 0.39}
+{'loss': 1.4961, 'grad_norm': 0.11811433732509613, 'learning_rate': 0.00034653219081661927, 'epoch': 0.39}
+{'loss': 1.4663, 'grad_norm': 0.12125392258167267, 'learning_rate': 0.00034634089931777264, 'epoch': 0.39}
+{'loss': 1.4799, 'grad_norm': 0.11678721010684967, 'learning_rate': 0.00034614954155296883, 'epoch': 0.39}
+{'loss': 1.4689, 'grad_norm': 0.11014922708272934, 'learning_rate': 0.00034595811765382895, 'epoch': 0.39}
+{'loss': 1.4919, 'grad_norm': 0.11329369992017746, 'learning_rate': 0.00034576662775201976, 'epoch': 0.39}
+{'loss': 1.47, 'grad_norm': 0.11779914051294327, 'learning_rate': 0.00034557507197925343, 'epoch': 0.39}
+{'loss': 1.4636, 'grad_norm': 0.12536460161209106, 'learning_rate': 0.00034538345046728717, 'epoch': 0.39}
+{'loss': 1.504, 'grad_norm': 0.11213136464357376, 'learning_rate': 0.00034519176334792367, 'epoch': 0.39}
+{'loss': 1.4846, 'grad_norm': 0.1041722297668457, 'learning_rate': 0.00034500001075301077, 'epoch': 0.39}
+{'loss': 1.4944, 'grad_norm': 0.12242821604013443, 'learning_rate': 0.0003448081928144412, 'epoch': 0.4}
+{'loss': 1.4882, 'grad_norm': 0.11437151581048965, 'learning_rate': 0.0003446163096641527, 'epoch': 0.4}
+{'loss': 1.4922, 'grad_norm': 0.13561315834522247, 'learning_rate': 0.0003444243614341277, 'epoch': 0.4}
+{'loss': 1.5146, 'grad_norm': 0.1233767569065094, 'learning_rate': 0.00034423234825639375, 'epoch': 0.4}
+{'loss': 1.5034, 'grad_norm': 0.12699522078037262, 'learning_rate': 0.00034404027026302284, 'epoch': 0.4}
+{'loss': 1.5047, 'grad_norm': 0.15170443058013916, 'learning_rate': 0.0003438481275861315, 'epoch': 0.4}
+{'loss': 1.49, 'grad_norm': 0.10624274611473083, 'learning_rate': 0.00034365592035788073, 'epoch': 0.4}
+{'loss': 1.4928, 'grad_norm': 0.13414444029331207, 'learning_rate': 0.00034346364871047625, 'epoch': 0.4}
+{'loss': 1.4735, 'grad_norm': 0.1277482956647873, 'learning_rate': 0.00034327131277616773, 'epoch': 0.4}
+{'loss': 1.5045, 'grad_norm': 0.11533578485250473, 'learning_rate': 0.00034307891268724915, 'epoch': 0.4}
+{'loss': 1.4665, 'grad_norm': 0.13241145014762878, 'learning_rate': 0.00034288644857605877, 'epoch': 0.4}
+{'loss': 1.5193, 'grad_norm': 0.14059266448020935, 'learning_rate': 0.0003426939205749787, 'epoch': 0.4}
+{'loss': 1.5007, 'grad_norm': 0.14228381216526031, 'learning_rate': 0.00034250132881643506, 'epoch': 0.4}
+{'loss': 1.4852, 'grad_norm': 0.1277892142534256, 'learning_rate': 0.0003423086734328979, 'epoch': 0.4}
+{'loss': 1.4833, 'grad_norm': 0.13076560199260712, 'learning_rate': 0.0003421159545568809, 'epoch': 0.4}
+{'loss': 1.4915, 'grad_norm': 0.13976401090621948, 'learning_rate': 0.0003419231723209415, 'epoch': 0.4}
+{'loss': 1.4896, 'grad_norm': 0.12423858791589737, 'learning_rate': 0.0003417303268576807, 'epoch': 0.4}
+{'loss': 1.5134, 'grad_norm': 0.1519090235233307, 'learning_rate': 0.0003415374182997429, 'epoch': 0.4}
+{'loss': 1.4891, 'grad_norm': 0.14478039741516113, 'learning_rate': 0.0003413444467798162, 'epoch': 0.4}
+{'loss': 1.5173, 'grad_norm': 0.11585509032011032, 'learning_rate': 0.00034115141243063157, 'epoch': 0.4}
+{'loss': 1.4852, 'grad_norm': 0.14618955552577972, 'learning_rate': 0.00034095831538496357, 'epoch': 0.4}
+{'loss': 1.4798, 'grad_norm': 0.12973563373088837, 'learning_rate': 0.0003407651557756296, 'epoch': 0.4}
+{'loss': 1.4837, 'grad_norm': 0.1407720446586609, 'learning_rate': 0.00034057193373549036, 'epoch': 0.4}
+{'loss': 1.4769, 'grad_norm': 0.12395358830690384, 'learning_rate': 0.0003403786493974493, 'epoch': 0.4}
+{'loss': 1.4936, 'grad_norm': 0.1317807286977768, 'learning_rate': 0.0003401853028944528, 'epoch': 0.4}
+{'loss': 1.4946, 'grad_norm': 0.11714714765548706, 'learning_rate': 0.00033999189435948983, 'epoch': 0.4}
+{'loss': 1.472, 'grad_norm': 0.12025968730449677, 'learning_rate': 0.0003397984239255924, 'epoch': 0.4}
+{'loss': 1.4897, 'grad_norm': 0.1297307014465332, 'learning_rate': 0.0003396048917258348, 'epoch': 0.4}
+{'loss': 1.4825, 'grad_norm': 0.1291714757680893, 'learning_rate': 0.0003394112978933338, 'epoch': 0.4}
+{'loss': 1.4629, 'grad_norm': 0.11325814574956894, 'learning_rate': 0.0003392176425612486, 'epoch': 0.4}
+{'loss': 1.4653, 'grad_norm': 0.13711056113243103, 'learning_rate': 0.0003390239258627809, 'epoch': 0.4}
+{'loss': 1.4959, 'grad_norm': 0.15003091096878052, 'learning_rate': 0.00033883014793117434, 'epoch': 0.4}
+{'loss': 1.4718, 'grad_norm': 0.11796323210000992, 'learning_rate': 0.0003386363088997148, 'epoch': 0.4}
+{'loss': 1.4848, 'grad_norm': 0.17068271338939667, 'learning_rate': 0.0003384424089017301, 'epoch': 0.4}
+{'loss': 1.4847, 'grad_norm': 0.12175168097019196, 'learning_rate': 0.0003382484480705903, 'epoch': 0.4}
+{'loss': 1.4828, 'grad_norm': 0.1368507295846939, 'learning_rate': 0.0003380544265397068, 'epoch': 0.4}
+{'loss': 1.4743, 'grad_norm': 0.1486230045557022, 'learning_rate': 0.0003378603444425332, 'epoch': 0.4}
+{'loss': 1.4836, 'grad_norm': 0.14460621774196625, 'learning_rate': 0.0003376662019125645, 'epoch': 0.4}
+{'loss': 1.4908, 'grad_norm': 0.12945210933685303, 'learning_rate': 0.0003374719990833373, 'epoch': 0.4}
+{'loss': 1.502, 'grad_norm': 0.13977089524269104, 'learning_rate': 0.0003372777360884298, 'epoch': 0.4}
+{'loss': 1.4975, 'grad_norm': 0.1323923021554947, 'learning_rate': 0.0003370834130614615, 'epoch': 0.41}
+{'loss': 1.4934, 'grad_norm': 0.12515008449554443, 'learning_rate': 0.00033688903013609316, 'epoch': 0.41}
+{'loss': 1.4732, 'grad_norm': 0.16316074132919312, 'learning_rate': 0.0003366945874460269, 'epoch': 0.41}
+{'loss': 1.4765, 'grad_norm': 0.1381019651889801, 'learning_rate': 0.0003365000851250056, 'epoch': 0.41}
+{'loss': 1.4619, 'grad_norm': 0.10649792850017548, 'learning_rate': 0.0003363055233068136, 'epoch': 0.41}
+{'loss': 1.4624, 'grad_norm': 0.14635445177555084, 'learning_rate': 0.0003361109021252757, 'epoch': 0.41}
+{'loss': 1.5123, 'grad_norm': 0.12889328598976135, 'learning_rate': 0.00033591622171425813, 'epoch': 0.41}
+{'loss': 1.4933, 'grad_norm': 0.13195477426052094, 'learning_rate': 0.00033572148220766717, 'epoch': 0.41}
+{'loss': 1.4771, 'grad_norm': 0.12345379590988159, 'learning_rate': 0.0003355266837394502, 'epoch': 0.41}
+{'loss': 1.5196, 'grad_norm': 0.14197000861167908, 'learning_rate': 0.00033533182644359516, 'epoch': 0.41}
+{'loss': 1.4811, 'grad_norm': 0.12107572704553604, 'learning_rate': 0.0003351369104541301, 'epoch': 0.41}
+{'loss': 1.4991, 'grad_norm': 0.13702622056007385, 'learning_rate': 0.0003349419359051239, 'epoch': 0.41}
+{'loss': 1.5145, 'grad_norm': 0.126004159450531, 'learning_rate': 0.00033474690293068527, 'epoch': 0.41}
+{'loss': 1.4928, 'grad_norm': 0.11857627332210541, 'learning_rate': 0.0003345518116649636, 'epoch': 0.41}
+{'loss': 1.4675, 'grad_norm': 0.11687714606523514, 'learning_rate': 0.00033435666224214785, 'epoch': 0.41}
+{'loss': 1.4744, 'grad_norm': 0.12849874794483185, 'learning_rate': 0.0003341614547964674, 'epoch': 0.41}
+{'loss': 1.4754, 'grad_norm': 0.13286073505878448, 'learning_rate': 0.0003339661894621912, 'epoch': 0.41}
+{'loss': 1.4753, 'grad_norm': 0.1048552617430687, 'learning_rate': 0.00033377086637362844, 'epoch': 0.41}
+{'loss': 1.493, 'grad_norm': 0.13446225225925446, 'learning_rate': 0.0003335754856651276, 'epoch': 0.41}
+{'loss': 1.5113, 'grad_norm': 0.13418051600456238, 'learning_rate': 0.00033338004747107697, 'epoch': 0.41}
+{'loss': 1.4838, 'grad_norm': 0.11182720214128494, 'learning_rate': 0.0003331845519259045, 'epoch': 0.41}
+{'loss': 1.4861, 'grad_norm': 0.13710087537765503, 'learning_rate': 0.00033298899916407737, 'epoch': 0.41}
+{'loss': 1.478, 'grad_norm': 0.11876904219388962, 'learning_rate': 0.00033279338932010237, 'epoch': 0.41}
+{'loss': 1.4943, 'grad_norm': 0.10643953084945679, 'learning_rate': 0.00033259772252852536, 'epoch': 0.41}
+{'loss': 1.4536, 'grad_norm': 0.12441275268793106, 'learning_rate': 0.0003324019989239313, 'epoch': 0.41}
+{'loss': 1.4864, 'grad_norm': 0.11825178563594818, 'learning_rate': 0.00033220621864094436, 'epoch': 0.41}
+{'loss': 1.51, 'grad_norm': 0.1095193475484848, 'learning_rate': 0.00033201038181422785, 'epoch': 0.41}
+{'loss': 1.5124, 'grad_norm': 0.14178279042243958, 'learning_rate': 0.0003318144885784836, 'epoch': 0.41}
+{'loss': 1.4844, 'grad_norm': 0.10980721563100815, 'learning_rate': 0.0003316185390684526, 'epoch': 0.41}
+{'loss': 1.4569, 'grad_norm': 0.13760343194007874, 'learning_rate': 0.00033142253341891424, 'epoch': 0.41}
+{'loss': 1.491, 'grad_norm': 0.15112604200839996, 'learning_rate': 0.0003312264717646868, 'epoch': 0.41}
+{'loss': 1.4883, 'grad_norm': 0.1210704818367958, 'learning_rate': 0.0003310303542406269, 'epoch': 0.41}
+{'loss': 1.5, 'grad_norm': 0.1346774697303772, 'learning_rate': 0.0003308341809816296, 'epoch': 0.41}
+{'loss': 1.4721, 'grad_norm': 0.14341138303279877, 'learning_rate': 0.00033063795212262835, 'epoch': 0.41}
+{'loss': 1.4829, 'grad_norm': 0.12422632426023483, 'learning_rate': 0.00033044166779859496, 'epoch': 0.41}
+{'loss': 1.497, 'grad_norm': 0.14301514625549316, 'learning_rate': 0.0003302453281445391, 'epoch': 0.41}
+{'loss': 1.4886, 'grad_norm': 0.1300729662179947, 'learning_rate': 0.00033004893329550874, 'epoch': 0.41}
+{'loss': 1.4936, 'grad_norm': 0.10837728530168533, 'learning_rate': 0.00032985248338658976, 'epoch': 0.41}
+{'loss': 1.4717, 'grad_norm': 0.13717633485794067, 'learning_rate': 0.00032965597855290574, 'epoch': 0.41}
+{'loss': 1.4816, 'grad_norm': 0.1350097358226776, 'learning_rate': 0.0003294594189296184, 'epoch': 0.42}
+{'loss': 1.4837, 'grad_norm': 0.14375390112400055, 'learning_rate': 0.0003292628046519267, 'epoch': 0.42}
+{'loss': 1.4605, 'grad_norm': 0.13281047344207764, 'learning_rate': 0.0003290661358550677, 'epoch': 0.42}
+{'loss': 1.4876, 'grad_norm': 0.13118156790733337, 'learning_rate': 0.0003288694126743154, 'epoch': 0.42}
+{'loss': 1.4887, 'grad_norm': 0.13124290108680725, 'learning_rate': 0.00032867263524498163, 'epoch': 0.42}
+{'loss': 1.4893, 'grad_norm': 0.1400400698184967, 'learning_rate': 0.00032847580370241544, 'epoch': 0.42}
+{'loss': 1.4922, 'grad_norm': 0.15795733034610748, 'learning_rate': 0.0003282789181820029, 'epoch': 0.42}
+{'loss': 1.4934, 'grad_norm': 0.10646651685237885, 'learning_rate': 0.0003280819788191675, 'epoch': 0.42}
+{'loss': 1.513, 'grad_norm': 0.1276462823152542, 'learning_rate': 0.0003278849857493696, 'epoch': 0.42}
+{'loss': 1.4854, 'grad_norm': 0.15685375034809113, 'learning_rate': 0.00032768793910810645, 'epoch': 0.42}
+{'loss': 1.4765, 'grad_norm': 0.11618101596832275, 'learning_rate': 0.00032749083903091234, 'epoch': 0.42}
+{'loss': 1.4962, 'grad_norm': 0.14373615384101868, 'learning_rate': 0.0003272936856533581, 'epoch': 0.42}
+{'loss': 1.4774, 'grad_norm': 0.13037195801734924, 'learning_rate': 0.0003270964791110513, 'epoch': 0.42}
+{'loss': 1.4552, 'grad_norm': 0.1262446641921997, 'learning_rate': 0.0003268992195396363, 'epoch': 0.42}
+{'loss': 1.4933, 'grad_norm': 0.10761858522891998, 'learning_rate': 0.0003267019070747935, 'epoch': 0.42}
+{'loss': 1.4842, 'grad_norm': 0.13483014702796936, 'learning_rate': 0.0003265045418522401, 'epoch': 0.42}
+{'loss': 1.4858, 'grad_norm': 0.12673810124397278, 'learning_rate': 0.00032630712400772923, 'epoch': 0.42}
+{'loss': 1.4698, 'grad_norm': 0.11907985061407089, 'learning_rate': 0.0003261096536770505, 'epoch': 0.42}
+{'loss': 1.473, 'grad_norm': 0.14140956103801727, 'learning_rate': 0.0003259121309960295, 'epoch': 0.42}
+{'loss': 1.4711, 'grad_norm': 0.11018252372741699, 'learning_rate': 0.00032571455610052783, 'epoch': 0.42}
+{'loss': 1.4915, 'grad_norm': 0.1284351497888565, 'learning_rate': 0.00032551692912644297, 'epoch': 0.42}
+{'loss': 1.4954, 'grad_norm': 0.11696895211935043, 'learning_rate': 0.00032531925020970833, 'epoch': 0.42}
+{'loss': 1.4592, 'grad_norm': 0.11621476709842682, 'learning_rate': 0.00032512151948629295, 'epoch': 0.42}
+{'loss': 1.4759, 'grad_norm': 0.12800906598567963, 'learning_rate': 0.0003249237370922015, 'epoch': 0.42}
+{'loss': 1.483, 'grad_norm': 0.11827747523784637, 'learning_rate': 0.0003247259031634743, 'epoch': 0.42}
+{'loss': 1.4915, 'grad_norm': 0.12050145864486694, 'learning_rate': 0.0003245280178361869, 'epoch': 0.42}
+{'loss': 1.4934, 'grad_norm': 0.12154009938240051, 'learning_rate': 0.0003243300812464506, 'epoch': 0.42}
+{'loss': 1.4953, 'grad_norm': 0.13691797852516174, 'learning_rate': 0.00032413209353041153, 'epoch': 0.42}
+{'loss': 1.4936, 'grad_norm': 0.13355383276939392, 'learning_rate': 0.0003239340548242511, 'epoch': 0.42}
+{'loss': 1.4791, 'grad_norm': 0.11781283468008041, 'learning_rate': 0.00032373596526418604, 'epoch': 0.42}
+{'loss': 1.4777, 'grad_norm': 0.14126047492027283, 'learning_rate': 0.0003235378249864678, 'epoch': 0.42}
+{'loss': 1.5003, 'grad_norm': 0.13046930730342865, 'learning_rate': 0.00032333963412738267, 'epoch': 0.42}
+{'loss': 1.458, 'grad_norm': 0.13432227075099945, 'learning_rate': 0.00032314139282325194, 'epoch': 0.42}
+{'loss': 1.4648, 'grad_norm': 0.13455934822559357, 'learning_rate': 0.00032294310121043165, 'epoch': 0.42}
+{'loss': 1.4888, 'grad_norm': 0.1336349993944168, 'learning_rate': 0.0003227447594253121, 'epoch': 0.42}
+{'loss': 1.4691, 'grad_norm': 0.1424412727355957, 'learning_rate': 0.00032254636760431835, 'epoch': 0.42}
+{'loss': 1.4843, 'grad_norm': 0.13574567437171936, 'learning_rate': 0.0003223479258839098, 'epoch': 0.42}
+{'loss': 1.4708, 'grad_norm': 0.1352398693561554, 'learning_rate': 0.0003221494344005803, 'epoch': 0.42}
+{'loss': 1.5179, 'grad_norm': 0.13183185458183289, 'learning_rate': 0.0003219508932908578, 'epoch': 0.42}
+{'loss': 1.4641, 'grad_norm': 0.1395125687122345, 'learning_rate': 0.0003217523026913044, 'epoch': 0.43}
+{'loss': 1.4656, 'grad_norm': 0.1199750080704689, 'learning_rate': 0.00032155366273851617, 'epoch': 0.43}
+{'loss': 1.4812, 'grad_norm': 0.12934300303459167, 'learning_rate': 0.0003213549735691233, 'epoch': 0.43}
+{'loss': 1.4802, 'grad_norm': 0.1275636851787567, 'learning_rate': 0.0003211562353197897, 'epoch': 0.43}
+{'loss': 1.5126, 'grad_norm': 0.11591078341007233, 'learning_rate': 0.0003209574481272131, 'epoch': 0.43}
+{'loss': 1.4929, 'grad_norm': 0.12999048829078674, 'learning_rate': 0.00032075861212812486, 'epoch': 0.43}
+{'loss': 1.4822, 'grad_norm': 0.13003139197826385, 'learning_rate': 0.00032055972745928996, 'epoch': 0.43}
+{'loss': 1.4775, 'grad_norm': 0.1182827427983284, 'learning_rate': 0.0003203607942575069, 'epoch': 0.43}
+{'loss': 1.496, 'grad_norm': 0.13626353442668915, 'learning_rate': 0.0003201618126596072, 'epoch': 0.43}
+{'loss': 1.4676, 'grad_norm': 0.10501854866743088, 'learning_rate': 0.00031996278280245624, 'epoch': 0.43}
+{'loss': 1.4999, 'grad_norm': 0.13087213039398193, 'learning_rate': 0.00031976370482295215, 'epoch': 0.43}
+{'loss': 1.4726, 'grad_norm': 0.1180068850517273, 'learning_rate': 0.00031956457885802645, 'epoch': 0.43}
+{'loss': 1.4842, 'grad_norm': 0.11461848020553589, 'learning_rate': 0.0003193654050446433, 'epoch': 0.43}
+{'loss': 1.478, 'grad_norm': 0.11822507530450821, 'learning_rate': 0.00031916618351980034, 'epoch': 0.43}
+{'loss': 1.5061, 'grad_norm': 0.11818814277648926, 'learning_rate': 0.00031896691442052737, 'epoch': 0.43}
+{'loss': 1.4673, 'grad_norm': 0.14038896560668945, 'learning_rate': 0.00031876759788388744, 'epoch': 0.43}
+{'loss': 1.5056, 'grad_norm': 0.11409890651702881, 'learning_rate': 0.0003185682340469759, 'epoch': 0.43}
+{'loss': 1.4815, 'grad_norm': 0.10666202753782272, 'learning_rate': 0.0003183688230469208, 'epoch': 0.43}
+{'loss': 1.4924, 'grad_norm': 0.13334953784942627, 'learning_rate': 0.00031816936502088264, 'epoch': 0.43}
+{'loss': 1.4786, 'grad_norm': 0.11700271815061569, 'learning_rate': 0.0003179698601060541, 'epoch': 0.43}
+{'loss': 1.4966, 'grad_norm': 0.11817753314971924, 'learning_rate': 0.0003177703084396603, 'epoch': 0.43}
+{'loss': 1.4925, 'grad_norm': 0.12462454289197922, 'learning_rate': 0.0003175707101589585, 'epoch': 0.43}
+{'loss': 1.4782, 'grad_norm': 0.12434685230255127, 'learning_rate': 0.00031737106540123786, 'epoch': 0.43}
+{'loss': 1.4898, 'grad_norm': 0.12567012012004852, 'learning_rate': 0.0003171713743038196, 'epoch': 0.43}
+{'loss': 1.5167, 'grad_norm': 0.13406695425510406, 'learning_rate': 0.00031697163700405685, 'epoch': 0.43}
+{'loss': 1.4899, 'grad_norm': 0.11070768535137177, 'learning_rate': 0.0003167718536393346, 'epoch': 0.43}
+{'loss': 1.4736, 'grad_norm': 0.13444200158119202, 'learning_rate': 0.00031657202434706933, 'epoch': 0.43}
+{'loss': 1.5068, 'grad_norm': 0.11817290633916855, 'learning_rate': 0.00031637214926470914, 'epoch': 0.43}
+{'loss': 1.4711, 'grad_norm': 0.11442625522613525, 'learning_rate': 0.0003161722285297338, 'epoch': 0.43}
+{'loss': 1.465, 'grad_norm': 0.11483863741159439, 'learning_rate': 0.0003159722622796543, 'epoch': 0.43}
+{'loss': 1.4747, 'grad_norm': 0.11099347472190857, 'learning_rate': 0.00031577225065201306, 'epoch': 0.43}
+{'loss': 1.455, 'grad_norm': 0.12973769009113312, 'learning_rate': 0.0003155721937843836, 'epoch': 0.43}
+{'loss': 1.4768, 'grad_norm': 0.11390502005815506, 'learning_rate': 0.0003153720918143705, 'epoch': 0.43}
+{'loss': 1.4881, 'grad_norm': 0.13877275586128235, 'learning_rate': 0.0003151719448796098, 'epoch': 0.43}
+{'loss': 1.477, 'grad_norm': 0.1056341826915741, 'learning_rate': 0.00031497175311776785, 'epoch': 0.43}
+{'loss': 1.4774, 'grad_norm': 0.10985017567873001, 'learning_rate': 0.00031477151666654227, 'epoch': 0.43}
+{'loss': 1.4669, 'grad_norm': 0.1273355334997177, 'learning_rate': 0.00031457123566366115, 'epoch': 0.43}
+{'loss': 1.4975, 'grad_norm': 0.11657925695180893, 'learning_rate': 0.00031437091024688347, 'epoch': 0.43}
+{'loss': 1.4733, 'grad_norm': 0.12711185216903687, 'learning_rate': 0.00031417054055399865, 'epoch': 0.43}
+{'loss': 1.4845, 'grad_norm': 0.12556932866573334, 'learning_rate': 0.00031397012672282636, 'epoch': 0.44}
+{'loss': 1.5017, 'grad_norm': 0.11256925016641617, 'learning_rate': 0.0003137696688912171, 'epoch': 0.44}
+{'loss': 1.4742, 'grad_norm': 0.10977605730295181, 'learning_rate': 0.0003135691671970512, 'epoch': 0.44}
+{'loss': 1.4923, 'grad_norm': 0.12445935606956482, 'learning_rate': 0.0003133686217782393, 'epoch': 0.44}
+{'loss': 1.4727, 'grad_norm': 0.11568101495504379, 'learning_rate': 0.0003131680327727221, 'epoch': 0.44}
+{'loss': 1.4821, 'grad_norm': 0.1277109533548355, 'learning_rate': 0.00031296740031847047, 'epoch': 0.44}
+{'loss': 1.4753, 'grad_norm': 0.12205871939659119, 'learning_rate': 0.000312766724553485, 'epoch': 0.44}
+{'loss': 1.4818, 'grad_norm': 0.12833763659000397, 'learning_rate': 0.0003125660056157958, 'epoch': 0.44}
+{'loss': 1.477, 'grad_norm': 0.11306769400835037, 'learning_rate': 0.00031236524364346326, 'epoch': 0.44}
+{'loss': 1.4959, 'grad_norm': 0.12045973539352417, 'learning_rate': 0.0003121644387745769, 'epoch': 0.44}
+{'loss': 1.4875, 'grad_norm': 0.12542195618152618, 'learning_rate': 0.000311963591147256, 'epoch': 0.44}
+{'loss': 1.494, 'grad_norm': 0.1096624881029129, 'learning_rate': 0.00031176270089964907, 'epoch': 0.44}
+{'loss': 1.4903, 'grad_norm': 0.1110384613275528, 'learning_rate': 0.0003115617681699341, 'epoch': 0.44}
+{'loss': 1.4712, 'grad_norm': 0.11641255021095276, 'learning_rate': 0.0003113607930963182, 'epoch': 0.44}
+{'loss': 1.4976, 'grad_norm': 0.12233910709619522, 'learning_rate': 0.0003111597758170376, 'epoch': 0.44}
+{'loss': 1.4789, 'grad_norm': 0.1181987076997757, 'learning_rate': 0.0003109587164703576, 'epoch': 0.44}
+{'loss': 1.4738, 'grad_norm': 0.12574926018714905, 'learning_rate': 0.00031075761519457247, 'epoch': 0.44}
+{'loss': 1.4689, 'grad_norm': 0.11269812285900116, 'learning_rate': 0.0003105564721280053, 'epoch': 0.44}
+{'loss': 1.4881, 'grad_norm': 0.13240067660808563, 'learning_rate': 0.0003103552874090079, 'epoch': 0.44}
+{'loss': 1.5164, 'grad_norm': 0.12444189190864563, 'learning_rate': 0.0003101540611759605, 'epoch': 0.44}
+{'loss': 1.4726, 'grad_norm': 0.12981507182121277, 'learning_rate': 0.00030995279356727234, 'epoch': 0.44}
+{'loss': 1.466, 'grad_norm': 0.13997365534305573, 'learning_rate': 0.00030975148472138085, 'epoch': 0.44}
+{'loss': 1.4512, 'grad_norm': 0.11949034035205841, 'learning_rate': 0.000309550134776752, 'epoch': 0.44}
+{'loss': 1.4742, 'grad_norm': 0.15875744819641113, 'learning_rate': 0.0003093487438718796, 'epoch': 0.44}
+{'loss': 1.472, 'grad_norm': 0.10596396028995514, 'learning_rate': 0.00030914731214528614, 'epoch': 0.44}
+{'loss': 1.4711, 'grad_norm': 0.17019613087177277, 'learning_rate': 0.000308945839735522, 'epoch': 0.44}
+{'loss': 1.4818, 'grad_norm': 0.12378959357738495, 'learning_rate': 0.0003087443267811654, 'epoch': 0.44}
+{'loss': 1.484, 'grad_norm': 0.11048336327075958, 'learning_rate': 0.0003085427734208226, 'epoch': 0.44}
+{'loss': 1.4811, 'grad_norm': 0.13572414219379425, 'learning_rate': 0.00030834117979312766, 'epoch': 0.44}
+{'loss': 1.4913, 'grad_norm': 0.12184587121009827, 'learning_rate': 0.0003081395460367423, 'epoch': 0.44}
+{'loss': 1.4829, 'grad_norm': 0.11628454923629761, 'learning_rate': 0.0003079378722903559, 'epoch': 0.44}
+{'loss': 1.4877, 'grad_norm': 0.12006380409002304, 'learning_rate': 0.00030773615869268505, 'epoch': 0.44}
+{'loss': 1.4705, 'grad_norm': 0.11441999673843384, 'learning_rate': 0.0003075344053824742, 'epoch': 0.44}
+{'loss': 1.4803, 'grad_norm': 0.13579605519771576, 'learning_rate': 0.0003073326124984949, 'epoch': 0.44}
+{'loss': 1.4851, 'grad_norm': 0.12345817685127258, 'learning_rate': 0.00030713078017954594, 'epoch': 0.44}
+{'loss': 1.4844, 'grad_norm': 0.13695402443408966, 'learning_rate': 0.000306928908564453, 'epoch': 0.44}
+{'loss': 1.4917, 'grad_norm': 0.11009374260902405, 'learning_rate': 0.00030672699779206924, 'epoch': 0.44}
+{'loss': 1.4849, 'grad_norm': 0.12395564466714859, 'learning_rate': 0.0003065250480012745, 'epoch': 0.44}
+{'loss': 1.4758, 'grad_norm': 0.1318904608488083, 'learning_rate': 0.00030632305933097536, 'epoch': 0.44}
+{'loss': 1.4969, 'grad_norm': 0.12320229411125183, 'learning_rate': 0.00030612103192010525, 'epoch': 0.45}
+{'loss': 1.4886, 'grad_norm': 0.1256997287273407, 'learning_rate': 0.0003059189659076244, 'epoch': 0.45}
+{'loss': 1.5146, 'grad_norm': 0.12364832311868668, 'learning_rate': 0.00030571686143251943, 'epoch': 0.45}
+{'loss': 1.4901, 'grad_norm': 0.12446365505456924, 'learning_rate': 0.00030551471863380324, 'epoch': 0.45}
+{'loss': 1.4735, 'grad_norm': 0.12318159639835358, 'learning_rate': 0.00030531253765051555, 'epoch': 0.45}
+{'loss': 1.4858, 'grad_norm': 0.1363154798746109, 'learning_rate': 0.00030511031862172187, 'epoch': 0.45}
+{'loss': 1.4827, 'grad_norm': 0.1287848949432373, 'learning_rate': 0.0003049080616865142, 'epoch': 0.45}
+{'loss': 1.4897, 'grad_norm': 0.13571535050868988, 'learning_rate': 0.00030470576698401043, 'epoch': 0.45}
+{'loss': 1.472, 'grad_norm': 0.13991230726242065, 'learning_rate': 0.00030450343465335456, 'epoch': 0.45}
+{'loss': 1.485, 'grad_norm': 0.1160571426153183, 'learning_rate': 0.00030430106483371645, 'epoch': 0.45}
+{'loss': 1.5002, 'grad_norm': 0.12757371366024017, 'learning_rate': 0.0003040986576642916, 'epoch': 0.45}
+{'loss': 1.4915, 'grad_norm': 0.15957526862621307, 'learning_rate': 0.00030389621328430136, 'epoch': 0.45}
+{'loss': 1.4966, 'grad_norm': 0.12761616706848145, 'learning_rate': 0.00030369373183299254, 'epoch': 0.45}
+{'loss': 1.4811, 'grad_norm': 0.17017677426338196, 'learning_rate': 0.00030349121344963766, 'epoch': 0.45}
+{'loss': 1.4976, 'grad_norm': 0.1355014443397522, 'learning_rate': 0.0003032886582735344, 'epoch': 0.45}
+{'loss': 1.4612, 'grad_norm': 0.13375838100910187, 'learning_rate': 0.00030308606644400594, 'epoch': 0.45}
+{'loss': 1.4777, 'grad_norm': 0.13849714398384094, 'learning_rate': 0.0003028834381004005, 'epoch': 0.45}
+{'loss': 1.4922, 'grad_norm': 0.11039123684167862, 'learning_rate': 0.0003026807733820917, 'epoch': 0.45}
+{'loss': 1.4882, 'grad_norm': 0.1514798253774643, 'learning_rate': 0.0003024780724284777, 'epoch': 0.45}
+{'loss': 1.481, 'grad_norm': 0.12281369417905807, 'learning_rate': 0.0003022753353789821, 'epoch': 0.45}
+{'loss': 1.4853, 'grad_norm': 0.13647203147411346, 'learning_rate': 0.000302072562373053, 'epoch': 0.45}
+{'loss': 1.4858, 'grad_norm': 0.1331947147846222, 'learning_rate': 0.0003018697535501633, 'epoch': 0.45}
+{'loss': 1.4792, 'grad_norm': 0.1304686963558197, 'learning_rate': 0.00030166690904981065, 'epoch': 0.45}
+{'loss': 1.4714, 'grad_norm': 0.12635134160518646, 'learning_rate': 0.0003014640290115171, 'epoch': 0.45}
+{'loss': 1.4991, 'grad_norm': 0.1134629100561142, 'learning_rate': 0.0003012611135748292, 'epoch': 0.45}
+{'loss': 1.4786, 'grad_norm': 0.14005133509635925, 'learning_rate': 0.0003010581628793179, 'epoch': 0.45}
+{'loss': 1.4822, 'grad_norm': 0.15109816193580627, 'learning_rate': 0.00030085517706457827, 'epoch': 0.45}
+{'loss': 1.5056, 'grad_norm': 0.1212785467505455, 'learning_rate': 0.0003006521562702295, 'epoch': 0.45}
+{'loss': 1.468, 'grad_norm': 0.13274061679840088, 'learning_rate': 0.0003004491006359153, 'epoch': 0.45}
+{'loss': 1.4861, 'grad_norm': 0.14140547811985016, 'learning_rate': 0.0003002460103013028, 'epoch': 0.45}
+{'loss': 1.462, 'grad_norm': 0.13322506844997406, 'learning_rate': 0.000300042885406083, 'epoch': 0.45}
+{'loss': 1.4853, 'grad_norm': 0.11307000368833542, 'learning_rate': 0.00029983972608997123, 'epoch': 0.45}
+{'loss': 1.4821, 'grad_norm': 0.1233307495713234, 'learning_rate': 0.0002996365324927059, 'epoch': 0.45}
+{'loss': 1.4803, 'grad_norm': 0.14423981308937073, 'learning_rate': 0.00029943330475404935, 'epoch': 0.45}
+{'loss': 1.4917, 'grad_norm': 0.13461045920848846, 'learning_rate': 0.0002992300430137872, 'epoch': 0.45}
+{'loss': 1.4735, 'grad_norm': 0.12138967216014862, 'learning_rate': 0.0002990267474117285, 'epoch': 0.45}
+{'loss': 1.504, 'grad_norm': 0.13701947033405304, 'learning_rate': 0.0002988234180877059, 'epoch': 0.45}
+{'loss': 1.4872, 'grad_norm': 0.12083544582128525, 'learning_rate': 0.00029862005518157457, 'epoch': 0.45}
+{'loss': 1.4721, 'grad_norm': 0.11713165044784546, 'learning_rate': 0.00029841665883321354, 'epoch': 0.45}
+{'loss': 1.4571, 'grad_norm': 0.12734635174274445, 'learning_rate': 0.00029821322918252433, 'epoch': 0.46}
+{'loss': 1.4838, 'grad_norm': 0.1077677309513092, 'learning_rate': 0.0002980097663694316, 'epoch': 0.46}
+{'loss': 1.5008, 'grad_norm': 0.1281246691942215, 'learning_rate': 0.00029780627053388264, 'epoch': 0.46}
+{'loss': 1.4858, 'grad_norm': 0.13099603354930878, 'learning_rate': 0.00029760274181584763, 'epoch': 0.46}
+{'loss': 1.4838, 'grad_norm': 0.11252374947071075, 'learning_rate': 0.0002973991803553193, 'epoch': 0.46}
+{'loss': 1.5051, 'grad_norm': 0.1257525384426117, 'learning_rate': 0.00029719558629231287, 'epoch': 0.46}
+{'loss': 1.49, 'grad_norm': 0.12403534352779388, 'learning_rate': 0.0002969919597668661, 'epoch': 0.46}
+{'loss': 1.4729, 'grad_norm': 0.11068280786275864, 'learning_rate': 0.00029678830091903885, 'epoch': 0.46}
+{'loss': 1.5062, 'grad_norm': 0.11291664093732834, 'learning_rate': 0.0002965846098889134, 'epoch': 0.46}
+{'loss': 1.4519, 'grad_norm': 0.12323795258998871, 'learning_rate': 0.0002963808868165943, 'epoch': 0.46}
+{'loss': 1.4901, 'grad_norm': 0.11541806906461716, 'learning_rate': 0.0002961771318422077, 'epoch': 0.46}
+{'loss': 1.5041, 'grad_norm': 0.12533913552761078, 'learning_rate': 0.0002959733451059021, 'epoch': 0.46}
+{'loss': 1.5041, 'grad_norm': 0.1302228569984436, 'learning_rate': 0.00029576952674784763, 'epoch': 0.46}
+{'loss': 1.4886, 'grad_norm': 0.12286112457513809, 'learning_rate': 0.0002955656769082363, 'epoch': 0.46}
+{'loss': 1.4974, 'grad_norm': 0.14362895488739014, 'learning_rate': 0.0002953617957272817, 'epoch': 0.46}
+{'loss': 1.4921, 'grad_norm': 0.10138978809118271, 'learning_rate': 0.00029515788334521896, 'epoch': 0.46}
+{'loss': 1.4771, 'grad_norm': 0.13497130572795868, 'learning_rate': 0.00029495393990230484, 'epoch': 0.46}
+{'loss': 1.474, 'grad_norm': 0.1110452190041542, 'learning_rate': 0.0002947499655388171, 'epoch': 0.46}
+{'loss': 1.4838, 'grad_norm': 0.11557146161794662, 'learning_rate': 0.0002945459603950552, 'epoch': 0.46}
+{'loss': 1.4775, 'grad_norm': 0.10594145208597183, 'learning_rate': 0.00029434192461133936, 'epoch': 0.46}
+{'loss': 1.4915, 'grad_norm': 0.1192389503121376, 'learning_rate': 0.00029413785832801124, 'epoch': 0.46}
+{'loss': 1.4824, 'grad_norm': 0.13113054633140564, 'learning_rate': 0.00029393376168543333, 'epoch': 0.46}
+{'loss': 1.4874, 'grad_norm': 0.1154773086309433, 'learning_rate': 0.0002937296348239889, 'epoch': 0.46}
+{'loss': 1.439, 'grad_norm': 0.12725499272346497, 'learning_rate': 0.0002935254778840821, 'epoch': 0.46}
+{'loss': 1.485, 'grad_norm': 0.141581192612648, 'learning_rate': 0.0002933212910061379, 'epoch': 0.46}
+{'loss': 1.4534, 'grad_norm': 0.11981897801160812, 'learning_rate': 0.00029311707433060164, 'epoch': 0.46}
+{'loss': 1.4858, 'grad_norm': 0.13062208890914917, 'learning_rate': 0.0002929128279979392, 'epoch': 0.46}
+{'loss': 1.474, 'grad_norm': 0.13106217980384827, 'learning_rate': 0.0002927085521486369, 'epoch': 0.46}
+{'loss': 1.4967, 'grad_norm': 0.1222241222858429, 'learning_rate': 0.0002925042469232014, 'epoch': 0.46}
+{'loss': 1.4835, 'grad_norm': 0.13254252076148987, 'learning_rate': 0.0002922999124621596, 'epoch': 0.46}
+{'loss': 1.5233, 'grad_norm': 0.12502865493297577, 'learning_rate': 0.00029209554890605844, 'epoch': 0.46}
+{'loss': 1.4744, 'grad_norm': 0.11362510174512863, 'learning_rate': 0.00029189115639546463, 'epoch': 0.46}
+{'loss': 1.4532, 'grad_norm': 0.1576523780822754, 'learning_rate': 0.0002916867350709654, 'epoch': 0.46}
+{'loss': 1.4701, 'grad_norm': 0.11445962637662888, 'learning_rate': 0.00029148228507316714, 'epoch': 0.46}
+{'loss': 1.4748, 'grad_norm': 0.13087016344070435, 'learning_rate': 0.00029127780654269656, 'epoch': 0.46}
+{'loss': 1.4924, 'grad_norm': 0.13483156263828278, 'learning_rate': 0.0002910732996201993, 'epoch': 0.46}
+{'loss': 1.4822, 'grad_norm': 0.12773922085762024, 'learning_rate': 0.00029086876444634125, 'epoch': 0.46}
+{'loss': 1.4675, 'grad_norm': 0.13714997470378876, 'learning_rate': 0.0002906642011618073, 'epoch': 0.46}
+{'loss': 1.4764, 'grad_norm': 0.1246129497885704, 'learning_rate': 0.00029045960990730177, 'epoch': 0.46}
+{'loss': 1.5233, 'grad_norm': 0.12605436146259308, 'learning_rate': 0.0002902549908235482, 'epoch': 0.47}
+{'loss': 1.493, 'grad_norm': 0.10961008071899414, 'learning_rate': 0.0002900503440512894, 'epoch': 0.47}
+{'loss': 1.489, 'grad_norm': 0.12477337568998337, 'learning_rate': 0.00028984566973128703, 'epoch': 0.47}
+{'loss': 1.4826, 'grad_norm': 0.11078917235136032, 'learning_rate': 0.0002896409680043218, 'epoch': 0.47}
+{'loss': 1.4698, 'grad_norm': 0.10888873040676117, 'learning_rate': 0.0002894362390111934, 'epoch': 0.47}
+{'loss': 1.4811, 'grad_norm': 0.1276187300682068, 'learning_rate': 0.00028923148289271993, 'epoch': 0.47}
+{'loss': 1.5001, 'grad_norm': 0.1263773888349533, 'learning_rate': 0.00028902669978973853, 'epoch': 0.47}
+{'loss': 1.4634, 'grad_norm': 0.12435457855463028, 'learning_rate': 0.00028882188984310467, 'epoch': 0.47}
+{'loss': 1.4936, 'grad_norm': 0.1338060051202774, 'learning_rate': 0.00028861705319369236, 'epoch': 0.47}
+{'loss': 1.491, 'grad_norm': 0.13572442531585693, 'learning_rate': 0.00028841218998239396, 'epoch': 0.47}
+{'loss': 1.4874, 'grad_norm': 0.12246978282928467, 'learning_rate': 0.00028820730035012, 'epoch': 0.47}
+{'loss': 1.4864, 'grad_norm': 0.13858941197395325, 'learning_rate': 0.00028800238443779934, 'epoch': 0.47}
+{'loss': 1.4623, 'grad_norm': 0.1398540884256363, 'learning_rate': 0.000287797442386379, 'epoch': 0.47}
+{'loss': 1.4881, 'grad_norm': 0.133425772190094, 'learning_rate': 0.0002875924743368236, 'epoch': 0.47}
+{'loss': 1.4797, 'grad_norm': 0.1356537938117981, 'learning_rate': 0.00028738748043011616, 'epoch': 0.47}
+{'loss': 1.4819, 'grad_norm': 0.12708307802677155, 'learning_rate': 0.0002871824608072569, 'epoch': 0.47}
+{'loss': 1.5079, 'grad_norm': 0.14059053361415863, 'learning_rate': 0.00028697741560926424, 'epoch': 0.47}
+{'loss': 1.4809, 'grad_norm': 0.14043575525283813, 'learning_rate': 0.00028677234497717397, 'epoch': 0.47}
+{'loss': 1.4848, 'grad_norm': 0.12433284521102905, 'learning_rate': 0.00028656724905203924, 'epoch': 0.47}
+{'loss': 1.472, 'grad_norm': 0.13024626672267914, 'learning_rate': 0.0002863621279749309, 'epoch': 0.47}
+{'loss': 1.4501, 'grad_norm': 0.12993070483207703, 'learning_rate': 0.00028615698188693697, 'epoch': 0.47}
+{'loss': 1.4623, 'grad_norm': 0.13360925018787384, 'learning_rate': 0.0002859518109291625, 'epoch': 0.47}
+{'loss': 1.4703, 'grad_norm': 0.1400861293077469, 'learning_rate': 0.00028574661524272994, 'epoch': 0.47}
+{'loss': 1.4649, 'grad_norm': 0.1266053467988968, 'learning_rate': 0.0002855413949687784, 'epoch': 0.47}
+{'loss': 1.4941, 'grad_norm': 0.15645655989646912, 'learning_rate': 0.00028533615024846435, 'epoch': 0.47}
+{'loss': 1.4873, 'grad_norm': 0.13688017427921295, 'learning_rate': 0.0002851308812229608, 'epoch': 0.47}
+{'loss': 1.4824, 'grad_norm': 0.13708525896072388, 'learning_rate': 0.0002849255880334574, 'epoch': 0.47}
+{'loss': 1.4872, 'grad_norm': 0.13736823201179504, 'learning_rate': 0.00028472027082116055, 'epoch': 0.47}
+{'loss': 1.4666, 'grad_norm': 0.12571817636489868, 'learning_rate': 0.00028451492972729307, 'epoch': 0.47}
+{'loss': 1.4826, 'grad_norm': 0.14494185149669647, 'learning_rate': 0.00028430956489309455, 'epoch': 0.47}
+{'loss': 1.4904, 'grad_norm': 0.11097391694784164, 'learning_rate': 0.00028410417645982047, 'epoch': 0.47}
+{'loss': 1.4852, 'grad_norm': 0.13049064576625824, 'learning_rate': 0.0002838987645687427, 'epoch': 0.47}
+{'loss': 1.4677, 'grad_norm': 0.14812316000461578, 'learning_rate': 0.00028369332936114937, 'epoch': 0.47}
+{'loss': 1.4668, 'grad_norm': 0.10632484406232834, 'learning_rate': 0.0002834878709783445, 'epoch': 0.47}
+{'loss': 1.512, 'grad_norm': 0.12309382110834122, 'learning_rate': 0.000283282389561648, 'epoch': 0.47}
+{'loss': 1.4567, 'grad_norm': 0.12814101576805115, 'learning_rate': 0.0002830768852523959, 'epoch': 0.47}
+{'loss': 1.4805, 'grad_norm': 0.1141032725572586, 'learning_rate': 0.0002828713581919397, 'epoch': 0.47}
+{'loss': 1.468, 'grad_norm': 0.14542289078235626, 'learning_rate': 0.0002826658085216466, 'epoch': 0.47}
+{'loss': 1.4871, 'grad_norm': 0.11061286926269531, 'learning_rate': 0.0002824602363828994, 'epoch': 0.47}
+{'loss': 1.471, 'grad_norm': 0.1214519739151001, 'learning_rate': 0.0002822546419170965, 'epoch': 0.48}
+{'loss': 1.4648, 'grad_norm': 0.12777800858020782, 'learning_rate': 0.0002820490252656513, 'epoch': 0.48}
+{'loss': 1.511, 'grad_norm': 0.10369498282670975, 'learning_rate': 0.0002818433865699928, 'epoch': 0.48}
+{'loss': 1.4742, 'grad_norm': 0.1121247410774231, 'learning_rate': 0.00028163772597156493, 'epoch': 0.48}
+{'loss': 1.4556, 'grad_norm': 0.11255201697349548, 'learning_rate': 0.00028143204361182696, 'epoch': 0.48}
+{'loss': 1.4692, 'grad_norm': 0.11103404313325882, 'learning_rate': 0.0002812263396322528, 'epoch': 0.48}
+{'loss': 1.4828, 'grad_norm': 0.13274069130420685, 'learning_rate': 0.00028102061417433144, 'epoch': 0.48}
+{'loss': 1.462, 'grad_norm': 0.10359536856412888, 'learning_rate': 0.0002808148673795665, 'epoch': 0.48}
+{'loss': 1.4701, 'grad_norm': 0.11537223309278488, 'learning_rate': 0.0002806090993894765, 'epoch': 0.48}
+{'loss': 1.4906, 'grad_norm': 0.1247657984495163, 'learning_rate': 0.00028040331034559436, 'epoch': 0.48}
+{'loss': 1.4603, 'grad_norm': 0.10672155767679214, 'learning_rate': 0.0002801975003894675, 'epoch': 0.48}
+{'loss': 1.4754, 'grad_norm': 0.1380414068698883, 'learning_rate': 0.0002799916696626577, 'epoch': 0.48}
+{'loss': 1.4698, 'grad_norm': 0.11907767504453659, 'learning_rate': 0.0002797858183067411, 'epoch': 0.48}
+{'loss': 1.4911, 'grad_norm': 0.11619946360588074, 'learning_rate': 0.0002795799464633081, 'epoch': 0.48}
+{'loss': 1.5107, 'grad_norm': 0.13069792091846466, 'learning_rate': 0.000279374054273963, 'epoch': 0.48}
+{'loss': 1.4852, 'grad_norm': 0.12045922130346298, 'learning_rate': 0.00027916814188032405, 'epoch': 0.48}
+{'loss': 1.468, 'grad_norm': 0.1131303608417511, 'learning_rate': 0.0002789622094240239, 'epoch': 0.48}
+{'loss': 1.4665, 'grad_norm': 0.11879242956638336, 'learning_rate': 0.00027875625704670837, 'epoch': 0.48}
+{'loss': 1.4539, 'grad_norm': 0.11759265512228012, 'learning_rate': 0.00027855028489003736, 'epoch': 0.48}
+{'loss': 1.4716, 'grad_norm': 0.11801369488239288, 'learning_rate': 0.00027834429309568415, 'epoch': 0.48}
+{'loss': 1.503, 'grad_norm': 0.11291132867336273, 'learning_rate': 0.00027813828180533567, 'epoch': 0.48}
+{'loss': 1.4871, 'grad_norm': 0.11238503456115723, 'learning_rate': 0.0002779322511606924, 'epoch': 0.48}
+{'loss': 1.4928, 'grad_norm': 0.13110433518886566, 'learning_rate': 0.0002777262013034677, 'epoch': 0.48}
+{'loss': 1.4967, 'grad_norm': 0.10997319221496582, 'learning_rate': 0.00027752013237538855, 'epoch': 0.48}
+{'loss': 1.4946, 'grad_norm': 0.10664556920528412, 'learning_rate': 0.0002773140445181949, 'epoch': 0.48}
+{'loss': 1.5031, 'grad_norm': 0.1488477736711502, 'learning_rate': 0.0002771079378736398, 'epoch': 0.48}
+{'loss': 1.4799, 'grad_norm': 0.11258741468191147, 'learning_rate': 0.00027690181258348896, 'epoch': 0.48}
+{'loss': 1.4549, 'grad_norm': 0.1182592585682869, 'learning_rate': 0.00027669566878952125, 'epoch': 0.48}
+{'loss': 1.4818, 'grad_norm': 0.12878020107746124, 'learning_rate': 0.00027648950663352814, 'epoch': 0.48}
+{'loss': 1.4803, 'grad_norm': 0.10899945348501205, 'learning_rate': 0.00027628332625731353, 'epoch': 0.48}
+{'loss': 1.444, 'grad_norm': 0.11681564897298813, 'learning_rate': 0.0002760771278026942, 'epoch': 0.48}
+{'loss': 1.4653, 'grad_norm': 0.13182738423347473, 'learning_rate': 0.0002758709114114992, 'epoch': 0.48}
+{'loss': 1.486, 'grad_norm': 0.10865721106529236, 'learning_rate': 0.0002756646772255698, 'epoch': 0.48}
+{'loss': 1.4704, 'grad_norm': 0.12612172961235046, 'learning_rate': 0.00027545842538675974, 'epoch': 0.48}
+{'loss': 1.4743, 'grad_norm': 0.13500817120075226, 'learning_rate': 0.00027525215603693465, 'epoch': 0.48}
+{'loss': 1.4658, 'grad_norm': 0.1126287654042244, 'learning_rate': 0.00027504586931797255, 'epoch': 0.48}
+{'loss': 1.462, 'grad_norm': 0.13580091297626495, 'learning_rate': 0.00027483956537176294, 'epoch': 0.48}
+{'loss': 1.4745, 'grad_norm': 0.12548492848873138, 'learning_rate': 0.0002746332443402077, 'epoch': 0.48}
+{'loss': 1.4672, 'grad_norm': 0.11558642983436584, 'learning_rate': 0.00027442690636521994, 'epoch': 0.48}
+{'loss': 1.4825, 'grad_norm': 0.13705384731292725, 'learning_rate': 0.0002742205515887248, 'epoch': 0.49}
+{'loss': 1.4755, 'grad_norm': 0.1284726858139038, 'learning_rate': 0.0002740141801526589, 'epoch': 0.49}
+{'loss': 1.4619, 'grad_norm': 0.11137639731168747, 'learning_rate': 0.0002738077921989701, 'epoch': 0.49}
+{'loss': 1.4679, 'grad_norm': 0.12010439485311508, 'learning_rate': 0.000273601387869618, 'epoch': 0.49}
+{'loss': 1.4743, 'grad_norm': 0.1193556860089302, 'learning_rate': 0.00027339496730657305, 'epoch': 0.49}
+{'loss': 1.4511, 'grad_norm': 0.1204419881105423, 'learning_rate': 0.00027318853065181725, 'epoch': 0.49}
+{'loss': 1.5003, 'grad_norm': 0.1128927692770958, 'learning_rate': 0.0002729820780473434, 'epoch': 0.49}
+{'loss': 1.4603, 'grad_norm': 0.10952293127775192, 'learning_rate': 0.00027277560963515524, 'epoch': 0.49}
+{'loss': 1.473, 'grad_norm': 0.13284045457839966, 'learning_rate': 0.0002725691255572678, 'epoch': 0.49}
+{'loss': 1.4905, 'grad_norm': 0.1151832565665245, 'learning_rate': 0.0002723626259557063, 'epoch': 0.49}
+{'loss': 1.4764, 'grad_norm': 0.12286566942930222, 'learning_rate': 0.000272156110972507, 'epoch': 0.49}
+{'loss': 1.4984, 'grad_norm': 0.1151493564248085, 'learning_rate': 0.00027194958074971677, 'epoch': 0.49}
+{'loss': 1.4393, 'grad_norm': 0.11448245495557785, 'learning_rate': 0.0002717430354293928, 'epoch': 0.49}
+{'loss': 1.4969, 'grad_norm': 0.14965574443340302, 'learning_rate': 0.00027153647515360267, 'epoch': 0.49}
+{'loss': 1.48, 'grad_norm': 0.1298372447490692, 'learning_rate': 0.00027132990006442436, 'epoch': 0.49}
+{'loss': 1.4777, 'grad_norm': 0.12024392932653427, 'learning_rate': 0.00027112331030394596, 'epoch': 0.49}
+{'loss': 1.4763, 'grad_norm': 0.11068358272314072, 'learning_rate': 0.0002709167060142656, 'epoch': 0.49}
+{'loss': 1.4683, 'grad_norm': 0.1312006413936615, 'learning_rate': 0.00027071008733749164, 'epoch': 0.49}
+{'loss': 1.4615, 'grad_norm': 0.12547196447849274, 'learning_rate': 0.00027050345441574197, 'epoch': 0.49}
+{'loss': 1.493, 'grad_norm': 0.12819182872772217, 'learning_rate': 0.0002702968073911446, 'epoch': 0.49}
+{'loss': 1.4906, 'grad_norm': 0.12412100285291672, 'learning_rate': 0.0002700901464058371, 'epoch': 0.49}
+{'loss': 1.4863, 'grad_norm': 0.11922046542167664, 'learning_rate': 0.00026988347160196663, 'epoch': 0.49}
+{'loss': 1.4901, 'grad_norm': 0.13109765946865082, 'learning_rate': 0.00026967678312168984, 'epoch': 0.49}
+{'loss': 1.4794, 'grad_norm': 0.11957482993602753, 'learning_rate': 0.000269470081107173, 'epoch': 0.49}
+{'loss': 1.4596, 'grad_norm': 0.10060622543096542, 'learning_rate': 0.0002692633657005914, 'epoch': 0.49}
+{'loss': 1.4803, 'grad_norm': 0.12485333532094955, 'learning_rate': 0.0002690566370441296, 'epoch': 0.49}
+{'loss': 1.4647, 'grad_norm': 0.11397165805101395, 'learning_rate': 0.0002688498952799814, 'epoch': 0.49}
+{'loss': 1.4662, 'grad_norm': 0.1156405583024025, 'learning_rate': 0.0002686431405503496, 'epoch': 0.49}
+{'loss': 1.4979, 'grad_norm': 0.11847887933254242, 'learning_rate': 0.00026843637299744585, 'epoch': 0.49}
+{'loss': 1.4717, 'grad_norm': 0.11453769356012344, 'learning_rate': 0.00026822959276349056, 'epoch': 0.49}
+{'loss': 1.4946, 'grad_norm': 0.11403955519199371, 'learning_rate': 0.000268022799990713, 'epoch': 0.49}
+{'loss': 1.4673, 'grad_norm': 0.11544941365718842, 'learning_rate': 0.00026781599482135097, 'epoch': 0.49}
+{'loss': 1.4746, 'grad_norm': 0.09412571787834167, 'learning_rate': 0.00026760917739765096, 'epoch': 0.49}
+{'loss': 1.4473, 'grad_norm': 0.12724654376506805, 'learning_rate': 0.0002674023478618676, 'epoch': 0.49}
+{'loss': 1.4686, 'grad_norm': 0.1106124296784401, 'learning_rate': 0.00026719550635626407, 'epoch': 0.49}
+{'loss': 1.4865, 'grad_norm': 0.11990086734294891, 'learning_rate': 0.0002669886530231117, 'epoch': 0.49}
+{'loss': 1.4598, 'grad_norm': 0.10288302600383759, 'learning_rate': 0.0002667817880046901, 'epoch': 0.49}
+{'loss': 1.4692, 'grad_norm': 0.1175948902964592, 'learning_rate': 0.00026657491144328673, 'epoch': 0.49}
+{'loss': 1.4647, 'grad_norm': 0.13732293248176575, 'learning_rate': 0.00026636802348119687, 'epoch': 0.49}
+{'loss': 1.4699, 'grad_norm': 0.11159918457269669, 'learning_rate': 0.0002661611242607242, 'epoch': 0.5}
+{'loss': 1.4941, 'grad_norm': 0.1351984143257141, 'learning_rate': 0.00026595421392417947, 'epoch': 0.5}
+{'loss': 1.4824, 'grad_norm': 0.12322259694337845, 'learning_rate': 0.0002657472926138815, 'epoch': 0.5}
+{'loss': 1.484, 'grad_norm': 0.1153210923075676, 'learning_rate': 0.0002655403604721565, 'epoch': 0.5}
+{'loss': 1.4879, 'grad_norm': 0.11777961254119873, 'learning_rate': 0.0002653334176413382, 'epoch': 0.5}
+{'loss': 1.5002, 'grad_norm': 0.11797432601451874, 'learning_rate': 0.00026512646426376775, 'epoch': 0.5}
+{'loss': 1.4583, 'grad_norm': 0.12740807235240936, 'learning_rate': 0.0002649195004817932, 'epoch': 0.5}
+{'loss': 1.4675, 'grad_norm': 0.10921654850244522, 'learning_rate': 0.00026471252643777023, 'epoch': 0.5}
+{'loss': 1.4628, 'grad_norm': 0.1149551048874855, 'learning_rate': 0.0002645055422740612, 'epoch': 0.5}
+{'loss': 1.479, 'grad_norm': 0.1082497090101242, 'learning_rate': 0.00026429854813303576, 'epoch': 0.5}
+{'loss': 1.4862, 'grad_norm': 0.13034871220588684, 'learning_rate': 0.00026409154415707014, 'epoch': 0.5}
+{'loss': 1.4576, 'grad_norm': 0.11507265269756317, 'learning_rate': 0.0002638845304885475, 'epoch': 0.5}
+{'loss': 1.4648, 'grad_norm': 0.12081306427717209, 'learning_rate': 0.00026367750726985755, 'epoch': 0.5}
+{'loss': 1.4621, 'grad_norm': 0.13034112751483917, 'learning_rate': 0.00026347047464339666, 'epoch': 0.5}
+{'loss': 1.4696, 'grad_norm': 0.12057553976774216, 'learning_rate': 0.0002632634327515677, 'epoch': 0.5}
+{'loss': 1.5028, 'grad_norm': 0.1538439840078354, 'learning_rate': 0.0002630563817367798, 'epoch': 0.5}
+{'loss': 1.4899, 'grad_norm': 0.1072767898440361, 'learning_rate': 0.00026284932174144843, 'epoch': 0.5}
+{'loss': 1.4664, 'grad_norm': 0.1410999745130539, 'learning_rate': 0.0002626422529079953, 'epoch': 0.5}
+{'loss': 1.4857, 'grad_norm': 0.10901051759719849, 'learning_rate': 0.000262435175378848, 'epoch': 0.5}
+{'loss': 1.4628, 'grad_norm': 0.13081474602222443, 'learning_rate': 0.0002622280892964403, 'epoch': 0.5}
+{'loss': 1.4767, 'grad_norm': 0.12243721634149551, 'learning_rate': 0.0002620209948032117, 'epoch': 0.5}
+{'loss': 1.4694, 'grad_norm': 0.11662336438894272, 'learning_rate': 0.00026181389204160774, 'epoch': 0.5}
+{'loss': 1.501, 'grad_norm': 0.120823934674263, 'learning_rate': 0.0002616067811540793, 'epoch': 0.5}
+{'loss': 1.4972, 'grad_norm': 0.13577182590961456, 'learning_rate': 0.00026139966228308313, 'epoch': 0.5}
+{'loss': 1.4962, 'grad_norm': 0.11423719674348831, 'learning_rate': 0.0002611925355710814, 'epoch': 0.5}
+{'loss': 1.4864, 'grad_norm': 0.11992033571004868, 'learning_rate': 0.00026098540116054156, 'epoch': 0.5}
+{'loss': 1.4734, 'grad_norm': 0.12202928215265274, 'learning_rate': 0.00026077825919393636, 'epoch': 0.5}
+{'loss': 1.4912, 'grad_norm': 0.1364818811416626, 'learning_rate': 0.000260571109813744, 'epoch': 0.5}
+{'loss': 1.4792, 'grad_norm': 0.1336345672607422, 'learning_rate': 0.00026036395316244746, 'epoch': 0.5}
+{'loss': 1.4682, 'grad_norm': 0.11553067713975906, 'learning_rate': 0.000260156789382535, 'epoch': 0.5}
+{'loss': 1.4765, 'grad_norm': 0.12585698068141937, 'learning_rate': 0.00025994961861649943, 'epoch': 0.5}
+{'loss': 1.4683, 'grad_norm': 0.12602739036083221, 'learning_rate': 0.00025974244100683883, 'epoch': 0.5}
+{'loss': 1.4568, 'grad_norm': 0.13346633315086365, 'learning_rate': 0.0002595352566960555, 'epoch': 0.5}
+{'loss': 1.4976, 'grad_norm': 0.11670918762683868, 'learning_rate': 0.0002593280658266568, 'epoch': 0.5}
+{'loss': 1.4713, 'grad_norm': 0.11643543839454651, 'learning_rate': 0.0002591208685411542, 'epoch': 0.5}
+{'loss': 1.4816, 'grad_norm': 0.11898085474967957, 'learning_rate': 0.0002589136649820639, 'epoch': 0.5}
+{'loss': 1.473, 'grad_norm': 0.13733230531215668, 'learning_rate': 0.0002587064552919063, 'epoch': 0.5}
+{'loss': 1.4814, 'grad_norm': 0.11946731805801392, 'learning_rate': 0.00025849923961320594, 'epoch': 0.5}
+{'loss': 1.4874, 'grad_norm': 0.136082723736763, 'learning_rate': 0.0002582920180884915, 'epoch': 0.5}
+{'loss': 1.4703, 'grad_norm': 0.12389007955789566, 'learning_rate': 0.00025808479086029577, 'epoch': 0.51}
+{'loss': 1.4826, 'grad_norm': 0.1267407089471817, 'learning_rate': 0.0002578775580711555, 'epoch': 0.51}
+{'loss': 1.4776, 'grad_norm': 0.11421304196119308, 'learning_rate': 0.00025767031986361107, 'epoch': 0.51}
+{'loss': 1.4642, 'grad_norm': 0.12219292670488358, 'learning_rate': 0.00025746307638020667, 'epoch': 0.51}
+{'loss': 1.4607, 'grad_norm': 0.14267005026340485, 'learning_rate': 0.0002572558277634903, 'epoch': 0.51}
+{'loss': 1.4801, 'grad_norm': 0.1281108260154724, 'learning_rate': 0.0002570485741560132, 'epoch': 0.51}
+{'loss': 1.4703, 'grad_norm': 0.13185201585292816, 'learning_rate': 0.00025684131570033025, 'epoch': 0.51}
+{'loss': 1.4672, 'grad_norm': 0.11388607323169708, 'learning_rate': 0.0002566340525389995, 'epoch': 0.51}
+{'loss': 1.4867, 'grad_norm': 0.13796354830265045, 'learning_rate': 0.00025642678481458254, 'epoch': 0.51}
+{'loss': 1.4578, 'grad_norm': 0.12083476036787033, 'learning_rate': 0.0002562195126696438, 'epoch': 0.51}
+{'loss': 1.4838, 'grad_norm': 0.12051799148321152, 'learning_rate': 0.00025601223624675064, 'epoch': 0.51}
+{'loss': 1.4766, 'grad_norm': 0.1546361744403839, 'learning_rate': 0.00025580495568847377, 'epoch': 0.51}
+{'loss': 1.471, 'grad_norm': 0.12168814241886139, 'learning_rate': 0.0002555976711373865, 'epoch': 0.51}
+{'loss': 1.488, 'grad_norm': 0.12582458555698395, 'learning_rate': 0.000255390382736065, 'epoch': 0.51}
+{'loss': 1.486, 'grad_norm': 0.12363606691360474, 'learning_rate': 0.0002551830906270878, 'epoch': 0.51}
+{'loss': 1.4665, 'grad_norm': 0.10840881615877151, 'learning_rate': 0.00025497579495303635, 'epoch': 0.51}
+{'loss': 1.4973, 'grad_norm': 0.12706515192985535, 'learning_rate': 0.0002547684958564945, 'epoch': 0.51}
+{'loss': 1.4686, 'grad_norm': 0.1272651106119156, 'learning_rate': 0.00025456119348004805, 'epoch': 0.51}
+{'loss': 1.478, 'grad_norm': 0.12079954892396927, 'learning_rate': 0.0002543538879662856, 'epoch': 0.51}
+{'loss': 1.4882, 'grad_norm': 0.12542736530303955, 'learning_rate': 0.00025414657945779757, 'epoch': 0.51}
+{'loss': 1.4849, 'grad_norm': 0.11824655532836914, 'learning_rate': 0.0002539392680971766, 'epoch': 0.51}
+{'loss': 1.464, 'grad_norm': 0.12286346405744553, 'learning_rate': 0.0002537319540270172, 'epoch': 0.51}
+{'loss': 1.4608, 'grad_norm': 0.14514747262001038, 'learning_rate': 0.0002535246373899156, 'epoch': 0.51}
+{'loss': 1.4812, 'grad_norm': 0.12854483723640442, 'learning_rate': 0.0002533173183284703, 'epoch': 0.51}
+{'loss': 1.4832, 'grad_norm': 0.14885160326957703, 'learning_rate': 0.00025310999698528074, 'epoch': 0.51}
+{'loss': 1.4717, 'grad_norm': 0.11971902847290039, 'learning_rate': 0.0002529026735029487, 'epoch': 0.51}
+{'loss': 1.4888, 'grad_norm': 0.12001417577266693, 'learning_rate': 0.0002526953480240767, 'epoch': 0.51}
+{'loss': 1.4838, 'grad_norm': 0.1482900083065033, 'learning_rate': 0.0002524880206912694, 'epoch': 0.51}
+{'loss': 1.4695, 'grad_norm': 0.11244459450244904, 'learning_rate': 0.00025228069164713195, 'epoch': 0.51}
+{'loss': 1.4615, 'grad_norm': 0.1341543048620224, 'learning_rate': 0.0002520733610342712, 'epoch': 0.51}
+{'loss': 1.4744, 'grad_norm': 0.12658436596393585, 'learning_rate': 0.0002518660289952949, 'epoch': 0.51}
+{'loss': 1.4751, 'grad_norm': 0.1200784295797348, 'learning_rate': 0.00025165869567281176, 'epoch': 0.51}
+{'loss': 1.4813, 'grad_norm': 0.13519872725009918, 'learning_rate': 0.0002514513612094316, 'epoch': 0.51}
+{'loss': 1.4904, 'grad_norm': 0.11472274363040924, 'learning_rate': 0.0002512440257477646, 'epoch': 0.51}
+{'loss': 1.4695, 'grad_norm': 0.12394049018621445, 'learning_rate': 0.0002510366894304221, 'epoch': 0.51}
+{'loss': 1.4625, 'grad_norm': 0.13789352774620056, 'learning_rate': 0.00025082935240001563, 'epoch': 0.51}
+{'loss': 1.4708, 'grad_norm': 0.11992030590772629, 'learning_rate': 0.00025062201479915755, 'epoch': 0.51}
+{'loss': 1.4609, 'grad_norm': 0.14501915872097015, 'learning_rate': 0.0002504146767704602, 'epoch': 0.51}
+{'loss': 1.4837, 'grad_norm': 0.11639223992824554, 'learning_rate': 0.0002502073384565366, 'epoch': 0.51}
+{'loss': 1.4642, 'grad_norm': 0.1213349997997284, 'learning_rate': 0.00025, 'epoch': 0.52}
+{'loss': 1.4897, 'grad_norm': 0.11971241980791092, 'learning_rate': 0.0002497926615434634, 'epoch': 0.52}
+{'loss': 1.4726, 'grad_norm': 0.11847060173749924, 'learning_rate': 0.00024958532322953984, 'epoch': 0.52}
+{'loss': 1.485, 'grad_norm': 0.13893821835517883, 'learning_rate': 0.00024937798520084246, 'epoch': 0.52}
+{'loss': 1.485, 'grad_norm': 0.13525457680225372, 'learning_rate': 0.0002491706475999844, 'epoch': 0.52}
+{'loss': 1.4793, 'grad_norm': 0.11850857734680176, 'learning_rate': 0.00024896331056957797, 'epoch': 0.52}
+{'loss': 1.4735, 'grad_norm': 0.139180526137352, 'learning_rate': 0.00024875597425223544, 'epoch': 0.52}
+{'loss': 1.4864, 'grad_norm': 0.11876781284809113, 'learning_rate': 0.00024854863879056853, 'epoch': 0.52}
+{'loss': 1.4703, 'grad_norm': 0.1158052310347557, 'learning_rate': 0.00024834130432718825, 'epoch': 0.52}
+{'loss': 1.446, 'grad_norm': 0.12753838300704956, 'learning_rate': 0.0002481339710047052, 'epoch': 0.52}
+{'loss': 1.4568, 'grad_norm': 0.11832647770643234, 'learning_rate': 0.0002479266389657289, 'epoch': 0.52}
+{'loss': 1.463, 'grad_norm': 0.11813490837812424, 'learning_rate': 0.0002477193083528682, 'epoch': 0.52}
+{'loss': 1.5053, 'grad_norm': 0.1265891045331955, 'learning_rate': 0.00024751197930873063, 'epoch': 0.52}
+{'loss': 1.4587, 'grad_norm': 0.13229334354400635, 'learning_rate': 0.00024730465197592323, 'epoch': 0.52}
+{'loss': 1.4952, 'grad_norm': 0.13454435765743256, 'learning_rate': 0.00024709732649705134, 'epoch': 0.52}
+{'loss': 1.4577, 'grad_norm': 0.13206757605075836, 'learning_rate': 0.00024689000301471927, 'epoch': 0.52}
+{'loss': 1.4589, 'grad_norm': 0.1105375811457634, 'learning_rate': 0.00024668268167152985, 'epoch': 0.52}
+{'loss': 1.4644, 'grad_norm': 0.12296735495328903, 'learning_rate': 0.0002464753626100844, 'epoch': 0.52}
+{'loss': 1.4748, 'grad_norm': 0.13881181180477142, 'learning_rate': 0.00024626804597298286, 'epoch': 0.52}
+{'loss': 1.4677, 'grad_norm': 0.12176430970430374, 'learning_rate': 0.00024606073190282343, 'epoch': 0.52}
+{'loss': 1.47, 'grad_norm': 0.12395942211151123, 'learning_rate': 0.0002458534205422025, 'epoch': 0.52}
+{'loss': 1.4549, 'grad_norm': 0.13037389516830444, 'learning_rate': 0.00024564611203371447, 'epoch': 0.52}
+{'loss': 1.4705, 'grad_norm': 0.1108814999461174, 'learning_rate': 0.00024543880651995196, 'epoch': 0.52}
+{'loss': 1.4613, 'grad_norm': 0.13730677962303162, 'learning_rate': 0.0002452315041435056, 'epoch': 0.52}
+{'loss': 1.4637, 'grad_norm': 0.12367859482765198, 'learning_rate': 0.00024502420504696367, 'epoch': 0.52}
+{'loss': 1.4684, 'grad_norm': 0.12434600293636322, 'learning_rate': 0.0002448169093729122, 'epoch': 0.52}
+{'loss': 1.4579, 'grad_norm': 0.13910582661628723, 'learning_rate': 0.00024460961726393513, 'epoch': 0.52}
+{'loss': 1.4485, 'grad_norm': 0.11858319491147995, 'learning_rate': 0.0002444023288626135, 'epoch': 0.52}
+{'loss': 1.4819, 'grad_norm': 0.12476380169391632, 'learning_rate': 0.0002441950443115263, 'epoch': 0.52}
+{'loss': 1.4619, 'grad_norm': 0.1205763891339302, 'learning_rate': 0.0002439877637532494, 'epoch': 0.52}
+{'loss': 1.4656, 'grad_norm': 0.1161189153790474, 'learning_rate': 0.00024378048733035635, 'epoch': 0.52}
+{'loss': 1.4603, 'grad_norm': 0.11929213255643845, 'learning_rate': 0.0002435732151854174, 'epoch': 0.52}
+{'loss': 1.4773, 'grad_norm': 0.1183520033955574, 'learning_rate': 0.00024336594746100044, 'epoch': 0.52}
+{'loss': 1.4675, 'grad_norm': 0.1117362454533577, 'learning_rate': 0.00024315868429966982, 'epoch': 0.52}
+{'loss': 1.4578, 'grad_norm': 0.12082512676715851, 'learning_rate': 0.00024295142584398682, 'epoch': 0.52}
+{'loss': 1.4898, 'grad_norm': 0.1339028775691986, 'learning_rate': 0.00024274417223650978, 'epoch': 0.52}
+{'loss': 1.4544, 'grad_norm': 0.10374876111745834, 'learning_rate': 0.0002425369236197933, 'epoch': 0.52}
+{'loss': 1.4849, 'grad_norm': 0.12135319411754608, 'learning_rate': 0.000242329680136389, 'epoch': 0.52}
+{'loss': 1.4571, 'grad_norm': 0.12844927608966827, 'learning_rate': 0.00024212244192884454, 'epoch': 0.52}
+{'loss': 1.458, 'grad_norm': 0.1250537633895874, 'learning_rate': 0.00024191520913970427, 'epoch': 0.53}
+{'loss': 1.4684, 'grad_norm': 0.13916678726673126, 'learning_rate': 0.0002417079819115086, 'epoch': 0.53}
+{'loss': 1.4677, 'grad_norm': 0.11760023236274719, 'learning_rate': 0.0002415007603867941, 'epoch': 0.53}
+{'loss': 1.4951, 'grad_norm': 0.12812381982803345, 'learning_rate': 0.0002412935447080937, 'epoch': 0.53}
+{'loss': 1.4521, 'grad_norm': 0.13518977165222168, 'learning_rate': 0.0002410863350179361, 'epoch': 0.53}
+{'loss': 1.4736, 'grad_norm': 0.1326572448015213, 'learning_rate': 0.00024087913145884584, 'epoch': 0.53}
+{'loss': 1.4669, 'grad_norm': 0.15667380392551422, 'learning_rate': 0.00024067193417334328, 'epoch': 0.53}
+{'loss': 1.4375, 'grad_norm': 0.11435189098119736, 'learning_rate': 0.00024046474330394446, 'epoch': 0.53}
+{'loss': 1.4631, 'grad_norm': 0.1262783259153366, 'learning_rate': 0.00024025755899316124, 'epoch': 0.53}
+{'loss': 1.4642, 'grad_norm': 0.1146465390920639, 'learning_rate': 0.0002400503813835006, 'epoch': 0.53}
+{'loss': 1.4743, 'grad_norm': 0.1296902298927307, 'learning_rate': 0.0002398432106174651, 'epoch': 0.53}
+{'loss': 1.4653, 'grad_norm': 0.12785205245018005, 'learning_rate': 0.0002396360468375525, 'epoch': 0.53}
+{'loss': 1.4792, 'grad_norm': 0.11816277354955673, 'learning_rate': 0.00023942889018625603, 'epoch': 0.53}
+{'loss': 1.4902, 'grad_norm': 0.12458600848913193, 'learning_rate': 0.00023922174080606365, 'epoch': 0.53}
+{'loss': 1.4571, 'grad_norm': 0.1122300773859024, 'learning_rate': 0.0002390145988394585, 'epoch': 0.53}
+{'loss': 1.4804, 'grad_norm': 0.10476373881101608, 'learning_rate': 0.00023880746442891864, 'epoch': 0.53}
+{'loss': 1.484, 'grad_norm': 0.11974748969078064, 'learning_rate': 0.0002386003377169168, 'epoch': 0.53}
+{'loss': 1.4676, 'grad_norm': 0.1232609674334526, 'learning_rate': 0.00023839321884592068, 'epoch': 0.53}
+{'loss': 1.4621, 'grad_norm': 0.09608236700296402, 'learning_rate': 0.0002381861079583923, 'epoch': 0.53}
+{'loss': 1.4605, 'grad_norm': 0.12396933883428574, 'learning_rate': 0.00023797900519678835, 'epoch': 0.53}
+{'loss': 1.4582, 'grad_norm': 0.1124739721417427, 'learning_rate': 0.00023777191070355983, 'epoch': 0.53}
+{'loss': 1.4646, 'grad_norm': 0.1071363240480423, 'learning_rate': 0.00023756482462115205, 'epoch': 0.53}
+{'loss': 1.467, 'grad_norm': 0.10237899422645569, 'learning_rate': 0.00023735774709200474, 'epoch': 0.53}
+{'loss': 1.467, 'grad_norm': 0.10979542136192322, 'learning_rate': 0.00023715067825855158, 'epoch': 0.53}
+{'loss': 1.4817, 'grad_norm': 0.11381975561380386, 'learning_rate': 0.00023694361826322025, 'epoch': 0.53}
+{'loss': 1.4681, 'grad_norm': 0.1170431599020958, 'learning_rate': 0.00023673656724843234, 'epoch': 0.53}
+{'loss': 1.4888, 'grad_norm': 0.1256541609764099, 'learning_rate': 0.0002365295253566033, 'epoch': 0.53}
+{'loss': 1.4814, 'grad_norm': 0.10944066196680069, 'learning_rate': 0.00023632249273014249, 'epoch': 0.53}
+{'loss': 1.471, 'grad_norm': 0.09437283128499985, 'learning_rate': 0.00023611546951145257, 'epoch': 0.53}
+{'loss': 1.454, 'grad_norm': 0.11082453280687332, 'learning_rate': 0.0002359084558429299, 'epoch': 0.53}
+{'loss': 1.4941, 'grad_norm': 0.10682062804698944, 'learning_rate': 0.0002357014518669643, 'epoch': 0.53}
+{'loss': 1.4704, 'grad_norm': 0.1112491562962532, 'learning_rate': 0.00023549445772593877, 'epoch': 0.53}
+{'loss': 1.4514, 'grad_norm': 0.10888452082872391, 'learning_rate': 0.00023528747356222986, 'epoch': 0.53}
+{'loss': 1.4755, 'grad_norm': 0.13475200533866882, 'learning_rate': 0.0002350804995182068, 'epoch': 0.53}
+{'loss': 1.459, 'grad_norm': 0.10532991588115692, 'learning_rate': 0.00023487353573623234, 'epoch': 0.53}
+{'loss': 1.4751, 'grad_norm': 0.11505548655986786, 'learning_rate': 0.00023466658235866175, 'epoch': 0.53}
+{'loss': 1.4794, 'grad_norm': 0.12747149169445038, 'learning_rate': 0.00023445963952784348, 'epoch': 0.53}
+{'loss': 1.4685, 'grad_norm': 0.10932525247335434, 'learning_rate': 0.00023425270738611852, 'epoch': 0.53}
+{'loss': 1.4847, 'grad_norm': 0.11592688411474228, 'learning_rate': 0.0002340457860758206, 'epoch': 0.53}
+{'loss': 1.5162, 'grad_norm': 0.13546188175678253, 'learning_rate': 0.00023383887573927593, 'epoch': 0.54}
+{'loss': 1.4779, 'grad_norm': 0.11380277574062347, 'learning_rate': 0.0002336319765188031, 'epoch': 0.54}
+{'loss': 1.4775, 'grad_norm': 0.12235607951879501, 'learning_rate': 0.0002334250885567133, 'epoch': 0.54}
+{'loss': 1.4726, 'grad_norm': 0.138912171125412, 'learning_rate': 0.00023321821199530994, 'epoch': 0.54}
+{'loss': 1.478, 'grad_norm': 0.11920880526304245, 'learning_rate': 0.00023301134697688834, 'epoch': 0.54}
+{'loss': 1.4709, 'grad_norm': 0.11917872726917267, 'learning_rate': 0.000232804493643736, 'epoch': 0.54}
+{'loss': 1.4892, 'grad_norm': 0.13848987221717834, 'learning_rate': 0.00023259765213813245, 'epoch': 0.54}
+{'loss': 1.4727, 'grad_norm': 0.10998973250389099, 'learning_rate': 0.0002323908226023491, 'epoch': 0.54}
+{'loss': 1.4785, 'grad_norm': 0.10883262753486633, 'learning_rate': 0.00023218400517864904, 'epoch': 0.54}
+{'loss': 1.4714, 'grad_norm': 0.11950773745775223, 'learning_rate': 0.00023197720000928704, 'epoch': 0.54}
+{'loss': 1.4832, 'grad_norm': 0.11974621564149857, 'learning_rate': 0.00023177040723650953, 'epoch': 0.54}
+{'loss': 1.4939, 'grad_norm': 0.1194220781326294, 'learning_rate': 0.00023156362700255418, 'epoch': 0.54}
+{'loss': 1.4792, 'grad_norm': 0.12067443132400513, 'learning_rate': 0.00023135685944965044, 'epoch': 0.54}
+{'loss': 1.4671, 'grad_norm': 0.13757319748401642, 'learning_rate': 0.00023115010472001866, 'epoch': 0.54}
+{'loss': 1.4552, 'grad_norm': 0.10687591135501862, 'learning_rate': 0.00023094336295587047, 'epoch': 0.54}
+{'loss': 1.4835, 'grad_norm': 0.11569501459598541, 'learning_rate': 0.00023073663429940862, 'epoch': 0.54}
+{'loss': 1.4954, 'grad_norm': 0.1248127818107605, 'learning_rate': 0.00023052991889282702, 'epoch': 0.54}
+{'loss': 1.4836, 'grad_norm': 0.12107739597558975, 'learning_rate': 0.00023032321687831015, 'epoch': 0.54}
+{'loss': 1.4685, 'grad_norm': 0.10229567438364029, 'learning_rate': 0.0002301165283980334, 'epoch': 0.54}
+{'loss': 1.48, 'grad_norm': 0.12437989562749863, 'learning_rate': 0.00022990985359416297, 'epoch': 0.54}
+{'loss': 1.4559, 'grad_norm': 0.11304762959480286, 'learning_rate': 0.0002297031926088554, 'epoch': 0.54}
+{'loss': 1.4838, 'grad_norm': 0.10356240719556808, 'learning_rate': 0.00022949654558425807, 'epoch': 0.54}
+{'loss': 1.4797, 'grad_norm': 0.11645442247390747, 'learning_rate': 0.00022928991266250843, 'epoch': 0.54}
+{'loss': 1.4801, 'grad_norm': 0.13186289370059967, 'learning_rate': 0.00022908329398573443, 'epoch': 0.54}
+{'loss': 1.4585, 'grad_norm': 0.11966034024953842, 'learning_rate': 0.00022887668969605416, 'epoch': 0.54}
+{'loss': 1.4688, 'grad_norm': 0.11101626604795456, 'learning_rate': 0.00022867009993557567, 'epoch': 0.54}
+{'loss': 1.4907, 'grad_norm': 0.11091537773609161, 'learning_rate': 0.00022846352484639734, 'epoch': 0.54}
+{'loss': 1.4642, 'grad_norm': 0.12775126099586487, 'learning_rate': 0.00022825696457060726, 'epoch': 0.54}
+{'loss': 1.4503, 'grad_norm': 0.1211656853556633, 'learning_rate': 0.0002280504192502833, 'epoch': 0.54}
+{'loss': 1.4563, 'grad_norm': 0.11082067340612411, 'learning_rate': 0.00022784388902749304, 'epoch': 0.54}
+{'loss': 1.4637, 'grad_norm': 0.10202190279960632, 'learning_rate': 0.00022763737404429374, 'epoch': 0.54}
+{'loss': 1.4741, 'grad_norm': 0.11875618994235992, 'learning_rate': 0.00022743087444273232, 'epoch': 0.54}
+{'loss': 1.4689, 'grad_norm': 0.11641333252191544, 'learning_rate': 0.0002272243903648448, 'epoch': 0.54}
+{'loss': 1.4932, 'grad_norm': 0.10379914194345474, 'learning_rate': 0.0002270179219526567, 'epoch': 0.54}
+{'loss': 1.4898, 'grad_norm': 0.10723370313644409, 'learning_rate': 0.00022681146934818276, 'epoch': 0.54}
+{'loss': 1.4388, 'grad_norm': 0.11671994626522064, 'learning_rate': 0.00022660503269342693, 'epoch': 0.54}
+{'loss': 1.4629, 'grad_norm': 0.12121733278036118, 'learning_rate': 0.00022639861213038208, 'epoch': 0.54}
+{'loss': 1.4506, 'grad_norm': 0.10917989164590836, 'learning_rate': 0.0002261922078010299, 'epoch': 0.54}
+{'loss': 1.4762, 'grad_norm': 0.09799288213253021, 'learning_rate': 0.00022598581984734122, 'epoch': 0.54}
+{'loss': 1.4768, 'grad_norm': 0.11177147924900055, 'learning_rate': 0.0002257794484112752, 'epoch': 0.55}
+{'loss': 1.4416, 'grad_norm': 0.11482834070920944, 'learning_rate': 0.0002255730936347801, 'epoch': 0.55}
+{'loss': 1.4642, 'grad_norm': 0.11759250611066818, 'learning_rate': 0.00022536675565979237, 'epoch': 0.55}
+{'loss': 1.4684, 'grad_norm': 0.12238720804452896, 'learning_rate': 0.00022516043462823707, 'epoch': 0.55}
+{'loss': 1.4655, 'grad_norm': 0.1210697591304779, 'learning_rate': 0.0002249541306820276, 'epoch': 0.55}
+{'loss': 1.4784, 'grad_norm': 0.1269296258687973, 'learning_rate': 0.00022474784396306534, 'epoch': 0.55}
+{'loss': 1.4604, 'grad_norm': 0.12210321426391602, 'learning_rate': 0.00022454157461324027, 'epoch': 0.55}
+{'loss': 1.4712, 'grad_norm': 0.10386815667152405, 'learning_rate': 0.00022433532277443022, 'epoch': 0.55}
+{'loss': 1.4676, 'grad_norm': 0.13124032318592072, 'learning_rate': 0.0002241290885885009, 'epoch': 0.55}
+{'loss': 1.4829, 'grad_norm': 0.12592285871505737, 'learning_rate': 0.00022392287219730585, 'epoch': 0.55}
+{'loss': 1.4778, 'grad_norm': 0.11168897151947021, 'learning_rate': 0.00022371667374268645, 'epoch': 0.55}
+{'loss': 1.4803, 'grad_norm': 0.14831551909446716, 'learning_rate': 0.00022351049336647192, 'epoch': 0.55}
+{'loss': 1.4856, 'grad_norm': 0.12960682809352875, 'learning_rate': 0.0002233043312104788, 'epoch': 0.55}
+{'loss': 1.4709, 'grad_norm': 0.12627500295639038, 'learning_rate': 0.00022309818741651105, 'epoch': 0.55}
+{'loss': 1.478, 'grad_norm': 0.14960221946239471, 'learning_rate': 0.00022289206212636022, 'epoch': 0.55}
+{'loss': 1.4549, 'grad_norm': 0.1275879591703415, 'learning_rate': 0.00022268595548180509, 'epoch': 0.55}
+{'loss': 1.475, 'grad_norm': 0.14417777955532074, 'learning_rate': 0.0002224798676246115, 'epoch': 0.55}
+{'loss': 1.4585, 'grad_norm': 0.1341734230518341, 'learning_rate': 0.00022227379869653235, 'epoch': 0.55}
+{'loss': 1.4766, 'grad_norm': 0.13782106339931488, 'learning_rate': 0.00022206774883930773, 'epoch': 0.55}
+{'loss': 1.471, 'grad_norm': 0.14360083639621735, 'learning_rate': 0.0002218617181946643, 'epoch': 0.55}
+{'loss': 1.4835, 'grad_norm': 0.11603353917598724, 'learning_rate': 0.00022165570690431592, 'epoch': 0.55}
+{'loss': 1.4821, 'grad_norm': 0.1193731278181076, 'learning_rate': 0.0002214497151099627, 'epoch': 0.55}
+{'loss': 1.4999, 'grad_norm': 0.15618014335632324, 'learning_rate': 0.00022124374295329167, 'epoch': 0.55}
+{'loss': 1.4539, 'grad_norm': 0.11967308819293976, 'learning_rate': 0.00022103779057597618, 'epoch': 0.55}
+{'loss': 1.4719, 'grad_norm': 0.14230644702911377, 'learning_rate': 0.00022083185811967588, 'epoch': 0.55}
+{'loss': 1.4588, 'grad_norm': 0.1243586465716362, 'learning_rate': 0.00022062594572603707, 'epoch': 0.55}
+{'loss': 1.4816, 'grad_norm': 0.11927226185798645, 'learning_rate': 0.000220420053536692, 'epoch': 0.55}
+{'loss': 1.4774, 'grad_norm': 0.12218352407217026, 'learning_rate': 0.00022021418169325895, 'epoch': 0.55}
+{'loss': 1.4851, 'grad_norm': 0.11843375861644745, 'learning_rate': 0.00022000833033734239, 'epoch': 0.55}
+{'loss': 1.4471, 'grad_norm': 0.1369340717792511, 'learning_rate': 0.00021980249961053259, 'epoch': 0.55}
+{'loss': 1.477, 'grad_norm': 0.1331644356250763, 'learning_rate': 0.00021959668965440565, 'epoch': 0.55}
+{'loss': 1.4698, 'grad_norm': 0.12769751250743866, 'learning_rate': 0.00021939090061052352, 'epoch': 0.55}
+{'loss': 1.4629, 'grad_norm': 0.11721488833427429, 'learning_rate': 0.00021918513262043348, 'epoch': 0.55}
+{'loss': 1.4739, 'grad_norm': 0.11521964520215988, 'learning_rate': 0.0002189793858256686, 'epoch': 0.55}
+{'loss': 1.4953, 'grad_norm': 0.11954080313444138, 'learning_rate': 0.0002187736603677472, 'epoch': 0.55}
+{'loss': 1.4768, 'grad_norm': 0.12226463109254837, 'learning_rate': 0.00021856795638817305, 'epoch': 0.55}
+{'loss': 1.4702, 'grad_norm': 0.10877508670091629, 'learning_rate': 0.00021836227402843508, 'epoch': 0.55}
+{'loss': 1.4573, 'grad_norm': 0.13308671116828918, 'learning_rate': 0.00021815661343000726, 'epoch': 0.55}
+{'loss': 1.4715, 'grad_norm': 0.14425985515117645, 'learning_rate': 0.0002179509747343487, 'epoch': 0.55}
+{'loss': 1.4454, 'grad_norm': 0.11133430898189545, 'learning_rate': 0.0002177453580829036, 'epoch': 0.56}
+{'loss': 1.4865, 'grad_norm': 0.1338757425546646, 'learning_rate': 0.00021753976361710064, 'epoch': 0.56}
+{'loss': 1.4676, 'grad_norm': 0.13749472796916962, 'learning_rate': 0.00021733419147835348, 'epoch': 0.56}
+{'loss': 1.4722, 'grad_norm': 0.1056629940867424, 'learning_rate': 0.00021712864180806042, 'epoch': 0.56}
+{'loss': 1.4522, 'grad_norm': 0.11990661174058914, 'learning_rate': 0.00021692311474760413, 'epoch': 0.56}
+{'loss': 1.476, 'grad_norm': 0.13953721523284912, 'learning_rate': 0.00021671761043835203, 'epoch': 0.56}
+{'loss': 1.4651, 'grad_norm': 0.10862181335687637, 'learning_rate': 0.00021651212902165556, 'epoch': 0.56}
+{'loss': 1.4833, 'grad_norm': 0.12890076637268066, 'learning_rate': 0.0002163066706388507, 'epoch': 0.56}
+{'loss': 1.464, 'grad_norm': 0.14413054287433624, 'learning_rate': 0.00021610123543125737, 'epoch': 0.56}
+{'loss': 1.4486, 'grad_norm': 0.11228220164775848, 'learning_rate': 0.00021589582354017957, 'epoch': 0.56}
+{'loss': 1.4511, 'grad_norm': 0.11454830318689346, 'learning_rate': 0.00021569043510690544, 'epoch': 0.56}
+{'loss': 1.456, 'grad_norm': 0.1396969109773636, 'learning_rate': 0.0002154850702727069, 'epoch': 0.56}
+{'loss': 1.4818, 'grad_norm': 0.10943034291267395, 'learning_rate': 0.0002152797291788396, 'epoch': 0.56}
+{'loss': 1.4562, 'grad_norm': 0.10776462405920029, 'learning_rate': 0.00021507441196654266, 'epoch': 0.56}
+{'loss': 1.4746, 'grad_norm': 0.1304711401462555, 'learning_rate': 0.00021486911877703922, 'epoch': 0.56}
+{'loss': 1.4627, 'grad_norm': 0.11519474536180496, 'learning_rate': 0.00021466384975153563, 'epoch': 0.56}
+{'loss': 1.4575, 'grad_norm': 0.12650799751281738, 'learning_rate': 0.0002144586050312216, 'epoch': 0.56}
+{'loss': 1.4566, 'grad_norm': 0.11271119862794876, 'learning_rate': 0.00021425338475727015, 'epoch': 0.56}
+{'loss': 1.4741, 'grad_norm': 0.11705614626407623, 'learning_rate': 0.0002140481890708375, 'epoch': 0.56}
+{'loss': 1.4589, 'grad_norm': 0.12256725877523422, 'learning_rate': 0.0002138430181130631, 'epoch': 0.56}
+{'loss': 1.4476, 'grad_norm': 0.11498717218637466, 'learning_rate': 0.00021363787202506913, 'epoch': 0.56}
+{'loss': 1.4581, 'grad_norm': 0.1201886236667633, 'learning_rate': 0.00021343275094796077, 'epoch': 0.56}
+{'loss': 1.4594, 'grad_norm': 0.11624729633331299, 'learning_rate': 0.00021322765502282615, 'epoch': 0.56}
+{'loss': 1.4491, 'grad_norm': 0.14227177202701569, 'learning_rate': 0.00021302258439073575, 'epoch': 0.56}
+{'loss': 1.4616, 'grad_norm': 0.12948831915855408, 'learning_rate': 0.00021281753919274313, 'epoch': 0.56}
+{'loss': 1.4916, 'grad_norm': 0.11715871840715408, 'learning_rate': 0.0002126125195698839, 'epoch': 0.56}
+{'loss': 1.4737, 'grad_norm': 0.12676358222961426, 'learning_rate': 0.00021240752566317639, 'epoch': 0.56}
+{'loss': 1.459, 'grad_norm': 0.11816553771495819, 'learning_rate': 0.00021220255761362112, 'epoch': 0.56}
+{'loss': 1.4885, 'grad_norm': 0.14020773768424988, 'learning_rate': 0.00021199761556220064, 'epoch': 0.56}
+{'loss': 1.4609, 'grad_norm': 0.11873992532491684, 'learning_rate': 0.00021179269964988, 'epoch': 0.56}
+{'loss': 1.4662, 'grad_norm': 0.1196381002664566, 'learning_rate': 0.00021158781001760614, 'epoch': 0.56}
+{'loss': 1.4893, 'grad_norm': 0.12879373133182526, 'learning_rate': 0.00021138294680630773, 'epoch': 0.56}
+{'loss': 1.4538, 'grad_norm': 0.12274707853794098, 'learning_rate': 0.00021117811015689531, 'epoch': 0.56}
+{'loss': 1.4587, 'grad_norm': 0.12640471756458282, 'learning_rate': 0.00021097330021026145, 'epoch': 0.56}
+{'loss': 1.4787, 'grad_norm': 0.11098548024892807, 'learning_rate': 0.00021076851710728008, 'epoch': 0.56}
+{'loss': 1.4654, 'grad_norm': 0.10925336182117462, 'learning_rate': 0.0002105637609888067, 'epoch': 0.56}
+{'loss': 1.4851, 'grad_norm': 0.11474262923002243, 'learning_rate': 0.0002103590319956782, 'epoch': 0.56}
+{'loss': 1.4518, 'grad_norm': 0.10902821272611618, 'learning_rate': 0.00021015433026871298, 'epoch': 0.56}
+{'loss': 1.456, 'grad_norm': 0.12180294096469879, 'learning_rate': 0.00020994965594871062, 'epoch': 0.56}
+{'loss': 1.484, 'grad_norm': 0.11601337790489197, 'learning_rate': 0.00020974500917645184, 'epoch': 0.56}
+{'loss': 1.4794, 'grad_norm': 0.11241147667169571, 'learning_rate': 0.0002095403900926983, 'epoch': 0.57}
+{'loss': 1.4589, 'grad_norm': 0.1043713390827179, 'learning_rate': 0.00020933579883819278, 'epoch': 0.57}
+{'loss': 1.4788, 'grad_norm': 0.1265680491924286, 'learning_rate': 0.00020913123555365876, 'epoch': 0.57}
+{'loss': 1.4834, 'grad_norm': 0.12210280448198318, 'learning_rate': 0.00020892670037980072, 'epoch': 0.57}
+{'loss': 1.5088, 'grad_norm': 0.11646352708339691, 'learning_rate': 0.00020872219345730353, 'epoch': 0.57}
+{'loss': 1.4797, 'grad_norm': 0.11681868135929108, 'learning_rate': 0.00020851771492683285, 'epoch': 0.57}
+{'loss': 1.4418, 'grad_norm': 0.13320893049240112, 'learning_rate': 0.00020831326492903472, 'epoch': 0.57}
+{'loss': 1.4989, 'grad_norm': 0.10813265293836594, 'learning_rate': 0.00020810884360453533, 'epoch': 0.57}
+{'loss': 1.4834, 'grad_norm': 0.11600997298955917, 'learning_rate': 0.00020790445109394163, 'epoch': 0.57}
+{'loss': 1.4577, 'grad_norm': 0.1312054842710495, 'learning_rate': 0.00020770008753784043, 'epoch': 0.57}
+{'loss': 1.4685, 'grad_norm': 0.11592565476894379, 'learning_rate': 0.00020749575307679863, 'epoch': 0.57}
+{'loss': 1.4676, 'grad_norm': 0.1340707540512085, 'learning_rate': 0.00020729144785136316, 'epoch': 0.57}
+{'loss': 1.4692, 'grad_norm': 0.1276020109653473, 'learning_rate': 0.0002070871720020609, 'epoch': 0.57}
+{'loss': 1.4545, 'grad_norm': 0.10744080692529678, 'learning_rate': 0.00020688292566939842, 'epoch': 0.57}
+{'loss': 1.4714, 'grad_norm': 0.11525816470384598, 'learning_rate': 0.00020667870899386214, 'epoch': 0.57}
+{'loss': 1.4566, 'grad_norm': 0.1231953427195549, 'learning_rate': 0.00020647452211591789, 'epoch': 0.57}
+{'loss': 1.4747, 'grad_norm': 0.11190254986286163, 'learning_rate': 0.0002062703651760111, 'epoch': 0.57}
+{'loss': 1.4656, 'grad_norm': 0.1324203461408615, 'learning_rate': 0.00020606623831456668, 'epoch': 0.57}
+{'loss': 1.4819, 'grad_norm': 0.11809904128313065, 'learning_rate': 0.00020586214167198877, 'epoch': 0.57}
+{'loss': 1.4727, 'grad_norm': 0.1183210238814354, 'learning_rate': 0.0002056580753886607, 'epoch': 0.57}
+{'loss': 1.4584, 'grad_norm': 0.12886257469654083, 'learning_rate': 0.0002054540396049449, 'epoch': 0.57}
+{'loss': 1.4794, 'grad_norm': 0.12580394744873047, 'learning_rate': 0.00020525003446118288, 'epoch': 0.57}
+{'loss': 1.4733, 'grad_norm': 0.12849625945091248, 'learning_rate': 0.00020504606009769523, 'epoch': 0.57}
+{'loss': 1.4683, 'grad_norm': 0.12248170375823975, 'learning_rate': 0.00020484211665478102, 'epoch': 0.57}
+{'loss': 1.4915, 'grad_norm': 0.11365195363759995, 'learning_rate': 0.0002046382042727183, 'epoch': 0.57}
+{'loss': 1.4714, 'grad_norm': 0.12766487896442413, 'learning_rate': 0.00020443432309176374, 'epoch': 0.57}
+{'loss': 1.4558, 'grad_norm': 0.11531222611665726, 'learning_rate': 0.00020423047325215235, 'epoch': 0.57}
+{'loss': 1.4453, 'grad_norm': 0.10598360747098923, 'learning_rate': 0.00020402665489409796, 'epoch': 0.57}
+{'loss': 1.4723, 'grad_norm': 0.12163291871547699, 'learning_rate': 0.00020382286815779233, 'epoch': 0.57}
+{'loss': 1.4881, 'grad_norm': 0.12315329164266586, 'learning_rate': 0.0002036191131834058, 'epoch': 0.57}
+{'loss': 1.4808, 'grad_norm': 0.1032017320394516, 'learning_rate': 0.00020341539011108667, 'epoch': 0.57}
+{'loss': 1.4707, 'grad_norm': 0.12396746873855591, 'learning_rate': 0.0002032116990809612, 'epoch': 0.57}
+{'loss': 1.4669, 'grad_norm': 0.11868447065353394, 'learning_rate': 0.00020300804023313395, 'epoch': 0.57}
+{'loss': 1.4581, 'grad_norm': 0.13149063289165497, 'learning_rate': 0.00020280441370768717, 'epoch': 0.57}
+{'loss': 1.4724, 'grad_norm': 0.13650298118591309, 'learning_rate': 0.0002026008196446808, 'epoch': 0.57}
+{'loss': 1.4646, 'grad_norm': 0.16220083832740784, 'learning_rate': 0.0002023972581841524, 'epoch': 0.57}
+{'loss': 1.4736, 'grad_norm': 0.11947926878929138, 'learning_rate': 0.0002021937294661174, 'epoch': 0.57}
+{'loss': 1.4337, 'grad_norm': 0.13488440215587616, 'learning_rate': 0.0002019902336305685, 'epoch': 0.57}
+{'loss': 1.482, 'grad_norm': 0.12944746017456055, 'learning_rate': 0.00020178677081747573, 'epoch': 0.57}
+{'loss': 1.4801, 'grad_norm': 0.12446977943181992, 'learning_rate': 0.0002015833411667865, 'epoch': 0.58}
+{'loss': 1.4739, 'grad_norm': 0.11962190270423889, 'learning_rate': 0.00020137994481842536, 'epoch': 0.58}
+{'loss': 1.4854, 'grad_norm': 0.14822188019752502, 'learning_rate': 0.0002011765819122942, 'epoch': 0.58}
+{'loss': 1.4759, 'grad_norm': 0.11304831504821777, 'learning_rate': 0.00020097325258827152, 'epoch': 0.58}
+{'loss': 1.451, 'grad_norm': 0.12750568985939026, 'learning_rate': 0.00020076995698621288, 'epoch': 0.58}
+{'loss': 1.4747, 'grad_norm': 0.13847753405570984, 'learning_rate': 0.0002005666952459507, 'epoch': 0.58}
+{'loss': 1.4445, 'grad_norm': 0.11647134274244308, 'learning_rate': 0.0002003634675072941, 'epoch': 0.58}
+{'loss': 1.4903, 'grad_norm': 0.10924674570560455, 'learning_rate': 0.0002001602739100288, 'epoch': 0.58}
+{'loss': 1.4821, 'grad_norm': 0.12621869146823883, 'learning_rate': 0.00019995711459391697, 'epoch': 0.58}
+{'loss': 1.4668, 'grad_norm': 0.12499963492155075, 'learning_rate': 0.00019975398969869731, 'epoch': 0.58}
+{'loss': 1.4891, 'grad_norm': 0.10984060913324356, 'learning_rate': 0.0001995508993640848, 'epoch': 0.58}
+{'loss': 1.4612, 'grad_norm': 0.10605654865503311, 'learning_rate': 0.00019934784372977043, 'epoch': 0.58}
+{'loss': 1.4808, 'grad_norm': 0.14048485457897186, 'learning_rate': 0.0001991448229354218, 'epoch': 0.58}
+{'loss': 1.4879, 'grad_norm': 0.10246877372264862, 'learning_rate': 0.0001989418371206822, 'epoch': 0.58}
+{'loss': 1.4411, 'grad_norm': 0.12193194776773453, 'learning_rate': 0.00019873888642517088, 'epoch': 0.58}
+{'loss': 1.4582, 'grad_norm': 0.11274276673793793, 'learning_rate': 0.0001985359709884829, 'epoch': 0.58}
+{'loss': 1.4867, 'grad_norm': 0.11920426040887833, 'learning_rate': 0.00019833309095018933, 'epoch': 0.58}
+{'loss': 1.4704, 'grad_norm': 0.11188267916440964, 'learning_rate': 0.00019813024644983672, 'epoch': 0.58}
+{'loss': 1.4593, 'grad_norm': 0.1246333122253418, 'learning_rate': 0.00019792743762694705, 'epoch': 0.58}
+{'loss': 1.4794, 'grad_norm': 0.12129411846399307, 'learning_rate': 0.00019772466462101795, 'epoch': 0.58}
+{'loss': 1.4712, 'grad_norm': 0.10766889154911041, 'learning_rate': 0.00019752192757152226, 'epoch': 0.58}
+{'loss': 1.4531, 'grad_norm': 0.13143068552017212, 'learning_rate': 0.00019731922661790836, 'epoch': 0.58}
+{'loss': 1.4724, 'grad_norm': 0.11661848425865173, 'learning_rate': 0.0001971165618995995, 'epoch': 0.58}
+{'loss': 1.4704, 'grad_norm': 0.10991314053535461, 'learning_rate': 0.00019691393355599407, 'epoch': 0.58}
+{'loss': 1.4509, 'grad_norm': 0.11734815686941147, 'learning_rate': 0.00019671134172646564, 'epoch': 0.58}
+{'loss': 1.4754, 'grad_norm': 0.11470011621713638, 'learning_rate': 0.00019650878655036235, 'epoch': 0.58}
+{'loss': 1.4419, 'grad_norm': 0.10350149124860764, 'learning_rate': 0.0001963062681670075, 'epoch': 0.58}
+{'loss': 1.4699, 'grad_norm': 0.1193464919924736, 'learning_rate': 0.0001961037867156987, 'epoch': 0.58}
+{'loss': 1.464, 'grad_norm': 0.10473129898309708, 'learning_rate': 0.00019590134233570848, 'epoch': 0.58}
+{'loss': 1.4628, 'grad_norm': 0.1107056736946106, 'learning_rate': 0.00019569893516628364, 'epoch': 0.58}
+{'loss': 1.4668, 'grad_norm': 0.10358081758022308, 'learning_rate': 0.0001954965653466454, 'epoch': 0.58}
+{'loss': 1.4854, 'grad_norm': 0.1098836362361908, 'learning_rate': 0.00019529423301598958, 'epoch': 0.58}
+{'loss': 1.4633, 'grad_norm': 0.12219030410051346, 'learning_rate': 0.00019509193831348582, 'epoch': 0.58}
+{'loss': 1.4867, 'grad_norm': 0.11333974450826645, 'learning_rate': 0.0001948896813782782, 'epoch': 0.58}
+{'loss': 1.471, 'grad_norm': 0.11828424036502838, 'learning_rate': 0.0001946874623494845, 'epoch': 0.58}
+{'loss': 1.4668, 'grad_norm': 0.1215640977025032, 'learning_rate': 0.00019448528136619675, 'epoch': 0.58}
+{'loss': 1.453, 'grad_norm': 0.11835306137800217, 'learning_rate': 0.00019428313856748063, 'epoch': 0.58}
+{'loss': 1.4746, 'grad_norm': 0.1248340904712677, 'learning_rate': 0.00019408103409237562, 'epoch': 0.58}
+{'loss': 1.465, 'grad_norm': 0.11961829662322998, 'learning_rate': 0.00019387896807989481, 'epoch': 0.58}
+{'loss': 1.4657, 'grad_norm': 0.1204642727971077, 'learning_rate': 0.00019367694066902468, 'epoch': 0.59}
+{'loss': 1.4968, 'grad_norm': 0.12877127528190613, 'learning_rate': 0.00019347495199872552, 'epoch': 0.59}
+{'loss': 1.4769, 'grad_norm': 0.10530035942792892, 'learning_rate': 0.00019327300220793077, 'epoch': 0.59}
+{'loss': 1.4543, 'grad_norm': 0.12105896323919296, 'learning_rate': 0.00019307109143554705, 'epoch': 0.59}
+{'loss': 1.466, 'grad_norm': 0.11758613586425781, 'learning_rate': 0.00019286921982045416, 'epoch': 0.59}
+{'loss': 1.447, 'grad_norm': 0.11048810929059982, 'learning_rate': 0.00019266738750150505, 'epoch': 0.59}
+{'loss': 1.496, 'grad_norm': 0.09754165261983871, 'learning_rate': 0.00019246559461752577, 'epoch': 0.59}
+{'loss': 1.4574, 'grad_norm': 0.12117516249418259, 'learning_rate': 0.000192263841307315, 'epoch': 0.59}
+{'loss': 1.4616, 'grad_norm': 0.11240015178918839, 'learning_rate': 0.00019206212770964422, 'epoch': 0.59}
+{'loss': 1.4459, 'grad_norm': 0.09908316284418106, 'learning_rate': 0.00019186045396325777, 'epoch': 0.59}
+{'loss': 1.4604, 'grad_norm': 0.11467158049345016, 'learning_rate': 0.00019165882020687232, 'epoch': 0.59}
+{'loss': 1.4544, 'grad_norm': 0.12223506718873978, 'learning_rate': 0.00019145722657917745, 'epoch': 0.59}
+{'loss': 1.4616, 'grad_norm': 0.1064387708902359, 'learning_rate': 0.00019125567321883467, 'epoch': 0.59}
+{'loss': 1.4766, 'grad_norm': 0.11871118098497391, 'learning_rate': 0.00019105416026447808, 'epoch': 0.59}
+{'loss': 1.4873, 'grad_norm': 0.13102635741233826, 'learning_rate': 0.00019085268785471382, 'epoch': 0.59}
+{'loss': 1.4667, 'grad_norm': 0.10493210703134537, 'learning_rate': 0.00019065125612812044, 'epoch': 0.59}
+{'loss': 1.484, 'grad_norm': 0.1183604821562767, 'learning_rate': 0.00019044986522324806, 'epoch': 0.59}
+{'loss': 1.4877, 'grad_norm': 0.12088780850172043, 'learning_rate': 0.00019024851527861913, 'epoch': 0.59}
+{'loss': 1.4618, 'grad_norm': 0.10979397594928741, 'learning_rate': 0.00019004720643272773, 'epoch': 0.59}
+{'loss': 1.4844, 'grad_norm': 0.12524709105491638, 'learning_rate': 0.00018984593882403951, 'epoch': 0.59}
+{'loss': 1.4589, 'grad_norm': 0.13473646342754364, 'learning_rate': 0.0001896447125909922, 'epoch': 0.59}
+{'loss': 1.4612, 'grad_norm': 0.1286839246749878, 'learning_rate': 0.00018944352787199473, 'epoch': 0.59}
+{'loss': 1.4758, 'grad_norm': 0.12486684322357178, 'learning_rate': 0.00018924238480542754, 'epoch': 0.59}
+{'loss': 1.4546, 'grad_norm': 0.11361546814441681, 'learning_rate': 0.00018904128352964243, 'epoch': 0.59}
+{'loss': 1.4582, 'grad_norm': 0.13329271972179413, 'learning_rate': 0.00018884022418296238, 'epoch': 0.59}
+{'loss': 1.473, 'grad_norm': 0.12429340928792953, 'learning_rate': 0.00018863920690368184, 'epoch': 0.59}
+{'loss': 1.4487, 'grad_norm': 0.11908621340990067, 'learning_rate': 0.00018843823183006597, 'epoch': 0.59}
+{'loss': 1.4533, 'grad_norm': 0.13242954015731812, 'learning_rate': 0.00018823729910035097, 'epoch': 0.59}
+{'loss': 1.4632, 'grad_norm': 0.12463533133268356, 'learning_rate': 0.0001880364088527441, 'epoch': 0.59}
+{'loss': 1.4557, 'grad_norm': 0.1167045459151268, 'learning_rate': 0.00018783556122542312, 'epoch': 0.59}
+{'loss': 1.4777, 'grad_norm': 0.13064712285995483, 'learning_rate': 0.0001876347563565368, 'epoch': 0.59}
+{'loss': 1.4494, 'grad_norm': 0.11889688670635223, 'learning_rate': 0.00018743399438420422, 'epoch': 0.59}
+{'loss': 1.4585, 'grad_norm': 0.11272891610860825, 'learning_rate': 0.00018723327544651513, 'epoch': 0.59}
+{'loss': 1.462, 'grad_norm': 0.1219036653637886, 'learning_rate': 0.00018703259968152949, 'epoch': 0.59}
+{'loss': 1.4505, 'grad_norm': 0.11548510938882828, 'learning_rate': 0.00018683196722727786, 'epoch': 0.59}
+{'loss': 1.4742, 'grad_norm': 0.13142754137516022, 'learning_rate': 0.00018663137822176075, 'epoch': 0.59}
+{'loss': 1.4568, 'grad_norm': 0.11323197931051254, 'learning_rate': 0.00018643083280294888, 'epoch': 0.59}
+{'loss': 1.4472, 'grad_norm': 0.12602412700653076, 'learning_rate': 0.00018623033110878295, 'epoch': 0.59}
+{'loss': 1.4516, 'grad_norm': 0.10809732228517532, 'learning_rate': 0.00018602987327717357, 'epoch': 0.59}
+{'loss': 1.4703, 'grad_norm': 0.12246877700090408, 'learning_rate': 0.00018582945944600138, 'epoch': 0.6}
+{'loss': 1.4519, 'grad_norm': 0.11811588704586029, 'learning_rate': 0.00018562908975311654, 'epoch': 0.6}
+{'loss': 1.487, 'grad_norm': 0.11935646086931229, 'learning_rate': 0.0001854287643363389, 'epoch': 0.6}
+{'loss': 1.4691, 'grad_norm': 0.11507762223482132, 'learning_rate': 0.00018522848333345782, 'epoch': 0.6}
+{'loss': 1.4761, 'grad_norm': 0.11432424932718277, 'learning_rate': 0.00018502824688223214, 'epoch': 0.6}
+{'loss': 1.4665, 'grad_norm': 0.10699544847011566, 'learning_rate': 0.00018482805512039024, 'epoch': 0.6}
+{'loss': 1.4795, 'grad_norm': 0.11529964953660965, 'learning_rate': 0.00018462790818562946, 'epoch': 0.6}
+{'loss': 1.4919, 'grad_norm': 0.11757614463567734, 'learning_rate': 0.00018442780621561648, 'epoch': 0.6}
+{'loss': 1.4462, 'grad_norm': 0.09144970774650574, 'learning_rate': 0.00018422774934798703, 'epoch': 0.6}
+{'loss': 1.4712, 'grad_norm': 0.12313957512378693, 'learning_rate': 0.0001840277377203457, 'epoch': 0.6}
+{'loss': 1.4793, 'grad_norm': 0.10907750576734543, 'learning_rate': 0.00018382777147026624, 'epoch': 0.6}
+{'loss': 1.4562, 'grad_norm': 0.11384400725364685, 'learning_rate': 0.00018362785073529087, 'epoch': 0.6}
+{'loss': 1.4792, 'grad_norm': 0.11403409391641617, 'learning_rate': 0.00018342797565293074, 'epoch': 0.6}
+{'loss': 1.4738, 'grad_norm': 0.10846347361803055, 'learning_rate': 0.00018322814636066538, 'epoch': 0.6}
+{'loss': 1.4732, 'grad_norm': 0.10424971580505371, 'learning_rate': 0.00018302836299594313, 'epoch': 0.6}
+{'loss': 1.4948, 'grad_norm': 0.11742755770683289, 'learning_rate': 0.00018282862569618047, 'epoch': 0.6}
+{'loss': 1.4628, 'grad_norm': 0.11127952486276627, 'learning_rate': 0.00018262893459876223, 'epoch': 0.6}
+{'loss': 1.4678, 'grad_norm': 0.10644090920686722, 'learning_rate': 0.00018242928984104161, 'epoch': 0.6}
+{'loss': 1.4619, 'grad_norm': 0.10975374281406403, 'learning_rate': 0.00018222969156033968, 'epoch': 0.6}
+{'loss': 1.4579, 'grad_norm': 0.1207842007279396, 'learning_rate': 0.00018203013989394595, 'epoch': 0.6}
+{'loss': 1.4563, 'grad_norm': 0.11226960271596909, 'learning_rate': 0.00018183063497911742, 'epoch': 0.6}
+{'loss': 1.4463, 'grad_norm': 0.11103814095258713, 'learning_rate': 0.00018163117695307927, 'epoch': 0.6}
+{'loss': 1.4698, 'grad_norm': 0.11207590997219086, 'learning_rate': 0.00018143176595302425, 'epoch': 0.6}
+{'loss': 1.4154, 'grad_norm': 0.12152960151433945, 'learning_rate': 0.00018123240211611263, 'epoch': 0.6}
+{'loss': 1.4596, 'grad_norm': 0.11123805493116379, 'learning_rate': 0.0001810330855794726, 'epoch': 0.6}
+{'loss': 1.4584, 'grad_norm': 0.10756679624319077, 'learning_rate': 0.00018083381648019976, 'epoch': 0.6}
+{'loss': 1.4517, 'grad_norm': 0.10956903547048569, 'learning_rate': 0.00018063459495535673, 'epoch': 0.6}
+{'loss': 1.4582, 'grad_norm': 0.11505517363548279, 'learning_rate': 0.00018043542114197365, 'epoch': 0.6}
+{'loss': 1.4695, 'grad_norm': 0.11229366809129715, 'learning_rate': 0.0001802362951770478, 'epoch': 0.6}
+{'loss': 1.4659, 'grad_norm': 0.12481959909200668, 'learning_rate': 0.0001800372171975438, 'epoch': 0.6}
+{'loss': 1.4411, 'grad_norm': 0.12159544229507446, 'learning_rate': 0.00017983818734039285, 'epoch': 0.6}
+{'loss': 1.4739, 'grad_norm': 0.10191421955823898, 'learning_rate': 0.0001796392057424932, 'epoch': 0.6}
+{'loss': 1.44, 'grad_norm': 0.11590908467769623, 'learning_rate': 0.0001794402725407101, 'epoch': 0.6}
+{'loss': 1.4466, 'grad_norm': 0.11213687062263489, 'learning_rate': 0.0001792413878718751, 'epoch': 0.6}
+{'loss': 1.4445, 'grad_norm': 0.11852343380451202, 'learning_rate': 0.00017904255187278694, 'epoch': 0.6}
+{'loss': 1.48, 'grad_norm': 0.12197156250476837, 'learning_rate': 0.00017884376468021036, 'epoch': 0.6}
+{'loss': 1.4946, 'grad_norm': 0.1269959807395935, 'learning_rate': 0.00017864502643087678, 'epoch': 0.6}
+{'loss': 1.4707, 'grad_norm': 0.1228712797164917, 'learning_rate': 0.00017844633726148384, 'epoch': 0.6}
+{'loss': 1.4821, 'grad_norm': 0.13499851524829865, 'learning_rate': 0.00017824769730869568, 'epoch': 0.6}
+{'loss': 1.4803, 'grad_norm': 0.10333401709794998, 'learning_rate': 0.0001780491067091422, 'epoch': 0.61}
+{'loss': 1.4626, 'grad_norm': 0.13241975009441376, 'learning_rate': 0.0001778505655994197, 'epoch': 0.61}
+{'loss': 1.4439, 'grad_norm': 0.1312941610813141, 'learning_rate': 0.00017765207411609026, 'epoch': 0.61}
+{'loss': 1.4684, 'grad_norm': 0.133346289396286, 'learning_rate': 0.0001774536323956817, 'epoch': 0.61}
+{'loss': 1.4623, 'grad_norm': 0.12106411904096603, 'learning_rate': 0.00017725524057468796, 'epoch': 0.61}
+{'loss': 1.4611, 'grad_norm': 0.1487054079771042, 'learning_rate': 0.0001770568987895684, 'epoch': 0.61}
+{'loss': 1.4568, 'grad_norm': 0.1359395682811737, 'learning_rate': 0.00017685860717674807, 'epoch': 0.61}
+{'loss': 1.459, 'grad_norm': 0.1101287379860878, 'learning_rate': 0.0001766603658726174, 'epoch': 0.61}
+{'loss': 1.4538, 'grad_norm': 0.13232016563415527, 'learning_rate': 0.00017646217501353224, 'epoch': 0.61}
+{'loss': 1.5049, 'grad_norm': 0.13253524899482727, 'learning_rate': 0.00017626403473581398, 'epoch': 0.61}
+{'loss': 1.4716, 'grad_norm': 0.10817242413759232, 'learning_rate': 0.0001760659451757489, 'epoch': 0.61}
+{'loss': 1.4821, 'grad_norm': 0.12571297585964203, 'learning_rate': 0.00017586790646958856, 'epoch': 0.61}
+{'loss': 1.4751, 'grad_norm': 0.14680658280849457, 'learning_rate': 0.0001756699187535495, 'epoch': 0.61}
+{'loss': 1.4822, 'grad_norm': 0.11737621575593948, 'learning_rate': 0.00017547198216381305, 'epoch': 0.61}
+{'loss': 1.4675, 'grad_norm': 0.14355406165122986, 'learning_rate': 0.00017527409683652578, 'epoch': 0.61}
+{'loss': 1.4719, 'grad_norm': 0.14185075461864471, 'learning_rate': 0.00017507626290779853, 'epoch': 0.61}
+{'loss': 1.485, 'grad_norm': 0.13299790024757385, 'learning_rate': 0.00017487848051370714, 'epoch': 0.61}
+{'loss': 1.4718, 'grad_norm': 0.11438409239053726, 'learning_rate': 0.0001746807497902917, 'epoch': 0.61}
+{'loss': 1.4955, 'grad_norm': 0.11236737668514252, 'learning_rate': 0.0001744830708735571, 'epoch': 0.61}
+{'loss': 1.4676, 'grad_norm': 0.12343214452266693, 'learning_rate': 0.0001742854438994722, 'epoch': 0.61}
+{'loss': 1.4656, 'grad_norm': 0.12982913851737976, 'learning_rate': 0.00017408786900397055, 'epoch': 0.61}
+{'loss': 1.4616, 'grad_norm': 0.10641944408416748, 'learning_rate': 0.0001738903463229496, 'epoch': 0.61}
+{'loss': 1.4944, 'grad_norm': 0.12317116558551788, 'learning_rate': 0.00017369287599227078, 'epoch': 0.61}
+{'loss': 1.487, 'grad_norm': 0.12073174118995667, 'learning_rate': 0.0001734954581477599, 'epoch': 0.61}
+{'loss': 1.452, 'grad_norm': 0.10359318554401398, 'learning_rate': 0.0001732980929252065, 'epoch': 0.61}
+{'loss': 1.4736, 'grad_norm': 0.11303328722715378, 'learning_rate': 0.00017310078046036377, 'epoch': 0.61}
+{'loss': 1.4692, 'grad_norm': 0.12867371737957, 'learning_rate': 0.00017290352088894867, 'epoch': 0.61}
+{'loss': 1.4768, 'grad_norm': 0.12473908811807632, 'learning_rate': 0.0001727063143466419, 'epoch': 0.61}
+{'loss': 1.4388, 'grad_norm': 0.12867043912410736, 'learning_rate': 0.0001725091609690877, 'epoch': 0.61}
+{'loss': 1.4689, 'grad_norm': 0.12165715545415878, 'learning_rate': 0.0001723120608918936, 'epoch': 0.61}
+{'loss': 1.4607, 'grad_norm': 0.11349702626466751, 'learning_rate': 0.00017211501425063044, 'epoch': 0.61}
+{'loss': 1.4792, 'grad_norm': 0.11076819896697998, 'learning_rate': 0.00017191802118083255, 'epoch': 0.61}
+{'loss': 1.4808, 'grad_norm': 0.1206587627530098, 'learning_rate': 0.0001717210818179971, 'epoch': 0.61}
+{'loss': 1.47, 'grad_norm': 0.12024188041687012, 'learning_rate': 0.00017152419629758465, 'epoch': 0.61}
+{'loss': 1.4621, 'grad_norm': 0.12633688747882843, 'learning_rate': 0.00017132736475501838, 'epoch': 0.61}
+{'loss': 1.4969, 'grad_norm': 0.11916297674179077, 'learning_rate': 0.00017113058732568464, 'epoch': 0.61}
+{'loss': 1.4679, 'grad_norm': 0.10697831213474274, 'learning_rate': 0.00017093386414493233, 'epoch': 0.61}
+{'loss': 1.486, 'grad_norm': 0.11129298061132431, 'learning_rate': 0.00017073719534807324, 'epoch': 0.61}
+{'loss': 1.4465, 'grad_norm': 0.13740523159503937, 'learning_rate': 0.00017054058107038167, 'epoch': 0.61}
+{'loss': 1.4756, 'grad_norm': 0.12777790427207947, 'learning_rate': 0.00017034402144709427, 'epoch': 0.62}
+{'loss': 1.4732, 'grad_norm': 0.11067192256450653, 'learning_rate': 0.00017014751661341033, 'epoch': 0.62}
+{'loss': 1.4456, 'grad_norm': 0.11738719046115875, 'learning_rate': 0.00016995106670449124, 'epoch': 0.62}
+{'loss': 1.4464, 'grad_norm': 0.12303725630044937, 'learning_rate': 0.00016975467185546093, 'epoch': 0.62}
+{'loss': 1.4767, 'grad_norm': 0.09871310740709305, 'learning_rate': 0.00016955833220140508, 'epoch': 0.62}
+{'loss': 1.4699, 'grad_norm': 0.12640990316867828, 'learning_rate': 0.00016936204787737166, 'epoch': 0.62}
+{'loss': 1.4706, 'grad_norm': 0.10705959796905518, 'learning_rate': 0.00016916581901837052, 'epoch': 0.62}
+{'loss': 1.4649, 'grad_norm': 0.10517437011003494, 'learning_rate': 0.00016896964575937318, 'epoch': 0.62}
+{'loss': 1.4691, 'grad_norm': 0.11173143237829208, 'learning_rate': 0.00016877352823531323, 'epoch': 0.62}
+{'loss': 1.4623, 'grad_norm': 0.10395108908414841, 'learning_rate': 0.0001685774665810858, 'epoch': 0.62}
+{'loss': 1.4653, 'grad_norm': 0.11740525811910629, 'learning_rate': 0.00016838146093154751, 'epoch': 0.62}
+{'loss': 1.4834, 'grad_norm': 0.10571835190057755, 'learning_rate': 0.00016818551142151644, 'epoch': 0.62}
+{'loss': 1.4907, 'grad_norm': 0.11819033324718475, 'learning_rate': 0.0001679896181857722, 'epoch': 0.62}
+{'loss': 1.4845, 'grad_norm': 0.10410702228546143, 'learning_rate': 0.00016779378135905565, 'epoch': 0.62}
+{'loss': 1.4479, 'grad_norm': 0.10581281036138535, 'learning_rate': 0.00016759800107606882, 'epoch': 0.62}
+{'loss': 1.448, 'grad_norm': 0.10780508071184158, 'learning_rate': 0.00016740227747147473, 'epoch': 0.62}
+{'loss': 1.4564, 'grad_norm': 0.1115613579750061, 'learning_rate': 0.00016720661067989759, 'epoch': 0.62}
+{'loss': 1.4599, 'grad_norm': 0.10754209756851196, 'learning_rate': 0.0001670110008359226, 'epoch': 0.62}
+{'loss': 1.4756, 'grad_norm': 0.10012692958116531, 'learning_rate': 0.00016681544807409555, 'epoch': 0.62}
+{'loss': 1.4443, 'grad_norm': 0.10896174609661102, 'learning_rate': 0.0001666199525289231, 'epoch': 0.62}
+{'loss': 1.4713, 'grad_norm': 0.10456164926290512, 'learning_rate': 0.00016642451433487255, 'epoch': 0.62}
+{'loss': 1.4715, 'grad_norm': 0.12302020937204361, 'learning_rate': 0.0001662291336263716, 'epoch': 0.62}
+{'loss': 1.4675, 'grad_norm': 0.12244527786970139, 'learning_rate': 0.0001660338105378088, 'epoch': 0.62}
+{'loss': 1.462, 'grad_norm': 0.11066944897174835, 'learning_rate': 0.00016583854520353268, 'epoch': 0.62}
+{'loss': 1.4809, 'grad_norm': 0.11543972790241241, 'learning_rate': 0.00016564333775785222, 'epoch': 0.62}
+{'loss': 1.4708, 'grad_norm': 0.11541885137557983, 'learning_rate': 0.00016544818833503654, 'epoch': 0.62}
+{'loss': 1.4917, 'grad_norm': 0.10482002794742584, 'learning_rate': 0.00016525309706931472, 'epoch': 0.62}
+{'loss': 1.4845, 'grad_norm': 0.11807606369256973, 'learning_rate': 0.00016505806409487615, 'epoch': 0.62}
+{'loss': 1.4405, 'grad_norm': 0.13325859606266022, 'learning_rate': 0.00016486308954586992, 'epoch': 0.62}
+{'loss': 1.4624, 'grad_norm': 0.10712006688117981, 'learning_rate': 0.00016466817355640495, 'epoch': 0.62}
+{'loss': 1.4568, 'grad_norm': 0.12051599472761154, 'learning_rate': 0.00016447331626054984, 'epoch': 0.62}
+{'loss': 1.4553, 'grad_norm': 0.11953826248645782, 'learning_rate': 0.00016427851779233282, 'epoch': 0.62}
+{'loss': 1.4462, 'grad_norm': 0.11701467633247375, 'learning_rate': 0.00016408377828574196, 'epoch': 0.62}
+{'loss': 1.4637, 'grad_norm': 0.11741027235984802, 'learning_rate': 0.0001638890978747243, 'epoch': 0.62}
+{'loss': 1.4694, 'grad_norm': 0.11392536014318466, 'learning_rate': 0.00016369447669318648, 'epoch': 0.62}
+{'loss': 1.4548, 'grad_norm': 0.1312660425901413, 'learning_rate': 0.00016349991487499437, 'epoch': 0.62}
+{'loss': 1.4673, 'grad_norm': 0.13186439871788025, 'learning_rate': 0.00016330541255397314, 'epoch': 0.62}
+{'loss': 1.4453, 'grad_norm': 0.10507405549287796, 'learning_rate': 0.00016311096986390683, 'epoch': 0.62}
+{'loss': 1.4583, 'grad_norm': 0.10935372114181519, 'learning_rate': 0.0001629165869385385, 'epoch': 0.62}
+{'loss': 1.4623, 'grad_norm': 0.11691196262836456, 'learning_rate': 0.00016272226391157024, 'epoch': 0.63}
+{'loss': 1.4463, 'grad_norm': 0.1322784572839737, 'learning_rate': 0.0001625280009166627, 'epoch': 0.63}
+{'loss': 1.4551, 'grad_norm': 0.12254831194877625, 'learning_rate': 0.00016233379808743557, 'epoch': 0.63}
+{'loss': 1.4593, 'grad_norm': 0.1220298707485199, 'learning_rate': 0.00016213965555746685, 'epoch': 0.63}
+{'loss': 1.4704, 'grad_norm': 0.11550568044185638, 'learning_rate': 0.00016194557346029323, 'epoch': 0.63}
+{'loss': 1.4551, 'grad_norm': 0.12937042117118835, 'learning_rate': 0.00016175155192940983, 'epoch': 0.63}
+{'loss': 1.4698, 'grad_norm': 0.11905543506145477, 'learning_rate': 0.00016155759109826983, 'epoch': 0.63}
+{'loss': 1.4592, 'grad_norm': 0.12167887389659882, 'learning_rate': 0.00016136369110028521, 'epoch': 0.63}
+{'loss': 1.465, 'grad_norm': 0.12949234247207642, 'learning_rate': 0.00016116985206882572, 'epoch': 0.63}
+{'loss': 1.449, 'grad_norm': 0.11511702090501785, 'learning_rate': 0.0001609760741372192, 'epoch': 0.63}
+{'loss': 1.4733, 'grad_norm': 0.11724025011062622, 'learning_rate': 0.00016078235743875144, 'epoch': 0.63}
+{'loss': 1.4781, 'grad_norm': 0.14293742179870605, 'learning_rate': 0.0001605887021066663, 'epoch': 0.63}
+{'loss': 1.4565, 'grad_norm': 0.11174212396144867, 'learning_rate': 0.00016039510827416527, 'epoch': 0.63}
+{'loss': 1.4886, 'grad_norm': 0.11930876970291138, 'learning_rate': 0.0001602015760744076, 'epoch': 0.63}
+{'loss': 1.4833, 'grad_norm': 0.12106893211603165, 'learning_rate': 0.00016000810564051015, 'epoch': 0.63}
+{'loss': 1.4343, 'grad_norm': 0.12293136864900589, 'learning_rate': 0.00015981469710554724, 'epoch': 0.63}
+{'loss': 1.4404, 'grad_norm': 0.11125918477773666, 'learning_rate': 0.00015962135060255066, 'epoch': 0.63}
+{'loss': 1.4534, 'grad_norm': 0.11178111284971237, 'learning_rate': 0.00015942806626450965, 'epoch': 0.63}
+{'loss': 1.4601, 'grad_norm': 0.13566026091575623, 'learning_rate': 0.00015923484422437044, 'epoch': 0.63}
+{'loss': 1.4767, 'grad_norm': 0.1263246387243271, 'learning_rate': 0.0001590416846150365, 'epoch': 0.63}
+{'loss': 1.451, 'grad_norm': 0.11905521899461746, 'learning_rate': 0.0001588485875693684, 'epoch': 0.63}
+{'loss': 1.4737, 'grad_norm': 0.11454799026250839, 'learning_rate': 0.00015865555322018383, 'epoch': 0.63}
+{'loss': 1.4446, 'grad_norm': 0.13865894079208374, 'learning_rate': 0.00015846258170025714, 'epoch': 0.63}
+{'loss': 1.4434, 'grad_norm': 0.11455295234918594, 'learning_rate': 0.0001582696731423194, 'epoch': 0.63}
+{'loss': 1.4432, 'grad_norm': 0.1262471228837967, 'learning_rate': 0.0001580768276790586, 'epoch': 0.63}
+{'loss': 1.468, 'grad_norm': 0.1349875032901764, 'learning_rate': 0.00015788404544311914, 'epoch': 0.63}
+{'loss': 1.4609, 'grad_norm': 0.0974339172244072, 'learning_rate': 0.00015769132656710214, 'epoch': 0.63}
+{'loss': 1.4678, 'grad_norm': 0.12014327198266983, 'learning_rate': 0.00015749867118356492, 'epoch': 0.63}
+{'loss': 1.466, 'grad_norm': 0.11411812901496887, 'learning_rate': 0.00015730607942502134, 'epoch': 0.63}
+{'loss': 1.4641, 'grad_norm': 0.11214108765125275, 'learning_rate': 0.00015711355142394132, 'epoch': 0.63}
+{'loss': 1.4579, 'grad_norm': 0.11149472743272781, 'learning_rate': 0.00015692108731275083, 'epoch': 0.63}
+{'loss': 1.4675, 'grad_norm': 0.12315454334020615, 'learning_rate': 0.0001567286872238323, 'epoch': 0.63}
+{'loss': 1.4305, 'grad_norm': 0.13029658794403076, 'learning_rate': 0.00015653635128952382, 'epoch': 0.63}
+{'loss': 1.4679, 'grad_norm': 0.11075369268655777, 'learning_rate': 0.00015634407964211934, 'epoch': 0.63}
+{'loss': 1.4591, 'grad_norm': 0.11270764470100403, 'learning_rate': 0.00015615187241386857, 'epoch': 0.63}
+{'loss': 1.4651, 'grad_norm': 0.1027684211730957, 'learning_rate': 0.0001559597297369772, 'epoch': 0.63}
+{'loss': 1.4587, 'grad_norm': 0.11208008229732513, 'learning_rate': 0.00015576765174360628, 'epoch': 0.63}
+{'loss': 1.48, 'grad_norm': 0.11240816861391068, 'learning_rate': 0.00015557563856587238, 'epoch': 0.63}
+{'loss': 1.45, 'grad_norm': 0.11159253865480423, 'learning_rate': 0.00015538369033584742, 'epoch': 0.63}
+{'loss': 1.4458, 'grad_norm': 0.12220684438943863, 'learning_rate': 0.00015519180718555882, 'epoch': 0.64}
+{'loss': 1.4574, 'grad_norm': 0.10735886543989182, 'learning_rate': 0.0001549999892469892, 'epoch': 0.64}
+{'loss': 1.4549, 'grad_norm': 0.10912251472473145, 'learning_rate': 0.00015480823665207637, 'epoch': 0.64}
+{'loss': 1.4794, 'grad_norm': 0.13372336328029633, 'learning_rate': 0.0001546165495327129, 'epoch': 0.64}
+{'loss': 1.4489, 'grad_norm': 0.1199687048792839, 'learning_rate': 0.0001544249280207467, 'epoch': 0.64}
+{'loss': 1.4487, 'grad_norm': 0.10832524299621582, 'learning_rate': 0.00015423337224798023, 'epoch': 0.64}
+{'loss': 1.4765, 'grad_norm': 0.1174941286444664, 'learning_rate': 0.0001540418823461711, 'epoch': 0.64}
+{'loss': 1.4588, 'grad_norm': 0.1178833395242691, 'learning_rate': 0.0001538504584470312, 'epoch': 0.64}
+{'loss': 1.4633, 'grad_norm': 0.11602911353111267, 'learning_rate': 0.00015365910068222745, 'epoch': 0.64}
+{'loss': 1.4709, 'grad_norm': 0.11528021842241287, 'learning_rate': 0.00015346780918338088, 'epoch': 0.64}
+{'loss': 1.4507, 'grad_norm': 0.1218491792678833, 'learning_rate': 0.00015327658408206707, 'epoch': 0.64}
+{'loss': 1.4762, 'grad_norm': 0.11575598269701004, 'learning_rate': 0.00015308542550981615, 'epoch': 0.64}
+{'loss': 1.472, 'grad_norm': 0.11432395875453949, 'learning_rate': 0.00015289433359811229, 'epoch': 0.64}
+{'loss': 1.4342, 'grad_norm': 0.1258726716041565, 'learning_rate': 0.00015270330847839375, 'epoch': 0.64}
+{'loss': 1.4734, 'grad_norm': 0.11850569397211075, 'learning_rate': 0.00015251235028205295, 'epoch': 0.64}
+{'loss': 1.4599, 'grad_norm': 0.11145966500043869, 'learning_rate': 0.00015232145914043625, 'epoch': 0.64}
+{'loss': 1.461, 'grad_norm': 0.10246124863624573, 'learning_rate': 0.000152130635184844, 'epoch': 0.64}
+{'loss': 1.4632, 'grad_norm': 0.1098891943693161, 'learning_rate': 0.00015193987854653023, 'epoch': 0.64}
+{'loss': 1.4739, 'grad_norm': 0.11241273581981659, 'learning_rate': 0.0001517491893567025, 'epoch': 0.64}
+{'loss': 1.4701, 'grad_norm': 0.10949196666479111, 'learning_rate': 0.00015155856774652228, 'epoch': 0.64}
+{'loss': 1.4567, 'grad_norm': 0.10979041457176208, 'learning_rate': 0.00015136801384710448, 'epoch': 0.64}
+{'loss': 1.4765, 'grad_norm': 0.11058114469051361, 'learning_rate': 0.00015117752778951736, 'epoch': 0.64}
+{'loss': 1.464, 'grad_norm': 0.10712642967700958, 'learning_rate': 0.00015098710970478247, 'epoch': 0.64}
+{'loss': 1.4416, 'grad_norm': 0.1161830872297287, 'learning_rate': 0.00015079675972387474, 'epoch': 0.64}
+{'loss': 1.4677, 'grad_norm': 0.1117829903960228, 'learning_rate': 0.0001506064779777221, 'epoch': 0.64}
+{'loss': 1.4752, 'grad_norm': 0.09756860136985779, 'learning_rate': 0.00015041626459720578, 'epoch': 0.64}
+{'loss': 1.4611, 'grad_norm': 0.11574027687311172, 'learning_rate': 0.00015022611971315974, 'epoch': 0.64}
+{'loss': 1.4525, 'grad_norm': 0.11340202391147614, 'learning_rate': 0.00015003604345637105, 'epoch': 0.64}
+{'loss': 1.4859, 'grad_norm': 0.10488367080688477, 'learning_rate': 0.0001498460359575794, 'epoch': 0.64}
+{'loss': 1.481, 'grad_norm': 0.11626710742712021, 'learning_rate': 0.0001496560973474771, 'epoch': 0.64}
+{'loss': 1.4613, 'grad_norm': 0.1216784119606018, 'learning_rate': 0.00014946622775670942, 'epoch': 0.64}
+{'loss': 1.455, 'grad_norm': 0.10888313502073288, 'learning_rate': 0.00014927642731587393, 'epoch': 0.64}
+{'loss': 1.4491, 'grad_norm': 0.10925581306219101, 'learning_rate': 0.00014908669615552067, 'epoch': 0.64}
+{'loss': 1.4514, 'grad_norm': 0.12128842622041702, 'learning_rate': 0.0001488970344061519, 'epoch': 0.64}
+{'loss': 1.4734, 'grad_norm': 0.12474124878644943, 'learning_rate': 0.00014870744219822236, 'epoch': 0.64}
+{'loss': 1.4625, 'grad_norm': 0.11848949640989304, 'learning_rate': 0.00014851791966213884, 'epoch': 0.64}
+{'loss': 1.4534, 'grad_norm': 0.12814655900001526, 'learning_rate': 0.0001483284669282603, 'epoch': 0.64}
+{'loss': 1.4692, 'grad_norm': 0.12790338695049286, 'learning_rate': 0.00014813908412689746, 'epoch': 0.64}
+{'loss': 1.4658, 'grad_norm': 0.10814911127090454, 'learning_rate': 0.00014794977138831323, 'epoch': 0.64}
+{'loss': 1.4725, 'grad_norm': 0.12082020193338394, 'learning_rate': 0.00014776052884272206, 'epoch': 0.65}
+{'loss': 1.4229, 'grad_norm': 0.14231719076633453, 'learning_rate': 0.00014757135662029041, 'epoch': 0.65}
+{'loss': 1.457, 'grad_norm': 0.11687827855348587, 'learning_rate': 0.00014738225485113615, 'epoch': 0.65}
+{'loss': 1.4657, 'grad_norm': 0.13488349318504333, 'learning_rate': 0.00014719322366532866, 'epoch': 0.65}
+{'loss': 1.4805, 'grad_norm': 0.1349988728761673, 'learning_rate': 0.0001470042631928889, 'epoch': 0.65}
+{'loss': 1.4712, 'grad_norm': 0.10269429534673691, 'learning_rate': 0.00014681537356378923, 'epoch': 0.65}
+{'loss': 1.452, 'grad_norm': 0.12455502897500992, 'learning_rate': 0.0001466265549079532, 'epoch': 0.65}
+{'loss': 1.4849, 'grad_norm': 0.15360140800476074, 'learning_rate': 0.00014643780735525545, 'epoch': 0.65}
+{'loss': 1.4722, 'grad_norm': 0.12674634158611298, 'learning_rate': 0.00014624913103552189, 'epoch': 0.65}
+{'loss': 1.4602, 'grad_norm': 0.11955199390649796, 'learning_rate': 0.00014606052607852923, 'epoch': 0.65}
+{'loss': 1.4824, 'grad_norm': 0.11620181053876877, 'learning_rate': 0.0001458719926140054, 'epoch': 0.65}
+{'loss': 1.4689, 'grad_norm': 0.13215382397174835, 'learning_rate': 0.00014568353077162887, 'epoch': 0.65}
+{'loss': 1.461, 'grad_norm': 0.1162920668721199, 'learning_rate': 0.00014549514068102904, 'epoch': 0.65}
+{'loss': 1.4701, 'grad_norm': 0.11508181691169739, 'learning_rate': 0.0001453068224717858, 'epoch': 0.65}
+{'loss': 1.4531, 'grad_norm': 0.14114445447921753, 'learning_rate': 0.0001451185762734295, 'epoch': 0.65}
+{'loss': 1.4946, 'grad_norm': 0.10664553940296173, 'learning_rate': 0.00014493040221544146, 'epoch': 0.65}
+{'loss': 1.5032, 'grad_norm': 0.11471866816282272, 'learning_rate': 0.00014474230042725271, 'epoch': 0.65}
+{'loss': 1.4817, 'grad_norm': 0.1378202587366104, 'learning_rate': 0.00014455427103824523, 'epoch': 0.65}
+{'loss': 1.4533, 'grad_norm': 0.11012525111436844, 'learning_rate': 0.0001443663141777506, 'epoch': 0.65}
+{'loss': 1.4642, 'grad_norm': 0.11889657378196716, 'learning_rate': 0.000144178429975051, 'epoch': 0.65}
+{'loss': 1.4585, 'grad_norm': 0.12920565903186798, 'learning_rate': 0.00014399061855937834, 'epoch': 0.65}
+{'loss': 1.4531, 'grad_norm': 0.11735518276691437, 'learning_rate': 0.00014380288005991454, 'epoch': 0.65}
+{'loss': 1.4802, 'grad_norm': 0.12174627929925919, 'learning_rate': 0.00014361521460579138, 'epoch': 0.65}
+{'loss': 1.4222, 'grad_norm': 0.1258321851491928, 'learning_rate': 0.0001434276223260903, 'epoch': 0.65}
+{'loss': 1.4783, 'grad_norm': 0.12109582126140594, 'learning_rate': 0.00014324010334984267, 'epoch': 0.65}
+{'loss': 1.4682, 'grad_norm': 0.11728690564632416, 'learning_rate': 0.00014305265780602911, 'epoch': 0.65}
+{'loss': 1.4443, 'grad_norm': 0.12161948531866074, 'learning_rate': 0.00014286528582358005, 'epoch': 0.65}
+{'loss': 1.4553, 'grad_norm': 0.10969065129756927, 'learning_rate': 0.00014267798753137513, 'epoch': 0.65}
+{'loss': 1.4437, 'grad_norm': 0.13013006746768951, 'learning_rate': 0.00014249076305824316, 'epoch': 0.65}
+{'loss': 1.4635, 'grad_norm': 0.10920698940753937, 'learning_rate': 0.0001423036125329626, 'epoch': 0.65}
+{'loss': 1.4587, 'grad_norm': 0.11072199791669846, 'learning_rate': 0.0001421165360842607, 'epoch': 0.65}
+{'loss': 1.4366, 'grad_norm': 0.12320765107870102, 'learning_rate': 0.00014192953384081387, 'epoch': 0.65}
+{'loss': 1.4518, 'grad_norm': 0.12037503719329834, 'learning_rate': 0.00014174260593124733, 'epoch': 0.65}
+{'loss': 1.4312, 'grad_norm': 0.13591107726097107, 'learning_rate': 0.0001415557524841354, 'epoch': 0.65}
+{'loss': 1.4672, 'grad_norm': 0.11391626298427582, 'learning_rate': 0.00014136897362800128, 'epoch': 0.65}
+{'loss': 1.4703, 'grad_norm': 0.12266319245100021, 'learning_rate': 0.00014118226949131647, 'epoch': 0.65}
+{'loss': 1.4606, 'grad_norm': 0.13043168187141418, 'learning_rate': 0.00014099564020250132, 'epoch': 0.65}
+{'loss': 1.4626, 'grad_norm': 0.11904550343751907, 'learning_rate': 0.0001408090858899246, 'epoch': 0.65}
+{'loss': 1.4737, 'grad_norm': 0.12155216932296753, 'learning_rate': 0.00014062260668190374, 'epoch': 0.65}
+{'loss': 1.4734, 'grad_norm': 0.11534494161605835, 'learning_rate': 0.0001404362027067042, 'epoch': 0.66}
+{'loss': 1.4763, 'grad_norm': 0.11863989382982254, 'learning_rate': 0.0001402498740925398, 'epoch': 0.66}
+{'loss': 1.4288, 'grad_norm': 0.1167939230799675, 'learning_rate': 0.00014006362096757275, 'epoch': 0.66}
+{'loss': 1.4657, 'grad_norm': 0.12100742012262344, 'learning_rate': 0.0001398774434599129, 'epoch': 0.66}
+{'loss': 1.4389, 'grad_norm': 0.12673550844192505, 'learning_rate': 0.0001396913416976185, 'epoch': 0.66}
+{'loss': 1.459, 'grad_norm': 0.10305119305849075, 'learning_rate': 0.00013950531580869552, 'epoch': 0.66}
+{'loss': 1.4813, 'grad_norm': 0.11945941299200058, 'learning_rate': 0.00013931936592109773, 'epoch': 0.66}
+{'loss': 1.4706, 'grad_norm': 0.1287251114845276, 'learning_rate': 0.00013913349216272659, 'epoch': 0.66}
+{'loss': 1.4644, 'grad_norm': 0.1124047264456749, 'learning_rate': 0.00013894769466143127, 'epoch': 0.66}
+{'loss': 1.4643, 'grad_norm': 0.11271762102842331, 'learning_rate': 0.0001387619735450084, 'epoch': 0.66}
+{'loss': 1.4715, 'grad_norm': 0.11314669996500015, 'learning_rate': 0.0001385763289412024, 'epoch': 0.66}
+{'loss': 1.4717, 'grad_norm': 0.11349920928478241, 'learning_rate': 0.0001383907609777047, 'epoch': 0.66}
+{'loss': 1.462, 'grad_norm': 0.125278040766716, 'learning_rate': 0.00013820526978215402, 'epoch': 0.66}
+{'loss': 1.4575, 'grad_norm': 0.12015047669410706, 'learning_rate': 0.00013801985548213632, 'epoch': 0.66}
+{'loss': 1.4352, 'grad_norm': 0.10016944259405136, 'learning_rate': 0.00013783451820518493, 'epoch': 0.66}
+{'loss': 1.4531, 'grad_norm': 0.1014794185757637, 'learning_rate': 0.00013764925807877994, 'epoch': 0.66}
+{'loss': 1.4844, 'grad_norm': 0.10730358213186264, 'learning_rate': 0.0001374640752303483, 'epoch': 0.66}
+{'loss': 1.4933, 'grad_norm': 0.11573318392038345, 'learning_rate': 0.000137278969787264, 'epoch': 0.66}
+{'loss': 1.4727, 'grad_norm': 0.11689689010381699, 'learning_rate': 0.00013709394187684786, 'epoch': 0.66}
+{'loss': 1.4837, 'grad_norm': 0.11836858838796616, 'learning_rate': 0.00013690899162636713, 'epoch': 0.66}
+{'loss': 1.4854, 'grad_norm': 0.11739110201597214, 'learning_rate': 0.00013672411916303576, 'epoch': 0.66}
+{'loss': 1.4691, 'grad_norm': 0.1075582429766655, 'learning_rate': 0.0001365393246140142, 'epoch': 0.66}
+{'loss': 1.4503, 'grad_norm': 0.12451688945293427, 'learning_rate': 0.00013635460810640916, 'epoch': 0.66}
+{'loss': 1.4496, 'grad_norm': 0.11935091018676758, 'learning_rate': 0.00013616996976727397, 'epoch': 0.66}
+{'loss': 1.4339, 'grad_norm': 0.10862287878990173, 'learning_rate': 0.00013598540972360794, 'epoch': 0.66}
+{'loss': 1.4527, 'grad_norm': 0.11423632502555847, 'learning_rate': 0.00013580092810235673, 'epoch': 0.66}
+{'loss': 1.472, 'grad_norm': 0.12769180536270142, 'learning_rate': 0.00013561652503041186, 'epoch': 0.66}
+{'loss': 1.4472, 'grad_norm': 0.11723782867193222, 'learning_rate': 0.0001354322006346108, 'epoch': 0.66}
+{'loss': 1.4792, 'grad_norm': 0.12555758655071259, 'learning_rate': 0.00013524795504173725, 'epoch': 0.66}
+{'loss': 1.4604, 'grad_norm': 0.12940435111522675, 'learning_rate': 0.0001350637883785203, 'epoch': 0.66}
+{'loss': 1.4569, 'grad_norm': 0.1032816618680954, 'learning_rate': 0.000134879700771635, 'epoch': 0.66}
+{'loss': 1.4514, 'grad_norm': 0.11604071408510208, 'learning_rate': 0.0001346956923477018, 'epoch': 0.66}
+{'loss': 1.4731, 'grad_norm': 0.1205463707447052, 'learning_rate': 0.00013451176323328687, 'epoch': 0.66}
+{'loss': 1.4712, 'grad_norm': 0.10994338244199753, 'learning_rate': 0.00013432791355490198, 'epoch': 0.66}
+{'loss': 1.4465, 'grad_norm': 0.11519751697778702, 'learning_rate': 0.0001341441434390039, 'epoch': 0.66}
+{'loss': 1.4657, 'grad_norm': 0.11916846036911011, 'learning_rate': 0.00013396045301199483, 'epoch': 0.66}
+{'loss': 1.4737, 'grad_norm': 0.14117510616779327, 'learning_rate': 0.00013377684240022214, 'epoch': 0.66}
+{'loss': 1.4579, 'grad_norm': 0.10733606666326523, 'learning_rate': 0.00013359331172997847, 'epoch': 0.66}
+{'loss': 1.4591, 'grad_norm': 0.12301338464021683, 'learning_rate': 0.00013340986112750125, 'epoch': 0.66}
+{'loss': 1.4525, 'grad_norm': 0.11763645708560944, 'learning_rate': 0.00013322649071897285, 'epoch': 0.67}
+{'loss': 1.4736, 'grad_norm': 0.10964200645685196, 'learning_rate': 0.0001330432006305207, 'epoch': 0.67}
+{'loss': 1.427, 'grad_norm': 0.11705642193555832, 'learning_rate': 0.00013285999098821665, 'epoch': 0.67}
+{'loss': 1.4707, 'grad_norm': 0.14966215193271637, 'learning_rate': 0.00013267686191807763, 'epoch': 0.67}
+{'loss': 1.4617, 'grad_norm': 0.11835845559835434, 'learning_rate': 0.00013249381354606476, 'epoch': 0.67}
+{'loss': 1.4408, 'grad_norm': 0.12378327548503876, 'learning_rate': 0.0001323108459980839, 'epoch': 0.67}
+{'loss': 1.4554, 'grad_norm': 0.12371612340211868, 'learning_rate': 0.0001321279593999852, 'epoch': 0.67}
+{'loss': 1.475, 'grad_norm': 0.1213953047990799, 'learning_rate': 0.00013194515387756297, 'epoch': 0.67}
+{'loss': 1.4843, 'grad_norm': 0.10890696197748184, 'learning_rate': 0.00013176242955655626, 'epoch': 0.67}
+{'loss': 1.4672, 'grad_norm': 0.11752454191446304, 'learning_rate': 0.00013157978656264775, 'epoch': 0.67}
+{'loss': 1.4422, 'grad_norm': 0.11968120187520981, 'learning_rate': 0.00013139722502146452, 'epoch': 0.67}
+{'loss': 1.4636, 'grad_norm': 0.10509803146123886, 'learning_rate': 0.00013121474505857744, 'epoch': 0.67}
+{'loss': 1.4556, 'grad_norm': 0.10180167108774185, 'learning_rate': 0.00013103234679950117, 'epoch': 0.67}
+{'loss': 1.4527, 'grad_norm': 0.11206074804067612, 'learning_rate': 0.00013085003036969456, 'epoch': 0.67}
+{'loss': 1.4902, 'grad_norm': 0.12355580925941467, 'learning_rate': 0.00013066779589455984, 'epoch': 0.67}
+{'loss': 1.4562, 'grad_norm': 0.1172269880771637, 'learning_rate': 0.00013048564349944295, 'epoch': 0.67}
+{'loss': 1.4717, 'grad_norm': 0.11232428252696991, 'learning_rate': 0.00013030357330963326, 'epoch': 0.67}
+{'loss': 1.4837, 'grad_norm': 0.1103791818022728, 'learning_rate': 0.00013012158545036388, 'epoch': 0.67}
+{'loss': 1.4635, 'grad_norm': 0.11557594686746597, 'learning_rate': 0.00012993968004681116, 'epoch': 0.67}
+{'loss': 1.4703, 'grad_norm': 0.12046115845441818, 'learning_rate': 0.0001297578572240947, 'epoch': 0.67}
+{'loss': 1.4548, 'grad_norm': 0.10586313158273697, 'learning_rate': 0.00012957611710727723, 'epoch': 0.67}
+{'loss': 1.475, 'grad_norm': 0.11030270159244537, 'learning_rate': 0.00012939445982136462, 'epoch': 0.67}
+{'loss': 1.452, 'grad_norm': 0.10289240628480911, 'learning_rate': 0.000129212885491306, 'epoch': 0.67}
+{'loss': 1.4634, 'grad_norm': 0.12272299826145172, 'learning_rate': 0.00012903139424199313, 'epoch': 0.67}
+{'loss': 1.4516, 'grad_norm': 0.12553752958774567, 'learning_rate': 0.0001288499861982607, 'epoch': 0.67}
+{'loss': 1.4621, 'grad_norm': 0.12118171900510788, 'learning_rate': 0.00012866866148488637, 'epoch': 0.67}
+{'loss': 1.4864, 'grad_norm': 0.12158960849046707, 'learning_rate': 0.00012848742022659022, 'epoch': 0.67}
+{'loss': 1.464, 'grad_norm': 0.12927643954753876, 'learning_rate': 0.0001283062625480351, 'epoch': 0.67}
+{'loss': 1.4526, 'grad_norm': 0.13312014937400818, 'learning_rate': 0.00012812518857382638, 'epoch': 0.67}
+{'loss': 1.4895, 'grad_norm': 0.11179360747337341, 'learning_rate': 0.0001279441984285117, 'epoch': 0.67}
+{'loss': 1.4457, 'grad_norm': 0.11332203447818756, 'learning_rate': 0.00012776329223658113, 'epoch': 0.67}
+{'loss': 1.4457, 'grad_norm': 0.12068462371826172, 'learning_rate': 0.0001275824701224669, 'epoch': 0.67}
+{'loss': 1.4768, 'grad_norm': 0.1092727780342102, 'learning_rate': 0.00012740173221054358, 'epoch': 0.67}
+{'loss': 1.4545, 'grad_norm': 0.12046156078577042, 'learning_rate': 0.00012722107862512787, 'epoch': 0.67}
+{'loss': 1.4716, 'grad_norm': 0.11345795542001724, 'learning_rate': 0.00012704050949047824, 'epoch': 0.67}
+{'loss': 1.4718, 'grad_norm': 0.10883718729019165, 'learning_rate': 0.00012686002493079524, 'epoch': 0.67}
+{'loss': 1.4487, 'grad_norm': 0.11319724470376968, 'learning_rate': 0.00012667962507022096, 'epoch': 0.67}
+{'loss': 1.4649, 'grad_norm': 0.10720012336969376, 'learning_rate': 0.00012649931003283976, 'epoch': 0.67}
+{'loss': 1.4446, 'grad_norm': 0.11322646588087082, 'learning_rate': 0.0001263190799426772, 'epoch': 0.67}
+{'loss': 1.4478, 'grad_norm': 0.11475986987352371, 'learning_rate': 0.00012613893492370047, 'epoch': 0.68}
+{'loss': 1.4682, 'grad_norm': 0.11236339062452316, 'learning_rate': 0.00012595887509981844, 'epoch': 0.68}
+{'loss': 1.4606, 'grad_norm': 0.11417172849178314, 'learning_rate': 0.00012577890059488136, 'epoch': 0.68}
+{'loss': 1.4623, 'grad_norm': 0.10875152796506882, 'learning_rate': 0.00012559901153268065, 'epoch': 0.68}
+{'loss': 1.4633, 'grad_norm': 0.1194351390004158, 'learning_rate': 0.000125419208036949, 'epoch': 0.68}
+{'loss': 1.4641, 'grad_norm': 0.12156820297241211, 'learning_rate': 0.00012523949023136028, 'epoch': 0.68}
+{'loss': 1.474, 'grad_norm': 0.10609938204288483, 'learning_rate': 0.0001250598582395293, 'epoch': 0.68}
+{'loss': 1.485, 'grad_norm': 0.12017681449651718, 'learning_rate': 0.00012488031218501217, 'epoch': 0.68}
+{'loss': 1.4566, 'grad_norm': 0.11327732354402542, 'learning_rate': 0.00012470085219130545, 'epoch': 0.68}
+{'loss': 1.4583, 'grad_norm': 0.12109663337469101, 'learning_rate': 0.00012452147838184694, 'epoch': 0.68}
+{'loss': 1.4858, 'grad_norm': 0.09828183054924011, 'learning_rate': 0.00012434219088001483, 'epoch': 0.68}
+{'loss': 1.4595, 'grad_norm': 0.1102491021156311, 'learning_rate': 0.00012416298980912798, 'epoch': 0.68}
+{'loss': 1.4658, 'grad_norm': 0.09842748194932938, 'learning_rate': 0.00012398387529244612, 'epoch': 0.68}
+{'loss': 1.4635, 'grad_norm': 0.09705270081758499, 'learning_rate': 0.00012380484745316904, 'epoch': 0.68}
+{'loss': 1.4594, 'grad_norm': 0.10536859184503555, 'learning_rate': 0.00012362590641443712, 'epoch': 0.68}
+{'loss': 1.4632, 'grad_norm': 0.12315293401479721, 'learning_rate': 0.0001234470522993309, 'epoch': 0.68}
+{'loss': 1.4879, 'grad_norm': 0.09996377676725388, 'learning_rate': 0.0001232682852308713, 'epoch': 0.68}
+{'loss': 1.4149, 'grad_norm': 0.10469550639390945, 'learning_rate': 0.00012308960533201943, 'epoch': 0.68}
+{'loss': 1.4351, 'grad_norm': 0.11873506009578705, 'learning_rate': 0.0001229110127256762, 'epoch': 0.68}
+{'loss': 1.4582, 'grad_norm': 0.1175246611237526, 'learning_rate': 0.00012273250753468254, 'epoch': 0.68}
+{'loss': 1.4904, 'grad_norm': 0.0975305587053299, 'learning_rate': 0.00012255408988181925, 'epoch': 0.68}
+{'loss': 1.4777, 'grad_norm': 0.12285663932561874, 'learning_rate': 0.00012237575988980717, 'epoch': 0.68}
+{'loss': 1.4726, 'grad_norm': 0.11369269341230392, 'learning_rate': 0.0001221975176813065, 'epoch': 0.68}
+{'loss': 1.4482, 'grad_norm': 0.11303839832544327, 'learning_rate': 0.00012201936337891714, 'epoch': 0.68}
+{'loss': 1.4521, 'grad_norm': 0.10641998797655106, 'learning_rate': 0.00012184129710517877, 'epoch': 0.68}
+{'loss': 1.4414, 'grad_norm': 0.13130618631839752, 'learning_rate': 0.00012166331898257017, 'epoch': 0.68}
+{'loss': 1.4521, 'grad_norm': 0.11633692681789398, 'learning_rate': 0.00012148542913350977, 'epoch': 0.68}
+{'loss': 1.4384, 'grad_norm': 0.11001389473676682, 'learning_rate': 0.00012130762768035517, 'epoch': 0.68}
+{'loss': 1.4224, 'grad_norm': 0.11178890615701675, 'learning_rate': 0.00012112991474540311, 'epoch': 0.68}
+{'loss': 1.4642, 'grad_norm': 0.11540929973125458, 'learning_rate': 0.00012095229045088949, 'epoch': 0.68}
+{'loss': 1.4795, 'grad_norm': 0.09743685275316238, 'learning_rate': 0.00012077475491898921, 'epoch': 0.68}
+{'loss': 1.4722, 'grad_norm': 0.1287895292043686, 'learning_rate': 0.00012059730827181634, 'epoch': 0.68}
+{'loss': 1.472, 'grad_norm': 0.10662803053855896, 'learning_rate': 0.00012041995063142339, 'epoch': 0.68}
+{'loss': 1.479, 'grad_norm': 0.12070970982313156, 'learning_rate': 0.00012024268211980214, 'epoch': 0.68}
+{'loss': 1.4895, 'grad_norm': 0.11927194148302078, 'learning_rate': 0.0001200655028588827, 'epoch': 0.68}
+{'loss': 1.4927, 'grad_norm': 0.12180876731872559, 'learning_rate': 0.00011988841297053379, 'epoch': 0.68}
+{'loss': 1.4687, 'grad_norm': 0.10667316615581512, 'learning_rate': 0.00011971141257656301, 'epoch': 0.68}
+{'loss': 1.4561, 'grad_norm': 0.10778027772903442, 'learning_rate': 0.00011953450179871606, 'epoch': 0.68}
+{'loss': 1.4678, 'grad_norm': 0.1142040342092514, 'learning_rate': 0.00011935768075867707, 'epoch': 0.68}
+{'loss': 1.4542, 'grad_norm': 0.10125144571065903, 'learning_rate': 0.0001191809495780684, 'epoch': 0.69}
+{'loss': 1.4292, 'grad_norm': 0.10855842381715775, 'learning_rate': 0.0001190043083784508, 'epoch': 0.69}
+{'loss': 1.4576, 'grad_norm': 0.10175518691539764, 'learning_rate': 0.00011882775728132309, 'epoch': 0.69}
+{'loss': 1.4527, 'grad_norm': 0.10524541884660721, 'learning_rate': 0.00011865129640812198, 'epoch': 0.69}
+{'loss': 1.4249, 'grad_norm': 0.09818290174007416, 'learning_rate': 0.00011847492588022213, 'epoch': 0.69}
+{'loss': 1.4496, 'grad_norm': 0.10338567197322845, 'learning_rate': 0.000118298645818936, 'epoch': 0.69}
+{'loss': 1.4537, 'grad_norm': 0.1082552894949913, 'learning_rate': 0.00011812245634551421, 'epoch': 0.69}
+{'loss': 1.4587, 'grad_norm': 0.11017958074808121, 'learning_rate': 0.00011794635758114464, 'epoch': 0.69}
+{'loss': 1.4615, 'grad_norm': 0.11514042317867279, 'learning_rate': 0.00011777034964695282, 'epoch': 0.69}
+{'loss': 1.4677, 'grad_norm': 0.11555600166320801, 'learning_rate': 0.00011759443266400213, 'epoch': 0.69}
+{'loss': 1.441, 'grad_norm': 0.10669933259487152, 'learning_rate': 0.00011741860675329296, 'epoch': 0.69}
+{'loss': 1.4839, 'grad_norm': 0.10927855968475342, 'learning_rate': 0.00011724287203576353, 'epoch': 0.69}
+{'loss': 1.4562, 'grad_norm': 0.13348647952079773, 'learning_rate': 0.00011706722863228892, 'epoch': 0.69}
+{'loss': 1.4725, 'grad_norm': 0.10451962053775787, 'learning_rate': 0.00011689167666368155, 'epoch': 0.69}
+{'loss': 1.4613, 'grad_norm': 0.09598875045776367, 'learning_rate': 0.00011671621625069103, 'epoch': 0.69}
+{'loss': 1.4465, 'grad_norm': 0.12523645162582397, 'learning_rate': 0.00011654084751400379, 'epoch': 0.69}
+{'loss': 1.4473, 'grad_norm': 0.12992353737354279, 'learning_rate': 0.00011636557057424344, 'epoch': 0.69}
+{'loss': 1.451, 'grad_norm': 0.1152963787317276, 'learning_rate': 0.00011619038555197042, 'epoch': 0.69}
+{'loss': 1.4606, 'grad_norm': 0.12024189531803131, 'learning_rate': 0.00011601529256768181, 'epoch': 0.69}
+{'loss': 1.4409, 'grad_norm': 0.1429368555545807, 'learning_rate': 0.00011584029174181132, 'epoch': 0.69}
+{'loss': 1.4325, 'grad_norm': 0.11356277018785477, 'learning_rate': 0.00011566538319472963, 'epoch': 0.69}
+{'loss': 1.4461, 'grad_norm': 0.11064449697732925, 'learning_rate': 0.00011549056704674357, 'epoch': 0.69}
+{'loss': 1.4548, 'grad_norm': 0.1183829978108406, 'learning_rate': 0.00011531584341809661, 'epoch': 0.69}
+{'loss': 1.4467, 'grad_norm': 0.1236686259508133, 'learning_rate': 0.0001151412124289684, 'epoch': 0.69}
+{'loss': 1.469, 'grad_norm': 0.11353272944688797, 'learning_rate': 0.00011496667419947515, 'epoch': 0.69}
+{'loss': 1.4532, 'grad_norm': 0.12074539810419083, 'learning_rate': 0.00011479222884966916, 'epoch': 0.69}
+{'loss': 1.445, 'grad_norm': 0.12671834230422974, 'learning_rate': 0.00011461787649953875, 'epoch': 0.69}
+{'loss': 1.4648, 'grad_norm': 0.14502421021461487, 'learning_rate': 0.00011444361726900832, 'epoch': 0.69}
+{'loss': 1.4646, 'grad_norm': 0.10830849409103394, 'learning_rate': 0.0001142694512779382, 'epoch': 0.69}
+{'loss': 1.4687, 'grad_norm': 0.10602845251560211, 'learning_rate': 0.00011409537864612454, 'epoch': 0.69}
+{'loss': 1.4649, 'grad_norm': 0.13321423530578613, 'learning_rate': 0.00011392139949329957, 'epoch': 0.69}
+{'loss': 1.463, 'grad_norm': 0.12272948026657104, 'learning_rate': 0.00011374751393913078, 'epoch': 0.69}
+{'loss': 1.4316, 'grad_norm': 0.12682709097862244, 'learning_rate': 0.0001135737221032217, 'epoch': 0.69}
+{'loss': 1.4743, 'grad_norm': 0.13605619966983795, 'learning_rate': 0.0001134000241051111, 'epoch': 0.69}
+{'loss': 1.4868, 'grad_norm': 0.10975043475627899, 'learning_rate': 0.00011322642006427322, 'epoch': 0.69}
+{'loss': 1.4683, 'grad_norm': 0.11666393280029297, 'learning_rate': 0.00011305291010011795, 'epoch': 0.69}
+{'loss': 1.4636, 'grad_norm': 0.1125260591506958, 'learning_rate': 0.00011287949433199018, 'epoch': 0.69}
+{'loss': 1.4335, 'grad_norm': 0.12085410207509995, 'learning_rate': 0.00011270617287917016, 'epoch': 0.69}
+{'loss': 1.4543, 'grad_norm': 0.12066009640693665, 'learning_rate': 0.00011253294586087304, 'epoch': 0.69}
+{'loss': 1.4654, 'grad_norm': 0.10130287706851959, 'learning_rate': 0.00011235981339624935, 'epoch': 0.7}
+{'loss': 1.468, 'grad_norm': 0.11149602383375168, 'learning_rate': 0.00011218677560438448, 'epoch': 0.7}
+{'loss': 1.4721, 'grad_norm': 0.1262163519859314, 'learning_rate': 0.00011201383260429859, 'epoch': 0.7}
+{'loss': 1.4629, 'grad_norm': 0.11290331184864044, 'learning_rate': 0.0001118409845149467, 'epoch': 0.7}
+{'loss': 1.4794, 'grad_norm': 0.11430177837610245, 'learning_rate': 0.00011166823145521842, 'epoch': 0.7}
+{'loss': 1.4633, 'grad_norm': 0.12276922911405563, 'learning_rate': 0.00011149557354393832, 'epoch': 0.7}
+{'loss': 1.4469, 'grad_norm': 0.10989585518836975, 'learning_rate': 0.00011132301089986527, 'epoch': 0.7}
+{'loss': 1.4617, 'grad_norm': 0.10818582028150558, 'learning_rate': 0.00011115054364169253, 'epoch': 0.7}
+{'loss': 1.4602, 'grad_norm': 0.11422500759363174, 'learning_rate': 0.0001109781718880481, 'epoch': 0.7}
+{'loss': 1.4696, 'grad_norm': 0.12280969321727753, 'learning_rate': 0.00011080589575749386, 'epoch': 0.7}
+{'loss': 1.4585, 'grad_norm': 0.12167193740606308, 'learning_rate': 0.00011063371536852637, 'epoch': 0.7}
+{'loss': 1.4555, 'grad_norm': 0.11855868250131607, 'learning_rate': 0.00011046163083957597, 'epoch': 0.7}
+{'loss': 1.4815, 'grad_norm': 0.11534106731414795, 'learning_rate': 0.00011028964228900723, 'epoch': 0.7}
+{'loss': 1.4716, 'grad_norm': 0.11295567452907562, 'learning_rate': 0.00011011774983511865, 'epoch': 0.7}
+{'loss': 1.474, 'grad_norm': 0.11377371102571487, 'learning_rate': 0.00010994595359614257, 'epoch': 0.7}
+{'loss': 1.4274, 'grad_norm': 0.1106005385518074, 'learning_rate': 0.00010977425369024543, 'epoch': 0.7}
+{'loss': 1.4626, 'grad_norm': 0.11083018779754639, 'learning_rate': 0.00010960265023552701, 'epoch': 0.7}
+{'loss': 1.4705, 'grad_norm': 0.10913247615098953, 'learning_rate': 0.00010943114335002113, 'epoch': 0.7}
+{'loss': 1.4487, 'grad_norm': 0.11494825035333633, 'learning_rate': 0.00010925973315169485, 'epoch': 0.7}
+{'loss': 1.4876, 'grad_norm': 0.11647094786167145, 'learning_rate': 0.00010908841975844905, 'epoch': 0.7}
+{'loss': 1.4723, 'grad_norm': 0.1348891705274582, 'learning_rate': 0.00010891720328811777, 'epoch': 0.7}
+{'loss': 1.468, 'grad_norm': 0.11177879571914673, 'learning_rate': 0.00010874608385846846, 'epoch': 0.7}
+{'loss': 1.459, 'grad_norm': 0.09939535707235336, 'learning_rate': 0.00010857506158720187, 'epoch': 0.7}
+{'loss': 1.4834, 'grad_norm': 0.11746767908334732, 'learning_rate': 0.00010840413659195178, 'epoch': 0.7}
+{'loss': 1.4603, 'grad_norm': 0.13207706809043884, 'learning_rate': 0.00010823330899028524, 'epoch': 0.7}
+{'loss': 1.4829, 'grad_norm': 0.1245945394039154, 'learning_rate': 0.00010806257889970237, 'epoch': 0.7}
+{'loss': 1.4509, 'grad_norm': 0.120015449821949, 'learning_rate': 0.00010789194643763597, 'epoch': 0.7}
+{'loss': 1.4432, 'grad_norm': 0.103566475212574, 'learning_rate': 0.00010772141172145181, 'epoch': 0.7}
+{'loss': 1.4695, 'grad_norm': 0.11317342519760132, 'learning_rate': 0.00010755097486844831, 'epoch': 0.7}
+{'loss': 1.4803, 'grad_norm': 0.12034273147583008, 'learning_rate': 0.0001073806359958569, 'epoch': 0.7}
+{'loss': 1.4591, 'grad_norm': 0.11007928103208542, 'learning_rate': 0.00010721039522084134, 'epoch': 0.7}
+{'loss': 1.4709, 'grad_norm': 0.10883142054080963, 'learning_rate': 0.00010704025266049782, 'epoch': 0.7}
+{'loss': 1.4738, 'grad_norm': 0.10670789331197739, 'learning_rate': 0.00010687020843185538, 'epoch': 0.7}
+{'loss': 1.4669, 'grad_norm': 0.12904371321201324, 'learning_rate': 0.00010670026265187499, 'epoch': 0.7}
+{'loss': 1.4461, 'grad_norm': 0.1157691478729248, 'learning_rate': 0.00010653041543745027, 'epoch': 0.7}
+{'loss': 1.454, 'grad_norm': 0.10837249457836151, 'learning_rate': 0.00010636066690540677, 'epoch': 0.7}
+{'loss': 1.4637, 'grad_norm': 0.12438628077507019, 'learning_rate': 0.00010619101717250226, 'epoch': 0.7}
+{'loss': 1.4398, 'grad_norm': 0.10851449519395828, 'learning_rate': 0.0001060214663554265, 'epoch': 0.7}
+{'loss': 1.4762, 'grad_norm': 0.11840800195932388, 'learning_rate': 0.00010585201457080144, 'epoch': 0.7}
+{'loss': 1.4543, 'grad_norm': 0.12860393524169922, 'learning_rate': 0.00010568266193518053, 'epoch': 0.71}
+{'loss': 1.4615, 'grad_norm': 0.1096675917506218, 'learning_rate': 0.00010551340856504946, 'epoch': 0.71}
+{'loss': 1.4381, 'grad_norm': 0.11150389164686203, 'learning_rate': 0.0001053442545768253, 'epoch': 0.71}
+{'loss': 1.4669, 'grad_norm': 0.11893823742866516, 'learning_rate': 0.0001051752000868568, 'epoch': 0.71}
+{'loss': 1.467, 'grad_norm': 0.12157189100980759, 'learning_rate': 0.00010500624521142455, 'epoch': 0.71}
+{'loss': 1.4692, 'grad_norm': 0.12325053662061691, 'learning_rate': 0.00010483739006674029, 'epoch': 0.71}
+{'loss': 1.4886, 'grad_norm': 0.10612057149410248, 'learning_rate': 0.00010466863476894733, 'epoch': 0.71}
+{'loss': 1.4505, 'grad_norm': 0.11159424483776093, 'learning_rate': 0.00010449997943412018, 'epoch': 0.71}
+{'loss': 1.476, 'grad_norm': 0.13127432763576508, 'learning_rate': 0.00010433142417826477, 'epoch': 0.71}
+{'loss': 1.4683, 'grad_norm': 0.11442314088344574, 'learning_rate': 0.00010416296911731818, 'epoch': 0.71}
+{'loss': 1.4619, 'grad_norm': 0.11752548068761826, 'learning_rate': 0.00010399461436714844, 'epoch': 0.71}
+{'loss': 1.4428, 'grad_norm': 0.13031913340091705, 'learning_rate': 0.00010382636004355459, 'epoch': 0.71}
+{'loss': 1.4424, 'grad_norm': 0.11971098929643631, 'learning_rate': 0.00010365820626226671, 'epoch': 0.71}
+{'loss': 1.4829, 'grad_norm': 0.11619935929775238, 'learning_rate': 0.00010349015313894552, 'epoch': 0.71}
+{'loss': 1.4454, 'grad_norm': 0.11212299764156342, 'learning_rate': 0.00010332220078918286, 'epoch': 0.71}
+{'loss': 1.4709, 'grad_norm': 0.11568743735551834, 'learning_rate': 0.00010315434932850081, 'epoch': 0.71}
+{'loss': 1.4551, 'grad_norm': 0.11903893202543259, 'learning_rate': 0.00010298659887235254, 'epoch': 0.71}
+{'loss': 1.4224, 'grad_norm': 0.11639012396335602, 'learning_rate': 0.00010281894953612134, 'epoch': 0.71}
+{'loss': 1.4533, 'grad_norm': 0.11064456403255463, 'learning_rate': 0.00010265140143512103, 'epoch': 0.71}
+{'loss': 1.4583, 'grad_norm': 0.12609274685382843, 'learning_rate': 0.00010248395468459607, 'epoch': 0.71}
+{'loss': 1.4533, 'grad_norm': 0.11080559343099594, 'learning_rate': 0.00010231660939972084, 'epoch': 0.71}
+{'loss': 1.4541, 'grad_norm': 0.10928700864315033, 'learning_rate': 0.00010214936569560019, 'epoch': 0.71}
+{'loss': 1.4638, 'grad_norm': 0.1165870800614357, 'learning_rate': 0.00010198222368726884, 'epoch': 0.71}
+{'loss': 1.4619, 'grad_norm': 0.1068212166428566, 'learning_rate': 0.00010181518348969188, 'epoch': 0.71}
+{'loss': 1.4296, 'grad_norm': 0.1089690700173378, 'learning_rate': 0.00010164824521776423, 'epoch': 0.71}
+{'loss': 1.4485, 'grad_norm': 0.10036930441856384, 'learning_rate': 0.00010148140898631064, 'epoch': 0.71}
+{'loss': 1.4619, 'grad_norm': 0.10528779029846191, 'learning_rate': 0.00010131467491008573, 'epoch': 0.71}
+{'loss': 1.4376, 'grad_norm': 0.10511370748281479, 'learning_rate': 0.00010114804310377377, 'epoch': 0.71}
+{'loss': 1.4545, 'grad_norm': 0.11825808137655258, 'learning_rate': 0.00010098151368198887, 'epoch': 0.71}
+{'loss': 1.4465, 'grad_norm': 0.10850699990987778, 'learning_rate': 0.00010081508675927461, 'epoch': 0.71}
+{'loss': 1.4333, 'grad_norm': 0.10732672363519669, 'learning_rate': 0.00010064876245010394, 'epoch': 0.71}
+{'loss': 1.4404, 'grad_norm': 0.1223362386226654, 'learning_rate': 0.0001004825408688795, 'epoch': 0.71}
+{'loss': 1.4496, 'grad_norm': 0.10927940905094147, 'learning_rate': 0.00010031642212993303, 'epoch': 0.71}
+{'loss': 1.4773, 'grad_norm': 0.13190828263759613, 'learning_rate': 0.00010015040634752576, 'epoch': 0.71}
+{'loss': 1.4772, 'grad_norm': 0.11606500297784805, 'learning_rate': 9.998449363584788e-05, 'epoch': 0.71}
+{'loss': 1.4493, 'grad_norm': 0.11729364842176437, 'learning_rate': 9.981868410901878e-05, 'epoch': 0.71}
+{'loss': 1.4749, 'grad_norm': 0.10562776029109955, 'learning_rate': 9.96529778810869e-05, 'epoch': 0.71}
+{'loss': 1.4616, 'grad_norm': 0.10896576941013336, 'learning_rate': 9.948737506602954e-05, 'epoch': 0.71}
+{'loss': 1.4652, 'grad_norm': 0.12052539736032486, 'learning_rate': 9.932187577775303e-05, 'epoch': 0.71}
+{'loss': 1.4756, 'grad_norm': 0.11492165923118591, 'learning_rate': 9.91564801300923e-05, 'epoch': 0.72}
+{'loss': 1.4563, 'grad_norm': 0.11120441555976868, 'learning_rate': 9.899118823681122e-05, 'epoch': 0.72}
+{'loss': 1.4442, 'grad_norm': 0.09887948632240295, 'learning_rate': 9.882600021160198e-05, 'epoch': 0.72}
+{'loss': 1.4467, 'grad_norm': 0.10473088175058365, 'learning_rate': 9.866091616808573e-05, 'epoch': 0.72}
+{'loss': 1.4254, 'grad_norm': 0.10982713103294373, 'learning_rate': 9.849593621981176e-05, 'epoch': 0.72}
+{'loss': 1.4577, 'grad_norm': 0.11880038678646088, 'learning_rate': 9.833106048025786e-05, 'epoch': 0.72}
+{'loss': 1.465, 'grad_norm': 0.10708878934383392, 'learning_rate': 9.81662890628302e-05, 'epoch': 0.72}
+{'loss': 1.4589, 'grad_norm': 0.10454906523227692, 'learning_rate': 9.800162208086309e-05, 'epoch': 0.72}
+{'loss': 1.445, 'grad_norm': 0.11738405376672745, 'learning_rate': 9.783705964761907e-05, 'epoch': 0.72}
+{'loss': 1.4708, 'grad_norm': 0.13059981167316437, 'learning_rate': 9.767260187628896e-05, 'epoch': 0.72}
+{'loss': 1.4541, 'grad_norm': 0.11233219504356384, 'learning_rate': 9.750824887999124e-05, 'epoch': 0.72}
+{'loss': 1.444, 'grad_norm': 0.11488759517669678, 'learning_rate': 9.734400077177252e-05, 'epoch': 0.72}
+{'loss': 1.4738, 'grad_norm': 0.11213748157024384, 'learning_rate': 9.717985766460713e-05, 'epoch': 0.72}
+{'loss': 1.4793, 'grad_norm': 0.10381784290075302, 'learning_rate': 9.701581967139747e-05, 'epoch': 0.72}
+{'loss': 1.4682, 'grad_norm': 0.10327143967151642, 'learning_rate': 9.685188690497334e-05, 'epoch': 0.72}
+{'loss': 1.4597, 'grad_norm': 0.1285122185945511, 'learning_rate': 9.668805947809218e-05, 'epoch': 0.72}
+{'loss': 1.4557, 'grad_norm': 0.1132887452840805, 'learning_rate': 9.652433750343923e-05, 'epoch': 0.72}
+{'loss': 1.4486, 'grad_norm': 0.09934373199939728, 'learning_rate': 9.636072109362687e-05, 'epoch': 0.72}
+{'loss': 1.4841, 'grad_norm': 0.127045676112175, 'learning_rate': 9.619721036119522e-05, 'epoch': 0.72}
+{'loss': 1.4587, 'grad_norm': 0.12111048400402069, 'learning_rate': 9.60338054186114e-05, 'epoch': 0.72}
+{'loss': 1.443, 'grad_norm': 0.11113613098859787, 'learning_rate': 9.587050637826991e-05, 'epoch': 0.72}
+{'loss': 1.431, 'grad_norm': 0.09954407066106796, 'learning_rate': 9.570731335249228e-05, 'epoch': 0.72}
+{'loss': 1.4455, 'grad_norm': 0.10695343464612961, 'learning_rate': 9.554422645352742e-05, 'epoch': 0.72}
+{'loss': 1.4824, 'grad_norm': 0.11765915900468826, 'learning_rate': 9.538124579355084e-05, 'epoch': 0.72}
+{'loss': 1.449, 'grad_norm': 0.11355193704366684, 'learning_rate': 9.521837148466538e-05, 'epoch': 0.72}
+{'loss': 1.4562, 'grad_norm': 0.12025656551122665, 'learning_rate': 9.505560363890048e-05, 'epoch': 0.72}
+{'loss': 1.4339, 'grad_norm': 0.10490164905786514, 'learning_rate': 9.489294236821224e-05, 'epoch': 0.72}
+{'loss': 1.4438, 'grad_norm': 0.09583793580532074, 'learning_rate': 9.473038778448384e-05, 'epoch': 0.72}
+{'loss': 1.4563, 'grad_norm': 0.11786017566919327, 'learning_rate': 9.456793999952478e-05, 'epoch': 0.72}
+{'loss': 1.4254, 'grad_norm': 0.10758721828460693, 'learning_rate': 9.440559912507113e-05, 'epoch': 0.72}
+{'loss': 1.4578, 'grad_norm': 0.10333146154880524, 'learning_rate': 9.424336527278543e-05, 'epoch': 0.72}
+{'loss': 1.4583, 'grad_norm': 0.10145924240350723, 'learning_rate': 9.408123855425671e-05, 'epoch': 0.72}
+{'loss': 1.4595, 'grad_norm': 0.10524384677410126, 'learning_rate': 9.391921908100032e-05, 'epoch': 0.72}
+{'loss': 1.479, 'grad_norm': 0.11847590655088425, 'learning_rate': 9.375730696445772e-05, 'epoch': 0.72}
+{'loss': 1.4643, 'grad_norm': 0.11871788650751114, 'learning_rate': 9.359550231599657e-05, 'epoch': 0.72}
+{'loss': 1.4504, 'grad_norm': 0.1088840663433075, 'learning_rate': 9.343380524691061e-05, 'epoch': 0.72}
+{'loss': 1.4501, 'grad_norm': 0.11807215213775635, 'learning_rate': 9.327221586841952e-05, 'epoch': 0.72}
+{'loss': 1.4607, 'grad_norm': 0.12254948168992996, 'learning_rate': 9.311073429166913e-05, 'epoch': 0.72}
+{'loss': 1.4473, 'grad_norm': 0.0985761359333992, 'learning_rate': 9.294936062773082e-05, 'epoch': 0.72}
+{'loss': 1.4532, 'grad_norm': 0.11647234112024307, 'learning_rate': 9.278809498760205e-05, 'epoch': 0.72}
+{'loss': 1.4578, 'grad_norm': 0.11874276399612427, 'learning_rate': 9.262693748220569e-05, 'epoch': 0.73}
+{'loss': 1.4872, 'grad_norm': 0.10621200501918793, 'learning_rate': 9.24658882223905e-05, 'epoch': 0.73}
+{'loss': 1.466, 'grad_norm': 0.1098032146692276, 'learning_rate': 9.230494731893058e-05, 'epoch': 0.73}
+{'loss': 1.4552, 'grad_norm': 0.11526084691286087, 'learning_rate': 9.214411488252555e-05, 'epoch': 0.73}
+{'loss': 1.4608, 'grad_norm': 0.11095049977302551, 'learning_rate': 9.198339102380049e-05, 'epoch': 0.73}
+{'loss': 1.4691, 'grad_norm': 0.1116546168923378, 'learning_rate': 9.182277585330565e-05, 'epoch': 0.73}
+{'loss': 1.4479, 'grad_norm': 0.10718291252851486, 'learning_rate': 9.166226948151676e-05, 'epoch': 0.73}
+{'loss': 1.466, 'grad_norm': 0.11312460154294968, 'learning_rate': 9.150187201883445e-05, 'epoch': 0.73}
+{'loss': 1.4729, 'grad_norm': 0.1079154908657074, 'learning_rate': 9.134158357558473e-05, 'epoch': 0.73}
+{'loss': 1.423, 'grad_norm': 0.11528826504945755, 'learning_rate': 9.118140426201834e-05, 'epoch': 0.73}
+{'loss': 1.478, 'grad_norm': 0.11403544247150421, 'learning_rate': 9.102133418831104e-05, 'epoch': 0.73}
+{'loss': 1.4646, 'grad_norm': 0.10907275974750519, 'learning_rate': 9.086137346456366e-05, 'epoch': 0.73}
+{'loss': 1.4196, 'grad_norm': 0.10725806653499603, 'learning_rate': 9.070152220080152e-05, 'epoch': 0.73}
+{'loss': 1.4695, 'grad_norm': 0.11058253794908524, 'learning_rate': 9.054178050697482e-05, 'epoch': 0.73}
+{'loss': 1.4419, 'grad_norm': 0.10153894126415253, 'learning_rate': 9.038214849295822e-05, 'epoch': 0.73}
+{'loss': 1.4606, 'grad_norm': 0.10987348854541779, 'learning_rate': 9.022262626855121e-05, 'epoch': 0.73}
+{'loss': 1.4564, 'grad_norm': 0.11168080568313599, 'learning_rate': 9.006321394347769e-05, 'epoch': 0.73}
+{'loss': 1.4397, 'grad_norm': 0.12420114874839783, 'learning_rate': 8.990391162738581e-05, 'epoch': 0.73}
+{'loss': 1.46, 'grad_norm': 0.12542565166950226, 'learning_rate': 8.974471942984813e-05, 'epoch': 0.73}
+{'loss': 1.4573, 'grad_norm': 0.11333487182855606, 'learning_rate': 8.958563746036144e-05, 'epoch': 0.73}
+{'loss': 1.4581, 'grad_norm': 0.10877016186714172, 'learning_rate': 8.942666582834688e-05, 'epoch': 0.73}
+{'loss': 1.4722, 'grad_norm': 0.12371119111776352, 'learning_rate': 8.926780464314951e-05, 'epoch': 0.73}
+{'loss': 1.4661, 'grad_norm': 0.11993707716464996, 'learning_rate': 8.91090540140384e-05, 'epoch': 0.73}
+{'loss': 1.4602, 'grad_norm': 0.11303732544183731, 'learning_rate': 8.895041405020685e-05, 'epoch': 0.73}
+{'loss': 1.4597, 'grad_norm': 0.11315666884183884, 'learning_rate': 8.879188486077161e-05, 'epoch': 0.73}
+{'loss': 1.4769, 'grad_norm': 0.13025952875614166, 'learning_rate': 8.863346655477373e-05, 'epoch': 0.73}
+{'loss': 1.491, 'grad_norm': 0.11097131669521332, 'learning_rate': 8.84751592411776e-05, 'epoch': 0.73}
+{'loss': 1.4625, 'grad_norm': 0.10373064130544662, 'learning_rate': 8.831696302887144e-05, 'epoch': 0.73}
+{'loss': 1.4433, 'grad_norm': 0.10939693450927734, 'learning_rate': 8.815887802666698e-05, 'epoch': 0.73}
+{'loss': 1.4742, 'grad_norm': 0.11932826787233353, 'learning_rate': 8.800090434329944e-05, 'epoch': 0.73}
+{'loss': 1.4635, 'grad_norm': 0.10943577438592911, 'learning_rate': 8.784304208742758e-05, 'epoch': 0.73}
+{'loss': 1.4517, 'grad_norm': 0.1124151200056076, 'learning_rate': 8.768529136763359e-05, 'epoch': 0.73}
+{'loss': 1.4736, 'grad_norm': 0.10713694244623184, 'learning_rate': 8.752765229242268e-05, 'epoch': 0.73}
+{'loss': 1.4701, 'grad_norm': 0.10573417693376541, 'learning_rate': 8.737012497022342e-05, 'epoch': 0.73}
+{'loss': 1.4554, 'grad_norm': 0.11946327239274979, 'learning_rate': 8.721270950938744e-05, 'epoch': 0.73}
+{'loss': 1.4293, 'grad_norm': 0.1031288206577301, 'learning_rate': 8.705540601818962e-05, 'epoch': 0.73}
+{'loss': 1.4444, 'grad_norm': 0.10300938785076141, 'learning_rate': 8.689821460482761e-05, 'epoch': 0.73}
+{'loss': 1.4437, 'grad_norm': 0.10573779046535492, 'learning_rate': 8.674113537742198e-05, 'epoch': 0.73}
+{'loss': 1.4535, 'grad_norm': 0.11726542562246323, 'learning_rate': 8.658416844401626e-05, 'epoch': 0.73}
+{'loss': 1.462, 'grad_norm': 0.11135350912809372, 'learning_rate': 8.642731391257678e-05, 'epoch': 0.74}
+{'loss': 1.4493, 'grad_norm': 0.11169841140508652, 'learning_rate': 8.627057189099238e-05, 'epoch': 0.74}
+{'loss': 1.4698, 'grad_norm': 0.11742967367172241, 'learning_rate': 8.61139424870746e-05, 'epoch': 0.74}
+{'loss': 1.497, 'grad_norm': 0.10909055173397064, 'learning_rate': 8.59574258085575e-05, 'epoch': 0.74}
+{'loss': 1.4633, 'grad_norm': 0.11168190836906433, 'learning_rate': 8.580102196309752e-05, 'epoch': 0.74}
+{'loss': 1.4502, 'grad_norm': 0.11732269823551178, 'learning_rate': 8.564473105827381e-05, 'epoch': 0.74}
+{'loss': 1.4463, 'grad_norm': 0.10800917446613312, 'learning_rate': 8.548855320158735e-05, 'epoch': 0.74}
+{'loss': 1.4229, 'grad_norm': 0.10537303239107132, 'learning_rate': 8.533248850046191e-05, 'epoch': 0.74}
+{'loss': 1.4705, 'grad_norm': 0.10954485088586807, 'learning_rate': 8.517653706224296e-05, 'epoch': 0.74}
+{'loss': 1.4516, 'grad_norm': 0.11533080786466599, 'learning_rate': 8.50206989941982e-05, 'epoch': 0.74}
+{'loss': 1.4581, 'grad_norm': 0.12313057482242584, 'learning_rate': 8.48649744035176e-05, 'epoch': 0.74}
+{'loss': 1.475, 'grad_norm': 0.11507179588079453, 'learning_rate': 8.470936339731275e-05, 'epoch': 0.74}
+{'loss': 1.4665, 'grad_norm': 0.1093272939324379, 'learning_rate': 8.455386608261722e-05, 'epoch': 0.74}
+{'loss': 1.4647, 'grad_norm': 0.10814972966909409, 'learning_rate': 8.439848256638639e-05, 'epoch': 0.74}
+{'loss': 1.4574, 'grad_norm': 0.11421281099319458, 'learning_rate': 8.424321295549739e-05, 'epoch': 0.74}
+{'loss': 1.4583, 'grad_norm': 0.11816223710775375, 'learning_rate': 8.408805735674912e-05, 'epoch': 0.74}
+{'loss': 1.4464, 'grad_norm': 0.11365300416946411, 'learning_rate': 8.393301587686181e-05, 'epoch': 0.74}
+{'loss': 1.4622, 'grad_norm': 0.11438309401273727, 'learning_rate': 8.377808862247733e-05, 'epoch': 0.74}
+{'loss': 1.4199, 'grad_norm': 0.12474189698696136, 'learning_rate': 8.362327570015888e-05, 'epoch': 0.74}
+{'loss': 1.4684, 'grad_norm': 0.10359940677881241, 'learning_rate': 8.346857721639128e-05, 'epoch': 0.74}
+{'loss': 1.4418, 'grad_norm': 0.11381595581769943, 'learning_rate': 8.331399327758035e-05, 'epoch': 0.74}
+{'loss': 1.4498, 'grad_norm': 0.11941101402044296, 'learning_rate': 8.315952399005319e-05, 'epoch': 0.74}
+{'loss': 1.4833, 'grad_norm': 0.10039930045604706, 'learning_rate': 8.30051694600582e-05, 'epoch': 0.74}
+{'loss': 1.4864, 'grad_norm': 0.10759904980659485, 'learning_rate': 8.285092979376463e-05, 'epoch': 0.74}
+{'loss': 1.4462, 'grad_norm': 0.1120266392827034, 'learning_rate': 8.269680509726293e-05, 'epoch': 0.74}
+{'loss': 1.4504, 'grad_norm': 0.1119355782866478, 'learning_rate': 8.254279547656432e-05, 'epoch': 0.74}
+{'loss': 1.4639, 'grad_norm': 0.1163533478975296, 'learning_rate': 8.238890103760088e-05, 'epoch': 0.74}
+{'loss': 1.4474, 'grad_norm': 0.10878009349107742, 'learning_rate': 8.223512188622553e-05, 'epoch': 0.74}
+{'loss': 1.4546, 'grad_norm': 0.10404679924249649, 'learning_rate': 8.208145812821175e-05, 'epoch': 0.74}
+{'loss': 1.4588, 'grad_norm': 0.10798178613185883, 'learning_rate': 8.192790986925395e-05, 'epoch': 0.74}
+{'loss': 1.482, 'grad_norm': 0.1088087409734726, 'learning_rate': 8.17744772149667e-05, 'epoch': 0.74}
+{'loss': 1.4388, 'grad_norm': 0.11314354091882706, 'learning_rate': 8.162116027088545e-05, 'epoch': 0.74}
+{'loss': 1.4514, 'grad_norm': 0.11183261126279831, 'learning_rate': 8.146795914246579e-05, 'epoch': 0.74}
+{'loss': 1.4389, 'grad_norm': 0.10510050505399704, 'learning_rate': 8.131487393508366e-05, 'epoch': 0.74}
+{'loss': 1.4706, 'grad_norm': 0.09481015056371689, 'learning_rate': 8.116190475403545e-05, 'epoch': 0.74}
+{'loss': 1.4545, 'grad_norm': 0.09933746606111526, 'learning_rate': 8.10090517045376e-05, 'epoch': 0.74}
+{'loss': 1.4693, 'grad_norm': 0.10445064306259155, 'learning_rate': 8.085631489172665e-05, 'epoch': 0.74}
+{'loss': 1.4644, 'grad_norm': 0.12496083229780197, 'learning_rate': 8.07036944206592e-05, 'epoch': 0.74}
+{'loss': 1.4403, 'grad_norm': 0.09676578640937805, 'learning_rate': 8.055119039631192e-05, 'epoch': 0.74}
+{'loss': 1.4568, 'grad_norm': 0.10061369836330414, 'learning_rate': 8.039880292358142e-05, 'epoch': 0.75}
+{'loss': 1.4622, 'grad_norm': 0.10289941728115082, 'learning_rate': 8.024653210728397e-05, 'epoch': 0.75}
+{'loss': 1.4841, 'grad_norm': 0.09763402491807938, 'learning_rate': 8.009437805215572e-05, 'epoch': 0.75}
+{'loss': 1.4564, 'grad_norm': 0.11416991800069809, 'learning_rate': 7.994234086285235e-05, 'epoch': 0.75}
+{'loss': 1.453, 'grad_norm': 0.11123573780059814, 'learning_rate': 7.979042064394942e-05, 'epoch': 0.75}
+{'loss': 1.4497, 'grad_norm': 0.1028645932674408, 'learning_rate': 7.963861749994188e-05, 'epoch': 0.75}
+{'loss': 1.4492, 'grad_norm': 0.11919615417718887, 'learning_rate': 7.948693153524403e-05, 'epoch': 0.75}
+{'loss': 1.46, 'grad_norm': 0.10731961578130722, 'learning_rate': 7.93353628541899e-05, 'epoch': 0.75}
+{'loss': 1.4565, 'grad_norm': 0.09849662333726883, 'learning_rate': 7.918391156103247e-05, 'epoch': 0.75}
+{'loss': 1.4671, 'grad_norm': 0.10519427061080933, 'learning_rate': 7.903257775994432e-05, 'epoch': 0.75}
+{'loss': 1.4681, 'grad_norm': 0.1308058202266693, 'learning_rate': 7.888136155501701e-05, 'epoch': 0.75}
+{'loss': 1.4912, 'grad_norm': 0.10138492286205292, 'learning_rate': 7.873026305026126e-05, 'epoch': 0.75}
+{'loss': 1.4692, 'grad_norm': 0.1021660789847374, 'learning_rate': 7.857928234960682e-05, 'epoch': 0.75}
+{'loss': 1.4443, 'grad_norm': 0.11276570707559586, 'learning_rate': 7.842841955690232e-05, 'epoch': 0.75}
+{'loss': 1.4445, 'grad_norm': 0.12008783966302872, 'learning_rate': 7.827767477591552e-05, 'epoch': 0.75}
+{'loss': 1.4436, 'grad_norm': 0.11399219185113907, 'learning_rate': 7.812704811033294e-05, 'epoch': 0.75}
+{'loss': 1.4596, 'grad_norm': 0.11242096871137619, 'learning_rate': 7.797653966375973e-05, 'epoch': 0.75}
+{'loss': 1.4323, 'grad_norm': 0.11362156271934509, 'learning_rate': 7.782614953971981e-05, 'epoch': 0.75}
+{'loss': 1.4438, 'grad_norm': 0.11135510355234146, 'learning_rate': 7.767587784165559e-05, 'epoch': 0.75}
+{'loss': 1.4359, 'grad_norm': 0.12232256680727005, 'learning_rate': 7.752572467292831e-05, 'epoch': 0.75}
+{'loss': 1.4663, 'grad_norm': 0.10641782730817795, 'learning_rate': 7.737569013681744e-05, 'epoch': 0.75}
+{'loss': 1.4611, 'grad_norm': 0.1152595579624176, 'learning_rate': 7.722577433652084e-05, 'epoch': 0.75}
+{'loss': 1.4672, 'grad_norm': 0.12277869135141373, 'learning_rate': 7.707597737515481e-05, 'epoch': 0.75}
+{'loss': 1.459, 'grad_norm': 0.10912720113992691, 'learning_rate': 7.692629935575401e-05, 'epoch': 0.75}
+{'loss': 1.4169, 'grad_norm': 0.12085913866758347, 'learning_rate': 7.677674038127106e-05, 'epoch': 0.75}
+{'loss': 1.4506, 'grad_norm': 0.10847721993923187, 'learning_rate': 7.662730055457679e-05, 'epoch': 0.75}
+{'loss': 1.4346, 'grad_norm': 0.1193898618221283, 'learning_rate': 7.647797997846007e-05, 'epoch': 0.75}
+{'loss': 1.4478, 'grad_norm': 0.09747013449668884, 'learning_rate': 7.632877875562771e-05, 'epoch': 0.75}
+{'loss': 1.452, 'grad_norm': 0.11717016249895096, 'learning_rate': 7.617969698870459e-05, 'epoch': 0.75}
+{'loss': 1.4574, 'grad_norm': 0.10392285883426666, 'learning_rate': 7.603073478023317e-05, 'epoch': 0.75}
+{'loss': 1.4403, 'grad_norm': 0.10090750455856323, 'learning_rate': 7.588189223267397e-05, 'epoch': 0.75}
+{'loss': 1.4502, 'grad_norm': 0.1073496863245964, 'learning_rate': 7.573316944840498e-05, 'epoch': 0.75}
+{'loss': 1.4375, 'grad_norm': 0.10495349764823914, 'learning_rate': 7.558456652972174e-05, 'epoch': 0.75}
+{'loss': 1.4541, 'grad_norm': 0.10983636230230331, 'learning_rate': 7.543608357883771e-05, 'epoch': 0.75}
+{'loss': 1.4332, 'grad_norm': 0.11157780140638351, 'learning_rate': 7.52877206978835e-05, 'epoch': 0.75}
+{'loss': 1.4487, 'grad_norm': 0.10920242220163345, 'learning_rate': 7.513947798890722e-05, 'epoch': 0.75}
+{'loss': 1.4696, 'grad_norm': 0.11031690984964371, 'learning_rate': 7.49913555538743e-05, 'epoch': 0.75}
+{'loss': 1.4459, 'grad_norm': 0.1170123890042305, 'learning_rate': 7.48433534946675e-05, 'epoch': 0.75}
+{'loss': 1.4845, 'grad_norm': 0.11763960123062134, 'learning_rate': 7.46954719130869e-05, 'epoch': 0.75}
+{'loss': 1.4698, 'grad_norm': 0.11147630959749222, 'learning_rate': 7.454771091084944e-05, 'epoch': 0.76}
+{'loss': 1.4716, 'grad_norm': 0.1171397790312767, 'learning_rate': 7.440007058958934e-05, 'epoch': 0.76}
+{'loss': 1.464, 'grad_norm': 0.10180410742759705, 'learning_rate': 7.425255105085757e-05, 'epoch': 0.76}
+{'loss': 1.4671, 'grad_norm': 0.10190064460039139, 'learning_rate': 7.41051523961224e-05, 'epoch': 0.76}
+{'loss': 1.4488, 'grad_norm': 0.11453822255134583, 'learning_rate': 7.395787472676862e-05, 'epoch': 0.76}
+{'loss': 1.4528, 'grad_norm': 0.11514117568731308, 'learning_rate': 7.381071814409785e-05, 'epoch': 0.76}
+{'loss': 1.4435, 'grad_norm': 0.11049296706914902, 'learning_rate': 7.366368274932863e-05, 'epoch': 0.76}
+{'loss': 1.4498, 'grad_norm': 0.11338372528553009, 'learning_rate': 7.351676864359588e-05, 'epoch': 0.76}
+{'loss': 1.4521, 'grad_norm': 0.10500001162290573, 'learning_rate': 7.336997592795139e-05, 'epoch': 0.76}
+{'loss': 1.4552, 'grad_norm': 0.1109289899468422, 'learning_rate': 7.322330470336314e-05, 'epoch': 0.76}
+{'loss': 1.4774, 'grad_norm': 0.12195383012294769, 'learning_rate': 7.307675507071574e-05, 'epoch': 0.76}
+{'loss': 1.4518, 'grad_norm': 0.1035093143582344, 'learning_rate': 7.29303271308101e-05, 'epoch': 0.76}
+{'loss': 1.4515, 'grad_norm': 0.10056867450475693, 'learning_rate': 7.278402098436335e-05, 'epoch': 0.76}
+{'loss': 1.4456, 'grad_norm': 0.09851836413145065, 'learning_rate': 7.263783673200914e-05, 'epoch': 0.76}
+{'loss': 1.4786, 'grad_norm': 0.10281616449356079, 'learning_rate': 7.249177447429684e-05, 'epoch': 0.76}
+{'loss': 1.4599, 'grad_norm': 0.1159009039402008, 'learning_rate': 7.234583431169236e-05, 'epoch': 0.76}
+{'loss': 1.4717, 'grad_norm': 0.10208237171173096, 'learning_rate': 7.220001634457735e-05, 'epoch': 0.76}
+{'loss': 1.4584, 'grad_norm': 0.10872378200292587, 'learning_rate': 7.205432067324932e-05, 'epoch': 0.76}
+{'loss': 1.4342, 'grad_norm': 0.1159079521894455, 'learning_rate': 7.190874739792205e-05, 'epoch': 0.76}
+{'loss': 1.4569, 'grad_norm': 0.10731208324432373, 'learning_rate': 7.17632966187248e-05, 'epoch': 0.76}
+{'loss': 1.4497, 'grad_norm': 0.10924467444419861, 'learning_rate': 7.161796843570265e-05, 'epoch': 0.76}
+{'loss': 1.4646, 'grad_norm': 0.11686593294143677, 'learning_rate': 7.14727629488163e-05, 'epoch': 0.76}
+{'loss': 1.4611, 'grad_norm': 0.11214471608400345, 'learning_rate': 7.132768025794222e-05, 'epoch': 0.76}
+{'loss': 1.4452, 'grad_norm': 0.10988336056470871, 'learning_rate': 7.118272046287244e-05, 'epoch': 0.76}
+{'loss': 1.4419, 'grad_norm': 0.10426629334688187, 'learning_rate': 7.103788366331424e-05, 'epoch': 0.76}
+{'loss': 1.4729, 'grad_norm': 0.12185072153806686, 'learning_rate': 7.089316995889039e-05, 'epoch': 0.76}
+{'loss': 1.4395, 'grad_norm': 0.10592424869537354, 'learning_rate': 7.074857944913896e-05, 'epoch': 0.76}
+{'loss': 1.4509, 'grad_norm': 0.11890438944101334, 'learning_rate': 7.060411223351349e-05, 'epoch': 0.76}
+{'loss': 1.4611, 'grad_norm': 0.10427188873291016, 'learning_rate': 7.045976841138247e-05, 'epoch': 0.76}
+{'loss': 1.468, 'grad_norm': 0.11342339217662811, 'learning_rate': 7.031554808202956e-05, 'epoch': 0.76}
+{'loss': 1.4555, 'grad_norm': 0.11162876337766647, 'learning_rate': 7.017145134465363e-05, 'epoch': 0.76}
+{'loss': 1.4671, 'grad_norm': 0.10589277744293213, 'learning_rate': 7.002747829836833e-05, 'epoch': 0.76}
+{'loss': 1.4525, 'grad_norm': 0.11648429930210114, 'learning_rate': 6.988362904220244e-05, 'epoch': 0.76}
+{'loss': 1.4444, 'grad_norm': 0.11030293256044388, 'learning_rate': 6.973990367509946e-05, 'epoch': 0.76}
+{'loss': 1.4471, 'grad_norm': 0.09913748502731323, 'learning_rate': 6.959630229591768e-05, 'epoch': 0.76}
+{'loss': 1.4613, 'grad_norm': 0.11101412773132324, 'learning_rate': 6.945282500343014e-05, 'epoch': 0.76}
+{'loss': 1.4383, 'grad_norm': 0.10454929620027542, 'learning_rate': 6.930947189632445e-05, 'epoch': 0.76}
+{'loss': 1.455, 'grad_norm': 0.11423234641551971, 'learning_rate': 6.916624307320293e-05, 'epoch': 0.76}
+{'loss': 1.4589, 'grad_norm': 0.1021297350525856, 'learning_rate': 6.902313863258247e-05, 'epoch': 0.76}
+{'loss': 1.4512, 'grad_norm': 0.11178218573331833, 'learning_rate': 6.88801586728942e-05, 'epoch': 0.77}
+{'loss': 1.4573, 'grad_norm': 0.10895076394081116, 'learning_rate': 6.873730329248365e-05, 'epoch': 0.77}
+{'loss': 1.4482, 'grad_norm': 0.10151125490665436, 'learning_rate': 6.859457258961086e-05, 'epoch': 0.77}
+{'loss': 1.4507, 'grad_norm': 0.102472223341465, 'learning_rate': 6.845196666244995e-05, 'epoch': 0.77}
+{'loss': 1.4513, 'grad_norm': 0.0975901260972023, 'learning_rate': 6.830948560908926e-05, 'epoch': 0.77}
+{'loss': 1.4783, 'grad_norm': 0.12683694064617157, 'learning_rate': 6.81671295275311e-05, 'epoch': 0.77}
+{'loss': 1.4468, 'grad_norm': 0.11324746906757355, 'learning_rate': 6.802489851569208e-05, 'epoch': 0.77}
+{'loss': 1.4463, 'grad_norm': 0.10665234923362732, 'learning_rate': 6.788279267140274e-05, 'epoch': 0.77}
+{'loss': 1.4628, 'grad_norm': 0.10520127415657043, 'learning_rate': 6.774081209240732e-05, 'epoch': 0.77}
+{'loss': 1.4812, 'grad_norm': 0.11211029440164566, 'learning_rate': 6.759895687636403e-05, 'epoch': 0.77}
+{'loss': 1.4516, 'grad_norm': 0.10478655993938446, 'learning_rate': 6.745722712084488e-05, 'epoch': 0.77}
+{'loss': 1.4385, 'grad_norm': 0.10505357384681702, 'learning_rate': 6.731562292333546e-05, 'epoch': 0.77}
+{'loss': 1.4574, 'grad_norm': 0.09851927310228348, 'learning_rate': 6.71741443812352e-05, 'epoch': 0.77}
+{'loss': 1.4418, 'grad_norm': 0.10262514650821686, 'learning_rate': 6.703279159185687e-05, 'epoch': 0.77}
+{'loss': 1.4534, 'grad_norm': 0.1108417958021164, 'learning_rate': 6.689156465242702e-05, 'epoch': 0.77}
+{'loss': 1.4785, 'grad_norm': 0.10252907127141953, 'learning_rate': 6.675046366008539e-05, 'epoch': 0.77}
+{'loss': 1.4538, 'grad_norm': 0.11701002717018127, 'learning_rate': 6.66094887118851e-05, 'epoch': 0.77}
+{'loss': 1.4719, 'grad_norm': 0.09710846841335297, 'learning_rate': 6.64686399047928e-05, 'epoch': 0.77}
+{'loss': 1.457, 'grad_norm': 0.1082475334405899, 'learning_rate': 6.632791733568813e-05, 'epoch': 0.77}
+{'loss': 1.4461, 'grad_norm': 0.10319100320339203, 'learning_rate': 6.618732110136403e-05, 'epoch': 0.77}
+{'loss': 1.463, 'grad_norm': 0.10508149117231369, 'learning_rate': 6.604685129852645e-05, 'epoch': 0.77}
+{'loss': 1.4808, 'grad_norm': 0.09469358623027802, 'learning_rate': 6.590650802379448e-05, 'epoch': 0.77}
+{'loss': 1.4727, 'grad_norm': 0.10224637389183044, 'learning_rate': 6.576629137370019e-05, 'epoch': 0.77}
+{'loss': 1.444, 'grad_norm': 0.11109384149312973, 'learning_rate': 6.562620144468848e-05, 'epoch': 0.77}
+{'loss': 1.4519, 'grad_norm': 0.12251707911491394, 'learning_rate': 6.548623833311709e-05, 'epoch': 0.77}
+{'loss': 1.445, 'grad_norm': 0.09852850437164307, 'learning_rate': 6.53464021352565e-05, 'epoch': 0.77}
+{'loss': 1.4334, 'grad_norm': 0.12110571563243866, 'learning_rate': 6.520669294729004e-05, 'epoch': 0.77}
+{'loss': 1.4543, 'grad_norm': 0.10328424721956253, 'learning_rate': 6.506711086531356e-05, 'epoch': 0.77}
+{'loss': 1.4709, 'grad_norm': 0.09406594932079315, 'learning_rate': 6.49276559853354e-05, 'epoch': 0.77}
+{'loss': 1.4486, 'grad_norm': 0.1036410927772522, 'learning_rate': 6.47883284032767e-05, 'epoch': 0.77}
+{'loss': 1.4329, 'grad_norm': 0.09674467146396637, 'learning_rate': 6.464912821497065e-05, 'epoch': 0.77}
+{'loss': 1.4432, 'grad_norm': 0.10820545256137848, 'learning_rate': 6.451005551616326e-05, 'epoch': 0.77}
+{'loss': 1.4652, 'grad_norm': 0.10558917373418808, 'learning_rate': 6.437111040251245e-05, 'epoch': 0.77}
+{'loss': 1.4409, 'grad_norm': 0.11178308725357056, 'learning_rate': 6.42322929695886e-05, 'epoch': 0.77}
+{'loss': 1.4549, 'grad_norm': 0.10103299468755722, 'learning_rate': 6.409360331287417e-05, 'epoch': 0.77}
+{'loss': 1.4499, 'grad_norm': 0.10443892329931259, 'learning_rate': 6.395504152776374e-05, 'epoch': 0.77}
+{'loss': 1.4785, 'grad_norm': 0.10481729358434677, 'learning_rate': 6.38166077095641e-05, 'epoch': 0.77}
+{'loss': 1.4277, 'grad_norm': 0.10966169834136963, 'learning_rate': 6.367830195349373e-05, 'epoch': 0.77}
+{'loss': 1.4171, 'grad_norm': 0.100389763712883, 'learning_rate': 6.354012435468335e-05, 'epoch': 0.77}
+{'loss': 1.4457, 'grad_norm': 0.10208923369646072, 'learning_rate': 6.340207500817526e-05, 'epoch': 0.78}
+{'loss': 1.4648, 'grad_norm': 0.11039195209741592, 'learning_rate': 6.326415400892362e-05, 'epoch': 0.78}
+{'loss': 1.4705, 'grad_norm': 0.10069399327039719, 'learning_rate': 6.312636145179451e-05, 'epoch': 0.78}
+{'loss': 1.4653, 'grad_norm': 0.11063174903392792, 'learning_rate': 6.298869743156533e-05, 'epoch': 0.78}
+{'loss': 1.4421, 'grad_norm': 0.1119018942117691, 'learning_rate': 6.285116204292529e-05, 'epoch': 0.78}
+{'loss': 1.4651, 'grad_norm': 0.11043178290128708, 'learning_rate': 6.2713755380475e-05, 'epoch': 0.78}
+{'loss': 1.4375, 'grad_norm': 0.10145504772663116, 'learning_rate': 6.257647753872664e-05, 'epoch': 0.78}
+{'loss': 1.469, 'grad_norm': 0.11189589649438858, 'learning_rate': 6.243932861210383e-05, 'epoch': 0.78}
+{'loss': 1.464, 'grad_norm': 0.10941506177186966, 'learning_rate': 6.230230869494135e-05, 'epoch': 0.78}
+{'loss': 1.47, 'grad_norm': 0.11040180176496506, 'learning_rate': 6.21654178814853e-05, 'epoch': 0.78}
+{'loss': 1.4657, 'grad_norm': 0.11465737223625183, 'learning_rate': 6.202865626589296e-05, 'epoch': 0.78}
+{'loss': 1.4504, 'grad_norm': 0.11603228002786636, 'learning_rate': 6.189202394223292e-05, 'epoch': 0.78}
+{'loss': 1.4908, 'grad_norm': 0.10813705623149872, 'learning_rate': 6.175552100448461e-05, 'epoch': 0.78}
+{'loss': 1.4398, 'grad_norm': 0.1146310418844223, 'learning_rate': 6.16191475465385e-05, 'epoch': 0.78}
+{'loss': 1.4537, 'grad_norm': 0.12132707238197327, 'learning_rate': 6.148290366219617e-05, 'epoch': 0.78}
+{'loss': 1.4637, 'grad_norm': 0.12254343181848526, 'learning_rate': 6.134678944516989e-05, 'epoch': 0.78}
+{'loss': 1.4295, 'grad_norm': 0.121278315782547, 'learning_rate': 6.121080498908288e-05, 'epoch': 0.78}
+{'loss': 1.4759, 'grad_norm': 0.1187889352440834, 'learning_rate': 6.107495038746902e-05, 'epoch': 0.78}
+{'loss': 1.4538, 'grad_norm': 0.10920006781816483, 'learning_rate': 6.093922573377286e-05, 'epoch': 0.78}
+{'loss': 1.4583, 'grad_norm': 0.10209733247756958, 'learning_rate': 6.080363112134965e-05, 'epoch': 0.78}
+{'loss': 1.4445, 'grad_norm': 0.12487722188234329, 'learning_rate': 6.066816664346503e-05, 'epoch': 0.78}
+{'loss': 1.4612, 'grad_norm': 0.11359118670225143, 'learning_rate': 6.0532832393295326e-05, 'epoch': 0.78}
+{'loss': 1.4414, 'grad_norm': 0.10353127121925354, 'learning_rate': 6.039762846392729e-05, 'epoch': 0.78}
+{'loss': 1.4586, 'grad_norm': 0.09863609075546265, 'learning_rate': 6.026255494835789e-05, 'epoch': 0.78}
+{'loss': 1.4684, 'grad_norm': 0.10115852952003479, 'learning_rate': 6.012761193949437e-05, 'epoch': 0.78}
+{'loss': 1.4595, 'grad_norm': 0.11771837621927261, 'learning_rate': 5.9992799530154435e-05, 'epoch': 0.78}
+{'loss': 1.4377, 'grad_norm': 0.09779689460992813, 'learning_rate': 5.985811781306577e-05, 'epoch': 0.78}
+{'loss': 1.4442, 'grad_norm': 0.10146963596343994, 'learning_rate': 5.972356688086619e-05, 'epoch': 0.78}
+{'loss': 1.4548, 'grad_norm': 0.09866157174110413, 'learning_rate': 5.95891468261035e-05, 'epoch': 0.78}
+{'loss': 1.4555, 'grad_norm': 0.12146855890750885, 'learning_rate': 5.945485774123569e-05, 'epoch': 0.78}
+{'loss': 1.4435, 'grad_norm': 0.11582030355930328, 'learning_rate': 5.932069971863055e-05, 'epoch': 0.78}
+{'loss': 1.47, 'grad_norm': 0.10219200700521469, 'learning_rate': 5.918667285056567e-05, 'epoch': 0.78}
+{'loss': 1.4653, 'grad_norm': 0.11017614603042603, 'learning_rate': 5.905277722922844e-05, 'epoch': 0.78}
+{'loss': 1.4487, 'grad_norm': 0.11562760174274445, 'learning_rate': 5.8919012946716036e-05, 'epoch': 0.78}
+{'loss': 1.4694, 'grad_norm': 0.09383188933134079, 'learning_rate': 5.878538009503517e-05, 'epoch': 0.78}
+{'loss': 1.4394, 'grad_norm': 0.11286617815494537, 'learning_rate': 5.86518787661024e-05, 'epoch': 0.78}
+{'loss': 1.4404, 'grad_norm': 0.10460127890110016, 'learning_rate': 5.85185090517435e-05, 'epoch': 0.78}
+{'loss': 1.4542, 'grad_norm': 0.10242921113967896, 'learning_rate': 5.838527104369401e-05, 'epoch': 0.78}
+{'loss': 1.4723, 'grad_norm': 0.10270263999700546, 'learning_rate': 5.825216483359874e-05, 'epoch': 0.78}
+{'loss': 1.4463, 'grad_norm': 0.10016968846321106, 'learning_rate': 5.81191905130117e-05, 'epoch': 0.79}
+{'loss': 1.4551, 'grad_norm': 0.10707685351371765, 'learning_rate': 5.7986348173396544e-05, 'epoch': 0.79}
+{'loss': 1.4337, 'grad_norm': 0.11319061368703842, 'learning_rate': 5.785363790612583e-05, 'epoch': 0.79}
+{'loss': 1.4642, 'grad_norm': 0.10053857415914536, 'learning_rate': 5.7721059802481406e-05, 'epoch': 0.79}
+{'loss': 1.4629, 'grad_norm': 0.10374076664447784, 'learning_rate': 5.758861395365411e-05, 'epoch': 0.79}
+{'loss': 1.4563, 'grad_norm': 0.1153164878487587, 'learning_rate': 5.745630045074393e-05, 'epoch': 0.79}
+{'loss': 1.4576, 'grad_norm': 0.09869585186243057, 'learning_rate': 5.73241193847599e-05, 'epoch': 0.79}
+{'loss': 1.453, 'grad_norm': 0.10852864384651184, 'learning_rate': 5.719207084661973e-05, 'epoch': 0.79}
+{'loss': 1.4479, 'grad_norm': 0.10637243092060089, 'learning_rate': 5.7060154927150135e-05, 'epoch': 0.79}
+{'loss': 1.4534, 'grad_norm': 0.11495888978242874, 'learning_rate': 5.6928371717086454e-05, 'epoch': 0.79}
+{'loss': 1.4482, 'grad_norm': 0.11264967173337936, 'learning_rate': 5.6796721307073e-05, 'epoch': 0.79}
+{'loss': 1.4549, 'grad_norm': 0.12106568366289139, 'learning_rate': 5.666520378766255e-05, 'epoch': 0.79}
+{'loss': 1.4604, 'grad_norm': 0.10364992916584015, 'learning_rate': 5.653381924931641e-05, 'epoch': 0.79}
+{'loss': 1.4528, 'grad_norm': 0.11866533011198044, 'learning_rate': 5.640256778240474e-05, 'epoch': 0.79}
+{'loss': 1.451, 'grad_norm': 0.1218612939119339, 'learning_rate': 5.6271449477205723e-05, 'epoch': 0.79}
+{'loss': 1.4446, 'grad_norm': 0.11032930016517639, 'learning_rate': 5.614046442390641e-05, 'epoch': 0.79}
+{'loss': 1.4629, 'grad_norm': 0.09993623942136765, 'learning_rate': 5.600961271260185e-05, 'epoch': 0.79}
+{'loss': 1.4459, 'grad_norm': 0.12026053667068481, 'learning_rate': 5.5878894433295525e-05, 'epoch': 0.79}
+{'loss': 1.4408, 'grad_norm': 0.12015165388584137, 'learning_rate': 5.574830967589911e-05, 'epoch': 0.79}
+{'loss': 1.4495, 'grad_norm': 0.1130618304014206, 'learning_rate': 5.561785853023238e-05, 'epoch': 0.79}
+{'loss': 1.4433, 'grad_norm': 0.10499200224876404, 'learning_rate': 5.5487541086023384e-05, 'epoch': 0.79}
+{'loss': 1.4388, 'grad_norm': 0.10441489517688751, 'learning_rate': 5.5357357432907984e-05, 'epoch': 0.79}
+{'loss': 1.4808, 'grad_norm': 0.11096611618995667, 'learning_rate': 5.5227307660430245e-05, 'epoch': 0.79}
+{'loss': 1.4349, 'grad_norm': 0.11298869550228119, 'learning_rate': 5.509739185804188e-05, 'epoch': 0.79}
+{'loss': 1.4665, 'grad_norm': 0.10812999308109283, 'learning_rate': 5.496761011510279e-05, 'epoch': 0.79}
+{'loss': 1.4366, 'grad_norm': 0.10407787561416626, 'learning_rate': 5.483796252088036e-05, 'epoch': 0.79}
+{'loss': 1.4815, 'grad_norm': 0.11656542122364044, 'learning_rate': 5.470844916454984e-05, 'epoch': 0.79}
+{'loss': 1.4777, 'grad_norm': 0.11356417834758759, 'learning_rate': 5.4579070135194114e-05, 'epoch': 0.79}
+{'loss': 1.4416, 'grad_norm': 0.10954898595809937, 'learning_rate': 5.444982552180364e-05, 'epoch': 0.79}
+{'loss': 1.4818, 'grad_norm': 0.11574091017246246, 'learning_rate': 5.4320715413276514e-05, 'epoch': 0.79}
+{'loss': 1.494, 'grad_norm': 0.11319255828857422, 'learning_rate': 5.419173989841833e-05, 'epoch': 0.79}
+{'loss': 1.4534, 'grad_norm': 0.10656337440013885, 'learning_rate': 5.406289906594203e-05, 'epoch': 0.79}
+{'loss': 1.4575, 'grad_norm': 0.09942874312400818, 'learning_rate': 5.3934193004467865e-05, 'epoch': 0.79}
+{'loss': 1.4621, 'grad_norm': 0.10451594740152359, 'learning_rate': 5.380562180252341e-05, 'epoch': 0.79}
+{'loss': 1.4545, 'grad_norm': 0.12049224227666855, 'learning_rate': 5.3677185548543674e-05, 'epoch': 0.79}
+{'loss': 1.4591, 'grad_norm': 0.10919570177793503, 'learning_rate': 5.354888433087063e-05, 'epoch': 0.79}
+{'loss': 1.4549, 'grad_norm': 0.1062338575720787, 'learning_rate': 5.342071823775332e-05, 'epoch': 0.79}
+{'loss': 1.4543, 'grad_norm': 0.10902869701385498, 'learning_rate': 5.329268735734816e-05, 'epoch': 0.79}
+{'loss': 1.453, 'grad_norm': 0.10800031572580338, 'learning_rate': 5.316479177771816e-05, 'epoch': 0.79}
+{'loss': 1.4278, 'grad_norm': 0.10787291824817657, 'learning_rate': 5.303703158683362e-05, 'epoch': 0.8}
+{'loss': 1.4221, 'grad_norm': 0.10717679560184479, 'learning_rate': 5.2909406872571534e-05, 'epoch': 0.8}
+{'loss': 1.4597, 'grad_norm': 0.09962433576583862, 'learning_rate': 5.278191772271571e-05, 'epoch': 0.8}
+{'loss': 1.4413, 'grad_norm': 0.09994890540838242, 'learning_rate': 5.2654564224956654e-05, 'epoch': 0.8}
+{'loss': 1.4177, 'grad_norm': 0.11224479973316193, 'learning_rate': 5.2527346466891805e-05, 'epoch': 0.8}
+{'loss': 1.4568, 'grad_norm': 0.09969829022884369, 'learning_rate': 5.2400264536024975e-05, 'epoch': 0.8}
+{'loss': 1.4765, 'grad_norm': 0.11290649324655533, 'learning_rate': 5.2273318519766775e-05, 'epoch': 0.8}
+{'loss': 1.4602, 'grad_norm': 0.09762934595346451, 'learning_rate': 5.214650850543412e-05, 'epoch': 0.8}
+{'loss': 1.4665, 'grad_norm': 0.10643715411424637, 'learning_rate': 5.2019834580250447e-05, 'epoch': 0.8}
+{'loss': 1.4741, 'grad_norm': 0.11619491130113602, 'learning_rate': 5.189329683134572e-05, 'epoch': 0.8}
+{'loss': 1.4364, 'grad_norm': 0.09933853149414062, 'learning_rate': 5.176689534575607e-05, 'epoch': 0.8}
+{'loss': 1.4516, 'grad_norm': 0.09899064898490906, 'learning_rate': 5.164063021042401e-05, 'epoch': 0.8}
+{'loss': 1.4386, 'grad_norm': 0.09708179533481598, 'learning_rate': 5.151450151219808e-05, 'epoch': 0.8}
+{'loss': 1.4685, 'grad_norm': 0.11085639894008636, 'learning_rate': 5.138850933783323e-05, 'epoch': 0.8}
+{'loss': 1.4631, 'grad_norm': 0.10064981132745743, 'learning_rate': 5.126265377399045e-05, 'epoch': 0.8}
+{'loss': 1.4765, 'grad_norm': 0.10698066651821136, 'learning_rate': 5.113693490723664e-05, 'epoch': 0.8}
+{'loss': 1.4545, 'grad_norm': 0.10828111320734024, 'learning_rate': 5.101135282404473e-05, 'epoch': 0.8}
+{'loss': 1.4625, 'grad_norm': 0.10313766449689865, 'learning_rate': 5.0885907610793594e-05, 'epoch': 0.8}
+{'loss': 1.4378, 'grad_norm': 0.09852442145347595, 'learning_rate': 5.0760599353767865e-05, 'epoch': 0.8}
+{'loss': 1.4383, 'grad_norm': 0.1014118567109108, 'learning_rate': 5.0635428139158226e-05, 'epoch': 0.8}
+{'loss': 1.477, 'grad_norm': 0.09724964201450348, 'learning_rate': 5.051039405306074e-05, 'epoch': 0.8}
+{'loss': 1.4579, 'grad_norm': 0.09931636601686478, 'learning_rate': 5.038549718147753e-05, 'epoch': 0.8}
+{'loss': 1.4538, 'grad_norm': 0.10334726423025131, 'learning_rate': 5.026073761031596e-05, 'epoch': 0.8}
+{'loss': 1.4766, 'grad_norm': 0.10050006210803986, 'learning_rate': 5.0136115425389315e-05, 'epoch': 0.8}
+{'loss': 1.4384, 'grad_norm': 0.09344799071550369, 'learning_rate': 5.001163071241613e-05, 'epoch': 0.8}
+{'loss': 1.4571, 'grad_norm': 0.10618550330400467, 'learning_rate': 4.988728355702046e-05, 'epoch': 0.8}
+{'loss': 1.4495, 'grad_norm': 0.11019178479909897, 'learning_rate': 4.9763074044731736e-05, 'epoch': 0.8}
+{'loss': 1.4506, 'grad_norm': 0.11087065190076828, 'learning_rate': 4.963900226098467e-05, 'epoch': 0.8}
+{'loss': 1.4354, 'grad_norm': 0.099209725856781, 'learning_rate': 4.951506829111943e-05, 'epoch': 0.8}
+{'loss': 1.4615, 'grad_norm': 0.09985095262527466, 'learning_rate': 4.939127222038115e-05, 'epoch': 0.8}
+{'loss': 1.4447, 'grad_norm': 0.11445055902004242, 'learning_rate': 4.926761413392028e-05, 'epoch': 0.8}
+{'loss': 1.4335, 'grad_norm': 0.11512333899736404, 'learning_rate': 4.91440941167923e-05, 'epoch': 0.8}
+{'loss': 1.4393, 'grad_norm': 0.1083318293094635, 'learning_rate': 4.902071225395763e-05, 'epoch': 0.8}
+{'loss': 1.4547, 'grad_norm': 0.10749254375696182, 'learning_rate': 4.889746863028188e-05, 'epoch': 0.8}
+{'loss': 1.4583, 'grad_norm': 0.11876146495342255, 'learning_rate': 4.877436333053542e-05, 'epoch': 0.8}
+{'loss': 1.467, 'grad_norm': 0.10475385934114456, 'learning_rate': 4.865139643939345e-05, 'epoch': 0.8}
+{'loss': 1.439, 'grad_norm': 0.09859460592269897, 'learning_rate': 4.852856804143602e-05, 'epoch': 0.8}
+{'loss': 1.4322, 'grad_norm': 0.10752936452627182, 'learning_rate': 4.840587822114797e-05, 'epoch': 0.8}
+{'loss': 1.4441, 'grad_norm': 0.09492267668247223, 'learning_rate': 4.8283327062918854e-05, 'epoch': 0.8}
+{'loss': 1.4568, 'grad_norm': 0.09974394738674164, 'learning_rate': 4.816091465104269e-05, 'epoch': 0.81}
+{'loss': 1.4563, 'grad_norm': 0.10610514134168625, 'learning_rate': 4.803864106971814e-05, 'epoch': 0.81}
+{'loss': 1.4444, 'grad_norm': 0.09894619882106781, 'learning_rate': 4.7916506403048374e-05, 'epoch': 0.81}
+{'loss': 1.4366, 'grad_norm': 0.09981519728899002, 'learning_rate': 4.7794510735041096e-05, 'epoch': 0.81}
+{'loss': 1.4295, 'grad_norm': 0.09602828323841095, 'learning_rate': 4.767265414960828e-05, 'epoch': 0.81}
+{'loss': 1.4512, 'grad_norm': 0.10348472744226456, 'learning_rate': 4.755093673056623e-05, 'epoch': 0.81}
+{'loss': 1.4468, 'grad_norm': 0.10050123929977417, 'learning_rate': 4.7429358561635715e-05, 'epoch': 0.81}
+{'loss': 1.4466, 'grad_norm': 0.10476358234882355, 'learning_rate': 4.730791972644144e-05, 'epoch': 0.81}
+{'loss': 1.4606, 'grad_norm': 0.09950563311576843, 'learning_rate': 4.7186620308512535e-05, 'epoch': 0.81}
+{'loss': 1.4464, 'grad_norm': 0.10941236466169357, 'learning_rate': 4.706546039128212e-05, 'epoch': 0.81}
+{'loss': 1.4237, 'grad_norm': 0.10278629511594772, 'learning_rate': 4.694444005808732e-05, 'epoch': 0.81}
+{'loss': 1.4621, 'grad_norm': 0.10847359150648117, 'learning_rate': 4.6823559392169286e-05, 'epoch': 0.81}
+{'loss': 1.441, 'grad_norm': 0.10823535174131393, 'learning_rate': 4.670281847667307e-05, 'epoch': 0.81}
+{'loss': 1.4476, 'grad_norm': 0.10435432940721512, 'learning_rate': 4.6582217394647716e-05, 'epoch': 0.81}
+{'loss': 1.4405, 'grad_norm': 0.10378469526767731, 'learning_rate': 4.646175622904605e-05, 'epoch': 0.81}
+{'loss': 1.4512, 'grad_norm': 0.0928516685962677, 'learning_rate': 4.6341435062724564e-05, 'epoch': 0.81}
+{'loss': 1.4457, 'grad_norm': 0.12050513178110123, 'learning_rate': 4.622125397844351e-05, 'epoch': 0.81}
+{'loss': 1.4534, 'grad_norm': 0.09302996098995209, 'learning_rate': 4.610121305886672e-05, 'epoch': 0.81}
+{'loss': 1.4728, 'grad_norm': 0.09418534487485886, 'learning_rate': 4.5981312386561835e-05, 'epoch': 0.81}
+{'loss': 1.4396, 'grad_norm': 0.10876704007387161, 'learning_rate': 4.586155204399981e-05, 'epoch': 0.81}
+{'loss': 1.448, 'grad_norm': 0.09617527574300766, 'learning_rate': 4.574193211355507e-05, 'epoch': 0.81}
+{'loss': 1.4332, 'grad_norm': 0.09546898305416107, 'learning_rate': 4.5622452677505674e-05, 'epoch': 0.81}
+{'loss': 1.4344, 'grad_norm': 0.11907915771007538, 'learning_rate': 4.550311381803279e-05, 'epoch': 0.81}
+{'loss': 1.4413, 'grad_norm': 0.11632652580738068, 'learning_rate': 4.538391561722113e-05, 'epoch': 0.81}
+{'loss': 1.4404, 'grad_norm': 0.11515353620052338, 'learning_rate': 4.5264858157058495e-05, 'epoch': 0.81}
+{'loss': 1.4418, 'grad_norm': 0.10209622234106064, 'learning_rate': 4.5145941519435904e-05, 'epoch': 0.81}
+{'loss': 1.4269, 'grad_norm': 0.10743724554777145, 'learning_rate': 4.5027165786147486e-05, 'epoch': 0.81}
+{'loss': 1.4795, 'grad_norm': 0.10185302793979645, 'learning_rate': 4.490853103889061e-05, 'epoch': 0.81}
+{'loss': 1.4255, 'grad_norm': 0.11119125038385391, 'learning_rate': 4.4790037359265485e-05, 'epoch': 0.81}
+{'loss': 1.4449, 'grad_norm': 0.10431655496358871, 'learning_rate': 4.4671684828775454e-05, 'epoch': 0.81}
+{'loss': 1.4392, 'grad_norm': 0.1154760792851448, 'learning_rate': 4.4553473528826636e-05, 'epoch': 0.81}
+{'loss': 1.4471, 'grad_norm': 0.09328960627317429, 'learning_rate': 4.443540354072798e-05, 'epoch': 0.81}
+{'loss': 1.4484, 'grad_norm': 0.10120093077421188, 'learning_rate': 4.431747494569144e-05, 'epoch': 0.81}
+{'loss': 1.4423, 'grad_norm': 0.10026222467422485, 'learning_rate': 4.419968782483158e-05, 'epoch': 0.81}
+{'loss': 1.4674, 'grad_norm': 0.11087056994438171, 'learning_rate': 4.4082042259165625e-05, 'epoch': 0.81}
+{'loss': 1.4536, 'grad_norm': 0.11251857131719589, 'learning_rate': 4.396453832961342e-05, 'epoch': 0.81}
+{'loss': 1.4474, 'grad_norm': 0.09981393069028854, 'learning_rate': 4.3847176116997514e-05, 'epoch': 0.81}
+{'loss': 1.4551, 'grad_norm': 0.1090298518538475, 'learning_rate': 4.3729955702042936e-05, 'epoch': 0.81}
+{'loss': 1.4418, 'grad_norm': 0.10015732795000076, 'learning_rate': 4.361287716537715e-05, 'epoch': 0.81}
+{'loss': 1.4499, 'grad_norm': 0.11222728341817856, 'learning_rate': 4.3495940587530005e-05, 'epoch': 0.82}
+{'loss': 1.4446, 'grad_norm': 0.09440700709819794, 'learning_rate': 4.3379146048933756e-05, 'epoch': 0.82}
+{'loss': 1.4507, 'grad_norm': 0.10332033783197403, 'learning_rate': 4.326249362992288e-05, 'epoch': 0.82}
+{'loss': 1.4438, 'grad_norm': 0.10971599072217941, 'learning_rate': 4.314598341073428e-05, 'epoch': 0.82}
+{'loss': 1.4418, 'grad_norm': 0.11461978405714035, 'learning_rate': 4.30296154715068e-05, 'epoch': 0.82}
+{'loss': 1.4404, 'grad_norm': 0.10617971420288086, 'learning_rate': 4.291338989228169e-05, 'epoch': 0.82}
+{'loss': 1.4502, 'grad_norm': 0.1047167181968689, 'learning_rate': 4.279730675300203e-05, 'epoch': 0.82}
+{'loss': 1.4679, 'grad_norm': 0.10233502089977264, 'learning_rate': 4.268136613351314e-05, 'epoch': 0.82}
+{'loss': 1.4472, 'grad_norm': 0.11164184659719467, 'learning_rate': 4.2565568113562185e-05, 'epoch': 0.82}
+{'loss': 1.4329, 'grad_norm': 0.09979414939880371, 'learning_rate': 4.244991277279822e-05, 'epoch': 0.82}
+{'loss': 1.4548, 'grad_norm': 0.10450924187898636, 'learning_rate': 4.233440019077228e-05, 'epoch': 0.82}
+{'loss': 1.4583, 'grad_norm': 0.10775181651115417, 'learning_rate': 4.2219030446937035e-05, 'epoch': 0.82}
+{'loss': 1.4332, 'grad_norm': 0.11007653921842575, 'learning_rate': 4.210380362064711e-05, 'epoch': 0.82}
+{'loss': 1.4687, 'grad_norm': 0.12207384407520294, 'learning_rate': 4.1988719791158675e-05, 'epoch': 0.82}
+{'loss': 1.448, 'grad_norm': 0.09449206292629242, 'learning_rate': 4.187377903762968e-05, 'epoch': 0.82}
+{'loss': 1.4521, 'grad_norm': 0.10090969502925873, 'learning_rate': 4.175898143911952e-05, 'epoch': 0.82}
+{'loss': 1.4476, 'grad_norm': 0.11334764957427979, 'learning_rate': 4.164432707458915e-05, 'epoch': 0.82}
+{'loss': 1.4747, 'grad_norm': 0.10165862739086151, 'learning_rate': 4.1529816022901095e-05, 'epoch': 0.82}
+{'loss': 1.4492, 'grad_norm': 0.1218692809343338, 'learning_rate': 4.1415448362819266e-05, 'epoch': 0.82}
+{'loss': 1.462, 'grad_norm': 0.0981924757361412, 'learning_rate': 4.130122417300888e-05, 'epoch': 0.82}
+{'loss': 1.4702, 'grad_norm': 0.10295910388231277, 'learning_rate': 4.118714353203651e-05, 'epoch': 0.82}
+{'loss': 1.4546, 'grad_norm': 0.11211428046226501, 'learning_rate': 4.107320651836999e-05, 'epoch': 0.82}
+{'loss': 1.4453, 'grad_norm': 0.10974990576505661, 'learning_rate': 4.0959413210378496e-05, 'epoch': 0.82}
+{'loss': 1.402, 'grad_norm': 0.11948487162590027, 'learning_rate': 4.0845763686332135e-05, 'epoch': 0.82}
+{'loss': 1.4334, 'grad_norm': 0.1096138209104538, 'learning_rate': 4.073225802440228e-05, 'epoch': 0.82}
+{'loss': 1.4298, 'grad_norm': 0.10765330493450165, 'learning_rate': 4.061889630266116e-05, 'epoch': 0.82}
+{'loss': 1.4657, 'grad_norm': 0.11437266319990158, 'learning_rate': 4.05056785990823e-05, 'epoch': 0.82}
+{'loss': 1.4694, 'grad_norm': 0.1144314557313919, 'learning_rate': 4.0392604991539907e-05, 'epoch': 0.82}
+{'loss': 1.4488, 'grad_norm': 0.11661159992218018, 'learning_rate': 4.0279675557809094e-05, 'epoch': 0.82}
+{'loss': 1.437, 'grad_norm': 0.1083175539970398, 'learning_rate': 4.016689037556601e-05, 'epoch': 0.82}
+{'loss': 1.4426, 'grad_norm': 0.1067596897482872, 'learning_rate': 4.0054249522387344e-05, 'epoch': 0.82}
+{'loss': 1.4373, 'grad_norm': 0.12559092044830322, 'learning_rate': 3.994175307575071e-05, 'epoch': 0.82}
+{'loss': 1.4357, 'grad_norm': 0.11407529562711716, 'learning_rate': 3.982940111303426e-05, 'epoch': 0.82}
+{'loss': 1.4596, 'grad_norm': 0.10208603739738464, 'learning_rate': 3.9717193711516804e-05, 'epoch': 0.82}
+{'loss': 1.4605, 'grad_norm': 0.1023205816745758, 'learning_rate': 3.96051309483777e-05, 'epoch': 0.82}
+{'loss': 1.4306, 'grad_norm': 0.1137741431593895, 'learning_rate': 3.94932129006968e-05, 'epoch': 0.82}
+{'loss': 1.4814, 'grad_norm': 0.12026704847812653, 'learning_rate': 3.938143964545452e-05, 'epoch': 0.82}
+{'loss': 1.4243, 'grad_norm': 0.12011019885540009, 'learning_rate': 3.9269811259531666e-05, 'epoch': 0.82}
+{'loss': 1.4586, 'grad_norm': 0.10342550277709961, 'learning_rate': 3.915832781970932e-05, 'epoch': 0.82}
+{'loss': 1.4341, 'grad_norm': 0.10560568422079086, 'learning_rate': 3.90469894026689e-05, 'epoch': 0.83}
+{'loss': 1.4278, 'grad_norm': 0.10820933431386948, 'learning_rate': 3.893579608499198e-05, 'epoch': 0.83}
+{'loss': 1.4366, 'grad_norm': 0.10566364228725433, 'learning_rate': 3.882474794316057e-05, 'epoch': 0.83}
+{'loss': 1.4625, 'grad_norm': 0.11530168354511261, 'learning_rate': 3.871384505355663e-05, 'epoch': 0.83}
+{'loss': 1.4414, 'grad_norm': 0.11132840067148209, 'learning_rate': 3.8603087492462165e-05, 'epoch': 0.83}
+{'loss': 1.459, 'grad_norm': 0.0976652055978775, 'learning_rate': 3.849247533605943e-05, 'epoch': 0.83}
+{'loss': 1.471, 'grad_norm': 0.10723306238651276, 'learning_rate': 3.838200866043054e-05, 'epoch': 0.83}
+{'loss': 1.4649, 'grad_norm': 0.11164535582065582, 'learning_rate': 3.827168754155755e-05, 'epoch': 0.83}
+{'loss': 1.4261, 'grad_norm': 0.11174766719341278, 'learning_rate': 3.816151205532237e-05, 'epoch': 0.83}
+{'loss': 1.4579, 'grad_norm': 0.11157067865133286, 'learning_rate': 3.8051482277506795e-05, 'epoch': 0.83}
+{'loss': 1.4717, 'grad_norm': 0.10723759979009628, 'learning_rate': 3.794159828379229e-05, 'epoch': 0.83}
+{'loss': 1.4549, 'grad_norm': 0.09221786260604858, 'learning_rate': 3.783186014976028e-05, 'epoch': 0.83}
+{'loss': 1.4637, 'grad_norm': 0.10164840519428253, 'learning_rate': 3.772226795089159e-05, 'epoch': 0.83}
+{'loss': 1.4414, 'grad_norm': 0.11737118661403656, 'learning_rate': 3.761282176256689e-05, 'epoch': 0.83}
+{'loss': 1.4611, 'grad_norm': 0.10109251737594604, 'learning_rate': 3.750352166006626e-05, 'epoch': 0.83}
+{'loss': 1.4502, 'grad_norm': 0.09211105853319168, 'learning_rate': 3.73943677185693e-05, 'epoch': 0.83}
+{'loss': 1.4503, 'grad_norm': 0.09306509047746658, 'learning_rate': 3.72853600131553e-05, 'epoch': 0.83}
+{'loss': 1.4433, 'grad_norm': 0.10320331901311874, 'learning_rate': 3.717649861880268e-05, 'epoch': 0.83}
+{'loss': 1.4319, 'grad_norm': 0.10096078366041183, 'learning_rate': 3.706778361038934e-05, 'epoch': 0.83}
+{'loss': 1.4536, 'grad_norm': 0.10564648360013962, 'learning_rate': 3.695921506269251e-05, 'epoch': 0.83}
+{'loss': 1.4529, 'grad_norm': 0.09480655938386917, 'learning_rate': 3.685079305038866e-05, 'epoch': 0.83}
+{'loss': 1.4577, 'grad_norm': 0.10459599643945694, 'learning_rate': 3.674251764805353e-05, 'epoch': 0.83}
+{'loss': 1.4621, 'grad_norm': 0.10768520087003708, 'learning_rate': 3.6634388930161936e-05, 'epoch': 0.83}
+{'loss': 1.4403, 'grad_norm': 0.0976925864815712, 'learning_rate': 3.6526406971087807e-05, 'epoch': 0.83}
+{'loss': 1.4458, 'grad_norm': 0.10738620907068253, 'learning_rate': 3.641857184510408e-05, 'epoch': 0.83}
+{'loss': 1.434, 'grad_norm': 0.09965004026889801, 'learning_rate': 3.631088362638291e-05, 'epoch': 0.83}
+{'loss': 1.4394, 'grad_norm': 0.09962417185306549, 'learning_rate': 3.620334238899514e-05, 'epoch': 0.83}
+{'loss': 1.4278, 'grad_norm': 0.09676633775234222, 'learning_rate': 3.6095948206910646e-05, 'epoch': 0.83}
+{'loss': 1.4614, 'grad_norm': 0.10057197511196136, 'learning_rate': 3.598870115399821e-05, 'epoch': 0.83}
+{'loss': 1.4501, 'grad_norm': 0.1054987981915474, 'learning_rate': 3.588160130402523e-05, 'epoch': 0.83}
+{'loss': 1.4523, 'grad_norm': 0.11344310641288757, 'learning_rate': 3.577464873065814e-05, 'epoch': 0.83}
+{'loss': 1.447, 'grad_norm': 0.09478548169136047, 'learning_rate': 3.566784350746177e-05, 'epoch': 0.83}
+{'loss': 1.4336, 'grad_norm': 0.09541864693164825, 'learning_rate': 3.556118570789976e-05, 'epoch': 0.83}
+{'loss': 1.4446, 'grad_norm': 0.11245507001876831, 'learning_rate': 3.545467540533434e-05, 'epoch': 0.83}
+{'loss': 1.4537, 'grad_norm': 0.10622591525316238, 'learning_rate': 3.5348312673026184e-05, 'epoch': 0.83}
+{'loss': 1.4514, 'grad_norm': 0.12009131163358688, 'learning_rate': 3.524209758413466e-05, 'epoch': 0.83}
+{'loss': 1.4516, 'grad_norm': 0.09981006383895874, 'learning_rate': 3.513603021171738e-05, 'epoch': 0.83}
+{'loss': 1.4523, 'grad_norm': 0.10123609006404877, 'learning_rate': 3.5030110628730516e-05, 'epoch': 0.83}
+{'loss': 1.4599, 'grad_norm': 0.10995395481586456, 'learning_rate': 3.4924338908028485e-05, 'epoch': 0.83}
+{'loss': 1.4421, 'grad_norm': 0.10800693184137344, 'learning_rate': 3.481871512236395e-05, 'epoch': 0.84}
+{'loss': 1.4512, 'grad_norm': 0.09521865099668503, 'learning_rate': 3.471323934438806e-05, 'epoch': 0.84}
+{'loss': 1.468, 'grad_norm': 0.10259781777858734, 'learning_rate': 3.4607911646649836e-05, 'epoch': 0.84}
+{'loss': 1.4549, 'grad_norm': 0.09094658493995667, 'learning_rate': 3.4502732101596715e-05, 'epoch': 0.84}
+{'loss': 1.4708, 'grad_norm': 0.09904724359512329, 'learning_rate': 3.4397700781574e-05, 'epoch': 0.84}
+{'loss': 1.447, 'grad_norm': 0.09432605654001236, 'learning_rate': 3.429281775882523e-05, 'epoch': 0.84}
+{'loss': 1.4344, 'grad_norm': 0.0946582555770874, 'learning_rate': 3.4188083105491956e-05, 'epoch': 0.84}
+{'loss': 1.4574, 'grad_norm': 0.10850849747657776, 'learning_rate': 3.408349689361348e-05, 'epoch': 0.84}
+{'loss': 1.4995, 'grad_norm': 0.09376922249794006, 'learning_rate': 3.39790591951272e-05, 'epoch': 0.84}
+{'loss': 1.4376, 'grad_norm': 0.10645793378353119, 'learning_rate': 3.387477008186812e-05, 'epoch': 0.84}
+{'loss': 1.4658, 'grad_norm': 0.09868327528238297, 'learning_rate': 3.37706296255694e-05, 'epoch': 0.84}
+{'loss': 1.4485, 'grad_norm': 0.10127681493759155, 'learning_rate': 3.3666637897861675e-05, 'epoch': 0.84}
+{'loss': 1.424, 'grad_norm': 0.1020912155508995, 'learning_rate': 3.356279497027326e-05, 'epoch': 0.84}
+{'loss': 1.473, 'grad_norm': 0.09841693192720413, 'learning_rate': 3.345910091423035e-05, 'epoch': 0.84}
+{'loss': 1.4291, 'grad_norm': 0.10482427477836609, 'learning_rate': 3.335555580105651e-05, 'epoch': 0.84}
+{'loss': 1.4578, 'grad_norm': 0.11047665029764175, 'learning_rate': 3.325215970197304e-05, 'epoch': 0.84}
+{'loss': 1.4655, 'grad_norm': 0.10717026144266129, 'learning_rate': 3.3148912688098636e-05, 'epoch': 0.84}
+{'loss': 1.46, 'grad_norm': 0.10129913687705994, 'learning_rate': 3.3045814830449465e-05, 'epoch': 0.84}
+{'loss': 1.4545, 'grad_norm': 0.10299798846244812, 'learning_rate': 3.2942866199939084e-05, 'epoch': 0.84}
+{'loss': 1.4558, 'grad_norm': 0.106391042470932, 'learning_rate': 3.284006686737842e-05, 'epoch': 0.84}
+{'loss': 1.4369, 'grad_norm': 0.1109645888209343, 'learning_rate': 3.273741690347573e-05, 'epoch': 0.84}
+{'loss': 1.4291, 'grad_norm': 0.09946858882904053, 'learning_rate': 3.2634916378836616e-05, 'epoch': 0.84}
+{'loss': 1.446, 'grad_norm': 0.10295385122299194, 'learning_rate': 3.2532565363963707e-05, 'epoch': 0.84}
+{'loss': 1.4623, 'grad_norm': 0.09117569029331207, 'learning_rate': 3.2430363929256854e-05, 'epoch': 0.84}
+{'loss': 1.4767, 'grad_norm': 0.10189737379550934, 'learning_rate': 3.2328312145013165e-05, 'epoch': 0.84}
+{'loss': 1.4908, 'grad_norm': 0.09369336068630219, 'learning_rate': 3.2226410081426654e-05, 'epoch': 0.84}
+{'loss': 1.4647, 'grad_norm': 0.09430084377527237, 'learning_rate': 3.212465780858836e-05, 'epoch': 0.84}
+{'loss': 1.45, 'grad_norm': 0.105250783264637, 'learning_rate': 3.202305539648631e-05, 'epoch': 0.84}
+{'loss': 1.4395, 'grad_norm': 0.10073132067918777, 'learning_rate': 3.192160291500557e-05, 'epoch': 0.84}
+{'loss': 1.4428, 'grad_norm': 0.10088382661342621, 'learning_rate': 3.182030043392794e-05, 'epoch': 0.84}
+{'loss': 1.434, 'grad_norm': 0.09587085992097855, 'learning_rate': 3.1719148022932134e-05, 'epoch': 0.84}
+{'loss': 1.4681, 'grad_norm': 0.10707449913024902, 'learning_rate': 3.1618145751593555e-05, 'epoch': 0.84}
+{'loss': 1.4481, 'grad_norm': 0.09253361821174622, 'learning_rate': 3.151729368938441e-05, 'epoch': 0.84}
+{'loss': 1.4474, 'grad_norm': 0.10084299743175507, 'learning_rate': 3.1416591905673474e-05, 'epoch': 0.84}
+{'loss': 1.44, 'grad_norm': 0.09753275662660599, 'learning_rate': 3.131604046972636e-05, 'epoch': 0.84}
+{'loss': 1.4563, 'grad_norm': 0.09019505977630615, 'learning_rate': 3.1215639450705045e-05, 'epoch': 0.84}
+{'loss': 1.4509, 'grad_norm': 0.10168714076280594, 'learning_rate': 3.111538891766824e-05, 'epoch': 0.84}
+{'loss': 1.4467, 'grad_norm': 0.09950317442417145, 'learning_rate': 3.1015288939571034e-05, 'epoch': 0.84}
+{'loss': 1.455, 'grad_norm': 0.10973244905471802, 'learning_rate': 3.0915339585264935e-05, 'epoch': 0.84}
+{'loss': 1.4289, 'grad_norm': 0.10139138251543045, 'learning_rate': 3.081554092349798e-05, 'epoch': 0.85}
+{'loss': 1.4574, 'grad_norm': 0.09255722165107727, 'learning_rate': 3.071589302291441e-05, 'epoch': 0.85}
+{'loss': 1.464, 'grad_norm': 0.10533568263053894, 'learning_rate': 3.061639595205484e-05, 'epoch': 0.85}
+{'loss': 1.4482, 'grad_norm': 0.10679120570421219, 'learning_rate': 3.05170497793561e-05, 'epoch': 0.85}
+{'loss': 1.4542, 'grad_norm': 0.09453842043876648, 'learning_rate': 3.041785457315127e-05, 'epoch': 0.85}
+{'loss': 1.4522, 'grad_norm': 0.109614796936512, 'learning_rate': 3.0318810401669674e-05, 'epoch': 0.85}
+{'loss': 1.414, 'grad_norm': 0.10558167099952698, 'learning_rate': 3.0219917333036555e-05, 'epoch': 0.85}
+{'loss': 1.4592, 'grad_norm': 0.11156000196933746, 'learning_rate': 3.0121175435273373e-05, 'epoch': 0.85}
+{'loss': 1.458, 'grad_norm': 0.11446675658226013, 'learning_rate': 3.0022584776297462e-05, 'epoch': 0.85}
+{'loss': 1.4465, 'grad_norm': 0.10114946961402893, 'learning_rate': 2.9924145423922382e-05, 'epoch': 0.85}
+{'loss': 1.4548, 'grad_norm': 0.09708277136087418, 'learning_rate': 2.982585744585736e-05, 'epoch': 0.85}
+{'loss': 1.4499, 'grad_norm': 0.10596317797899246, 'learning_rate': 2.97277209097076e-05, 'epoch': 0.85}
+{'loss': 1.4599, 'grad_norm': 0.09789833426475525, 'learning_rate': 2.9629735882974213e-05, 'epoch': 0.85}
+{'loss': 1.4253, 'grad_norm': 0.10701549798250198, 'learning_rate': 2.9531902433053953e-05, 'epoch': 0.85}
+{'loss': 1.4514, 'grad_norm': 0.09867783635854721, 'learning_rate': 2.9434220627239493e-05, 'epoch': 0.85}
+{'loss': 1.4415, 'grad_norm': 0.09611841291189194, 'learning_rate': 2.9336690532719064e-05, 'epoch': 0.85}
+{'loss': 1.459, 'grad_norm': 0.09335801005363464, 'learning_rate': 2.9239312216576552e-05, 'epoch': 0.85}
+{'loss': 1.453, 'grad_norm': 0.10163091123104095, 'learning_rate': 2.9142085745791523e-05, 'epoch': 0.85}
+{'loss': 1.4241, 'grad_norm': 0.09806542098522186, 'learning_rate': 2.9045011187238958e-05, 'epoch': 0.85}
+{'loss': 1.4501, 'grad_norm': 0.10531236976385117, 'learning_rate': 2.8948088607689577e-05, 'epoch': 0.85}
+{'loss': 1.4404, 'grad_norm': 0.09081040322780609, 'learning_rate': 2.8851318073809335e-05, 'epoch': 0.85}
+{'loss': 1.4361, 'grad_norm': 0.09688647836446762, 'learning_rate': 2.8754699652159792e-05, 'epoch': 0.85}
+{'loss': 1.4501, 'grad_norm': 0.10572628676891327, 'learning_rate': 2.8658233409197737e-05, 'epoch': 0.85}
+{'loss': 1.4312, 'grad_norm': 0.10425455868244171, 'learning_rate': 2.856191941127531e-05, 'epoch': 0.85}
+{'loss': 1.4492, 'grad_norm': 0.10732058435678482, 'learning_rate': 2.846575772464005e-05, 'epoch': 0.85}
+{'loss': 1.4588, 'grad_norm': 0.1045791283249855, 'learning_rate': 2.8369748415434605e-05, 'epoch': 0.85}
+{'loss': 1.4342, 'grad_norm': 0.10026019811630249, 'learning_rate': 2.827389154969684e-05, 'epoch': 0.85}
+{'loss': 1.4681, 'grad_norm': 0.1033986508846283, 'learning_rate': 2.8178187193359738e-05, 'epoch': 0.85}
+{'loss': 1.457, 'grad_norm': 0.09795960783958435, 'learning_rate': 2.8082635412251505e-05, 'epoch': 0.85}
+{'loss': 1.4391, 'grad_norm': 0.09622301906347275, 'learning_rate': 2.7987236272095318e-05, 'epoch': 0.85}
+{'loss': 1.4375, 'grad_norm': 0.09393014758825302, 'learning_rate': 2.7891989838509353e-05, 'epoch': 0.85}
+{'loss': 1.4468, 'grad_norm': 0.11004165560007095, 'learning_rate': 2.779689617700676e-05, 'epoch': 0.85}
+{'loss': 1.4565, 'grad_norm': 0.10901296883821487, 'learning_rate': 2.7701955352995523e-05, 'epoch': 0.85}
+{'loss': 1.4383, 'grad_norm': 0.11371573060750961, 'learning_rate': 2.760716743177874e-05, 'epoch': 0.85}
+{'loss': 1.4319, 'grad_norm': 0.1085340678691864, 'learning_rate': 2.751253247855412e-05, 'epoch': 0.85}
+{'loss': 1.4495, 'grad_norm': 0.09987938404083252, 'learning_rate': 2.7418050558414176e-05, 'epoch': 0.85}
+{'loss': 1.4548, 'grad_norm': 0.09772997349500656, 'learning_rate': 2.7323721736346285e-05, 'epoch': 0.85}
+{'loss': 1.4736, 'grad_norm': 0.09791582822799683, 'learning_rate': 2.7229546077232352e-05, 'epoch': 0.85}
+{'loss': 1.4492, 'grad_norm': 0.10247896611690521, 'learning_rate': 2.713552364584915e-05, 'epoch': 0.85}
+{'loss': 1.4225, 'grad_norm': 0.10616924613714218, 'learning_rate': 2.7041654506867826e-05, 'epoch': 0.86}
+{'loss': 1.4407, 'grad_norm': 0.10391366481781006, 'learning_rate': 2.694793872485424e-05, 'epoch': 0.86}
+{'loss': 1.4406, 'grad_norm': 0.10823214054107666, 'learning_rate': 2.6854376364268683e-05, 'epoch': 0.86}
+{'loss': 1.4586, 'grad_norm': 0.10126528143882751, 'learning_rate': 2.6760967489465937e-05, 'epoch': 0.86}
+{'loss': 1.4359, 'grad_norm': 0.09007067233324051, 'learning_rate': 2.666771216469527e-05, 'epoch': 0.86}
+{'loss': 1.4448, 'grad_norm': 0.09437411278486252, 'learning_rate': 2.657461045410034e-05, 'epoch': 0.86}
+{'loss': 1.4614, 'grad_norm': 0.10354743897914886, 'learning_rate': 2.6481662421719067e-05, 'epoch': 0.86}
+{'loss': 1.4558, 'grad_norm': 0.11487854272127151, 'learning_rate': 2.6388868131483613e-05, 'epoch': 0.86}
+{'loss': 1.4615, 'grad_norm': 0.10476452857255936, 'learning_rate': 2.6296227647220617e-05, 'epoch': 0.86}
+{'loss': 1.4551, 'grad_norm': 0.09827626496553421, 'learning_rate': 2.6203741032650718e-05, 'epoch': 0.86}
+{'loss': 1.4463, 'grad_norm': 0.09669782221317291, 'learning_rate': 2.6111408351388783e-05, 'epoch': 0.86}
+{'loss': 1.4592, 'grad_norm': 0.11285294592380524, 'learning_rate': 2.6019229666943784e-05, 'epoch': 0.86}
+{'loss': 1.4653, 'grad_norm': 0.09646078944206238, 'learning_rate': 2.5927205042718784e-05, 'epoch': 0.86}
+{'loss': 1.4348, 'grad_norm': 0.10018062591552734, 'learning_rate': 2.583533454201101e-05, 'epoch': 0.86}
+{'loss': 1.4581, 'grad_norm': 0.09467895328998566, 'learning_rate': 2.5743618228011438e-05, 'epoch': 0.86}
+{'loss': 1.446, 'grad_norm': 0.10715694725513458, 'learning_rate': 2.565205616380517e-05, 'epoch': 0.86}
+{'loss': 1.4801, 'grad_norm': 0.10584025084972382, 'learning_rate': 2.55606484123711e-05, 'epoch': 0.86}
+{'loss': 1.4557, 'grad_norm': 0.09595302492380142, 'learning_rate': 2.5469395036581994e-05, 'epoch': 0.86}
+{'loss': 1.4545, 'grad_norm': 0.10360725224018097, 'learning_rate': 2.5378296099204556e-05, 'epoch': 0.86}
+{'loss': 1.4401, 'grad_norm': 0.10021278262138367, 'learning_rate': 2.5287351662899085e-05, 'epoch': 0.86}
+{'loss': 1.452, 'grad_norm': 0.09919708222150803, 'learning_rate': 2.5196561790219813e-05, 'epoch': 0.86}
+{'loss': 1.4325, 'grad_norm': 0.11706645786762238, 'learning_rate': 2.510592654361446e-05, 'epoch': 0.86}
+{'loss': 1.4606, 'grad_norm': 0.1024288684129715, 'learning_rate': 2.501544598542449e-05, 'epoch': 0.86}
+{'loss': 1.4344, 'grad_norm': 0.09649249166250229, 'learning_rate': 2.492512017788498e-05, 'epoch': 0.86}
+{'loss': 1.4347, 'grad_norm': 0.09660018980503082, 'learning_rate': 2.4834949183124538e-05, 'epoch': 0.86}
+{'loss': 1.4501, 'grad_norm': 0.10071513056755066, 'learning_rate': 2.4744933063165274e-05, 'epoch': 0.86}
+{'loss': 1.4526, 'grad_norm': 0.10300265997648239, 'learning_rate': 2.4655071879922746e-05, 'epoch': 0.86}
+{'loss': 1.4453, 'grad_norm': 0.10925108194351196, 'learning_rate': 2.4565365695206037e-05, 'epoch': 0.86}
+{'loss': 1.4467, 'grad_norm': 0.10305815190076828, 'learning_rate': 2.4475814570717568e-05, 'epoch': 0.86}
+{'loss': 1.4575, 'grad_norm': 0.10124010592699051, 'learning_rate': 2.43864185680531e-05, 'epoch': 0.86}
+{'loss': 1.4498, 'grad_norm': 0.10312218964099884, 'learning_rate': 2.429717774870166e-05, 'epoch': 0.86}
+{'loss': 1.4338, 'grad_norm': 0.09644527733325958, 'learning_rate': 2.4208092174045543e-05, 'epoch': 0.86}
+{'loss': 1.4711, 'grad_norm': 0.10081393271684647, 'learning_rate': 2.41191619053604e-05, 'epoch': 0.86}
+{'loss': 1.4502, 'grad_norm': 0.09554676711559296, 'learning_rate': 2.403038700381488e-05, 'epoch': 0.86}
+{'loss': 1.4187, 'grad_norm': 0.09156418591737747, 'learning_rate': 2.3941767530470783e-05, 'epoch': 0.86}
+{'loss': 1.4394, 'grad_norm': 0.10375198721885681, 'learning_rate': 2.3853303546283178e-05, 'epoch': 0.86}
+{'loss': 1.446, 'grad_norm': 0.10308986902236938, 'learning_rate': 2.3764995112099925e-05, 'epoch': 0.86}
+{'loss': 1.4383, 'grad_norm': 0.10323408991098404, 'learning_rate': 2.3676842288662183e-05, 'epoch': 0.86}
+{'loss': 1.4553, 'grad_norm': 0.0947539433836937, 'learning_rate': 2.358884513660381e-05, 'epoch': 0.86}
+{'loss': 1.4374, 'grad_norm': 0.09398050606250763, 'learning_rate': 2.3501003716451752e-05, 'epoch': 0.87}
+{'loss': 1.4387, 'grad_norm': 0.09889238327741623, 'learning_rate': 2.3413318088625736e-05, 'epoch': 0.87}
+{'loss': 1.4667, 'grad_norm': 0.0949975997209549, 'learning_rate': 2.33257883134384e-05, 'epoch': 0.87}
+{'loss': 1.4583, 'grad_norm': 0.1016843393445015, 'learning_rate': 2.32384144510952e-05, 'epoch': 0.87}
+{'loss': 1.4504, 'grad_norm': 0.0936073288321495, 'learning_rate': 2.315119656169426e-05, 'epoch': 0.87}
+{'loss': 1.4365, 'grad_norm': 0.09822521358728409, 'learning_rate': 2.306413470522653e-05, 'epoch': 0.87}
+{'loss': 1.4413, 'grad_norm': 0.09273828566074371, 'learning_rate': 2.297722894157553e-05, 'epoch': 0.87}
+{'loss': 1.4316, 'grad_norm': 0.09726893901824951, 'learning_rate': 2.2890479330517548e-05, 'epoch': 0.87}
+{'loss': 1.4452, 'grad_norm': 0.09643153101205826, 'learning_rate': 2.2803885931721337e-05, 'epoch': 0.87}
+{'loss': 1.4552, 'grad_norm': 0.10537722706794739, 'learning_rate': 2.271744880474824e-05, 'epoch': 0.87}
+{'loss': 1.4471, 'grad_norm': 0.10467381775379181, 'learning_rate': 2.2631168009052126e-05, 'epoch': 0.87}
+{'loss': 1.4328, 'grad_norm': 0.10271919518709183, 'learning_rate': 2.25450436039793e-05, 'epoch': 0.87}
+{'loss': 1.4374, 'grad_norm': 0.1032748743891716, 'learning_rate': 2.245907564876859e-05, 'epoch': 0.87}
+{'loss': 1.4476, 'grad_norm': 0.09227561205625534, 'learning_rate': 2.2373264202551175e-05, 'epoch': 0.87}
+{'loss': 1.464, 'grad_norm': 0.08983929455280304, 'learning_rate': 2.2287609324350506e-05, 'epoch': 0.87}
+{'loss': 1.4458, 'grad_norm': 0.10276399552822113, 'learning_rate': 2.2202111073082398e-05, 'epoch': 0.87}
+{'loss': 1.4489, 'grad_norm': 0.09981036931276321, 'learning_rate': 2.2116769507554922e-05, 'epoch': 0.87}
+{'loss': 1.4541, 'grad_norm': 0.09774472564458847, 'learning_rate': 2.203158468646843e-05, 'epoch': 0.87}
+{'loss': 1.4464, 'grad_norm': 0.09691382199525833, 'learning_rate': 2.1946556668415414e-05, 'epoch': 0.87}
+{'loss': 1.4433, 'grad_norm': 0.09361791610717773, 'learning_rate': 2.1861685511880448e-05, 'epoch': 0.87}
+{'loss': 1.4413, 'grad_norm': 0.10090567916631699, 'learning_rate': 2.1776971275240394e-05, 'epoch': 0.87}
+{'loss': 1.444, 'grad_norm': 0.0973430797457695, 'learning_rate': 2.1692414016763918e-05, 'epoch': 0.87}
+{'loss': 1.4324, 'grad_norm': 0.10617545247077942, 'learning_rate': 2.1608013794612026e-05, 'epoch': 0.87}
+{'loss': 1.449, 'grad_norm': 0.09890105575323105, 'learning_rate': 2.1523770666837445e-05, 'epoch': 0.87}
+{'loss': 1.4568, 'grad_norm': 0.10253521800041199, 'learning_rate': 2.1439684691384992e-05, 'epoch': 0.87}
+{'loss': 1.4741, 'grad_norm': 0.09871553629636765, 'learning_rate': 2.1355755926091235e-05, 'epoch': 0.87}
+{'loss': 1.4432, 'grad_norm': 0.10035935789346695, 'learning_rate': 2.1271984428684888e-05, 'epoch': 0.87}
+{'loss': 1.4435, 'grad_norm': 0.09162290394306183, 'learning_rate': 2.118837025678616e-05, 'epoch': 0.87}
+{'loss': 1.4339, 'grad_norm': 0.10569468885660172, 'learning_rate': 2.1104913467907354e-05, 'epoch': 0.87}
+{'loss': 1.4249, 'grad_norm': 0.09530635923147202, 'learning_rate': 2.102161411945233e-05, 'epoch': 0.87}
+{'loss': 1.4348, 'grad_norm': 0.09685724228620529, 'learning_rate': 2.0938472268716618e-05, 'epoch': 0.87}
+{'loss': 1.4625, 'grad_norm': 0.10319608449935913, 'learning_rate': 2.085548797288761e-05, 'epoch': 0.87}
+{'loss': 1.445, 'grad_norm': 0.0992746651172638, 'learning_rate': 2.0772661289044174e-05, 'epoch': 0.87}
+{'loss': 1.4531, 'grad_norm': 0.09760337322950363, 'learning_rate': 2.0689992274156828e-05, 'epoch': 0.87}
+{'loss': 1.4609, 'grad_norm': 0.08986446261405945, 'learning_rate': 2.060748098508758e-05, 'epoch': 0.87}
+{'loss': 1.4389, 'grad_norm': 0.0970756933093071, 'learning_rate': 2.0525127478590032e-05, 'epoch': 0.87}
+{'loss': 1.4457, 'grad_norm': 0.10159330070018768, 'learning_rate': 2.044293181130924e-05, 'epoch': 0.87}
+{'loss': 1.4337, 'grad_norm': 0.09792755544185638, 'learning_rate': 2.036089403978167e-05, 'epoch': 0.87}
+{'loss': 1.4435, 'grad_norm': 0.09831279516220093, 'learning_rate': 2.0279014220435183e-05, 'epoch': 0.87}
+{'loss': 1.4508, 'grad_norm': 0.09475188702344894, 'learning_rate': 2.019729240958898e-05, 'epoch': 0.88}
+{'loss': 1.4628, 'grad_norm': 0.09375574439764023, 'learning_rate': 2.0115728663453597e-05, 'epoch': 0.88}
+{'loss': 1.4578, 'grad_norm': 0.09247095137834549, 'learning_rate': 2.003432303813088e-05, 'epoch': 0.88}
+{'loss': 1.4517, 'grad_norm': 0.09764702618122101, 'learning_rate': 1.9953075589613873e-05, 'epoch': 0.88}
+{'loss': 1.4263, 'grad_norm': 0.11171553283929825, 'learning_rate': 1.987198637378687e-05, 'epoch': 0.88}
+{'loss': 1.4545, 'grad_norm': 0.09950078278779984, 'learning_rate': 1.9791055446425233e-05, 'epoch': 0.88}
+{'loss': 1.4795, 'grad_norm': 0.10829710960388184, 'learning_rate': 1.9710282863195594e-05, 'epoch': 0.88}
+{'loss': 1.4096, 'grad_norm': 0.0993092879652977, 'learning_rate': 1.9629668679655542e-05, 'epoch': 0.88}
+{'loss': 1.4413, 'grad_norm': 0.11757689714431763, 'learning_rate': 1.9549212951253753e-05, 'epoch': 0.88}
+{'loss': 1.4724, 'grad_norm': 0.08985912799835205, 'learning_rate': 1.9468915733329928e-05, 'epoch': 0.88}
+{'loss': 1.4631, 'grad_norm': 0.10108081251382828, 'learning_rate': 1.9388777081114694e-05, 'epoch': 0.88}
+{'loss': 1.4501, 'grad_norm': 0.10343923419713974, 'learning_rate': 1.930879704972971e-05, 'epoch': 0.88}
+{'loss': 1.4708, 'grad_norm': 0.10146686434745789, 'learning_rate': 1.922897569418744e-05, 'epoch': 0.88}
+{'loss': 1.4697, 'grad_norm': 0.10242427885532379, 'learning_rate': 1.9149313069391272e-05, 'epoch': 0.88}
+{'loss': 1.4586, 'grad_norm': 0.09345495700836182, 'learning_rate': 1.9069809230135375e-05, 'epoch': 0.88}
+{'loss': 1.4497, 'grad_norm': 0.10029568523168564, 'learning_rate': 1.8990464231104648e-05, 'epoch': 0.88}
+{'loss': 1.4297, 'grad_norm': 0.09638354927301407, 'learning_rate': 1.8911278126874876e-05, 'epoch': 0.88}
+{'loss': 1.4634, 'grad_norm': 0.10163693875074387, 'learning_rate': 1.8832250971912433e-05, 'epoch': 0.88}
+{'loss': 1.4404, 'grad_norm': 0.09323687851428986, 'learning_rate': 1.8753382820574345e-05, 'epoch': 0.88}
+{'loss': 1.4336, 'grad_norm': 0.09847068786621094, 'learning_rate': 1.8674673727108432e-05, 'epoch': 0.88}
+{'loss': 1.439, 'grad_norm': 0.10567459464073181, 'learning_rate': 1.8596123745652894e-05, 'epoch': 0.88}
+{'loss': 1.4436, 'grad_norm': 0.10222499817609787, 'learning_rate': 1.8517732930236704e-05, 'epoch': 0.88}
+{'loss': 1.4722, 'grad_norm': 0.10192052274942398, 'learning_rate': 1.8439501334779203e-05, 'epoch': 0.88}
+{'loss': 1.4412, 'grad_norm': 0.0976552963256836, 'learning_rate': 1.8361429013090263e-05, 'epoch': 0.88}
+{'loss': 1.4382, 'grad_norm': 0.09655201435089111, 'learning_rate': 1.8283516018870213e-05, 'epoch': 0.88}
+{'loss': 1.4619, 'grad_norm': 0.09881578385829926, 'learning_rate': 1.820576240570973e-05, 'epoch': 0.88}
+{'loss': 1.4289, 'grad_norm': 0.10025303065776825, 'learning_rate': 1.8128168227089987e-05, 'epoch': 0.88}
+{'loss': 1.4487, 'grad_norm': 0.09491904079914093, 'learning_rate': 1.805073353638237e-05, 'epoch': 0.88}
+{'loss': 1.4841, 'grad_norm': 0.10180910676717758, 'learning_rate': 1.797345838684869e-05, 'epoch': 0.88}
+{'loss': 1.4185, 'grad_norm': 0.10689277946949005, 'learning_rate': 1.789634283164085e-05, 'epoch': 0.88}
+{'loss': 1.432, 'grad_norm': 0.09892843663692474, 'learning_rate': 1.7819386923801196e-05, 'epoch': 0.88}
+{'loss': 1.4744, 'grad_norm': 0.10295121371746063, 'learning_rate': 1.774259071626208e-05, 'epoch': 0.88}
+{'loss': 1.4332, 'grad_norm': 0.10759880393743515, 'learning_rate': 1.7665954261846084e-05, 'epoch': 0.88}
+{'loss': 1.4351, 'grad_norm': 0.0972270518541336, 'learning_rate': 1.7589477613265876e-05, 'epoch': 0.88}
+{'loss': 1.4477, 'grad_norm': 0.09690260142087936, 'learning_rate': 1.7513160823124237e-05, 'epoch': 0.88}
+{'loss': 1.4518, 'grad_norm': 0.09758631885051727, 'learning_rate': 1.743700394391398e-05, 'epoch': 0.88}
+{'loss': 1.453, 'grad_norm': 0.10184799134731293, 'learning_rate': 1.7361007028018018e-05, 'epoch': 0.88}
+{'loss': 1.4362, 'grad_norm': 0.09137826412916183, 'learning_rate': 1.7285170127709055e-05, 'epoch': 0.88}
+{'loss': 1.4424, 'grad_norm': 0.09785499423742294, 'learning_rate': 1.7209493295149843e-05, 'epoch': 0.88}
+{'loss': 1.439, 'grad_norm': 0.10049314796924591, 'learning_rate': 1.713397658239299e-05, 'epoch': 0.88}
+{'loss': 1.4558, 'grad_norm': 0.09303252398967743, 'learning_rate': 1.7058620041381064e-05, 'epoch': 0.89}
+{'loss': 1.463, 'grad_norm': 0.09968645870685577, 'learning_rate': 1.6983423723946345e-05, 'epoch': 0.89}
+{'loss': 1.4456, 'grad_norm': 0.10264512151479721, 'learning_rate': 1.6908387681810965e-05, 'epoch': 0.89}
+{'loss': 1.464, 'grad_norm': 0.09636496007442474, 'learning_rate': 1.6833511966586834e-05, 'epoch': 0.89}
+{'loss': 1.4513, 'grad_norm': 0.09427574276924133, 'learning_rate': 1.6758796629775503e-05, 'epoch': 0.89}
+{'loss': 1.4464, 'grad_norm': 0.09457191079854965, 'learning_rate': 1.6684241722768336e-05, 'epoch': 0.89}
+{'loss': 1.4642, 'grad_norm': 0.09794401377439499, 'learning_rate': 1.6609847296846254e-05, 'epoch': 0.89}
+{'loss': 1.4562, 'grad_norm': 0.10624803602695465, 'learning_rate': 1.65356134031798e-05, 'epoch': 0.89}
+{'loss': 1.457, 'grad_norm': 0.10675612092018127, 'learning_rate': 1.6461540092829076e-05, 'epoch': 0.89}
+{'loss': 1.4402, 'grad_norm': 0.10427326709032059, 'learning_rate': 1.638762741674385e-05, 'epoch': 0.89}
+{'loss': 1.437, 'grad_norm': 0.09235657006502151, 'learning_rate': 1.6313875425763264e-05, 'epoch': 0.89}
+{'loss': 1.4265, 'grad_norm': 0.08529786765575409, 'learning_rate': 1.6240284170616045e-05, 'epoch': 0.89}
+{'loss': 1.4425, 'grad_norm': 0.09421351552009583, 'learning_rate': 1.616685370192028e-05, 'epoch': 0.89}
+{'loss': 1.4534, 'grad_norm': 0.10485422611236572, 'learning_rate': 1.6093584070183436e-05, 'epoch': 0.89}
+{'loss': 1.4704, 'grad_norm': 0.08910440653562546, 'learning_rate': 1.602047532580253e-05, 'epoch': 0.89}
+{'loss': 1.4324, 'grad_norm': 0.10822247713804245, 'learning_rate': 1.5947527519063755e-05, 'epoch': 0.89}
+{'loss': 1.4557, 'grad_norm': 0.10004670172929764, 'learning_rate': 1.5874740700142582e-05, 'epoch': 0.89}
+{'loss': 1.4534, 'grad_norm': 0.09517241269350052, 'learning_rate': 1.5802114919103854e-05, 'epoch': 0.89}
+{'loss': 1.4349, 'grad_norm': 0.10101241618394852, 'learning_rate': 1.5729650225901586e-05, 'epoch': 0.89}
+{'loss': 1.4647, 'grad_norm': 0.09560469537973404, 'learning_rate': 1.5657346670379102e-05, 'epoch': 0.89}
+{'loss': 1.4918, 'grad_norm': 0.10010875761508942, 'learning_rate': 1.558520430226873e-05, 'epoch': 0.89}
+{'loss': 1.45, 'grad_norm': 0.09418588876724243, 'learning_rate': 1.5513223171192025e-05, 'epoch': 0.89}
+{'loss': 1.4363, 'grad_norm': 0.09712520986795425, 'learning_rate': 1.544140332665961e-05, 'epoch': 0.89}
+{'loss': 1.4381, 'grad_norm': 0.09132125228643417, 'learning_rate': 1.536974481807113e-05, 'epoch': 0.89}
+{'loss': 1.4605, 'grad_norm': 0.10393362492322922, 'learning_rate': 1.5298247694715384e-05, 'epoch': 0.89}
+{'loss': 1.4429, 'grad_norm': 0.09343370795249939, 'learning_rate': 1.5226912005770034e-05, 'epoch': 0.89}
+{'loss': 1.4397, 'grad_norm': 0.10032189637422562, 'learning_rate': 1.51557378003018e-05, 'epoch': 0.89}
+{'loss': 1.4626, 'grad_norm': 0.10175430774688721, 'learning_rate': 1.5084725127266219e-05, 'epoch': 0.89}
+{'loss': 1.4261, 'grad_norm': 0.09431111812591553, 'learning_rate': 1.5013874035507858e-05, 'epoch': 0.89}
+{'loss': 1.4497, 'grad_norm': 0.09503460675477982, 'learning_rate': 1.4943184573760067e-05, 'epoch': 0.89}
+{'loss': 1.4606, 'grad_norm': 0.09634335339069366, 'learning_rate': 1.4872656790645006e-05, 'epoch': 0.89}
+{'loss': 1.4549, 'grad_norm': 0.10624606907367706, 'learning_rate': 1.4802290734673623e-05, 'epoch': 0.89}
+{'loss': 1.452, 'grad_norm': 0.09890677779912949, 'learning_rate': 1.4732086454245674e-05, 'epoch': 0.89}
+{'loss': 1.4465, 'grad_norm': 0.09837151318788528, 'learning_rate': 1.4662043997649672e-05, 'epoch': 0.89}
+{'loss': 1.4268, 'grad_norm': 0.09177180379629135, 'learning_rate': 1.4592163413062687e-05, 'epoch': 0.89}
+{'loss': 1.4325, 'grad_norm': 0.09473850578069687, 'learning_rate': 1.4522444748550605e-05, 'epoch': 0.89}
+{'loss': 1.448, 'grad_norm': 0.10389859229326248, 'learning_rate': 1.4452888052067848e-05, 'epoch': 0.89}
+{'loss': 1.4492, 'grad_norm': 0.10813947021961212, 'learning_rate': 1.438349337145739e-05, 'epoch': 0.89}
+{'loss': 1.4483, 'grad_norm': 0.10439535975456238, 'learning_rate': 1.4314260754450915e-05, 'epoch': 0.89}
+{'loss': 1.439, 'grad_norm': 0.09420523792505264, 'learning_rate': 1.424519024866855e-05, 'epoch': 0.9}
+{'loss': 1.4522, 'grad_norm': 0.09535927325487137, 'learning_rate': 1.4176281901618849e-05, 'epoch': 0.9}
+{'loss': 1.4393, 'grad_norm': 0.09751948714256287, 'learning_rate': 1.4107535760698898e-05, 'epoch': 0.9}
+{'loss': 1.4397, 'grad_norm': 0.10449212789535522, 'learning_rate': 1.4038951873194234e-05, 'epoch': 0.9}
+{'loss': 1.4458, 'grad_norm': 0.09573987126350403, 'learning_rate': 1.3970530286278788e-05, 'epoch': 0.9}
+{'loss': 1.4472, 'grad_norm': 0.10031002759933472, 'learning_rate': 1.3902271047014831e-05, 'epoch': 0.9}
+{'loss': 1.4386, 'grad_norm': 0.10698478668928146, 'learning_rate': 1.3834174202352972e-05, 'epoch': 0.9}
+{'loss': 1.4319, 'grad_norm': 0.09833342581987381, 'learning_rate': 1.3766239799132052e-05, 'epoch': 0.9}
+{'loss': 1.4523, 'grad_norm': 0.09900657087564468, 'learning_rate': 1.3698467884079357e-05, 'epoch': 0.9}
+{'loss': 1.4351, 'grad_norm': 0.0894685685634613, 'learning_rate': 1.3630858503810212e-05, 'epoch': 0.9}
+{'loss': 1.4591, 'grad_norm': 0.08754497766494751, 'learning_rate': 1.356341170482825e-05, 'epoch': 0.9}
+{'loss': 1.4456, 'grad_norm': 0.09525266289710999, 'learning_rate': 1.3496127533525332e-05, 'epoch': 0.9}
+{'loss': 1.4415, 'grad_norm': 0.09767568111419678, 'learning_rate': 1.3429006036181274e-05, 'epoch': 0.9}
+{'loss': 1.4816, 'grad_norm': 0.09879173338413239, 'learning_rate': 1.33620472589642e-05, 'epoch': 0.9}
+{'loss': 1.4413, 'grad_norm': 0.09967755526304245, 'learning_rate': 1.3295251247930212e-05, 'epoch': 0.9}
+{'loss': 1.4527, 'grad_norm': 0.09411235898733139, 'learning_rate': 1.322861804902345e-05, 'epoch': 0.9}
+{'loss': 1.451, 'grad_norm': 0.10197333246469498, 'learning_rate': 1.3162147708076083e-05, 'epoch': 0.9}
+{'loss': 1.43, 'grad_norm': 0.09687632322311401, 'learning_rate': 1.3095840270808234e-05, 'epoch': 0.9}
+{'loss': 1.4546, 'grad_norm': 0.08982102572917938, 'learning_rate': 1.3029695782828061e-05, 'epoch': 0.9}
+{'loss': 1.4253, 'grad_norm': 0.09717907756567001, 'learning_rate': 1.2963714289631584e-05, 'epoch': 0.9}
+{'loss': 1.4461, 'grad_norm': 0.10617721825838089, 'learning_rate': 1.2897895836602724e-05, 'epoch': 0.9}
+{'loss': 1.4319, 'grad_norm': 0.10369310528039932, 'learning_rate': 1.2832240469013212e-05, 'epoch': 0.9}
+{'loss': 1.4283, 'grad_norm': 0.10044746100902557, 'learning_rate': 1.2766748232022618e-05, 'epoch': 0.9}
+{'loss': 1.4572, 'grad_norm': 0.0883030816912651, 'learning_rate': 1.2701419170678408e-05, 'epoch': 0.9}
+{'loss': 1.4121, 'grad_norm': 0.10342922061681747, 'learning_rate': 1.2636253329915692e-05, 'epoch': 0.9}
+{'loss': 1.4531, 'grad_norm': 0.10273721814155579, 'learning_rate': 1.257125075455734e-05, 'epoch': 0.9}
+{'loss': 1.4731, 'grad_norm': 0.09027121961116791, 'learning_rate': 1.2506411489313918e-05, 'epoch': 0.9}
+{'loss': 1.4327, 'grad_norm': 0.09550398588180542, 'learning_rate': 1.2441735578783753e-05, 'epoch': 0.9}
+{'loss': 1.4474, 'grad_norm': 0.09191171079874039, 'learning_rate': 1.2377223067452675e-05, 'epoch': 0.9}
+{'loss': 1.4554, 'grad_norm': 0.09021803736686707, 'learning_rate': 1.2312873999694246e-05, 'epoch': 0.9}
+{'loss': 1.4512, 'grad_norm': 0.10019730776548386, 'learning_rate': 1.2248688419769477e-05, 'epoch': 0.9}
+{'loss': 1.4538, 'grad_norm': 0.09474345296621323, 'learning_rate': 1.2184666371827024e-05, 'epoch': 0.9}
+{'loss': 1.4702, 'grad_norm': 0.0865594670176506, 'learning_rate': 1.212080789990308e-05, 'epoch': 0.9}
+{'loss': 1.4554, 'grad_norm': 0.09304850548505783, 'learning_rate': 1.205711304792123e-05, 'epoch': 0.9}
+{'loss': 1.4707, 'grad_norm': 0.0978725254535675, 'learning_rate': 1.1993581859692598e-05, 'epoch': 0.9}
+{'loss': 1.4588, 'grad_norm': 0.10479793697595596, 'learning_rate': 1.1930214378915726e-05, 'epoch': 0.9}
+{'loss': 1.4507, 'grad_norm': 0.10332769900560379, 'learning_rate': 1.1867010649176473e-05, 'epoch': 0.9}
+{'loss': 1.4465, 'grad_norm': 0.0910688117146492, 'learning_rate': 1.1803970713948176e-05, 'epoch': 0.9}
+{'loss': 1.4432, 'grad_norm': 0.09664037078619003, 'learning_rate': 1.1741094616591453e-05, 'epoch': 0.9}
+{'loss': 1.454, 'grad_norm': 0.10067020356655121, 'learning_rate': 1.1678382400354236e-05, 'epoch': 0.91}
+{'loss': 1.4243, 'grad_norm': 0.09729242324829102, 'learning_rate': 1.161583410837172e-05, 'epoch': 0.91}
+{'loss': 1.4498, 'grad_norm': 0.1025930717587471, 'learning_rate': 1.1553449783666347e-05, 'epoch': 0.91}
+{'loss': 1.4399, 'grad_norm': 0.10283362120389938, 'learning_rate': 1.1491229469147879e-05, 'epoch': 0.91}
+{'loss': 1.4337, 'grad_norm': 0.09932401776313782, 'learning_rate': 1.1429173207613108e-05, 'epoch': 0.91}
+{'loss': 1.4625, 'grad_norm': 0.093747079372406, 'learning_rate': 1.1367281041746087e-05, 'epoch': 0.91}
+{'loss': 1.4364, 'grad_norm': 0.09618590027093887, 'learning_rate': 1.1305553014117953e-05, 'epoch': 0.91}
+{'loss': 1.4459, 'grad_norm': 0.09630347043275833, 'learning_rate': 1.1243989167186997e-05, 'epoch': 0.91}
+{'loss': 1.4312, 'grad_norm': 0.09547210484743118, 'learning_rate': 1.1182589543298539e-05, 'epoch': 0.91}
+{'loss': 1.4463, 'grad_norm': 0.09492257237434387, 'learning_rate': 1.1121354184684906e-05, 'epoch': 0.91}
+{'loss': 1.4426, 'grad_norm': 0.09694406390190125, 'learning_rate': 1.1060283133465577e-05, 'epoch': 0.91}
+{'loss': 1.4497, 'grad_norm': 0.08810614794492722, 'learning_rate': 1.0999376431646834e-05, 'epoch': 0.91}
+{'loss': 1.4481, 'grad_norm': 0.09391362965106964, 'learning_rate': 1.093863412112206e-05, 'epoch': 0.91}
+{'loss': 1.4585, 'grad_norm': 0.09674620628356934, 'learning_rate': 1.0878056243671497e-05, 'epoch': 0.91}
+{'loss': 1.4291, 'grad_norm': 0.09881509095430374, 'learning_rate': 1.0817642840962316e-05, 'epoch': 0.91}
+{'loss': 1.4499, 'grad_norm': 0.09604523330926895, 'learning_rate': 1.0757393954548527e-05, 'epoch': 0.91}
+{'loss': 1.4334, 'grad_norm': 0.09990741312503815, 'learning_rate': 1.0697309625870927e-05, 'epoch': 0.91}
+{'loss': 1.4345, 'grad_norm': 0.09267273545265198, 'learning_rate': 1.0637389896257289e-05, 'epoch': 0.91}
+{'loss': 1.4287, 'grad_norm': 0.08596434444189072, 'learning_rate': 1.0577634806922032e-05, 'epoch': 0.91}
+{'loss': 1.4336, 'grad_norm': 0.0916827917098999, 'learning_rate': 1.0518044398966393e-05, 'epoch': 0.91}
+{'loss': 1.4452, 'grad_norm': 0.10993705689907074, 'learning_rate': 1.0458618713378303e-05, 'epoch': 0.91}
+{'loss': 1.4567, 'grad_norm': 0.09947679191827774, 'learning_rate': 1.0399357791032377e-05, 'epoch': 0.91}
+{'loss': 1.4438, 'grad_norm': 0.09775557368993759, 'learning_rate': 1.0340261672689977e-05, 'epoch': 0.91}
+{'loss': 1.4548, 'grad_norm': 0.09886379539966583, 'learning_rate': 1.028133039899906e-05, 'epoch': 0.91}
+{'loss': 1.4448, 'grad_norm': 0.09972161054611206, 'learning_rate': 1.0222564010494178e-05, 'epoch': 0.91}
+{'loss': 1.4537, 'grad_norm': 0.09895531833171844, 'learning_rate': 1.0163962547596467e-05, 'epoch': 0.91}
+{'loss': 1.4525, 'grad_norm': 0.09939353913068771, 'learning_rate': 1.0105526050613655e-05, 'epoch': 0.91}
+{'loss': 1.4333, 'grad_norm': 0.09710881114006042, 'learning_rate': 1.0047254559740065e-05, 'epoch': 0.91}
+{'loss': 1.4279, 'grad_norm': 0.10286180675029755, 'learning_rate': 9.989148115056412e-06, 'epoch': 0.91}
+{'loss': 1.4482, 'grad_norm': 0.09945647418498993, 'learning_rate': 9.931206756529893e-06, 'epoch': 0.91}
+{'loss': 1.4465, 'grad_norm': 0.10008423030376434, 'learning_rate': 9.87343052401421e-06, 'epoch': 0.91}
+{'loss': 1.4612, 'grad_norm': 0.08977223187685013, 'learning_rate': 9.815819457249519e-06, 'epoch': 0.91}
+{'loss': 1.444, 'grad_norm': 0.08471304923295975, 'learning_rate': 9.758373595862236e-06, 'epoch': 0.91}
+{'loss': 1.4403, 'grad_norm': 0.0975702553987503, 'learning_rate': 9.701092979365278e-06, 'epoch': 0.91}
+{'loss': 1.4646, 'grad_norm': 0.09460512548685074, 'learning_rate': 9.643977647157825e-06, 'epoch': 0.91}
+{'loss': 1.4599, 'grad_norm': 0.10181387513875961, 'learning_rate': 9.587027638525398e-06, 'epoch': 0.91}
+{'loss': 1.4202, 'grad_norm': 0.09962400794029236, 'learning_rate': 9.530242992639855e-06, 'epoch': 0.91}
+{'loss': 1.4424, 'grad_norm': 0.09625781327486038, 'learning_rate': 9.473623748559202e-06, 'epoch': 0.91}
+{'loss': 1.443, 'grad_norm': 0.10235467553138733, 'learning_rate': 9.417169945227732e-06, 'epoch': 0.91}
+{'loss': 1.464, 'grad_norm': 0.1100054457783699, 'learning_rate': 9.360881621475997e-06, 'epoch': 0.92}
+{'loss': 1.4566, 'grad_norm': 0.09320294857025146, 'learning_rate': 9.30475881602058e-06, 'epoch': 0.92}
+{'loss': 1.4512, 'grad_norm': 0.10013432055711746, 'learning_rate': 9.248801567464383e-06, 'epoch': 0.92}
+{'loss': 1.4518, 'grad_norm': 0.09570620954036713, 'learning_rate': 9.193009914296363e-06, 'epoch': 0.92}
+{'loss': 1.4393, 'grad_norm': 0.09379120916128159, 'learning_rate': 9.137383894891576e-06, 'epoch': 0.92}
+{'loss': 1.4447, 'grad_norm': 0.09591279178857803, 'learning_rate': 9.08192354751114e-06, 'epoch': 0.92}
+{'loss': 1.4426, 'grad_norm': 0.09371606260538101, 'learning_rate': 9.026628910302176e-06, 'epoch': 0.92}
+{'loss': 1.452, 'grad_norm': 0.09270478785037994, 'learning_rate': 8.971500021297958e-06, 'epoch': 0.92}
+{'loss': 1.4469, 'grad_norm': 0.10153482109308243, 'learning_rate': 8.91653691841765e-06, 'epoch': 0.92}
+{'loss': 1.4431, 'grad_norm': 0.09480572491884232, 'learning_rate': 8.861739639466377e-06, 'epoch': 0.92}
+{'loss': 1.4258, 'grad_norm': 0.09519478678703308, 'learning_rate': 8.807108222135235e-06, 'epoch': 0.92}
+{'loss': 1.451, 'grad_norm': 0.09971673786640167, 'learning_rate': 8.752642704001307e-06, 'epoch': 0.92}
+{'loss': 1.444, 'grad_norm': 0.09515254199504852, 'learning_rate': 8.69834312252743e-06, 'epoch': 0.92}
+{'loss': 1.4164, 'grad_norm': 0.09352665394544601, 'learning_rate': 8.644209515062396e-06, 'epoch': 0.92}
+{'loss': 1.4466, 'grad_norm': 0.09016077220439911, 'learning_rate': 8.59024191884078e-06, 'epoch': 0.92}
+{'loss': 1.4517, 'grad_norm': 0.09423187375068665, 'learning_rate': 8.536440370983e-06, 'epoch': 0.92}
+{'loss': 1.4598, 'grad_norm': 0.09989574551582336, 'learning_rate': 8.482804908495317e-06, 'epoch': 0.92}
+{'loss': 1.4557, 'grad_norm': 0.0958271324634552, 'learning_rate': 8.429335568269635e-06, 'epoch': 0.92}
+{'loss': 1.455, 'grad_norm': 0.0924731194972992, 'learning_rate': 8.376032387083704e-06, 'epoch': 0.92}
+{'loss': 1.4242, 'grad_norm': 0.09553860872983932, 'learning_rate': 8.322895401600944e-06, 'epoch': 0.92}
+{'loss': 1.4501, 'grad_norm': 0.09352708607912064, 'learning_rate': 8.26992464837037e-06, 'epoch': 0.92}
+{'loss': 1.4431, 'grad_norm': 0.09682998061180115, 'learning_rate': 8.217120163826835e-06, 'epoch': 0.92}
+{'loss': 1.4381, 'grad_norm': 0.10088865458965302, 'learning_rate': 8.164481984290705e-06, 'epoch': 0.92}
+{'loss': 1.4352, 'grad_norm': 0.09479470551013947, 'learning_rate': 8.11201014596799e-06, 'epoch': 0.92}
+{'loss': 1.4413, 'grad_norm': 0.09709518402814865, 'learning_rate': 8.059704684950265e-06, 'epoch': 0.92}
+{'loss': 1.4502, 'grad_norm': 0.0885554626584053, 'learning_rate': 8.007565637214692e-06, 'epoch': 0.92}
+{'loss': 1.449, 'grad_norm': 0.09147919714450836, 'learning_rate': 7.955593038623975e-06, 'epoch': 0.92}
+{'loss': 1.4228, 'grad_norm': 0.099899522960186, 'learning_rate': 7.903786924926326e-06, 'epoch': 0.92}
+{'loss': 1.4536, 'grad_norm': 0.09852571040391922, 'learning_rate': 7.852147331755432e-06, 'epoch': 0.92}
+{'loss': 1.4457, 'grad_norm': 0.09702067822217941, 'learning_rate': 7.800674294630411e-06, 'epoch': 0.92}
+{'loss': 1.4668, 'grad_norm': 0.10014724731445312, 'learning_rate': 7.749367848955885e-06, 'epoch': 0.92}
+{'loss': 1.4353, 'grad_norm': 0.09270185232162476, 'learning_rate': 7.698228030021848e-06, 'epoch': 0.92}
+{'loss': 1.4532, 'grad_norm': 0.10391717404127121, 'learning_rate': 7.64725487300369e-06, 'epoch': 0.92}
+{'loss': 1.4665, 'grad_norm': 0.0969361960887909, 'learning_rate': 7.596448412962198e-06, 'epoch': 0.92}
+{'loss': 1.4593, 'grad_norm': 0.09437870234251022, 'learning_rate': 7.545808684843392e-06, 'epoch': 0.92}
+{'loss': 1.4339, 'grad_norm': 0.09343408793210983, 'learning_rate': 7.4953357234787965e-06, 'epoch': 0.92}
+{'loss': 1.4249, 'grad_norm': 0.09278490394353867, 'learning_rate': 7.445029563585088e-06, 'epoch': 0.92}
+{'loss': 1.4511, 'grad_norm': 0.09711338579654694, 'learning_rate': 7.394890239764196e-06, 'epoch': 0.92}
+{'loss': 1.4564, 'grad_norm': 0.08991511166095734, 'learning_rate': 7.3449177865033965e-06, 'epoch': 0.92}
+{'loss': 1.4343, 'grad_norm': 0.09401014447212219, 'learning_rate': 7.295112238175084e-06, 'epoch': 0.93}
+{'loss': 1.4285, 'grad_norm': 0.09329938143491745, 'learning_rate': 7.245473629036992e-06, 'epoch': 0.93}
+{'loss': 1.4576, 'grad_norm': 0.10068660974502563, 'learning_rate': 7.196001993231837e-06, 'epoch': 0.93}
+{'loss': 1.4415, 'grad_norm': 0.08577170222997665, 'learning_rate': 7.146697364787652e-06, 'epoch': 0.93}
+{'loss': 1.4347, 'grad_norm': 0.08753438293933868, 'learning_rate': 7.097559777617557e-06, 'epoch': 0.93}
+{'loss': 1.4345, 'grad_norm': 0.09635186195373535, 'learning_rate': 7.048589265519684e-06, 'epoch': 0.93}
+{'loss': 1.4501, 'grad_norm': 0.09846682101488113, 'learning_rate': 6.999785862177366e-06, 'epoch': 0.93}
+{'loss': 1.4715, 'grad_norm': 0.08977938443422318, 'learning_rate': 6.951149601158946e-06, 'epoch': 0.93}
+{'loss': 1.4498, 'grad_norm': 0.08734956383705139, 'learning_rate': 6.902680515917775e-06, 'epoch': 0.93}
+{'loss': 1.4769, 'grad_norm': 0.09413961321115494, 'learning_rate': 6.854378639792241e-06, 'epoch': 0.93}
+{'loss': 1.4345, 'grad_norm': 0.09123160690069199, 'learning_rate': 6.80624400600574e-06, 'epoch': 0.93}
+{'loss': 1.4254, 'grad_norm': 0.08542664349079132, 'learning_rate': 6.758276647666622e-06, 'epoch': 0.93}
+{'loss': 1.4647, 'grad_norm': 0.0897379070520401, 'learning_rate': 6.7104765977681616e-06, 'epoch': 0.93}
+{'loss': 1.4446, 'grad_norm': 0.10000687092542648, 'learning_rate': 6.662843889188558e-06, 'epoch': 0.93}
+{'loss': 1.4348, 'grad_norm': 0.0896216332912445, 'learning_rate': 6.61537855469091e-06, 'epoch': 0.93}
+{'loss': 1.4757, 'grad_norm': 0.09041547775268555, 'learning_rate': 6.568080626923239e-06, 'epoch': 0.93}
+{'loss': 1.4535, 'grad_norm': 0.08927629142999649, 'learning_rate': 6.520950138418358e-06, 'epoch': 0.93}
+{'loss': 1.4385, 'grad_norm': 0.09749950468540192, 'learning_rate': 6.473987121593888e-06, 'epoch': 0.93}
+{'loss': 1.4363, 'grad_norm': 0.0921645388007164, 'learning_rate': 6.4271916087523805e-06, 'epoch': 0.93}
+{'loss': 1.4406, 'grad_norm': 0.08763832598924637, 'learning_rate': 6.380563632081005e-06, 'epoch': 0.93}
+{'loss': 1.4503, 'grad_norm': 0.0878734216094017, 'learning_rate': 6.334103223651883e-06, 'epoch': 0.93}
+{'loss': 1.4411, 'grad_norm': 0.09001904726028442, 'learning_rate': 6.287810415421702e-06, 'epoch': 0.93}
+{'loss': 1.4521, 'grad_norm': 0.0875358060002327, 'learning_rate': 6.241685239231992e-06, 'epoch': 0.93}
+{'loss': 1.4668, 'grad_norm': 0.09725674986839294, 'learning_rate': 6.195727726808903e-06, 'epoch': 0.93}
+{'loss': 1.4481, 'grad_norm': 0.09137547761201859, 'learning_rate': 6.149937909763314e-06, 'epoch': 0.93}
+{'loss': 1.4628, 'grad_norm': 0.10318507999181747, 'learning_rate': 6.1043158195907e-06, 'epoch': 0.93}
+{'loss': 1.4548, 'grad_norm': 0.08680664002895355, 'learning_rate': 6.058861487671264e-06, 'epoch': 0.93}
+{'loss': 1.4483, 'grad_norm': 0.090084508061409, 'learning_rate': 6.013574945269746e-06, 'epoch': 0.93}
+{'loss': 1.4559, 'grad_norm': 0.09785283356904984, 'learning_rate': 5.968456223535451e-06, 'epoch': 0.93}
+{'loss': 1.4424, 'grad_norm': 0.08973921835422516, 'learning_rate': 5.923505353502362e-06, 'epoch': 0.93}
+{'loss': 1.4495, 'grad_norm': 0.08997347950935364, 'learning_rate': 5.878722366088912e-06, 'epoch': 0.93}
+{'loss': 1.4513, 'grad_norm': 0.09510787576436996, 'learning_rate': 5.834107292098073e-06, 'epoch': 0.93}
+{'loss': 1.454, 'grad_norm': 0.10055167973041534, 'learning_rate': 5.789660162217325e-06, 'epoch': 0.93}
+{'loss': 1.4472, 'grad_norm': 0.09115331619977951, 'learning_rate': 5.745381007018657e-06, 'epoch': 0.93}
+{'loss': 1.4369, 'grad_norm': 0.09100549668073654, 'learning_rate': 5.7012698569585405e-06, 'epoch': 0.93}
+{'loss': 1.4425, 'grad_norm': 0.09744948148727417, 'learning_rate': 5.657326742377844e-06, 'epoch': 0.93}
+{'loss': 1.4412, 'grad_norm': 0.09007241576910019, 'learning_rate': 5.613551693501834e-06, 'epoch': 0.93}
+{'loss': 1.4648, 'grad_norm': 0.0985693484544754, 'learning_rate': 5.56994474044023e-06, 'epoch': 0.93}
+{'loss': 1.4514, 'grad_norm': 0.09007429331541061, 'learning_rate': 5.526505913187096e-06, 'epoch': 0.93}
+{'loss': 1.4406, 'grad_norm': 0.08630400151014328, 'learning_rate': 5.483235241620893e-06, 'epoch': 0.94}
+{'loss': 1.4449, 'grad_norm': 0.10389318317174911, 'learning_rate': 5.440132755504368e-06, 'epoch': 0.94}
+{'loss': 1.4749, 'grad_norm': 0.09625077247619629, 'learning_rate': 5.397198484484667e-06, 'epoch': 0.94}
+{'loss': 1.4637, 'grad_norm': 0.099021777510643, 'learning_rate': 5.3544324580931115e-06, 'epoch': 0.94}
+{'loss': 1.46, 'grad_norm': 0.09351088106632233, 'learning_rate': 5.311834705745394e-06, 'epoch': 0.94}
+{'loss': 1.4599, 'grad_norm': 0.09037306159734726, 'learning_rate': 5.269405256741467e-06, 'epoch': 0.94}
+{'loss': 1.4369, 'grad_norm': 0.09997665137052536, 'learning_rate': 5.227144140265427e-06, 'epoch': 0.94}
+{'loss': 1.4402, 'grad_norm': 0.08781005442142487, 'learning_rate': 5.185051385385719e-06, 'epoch': 0.94}
+{'loss': 1.4371, 'grad_norm': 0.10437995940446854, 'learning_rate': 5.143127021054822e-06, 'epoch': 0.94}
+{'loss': 1.439, 'grad_norm': 0.09425810724496841, 'learning_rate': 5.101371076109557e-06, 'epoch': 0.94}
+{'loss': 1.4436, 'grad_norm': 0.10193797200918198, 'learning_rate': 5.059783579270838e-06, 'epoch': 0.94}
+{'loss': 1.4454, 'grad_norm': 0.09346910566091537, 'learning_rate': 5.018364559143674e-06, 'epoch': 0.94}
+{'loss': 1.4451, 'grad_norm': 0.09389268606901169, 'learning_rate': 4.97711404421719e-06, 'epoch': 0.94}
+{'loss': 1.4618, 'grad_norm': 0.09299971163272858, 'learning_rate': 4.936032062864693e-06, 'epoch': 0.94}
+{'loss': 1.4391, 'grad_norm': 0.09100341796875, 'learning_rate': 4.895118643343494e-06, 'epoch': 0.94}
+{'loss': 1.4501, 'grad_norm': 0.08900725841522217, 'learning_rate': 4.854373813794999e-06, 'epoch': 0.94}
+{'loss': 1.4532, 'grad_norm': 0.08975965529680252, 'learning_rate': 4.813797602244596e-06, 'epoch': 0.94}
+{'loss': 1.4454, 'grad_norm': 0.0943567082285881, 'learning_rate': 4.773390036601794e-06, 'epoch': 0.94}
+{'loss': 1.4358, 'grad_norm': 0.10268048942089081, 'learning_rate': 4.73315114465997e-06, 'epoch': 0.94}
+{'loss': 1.4297, 'grad_norm': 0.09889759123325348, 'learning_rate': 4.693080954096624e-06, 'epoch': 0.94}
+{'loss': 1.4411, 'grad_norm': 0.09214980900287628, 'learning_rate': 4.653179492473153e-06, 'epoch': 0.94}
+{'loss': 1.4496, 'grad_norm': 0.08615866303443909, 'learning_rate': 4.613446787234854e-06, 'epoch': 0.94}
+{'loss': 1.4475, 'grad_norm': 0.10111180692911148, 'learning_rate': 4.573882865711004e-06, 'epoch': 0.94}
+{'loss': 1.4594, 'grad_norm': 0.09607112407684326, 'learning_rate': 4.534487755114752e-06, 'epoch': 0.94}
+{'loss': 1.4224, 'grad_norm': 0.09216378629207611, 'learning_rate': 4.495261482543172e-06, 'epoch': 0.94}
+{'loss': 1.4483, 'grad_norm': 0.09093446284532547, 'learning_rate': 4.45620407497721e-06, 'epoch': 0.94}
+{'loss': 1.4419, 'grad_norm': 0.09252049028873444, 'learning_rate': 4.417315559281598e-06, 'epoch': 0.94}
+{'loss': 1.4349, 'grad_norm': 0.09731613844633102, 'learning_rate': 4.378595962204968e-06, 'epoch': 0.94}
+{'loss': 1.4477, 'grad_norm': 0.10341393947601318, 'learning_rate': 4.340045310379737e-06, 'epoch': 0.94}
+{'loss': 1.4417, 'grad_norm': 0.0864669680595398, 'learning_rate': 4.301663630322139e-06, 'epoch': 0.94}
+{'loss': 1.4173, 'grad_norm': 0.09633449465036392, 'learning_rate': 4.2634509484321125e-06, 'epoch': 0.94}
+{'loss': 1.4549, 'grad_norm': 0.09540198743343353, 'learning_rate': 4.225407290993466e-06, 'epoch': 0.94}
+{'loss': 1.4321, 'grad_norm': 0.09173199534416199, 'learning_rate': 4.187532684173601e-06, 'epoch': 0.94}
+{'loss': 1.4231, 'grad_norm': 0.09288803488016129, 'learning_rate': 4.1498271540238165e-06, 'epoch': 0.94}
+{'loss': 1.4402, 'grad_norm': 0.10299227386713028, 'learning_rate': 4.1122907264789785e-06, 'epoch': 0.94}
+{'loss': 1.4636, 'grad_norm': 0.09111200273036957, 'learning_rate': 4.074923427357741e-06, 'epoch': 0.94}
+{'loss': 1.4402, 'grad_norm': 0.09150576591491699, 'learning_rate': 4.0377252823622924e-06, 'epoch': 0.94}
+{'loss': 1.4451, 'grad_norm': 0.08686414361000061, 'learning_rate': 4.000696317078611e-06, 'epoch': 0.94}
+{'loss': 1.4808, 'grad_norm': 0.09040849655866623, 'learning_rate': 3.963836556976241e-06, 'epoch': 0.94}
+{'loss': 1.4406, 'grad_norm': 0.09288457036018372, 'learning_rate': 3.9271460274083735e-06, 'epoch': 0.95}
+{'loss': 1.4342, 'grad_norm': 0.09001494944095612, 'learning_rate': 3.890624753611738e-06, 'epoch': 0.95}
+{'loss': 1.4475, 'grad_norm': 0.09290183335542679, 'learning_rate': 3.854272760706712e-06, 'epoch': 0.95}
+{'loss': 1.4499, 'grad_norm': 0.09923123568296432, 'learning_rate': 3.818090073697183e-06, 'epoch': 0.95}
+{'loss': 1.4686, 'grad_norm': 0.09514959901571274, 'learning_rate': 3.782076717470634e-06, 'epoch': 0.95}
+{'loss': 1.4625, 'grad_norm': 0.08963721990585327, 'learning_rate': 3.7462327167980815e-06, 'epoch': 0.95}
+{'loss': 1.4733, 'grad_norm': 0.08973239362239838, 'learning_rate': 3.7105580963339713e-06, 'epoch': 0.95}
+{'loss': 1.4459, 'grad_norm': 0.09652476012706757, 'learning_rate': 3.6750528806163142e-06, 'epoch': 0.95}
+{'loss': 1.4385, 'grad_norm': 0.09149500727653503, 'learning_rate': 3.63971709406663e-06, 'epoch': 0.95}
+{'loss': 1.4331, 'grad_norm': 0.09442339092493057, 'learning_rate': 3.6045507609898388e-06, 'epoch': 0.95}
+{'loss': 1.4262, 'grad_norm': 0.08619869500398636, 'learning_rate': 3.569553905574313e-06, 'epoch': 0.95}
+{'loss': 1.4629, 'grad_norm': 0.09363903850317001, 'learning_rate': 3.5347265518918538e-06, 'epoch': 0.95}
+{'loss': 1.429, 'grad_norm': 0.09995165467262268, 'learning_rate': 3.5000687238977146e-06, 'epoch': 0.95}
+{'loss': 1.4735, 'grad_norm': 0.09059619158506393, 'learning_rate': 3.465580445430522e-06, 'epoch': 0.95}
+{'loss': 1.4541, 'grad_norm': 0.0961364135146141, 'learning_rate': 3.431261740212244e-06, 'epoch': 0.95}
+{'loss': 1.4533, 'grad_norm': 0.09136059880256653, 'learning_rate': 3.3971126318482758e-06, 'epoch': 0.95}
+{'loss': 1.4408, 'grad_norm': 0.09450455754995346, 'learning_rate': 3.363133143827274e-06, 'epoch': 0.95}
+{'loss': 1.4797, 'grad_norm': 0.09067641198635101, 'learning_rate': 3.3293232995213195e-06, 'epoch': 0.95}
+{'loss': 1.4334, 'grad_norm': 0.08918772637844086, 'learning_rate': 3.295683122185783e-06, 'epoch': 0.95}
+{'loss': 1.4337, 'grad_norm': 0.09760726988315582, 'learning_rate': 3.2622126349592663e-06, 'epoch': 0.95}
+{'loss': 1.4613, 'grad_norm': 0.09751642495393753, 'learning_rate': 3.2289118608637703e-06, 'epoch': 0.95}
+{'loss': 1.4475, 'grad_norm': 0.09633831679821014, 'learning_rate': 3.195780822804417e-06, 'epoch': 0.95}
+{'loss': 1.4574, 'grad_norm': 0.09896230697631836, 'learning_rate': 3.1628195435697007e-06, 'epoch': 0.95}
+{'loss': 1.4459, 'grad_norm': 0.09548389911651611, 'learning_rate': 3.130028045831318e-06, 'epoch': 0.95}
+{'loss': 1.452, 'grad_norm': 0.089637391269207, 'learning_rate': 3.097406352144172e-06, 'epoch': 0.95}
+{'loss': 1.4415, 'grad_norm': 0.08780422061681747, 'learning_rate': 3.0649544849463416e-06, 'epoch': 0.95}
+{'loss': 1.4402, 'grad_norm': 0.08999074250459671, 'learning_rate': 3.0326724665591663e-06, 'epoch': 0.95}
+{'loss': 1.428, 'grad_norm': 0.0903078243136406, 'learning_rate': 3.000560319187079e-06, 'epoch': 0.95}
+{'loss': 1.4508, 'grad_norm': 0.09541782736778259, 'learning_rate': 2.9686180649177718e-06, 'epoch': 0.95}
+{'loss': 1.4482, 'grad_norm': 0.09105847030878067, 'learning_rate': 2.9368457257219484e-06, 'epoch': 0.95}
+{'loss': 1.4407, 'grad_norm': 0.09714845567941666, 'learning_rate': 2.9052433234535437e-06, 'epoch': 0.95}
+{'loss': 1.4529, 'grad_norm': 0.09113792330026627, 'learning_rate': 2.873810879849559e-06, 'epoch': 0.95}
+{'loss': 1.4417, 'grad_norm': 0.09429057687520981, 'learning_rate': 2.842548416530116e-06, 'epoch': 0.95}
+{'loss': 1.436, 'grad_norm': 0.09410882741212845, 'learning_rate': 2.811455954998432e-06, 'epoch': 0.95}
+{'loss': 1.476, 'grad_norm': 0.09531829506158829, 'learning_rate': 2.780533516640732e-06, 'epoch': 0.95}
+{'loss': 1.4268, 'grad_norm': 0.09355191886425018, 'learning_rate': 2.7497811227263357e-06, 'epoch': 0.95}
+{'loss': 1.4592, 'grad_norm': 0.0917837992310524, 'learning_rate': 2.7191987944076014e-06, 'epoch': 0.95}
+{'loss': 1.4891, 'grad_norm': 0.09114165604114532, 'learning_rate': 2.688786552719896e-06, 'epoch': 0.95}
+{'loss': 1.454, 'grad_norm': 0.09859443455934525, 'learning_rate': 2.658544418581654e-06, 'epoch': 0.95}
+{'loss': 1.4328, 'grad_norm': 0.0865432620048523, 'learning_rate': 2.6284724127942084e-06, 'epoch': 0.96}
+{'loss': 1.4411, 'grad_norm': 0.09498406946659088, 'learning_rate': 2.598570556041957e-06, 'epoch': 0.96}
+{'loss': 1.4261, 'grad_norm': 0.09044216573238373, 'learning_rate': 2.5688388688921983e-06, 'epoch': 0.96}
+{'loss': 1.4217, 'grad_norm': 0.10733945667743683, 'learning_rate': 2.53927737179524e-06, 'epoch': 0.96}
+{'loss': 1.4517, 'grad_norm': 0.0868377536535263, 'learning_rate': 2.5098860850842896e-06, 'epoch': 0.96}
+{'loss': 1.4197, 'grad_norm': 0.09408735483884811, 'learning_rate': 2.480665028975537e-06, 'epoch': 0.96}
+{'loss': 1.4556, 'grad_norm': 0.09351073950529099, 'learning_rate': 2.4516142235679606e-06, 'epoch': 0.96}
+{'loss': 1.4443, 'grad_norm': 0.09093376249074936, 'learning_rate': 2.4227336888435757e-06, 'epoch': 0.96}
+{'loss': 1.4584, 'grad_norm': 0.08560550957918167, 'learning_rate': 2.394023444667215e-06, 'epoch': 0.96}
+{'loss': 1.463, 'grad_norm': 0.10229618102312088, 'learning_rate': 2.3654835107865257e-06, 'epoch': 0.96}
+{'loss': 1.4738, 'grad_norm': 0.08685692399740219, 'learning_rate': 2.3371139068321665e-06, 'epoch': 0.96}
+{'loss': 1.4442, 'grad_norm': 0.09232421219348907, 'learning_rate': 2.3089146523174453e-06, 'epoch': 0.96}
+{'loss': 1.4574, 'grad_norm': 0.09079498797655106, 'learning_rate': 2.2808857666386797e-06, 'epoch': 0.96}
+{'loss': 1.4467, 'grad_norm': 0.09519825130701065, 'learning_rate': 2.253027269074892e-06, 'epoch': 0.96}
+{'loss': 1.4523, 'grad_norm': 0.08812207728624344, 'learning_rate': 2.225339178787894e-06, 'epoch': 0.96}
+{'loss': 1.4459, 'grad_norm': 0.09258654713630676, 'learning_rate': 2.197821514822368e-06, 'epoch': 0.96}
+{'loss': 1.4507, 'grad_norm': 0.10102277994155884, 'learning_rate': 2.170474296105701e-06, 'epoch': 0.96}
+{'loss': 1.4503, 'grad_norm': 0.09737585484981537, 'learning_rate': 2.143297541448097e-06, 'epoch': 0.96}
+{'loss': 1.4446, 'grad_norm': 0.09313704818487167, 'learning_rate': 2.116291269542492e-06, 'epoch': 0.96}
+{'loss': 1.4524, 'grad_norm': 0.08805675059556961, 'learning_rate': 2.0894554989645543e-06, 'epoch': 0.96}
+{'loss': 1.4611, 'grad_norm': 0.09102260321378708, 'learning_rate': 2.06279024817263e-06, 'epoch': 0.96}
+{'loss': 1.4681, 'grad_norm': 0.09785693883895874, 'learning_rate': 2.0362955355078537e-06, 'epoch': 0.96}
+{'loss': 1.4558, 'grad_norm': 0.0971185564994812, 'learning_rate': 2.0099713791940365e-06, 'epoch': 0.96}
+{'loss': 1.4364, 'grad_norm': 0.09186169505119324, 'learning_rate': 1.983817797337667e-06, 'epoch': 0.96}
+{'loss': 1.435, 'grad_norm': 0.09108778089284897, 'learning_rate': 1.957834807927883e-06, 'epoch': 0.96}
+{'loss': 1.4359, 'grad_norm': 0.09272371232509613, 'learning_rate': 1.9320224288365275e-06, 'epoch': 0.96}
+{'loss': 1.4449, 'grad_norm': 0.08851580321788788, 'learning_rate': 1.9063806778180648e-06, 'epoch': 0.96}
+{'loss': 1.4434, 'grad_norm': 0.10388953238725662, 'learning_rate': 1.8809095725096092e-06, 'epoch': 0.96}
+{'loss': 1.448, 'grad_norm': 0.09042772650718689, 'learning_rate': 1.8556091304309241e-06, 'epoch': 0.96}
+{'loss': 1.4345, 'grad_norm': 0.0974973738193512, 'learning_rate': 1.8304793689843391e-06, 'epoch': 0.96}
+{'loss': 1.4631, 'grad_norm': 0.09584145992994308, 'learning_rate': 1.8055203054547775e-06, 'epoch': 0.96}
+{'loss': 1.4632, 'grad_norm': 0.10739406198263168, 'learning_rate': 1.7807319570098124e-06, 'epoch': 0.96}
+{'loss': 1.4561, 'grad_norm': 0.09144755452871323, 'learning_rate': 1.756114340699555e-06, 'epoch': 0.96}
+{'loss': 1.4659, 'grad_norm': 0.09713705629110336, 'learning_rate': 1.7316674734566828e-06, 'epoch': 0.96}
+{'loss': 1.4402, 'grad_norm': 0.09058956056833267, 'learning_rate': 1.7073913720964673e-06, 'epoch': 0.96}
+{'loss': 1.456, 'grad_norm': 0.0941355973482132, 'learning_rate': 1.6832860533166073e-06, 'epoch': 0.96}
+{'loss': 1.4451, 'grad_norm': 0.09809372574090958, 'learning_rate': 1.6593515336975062e-06, 'epoch': 0.96}
+{'loss': 1.4557, 'grad_norm': 0.08619673550128937, 'learning_rate': 1.63558782970194e-06, 'epoch': 0.96}
+{'loss': 1.4461, 'grad_norm': 0.09043475985527039, 'learning_rate': 1.6119949576752502e-06, 'epoch': 0.96}
+{'loss': 1.4582, 'grad_norm': 0.09069765359163284, 'learning_rate': 1.5885729338452615e-06, 'epoch': 0.97}
+{'loss': 1.4257, 'grad_norm': 0.09216871112585068, 'learning_rate': 1.565321774322337e-06, 'epoch': 0.97}
+{'loss': 1.4602, 'grad_norm': 0.09266545623540878, 'learning_rate': 1.5422414950992391e-06, 'epoch': 0.97}
+{'loss': 1.4499, 'grad_norm': 0.08890441805124283, 'learning_rate': 1.5193321120512415e-06, 'epoch': 0.97}
+{'loss': 1.4259, 'grad_norm': 0.09063827246427536, 'learning_rate': 1.4965936409360447e-06, 'epoch': 0.97}
+{'loss': 1.4466, 'grad_norm': 0.10002514719963074, 'learning_rate': 1.4740260973938325e-06, 'epoch': 0.97}
+{'loss': 1.4478, 'grad_norm': 0.09123001992702484, 'learning_rate': 1.45162949694716e-06, 'epoch': 0.97}
+{'loss': 1.4522, 'grad_norm': 0.10274353623390198, 'learning_rate': 1.429403855001038e-06, 'epoch': 0.97}
+{'loss': 1.4192, 'grad_norm': 0.10024885833263397, 'learning_rate': 1.4073491868428767e-06, 'epoch': 0.97}
+{'loss': 1.4815, 'grad_norm': 0.09438592195510864, 'learning_rate': 1.3854655076425137e-06, 'epoch': 0.97}
+{'loss': 1.4269, 'grad_norm': 0.08455765247344971, 'learning_rate': 1.363752832452131e-06, 'epoch': 0.97}
+{'loss': 1.4616, 'grad_norm': 0.09724142402410507, 'learning_rate': 1.3422111762063372e-06, 'epoch': 0.97}
+{'loss': 1.4383, 'grad_norm': 0.08962099999189377, 'learning_rate': 1.3208405537220858e-06, 'epoch': 0.97}
+{'loss': 1.4475, 'grad_norm': 0.09476092457771301, 'learning_rate': 1.2996409796986464e-06, 'epoch': 0.97}
+{'loss': 1.4399, 'grad_norm': 0.08850815147161484, 'learning_rate': 1.2786124687177158e-06, 'epoch': 0.97}
+{'loss': 1.4491, 'grad_norm': 0.09333515912294388, 'learning_rate': 1.2577550352432798e-06, 'epoch': 0.97}
+{'loss': 1.454, 'grad_norm': 0.09018722176551819, 'learning_rate': 1.237068693621668e-06, 'epoch': 0.97}
+{'loss': 1.4416, 'grad_norm': 0.09331085532903671, 'learning_rate': 1.2165534580814709e-06, 'epoch': 0.97}
+{'loss': 1.4477, 'grad_norm': 0.09634635597467422, 'learning_rate': 1.196209342733734e-06, 'epoch': 0.97}
+{'loss': 1.4511, 'grad_norm': 0.0960443764925003, 'learning_rate': 1.176036361571653e-06, 'epoch': 0.97}
+{'loss': 1.4297, 'grad_norm': 0.09350533038377762, 'learning_rate': 1.1560345284707397e-06, 'epoch': 0.97}
+{'loss': 1.4604, 'grad_norm': 0.09516371041536331, 'learning_rate': 1.1362038571888777e-06, 'epoch': 0.97}
+{'loss': 1.4637, 'grad_norm': 0.08673176169395447, 'learning_rate': 1.1165443613661009e-06, 'epoch': 0.97}
+{'loss': 1.4477, 'grad_norm': 0.08668055385351181, 'learning_rate': 1.0970560545247866e-06, 'epoch': 0.97}
+{'loss': 1.4469, 'grad_norm': 0.09827971458435059, 'learning_rate': 1.0777389500695178e-06, 'epoch': 0.97}
+{'loss': 1.4405, 'grad_norm': 0.08229496330022812, 'learning_rate': 1.0585930612871664e-06, 'epoch': 0.97}
+{'loss': 1.4422, 'grad_norm': 0.09461522102355957, 'learning_rate': 1.0396184013467813e-06, 'epoch': 0.97}
+{'loss': 1.4549, 'grad_norm': 0.09053266793489456, 'learning_rate': 1.0208149832997004e-06, 'epoch': 0.97}
+{'loss': 1.4402, 'grad_norm': 0.08654673397541046, 'learning_rate': 1.0021828200793836e-06, 'epoch': 0.97}
+{'loss': 1.4484, 'grad_norm': 0.08818908780813217, 'learning_rate': 9.837219245015794e-07, 'epoch': 0.97}
+{'loss': 1.4167, 'grad_norm': 0.08581265062093735, 'learning_rate': 9.654323092642136e-07, 'epoch': 0.97}
+{'loss': 1.4611, 'grad_norm': 0.08913865685462952, 'learning_rate': 9.473139869473901e-07, 'epoch': 0.97}
+{'loss': 1.4505, 'grad_norm': 0.09498484432697296, 'learning_rate': 9.2936697001339e-07, 'epoch': 0.97}
+{'loss': 1.4658, 'grad_norm': 0.09948990494012833, 'learning_rate': 9.11591270806672e-07, 'epoch': 0.97}
+{'loss': 1.4412, 'grad_norm': 0.09294983744621277, 'learning_rate': 8.939869015538727e-07, 'epoch': 0.97}
+{'loss': 1.4359, 'grad_norm': 0.094046950340271, 'learning_rate': 8.765538743637502e-07, 'epoch': 0.97}
+{'loss': 1.4535, 'grad_norm': 0.09252458810806274, 'learning_rate': 8.592922012272408e-07, 'epoch': 0.97}
+{'loss': 1.453, 'grad_norm': 0.09567445516586304, 'learning_rate': 8.422018940174026e-07, 'epoch': 0.97}
+{'loss': 1.4661, 'grad_norm': 0.08655742555856705, 'learning_rate': 8.252829644894155e-07, 'epoch': 0.97}
+{'loss': 1.4425, 'grad_norm': 0.09284421056509018, 'learning_rate': 8.08535424280582e-07, 'epoch': 0.98}
+{'loss': 1.4566, 'grad_norm': 0.0892651155591011, 'learning_rate': 7.919592849103263e-07, 'epoch': 0.98}
+{'loss': 1.4634, 'grad_norm': 0.09035150706768036, 'learning_rate': 7.755545577802225e-07, 'epoch': 0.98}
+{'loss': 1.4597, 'grad_norm': 0.09254467487335205, 'learning_rate': 7.593212541738837e-07, 'epoch': 0.98}
+{'loss': 1.4493, 'grad_norm': 0.09656631201505661, 'learning_rate': 7.432593852569892e-07, 'epoch': 0.98}
+{'loss': 1.4608, 'grad_norm': 0.09813018143177032, 'learning_rate': 7.273689620773683e-07, 'epoch': 0.98}
+{'loss': 1.419, 'grad_norm': 0.09539676457643509, 'learning_rate': 7.11649995564917e-07, 'epoch': 0.98}
+{'loss': 1.4501, 'grad_norm': 0.09633906930685043, 'learning_rate': 6.961024965315421e-07, 'epoch': 0.98}
+{'loss': 1.455, 'grad_norm': 0.09726249426603317, 'learning_rate': 6.80726475671245e-07, 'epoch': 0.98}
+{'loss': 1.4432, 'grad_norm': 0.09965277463197708, 'learning_rate': 6.655219435601212e-07, 'epoch': 0.98}
+{'loss': 1.4724, 'grad_norm': 0.08735624700784683, 'learning_rate': 6.504889106562495e-07, 'epoch': 0.98}
+{'loss': 1.4232, 'grad_norm': 0.09946376085281372, 'learning_rate': 6.356273872997754e-07, 'epoch': 0.98}
+{'loss': 1.4334, 'grad_norm': 0.09222989529371262, 'learning_rate': 6.209373837128551e-07, 'epoch': 0.98}
+{'loss': 1.4455, 'grad_norm': 0.08954362571239471, 'learning_rate': 6.064189099997119e-07, 'epoch': 0.98}
+{'loss': 1.452, 'grad_norm': 0.09527365118265152, 'learning_rate': 5.920719761465243e-07, 'epoch': 0.98}
+{'loss': 1.4744, 'grad_norm': 0.0898638367652893, 'learning_rate': 5.778965920215096e-07, 'epoch': 0.98}
+{'loss': 1.4538, 'grad_norm': 0.08855422586202621, 'learning_rate': 5.638927673749239e-07, 'epoch': 0.98}
+{'loss': 1.4501, 'grad_norm': 0.099112868309021, 'learning_rate': 5.500605118389512e-07, 'epoch': 0.98}
+{'loss': 1.4219, 'grad_norm': 0.09211108088493347, 'learning_rate': 5.363998349278421e-07, 'epoch': 0.98}
+{'loss': 1.4459, 'grad_norm': 0.08846940845251083, 'learning_rate': 5.229107460377746e-07, 'epoch': 0.98}
+{'loss': 1.4339, 'grad_norm': 0.0913240909576416, 'learning_rate': 5.095932544469106e-07, 'epoch': 0.98}
+{'loss': 1.476, 'grad_norm': 0.10009253770112991, 'learning_rate': 4.964473693154226e-07, 'epoch': 0.98}
+{'loss': 1.4707, 'grad_norm': 0.08807409554719925, 'learning_rate': 4.834730996853831e-07, 'epoch': 0.98}
+{'loss': 1.4573, 'grad_norm': 0.09471911191940308, 'learning_rate': 4.7067045448084824e-07, 'epoch': 0.98}
+{'loss': 1.4485, 'grad_norm': 0.09235753118991852, 'learning_rate': 4.580394425078571e-07, 'epoch': 0.98}
+{'loss': 1.4569, 'grad_norm': 0.0966961607336998, 'learning_rate': 4.4558007245437684e-07, 'epoch': 0.98}
+{'loss': 1.4387, 'grad_norm': 0.08353223651647568, 'learning_rate': 4.332923528903299e-07, 'epoch': 0.98}
+{'loss': 1.4353, 'grad_norm': 0.0932345986366272, 'learning_rate': 4.2117629226748333e-07, 'epoch': 0.98}
+{'loss': 1.4666, 'grad_norm': 0.09072820097208023, 'learning_rate': 4.092318989196708e-07, 'epoch': 0.98}
+{'loss': 1.4414, 'grad_norm': 0.09210006147623062, 'learning_rate': 3.9745918106254275e-07, 'epoch': 0.98}
+{'loss': 1.4666, 'grad_norm': 0.09160333126783371, 'learning_rate': 3.85858146793705e-07, 'epoch': 0.98}
+{'loss': 1.4542, 'grad_norm': 0.09958295524120331, 'learning_rate': 3.744288040926913e-07, 'epoch': 0.98}
+{'loss': 1.436, 'grad_norm': 0.09625863283872604, 'learning_rate': 3.6317116082087987e-07, 'epoch': 0.98}
+{'loss': 1.4443, 'grad_norm': 0.08758028596639633, 'learning_rate': 3.5208522472165996e-07, 'epoch': 0.98}
+{'loss': 1.429, 'grad_norm': 0.0826396569609642, 'learning_rate': 3.4117100342018204e-07, 'epoch': 0.98}
+{'loss': 1.4525, 'grad_norm': 0.10059857368469238, 'learning_rate': 3.3042850442357995e-07, 'epoch': 0.98}
+{'loss': 1.4664, 'grad_norm': 0.09586042165756226, 'learning_rate': 3.198577351208598e-07, 'epoch': 0.98}
+{'loss': 1.4662, 'grad_norm': 0.09125826507806778, 'learning_rate': 3.0945870278287213e-07, 'epoch': 0.98}
+{'loss': 1.4439, 'grad_norm': 0.08925420790910721, 'learning_rate': 2.992314145623676e-07, 'epoch': 0.98}
+{'loss': 1.4489, 'grad_norm': 0.09170778840780258, 'learning_rate': 2.8917587749394125e-07, 'epoch': 0.99}
+{'loss': 1.4565, 'grad_norm': 0.08948588371276855, 'learning_rate': 2.7929209849408834e-07, 'epoch': 0.99}
+{'loss': 1.4349, 'grad_norm': 0.08792652189731598, 'learning_rate': 2.6958008436114843e-07, 'epoch': 0.99}
+{'loss': 1.441, 'grad_norm': 0.08636446297168732, 'learning_rate': 2.6003984177533356e-07, 'epoch': 0.99}
+{'loss': 1.4439, 'grad_norm': 0.08824099600315094, 'learning_rate': 2.506713772986446e-07, 'epoch': 0.99}
+{'loss': 1.4242, 'grad_norm': 0.08749563992023468, 'learning_rate': 2.414746973750104e-07, 'epoch': 0.99}
+{'loss': 1.4317, 'grad_norm': 0.09297063946723938, 'learning_rate': 2.324498083301485e-07, 'epoch': 0.99}
+{'loss': 1.4565, 'grad_norm': 0.09700243175029755, 'learning_rate': 2.2359671637162127e-07, 'epoch': 0.99}
+{'loss': 1.4718, 'grad_norm': 0.08874567598104477, 'learning_rate': 2.1491542758883542e-07, 'epoch': 0.99}
+{'loss': 1.4521, 'grad_norm': 0.08972815424203873, 'learning_rate': 2.0640594795304224e-07, 'epoch': 0.99}
+{'loss': 1.4327, 'grad_norm': 0.08212533593177795, 'learning_rate': 1.9806828331730976e-07, 'epoch': 0.99}
+{'loss': 1.4497, 'grad_norm': 0.0911245346069336, 'learning_rate': 1.8990243941646723e-07, 'epoch': 0.99}
+{'loss': 1.4391, 'grad_norm': 0.09617512673139572, 'learning_rate': 1.8190842186724398e-07, 'epoch': 0.99}
+{'loss': 1.4539, 'grad_norm': 0.09437323361635208, 'learning_rate': 1.7408623616813058e-07, 'epoch': 0.99}
+{'loss': 1.4427, 'grad_norm': 0.08541364222764969, 'learning_rate': 1.6643588769946206e-07, 'epoch': 0.99}
+{'loss': 1.4548, 'grad_norm': 0.08992745727300644, 'learning_rate': 1.589573817233625e-07, 'epoch': 0.99}
+{'loss': 1.4472, 'grad_norm': 0.09090368449687958, 'learning_rate': 1.5165072338374498e-07, 'epoch': 0.99}
+{'loss': 1.4801, 'grad_norm': 0.09107901901006699, 'learning_rate': 1.4451591770631156e-07, 'epoch': 0.99}
+{'loss': 1.4475, 'grad_norm': 0.08944803476333618, 'learning_rate': 1.3755296959863663e-07, 'epoch': 0.99}
+{'loss': 1.4528, 'grad_norm': 0.09387457370758057, 'learning_rate': 1.3076188384997246e-07, 'epoch': 0.99}
+{'loss': 1.4742, 'grad_norm': 0.09645076841115952, 'learning_rate': 1.2414266513147143e-07, 'epoch': 0.99}
+{'loss': 1.4295, 'grad_norm': 0.09610878676176071, 'learning_rate': 1.1769531799596389e-07, 'epoch': 0.99}
+{'loss': 1.4384, 'grad_norm': 0.09329909086227417, 'learning_rate': 1.1141984687815243e-07, 'epoch': 0.99}
+{'loss': 1.4575, 'grad_norm': 0.09039504826068878, 'learning_rate': 1.0531625609447315e-07, 'epoch': 0.99}
+{'loss': 1.4426, 'grad_norm': 0.09662836790084839, 'learning_rate': 9.938454984312339e-08, 'epoch': 0.99}
+{'loss': 1.4516, 'grad_norm': 0.09128474444150925, 'learning_rate': 9.362473220411727e-08, 'epoch': 0.99}
+{'loss': 1.4417, 'grad_norm': 0.09160467982292175, 'learning_rate': 8.803680713923012e-08, 'epoch': 0.99}
+{'loss': 1.4265, 'grad_norm': 0.08898680657148361, 'learning_rate': 8.26207784919708e-08, 'epoch': 0.99}
+{'loss': 1.4482, 'grad_norm': 0.09216035157442093, 'learning_rate': 7.737664998763716e-08, 'epoch': 0.99}
+{'loss': 1.4379, 'grad_norm': 0.09911774098873138, 'learning_rate': 7.230442523328828e-08, 'epoch': 0.99}
+{'loss': 1.4303, 'grad_norm': 0.08641214668750763, 'learning_rate': 6.740410771777228e-08, 'epoch': 0.99}
+{'loss': 1.4311, 'grad_norm': 0.08899024873971939, 'learning_rate': 6.267570081161523e-08, 'epoch': 0.99}
+{'loss': 1.4298, 'grad_norm': 0.0890592709183693, 'learning_rate': 5.811920776715995e-08, 'epoch': 0.99}
+{'loss': 1.4754, 'grad_norm': 0.09184060990810394, 'learning_rate': 5.373463171851056e-08, 'epoch': 0.99}
+{'loss': 1.4379, 'grad_norm': 0.08738431334495544, 'learning_rate': 4.952197568147687e-08, 'epoch': 0.99}
+{'loss': 1.449, 'grad_norm': 0.0824473425745964, 'learning_rate': 4.5481242553657706e-08, 'epoch': 0.99}
+{'loss': 1.4365, 'grad_norm': 0.09131807088851929, 'learning_rate': 4.161243511438539e-08, 'epoch': 0.99}
+{'loss': 1.422, 'grad_norm': 0.08633867651224136, 'learning_rate': 3.791555602469798e-08, 'epoch': 0.99}
+{'loss': 1.4349, 'grad_norm': 0.09273092448711395, 'learning_rate': 3.439060782747805e-08, 'epoch': 0.99}
+{'loss': 1.4213, 'grad_norm': 0.08504229038953781, 'learning_rate': 3.103759294723063e-08, 'epoch': 1.0}
+{'loss': 1.4368, 'grad_norm': 0.0882931798696518, 'learning_rate': 2.7856513690249775e-08, 'epoch': 1.0}
+{'loss': 1.4575, 'grad_norm': 0.0909726470708847, 'learning_rate': 2.4847372244590773e-08, 'epoch': 1.0}
+{'loss': 1.4413, 'grad_norm': 0.08802426606416702, 'learning_rate': 2.2010170680042408e-08, 'epoch': 1.0}
+{'loss': 1.4625, 'grad_norm': 0.09325306862592697, 'learning_rate': 1.9344910948071448e-08, 'epoch': 1.0}
+{'loss': 1.4478, 'grad_norm': 0.09507262706756592, 'learning_rate': 1.6851594881933663e-08, 'epoch': 1.0}
+{'loss': 1.451, 'grad_norm': 0.09025448560714722, 'learning_rate': 1.4530224196618314e-08, 'epoch': 1.0}
+{'loss': 1.4213, 'grad_norm': 0.09819792956113815, 'learning_rate': 1.2380800488820399e-08, 'epoch': 1.0}
+{'loss': 1.4661, 'grad_norm': 0.09022502601146698, 'learning_rate': 1.0403325236940652e-08, 'epoch': 1.0}
+{'loss': 1.4738, 'grad_norm': 0.0912424623966217, 'learning_rate': 8.59779980119657e-09, 'epoch': 1.0}
+{'loss': 1.4644, 'grad_norm': 0.08829014748334885, 'learning_rate': 6.964225423428117e-09, 'epoch': 1.0}
+{'loss': 1.4307, 'grad_norm': 0.08782745897769928, 'learning_rate': 5.5026032272920135e-09, 'epoch': 1.0}
+{'loss': 1.4402, 'grad_norm': 0.0885600745677948, 'learning_rate': 4.2129342181229655e-09, 'epoch': 1.0}
+{'loss': 1.4416, 'grad_norm': 0.09087848663330078, 'learning_rate': 3.0952192829614146e-09, 'epoch': 1.0}
+{'loss': 1.4462, 'grad_norm': 0.09446548670530319, 'learning_rate': 2.1494591906368042e-09, 'epoch': 1.0}
+{'loss': 1.4458, 'grad_norm': 0.0859038382768631, 'learning_rate': 1.3756545916843166e-09, 'epoch': 1.0}
+{'loss': 1.4505, 'grad_norm': 0.09807707369327545, 'learning_rate': 7.73806018289358e-10, 'epoch': 1.0}
+{'loss': 1.4247, 'grad_norm': 0.09542807936668396, 'learning_rate': 3.4391388448185013e-10, 'epoch': 1.0}
+{'loss': 1.4616, 'grad_norm': 0.09016336500644684, 'learning_rate': 8.597848591418433e-11, 'epoch': 1.0}
+{'loss': 1.4572, 'grad_norm': 0.09540648013353348, 'learning_rate': 0.0, 'epoch': 1.0}
+{'train_runtime': 32909.3463, 'train_samples_per_second': 30.387, 'train_steps_per_second': 0.119, 'train_loss': 1.4992482898727295, 'epoch': 1.0}
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/requirements.txt b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f47bafa7ba36fa343927f31d466b172f425e32c8
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/requirements.txt
@@ -0,0 +1,125 @@
+nvidia-nvtx-cu11==11.8.86
+nvidia-nvtx-cu12==12.4.127
+pandas==2.3.3
+peft==0.17.1
+nvidia-cufft-cu12==11.2.1.3
+Jinja2==3.1.6
+httpcore==1.0.9
+nvidia-cuda-runtime-cu11==11.8.89
+charset-normalizer==3.4.4
+scikit-learn==1.7.2
+nvidia-cusolver-cu11==11.4.1.48
+timm==1.0.12
+nvidia-cusparse-cu11==11.7.5.86
+aiosignal==1.4.0
+nvidia-curand-cu11==10.3.0.86
+pydantic_core==2.41.5
+mpmath==1.3.0
+async-timeout==5.0.1
+fsspec==2025.10.0
+numpy==2.2.6
+GitPython==3.1.46
+tqdm==4.67.1
+click==8.3.1
+accelerate==1.12.0
+nvidia-cuda-runtime-cu12==12.4.127
+threadpoolctl==3.6.0
+exceptiongroup==1.3.1
+smmap==5.0.2
+xxhash==3.6.0
+nvidia-cusparse-cu12==12.3.1.170
+pytz==2025.2
+aiohappyeyeballs==2.6.1
+requests==2.32.5
+dill==0.4.0
+nvidia-cuda-cupti-cu11==11.8.87
+nvidia-cusparselt-cu12==0.6.2
+torch==2.4.0+cu118
+pillow==12.0.0
+pip==25.3
+wheel==0.45.1
+protobuf==6.33.4
+nvidia-curand-cu12==10.3.5.147
+ninja==1.13.0
+nvidia-cufft-cu11==10.9.0.58
+safetensors==0.7.0
+annotated-types==0.7.0
+hjson==3.1.0
+certifi==2026.1.4
+scipy==1.15.3
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-nvrtc-cu11==11.8.89
+typing-inspection==0.4.2
+urllib3==2.6.3
+torchaudio==2.6.0+cu124
+torch==2.6.0+cu124
+networkx==3.4.2
+deepspeed==0.18.4
+yarl==1.22.0
+sympy==1.13.1
+packaging==25.0
+h11==0.16.0
+nvidia-nvjitlink-cu12==12.4.127
+gitdb==4.0.12
+nvidia-cudnn-cu11==9.1.0.70
+nvidia-cudnn-cu12==9.1.0.70
+sentry-sdk==2.49.0
+tzdata==2025.3
+setuptools==80.9.0
+hf-xet==1.2.0
+MarkupSafe==2.1.5
+pyarrow==22.0.0
+httpx==0.28.1
+py-cpuinfo==9.0.0
+nvidia-nccl-cu12==2.21.5
+huggingface-hub==0.36.0
+xformers==0.0.29.post3
+evaluate==0.4.6
+python-dateutil==2.9.0.post0
+idna==3.11
+filelock==3.20.2
+multiprocess==0.70.18
+attrs==25.4.0
+anyio==4.12.1
+pydantic==2.12.5
+nvidia-cuda-cupti-cu12==12.4.127
+typing_extensions==4.15.0
+datasets==4.4.2
+einops==0.8.1
+nvidia-cusolver-cu12==11.6.1.9
+multidict==6.7.0
+regex==2025.11.3
+nvidia-nccl-cu11==2.20.5
+tokenizers==0.19.1
+nvidia-cublas-cu12==12.4.5.8
+psutil==7.2.1
+aiohttp==3.13.3
+propcache==0.4.1
+platformdirs==4.5.1
+triton==3.2.0
+msgpack==1.1.2
+nvidia-cublas-cu11==11.11.3.6
+llm2vec==0.2.3
+torchvision==0.21.0+cu124
+joblib==1.5.3
+wandb==0.23.1
+six==1.17.0
+PyYAML==6.0.3
+frozenlist==1.8.0
+transformers==4.44.0
+zipp==3.19.2
+more-itertools==10.3.0
+importlib_metadata==8.0.0
+jaraco.functools==4.0.1
+inflect==7.3.1
+jaraco.text==3.12.1
+wheel==0.45.1
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+typing_extensions==4.12.2
+typeguard==4.3.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+jaraco.context==5.3.0
+packaging==24.2
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/wandb-metadata.json b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..d4785b97149dca378ab4bf691a08507fb917a2f0
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/wandb-metadata.json
@@ -0,0 +1,146 @@
+{
+  "os":  "Linux-5.4.0-42-generic-x86_64-with-glibc2.35",
+  "python":  "CPython 3.10.19",
+  "startedAt":  "2026-01-15T02:35:08.598950Z",
+  "args":  [
+    "--local_rank=0",
+    "--deepspeed",
+    "./script/deepspeed/zero2.json",
+    "--model_name_or_path",
+    "/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct",
+    "--model_type",
+    "llama3-8b",
+    "--version",
+    "plain",
+    "--data_path",
+    "/llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json",
+    "--mm_projector_type",
+    "mlp2x_gelu",
+    "--tune_mm_mlp_adapter",
+    "True",
+    "--image_aspect_ratio",
+    "square",
+    "--bf16",
+    "True",
+    "--output_dir",
+    "/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain",
+    "--num_train_epochs",
+    "1",
+    "--per_device_train_batch_size",
+    "8",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "4",
+    "--evaluation_strategy",
+    "no",
+    "--save_strategy",
+    "steps",
+    "--save_steps",
+    "100000",
+    "--save_total_limit",
+    "1",
+    "--learning_rate",
+    "5e-4",
+    "--weight_decay",
+    "0.",
+    "--warmup_ratio",
+    "0.03",
+    "--lr_scheduler_type",
+    "cosine",
+    "--logging_steps",
+    "1",
+    "--tf32",
+    "True",
+    "--model_max_length",
+    "2048",
+    "--gradient_checkpointing",
+    "True",
+    "--dataloader_num_workers",
+    "4",
+    "--lazy_preprocess",
+    "True",
+    "--report_to",
+    "wandb"
+  ],
+  "program":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py",
+  "codePath":  "bunny/train/train.py",
+  "codePathLocal":  "bunny/train/train.py",
+  "email":  "yuxm02@gmail.com",
+  "root":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense",
+  "host":  "h-liuchonghan-rler1225-a800-a100-2nodes-m-0",
+  "executable":  "/llm-align/liuchonghan/env/envs/bunny/bin/python",
+  "cpu_count":  128,
+  "cpu_count_logical":  255,
+  "gpu":  "NVIDIA A800-SXM4-80GB",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "53687091200",
+      "used":  "15148822528"
+    }
+  },
+  "memory":  {
+    "total":  "2164358094848"
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-de894aa2-80ed-5287-811c-51192fa8348e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550"
+    }
+  ],
+  "cudaVersion":  "12.4",
+  "writerId":  "zthw7aswy8gzcyfswe99b65q6ei75utt"
+}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/wandb-summary.json b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..0b0bd53df18d1f7c20449389e33eec715a5bbb2d
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train/loss":1.4572,"total_flos":1.4782740625270768e+19,"_step":3906,"train_loss":1.4992482898727295,"_wandb":{"runtime":32907},"_runtime":32907,"train/grad_norm":0.09540648013353348,"train/learning_rate":0,"train/epoch":0.999936,"train_samples_per_second":30.387,"train/global_step":3906,"_timestamp":1.7684774139472368e+09,"train_runtime":32909.3463,"train_steps_per_second":0.119}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..f46f15cdc9c805a80c936272a1c4f9a03cfd3fbc
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug-internal.log
@@ -0,0 +1,14 @@
+{"time":"2026-01-15T10:35:09.019300624+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-15T10:35:09.69930089+08:00","level":"INFO","msg":"stream: created new stream","id":"pagdc54a"}
+{"time":"2026-01-15T10:35:09.69948354+08:00","level":"INFO","msg":"handler: started","stream_id":"pagdc54a"}
+{"time":"2026-01-15T10:35:09.700230483+08:00","level":"INFO","msg":"stream: started","id":"pagdc54a"}
+{"time":"2026-01-15T10:35:09.700316814+08:00","level":"INFO","msg":"writer: started","stream_id":"pagdc54a"}
+{"time":"2026-01-15T10:35:09.700365078+08:00","level":"INFO","msg":"sender: started","stream_id":"pagdc54a"}
+{"time":"2026-01-15T11:43:12.033670625+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/pagdc54a/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-15T12:45:26.66958665+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/pagdc54a/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-15T19:07:27.724441083+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/pagdc54a/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-15T19:43:37.951517589+08:00","level":"INFO","msg":"stream: closing","id":"pagdc54a"}
+{"time":"2026-01-15T19:43:40.395252685+08:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2026-01-15T19:43:41.028823355+08:00","level":"INFO","msg":"handler: closed","stream_id":"pagdc54a"}
+{"time":"2026-01-15T19:43:41.028955435+08:00","level":"INFO","msg":"sender: closed","stream_id":"pagdc54a"}
+{"time":"2026-01-15T19:43:41.028971639+08:00","level":"INFO","msg":"stream: closed","id":"pagdc54a"}
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug.log b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..998cb7145c8e8ce001152b53ff956e19aec1d522
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug.log
@@ -0,0 +1,26 @@
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_setup.py:_flush():80] Configure stats pid to 383416
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/settings
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug.log
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/logs/debug-internal.log
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_init.py:init():841] calling init triggers
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-15 10:35:08,607 INFO    MainThread:383416 [wandb_init.py:init():889] starting backend
+2026-01-15 10:35:09,004 INFO    MainThread:383416 [wandb_init.py:init():892] sending inform_init request
+2026-01-15 10:35:09,016 INFO    MainThread:383416 [wandb_init.py:init():900] backend started and connected
+2026-01-15 10:35:09,019 INFO    MainThread:383416 [wandb_init.py:init():970] updated telemetry
+2026-01-15 10:35:09,021 INFO    MainThread:383416 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2026-01-15 10:35:10,208 INFO    MainThread:383416 [wandb_init.py:init():1041] starting run threads in backend
+2026-01-15 10:35:10,455 INFO    MainThread:383416 [wandb_run.py:_console_start():2521] atexit reg
+2026-01-15 10:35:10,455 INFO    MainThread:383416 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2026-01-15 10:35:10,456 INFO    MainThread:383416 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2026-01-15 10:35:10,456 INFO    MainThread:383416 [wandb_run.py:_redirect():2461] Redirects installed.
+2026-01-15 10:35:10,464 INFO    MainThread:383416 [wandb_init.py:init():1081] run started, returning control to user process
+2026-01-15 10:35:10,468 INFO    MainThread:383416 [wandb_run.py:_config_callback():1396] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 8192, 'hidden_size': 4096, 'intermediate_size': 14336, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': False, 'rope_theta': 500000.0, 'rope_scaling': None, 'attention_bias': False, 'attention_dropout': 0.0, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': '/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct', 'transformers_version': '4.44.0', 'model_type': 'bunny-llama', 'use_mm_proj': True, 'mm_projector_type': 'mlp2x_gelu', 'mm_hidden_size': 1280, 'image_aspect_ratio': 'square', 'tokenizer_padding_side': 'right', 'tokenizer_model_max_length': 2048, 'tune_mm_mlp_adapter': True, 'freeze_mm_mlp_adapter': False, 'mm_projector_lr': None, 'use_s2': False, 'output_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'eval_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0005, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 1.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan15_10-32-31_h-liuchonghan-rler1225-a800-a100-2nodes-m-0', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1.0, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100000, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': True, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': './script/deepspeed/zero2.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': True, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'no', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'eval_use_gather_object': False, 'cache_dir': None, 'mpt_attn_impl': 'triton', 'model_max_length': 2048, 'group_by_modality_length': False}
+2026-01-15 10:35:10,486 INFO    MainThread:383416 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 8052289536 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f619af37fa0>>
+2026-01-15 10:35:10,486 INFO    MainThread:383416 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 8052289536 None
+2026-01-15 19:43:37,951 INFO    wandb-AsyncioManager-main:383416 [service_client.py:_forward_responses():80] Reached EOF.
+2026-01-15 19:43:37,951 INFO    wandb-AsyncioManager-main:383416 [mailbox.py:close():137] Closing mailbox, abandoning 1 handles.
diff --git a/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/run-pagdc54a.wandb b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/run-pagdc54a.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..7649c9fd183281f18252f082bfe39f2c7a41d8dc
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_103508-pagdc54a/run-pagdc54a.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe5fa601fa8f9f59cf517e35cf15d77679d48ac79e8f44234150f86e1210fe9d
+size 16989676
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/config.yaml b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ee92d04a7f0b9c273e83338dc8242d4816e17cd0
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/config.yaml
@@ -0,0 +1,617 @@
+_name_or_path:
+    value: /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+_wandb:
+    value:
+        cli_version: 0.23.1
+        e:
+            mzazmdqp175if22daw2xhicv4zdaa94j:
+                args:
+                    - --local_rank=0
+                    - --deepspeed
+                    - ./script/deepspeed/zero2.json
+                    - --model_name_or_path
+                    - /llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct
+                    - --model_type
+                    - llama3-8b
+                    - --version
+                    - plain
+                    - --data_path
+                    - /llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json
+                    - --mm_projector_type
+                    - mlp2x_gelu
+                    - --tune_mm_mlp_adapter
+                    - "True"
+                    - --image_aspect_ratio
+                    - square
+                    - --bf16
+                    - "True"
+                    - --output_dir
+                    - /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+                    - --num_train_epochs
+                    - "1"
+                    - --per_device_train_batch_size
+                    - "8"
+                    - --per_device_eval_batch_size
+                    - "4"
+                    - --gradient_accumulation_steps
+                    - "4"
+                    - --evaluation_strategy
+                    - "no"
+                    - --save_strategy
+                    - steps
+                    - --save_steps
+                    - "100000"
+                    - --save_total_limit
+                    - "1"
+                    - --learning_rate
+                    - "5e-4"
+                    - --weight_decay
+                    - "0."
+                    - --warmup_ratio
+                    - "0.03"
+                    - --lr_scheduler_type
+                    - cosine
+                    - --logging_steps
+                    - "1"
+                    - --tf32
+                    - "True"
+                    - --model_max_length
+                    - "2048"
+                    - --gradient_checkpointing
+                    - "True"
+                    - --dataloader_num_workers
+                    - "4"
+                    - --lazy_preprocess
+                    - "True"
+                    - --report_to
+                    - wandb
+                codePath: bunny/train/train.py
+                codePathLocal: bunny/train/train.py
+                cpu_count: 128
+                cpu_count_logical: 255
+                cudaVersion: "12.4"
+                disk:
+                    /:
+                        total: "53687091200"
+                        used: "15148830720"
+                email: yuxm02@gmail.com
+                executable: /llm-align/liuchonghan/env/envs/bunny/bin/python
+                gpu: NVIDIA A800-SXM4-80GB
+                gpu_count: 8
+                gpu_nvidia:
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-de894aa2-80ed-5287-811c-51192fa8348e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77
+                    - architecture: Ampere
+                      cudaCores: 6912
+                      memoryTotal: "85899345920"
+                      name: NVIDIA A800-SXM4-80GB
+                      uuid: GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550
+                host: h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+                memory:
+                    total: "2164358094848"
+                os: Linux-5.4.0-42-generic-x86_64-with-glibc2.35
+                program: /llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py
+                python: CPython 3.10.19
+                root: /llm-align/liuchonghan/xiaomin/Unicorn_dense
+                startedAt: "2026-01-15T15:09:08.896016Z"
+                writerId: mzazmdqp175if22daw2xhicv4zdaa94j
+        m:
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "2": '*'
+              "5": 1
+              "6":
+                - 1
+              "7": []
+        python_version: 3.10.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 41
+                - 49
+                - 51
+                - 53
+                - 63
+                - 71
+                - 98
+            "3":
+                - 7
+                - 13
+                - 19
+                - 62
+                - 66
+            "4": 3.10.19
+            "5": 0.23.1
+            "6": 4.44.0
+            "9":
+                "1": transformers_trainer
+            "12": 0.23.1
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: true
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+cache_dir:
+    value: null
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 4
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: ./script/deepspeed/zero2.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: false
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: null
+eval_strategy:
+    value: "no"
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: "no"
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: false
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+freeze_mm_mlp_adapter:
+    value: false
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 4
+gradient_checkpointing:
+    value: true
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+group_by_modality_length:
+    value: false
+half_precision_backend:
+    value: auto
+hidden_act:
+    value: silu
+hidden_size:
+    value: 4096
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+image_aspect_ratio:
+    value: square
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 14336
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 0.0005
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan15_23-06-00_h-liuchonghan-rler1225-a800-a100-2nodes-m-0
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr_scheduler_type:
+    value: cosine
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 8192
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mm_hidden_size:
+    value: 1280
+mm_projector_lr:
+    value: null
+mm_projector_type:
+    value: mlp2x_gelu
+model/num_parameters:
+    value: 8052289536
+model_max_length:
+    value: 2048
+model_type:
+    value: bunny-llama
+mp_parameters:
+    value: ""
+mpt_attn_impl:
+    value: triton
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 32
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 32
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 1
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 4
+per_device_train_batch_size:
+    value: 8
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: false
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value: null
+rope_theta:
+    value: 500000
+run_name:
+    value: /llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100000
+save_strategy:
+    value: steps
+save_total_limit:
+    value: 1
+seed:
+    value: 42
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: true
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: false
+tokenizer_class:
+    value: null
+tokenizer_model_max_length:
+    value: 2048
+tokenizer_padding_side:
+    value: right
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+transformers_version:
+    value: 4.44.0
+tune_mm_mlp_adapter:
+    value: true
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: false
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_mm_proj:
+    value: true
+use_mps_device:
+    value: false
+use_s2:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.03
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/output.log b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..22854c339b2973157c264c8c491cebf66b9f136c
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/output.log
@@ -0,0 +1,3910 @@
+  0%|                                                                                                                                                                                               | 0/3906 [00:00<?, ?it/s]/llm-align/liuchonghan/env/envs/bunny/lib/python3.10/site-packages/torch/_dynamo/eval_frame.py:745: UserWarning: torch.utils.checkpoint: the use_reentrant parameter should be passed explicitly. In version 2.5 we will raise an exception if use_reentrant is not passed. use_reentrant=False is recommended, but if you need to preserve the current default behavior, you can pass use_reentrant=True. Refer to docs for more details on the differences between the two variants.
+  return fn(*args, **kwargs)
+                                                                                                                                                                                                                             
+{'loss': 4.3978, 'grad_norm': 77.71210479736328, 'learning_rate': 4.23728813559322e-06, 'epoch': 0.0}
+{'loss': 4.327, 'grad_norm': 62.95758056640625, 'learning_rate': 8.47457627118644e-06, 'epoch': 0.0}
+{'loss': 4.0206, 'grad_norm': 70.56757354736328, 'learning_rate': 1.2711864406779663e-05, 'epoch': 0.0}
+{'loss': 3.3594, 'grad_norm': 66.6880874633789, 'learning_rate': 1.694915254237288e-05, 'epoch': 0.0}
+{'loss': 2.2652, 'grad_norm': 6.749133110046387, 'learning_rate': 2.11864406779661e-05, 'epoch': 0.0}
+{'loss': 2.0845, 'grad_norm': 1.4524558782577515, 'learning_rate': 2.5423728813559325e-05, 'epoch': 0.0}
+{'loss': 2.0435, 'grad_norm': 1.0094482898712158, 'learning_rate': 2.9661016949152544e-05, 'epoch': 0.0}
+{'loss': 2.0356, 'grad_norm': 0.7451659440994263, 'learning_rate': 3.389830508474576e-05, 'epoch': 0.0}
+{'loss': 2.0364, 'grad_norm': 0.5620859265327454, 'learning_rate': 3.813559322033899e-05, 'epoch': 0.0}
+{'loss': 2.0271, 'grad_norm': 0.45218604803085327, 'learning_rate': 4.23728813559322e-05, 'epoch': 0.0}
+{'loss': 2.0092, 'grad_norm': 0.43982213735580444, 'learning_rate': 4.6610169491525425e-05, 'epoch': 0.0}
+{'loss': 2.0047, 'grad_norm': 0.3413316309452057, 'learning_rate': 5.084745762711865e-05, 'epoch': 0.0}
+{'loss': 2.0139, 'grad_norm': 0.27559661865234375, 'learning_rate': 5.508474576271186e-05, 'epoch': 0.0}
+{'loss': 2.0089, 'grad_norm': 0.2853507697582245, 'learning_rate': 5.932203389830509e-05, 'epoch': 0.0}
+{'loss': 1.9952, 'grad_norm': 0.3063145875930786, 'learning_rate': 6.35593220338983e-05, 'epoch': 0.0}
+{'loss': 2.0224, 'grad_norm': 0.3161376714706421, 'learning_rate': 6.779661016949152e-05, 'epoch': 0.0}
+{'loss': 2.0061, 'grad_norm': 0.297975093126297, 'learning_rate': 7.203389830508474e-05, 'epoch': 0.0}
+{'loss': 2.0115, 'grad_norm': 0.3274068832397461, 'learning_rate': 7.627118644067798e-05, 'epoch': 0.0}
+{'loss': 2.0082, 'grad_norm': 0.30869555473327637, 'learning_rate': 8.050847457627118e-05, 'epoch': 0.0}
+{'loss': 2.0041, 'grad_norm': 0.30021291971206665, 'learning_rate': 8.47457627118644e-05, 'epoch': 0.01}
+{'loss': 2.0265, 'grad_norm': 0.3357418477535248, 'learning_rate': 8.898305084745763e-05, 'epoch': 0.01}
+{'loss': 2.0214, 'grad_norm': 0.3593190908432007, 'learning_rate': 9.322033898305085e-05, 'epoch': 0.01}
+{'loss': 2.0191, 'grad_norm': 0.3409734070301056, 'learning_rate': 9.745762711864407e-05, 'epoch': 0.01}
+{'loss': 2.0077, 'grad_norm': 0.3691827356815338, 'learning_rate': 0.0001016949152542373, 'epoch': 0.01}
+{'loss': 2.015, 'grad_norm': 0.3178722858428955, 'learning_rate': 0.0001059322033898305, 'epoch': 0.01}
+{'loss': 2.0229, 'grad_norm': 0.3579893410205841, 'learning_rate': 0.00011016949152542372, 'epoch': 0.01}
+{'loss': 1.9932, 'grad_norm': 0.3351088762283325, 'learning_rate': 0.00011440677966101696, 'epoch': 0.01}
+{'loss': 2.0253, 'grad_norm': 0.33212733268737793, 'learning_rate': 0.00011864406779661017, 'epoch': 0.01}
+{'loss': 2.0089, 'grad_norm': 0.33644816279411316, 'learning_rate': 0.0001228813559322034, 'epoch': 0.01}
+{'loss': 1.9778, 'grad_norm': 0.29328858852386475, 'learning_rate': 0.0001271186440677966, 'epoch': 0.01}
+{'loss': 1.9842, 'grad_norm': 0.26543858647346497, 'learning_rate': 0.00013135593220338986, 'epoch': 0.01}
+{'loss': 2.0022, 'grad_norm': 0.2500479519367218, 'learning_rate': 0.00013559322033898305, 'epoch': 0.01}
+{'loss': 1.9913, 'grad_norm': 0.23006725311279297, 'learning_rate': 0.00013983050847457627, 'epoch': 0.01}
+{'loss': 1.9889, 'grad_norm': 0.2129969447851181, 'learning_rate': 0.00014406779661016949, 'epoch': 0.01}
+{'loss': 1.9505, 'grad_norm': 0.17593292891979218, 'learning_rate': 0.0001483050847457627, 'epoch': 0.01}
+{'loss': 1.9548, 'grad_norm': 0.16010412573814392, 'learning_rate': 0.00015254237288135595, 'epoch': 0.01}
+{'loss': 1.9622, 'grad_norm': 0.17012351751327515, 'learning_rate': 0.00015677966101694914, 'epoch': 0.01}
+{'loss': 1.9736, 'grad_norm': 0.1431596279144287, 'learning_rate': 0.00016101694915254236, 'epoch': 0.01}
+{'loss': 1.9758, 'grad_norm': 0.13258253037929535, 'learning_rate': 0.0001652542372881356, 'epoch': 0.01}
+{'loss': 1.9675, 'grad_norm': 0.13091742992401123, 'learning_rate': 0.0001694915254237288, 'epoch': 0.01}
+{'loss': 1.9907, 'grad_norm': 0.1217586100101471, 'learning_rate': 0.00017372881355932204, 'epoch': 0.01}
+{'loss': 1.9502, 'grad_norm': 0.11927567422389984, 'learning_rate': 0.00017796610169491526, 'epoch': 0.01}
+{'loss': 1.9499, 'grad_norm': 0.11255964636802673, 'learning_rate': 0.00018220338983050845, 'epoch': 0.01}
+{'loss': 1.9456, 'grad_norm': 0.1129348874092102, 'learning_rate': 0.0001864406779661017, 'epoch': 0.01}
+{'loss': 1.9269, 'grad_norm': 0.10236267000436783, 'learning_rate': 0.00019067796610169492, 'epoch': 0.01}
+{'loss': 1.9518, 'grad_norm': 0.1047530546784401, 'learning_rate': 0.00019491525423728814, 'epoch': 0.01}
+{'loss': 1.9454, 'grad_norm': 0.10051437467336655, 'learning_rate': 0.00019915254237288136, 'epoch': 0.01}
+{'loss': 1.9355, 'grad_norm': 0.09609702974557877, 'learning_rate': 0.0002033898305084746, 'epoch': 0.01}
+{'loss': 1.9305, 'grad_norm': 0.09581483155488968, 'learning_rate': 0.0002076271186440678, 'epoch': 0.01}
+{'loss': 1.9384, 'grad_norm': 0.09343931078910828, 'learning_rate': 0.000211864406779661, 'epoch': 0.01}
+{'loss': 1.924, 'grad_norm': 0.0931413471698761, 'learning_rate': 0.00021610169491525426, 'epoch': 0.01}
+{'loss': 1.9468, 'grad_norm': 0.0934840515255928, 'learning_rate': 0.00022033898305084745, 'epoch': 0.01}
+{'loss': 1.9321, 'grad_norm': 0.0912938266992569, 'learning_rate': 0.0002245762711864407, 'epoch': 0.01}
+{'loss': 1.9129, 'grad_norm': 0.09072963893413544, 'learning_rate': 0.0002288135593220339, 'epoch': 0.01}
+{'loss': 1.9443, 'grad_norm': 0.08984195441007614, 'learning_rate': 0.0002330508474576271, 'epoch': 0.01}
+{'loss': 1.9123, 'grad_norm': 0.09624867141246796, 'learning_rate': 0.00023728813559322035, 'epoch': 0.01}
+{'loss': 1.9137, 'grad_norm': 0.09432166069746017, 'learning_rate': 0.00024152542372881357, 'epoch': 0.01}
+{'loss': 1.9168, 'grad_norm': 0.0987410694360733, 'learning_rate': 0.0002457627118644068, 'epoch': 0.01}
+{'loss': 1.9174, 'grad_norm': 0.10264488309621811, 'learning_rate': 0.00025, 'epoch': 0.02}
+{'loss': 1.8905, 'grad_norm': 0.10383911430835724, 'learning_rate': 0.0002542372881355932, 'epoch': 0.02}
+{'loss': 1.8928, 'grad_norm': 0.11036235094070435, 'learning_rate': 0.00025847457627118644, 'epoch': 0.02}
+{'loss': 1.9498, 'grad_norm': 0.1158766895532608, 'learning_rate': 0.0002627118644067797, 'epoch': 0.02}
+{'loss': 1.8759, 'grad_norm': 0.11816383898258209, 'learning_rate': 0.0002669491525423729, 'epoch': 0.02}
+{'loss': 1.8794, 'grad_norm': 0.12020152807235718, 'learning_rate': 0.0002711864406779661, 'epoch': 0.02}
+{'loss': 1.887, 'grad_norm': 0.12806940078735352, 'learning_rate': 0.0002754237288135593, 'epoch': 0.02}
+{'loss': 1.9074, 'grad_norm': 0.13411949574947357, 'learning_rate': 0.00027966101694915254, 'epoch': 0.02}
+{'loss': 1.8512, 'grad_norm': 0.13305595517158508, 'learning_rate': 0.0002838983050847458, 'epoch': 0.02}
+{'loss': 1.8713, 'grad_norm': 0.13339684903621674, 'learning_rate': 0.00028813559322033897, 'epoch': 0.02}
+{'loss': 1.8664, 'grad_norm': 0.12964820861816406, 'learning_rate': 0.0002923728813559322, 'epoch': 0.02}
+{'loss': 1.839, 'grad_norm': 0.13404138386249542, 'learning_rate': 0.0002966101694915254, 'epoch': 0.02}
+{'loss': 1.8369, 'grad_norm': 0.12993547320365906, 'learning_rate': 0.00030084745762711863, 'epoch': 0.02}
+{'loss': 1.8434, 'grad_norm': 0.1250932216644287, 'learning_rate': 0.0003050847457627119, 'epoch': 0.02}
+{'loss': 1.8664, 'grad_norm': 0.11915697902441025, 'learning_rate': 0.0003093220338983051, 'epoch': 0.02}
+{'loss': 1.8587, 'grad_norm': 0.1174684390425682, 'learning_rate': 0.0003135593220338983, 'epoch': 0.02}
+{'loss': 1.8423, 'grad_norm': 0.10964904725551605, 'learning_rate': 0.0003177966101694915, 'epoch': 0.02}
+{'loss': 1.8368, 'grad_norm': 0.1075524240732193, 'learning_rate': 0.0003220338983050847, 'epoch': 0.02}
+{'loss': 1.8038, 'grad_norm': 0.09773407876491547, 'learning_rate': 0.000326271186440678, 'epoch': 0.02}
+{'loss': 1.8157, 'grad_norm': 0.09279234707355499, 'learning_rate': 0.0003305084745762712, 'epoch': 0.02}
+{'loss': 1.7948, 'grad_norm': 0.08592494577169418, 'learning_rate': 0.00033474576271186443, 'epoch': 0.02}
+{'loss': 1.8061, 'grad_norm': 0.08759250491857529, 'learning_rate': 0.0003389830508474576, 'epoch': 0.02}
+{'loss': 1.8109, 'grad_norm': 0.08727853745222092, 'learning_rate': 0.0003432203389830508, 'epoch': 0.02}
+{'loss': 1.7925, 'grad_norm': 0.08409696817398071, 'learning_rate': 0.0003474576271186441, 'epoch': 0.02}
+{'loss': 1.8061, 'grad_norm': 0.0880279615521431, 'learning_rate': 0.0003516949152542373, 'epoch': 0.02}
+{'loss': 1.7841, 'grad_norm': 0.09007949382066727, 'learning_rate': 0.0003559322033898305, 'epoch': 0.02}
+{'loss': 1.8143, 'grad_norm': 0.09082863479852676, 'learning_rate': 0.00036016949152542374, 'epoch': 0.02}
+{'loss': 1.7454, 'grad_norm': 0.08300521969795227, 'learning_rate': 0.0003644067796610169, 'epoch': 0.02}
+{'loss': 1.7581, 'grad_norm': 0.08630675077438354, 'learning_rate': 0.0003686440677966102, 'epoch': 0.02}
+{'loss': 1.7875, 'grad_norm': 0.08666088432073593, 'learning_rate': 0.0003728813559322034, 'epoch': 0.02}
+{'loss': 1.7989, 'grad_norm': 0.08792547881603241, 'learning_rate': 0.0003771186440677966, 'epoch': 0.02}
+{'loss': 1.7839, 'grad_norm': 0.09168199449777603, 'learning_rate': 0.00038135593220338984, 'epoch': 0.02}
+{'loss': 1.7818, 'grad_norm': 0.07789779454469681, 'learning_rate': 0.0003855932203389831, 'epoch': 0.02}
+{'loss': 1.7688, 'grad_norm': 0.08035445958375931, 'learning_rate': 0.00038983050847457627, 'epoch': 0.02}
+{'loss': 1.7482, 'grad_norm': 0.08084917068481445, 'learning_rate': 0.0003940677966101695, 'epoch': 0.02}
+{'loss': 1.7655, 'grad_norm': 0.07740584015846252, 'learning_rate': 0.0003983050847457627, 'epoch': 0.02}
+{'loss': 1.7787, 'grad_norm': 0.08378875255584717, 'learning_rate': 0.00040254237288135593, 'epoch': 0.02}
+{'loss': 1.7706, 'grad_norm': 0.0824662521481514, 'learning_rate': 0.0004067796610169492, 'epoch': 0.02}
+{'loss': 1.7304, 'grad_norm': 0.08176199346780777, 'learning_rate': 0.0004110169491525424, 'epoch': 0.02}
+{'loss': 1.7688, 'grad_norm': 0.08972489833831787, 'learning_rate': 0.0004152542372881356, 'epoch': 0.03}
+{'loss': 1.7396, 'grad_norm': 0.0800899863243103, 'learning_rate': 0.0004194915254237288, 'epoch': 0.03}
+{'loss': 1.7756, 'grad_norm': 0.07678435742855072, 'learning_rate': 0.000423728813559322, 'epoch': 0.03}
+{'loss': 1.7376, 'grad_norm': 0.09747093170881271, 'learning_rate': 0.0004279661016949153, 'epoch': 0.03}
+{'loss': 1.757, 'grad_norm': 0.07665753364562988, 'learning_rate': 0.0004322033898305085, 'epoch': 0.03}
+{'loss': 1.7564, 'grad_norm': 0.07989512383937836, 'learning_rate': 0.00043644067796610173, 'epoch': 0.03}
+{'loss': 1.7633, 'grad_norm': 0.08994849026203156, 'learning_rate': 0.0004406779661016949, 'epoch': 0.03}
+{'loss': 1.737, 'grad_norm': 0.07108740508556366, 'learning_rate': 0.0004449152542372881, 'epoch': 0.03}
+{'loss': 1.7336, 'grad_norm': 0.07415662705898285, 'learning_rate': 0.0004491525423728814, 'epoch': 0.03}
+{'loss': 1.7304, 'grad_norm': 0.06934408098459244, 'learning_rate': 0.0004533898305084746, 'epoch': 0.03}
+{'loss': 1.7315, 'grad_norm': 0.07714031636714935, 'learning_rate': 0.0004576271186440678, 'epoch': 0.03}
+{'loss': 1.7214, 'grad_norm': 0.07170343399047852, 'learning_rate': 0.00046186440677966104, 'epoch': 0.03}
+{'loss': 1.7286, 'grad_norm': 0.07682354003190994, 'learning_rate': 0.0004661016949152542, 'epoch': 0.03}
+{'loss': 1.7357, 'grad_norm': 0.09216096252202988, 'learning_rate': 0.0004703389830508475, 'epoch': 0.03}
+{'loss': 1.7177, 'grad_norm': 0.07738613337278366, 'learning_rate': 0.0004745762711864407, 'epoch': 0.03}
+{'loss': 1.6945, 'grad_norm': 0.1194862574338913, 'learning_rate': 0.0004788135593220339, 'epoch': 0.03}
+{'loss': 1.7052, 'grad_norm': 0.07896161079406738, 'learning_rate': 0.00048305084745762714, 'epoch': 0.03}
+{'loss': 1.7348, 'grad_norm': 0.10979346185922623, 'learning_rate': 0.0004872881355932203, 'epoch': 0.03}
+{'loss': 1.7127, 'grad_norm': 0.0784471407532692, 'learning_rate': 0.0004915254237288136, 'epoch': 0.03}
+{'loss': 1.7169, 'grad_norm': 0.12492302060127258, 'learning_rate': 0.0004957627118644068, 'epoch': 0.03}
+{'loss': 1.6854, 'grad_norm': 0.09350472688674927, 'learning_rate': 0.0005, 'epoch': 0.03}
+{'loss': 1.7243, 'grad_norm': 0.125437930226326, 'learning_rate': 0.0004999999140215142, 'epoch': 0.03}
+{'loss': 1.7005, 'grad_norm': 0.10004322975873947, 'learning_rate': 0.0004999996560861156, 'epoch': 0.03}
+{'loss': 1.7201, 'grad_norm': 0.0828494280576706, 'learning_rate': 0.0004999992261939817, 'epoch': 0.03}
+{'loss': 1.7075, 'grad_norm': 0.10817715525627136, 'learning_rate': 0.0004999986243454084, 'epoch': 0.03}
+{'loss': 1.6993, 'grad_norm': 0.08240243792533875, 'learning_rate': 0.0004999978505408094, 'epoch': 0.03}
+{'loss': 1.7114, 'grad_norm': 0.1051960289478302, 'learning_rate': 0.000499996904780717, 'epoch': 0.03}
+{'loss': 1.6904, 'grad_norm': 0.08780849725008011, 'learning_rate': 0.0004999957870657818, 'epoch': 0.03}
+{'loss': 1.6778, 'grad_norm': 0.11064428091049194, 'learning_rate': 0.0004999944973967727, 'epoch': 0.03}
+{'loss': 1.6913, 'grad_norm': 0.07509329169988632, 'learning_rate': 0.0004999930357745766, 'epoch': 0.03}
+{'loss': 1.6778, 'grad_norm': 0.0753837451338768, 'learning_rate': 0.0004999914022001988, 'epoch': 0.03}
+{'loss': 1.6961, 'grad_norm': 0.08879135549068451, 'learning_rate': 0.000499989596674763, 'epoch': 0.03}
+{'loss': 1.6749, 'grad_norm': 0.08514799177646637, 'learning_rate': 0.0004999876191995112, 'epoch': 0.03}
+{'loss': 1.6537, 'grad_norm': 0.06285060942173004, 'learning_rate': 0.0004999854697758034, 'epoch': 0.03}
+{'loss': 1.6906, 'grad_norm': 0.09852366149425507, 'learning_rate': 0.000499983148405118, 'epoch': 0.03}
+{'loss': 1.717, 'grad_norm': 0.07195590436458588, 'learning_rate': 0.0004999806550890519, 'epoch': 0.03}
+{'loss': 1.6414, 'grad_norm': 0.10188353061676025, 'learning_rate': 0.0004999779898293199, 'epoch': 0.03}
+{'loss': 1.6838, 'grad_norm': 0.07202371954917908, 'learning_rate': 0.0004999751526277554, 'epoch': 0.03}
+{'loss': 1.6807, 'grad_norm': 0.07841682434082031, 'learning_rate': 0.0004999721434863098, 'epoch': 0.03}
+{'loss': 1.6926, 'grad_norm': 0.1070057675242424, 'learning_rate': 0.0004999689624070528, 'epoch': 0.04}
+{'loss': 1.6714, 'grad_norm': 0.11225783824920654, 'learning_rate': 0.0004999656093921725, 'epoch': 0.04}
+{'loss': 1.6726, 'grad_norm': 0.07839416712522507, 'learning_rate': 0.0004999620844439753, 'epoch': 0.04}
+{'loss': 1.6913, 'grad_norm': 0.10801354795694351, 'learning_rate': 0.0004999583875648857, 'epoch': 0.04}
+{'loss': 1.6665, 'grad_norm': 0.07863523066043854, 'learning_rate': 0.0004999545187574463, 'epoch': 0.04}
+{'loss': 1.7049, 'grad_norm': 0.11721809953451157, 'learning_rate': 0.0004999504780243186, 'epoch': 0.04}
+{'loss': 1.691, 'grad_norm': 0.09239675104618073, 'learning_rate': 0.0004999462653682815, 'epoch': 0.04}
+{'loss': 1.6665, 'grad_norm': 0.11318974941968918, 'learning_rate': 0.0004999418807922328, 'epoch': 0.04}
+{'loss': 1.6468, 'grad_norm': 0.1068509966135025, 'learning_rate': 0.0004999373242991884, 'epoch': 0.04}
+{'loss': 1.6753, 'grad_norm': 0.0837024599313736, 'learning_rate': 0.0004999325958922823, 'epoch': 0.04}
+{'loss': 1.6897, 'grad_norm': 0.11461605131626129, 'learning_rate': 0.0004999276955747667, 'epoch': 0.04}
+{'loss': 1.6601, 'grad_norm': 0.07610967755317688, 'learning_rate': 0.0004999226233500124, 'epoch': 0.04}
+{'loss': 1.6929, 'grad_norm': 0.12046544253826141, 'learning_rate': 0.000499917379221508, 'epoch': 0.04}
+{'loss': 1.6463, 'grad_norm': 0.06473496556282043, 'learning_rate': 0.0004999119631928608, 'epoch': 0.04}
+{'loss': 1.6609, 'grad_norm': 0.0881863534450531, 'learning_rate': 0.0004999063752677959, 'epoch': 0.04}
+{'loss': 1.6558, 'grad_norm': 0.08066332340240479, 'learning_rate': 0.0004999006154501568, 'epoch': 0.04}
+{'loss': 1.6671, 'grad_norm': 0.09768583625555038, 'learning_rate': 0.0004998946837439055, 'epoch': 0.04}
+{'loss': 1.6894, 'grad_norm': 0.07793658971786499, 'learning_rate': 0.0004998885801531219, 'epoch': 0.04}
+{'loss': 1.7071, 'grad_norm': 0.1042797863483429, 'learning_rate': 0.000499882304682004, 'epoch': 0.04}
+{'loss': 1.6669, 'grad_norm': 0.09021641314029694, 'learning_rate': 0.0004998758573348686, 'epoch': 0.04}
+{'loss': 1.6502, 'grad_norm': 0.10046683251857758, 'learning_rate': 0.0004998692381161501, 'epoch': 0.04}
+{'loss': 1.6685, 'grad_norm': 0.10002394765615463, 'learning_rate': 0.0004998624470304014, 'epoch': 0.04}
+{'loss': 1.6422, 'grad_norm': 0.0894310399889946, 'learning_rate': 0.0004998554840822937, 'epoch': 0.04}
+{'loss': 1.6442, 'grad_norm': 0.11940309405326843, 'learning_rate': 0.0004998483492766163, 'epoch': 0.04}
+{'loss': 1.6392, 'grad_norm': 0.09921871870756149, 'learning_rate': 0.0004998410426182766, 'epoch': 0.04}
+{'loss': 1.646, 'grad_norm': 0.11300092935562134, 'learning_rate': 0.0004998335641123005, 'epoch': 0.04}
+{'loss': 1.6681, 'grad_norm': 0.13025616109371185, 'learning_rate': 0.0004998259137638319, 'epoch': 0.04}
+{'loss': 1.6688, 'grad_norm': 0.099501833319664, 'learning_rate': 0.0004998180915781327, 'epoch': 0.04}
+{'loss': 1.669, 'grad_norm': 0.13474154472351074, 'learning_rate': 0.0004998100975605836, 'epoch': 0.04}
+{'loss': 1.6453, 'grad_norm': 0.12572872638702393, 'learning_rate': 0.0004998019317166827, 'epoch': 0.04}
+{'loss': 1.6587, 'grad_norm': 0.10680381953716278, 'learning_rate': 0.0004997935940520469, 'epoch': 0.04}
+{'loss': 1.6703, 'grad_norm': 0.0936206728219986, 'learning_rate': 0.0004997850845724111, 'epoch': 0.04}
+{'loss': 1.6533, 'grad_norm': 0.1258462369441986, 'learning_rate': 0.0004997764032836283, 'epoch': 0.04}
+{'loss': 1.6601, 'grad_norm': 0.10831572860479355, 'learning_rate': 0.0004997675501916698, 'epoch': 0.04}
+{'loss': 1.6507, 'grad_norm': 0.07914777845144272, 'learning_rate': 0.000499758525302625, 'epoch': 0.04}
+{'loss': 1.6533, 'grad_norm': 0.09536759555339813, 'learning_rate': 0.0004997493286227014, 'epoch': 0.04}
+{'loss': 1.6318, 'grad_norm': 0.10568562150001526, 'learning_rate': 0.0004997399601582248, 'epoch': 0.04}
+{'loss': 1.6594, 'grad_norm': 0.08617714047431946, 'learning_rate': 0.0004997304199156388, 'epoch': 0.04}
+{'loss': 1.6739, 'grad_norm': 0.12600745260715485, 'learning_rate': 0.0004997207079015059, 'epoch': 0.04}
+{'loss': 1.6364, 'grad_norm': 0.11071789264678955, 'learning_rate': 0.000499710824122506, 'epoch': 0.05}
+{'loss': 1.6579, 'grad_norm': 0.1203298568725586, 'learning_rate': 0.0004997007685854376, 'epoch': 0.05}
+{'loss': 1.6535, 'grad_norm': 0.17370323836803436, 'learning_rate': 0.0004996905412972171, 'epoch': 0.05}
+{'loss': 1.6332, 'grad_norm': 0.12816458940505981, 'learning_rate': 0.0004996801422648791, 'epoch': 0.05}
+{'loss': 1.6443, 'grad_norm': 0.0982024148106575, 'learning_rate': 0.0004996695714955765, 'epoch': 0.05}
+{'loss': 1.6372, 'grad_norm': 0.1504908800125122, 'learning_rate': 0.0004996588289965799, 'epoch': 0.05}
+{'loss': 1.6194, 'grad_norm': 0.11199342459440231, 'learning_rate': 0.0004996479147752784, 'epoch': 0.05}
+{'loss': 1.6346, 'grad_norm': 0.11876782774925232, 'learning_rate': 0.0004996368288391792, 'epoch': 0.05}
+{'loss': 1.6307, 'grad_norm': 0.12063036113977432, 'learning_rate': 0.0004996255711959074, 'epoch': 0.05}
+{'loss': 1.6712, 'grad_norm': 0.17735666036605835, 'learning_rate': 0.0004996141418532063, 'epoch': 0.05}
+{'loss': 1.6653, 'grad_norm': 0.12267827242612839, 'learning_rate': 0.0004996025408189375, 'epoch': 0.05}
+{'loss': 1.6231, 'grad_norm': 0.19168616831302643, 'learning_rate': 0.0004995907681010803, 'epoch': 0.05}
+{'loss': 1.6358, 'grad_norm': 0.18847322463989258, 'learning_rate': 0.0004995788237077325, 'epoch': 0.05}
+{'loss': 1.6363, 'grad_norm': 0.15655502676963806, 'learning_rate': 0.0004995667076471096, 'epoch': 0.05}
+{'loss': 1.6362, 'grad_norm': 0.15846765041351318, 'learning_rate': 0.0004995544199275456, 'epoch': 0.05}
+{'loss': 1.6325, 'grad_norm': 0.1615161895751953, 'learning_rate': 0.0004995419605574921, 'epoch': 0.05}
+{'loss': 1.6174, 'grad_norm': 0.1734238713979721, 'learning_rate': 0.0004995293295455192, 'epoch': 0.05}
+{'loss': 1.6479, 'grad_norm': 0.20518997311592102, 'learning_rate': 0.0004995165269003147, 'epoch': 0.05}
+{'loss': 1.6782, 'grad_norm': 0.14924444258213043, 'learning_rate': 0.0004995035526306846, 'epoch': 0.05}
+{'loss': 1.6397, 'grad_norm': 0.20036810636520386, 'learning_rate': 0.0004994904067455531, 'epoch': 0.05}
+{'loss': 1.6303, 'grad_norm': 0.13874764740467072, 'learning_rate': 0.0004994770892539622, 'epoch': 0.05}
+{'loss': 1.6138, 'grad_norm': 0.19012993574142456, 'learning_rate': 0.0004994636001650722, 'epoch': 0.05}
+{'loss': 1.607, 'grad_norm': 0.12276141345500946, 'learning_rate': 0.0004994499394881611, 'epoch': 0.05}
+{'loss': 1.6262, 'grad_norm': 0.17219391465187073, 'learning_rate': 0.0004994361072326251, 'epoch': 0.05}
+{'loss': 1.6301, 'grad_norm': 0.141418918967247, 'learning_rate': 0.0004994221034079785, 'epoch': 0.05}
+{'loss': 1.632, 'grad_norm': 0.1466090828180313, 'learning_rate': 0.0004994079280238535, 'epoch': 0.05}
+{'loss': 1.6517, 'grad_norm': 0.17159029841423035, 'learning_rate': 0.0004993935810900003, 'epoch': 0.05}
+{'loss': 1.6438, 'grad_norm': 0.13109830021858215, 'learning_rate': 0.0004993790626162871, 'epoch': 0.05}
+{'loss': 1.6196, 'grad_norm': 0.1279815286397934, 'learning_rate': 0.0004993643726127002, 'epoch': 0.05}
+{'loss': 1.6503, 'grad_norm': 0.15570053458213806, 'learning_rate': 0.0004993495110893438, 'epoch': 0.05}
+{'loss': 1.6228, 'grad_norm': 0.11855941265821457, 'learning_rate': 0.0004993344780564399, 'epoch': 0.05}
+{'loss': 1.6103, 'grad_norm': 0.1589057743549347, 'learning_rate': 0.0004993192735243288, 'epoch': 0.05}
+{'loss': 1.6163, 'grad_norm': 0.14527525007724762, 'learning_rate': 0.0004993038975034684, 'epoch': 0.05}
+{'loss': 1.634, 'grad_norm': 0.1625804454088211, 'learning_rate': 0.000499288350004435, 'epoch': 0.05}
+{'loss': 1.6199, 'grad_norm': 0.13349629938602448, 'learning_rate': 0.0004992726310379227, 'epoch': 0.05}
+{'loss': 1.6278, 'grad_norm': 0.17987044155597687, 'learning_rate': 0.000499256740614743, 'epoch': 0.05}
+{'loss': 1.6302, 'grad_norm': 0.14925096929073334, 'learning_rate': 0.0004992406787458261, 'epoch': 0.05}
+{'loss': 1.5977, 'grad_norm': 0.18727092444896698, 'learning_rate': 0.0004992244454422198, 'epoch': 0.05}
+{'loss': 1.637, 'grad_norm': 0.21373799443244934, 'learning_rate': 0.0004992080407150897, 'epoch': 0.05}
+{'loss': 1.6581, 'grad_norm': 0.17232373356819153, 'learning_rate': 0.0004991914645757194, 'epoch': 0.06}
+{'loss': 1.6088, 'grad_norm': 0.19147969782352448, 'learning_rate': 0.0004991747170355106, 'epoch': 0.06}
+{'loss': 1.6297, 'grad_norm': 0.1826581209897995, 'learning_rate': 0.0004991577981059826, 'epoch': 0.06}
+{'loss': 1.628, 'grad_norm': 0.1596747636795044, 'learning_rate': 0.0004991407077987727, 'epoch': 0.06}
+{'loss': 1.6212, 'grad_norm': 0.16144470870494843, 'learning_rate': 0.0004991234461256363, 'epoch': 0.06}
+{'loss': 1.6143, 'grad_norm': 0.16806334257125854, 'learning_rate': 0.0004991060130984462, 'epoch': 0.06}
+{'loss': 1.601, 'grad_norm': 0.2079518884420395, 'learning_rate': 0.0004990884087291934, 'epoch': 0.06}
+{'loss': 1.621, 'grad_norm': 0.17265084385871887, 'learning_rate': 0.0004990706330299866, 'epoch': 0.06}
+{'loss': 1.5975, 'grad_norm': 0.16252492368221283, 'learning_rate': 0.0004990526860130526, 'epoch': 0.06}
+{'loss': 1.6474, 'grad_norm': 0.22902216017246246, 'learning_rate': 0.0004990345676907358, 'epoch': 0.06}
+{'loss': 1.6222, 'grad_norm': 0.13566932082176208, 'learning_rate': 0.0004990162780754984, 'epoch': 0.06}
+{'loss': 1.6046, 'grad_norm': 0.1997554451227188, 'learning_rate': 0.0004989978171799207, 'epoch': 0.06}
+{'loss': 1.596, 'grad_norm': 0.17677171528339386, 'learning_rate': 0.0004989791850167003, 'epoch': 0.06}
+{'loss': 1.605, 'grad_norm': 0.17954015731811523, 'learning_rate': 0.0004989603815986532, 'epoch': 0.06}
+{'loss': 1.6228, 'grad_norm': 0.16454920172691345, 'learning_rate': 0.0004989414069387128, 'epoch': 0.06}
+{'loss': 1.5961, 'grad_norm': 0.18575768172740936, 'learning_rate': 0.0004989222610499305, 'epoch': 0.06}
+{'loss': 1.6277, 'grad_norm': 0.1594945341348648, 'learning_rate': 0.0004989029439454752, 'epoch': 0.06}
+{'loss': 1.6618, 'grad_norm': 0.21301871538162231, 'learning_rate': 0.0004988834556386339, 'epoch': 0.06}
+{'loss': 1.6316, 'grad_norm': 0.18614904582500458, 'learning_rate': 0.0004988637961428112, 'epoch': 0.06}
+{'loss': 1.6007, 'grad_norm': 0.1672057807445526, 'learning_rate': 0.0004988439654715292, 'epoch': 0.06}
+{'loss': 1.5905, 'grad_norm': 0.1986985206604004, 'learning_rate': 0.0004988239636384284, 'epoch': 0.06}
+{'loss': 1.6084, 'grad_norm': 0.1665233075618744, 'learning_rate': 0.0004988037906572662, 'epoch': 0.06}
+{'loss': 1.6152, 'grad_norm': 0.17496280372142792, 'learning_rate': 0.0004987834465419185, 'epoch': 0.06}
+{'loss': 1.6024, 'grad_norm': 0.14221595227718353, 'learning_rate': 0.0004987629313063784, 'epoch': 0.06}
+{'loss': 1.588, 'grad_norm': 0.17356011271476746, 'learning_rate': 0.0004987422449647567, 'epoch': 0.06}
+{'loss': 1.5991, 'grad_norm': 0.14249825477600098, 'learning_rate': 0.0004987213875312823, 'epoch': 0.06}
+{'loss': 1.612, 'grad_norm': 0.1995125412940979, 'learning_rate': 0.0004987003590203014, 'epoch': 0.06}
+{'loss': 1.6078, 'grad_norm': 0.17780447006225586, 'learning_rate': 0.0004986791594462779, 'epoch': 0.06}
+{'loss': 1.6135, 'grad_norm': 0.1717158854007721, 'learning_rate': 0.0004986577888237936, 'epoch': 0.06}
+{'loss': 1.6102, 'grad_norm': 0.1671687364578247, 'learning_rate': 0.0004986362471675478, 'epoch': 0.06}
+{'loss': 1.6067, 'grad_norm': 0.16235877573490143, 'learning_rate': 0.0004986145344923575, 'epoch': 0.06}
+{'loss': 1.5948, 'grad_norm': 0.16013015806674957, 'learning_rate': 0.0004985926508131571, 'epoch': 0.06}
+{'loss': 1.6009, 'grad_norm': 0.15380197763442993, 'learning_rate': 0.000498570596144999, 'epoch': 0.06}
+{'loss': 1.6292, 'grad_norm': 0.19593489170074463, 'learning_rate': 0.000498548370503053, 'epoch': 0.06}
+{'loss': 1.5929, 'grad_norm': 0.13636687397956848, 'learning_rate': 0.0004985259739026062, 'epoch': 0.06}
+{'loss': 1.6186, 'grad_norm': 0.16092537343502045, 'learning_rate': 0.000498503406359064, 'epoch': 0.06}
+{'loss': 1.6031, 'grad_norm': 0.13147369027137756, 'learning_rate': 0.0004984806678879488, 'epoch': 0.06}
+{'loss': 1.5963, 'grad_norm': 0.1801702380180359, 'learning_rate': 0.0004984577585049008, 'epoch': 0.06}
+{'loss': 1.6086, 'grad_norm': 0.15106037259101868, 'learning_rate': 0.0004984346782256776, 'epoch': 0.06}
+{'loss': 1.6102, 'grad_norm': 0.18305189907550812, 'learning_rate': 0.0004984114270661547, 'epoch': 0.07}
+{'loss': 1.6122, 'grad_norm': 0.16161860525608063, 'learning_rate': 0.0004983880050423247, 'epoch': 0.07}
+{'loss': 1.6046, 'grad_norm': 0.1879136562347412, 'learning_rate': 0.0004983644121702981, 'epoch': 0.07}
+{'loss': 1.5908, 'grad_norm': 0.13786062598228455, 'learning_rate': 0.0004983406484663025, 'epoch': 0.07}
+{'loss': 1.6075, 'grad_norm': 0.20570240914821625, 'learning_rate': 0.0004983167139466834, 'epoch': 0.07}
+{'loss': 1.5956, 'grad_norm': 0.16336169838905334, 'learning_rate': 0.0004982926086279036, 'epoch': 0.07}
+{'loss': 1.6047, 'grad_norm': 0.18457980453968048, 'learning_rate': 0.0004982683325265434, 'epoch': 0.07}
+{'loss': 1.5927, 'grad_norm': 0.16791701316833496, 'learning_rate': 0.0004982438856593004, 'epoch': 0.07}
+{'loss': 1.6154, 'grad_norm': 0.18066394329071045, 'learning_rate': 0.0004982192680429902, 'epoch': 0.07}
+{'loss': 1.6036, 'grad_norm': 0.19902673363685608, 'learning_rate': 0.0004981944796945452, 'epoch': 0.07}
+{'loss': 1.5931, 'grad_norm': 0.15901020169258118, 'learning_rate': 0.0004981695206310156, 'epoch': 0.07}
+{'loss': 1.6219, 'grad_norm': 0.17332401871681213, 'learning_rate': 0.0004981443908695691, 'epoch': 0.07}
+{'loss': 1.5971, 'grad_norm': 0.16811800003051758, 'learning_rate': 0.0004981190904274904, 'epoch': 0.07}
+{'loss': 1.59, 'grad_norm': 0.18117058277130127, 'learning_rate': 0.000498093619322182, 'epoch': 0.07}
+{'loss': 1.5993, 'grad_norm': 0.12293186038732529, 'learning_rate': 0.0004980679775711635, 'epoch': 0.07}
+{'loss': 1.5823, 'grad_norm': 0.16174186766147614, 'learning_rate': 0.0004980421651920721, 'epoch': 0.07}
+{'loss': 1.5764, 'grad_norm': 0.1526050716638565, 'learning_rate': 0.0004980161822026624, 'epoch': 0.07}
+{'loss': 1.6107, 'grad_norm': 0.15154826641082764, 'learning_rate': 0.000497990028620806, 'epoch': 0.07}
+{'loss': 1.6063, 'grad_norm': 0.18318615853786469, 'learning_rate': 0.0004979637044644921, 'epoch': 0.07}
+{'loss': 1.5902, 'grad_norm': 0.1625235229730606, 'learning_rate': 0.0004979372097518274, 'epoch': 0.07}
+{'loss': 1.5917, 'grad_norm': 0.20143191516399384, 'learning_rate': 0.0004979105445010355, 'epoch': 0.07}
+{'loss': 1.6007, 'grad_norm': 0.16137689352035522, 'learning_rate': 0.0004978837087304575, 'epoch': 0.07}
+{'loss': 1.5966, 'grad_norm': 0.13498181104660034, 'learning_rate': 0.0004978567024585519, 'epoch': 0.07}
+{'loss': 1.5851, 'grad_norm': 0.14632102847099304, 'learning_rate': 0.0004978295257038942, 'epoch': 0.07}
+{'loss': 1.5782, 'grad_norm': 0.1480657160282135, 'learning_rate': 0.0004978021784851776, 'epoch': 0.07}
+{'loss': 1.605, 'grad_norm': 0.19313469529151917, 'learning_rate': 0.0004977746608212122, 'epoch': 0.07}
+{'loss': 1.567, 'grad_norm': 0.19141227006912231, 'learning_rate': 0.0004977469727309251, 'epoch': 0.07}
+{'loss': 1.5913, 'grad_norm': 0.1737728863954544, 'learning_rate': 0.0004977191142333614, 'epoch': 0.07}
+{'loss': 1.5707, 'grad_norm': 0.16323508322238922, 'learning_rate': 0.0004976910853476826, 'epoch': 0.07}
+{'loss': 1.5946, 'grad_norm': 0.15695732831954956, 'learning_rate': 0.0004976628860931679, 'epoch': 0.07}
+{'loss': 1.5944, 'grad_norm': 0.17956772446632385, 'learning_rate': 0.0004976345164892134, 'epoch': 0.07}
+{'loss': 1.59, 'grad_norm': 0.15955451130867004, 'learning_rate': 0.0004976059765553328, 'epoch': 0.07}
+{'loss': 1.5675, 'grad_norm': 0.17831376194953918, 'learning_rate': 0.0004975772663111564, 'epoch': 0.07}
+{'loss': 1.6068, 'grad_norm': 0.1671890914440155, 'learning_rate': 0.0004975483857764321, 'epoch': 0.07}
+{'loss': 1.5832, 'grad_norm': 0.17440709471702576, 'learning_rate': 0.0004975193349710245, 'epoch': 0.07}
+{'loss': 1.5815, 'grad_norm': 0.26418760418891907, 'learning_rate': 0.0004974901139149158, 'epoch': 0.07}
+{'loss': 1.5789, 'grad_norm': 0.25599128007888794, 'learning_rate': 0.0004974607226282047, 'epoch': 0.07}
+{'loss': 1.5747, 'grad_norm': 0.15548816323280334, 'learning_rate': 0.0004974311611311078, 'epoch': 0.07}
+{'loss': 1.5731, 'grad_norm': 0.2167474627494812, 'learning_rate': 0.000497401429443958, 'epoch': 0.07}
+{'loss': 1.5648, 'grad_norm': 0.23068517446517944, 'learning_rate': 0.0004973715275872058, 'epoch': 0.08}
+{'loss': 1.5806, 'grad_norm': 0.1336120069026947, 'learning_rate': 0.0004973414555814184, 'epoch': 0.08}
+{'loss': 1.5774, 'grad_norm': 0.1769775003194809, 'learning_rate': 0.0004973112134472801, 'epoch': 0.08}
+{'loss': 1.5919, 'grad_norm': 0.17619742453098297, 'learning_rate': 0.0004972808012055923, 'epoch': 0.08}
+{'loss': 1.5831, 'grad_norm': 0.14164605736732483, 'learning_rate': 0.0004972502188772737, 'epoch': 0.08}
+{'loss': 1.5931, 'grad_norm': 0.17947277426719666, 'learning_rate': 0.0004972194664833593, 'epoch': 0.08}
+{'loss': 1.6031, 'grad_norm': 0.16274826228618622, 'learning_rate': 0.0004971885440450016, 'epoch': 0.08}
+{'loss': 1.5655, 'grad_norm': 0.17894890904426575, 'learning_rate': 0.00049715745158347, 'epoch': 0.08}
+{'loss': 1.5773, 'grad_norm': 0.23239225149154663, 'learning_rate': 0.0004971261891201505, 'epoch': 0.08}
+{'loss': 1.5812, 'grad_norm': 0.18928150832653046, 'learning_rate': 0.0004970947566765465, 'epoch': 0.08}
+{'loss': 1.5658, 'grad_norm': 0.12807101011276245, 'learning_rate': 0.0004970631542742781, 'epoch': 0.08}
+{'loss': 1.5875, 'grad_norm': 0.15180142223834991, 'learning_rate': 0.0004970313819350822, 'epoch': 0.08}
+{'loss': 1.577, 'grad_norm': 0.1271049529314041, 'learning_rate': 0.000496999439680813, 'epoch': 0.08}
+{'loss': 1.5696, 'grad_norm': 0.18987806141376495, 'learning_rate': 0.0004969673275334409, 'epoch': 0.08}
+{'loss': 1.5855, 'grad_norm': 0.18950216472148895, 'learning_rate': 0.0004969350455150536, 'epoch': 0.08}
+{'loss': 1.5541, 'grad_norm': 0.14545124769210815, 'learning_rate': 0.0004969025936478558, 'epoch': 0.08}
+{'loss': 1.5981, 'grad_norm': 0.18558698892593384, 'learning_rate': 0.0004968699719541687, 'epoch': 0.08}
+{'loss': 1.5632, 'grad_norm': 0.15578462183475494, 'learning_rate': 0.0004968371804564304, 'epoch': 0.08}
+{'loss': 1.549, 'grad_norm': 0.213335320353508, 'learning_rate': 0.0004968042191771956, 'epoch': 0.08}
+{'loss': 1.5635, 'grad_norm': 0.15682756900787354, 'learning_rate': 0.0004967710881391363, 'epoch': 0.08}
+{'loss': 1.5791, 'grad_norm': 0.1992141306400299, 'learning_rate': 0.0004967377873650407, 'epoch': 0.08}
+{'loss': 1.5497, 'grad_norm': 0.20655500888824463, 'learning_rate': 0.0004967043168778143, 'epoch': 0.08}
+{'loss': 1.5556, 'grad_norm': 0.20396484434604645, 'learning_rate': 0.0004966706767004787, 'epoch': 0.08}
+{'loss': 1.582, 'grad_norm': 0.1806524097919464, 'learning_rate': 0.0004966368668561727, 'epoch': 0.08}
+{'loss': 1.5911, 'grad_norm': 0.176025390625, 'learning_rate': 0.0004966028873681517, 'epoch': 0.08}
+{'loss': 1.5788, 'grad_norm': 0.14800730347633362, 'learning_rate': 0.0004965687382597878, 'epoch': 0.08}
+{'loss': 1.6162, 'grad_norm': 0.16725413501262665, 'learning_rate': 0.0004965344195545694, 'epoch': 0.08}
+{'loss': 1.5691, 'grad_norm': 0.18381589651107788, 'learning_rate': 0.0004964999312761023, 'epoch': 0.08}
+{'loss': 1.5701, 'grad_norm': 0.16970886290073395, 'learning_rate': 0.0004964652734481082, 'epoch': 0.08}
+{'loss': 1.5979, 'grad_norm': 0.19220216572284698, 'learning_rate': 0.0004964304460944257, 'epoch': 0.08}
+{'loss': 1.5791, 'grad_norm': 0.18318815529346466, 'learning_rate': 0.0004963954492390101, 'epoch': 0.08}
+{'loss': 1.5881, 'grad_norm': 0.24898892641067505, 'learning_rate': 0.0004963602829059334, 'epoch': 0.08}
+{'loss': 1.5669, 'grad_norm': 0.17993834614753723, 'learning_rate': 0.0004963249471193837, 'epoch': 0.08}
+{'loss': 1.562, 'grad_norm': 0.19461745023727417, 'learning_rate': 0.0004962894419036661, 'epoch': 0.08}
+{'loss': 1.5599, 'grad_norm': 0.15598949790000916, 'learning_rate': 0.0004962537672832019, 'epoch': 0.08}
+{'loss': 1.567, 'grad_norm': 0.1995529979467392, 'learning_rate': 0.0004962179232825294, 'epoch': 0.08}
+{'loss': 1.5726, 'grad_norm': 0.1968834400177002, 'learning_rate': 0.0004961819099263029, 'epoch': 0.08}
+{'loss': 1.5798, 'grad_norm': 0.1760016232728958, 'learning_rate': 0.0004961457272392933, 'epoch': 0.08}
+{'loss': 1.5854, 'grad_norm': 0.2036583423614502, 'learning_rate': 0.0004961093752463882, 'epoch': 0.08}
+{'loss': 1.5701, 'grad_norm': 0.2704378664493561, 'learning_rate': 0.0004960728539725916, 'epoch': 0.08}
+{'loss': 1.5553, 'grad_norm': 0.22502264380455017, 'learning_rate': 0.0004960361634430238, 'epoch': 0.09}
+{'loss': 1.5619, 'grad_norm': 0.16403347253799438, 'learning_rate': 0.0004959993036829214, 'epoch': 0.09}
+{'loss': 1.5675, 'grad_norm': 0.2250550091266632, 'learning_rate': 0.0004959622747176377, 'epoch': 0.09}
+{'loss': 1.5789, 'grad_norm': 0.24361352622509003, 'learning_rate': 0.0004959250765726422, 'epoch': 0.09}
+{'loss': 1.5767, 'grad_norm': 0.20174163579940796, 'learning_rate': 0.000495887709273521, 'epoch': 0.09}
+{'loss': 1.5644, 'grad_norm': 0.19505327939987183, 'learning_rate': 0.0004958501728459762, 'epoch': 0.09}
+{'loss': 1.5596, 'grad_norm': 0.28472796082496643, 'learning_rate': 0.0004958124673158264, 'epoch': 0.09}
+{'loss': 1.5731, 'grad_norm': 0.1940130740404129, 'learning_rate': 0.0004957745927090066, 'epoch': 0.09}
+{'loss': 1.566, 'grad_norm': 0.24468815326690674, 'learning_rate': 0.0004957365490515679, 'epoch': 0.09}
+{'loss': 1.5373, 'grad_norm': 0.2362736165523529, 'learning_rate': 0.0004956983363696779, 'epoch': 0.09}
+{'loss': 1.5627, 'grad_norm': 0.22015473246574402, 'learning_rate': 0.0004956599546896203, 'epoch': 0.09}
+{'loss': 1.5599, 'grad_norm': 0.23087111115455627, 'learning_rate': 0.000495621404037795, 'epoch': 0.09}
+{'loss': 1.5353, 'grad_norm': 0.21882233023643494, 'learning_rate': 0.0004955826844407185, 'epoch': 0.09}
+{'loss': 1.5476, 'grad_norm': 0.24653026461601257, 'learning_rate': 0.0004955437959250228, 'epoch': 0.09}
+{'loss': 1.5261, 'grad_norm': 0.2281084805727005, 'learning_rate': 0.0004955047385174568, 'epoch': 0.09}
+{'loss': 1.5536, 'grad_norm': 0.2546893060207367, 'learning_rate': 0.0004954655122448852, 'epoch': 0.09}
+{'loss': 1.5599, 'grad_norm': 0.17120298743247986, 'learning_rate': 0.000495426117134289, 'epoch': 0.09}
+{'loss': 1.5732, 'grad_norm': 0.20848329365253448, 'learning_rate': 0.0004953865532127652, 'epoch': 0.09}
+{'loss': 1.5662, 'grad_norm': 0.17878878116607666, 'learning_rate': 0.0004953468205075269, 'epoch': 0.09}
+{'loss': 1.559, 'grad_norm': 0.19922664761543274, 'learning_rate': 0.0004953069190459033, 'epoch': 0.09}
+{'loss': 1.5597, 'grad_norm': 0.16451020538806915, 'learning_rate': 0.00049526684885534, 'epoch': 0.09}
+{'loss': 1.5544, 'grad_norm': 0.19267386198043823, 'learning_rate': 0.0004952266099633982, 'epoch': 0.09}
+{'loss': 1.553, 'grad_norm': 0.22905689477920532, 'learning_rate': 0.0004951862023977555, 'epoch': 0.09}
+{'loss': 1.5921, 'grad_norm': 0.19930127263069153, 'learning_rate': 0.0004951456261862051, 'epoch': 0.09}
+{'loss': 1.5554, 'grad_norm': 0.17330162227153778, 'learning_rate': 0.0004951048813566565, 'epoch': 0.09}
+{'loss': 1.5431, 'grad_norm': 0.18153053522109985, 'learning_rate': 0.0004950639679371353, 'epoch': 0.09}
+{'loss': 1.559, 'grad_norm': 0.1791265457868576, 'learning_rate': 0.0004950228859557828, 'epoch': 0.09}
+{'loss': 1.549, 'grad_norm': 0.1867760419845581, 'learning_rate': 0.0004949816354408564, 'epoch': 0.09}
+{'loss': 1.5702, 'grad_norm': 0.23348531126976013, 'learning_rate': 0.0004949402164207291, 'epoch': 0.09}
+{'loss': 1.5446, 'grad_norm': 0.18675361573696136, 'learning_rate': 0.0004948986289238904, 'epoch': 0.09}
+{'loss': 1.5472, 'grad_norm': 0.2002701759338379, 'learning_rate': 0.0004948568729789452, 'epoch': 0.09}
+{'loss': 1.5611, 'grad_norm': 0.18958677351474762, 'learning_rate': 0.0004948149486146143, 'epoch': 0.09}
+{'loss': 1.5458, 'grad_norm': 0.14910660684108734, 'learning_rate': 0.0004947728558597346, 'epoch': 0.09}
+{'loss': 1.5428, 'grad_norm': 0.20049415528774261, 'learning_rate': 0.0004947305947432585, 'epoch': 0.09}
+{'loss': 1.5427, 'grad_norm': 0.16689440608024597, 'learning_rate': 0.0004946881652942546, 'epoch': 0.09}
+{'loss': 1.574, 'grad_norm': 0.1854804903268814, 'learning_rate': 0.000494645567541907, 'epoch': 0.09}
+{'loss': 1.5475, 'grad_norm': 0.1631069779396057, 'learning_rate': 0.0004946028015155153, 'epoch': 0.09}
+{'loss': 1.5469, 'grad_norm': 0.17693950235843658, 'learning_rate': 0.0004945598672444956, 'epoch': 0.09}
+{'loss': 1.5397, 'grad_norm': 0.17193962633609772, 'learning_rate': 0.0004945167647583791, 'epoch': 0.09}
+{'loss': 1.5477, 'grad_norm': 0.2214989960193634, 'learning_rate': 0.000494473494086813, 'epoch': 0.1}
+{'loss': 1.549, 'grad_norm': 0.16339392960071564, 'learning_rate': 0.0004944300552595598, 'epoch': 0.1}
+{'loss': 1.5502, 'grad_norm': 0.2162376046180725, 'learning_rate': 0.0004943864483064981, 'epoch': 0.1}
+{'loss': 1.5638, 'grad_norm': 0.2567339837551117, 'learning_rate': 0.0004943426732576221, 'epoch': 0.1}
+{'loss': 1.5517, 'grad_norm': 0.18900197744369507, 'learning_rate': 0.0004942987301430415, 'epoch': 0.1}
+{'loss': 1.5494, 'grad_norm': 0.23915235698223114, 'learning_rate': 0.0004942546189929814, 'epoch': 0.1}
+{'loss': 1.5401, 'grad_norm': 0.2477470487356186, 'learning_rate': 0.0004942103398377827, 'epoch': 0.1}
+{'loss': 1.5548, 'grad_norm': 0.19909632205963135, 'learning_rate': 0.0004941658927079019, 'epoch': 0.1}
+{'loss': 1.5601, 'grad_norm': 0.22997505962848663, 'learning_rate': 0.0004941212776339111, 'epoch': 0.1}
+{'loss': 1.559, 'grad_norm': 0.18791623413562775, 'learning_rate': 0.0004940764946464976, 'epoch': 0.1}
+{'loss': 1.5599, 'grad_norm': 0.27118223905563354, 'learning_rate': 0.0004940315437764645, 'epoch': 0.1}
+{'loss': 1.5577, 'grad_norm': 0.16731518507003784, 'learning_rate': 0.0004939864250547302, 'epoch': 0.1}
+{'loss': 1.549, 'grad_norm': 0.2250460833311081, 'learning_rate': 0.0004939411385123288, 'epoch': 0.1}
+{'loss': 1.5506, 'grad_norm': 0.16387879848480225, 'learning_rate': 0.0004938956841804093, 'epoch': 0.1}
+{'loss': 1.5499, 'grad_norm': 0.17432481050491333, 'learning_rate': 0.0004938500620902367, 'epoch': 0.1}
+{'loss': 1.5441, 'grad_norm': 0.1601562798023224, 'learning_rate': 0.0004938042722731911, 'epoch': 0.1}
+{'loss': 1.5383, 'grad_norm': 0.18526729941368103, 'learning_rate': 0.0004937583147607681, 'epoch': 0.1}
+{'loss': 1.5568, 'grad_norm': 0.21199721097946167, 'learning_rate': 0.0004937121895845783, 'epoch': 0.1}
+{'loss': 1.5585, 'grad_norm': 0.22323490679264069, 'learning_rate': 0.0004936658967763481, 'epoch': 0.1}
+{'loss': 1.5603, 'grad_norm': 0.21550299227237701, 'learning_rate': 0.000493619436367919, 'epoch': 0.1}
+{'loss': 1.5785, 'grad_norm': 0.17144255340099335, 'learning_rate': 0.0004935728083912477, 'epoch': 0.1}
+{'loss': 1.5467, 'grad_norm': 0.278963178396225, 'learning_rate': 0.0004935260128784061, 'epoch': 0.1}
+{'loss': 1.5305, 'grad_norm': 0.14517933130264282, 'learning_rate': 0.0004934790498615817, 'epoch': 0.1}
+{'loss': 1.5549, 'grad_norm': 0.23580621182918549, 'learning_rate': 0.0004934319193730767, 'epoch': 0.1}
+{'loss': 1.5328, 'grad_norm': 0.1889934539794922, 'learning_rate': 0.0004933846214453091, 'epoch': 0.1}
+{'loss': 1.5626, 'grad_norm': 0.2105470448732376, 'learning_rate': 0.0004933371561108114, 'epoch': 0.1}
+{'loss': 1.5323, 'grad_norm': 0.1931232213973999, 'learning_rate': 0.0004932895234022319, 'epoch': 0.1}
+{'loss': 1.5415, 'grad_norm': 0.20399494469165802, 'learning_rate': 0.0004932417233523334, 'epoch': 0.1}
+{'loss': 1.5616, 'grad_norm': 0.18750345706939697, 'learning_rate': 0.0004931937559939942, 'epoch': 0.1}
+{'loss': 1.5467, 'grad_norm': 0.17447632551193237, 'learning_rate': 0.0004931456213602078, 'epoch': 0.1}
+{'loss': 1.5418, 'grad_norm': 0.2035011202096939, 'learning_rate': 0.0004930973194840823, 'epoch': 0.1}
+{'loss': 1.5193, 'grad_norm': 0.18516308069229126, 'learning_rate': 0.000493048850398841, 'epoch': 0.1}
+{'loss': 1.5334, 'grad_norm': 0.19130077958106995, 'learning_rate': 0.0004930002141378227, 'epoch': 0.1}
+{'loss': 1.545, 'grad_norm': 0.15222309529781342, 'learning_rate': 0.0004929514107344803, 'epoch': 0.1}
+{'loss': 1.549, 'grad_norm': 0.1887984722852707, 'learning_rate': 0.0004929024402223826, 'epoch': 0.1}
+{'loss': 1.5594, 'grad_norm': 0.15187039971351624, 'learning_rate': 0.0004928533026352124, 'epoch': 0.1}
+{'loss': 1.5565, 'grad_norm': 0.1585506945848465, 'learning_rate': 0.0004928039980067681, 'epoch': 0.1}
+{'loss': 1.5632, 'grad_norm': 0.15909433364868164, 'learning_rate': 0.0004927545263709631, 'epoch': 0.1}
+{'loss': 1.5393, 'grad_norm': 0.17360295355319977, 'learning_rate': 0.0004927048877618249, 'epoch': 0.1}
+{'loss': 1.5498, 'grad_norm': 0.1714085340499878, 'learning_rate': 0.0004926550822134967, 'epoch': 0.11}
+{'loss': 1.5536, 'grad_norm': 0.20237866044044495, 'learning_rate': 0.0004926051097602359, 'epoch': 0.11}
+{'loss': 1.5458, 'grad_norm': 0.16598008573055267, 'learning_rate': 0.0004925549704364149, 'epoch': 0.11}
+{'loss': 1.5433, 'grad_norm': 0.1624635010957718, 'learning_rate': 0.0004925046642765212, 'epoch': 0.11}
+{'loss': 1.5423, 'grad_norm': 0.19474586844444275, 'learning_rate': 0.0004924541913151566, 'epoch': 0.11}
+{'loss': 1.546, 'grad_norm': 0.17459280788898468, 'learning_rate': 0.0004924035515870379, 'epoch': 0.11}
+{'loss': 1.5498, 'grad_norm': 0.14564982056617737, 'learning_rate': 0.0004923527451269964, 'epoch': 0.11}
+{'loss': 1.5219, 'grad_norm': 0.17635032534599304, 'learning_rate': 0.0004923017719699782, 'epoch': 0.11}
+{'loss': 1.5438, 'grad_norm': 0.13333190977573395, 'learning_rate': 0.0004922506321510441, 'epoch': 0.11}
+{'loss': 1.5477, 'grad_norm': 0.19711533188819885, 'learning_rate': 0.0004921993257053696, 'epoch': 0.11}
+{'loss': 1.5382, 'grad_norm': 0.1383354812860489, 'learning_rate': 0.0004921478526682446, 'epoch': 0.11}
+{'loss': 1.5476, 'grad_norm': 0.18834252655506134, 'learning_rate': 0.0004920962130750737, 'epoch': 0.11}
+{'loss': 1.5577, 'grad_norm': 0.19547589123249054, 'learning_rate': 0.000492044406961376, 'epoch': 0.11}
+{'loss': 1.5265, 'grad_norm': 0.14431573450565338, 'learning_rate': 0.0004919924343627853, 'epoch': 0.11}
+{'loss': 1.5454, 'grad_norm': 0.18306918442249298, 'learning_rate': 0.0004919402953150498, 'epoch': 0.11}
+{'loss': 1.5465, 'grad_norm': 0.20133879780769348, 'learning_rate': 0.0004918879898540321, 'epoch': 0.11}
+{'loss': 1.5417, 'grad_norm': 0.1797170788049698, 'learning_rate': 0.0004918355180157094, 'epoch': 0.11}
+{'loss': 1.5354, 'grad_norm': 0.1776246428489685, 'learning_rate': 0.0004917828798361732, 'epoch': 0.11}
+{'loss': 1.5412, 'grad_norm': 0.1820884644985199, 'learning_rate': 0.0004917300753516296, 'epoch': 0.11}
+{'loss': 1.5378, 'grad_norm': 0.1886231005191803, 'learning_rate': 0.0004916771045983991, 'epoch': 0.11}
+{'loss': 1.5328, 'grad_norm': 0.1697022169828415, 'learning_rate': 0.0004916239676129163, 'epoch': 0.11}
+{'loss': 1.5408, 'grad_norm': 0.18368875980377197, 'learning_rate': 0.0004915706644317303, 'epoch': 0.11}
+{'loss': 1.5518, 'grad_norm': 0.222049281001091, 'learning_rate': 0.0004915171950915047, 'epoch': 0.11}
+{'loss': 1.538, 'grad_norm': 0.17564213275909424, 'learning_rate': 0.000491463559629017, 'epoch': 0.11}
+{'loss': 1.5352, 'grad_norm': 0.1771424263715744, 'learning_rate': 0.0004914097580811592, 'epoch': 0.11}
+{'loss': 1.5428, 'grad_norm': 0.21430626511573792, 'learning_rate': 0.0004913557904849377, 'epoch': 0.11}
+{'loss': 1.5306, 'grad_norm': 0.22700366377830505, 'learning_rate': 0.0004913016568774725, 'epoch': 0.11}
+{'loss': 1.5465, 'grad_norm': 0.1511220484972, 'learning_rate': 0.0004912473572959987, 'epoch': 0.11}
+{'loss': 1.5393, 'grad_norm': 0.214518740773201, 'learning_rate': 0.0004911928917778648, 'epoch': 0.11}
+{'loss': 1.5361, 'grad_norm': 0.1685868203639984, 'learning_rate': 0.0004911382603605337, 'epoch': 0.11}
+{'loss': 1.5392, 'grad_norm': 0.16938930749893188, 'learning_rate': 0.0004910834630815823, 'epoch': 0.11}
+{'loss': 1.5544, 'grad_norm': 0.1711755394935608, 'learning_rate': 0.000491028499978702, 'epoch': 0.11}
+{'loss': 1.5268, 'grad_norm': 0.1544778198003769, 'learning_rate': 0.0004909733710896978, 'epoch': 0.11}
+{'loss': 1.5202, 'grad_norm': 0.15769806504249573, 'learning_rate': 0.0004909180764524889, 'epoch': 0.11}
+{'loss': 1.5467, 'grad_norm': 0.17423534393310547, 'learning_rate': 0.0004908626161051084, 'epoch': 0.11}
+{'loss': 1.5362, 'grad_norm': 0.12807004153728485, 'learning_rate': 0.0004908069900857036, 'epoch': 0.11}
+{'loss': 1.5551, 'grad_norm': 0.1760026514530182, 'learning_rate': 0.0004907511984325356, 'epoch': 0.11}
+{'loss': 1.5421, 'grad_norm': 0.14476631581783295, 'learning_rate': 0.0004906952411839794, 'epoch': 0.11}
+{'loss': 1.5254, 'grad_norm': 0.16579671204090118, 'learning_rate': 0.0004906391183785241, 'epoch': 0.11}
+{'loss': 1.5252, 'grad_norm': 0.13964685797691345, 'learning_rate': 0.0004905828300547722, 'epoch': 0.12}
+{'loss': 1.5239, 'grad_norm': 0.17141085863113403, 'learning_rate': 0.0004905263762514408, 'epoch': 0.12}
+{'loss': 1.5298, 'grad_norm': 0.15461097657680511, 'learning_rate': 0.0004904697570073602, 'epoch': 0.12}
+{'loss': 1.5484, 'grad_norm': 0.14893534779548645, 'learning_rate': 0.0004904129723614746, 'epoch': 0.12}
+{'loss': 1.5615, 'grad_norm': 0.16944396495819092, 'learning_rate': 0.0004903560223528422, 'epoch': 0.12}
+{'loss': 1.5566, 'grad_norm': 0.182336688041687, 'learning_rate': 0.0004902989070206347, 'epoch': 0.12}
+{'loss': 1.5474, 'grad_norm': 0.19482402503490448, 'learning_rate': 0.0004902416264041377, 'epoch': 0.12}
+{'loss': 1.5404, 'grad_norm': 0.19365890324115753, 'learning_rate': 0.0004901841805427505, 'epoch': 0.12}
+{'loss': 1.5294, 'grad_norm': 0.1445765346288681, 'learning_rate': 0.0004901265694759858, 'epoch': 0.12}
+{'loss': 1.5369, 'grad_norm': 0.16848798096179962, 'learning_rate': 0.0004900687932434701, 'epoch': 0.12}
+{'loss': 1.5575, 'grad_norm': 0.1511148363351822, 'learning_rate': 0.0004900108518849437, 'epoch': 0.12}
+{'loss': 1.5575, 'grad_norm': 0.1554892212152481, 'learning_rate': 0.00048995274544026, 'epoch': 0.12}
+{'loss': 1.5355, 'grad_norm': 0.14218983054161072, 'learning_rate': 0.0004898944739493864, 'epoch': 0.12}
+{'loss': 1.5258, 'grad_norm': 0.16479459404945374, 'learning_rate': 0.0004898360374524036, 'epoch': 0.12}
+{'loss': 1.5383, 'grad_norm': 0.14791977405548096, 'learning_rate': 0.0004897774359895058, 'epoch': 0.12}
+{'loss': 1.5107, 'grad_norm': 0.14887118339538574, 'learning_rate': 0.0004897186696010009, 'epoch': 0.12}
+{'loss': 1.5382, 'grad_norm': 0.17385469377040863, 'learning_rate': 0.00048965973832731, 'epoch': 0.12}
+{'loss': 1.4996, 'grad_norm': 0.1409602165222168, 'learning_rate': 0.0004896006422089676, 'epoch': 0.12}
+{'loss': 1.5697, 'grad_norm': 0.17816264927387238, 'learning_rate': 0.0004895413812866218, 'epoch': 0.12}
+{'loss': 1.5458, 'grad_norm': 0.15697914361953735, 'learning_rate': 0.0004894819556010337, 'epoch': 0.12}
+{'loss': 1.537, 'grad_norm': 0.14432577788829803, 'learning_rate': 0.000489422365193078, 'epoch': 0.12}
+{'loss': 1.5739, 'grad_norm': 0.16781450808048248, 'learning_rate': 0.0004893626101037427, 'epoch': 0.12}
+{'loss': 1.5322, 'grad_norm': 0.18766050040721893, 'learning_rate': 0.0004893026903741291, 'epoch': 0.12}
+{'loss': 1.526, 'grad_norm': 0.1530696451663971, 'learning_rate': 0.0004892426060454515, 'epoch': 0.12}
+{'loss': 1.5426, 'grad_norm': 0.17755179107189178, 'learning_rate': 0.0004891823571590377, 'epoch': 0.12}
+{'loss': 1.5366, 'grad_norm': 0.19397889077663422, 'learning_rate': 0.0004891219437563285, 'epoch': 0.12}
+{'loss': 1.555, 'grad_norm': 0.13137993216514587, 'learning_rate': 0.0004890613658788779, 'epoch': 0.12}
+{'loss': 1.5333, 'grad_norm': 0.15910248458385468, 'learning_rate': 0.0004890006235683532, 'epoch': 0.12}
+{'loss': 1.5236, 'grad_norm': 0.13806481659412384, 'learning_rate': 0.0004889397168665345, 'epoch': 0.12}
+{'loss': 1.5576, 'grad_norm': 0.15431848168373108, 'learning_rate': 0.0004888786458153151, 'epoch': 0.12}
+{'loss': 1.5383, 'grad_norm': 0.15643009543418884, 'learning_rate': 0.0004888174104567015, 'epoch': 0.12}
+{'loss': 1.5488, 'grad_norm': 0.18215057253837585, 'learning_rate': 0.000488756010832813, 'epoch': 0.12}
+{'loss': 1.5256, 'grad_norm': 0.17503467202186584, 'learning_rate': 0.000488694446985882, 'epoch': 0.12}
+{'loss': 1.5418, 'grad_norm': 0.15702413022518158, 'learning_rate': 0.0004886327189582538, 'epoch': 0.12}
+{'loss': 1.5269, 'grad_norm': 0.24555523693561554, 'learning_rate': 0.0004885708267923869, 'epoch': 0.12}
+{'loss': 1.5324, 'grad_norm': 0.17142172157764435, 'learning_rate': 0.0004885087705308521, 'epoch': 0.12}
+{'loss': 1.5216, 'grad_norm': 0.18448270857334137, 'learning_rate': 0.0004884465502163337, 'epoch': 0.12}
+{'loss': 1.5783, 'grad_norm': 0.22265854477882385, 'learning_rate': 0.0004883841658916284, 'epoch': 0.12}
+{'loss': 1.5391, 'grad_norm': 0.19217446446418762, 'learning_rate': 0.0004883216175996458, 'epoch': 0.12}
+{'loss': 1.5493, 'grad_norm': 0.2072528749704361, 'learning_rate': 0.0004882589053834086, 'epoch': 0.13}
+{'loss': 1.5211, 'grad_norm': 0.19373898208141327, 'learning_rate': 0.0004881960292860518, 'epoch': 0.13}
+{'loss': 1.5124, 'grad_norm': 0.23119686543941498, 'learning_rate': 0.0004881329893508235, 'epoch': 0.13}
+{'loss': 1.5315, 'grad_norm': 0.1523323804140091, 'learning_rate': 0.0004880697856210843, 'epoch': 0.13}
+{'loss': 1.5282, 'grad_norm': 0.27013063430786133, 'learning_rate': 0.00048800641814030746, 'epoch': 0.13}
+{'loss': 1.5384, 'grad_norm': 0.1557670384645462, 'learning_rate': 0.0004879428869520788, 'epoch': 0.13}
+{'loss': 1.531, 'grad_norm': 0.21207185089588165, 'learning_rate': 0.00048787919210009693, 'epoch': 0.13}
+{'loss': 1.5279, 'grad_norm': 0.15337851643562317, 'learning_rate': 0.000487815333628173, 'epoch': 0.13}
+{'loss': 1.5145, 'grad_norm': 0.18394632637500763, 'learning_rate': 0.00048775131158023056, 'epoch': 0.13}
+{'loss': 1.5224, 'grad_norm': 0.17598006129264832, 'learning_rate': 0.0004876871260003058, 'epoch': 0.13}
+{'loss': 1.5278, 'grad_norm': 0.1780066192150116, 'learning_rate': 0.0004876227769325473, 'epoch': 0.13}
+{'loss': 1.5386, 'grad_norm': 0.15523523092269897, 'learning_rate': 0.0004875582644212163, 'epoch': 0.13}
+{'loss': 1.5518, 'grad_norm': 0.19068625569343567, 'learning_rate': 0.00048749358851068607, 'epoch': 0.13}
+{'loss': 1.5667, 'grad_norm': 0.16080179810523987, 'learning_rate': 0.0004874287492454427, 'epoch': 0.13}
+{'loss': 1.5536, 'grad_norm': 0.21841730177402496, 'learning_rate': 0.0004873637466700843, 'epoch': 0.13}
+{'loss': 1.5187, 'grad_norm': 0.16638407111167908, 'learning_rate': 0.0004872985808293216, 'epoch': 0.13}
+{'loss': 1.5247, 'grad_norm': 0.18591834604740143, 'learning_rate': 0.0004872332517679774, 'epoch': 0.13}
+{'loss': 1.5073, 'grad_norm': 0.1518269032239914, 'learning_rate': 0.0004871677595309868, 'epoch': 0.13}
+{'loss': 1.5225, 'grad_norm': 0.1561555415391922, 'learning_rate': 0.0004871021041633973, 'epoch': 0.13}
+{'loss': 1.5205, 'grad_norm': 0.1313522756099701, 'learning_rate': 0.0004870362857103684, 'epoch': 0.13}
+{'loss': 1.5221, 'grad_norm': 0.159900963306427, 'learning_rate': 0.00048697030421717194, 'epoch': 0.13}
+{'loss': 1.5066, 'grad_norm': 0.14384151995182037, 'learning_rate': 0.00048690415972919176, 'epoch': 0.13}
+{'loss': 1.5141, 'grad_norm': 0.15491479635238647, 'learning_rate': 0.000486837852291924, 'epoch': 0.13}
+{'loss': 1.516, 'grad_norm': 0.1371542364358902, 'learning_rate': 0.0004867713819509766, 'epoch': 0.13}
+{'loss': 1.5246, 'grad_norm': 0.15804961323738098, 'learning_rate': 0.0004867047487520698, 'epoch': 0.13}
+{'loss': 1.5312, 'grad_norm': 0.12297387421131134, 'learning_rate': 0.00048663795274103585, 'epoch': 0.13}
+{'loss': 1.5343, 'grad_norm': 0.16774503886699677, 'learning_rate': 0.0004865709939638188, 'epoch': 0.13}
+{'loss': 1.5297, 'grad_norm': 0.15868180990219116, 'learning_rate': 0.0004865038724664747, 'epoch': 0.13}
+{'loss': 1.5184, 'grad_norm': 0.17306914925575256, 'learning_rate': 0.0004864365882951718, 'epoch': 0.13}
+{'loss': 1.5242, 'grad_norm': 0.2071000039577484, 'learning_rate': 0.0004863691414961898, 'epoch': 0.13}
+{'loss': 1.4877, 'grad_norm': 0.1619996726512909, 'learning_rate': 0.0004863015321159206, 'epoch': 0.13}
+{'loss': 1.4988, 'grad_norm': 0.1925855278968811, 'learning_rate': 0.00048623376020086794, 'epoch': 0.13}
+{'loss': 1.5189, 'grad_norm': 0.20681144297122955, 'learning_rate': 0.00048616582579764705, 'epoch': 0.13}
+{'loss': 1.5395, 'grad_norm': 0.1550677865743637, 'learning_rate': 0.0004860977289529852, 'epoch': 0.13}
+{'loss': 1.5168, 'grad_norm': 0.20639574527740479, 'learning_rate': 0.00048602946971372117, 'epoch': 0.13}
+{'loss': 1.5189, 'grad_norm': 0.159726083278656, 'learning_rate': 0.00048596104812680574, 'epoch': 0.13}
+{'loss': 1.5325, 'grad_norm': 0.16879808902740479, 'learning_rate': 0.0004858924642393011, 'epoch': 0.13}
+{'loss': 1.5502, 'grad_norm': 0.15603579580783844, 'learning_rate': 0.00048582371809838124, 'epoch': 0.13}
+{'loss': 1.5411, 'grad_norm': 0.14808093011379242, 'learning_rate': 0.00048575480975133144, 'epoch': 0.13}
+{'loss': 1.5254, 'grad_norm': 0.12559807300567627, 'learning_rate': 0.0004856857392455491, 'epoch': 0.14}
+{'loss': 1.5283, 'grad_norm': 0.13926543295383453, 'learning_rate': 0.00048561650662854263, 'epoch': 0.14}
+{'loss': 1.5289, 'grad_norm': 0.13993586599826813, 'learning_rate': 0.0004855471119479322, 'epoch': 0.14}
+{'loss': 1.5448, 'grad_norm': 0.12911474704742432, 'learning_rate': 0.0004854775552514494, 'epoch': 0.14}
+{'loss': 1.517, 'grad_norm': 0.13464179635047913, 'learning_rate': 0.00048540783658693735, 'epoch': 0.14}
+{'loss': 1.5366, 'grad_norm': 0.14670038223266602, 'learning_rate': 0.0004853379560023504, 'epoch': 0.14}
+{'loss': 1.5326, 'grad_norm': 0.13237212598323822, 'learning_rate': 0.00048526791354575434, 'epoch': 0.14}
+{'loss': 1.5001, 'grad_norm': 0.13628634810447693, 'learning_rate': 0.0004851977092653264, 'epoch': 0.14}
+{'loss': 1.5044, 'grad_norm': 0.13464832305908203, 'learning_rate': 0.00048512734320935505, 'epoch': 0.14}
+{'loss': 1.5274, 'grad_norm': 0.17693638801574707, 'learning_rate': 0.0004850568154262399, 'epoch': 0.14}
+{'loss': 1.5183, 'grad_norm': 0.1555338352918625, 'learning_rate': 0.00048498612596449217, 'epoch': 0.14}
+{'loss': 1.5446, 'grad_norm': 0.1793385148048401, 'learning_rate': 0.0004849152748727338, 'epoch': 0.14}
+{'loss': 1.5326, 'grad_norm': 0.16467610001564026, 'learning_rate': 0.0004848442621996982, 'epoch': 0.14}
+{'loss': 1.5077, 'grad_norm': 0.18430736660957336, 'learning_rate': 0.00048477308799423, 'epoch': 0.14}
+{'loss': 1.5248, 'grad_norm': 0.18549031019210815, 'learning_rate': 0.0004847017523052846, 'epoch': 0.14}
+{'loss': 1.526, 'grad_norm': 0.17797917127609253, 'learning_rate': 0.00048463025518192886, 'epoch': 0.14}
+{'loss': 1.5244, 'grad_norm': 0.1530086249113083, 'learning_rate': 0.00048455859667334046, 'epoch': 0.14}
+{'loss': 1.5199, 'grad_norm': 0.1826988160610199, 'learning_rate': 0.000484486776828808, 'epoch': 0.14}
+{'loss': 1.5173, 'grad_norm': 0.13377295434474945, 'learning_rate': 0.0004844147956977313, 'epoch': 0.14}
+{'loss': 1.5451, 'grad_norm': 0.20354032516479492, 'learning_rate': 0.0004843426533296209, 'epoch': 0.14}
+{'loss': 1.4777, 'grad_norm': 0.17452232539653778, 'learning_rate': 0.0004842703497740984, 'epoch': 0.14}
+{'loss': 1.5149, 'grad_norm': 0.15776722133159637, 'learning_rate': 0.0004841978850808961, 'epoch': 0.14}
+{'loss': 1.5267, 'grad_norm': 0.18067745864391327, 'learning_rate': 0.0004841252592998575, 'epoch': 0.14}
+{'loss': 1.5423, 'grad_norm': 0.14185497164726257, 'learning_rate': 0.0004840524724809363, 'epoch': 0.14}
+{'loss': 1.5238, 'grad_norm': 0.19142718613147736, 'learning_rate': 0.0004839795246741975, 'epoch': 0.14}
+{'loss': 1.5166, 'grad_norm': 0.17687328159809113, 'learning_rate': 0.00048390641592981656, 'epoch': 0.14}
+{'loss': 1.5021, 'grad_norm': 0.15662652254104614, 'learning_rate': 0.00048383314629807974, 'epoch': 0.14}
+{'loss': 1.5413, 'grad_norm': 0.16685599088668823, 'learning_rate': 0.00048375971582938394, 'epoch': 0.14}
+{'loss': 1.5063, 'grad_norm': 0.15231122076511383, 'learning_rate': 0.00048368612457423677, 'epoch': 0.14}
+{'loss': 1.4826, 'grad_norm': 0.1612388640642166, 'learning_rate': 0.0004836123725832562, 'epoch': 0.14}
+{'loss': 1.5278, 'grad_norm': 0.14596229791641235, 'learning_rate': 0.00048353845990717093, 'epoch': 0.14}
+{'loss': 1.5281, 'grad_norm': 0.1771886795759201, 'learning_rate': 0.0004834643865968202, 'epoch': 0.14}
+{'loss': 1.5404, 'grad_norm': 0.15968486666679382, 'learning_rate': 0.00048339015270315377, 'epoch': 0.14}
+{'loss': 1.5251, 'grad_norm': 0.18505698442459106, 'learning_rate': 0.0004833157582772317, 'epoch': 0.14}
+{'loss': 1.5446, 'grad_norm': 0.1754453331232071, 'learning_rate': 0.0004832412033702245, 'epoch': 0.14}
+{'loss': 1.4948, 'grad_norm': 0.19361284375190735, 'learning_rate': 0.00048316648803341315, 'epoch': 0.14}
+{'loss': 1.5348, 'grad_norm': 0.17613990604877472, 'learning_rate': 0.00048309161231818905, 'epoch': 0.14}
+{'loss': 1.511, 'grad_norm': 0.16444392502307892, 'learning_rate': 0.0004830165762760537, 'epoch': 0.14}
+{'loss': 1.5274, 'grad_norm': 0.1801949292421341, 'learning_rate': 0.00048294137995861895, 'epoch': 0.14}
+{'loss': 1.5428, 'grad_norm': 0.21546517312526703, 'learning_rate': 0.00048286602341760703, 'epoch': 0.15}
+{'loss': 1.5342, 'grad_norm': 0.20609907805919647, 'learning_rate': 0.0004827905067048502, 'epoch': 0.15}
+{'loss': 1.5107, 'grad_norm': 0.15914060175418854, 'learning_rate': 0.000482714829872291, 'epoch': 0.15}
+{'loss': 1.5404, 'grad_norm': 0.17830578982830048, 'learning_rate': 0.000482638992971982, 'epoch': 0.15}
+{'loss': 1.5419, 'grad_norm': 0.19905401766300201, 'learning_rate': 0.000482562996056086, 'epoch': 0.15}
+{'loss': 1.5132, 'grad_norm': 0.15006521344184875, 'learning_rate': 0.00048248683917687574, 'epoch': 0.15}
+{'loss': 1.4976, 'grad_norm': 0.17547965049743652, 'learning_rate': 0.00048241052238673414, 'epoch': 0.15}
+{'loss': 1.5097, 'grad_norm': 0.18882641196250916, 'learning_rate': 0.000482334045738154, 'epoch': 0.15}
+{'loss': 1.5428, 'grad_norm': 0.15611179172992706, 'learning_rate': 0.00048225740928373796, 'epoch': 0.15}
+{'loss': 1.5286, 'grad_norm': 0.16549885272979736, 'learning_rate': 0.0004821806130761988, 'epoch': 0.15}
+{'loss': 1.5351, 'grad_norm': 0.16035564243793488, 'learning_rate': 0.0004821036571683591, 'epoch': 0.15}
+{'loss': 1.5123, 'grad_norm': 0.1607079803943634, 'learning_rate': 0.00048202654161315134, 'epoch': 0.15}
+{'loss': 1.4953, 'grad_norm': 0.16306637227535248, 'learning_rate': 0.0004819492664636176, 'epoch': 0.15}
+{'loss': 1.5354, 'grad_norm': 0.14519046247005463, 'learning_rate': 0.0004818718317729101, 'epoch': 0.15}
+{'loss': 1.5165, 'grad_norm': 0.1846497654914856, 'learning_rate': 0.0004817942375942903, 'epoch': 0.15}
+{'loss': 1.5462, 'grad_norm': 0.14573243260383606, 'learning_rate': 0.0004817164839811299, 'epoch': 0.15}
+{'loss': 1.5227, 'grad_norm': 0.16749855875968933, 'learning_rate': 0.00048163857098690977, 'epoch': 0.15}
+{'loss': 1.5055, 'grad_norm': 0.1349368393421173, 'learning_rate': 0.0004815604986652208, 'epoch': 0.15}
+{'loss': 1.509, 'grad_norm': 0.14557978510856628, 'learning_rate': 0.00048148226706976326, 'epoch': 0.15}
+{'loss': 1.5232, 'grad_norm': 0.15912096202373505, 'learning_rate': 0.0004814038762543471, 'epoch': 0.15}
+{'loss': 1.501, 'grad_norm': 0.1540154069662094, 'learning_rate': 0.00048132532627289163, 'epoch': 0.15}
+{'loss': 1.5042, 'grad_norm': 0.1501016467809677, 'learning_rate': 0.00048124661717942563, 'epoch': 0.15}
+{'loss': 1.5344, 'grad_norm': 0.15923228859901428, 'learning_rate': 0.00048116774902808756, 'epoch': 0.15}
+{'loss': 1.5149, 'grad_norm': 0.1734820157289505, 'learning_rate': 0.00048108872187312514, 'epoch': 0.15}
+{'loss': 1.5181, 'grad_norm': 0.1714552789926529, 'learning_rate': 0.0004810095357688954, 'epoch': 0.15}
+{'loss': 1.4773, 'grad_norm': 0.14444124698638916, 'learning_rate': 0.00048093019076986466, 'epoch': 0.15}
+{'loss': 1.5299, 'grad_norm': 0.18912675976753235, 'learning_rate': 0.00048085068693060876, 'epoch': 0.15}
+{'loss': 1.5208, 'grad_norm': 0.17683470249176025, 'learning_rate': 0.0004807710243058125, 'epoch': 0.15}
+{'loss': 1.5191, 'grad_norm': 0.14700831472873688, 'learning_rate': 0.0004806912029502703, 'epoch': 0.15}
+{'loss': 1.5036, 'grad_norm': 0.1873113214969635, 'learning_rate': 0.0004806112229188854, 'epoch': 0.15}
+{'loss': 1.5463, 'grad_norm': 0.15333428978919983, 'learning_rate': 0.00048053108426667016, 'epoch': 0.15}
+{'loss': 1.5633, 'grad_norm': 0.17081809043884277, 'learning_rate': 0.00048045078704874627, 'epoch': 0.15}
+{'loss': 1.4927, 'grad_norm': 0.16812631487846375, 'learning_rate': 0.00048037033132034446, 'epoch': 0.15}
+{'loss': 1.5149, 'grad_norm': 0.15986919403076172, 'learning_rate': 0.00048028971713680443, 'epoch': 0.15}
+{'loss': 1.4974, 'grad_norm': 0.14155487716197968, 'learning_rate': 0.00048020894455357477, 'epoch': 0.15}
+{'loss': 1.5244, 'grad_norm': 0.15592479705810547, 'learning_rate': 0.0004801280136262132, 'epoch': 0.15}
+{'loss': 1.4991, 'grad_norm': 0.17565743625164032, 'learning_rate': 0.0004800469244103861, 'epoch': 0.15}
+{'loss': 1.5175, 'grad_norm': 0.18815910816192627, 'learning_rate': 0.0004799656769618691, 'epoch': 0.15}
+{'loss': 1.5103, 'grad_norm': 0.19221271574497223, 'learning_rate': 0.00047988427133654647, 'epoch': 0.15}
+{'loss': 1.4945, 'grad_norm': 0.19712060689926147, 'learning_rate': 0.00047980270759041105, 'epoch': 0.16}
+{'loss': 1.5156, 'grad_norm': 0.1567828208208084, 'learning_rate': 0.00047972098577956485, 'epoch': 0.16}
+{'loss': 1.5153, 'grad_norm': 0.16793638467788696, 'learning_rate': 0.0004796391059602183, 'epoch': 0.16}
+{'loss': 1.5189, 'grad_norm': 0.173018679022789, 'learning_rate': 0.0004795570681886907, 'epoch': 0.16}
+{'loss': 1.5139, 'grad_norm': 0.1535373330116272, 'learning_rate': 0.00047947487252140996, 'epoch': 0.16}
+{'loss': 1.5072, 'grad_norm': 0.20903749763965607, 'learning_rate': 0.0004793925190149124, 'epoch': 0.16}
+{'loss': 1.536, 'grad_norm': 0.16741406917572021, 'learning_rate': 0.00047931000772584323, 'epoch': 0.16}
+{'loss': 1.5063, 'grad_norm': 0.15714558959007263, 'learning_rate': 0.00047922733871095586, 'epoch': 0.16}
+{'loss': 1.5225, 'grad_norm': 0.15465624630451202, 'learning_rate': 0.0004791445120271124, 'epoch': 0.16}
+{'loss': 1.527, 'grad_norm': 0.13583458960056305, 'learning_rate': 0.0004790615277312834, 'epoch': 0.16}
+{'loss': 1.5196, 'grad_norm': 0.1547313928604126, 'learning_rate': 0.0004789783858805477, 'epoch': 0.16}
+{'loss': 1.55, 'grad_norm': 0.15357598662376404, 'learning_rate': 0.0004788950865320927, 'epoch': 0.16}
+{'loss': 1.532, 'grad_norm': 0.14145369827747345, 'learning_rate': 0.00047881162974321384, 'epoch': 0.16}
+{'loss': 1.5217, 'grad_norm': 0.14023995399475098, 'learning_rate': 0.00047872801557131517, 'epoch': 0.16}
+{'loss': 1.519, 'grad_norm': 0.15281444787979126, 'learning_rate': 0.0004786442440739088, 'epoch': 0.16}
+{'loss': 1.5385, 'grad_norm': 0.16789335012435913, 'learning_rate': 0.0004785603153086151, 'epoch': 0.16}
+{'loss': 1.5072, 'grad_norm': 0.13846637308597565, 'learning_rate': 0.00047847622933316257, 'epoch': 0.16}
+{'loss': 1.5091, 'grad_norm': 0.15277384221553802, 'learning_rate': 0.00047839198620538796, 'epoch': 0.16}
+{'loss': 1.5165, 'grad_norm': 0.16796369850635529, 'learning_rate': 0.0004783075859832361, 'epoch': 0.16}
+{'loss': 1.5337, 'grad_norm': 0.15718190371990204, 'learning_rate': 0.00047822302872475966, 'epoch': 0.16}
+{'loss': 1.5119, 'grad_norm': 0.14422516524791718, 'learning_rate': 0.00047813831448811954, 'epoch': 0.16}
+{'loss': 1.4882, 'grad_norm': 0.1801738291978836, 'learning_rate': 0.00047805344333158464, 'epoch': 0.16}
+{'loss': 1.5104, 'grad_norm': 0.15801161527633667, 'learning_rate': 0.00047796841531353156, 'epoch': 0.16}
+{'loss': 1.5103, 'grad_norm': 0.16974183917045593, 'learning_rate': 0.0004778832304924451, 'epoch': 0.16}
+{'loss': 1.513, 'grad_norm': 0.1482045203447342, 'learning_rate': 0.00047779788892691766, 'epoch': 0.16}
+{'loss': 1.5328, 'grad_norm': 0.17723630368709564, 'learning_rate': 0.00047771239067564953, 'epoch': 0.16}
+{'loss': 1.5159, 'grad_norm': 0.14133812487125397, 'learning_rate': 0.0004776267357974489, 'epoch': 0.16}
+{'loss': 1.526, 'grad_norm': 0.17246608436107635, 'learning_rate': 0.00047754092435123145, 'epoch': 0.16}
+{'loss': 1.5105, 'grad_norm': 0.1572788953781128, 'learning_rate': 0.0004774549563960207, 'epoch': 0.16}
+{'loss': 1.4954, 'grad_norm': 0.16247506439685822, 'learning_rate': 0.0004773688319909479, 'epoch': 0.16}
+{'loss': 1.5096, 'grad_norm': 0.16725659370422363, 'learning_rate': 0.0004772825511952518, 'epoch': 0.16}
+{'loss': 1.4881, 'grad_norm': 0.1666681468486786, 'learning_rate': 0.0004771961140682787, 'epoch': 0.16}
+{'loss': 1.5073, 'grad_norm': 0.17009077966213226, 'learning_rate': 0.00047710952066948244, 'epoch': 0.16}
+{'loss': 1.5073, 'grad_norm': 0.1457991600036621, 'learning_rate': 0.0004770227710584245, 'epoch': 0.16}
+{'loss': 1.5081, 'grad_norm': 0.16282464563846588, 'learning_rate': 0.0004769358652947735, 'epoch': 0.16}
+{'loss': 1.5283, 'grad_norm': 0.16091562807559967, 'learning_rate': 0.0004768488034383057, 'epoch': 0.16}
+{'loss': 1.5131, 'grad_norm': 0.14992958307266235, 'learning_rate': 0.0004767615855489048, 'epoch': 0.16}
+{'loss': 1.5318, 'grad_norm': 0.15258288383483887, 'learning_rate': 0.0004766742116865617, 'epoch': 0.16}
+{'loss': 1.4962, 'grad_norm': 0.15839636325836182, 'learning_rate': 0.00047658668191137435, 'epoch': 0.16}
+{'loss': 1.4861, 'grad_norm': 0.13873469829559326, 'learning_rate': 0.00047649899628354834, 'epoch': 0.17}
+{'loss': 1.5327, 'grad_norm': 0.161581352353096, 'learning_rate': 0.0004764111548633962, 'epoch': 0.17}
+{'loss': 1.5028, 'grad_norm': 0.14171947538852692, 'learning_rate': 0.0004763231577113378, 'epoch': 0.17}
+{'loss': 1.5008, 'grad_norm': 0.154585599899292, 'learning_rate': 0.00047623500488790007, 'epoch': 0.17}
+{'loss': 1.5001, 'grad_norm': 0.1356857866048813, 'learning_rate': 0.0004761466964537169, 'epoch': 0.17}
+{'loss': 1.4995, 'grad_norm': 0.1674140989780426, 'learning_rate': 0.0004760582324695292, 'epoch': 0.17}
+{'loss': 1.5075, 'grad_norm': 0.132705956697464, 'learning_rate': 0.0004759696129961852, 'epoch': 0.17}
+{'loss': 1.519, 'grad_norm': 0.15156139433383942, 'learning_rate': 0.00047588083809463967, 'epoch': 0.17}
+{'loss': 1.5163, 'grad_norm': 0.1480177789926529, 'learning_rate': 0.0004757919078259545, 'epoch': 0.17}
+{'loss': 1.5304, 'grad_norm': 0.15977375209331512, 'learning_rate': 0.00047570282225129835, 'epoch': 0.17}
+{'loss': 1.5045, 'grad_norm': 0.14373786747455597, 'learning_rate': 0.0004756135814319469, 'epoch': 0.17}
+{'loss': 1.566, 'grad_norm': 0.16898633539676666, 'learning_rate': 0.00047552418542928245, 'epoch': 0.17}
+{'loss': 1.5106, 'grad_norm': 0.161577507853508, 'learning_rate': 0.00047543463430479397, 'epoch': 0.17}
+{'loss': 1.4956, 'grad_norm': 0.13111332058906555, 'learning_rate': 0.00047534492812007726, 'epoch': 0.17}
+{'loss': 1.4937, 'grad_norm': 0.16137303411960602, 'learning_rate': 0.0004752550669368347, 'epoch': 0.17}
+{'loss': 1.5091, 'grad_norm': 0.15883922576904297, 'learning_rate': 0.0004751650508168755, 'epoch': 0.17}
+{'loss': 1.5164, 'grad_norm': 0.176793172955513, 'learning_rate': 0.00047507487982211504, 'epoch': 0.17}
+{'loss': 1.5156, 'grad_norm': 0.1425005942583084, 'learning_rate': 0.0004749845540145755, 'epoch': 0.17}
+{'loss': 1.5242, 'grad_norm': 0.20290657877922058, 'learning_rate': 0.00047489407345638557, 'epoch': 0.17}
+{'loss': 1.5213, 'grad_norm': 0.1947202831506729, 'learning_rate': 0.00047480343820978024, 'epoch': 0.17}
+{'loss': 1.5124, 'grad_norm': 0.1925700306892395, 'learning_rate': 0.00047471264833710093, 'epoch': 0.17}
+{'loss': 1.5311, 'grad_norm': 0.2256125658750534, 'learning_rate': 0.0004746217039007955, 'epoch': 0.17}
+{'loss': 1.523, 'grad_norm': 0.1649494618177414, 'learning_rate': 0.00047453060496341804, 'epoch': 0.17}
+{'loss': 1.4979, 'grad_norm': 0.23613665997982025, 'learning_rate': 0.00047443935158762897, 'epoch': 0.17}
+{'loss': 1.5183, 'grad_norm': 0.16064748167991638, 'learning_rate': 0.0004743479438361948, 'epoch': 0.17}
+{'loss': 1.4925, 'grad_norm': 0.18868492543697357, 'learning_rate': 0.0004742563817719886, 'epoch': 0.17}
+{'loss': 1.5104, 'grad_norm': 0.1622799187898636, 'learning_rate': 0.00047416466545798896, 'epoch': 0.17}
+{'loss': 1.4855, 'grad_norm': 0.1702514886856079, 'learning_rate': 0.0004740727949572812, 'epoch': 0.17}
+{'loss': 1.5008, 'grad_norm': 0.19137042760849, 'learning_rate': 0.0004739807703330563, 'epoch': 0.17}
+{'loss': 1.5003, 'grad_norm': 0.1513063758611679, 'learning_rate': 0.0004738885916486113, 'epoch': 0.17}
+{'loss': 1.5075, 'grad_norm': 0.21272088587284088, 'learning_rate': 0.00047379625896734937, 'epoch': 0.17}
+{'loss': 1.4951, 'grad_norm': 0.1505088061094284, 'learning_rate': 0.0004737037723527794, 'epoch': 0.17}
+{'loss': 1.5329, 'grad_norm': 0.20456932485103607, 'learning_rate': 0.00047361113186851635, 'epoch': 0.17}
+{'loss': 1.4795, 'grad_norm': 0.15375067293643951, 'learning_rate': 0.000473518337578281, 'epoch': 0.17}
+{'loss': 1.4916, 'grad_norm': 0.192737877368927, 'learning_rate': 0.00047342538954589963, 'epoch': 0.17}
+{'loss': 1.5159, 'grad_norm': 0.17464077472686768, 'learning_rate': 0.00047333228783530466, 'epoch': 0.17}
+{'loss': 1.4963, 'grad_norm': 0.15221741795539856, 'learning_rate': 0.0004732390325105341, 'epoch': 0.17}
+{'loss': 1.489, 'grad_norm': 0.16414549946784973, 'learning_rate': 0.0004731456236357314, 'epoch': 0.17}
+{'loss': 1.4972, 'grad_norm': 0.1419147253036499, 'learning_rate': 0.0004730520612751458, 'epoch': 0.17}
+{'loss': 1.4897, 'grad_norm': 0.1452886015176773, 'learning_rate': 0.0004729583454931322, 'epoch': 0.18}
+{'loss': 1.5318, 'grad_norm': 0.1336521953344345, 'learning_rate': 0.00047286447635415087, 'epoch': 0.18}
+{'loss': 1.5404, 'grad_norm': 0.15421046316623688, 'learning_rate': 0.0004727704539227676, 'epoch': 0.18}
+{'loss': 1.5033, 'grad_norm': 0.1451246589422226, 'learning_rate': 0.00047267627826365376, 'epoch': 0.18}
+{'loss': 1.506, 'grad_norm': 0.14711922407150269, 'learning_rate': 0.0004725819494415858, 'epoch': 0.18}
+{'loss': 1.4905, 'grad_norm': 0.16865192353725433, 'learning_rate': 0.0004724874675214459, 'epoch': 0.18}
+{'loss': 1.5172, 'grad_norm': 0.15867313742637634, 'learning_rate': 0.0004723928325682213, 'epoch': 0.18}
+{'loss': 1.4918, 'grad_norm': 0.19231584668159485, 'learning_rate': 0.0004722980446470045, 'epoch': 0.18}
+{'loss': 1.4923, 'grad_norm': 0.1467399150133133, 'learning_rate': 0.0004722031038229933, 'epoch': 0.18}
+{'loss': 1.5116, 'grad_norm': 0.18857066333293915, 'learning_rate': 0.0004721080101614907, 'epoch': 0.18}
+{'loss': 1.5208, 'grad_norm': 0.17474402487277985, 'learning_rate': 0.0004720127637279047, 'epoch': 0.18}
+{'loss': 1.5038, 'grad_norm': 0.15805894136428833, 'learning_rate': 0.0004719173645877485, 'epoch': 0.18}
+{'loss': 1.5179, 'grad_norm': 0.143048495054245, 'learning_rate': 0.0004718218128066403, 'epoch': 0.18}
+{'loss': 1.4971, 'grad_norm': 0.16832126677036285, 'learning_rate': 0.0004717261084503032, 'epoch': 0.18}
+{'loss': 1.5109, 'grad_norm': 0.1715313345193863, 'learning_rate': 0.0004716302515845654, 'epoch': 0.18}
+{'loss': 1.5313, 'grad_norm': 0.1472298800945282, 'learning_rate': 0.00047153424227536, 'epoch': 0.18}
+{'loss': 1.529, 'grad_norm': 0.1630377471446991, 'learning_rate': 0.00047143808058872473, 'epoch': 0.18}
+{'loss': 1.4976, 'grad_norm': 0.19251525402069092, 'learning_rate': 0.0004713417665908023, 'epoch': 0.18}
+{'loss': 1.5145, 'grad_norm': 0.1764235496520996, 'learning_rate': 0.00047124530034784026, 'epoch': 0.18}
+{'loss': 1.4955, 'grad_norm': 0.1975911557674408, 'learning_rate': 0.00047114868192619066, 'epoch': 0.18}
+{'loss': 1.5128, 'grad_norm': 0.14841006696224213, 'learning_rate': 0.00047105191139231047, 'epoch': 0.18}
+{'loss': 1.5229, 'grad_norm': 0.19276162981987, 'learning_rate': 0.0004709549888127611, 'epoch': 0.18}
+{'loss': 1.5008, 'grad_norm': 0.14101524651050568, 'learning_rate': 0.00047085791425420856, 'epoch': 0.18}
+{'loss': 1.502, 'grad_norm': 0.1780281662940979, 'learning_rate': 0.0004707606877834235, 'epoch': 0.18}
+{'loss': 1.4955, 'grad_norm': 0.13704687356948853, 'learning_rate': 0.000470663309467281, 'epoch': 0.18}
+{'loss': 1.5235, 'grad_norm': 0.19224414229393005, 'learning_rate': 0.0004705657793727605, 'epoch': 0.18}
+{'loss': 1.5188, 'grad_norm': 0.13866247236728668, 'learning_rate': 0.00047046809756694604, 'epoch': 0.18}
+{'loss': 1.5215, 'grad_norm': 0.1738075166940689, 'learning_rate': 0.00047037026411702584, 'epoch': 0.18}
+{'loss': 1.517, 'grad_norm': 0.16001319885253906, 'learning_rate': 0.0004702722790902924, 'epoch': 0.18}
+{'loss': 1.5163, 'grad_norm': 0.1594947874546051, 'learning_rate': 0.0004701741425541427, 'epoch': 0.18}
+{'loss': 1.4979, 'grad_norm': 0.15952345728874207, 'learning_rate': 0.00047007585457607763, 'epoch': 0.18}
+{'loss': 1.5188, 'grad_norm': 0.14316627383232117, 'learning_rate': 0.00046997741522370254, 'epoch': 0.18}
+{'loss': 1.504, 'grad_norm': 0.15549497306346893, 'learning_rate': 0.00046987882456472663, 'epoch': 0.18}
+{'loss': 1.4995, 'grad_norm': 0.13004137575626373, 'learning_rate': 0.0004697800826669635, 'epoch': 0.18}
+{'loss': 1.5061, 'grad_norm': 0.15292346477508545, 'learning_rate': 0.0004696811895983303, 'epoch': 0.18}
+{'loss': 1.5193, 'grad_norm': 0.1591339409351349, 'learning_rate': 0.00046958214542684875, 'epoch': 0.18}
+{'loss': 1.477, 'grad_norm': 0.1353403776884079, 'learning_rate': 0.00046948295022064394, 'epoch': 0.18}
+{'loss': 1.524, 'grad_norm': 0.16816000640392303, 'learning_rate': 0.0004693836040479452, 'epoch': 0.18}
+{'loss': 1.5208, 'grad_norm': 0.1507125049829483, 'learning_rate': 0.0004692841069770856, 'epoch': 0.18}
+{'loss': 1.4806, 'grad_norm': 0.14959485828876495, 'learning_rate': 0.00046918445907650206, 'epoch': 0.19}
+{'loss': 1.5152, 'grad_norm': 0.1322128176689148, 'learning_rate': 0.0004690846604147351, 'epoch': 0.19}
+{'loss': 1.5117, 'grad_norm': 0.16016943752765656, 'learning_rate': 0.000468984711060429, 'epoch': 0.19}
+{'loss': 1.4856, 'grad_norm': 0.13788096606731415, 'learning_rate': 0.0004688846110823318, 'epoch': 0.19}
+{'loss': 1.5172, 'grad_norm': 0.13955920934677124, 'learning_rate': 0.000468784360549295, 'epoch': 0.19}
+{'loss': 1.5228, 'grad_norm': 0.14874789118766785, 'learning_rate': 0.00046868395953027366, 'epoch': 0.19}
+{'loss': 1.5031, 'grad_norm': 0.13967935740947723, 'learning_rate': 0.0004685834080943265, 'epoch': 0.19}
+{'loss': 1.5112, 'grad_norm': 0.19938772916793823, 'learning_rate': 0.0004684827063106156, 'epoch': 0.19}
+{'loss': 1.525, 'grad_norm': 0.14238150417804718, 'learning_rate': 0.0004683818542484065, 'epoch': 0.19}
+{'loss': 1.5011, 'grad_norm': 0.2094770073890686, 'learning_rate': 0.0004682808519770679, 'epoch': 0.19}
+{'loss': 1.4796, 'grad_norm': 0.1427043378353119, 'learning_rate': 0.00046817969956607205, 'epoch': 0.19}
+{'loss': 1.4793, 'grad_norm': 0.1828559935092926, 'learning_rate': 0.00046807839708499447, 'epoch': 0.19}
+{'loss': 1.5096, 'grad_norm': 0.17624549567699432, 'learning_rate': 0.0004679769446035137, 'epoch': 0.19}
+{'loss': 1.4814, 'grad_norm': 0.16084709763526917, 'learning_rate': 0.0004678753421914117, 'epoch': 0.19}
+{'loss': 1.504, 'grad_norm': 0.17676745355129242, 'learning_rate': 0.00046777358991857346, 'epoch': 0.19}
+{'loss': 1.5051, 'grad_norm': 0.1358475536108017, 'learning_rate': 0.0004676716878549868, 'epoch': 0.19}
+{'loss': 1.5029, 'grad_norm': 0.15737910568714142, 'learning_rate': 0.0004675696360707431, 'epoch': 0.19}
+{'loss': 1.5189, 'grad_norm': 0.1734074056148529, 'learning_rate': 0.00046746743463603636, 'epoch': 0.19}
+{'loss': 1.4719, 'grad_norm': 0.16485245525836945, 'learning_rate': 0.00046736508362116335, 'epoch': 0.19}
+{'loss': 1.498, 'grad_norm': 0.1655275970697403, 'learning_rate': 0.00046726258309652427, 'epoch': 0.19}
+{'loss': 1.5236, 'grad_norm': 0.16207554936408997, 'learning_rate': 0.0004671599331326216, 'epoch': 0.19}
+{'loss': 1.5201, 'grad_norm': 0.15039680898189545, 'learning_rate': 0.000467057133800061, 'epoch': 0.19}
+{'loss': 1.5032, 'grad_norm': 0.15784421563148499, 'learning_rate': 0.0004669541851695506, 'epoch': 0.19}
+{'loss': 1.5131, 'grad_norm': 0.15783753991127014, 'learning_rate': 0.0004668510873119014, 'epoch': 0.19}
+{'loss': 1.5076, 'grad_norm': 0.14173950254917145, 'learning_rate': 0.00046674784029802696, 'epoch': 0.19}
+{'loss': 1.5079, 'grad_norm': 0.149398073554039, 'learning_rate': 0.00046664444419894347, 'epoch': 0.19}
+{'loss': 1.4976, 'grad_norm': 0.1405748724937439, 'learning_rate': 0.0004665408990857697, 'epoch': 0.19}
+{'loss': 1.4877, 'grad_norm': 0.13687241077423096, 'learning_rate': 0.00046643720502972675, 'epoch': 0.19}
+{'loss': 1.491, 'grad_norm': 0.14182083308696747, 'learning_rate': 0.0004663333621021384, 'epoch': 0.19}
+{'loss': 1.5204, 'grad_norm': 0.16997064650058746, 'learning_rate': 0.0004662293703744306, 'epoch': 0.19}
+{'loss': 1.5031, 'grad_norm': 0.15894262492656708, 'learning_rate': 0.0004661252299181319, 'epoch': 0.19}
+{'loss': 1.5108, 'grad_norm': 0.1863197386264801, 'learning_rate': 0.00046602094080487285, 'epoch': 0.19}
+{'loss': 1.4838, 'grad_norm': 0.14968843758106232, 'learning_rate': 0.00046591650310638655, 'epoch': 0.19}
+{'loss': 1.5195, 'grad_norm': 0.19240057468414307, 'learning_rate': 0.0004658119168945081, 'epoch': 0.19}
+{'loss': 1.4788, 'grad_norm': 0.15649555623531342, 'learning_rate': 0.0004657071822411748, 'epoch': 0.19}
+{'loss': 1.5023, 'grad_norm': 0.17950832843780518, 'learning_rate': 0.000465602299218426, 'epoch': 0.19}
+{'loss': 1.4936, 'grad_norm': 0.16139043867588043, 'learning_rate': 0.0004654972678984034, 'epoch': 0.19}
+{'loss': 1.5109, 'grad_norm': 0.1757575124502182, 'learning_rate': 0.0004653920883533502, 'epoch': 0.19}
+{'loss': 1.4959, 'grad_norm': 0.14274446666240692, 'learning_rate': 0.000465286760655612, 'epoch': 0.19}
+{'loss': 1.483, 'grad_norm': 0.20556087791919708, 'learning_rate': 0.0004651812848776361, 'epoch': 0.2}
+{'loss': 1.4831, 'grad_norm': 0.13894565403461456, 'learning_rate': 0.00046507566109197155, 'epoch': 0.2}
+{'loss': 1.5114, 'grad_norm': 0.20487509667873383, 'learning_rate': 0.0004649698893712695, 'epoch': 0.2}
+{'loss': 1.4934, 'grad_norm': 0.15808114409446716, 'learning_rate': 0.0004648639697882826, 'epoch': 0.2}
+{'loss': 1.523, 'grad_norm': 0.1829095482826233, 'learning_rate': 0.00046475790241586534, 'epoch': 0.2}
+{'loss': 1.5012, 'grad_norm': 0.14328575134277344, 'learning_rate': 0.0004646516873269738, 'epoch': 0.2}
+{'loss': 1.5408, 'grad_norm': 0.17152194678783417, 'learning_rate': 0.00046454532459466567, 'epoch': 0.2}
+{'loss': 1.5077, 'grad_norm': 0.1460244059562683, 'learning_rate': 0.0004644388142921003, 'epoch': 0.2}
+{'loss': 1.4944, 'grad_norm': 0.16857130825519562, 'learning_rate': 0.00046433215649253825, 'epoch': 0.2}
+{'loss': 1.5155, 'grad_norm': 0.15806159377098083, 'learning_rate': 0.00046422535126934187, 'epoch': 0.2}
+{'loss': 1.491, 'grad_norm': 0.14750905334949493, 'learning_rate': 0.00046411839869597474, 'epoch': 0.2}
+{'loss': 1.5114, 'grad_norm': 0.14044973254203796, 'learning_rate': 0.0004640112988460018, 'epoch': 0.2}
+{'loss': 1.529, 'grad_norm': 0.15426594018936157, 'learning_rate': 0.00046390405179308936, 'epoch': 0.2}
+{'loss': 1.4787, 'grad_norm': 0.14019224047660828, 'learning_rate': 0.00046379665761100486, 'epoch': 0.2}
+{'loss': 1.4833, 'grad_norm': 0.16492915153503418, 'learning_rate': 0.0004636891163736171, 'epoch': 0.2}
+{'loss': 1.5079, 'grad_norm': 0.14688946306705475, 'learning_rate': 0.0004635814281548959, 'epoch': 0.2}
+{'loss': 1.519, 'grad_norm': 0.18279963731765747, 'learning_rate': 0.0004634735930289122, 'epoch': 0.2}
+{'loss': 1.4749, 'grad_norm': 0.155262753367424, 'learning_rate': 0.0004633656110698381, 'epoch': 0.2}
+{'loss': 1.5195, 'grad_norm': 0.19180859625339508, 'learning_rate': 0.0004632574823519465, 'epoch': 0.2}
+{'loss': 1.5154, 'grad_norm': 0.16435563564300537, 'learning_rate': 0.0004631492069496113, 'epoch': 0.2}
+{'loss': 1.5373, 'grad_norm': 0.15242519974708557, 'learning_rate': 0.0004630407849373075, 'epoch': 0.2}
+{'loss': 1.4761, 'grad_norm': 0.17175064980983734, 'learning_rate': 0.0004629322163896107, 'epoch': 0.2}
+{'loss': 1.503, 'grad_norm': 0.16131888329982758, 'learning_rate': 0.0004628235013811973, 'epoch': 0.2}
+{'loss': 1.5031, 'grad_norm': 0.18215744197368622, 'learning_rate': 0.0004627146399868447, 'epoch': 0.2}
+{'loss': 1.5085, 'grad_norm': 0.17018629610538483, 'learning_rate': 0.0004626056322814307, 'epoch': 0.2}
+{'loss': 1.5118, 'grad_norm': 0.21656036376953125, 'learning_rate': 0.0004624964783399338, 'epoch': 0.2}
+{'loss': 1.5068, 'grad_norm': 0.15707257390022278, 'learning_rate': 0.00046238717823743314, 'epoch': 0.2}
+{'loss': 1.4864, 'grad_norm': 0.20888380706310272, 'learning_rate': 0.0004622777320491084, 'epoch': 0.2}
+{'loss': 1.4965, 'grad_norm': 0.13617047667503357, 'learning_rate': 0.00046216813985023973, 'epoch': 0.2}
+{'loss': 1.4956, 'grad_norm': 0.1868080198764801, 'learning_rate': 0.0004620584017162077, 'epoch': 0.2}
+{'loss': 1.5007, 'grad_norm': 0.15744401514530182, 'learning_rate': 0.00046194851772249324, 'epoch': 0.2}
+{'loss': 1.5029, 'grad_norm': 0.17329013347625732, 'learning_rate': 0.00046183848794467767, 'epoch': 0.2}
+{'loss': 1.5195, 'grad_norm': 0.16916044056415558, 'learning_rate': 0.0004617283124584425, 'epoch': 0.2}
+{'loss': 1.4997, 'grad_norm': 0.16546960175037384, 'learning_rate': 0.00046161799133956946, 'epoch': 0.2}
+{'loss': 1.4848, 'grad_norm': 0.14957182109355927, 'learning_rate': 0.00046150752466394055, 'epoch': 0.2}
+{'loss': 1.5153, 'grad_norm': 0.1748117357492447, 'learning_rate': 0.00046139691250753783, 'epoch': 0.2}
+{'loss': 1.4849, 'grad_norm': 0.15026460587978363, 'learning_rate': 0.0004612861549464434, 'epoch': 0.2}
+{'loss': 1.5015, 'grad_norm': 0.1939433068037033, 'learning_rate': 0.00046117525205683946, 'epoch': 0.2}
+{'loss': 1.4925, 'grad_norm': 0.15039359033107758, 'learning_rate': 0.00046106420391500805, 'epoch': 0.2}
+{'loss': 1.5201, 'grad_norm': 0.19129638373851776, 'learning_rate': 0.0004609530105973312, 'epoch': 0.21}
+{'loss': 1.4935, 'grad_norm': 0.13652324676513672, 'learning_rate': 0.00046084167218029073, 'epoch': 0.21}
+{'loss': 1.5134, 'grad_norm': 0.17608369886875153, 'learning_rate': 0.00046073018874046837, 'epoch': 0.21}
+{'loss': 1.5033, 'grad_norm': 0.1431429088115692, 'learning_rate': 0.0004606185603545455, 'epoch': 0.21}
+{'loss': 1.4887, 'grad_norm': 0.16752973198890686, 'learning_rate': 0.0004605067870993033, 'epoch': 0.21}
+{'loss': 1.4946, 'grad_norm': 0.15612424910068512, 'learning_rate': 0.0004603948690516224, 'epoch': 0.21}
+{'loss': 1.4967, 'grad_norm': 0.1745382398366928, 'learning_rate': 0.0004602828062884833, 'epoch': 0.21}
+{'loss': 1.4898, 'grad_norm': 0.1686175912618637, 'learning_rate': 0.00046017059888696577, 'epoch': 0.21}
+{'loss': 1.5007, 'grad_norm': 0.1677074432373047, 'learning_rate': 0.0004600582469242493, 'epoch': 0.21}
+{'loss': 1.4827, 'grad_norm': 0.1394583135843277, 'learning_rate': 0.0004599457504776127, 'epoch': 0.21}
+{'loss': 1.4775, 'grad_norm': 0.1913205236196518, 'learning_rate': 0.00045983310962443403, 'epoch': 0.21}
+{'loss': 1.5274, 'grad_norm': 0.16475431621074677, 'learning_rate': 0.00045972032444219094, 'epoch': 0.21}
+{'loss': 1.5055, 'grad_norm': 0.169330894947052, 'learning_rate': 0.00045960739500846014, 'epoch': 0.21}
+{'loss': 1.4789, 'grad_norm': 0.1456223577260971, 'learning_rate': 0.0004594943214009177, 'epoch': 0.21}
+{'loss': 1.5068, 'grad_norm': 0.1455380618572235, 'learning_rate': 0.0004593811036973389, 'epoch': 0.21}
+{'loss': 1.4648, 'grad_norm': 0.16992567479610443, 'learning_rate': 0.00045926774197559774, 'epoch': 0.21}
+{'loss': 1.4925, 'grad_norm': 0.15460017323493958, 'learning_rate': 0.0004591542363136679, 'epoch': 0.21}
+{'loss': 1.4915, 'grad_norm': 0.20154403150081635, 'learning_rate': 0.00045904058678962153, 'epoch': 0.21}
+{'loss': 1.4837, 'grad_norm': 0.14263635873794556, 'learning_rate': 0.00045892679348163003, 'epoch': 0.21}
+{'loss': 1.5075, 'grad_norm': 0.2036181092262268, 'learning_rate': 0.00045881285646796356, 'epoch': 0.21}
+{'loss': 1.486, 'grad_norm': 0.1464473456144333, 'learning_rate': 0.00045869877582699114, 'epoch': 0.21}
+{'loss': 1.4794, 'grad_norm': 0.1530751883983612, 'learning_rate': 0.00045858455163718076, 'epoch': 0.21}
+{'loss': 1.5151, 'grad_norm': 0.1585814505815506, 'learning_rate': 0.00045847018397709896, 'epoch': 0.21}
+{'loss': 1.5052, 'grad_norm': 0.16956330835819244, 'learning_rate': 0.0004583556729254109, 'epoch': 0.21}
+{'loss': 1.5008, 'grad_norm': 0.16448578238487244, 'learning_rate': 0.0004582410185608805, 'epoch': 0.21}
+{'loss': 1.4927, 'grad_norm': 0.1767246574163437, 'learning_rate': 0.0004581262209623703, 'epoch': 0.21}
+{'loss': 1.5259, 'grad_norm': 0.17108137905597687, 'learning_rate': 0.0004580112802088413, 'epoch': 0.21}
+{'loss': 1.4953, 'grad_norm': 0.1533743143081665, 'learning_rate': 0.00045789619637935295, 'epoch': 0.21}
+{'loss': 1.51, 'grad_norm': 0.16047650575637817, 'learning_rate': 0.000457780969553063, 'epoch': 0.21}
+{'loss': 1.5145, 'grad_norm': 0.18450479209423065, 'learning_rate': 0.00045766559980922784, 'epoch': 0.21}
+{'loss': 1.5164, 'grad_norm': 0.13172569870948792, 'learning_rate': 0.00045755008722720184, 'epoch': 0.21}
+{'loss': 1.4793, 'grad_norm': 0.19947825372219086, 'learning_rate': 0.00045743443188643785, 'epoch': 0.21}
+{'loss': 1.4907, 'grad_norm': 0.13890483975410461, 'learning_rate': 0.0004573186338664869, 'epoch': 0.21}
+{'loss': 1.4874, 'grad_norm': 0.17501725256443024, 'learning_rate': 0.0004572026932469979, 'epoch': 0.21}
+{'loss': 1.4649, 'grad_norm': 0.1470351219177246, 'learning_rate': 0.00045708661010771836, 'epoch': 0.21}
+{'loss': 1.4892, 'grad_norm': 0.17847956717014313, 'learning_rate': 0.0004569703845284932, 'epoch': 0.21}
+{'loss': 1.4888, 'grad_norm': 0.1290276199579239, 'learning_rate': 0.0004568540165892658, 'epoch': 0.21}
+{'loss': 1.4951, 'grad_norm': 0.15687470138072968, 'learning_rate': 0.00045673750637007714, 'epoch': 0.21}
+{'loss': 1.4942, 'grad_norm': 0.13534919917583466, 'learning_rate': 0.0004566208539510663, 'epoch': 0.21}
+{'loss': 1.4962, 'grad_norm': 0.14838123321533203, 'learning_rate': 0.00045650405941247005, 'epoch': 0.22}
+{'loss': 1.4703, 'grad_norm': 0.13640515506267548, 'learning_rate': 0.00045638712283462284, 'epoch': 0.22}
+{'loss': 1.4816, 'grad_norm': 0.1563798040151596, 'learning_rate': 0.00045627004429795706, 'epoch': 0.22}
+{'loss': 1.5023, 'grad_norm': 0.13629084825515747, 'learning_rate': 0.0004561528238830025, 'epoch': 0.22}
+{'loss': 1.4873, 'grad_norm': 0.14772586524486542, 'learning_rate': 0.00045603546167038663, 'epoch': 0.22}
+{'loss': 1.4928, 'grad_norm': 0.14910411834716797, 'learning_rate': 0.00045591795774083447, 'epoch': 0.22}
+{'loss': 1.4919, 'grad_norm': 0.14467619359493256, 'learning_rate': 0.0004558003121751685, 'epoch': 0.22}
+{'loss': 1.5187, 'grad_norm': 0.15011072158813477, 'learning_rate': 0.0004556825250543086, 'epoch': 0.22}
+{'loss': 1.4953, 'grad_norm': 0.16160163283348083, 'learning_rate': 0.00045556459645927205, 'epoch': 0.22}
+{'loss': 1.5107, 'grad_norm': 0.14094510674476624, 'learning_rate': 0.00045544652647117344, 'epoch': 0.22}
+{'loss': 1.5102, 'grad_norm': 0.14304403960704803, 'learning_rate': 0.0004553283151712246, 'epoch': 0.22}
+{'loss': 1.506, 'grad_norm': 0.15014253556728363, 'learning_rate': 0.0004552099626407345, 'epoch': 0.22}
+{'loss': 1.4914, 'grad_norm': 0.1435614377260208, 'learning_rate': 0.00045509146896110944, 'epoch': 0.22}
+{'loss': 1.4676, 'grad_norm': 0.12295091152191162, 'learning_rate': 0.0004549728342138525, 'epoch': 0.22}
+{'loss': 1.4981, 'grad_norm': 0.18491622805595398, 'learning_rate': 0.0004548540584805642, 'epoch': 0.22}
+{'loss': 1.5153, 'grad_norm': 0.1320042610168457, 'learning_rate': 0.00045473514184294153, 'epoch': 0.22}
+{'loss': 1.4895, 'grad_norm': 0.20840869843959808, 'learning_rate': 0.0004546160843827789, 'epoch': 0.22}
+{'loss': 1.5121, 'grad_norm': 0.1756712943315506, 'learning_rate': 0.00045449688618196714, 'epoch': 0.22}
+{'loss': 1.4852, 'grad_norm': 0.18928539752960205, 'learning_rate': 0.00045437754732249435, 'epoch': 0.22}
+{'loss': 1.4816, 'grad_norm': 0.14289985597133636, 'learning_rate': 0.000454258067886445, 'epoch': 0.22}
+{'loss': 1.4973, 'grad_norm': 0.17657950520515442, 'learning_rate': 0.00045413844795600024, 'epoch': 0.22}
+{'loss': 1.495, 'grad_norm': 0.13287515938282013, 'learning_rate': 0.00045401868761343824, 'epoch': 0.22}
+{'loss': 1.5043, 'grad_norm': 0.17974188923835754, 'learning_rate': 0.0004538987869411333, 'epoch': 0.22}
+{'loss': 1.4754, 'grad_norm': 0.14647436141967773, 'learning_rate': 0.00045377874602155655, 'epoch': 0.22}
+{'loss': 1.4648, 'grad_norm': 0.15723763406276703, 'learning_rate': 0.00045365856493727547, 'epoch': 0.22}
+{'loss': 1.4967, 'grad_norm': 0.1192275658249855, 'learning_rate': 0.00045353824377095396, 'epoch': 0.22}
+{'loss': 1.4907, 'grad_norm': 0.14916859567165375, 'learning_rate': 0.0004534177826053523, 'epoch': 0.22}
+{'loss': 1.4892, 'grad_norm': 0.14731475710868835, 'learning_rate': 0.00045329718152332694, 'epoch': 0.22}
+{'loss': 1.5204, 'grad_norm': 0.15524959564208984, 'learning_rate': 0.00045317644060783083, 'epoch': 0.22}
+{'loss': 1.4893, 'grad_norm': 0.1248970702290535, 'learning_rate': 0.0004530555599419127, 'epoch': 0.22}
+{'loss': 1.4837, 'grad_norm': 0.16214661300182343, 'learning_rate': 0.0004529345396087179, 'epoch': 0.22}
+{'loss': 1.5041, 'grad_norm': 0.14497537910938263, 'learning_rate': 0.0004528133796914875, 'epoch': 0.22}
+{'loss': 1.4867, 'grad_norm': 0.1790379136800766, 'learning_rate': 0.00045269208027355856, 'epoch': 0.22}
+{'loss': 1.4838, 'grad_norm': 0.14306527376174927, 'learning_rate': 0.00045257064143836435, 'epoch': 0.22}
+{'loss': 1.4886, 'grad_norm': 0.18287989497184753, 'learning_rate': 0.0004524490632694338, 'epoch': 0.22}
+{'loss': 1.4854, 'grad_norm': 0.1463947892189026, 'learning_rate': 0.0004523273458503918, 'epoch': 0.22}
+{'loss': 1.4844, 'grad_norm': 0.17126329243183136, 'learning_rate': 0.00045220548926495896, 'epoch': 0.22}
+{'loss': 1.5027, 'grad_norm': 0.1511760652065277, 'learning_rate': 0.00045208349359695166, 'epoch': 0.22}
+{'loss': 1.4946, 'grad_norm': 0.16460147500038147, 'learning_rate': 0.0004519613589302819, 'epoch': 0.22}
+{'loss': 1.5172, 'grad_norm': 0.14560285210609436, 'learning_rate': 0.00045183908534895733, 'epoch': 0.23}
+{'loss': 1.4855, 'grad_norm': 0.15955586731433868, 'learning_rate': 0.0004517166729370812, 'epoch': 0.23}
+{'loss': 1.4769, 'grad_norm': 0.15535026788711548, 'learning_rate': 0.00045159412177885207, 'epoch': 0.23}
+{'loss': 1.5118, 'grad_norm': 0.15909691154956818, 'learning_rate': 0.00045147143195856397, 'epoch': 0.23}
+{'loss': 1.5118, 'grad_norm': 0.17690198123455048, 'learning_rate': 0.00045134860356060657, 'epoch': 0.23}
+{'loss': 1.5108, 'grad_norm': 0.1367061585187912, 'learning_rate': 0.00045122563666946463, 'epoch': 0.23}
+{'loss': 1.5039, 'grad_norm': 0.21655689179897308, 'learning_rate': 0.00045110253136971813, 'epoch': 0.23}
+{'loss': 1.4826, 'grad_norm': 0.1458924412727356, 'learning_rate': 0.00045097928774604233, 'epoch': 0.23}
+{'loss': 1.4973, 'grad_norm': 0.19525399804115295, 'learning_rate': 0.0004508559058832078, 'epoch': 0.23}
+{'loss': 1.474, 'grad_norm': 0.15841951966285706, 'learning_rate': 0.0004507323858660798, 'epoch': 0.23}
+{'loss': 1.5201, 'grad_norm': 0.18390601873397827, 'learning_rate': 0.00045060872777961887, 'epoch': 0.23}
+{'loss': 1.4984, 'grad_norm': 0.14972639083862305, 'learning_rate': 0.0004504849317088806, 'epoch': 0.23}
+{'loss': 1.5002, 'grad_norm': 0.15685056149959564, 'learning_rate': 0.00045036099773901534, 'epoch': 0.23}
+{'loss': 1.4986, 'grad_norm': 0.128872349858284, 'learning_rate': 0.0004502369259552683, 'epoch': 0.23}
+{'loss': 1.4967, 'grad_norm': 0.1688382476568222, 'learning_rate': 0.00045011271644297956, 'epoch': 0.23}
+{'loss': 1.4787, 'grad_norm': 0.14621663093566895, 'learning_rate': 0.0004499883692875839, 'epoch': 0.23}
+{'loss': 1.4753, 'grad_norm': 0.1290503591299057, 'learning_rate': 0.0004498638845746107, 'epoch': 0.23}
+{'loss': 1.511, 'grad_norm': 0.13736344873905182, 'learning_rate': 0.000449739262389684, 'epoch': 0.23}
+{'loss': 1.4801, 'grad_norm': 0.13259994983673096, 'learning_rate': 0.00044961450281852253, 'epoch': 0.23}
+{'loss': 1.477, 'grad_norm': 0.1468622237443924, 'learning_rate': 0.00044948960594693924, 'epoch': 0.23}
+{'loss': 1.4886, 'grad_norm': 0.1503199338912964, 'learning_rate': 0.0004493645718608418, 'epoch': 0.23}
+{'loss': 1.4672, 'grad_norm': 0.13825896382331848, 'learning_rate': 0.00044923940064623216, 'epoch': 0.23}
+{'loss': 1.4794, 'grad_norm': 0.16652746498584747, 'learning_rate': 0.0004491140923892065, 'epoch': 0.23}
+{'loss': 1.4748, 'grad_norm': 0.12529133260250092, 'learning_rate': 0.00044898864717595534, 'epoch': 0.23}
+{'loss': 1.5007, 'grad_norm': 0.1599595844745636, 'learning_rate': 0.0004488630650927634, 'epoch': 0.23}
+{'loss': 1.483, 'grad_norm': 0.12187042087316513, 'learning_rate': 0.00044873734622600956, 'epoch': 0.23}
+{'loss': 1.5018, 'grad_norm': 0.15562644600868225, 'learning_rate': 0.0004486114906621668, 'epoch': 0.23}
+{'loss': 1.4774, 'grad_norm': 0.12388359755277634, 'learning_rate': 0.00044848549848780197, 'epoch': 0.23}
+{'loss': 1.507, 'grad_norm': 0.13986508548259735, 'learning_rate': 0.00044835936978957603, 'epoch': 0.23}
+{'loss': 1.5139, 'grad_norm': 0.1254069060087204, 'learning_rate': 0.00044823310465424396, 'epoch': 0.23}
+{'loss': 1.4683, 'grad_norm': 0.1358603984117508, 'learning_rate': 0.0004481067031686543, 'epoch': 0.23}
+{'loss': 1.5054, 'grad_norm': 0.13026706874370575, 'learning_rate': 0.00044798016541974957, 'epoch': 0.23}
+{'loss': 1.5206, 'grad_norm': 0.12743565440177917, 'learning_rate': 0.00044785349149456587, 'epoch': 0.23}
+{'loss': 1.4922, 'grad_norm': 0.12363836914300919, 'learning_rate': 0.00044772668148023326, 'epoch': 0.23}
+{'loss': 1.5021, 'grad_norm': 0.13199113309383392, 'learning_rate': 0.000447599735463975, 'epoch': 0.23}
+{'loss': 1.4954, 'grad_norm': 0.12097229063510895, 'learning_rate': 0.00044747265353310825, 'epoch': 0.23}
+{'loss': 1.5094, 'grad_norm': 0.12146297097206116, 'learning_rate': 0.00044734543577504336, 'epoch': 0.23}
+{'loss': 1.5062, 'grad_norm': 0.13277636468410492, 'learning_rate': 0.0004472180822772843, 'epoch': 0.23}
+{'loss': 1.5137, 'grad_norm': 0.1250750571489334, 'learning_rate': 0.0004470905931274285, 'epoch': 0.23}
+{'loss': 1.4846, 'grad_norm': 0.1160440444946289, 'learning_rate': 0.0004469629684131664, 'epoch': 0.24}
+{'loss': 1.4632, 'grad_norm': 0.1239277720451355, 'learning_rate': 0.00044683520822228184, 'epoch': 0.24}
+{'loss': 1.4972, 'grad_norm': 0.11492971330881119, 'learning_rate': 0.0004467073126426519, 'epoch': 0.24}
+{'loss': 1.5034, 'grad_norm': 0.13094162940979004, 'learning_rate': 0.00044657928176224673, 'epoch': 0.24}
+{'loss': 1.4848, 'grad_norm': 0.12268944084644318, 'learning_rate': 0.00044645111566912944, 'epoch': 0.24}
+{'loss': 1.5006, 'grad_norm': 0.14639344811439514, 'learning_rate': 0.00044632281445145634, 'epoch': 0.24}
+{'loss': 1.4843, 'grad_norm': 0.13825657963752747, 'learning_rate': 0.0004461943781974766, 'epoch': 0.24}
+{'loss': 1.4941, 'grad_norm': 0.16964133083820343, 'learning_rate': 0.00044606580699553224, 'epoch': 0.24}
+{'loss': 1.4939, 'grad_norm': 0.1590852439403534, 'learning_rate': 0.000445937100934058, 'epoch': 0.24}
+{'loss': 1.4929, 'grad_norm': 0.15722070634365082, 'learning_rate': 0.0004458082601015817, 'epoch': 0.24}
+{'loss': 1.4744, 'grad_norm': 0.1814616620540619, 'learning_rate': 0.0004456792845867235, 'epoch': 0.24}
+{'loss': 1.4906, 'grad_norm': 0.140178382396698, 'learning_rate': 0.0004455501744781964, 'epoch': 0.24}
+{'loss': 1.5075, 'grad_norm': 0.16123609244823456, 'learning_rate': 0.000445420929864806, 'epoch': 0.24}
+{'loss': 1.4996, 'grad_norm': 0.1456397920846939, 'learning_rate': 0.0004452915508354503, 'epoch': 0.24}
+{'loss': 1.4918, 'grad_norm': 0.15500374138355255, 'learning_rate': 0.00044516203747911967, 'epoch': 0.24}
+{'loss': 1.4966, 'grad_norm': 0.1411769539117813, 'learning_rate': 0.00044503238988489725, 'epoch': 0.24}
+{'loss': 1.4849, 'grad_norm': 0.16451571881771088, 'learning_rate': 0.0004449026081419581, 'epoch': 0.24}
+{'loss': 1.479, 'grad_norm': 0.14888480305671692, 'learning_rate': 0.0004447726923395698, 'epoch': 0.24}
+{'loss': 1.4858, 'grad_norm': 0.1443464607000351, 'learning_rate': 0.000444642642567092, 'epoch': 0.24}
+{'loss': 1.5091, 'grad_norm': 0.1507485955953598, 'learning_rate': 0.0004445124589139767, 'epoch': 0.24}
+{'loss': 1.4798, 'grad_norm': 0.1417170614004135, 'learning_rate': 0.00044438214146976765, 'epoch': 0.24}
+{'loss': 1.4739, 'grad_norm': 0.16230975091457367, 'learning_rate': 0.00044425169032410094, 'epoch': 0.24}
+{'loss': 1.485, 'grad_norm': 0.14512291550636292, 'learning_rate': 0.0004441211055667045, 'epoch': 0.24}
+{'loss': 1.4964, 'grad_norm': 0.13906431198120117, 'learning_rate': 0.0004439903872873982, 'epoch': 0.24}
+{'loss': 1.493, 'grad_norm': 0.1288309544324875, 'learning_rate': 0.00044385953557609357, 'epoch': 0.24}
+{'loss': 1.4833, 'grad_norm': 0.11520534753799438, 'learning_rate': 0.00044372855052279424, 'epoch': 0.24}
+{'loss': 1.4991, 'grad_norm': 0.1319558173418045, 'learning_rate': 0.0004435974322175953, 'epoch': 0.24}
+{'loss': 1.4954, 'grad_norm': 0.1275736689567566, 'learning_rate': 0.00044346618075068357, 'epoch': 0.24}
+{'loss': 1.4945, 'grad_norm': 0.12945930659770966, 'learning_rate': 0.0004433347962123375, 'epoch': 0.24}
+{'loss': 1.5116, 'grad_norm': 0.1564754992723465, 'learning_rate': 0.00044320327869292706, 'epoch': 0.24}
+{'loss': 1.5196, 'grad_norm': 0.14854778349399567, 'learning_rate': 0.00044307162828291356, 'epoch': 0.24}
+{'loss': 1.5056, 'grad_norm': 0.12783242762088776, 'learning_rate': 0.0004429398450728499, 'epoch': 0.24}
+{'loss': 1.4677, 'grad_norm': 0.13011117279529572, 'learning_rate': 0.0004428079291533803, 'epoch': 0.24}
+{'loss': 1.4598, 'grad_norm': 0.16095922887325287, 'learning_rate': 0.00044267588061524014, 'epoch': 0.24}
+{'loss': 1.4672, 'grad_norm': 0.12101831287145615, 'learning_rate': 0.00044254369954925603, 'epoch': 0.24}
+{'loss': 1.5045, 'grad_norm': 0.18356390297412872, 'learning_rate': 0.0004424113860463459, 'epoch': 0.24}
+{'loss': 1.478, 'grad_norm': 0.1419127732515335, 'learning_rate': 0.0004422789401975187, 'epoch': 0.24}
+{'loss': 1.4627, 'grad_norm': 0.17684818804264069, 'learning_rate': 0.00044214636209387423, 'epoch': 0.24}
+{'loss': 1.4887, 'grad_norm': 0.15091142058372498, 'learning_rate': 0.0004420136518266035, 'epoch': 0.24}
+{'loss': 1.5057, 'grad_norm': 0.1675989031791687, 'learning_rate': 0.00044188080948698825, 'epoch': 0.24}
+{'loss': 1.4862, 'grad_norm': 0.12809504568576813, 'learning_rate': 0.0004417478351664013, 'epoch': 0.25}
+{'loss': 1.4985, 'grad_norm': 0.173612579703331, 'learning_rate': 0.000441614728956306, 'epoch': 0.25}
+{'loss': 1.4732, 'grad_norm': 0.13843050599098206, 'learning_rate': 0.0004414814909482565, 'epoch': 0.25}
+{'loss': 1.4906, 'grad_norm': 0.18205615878105164, 'learning_rate': 0.0004413481212338977, 'epoch': 0.25}
+{'loss': 1.4896, 'grad_norm': 0.14972376823425293, 'learning_rate': 0.00044121461990496487, 'epoch': 0.25}
+{'loss': 1.5004, 'grad_norm': 0.17615915834903717, 'learning_rate': 0.00044108098705328405, 'epoch': 0.25}
+{'loss': 1.4818, 'grad_norm': 0.14643149077892303, 'learning_rate': 0.0004409472227707716, 'epoch': 0.25}
+{'loss': 1.4882, 'grad_norm': 0.16964709758758545, 'learning_rate': 0.00044081332714943436, 'epoch': 0.25}
+{'loss': 1.494, 'grad_norm': 0.14316906034946442, 'learning_rate': 0.00044067930028136946, 'epoch': 0.25}
+{'loss': 1.5129, 'grad_norm': 0.15633103251457214, 'learning_rate': 0.0004405451422587643, 'epoch': 0.25}
+{'loss': 1.4716, 'grad_norm': 0.1358339935541153, 'learning_rate': 0.0004404108531738965, 'epoch': 0.25}
+{'loss': 1.4765, 'grad_norm': 0.1640501767396927, 'learning_rate': 0.0004402764331191339, 'epoch': 0.25}
+{'loss': 1.4678, 'grad_norm': 0.15370669960975647, 'learning_rate': 0.0004401418821869343, 'epoch': 0.25}
+{'loss': 1.4848, 'grad_norm': 0.17250005900859833, 'learning_rate': 0.00044000720046984555, 'epoch': 0.25}
+{'loss': 1.5064, 'grad_norm': 0.12347947061061859, 'learning_rate': 0.00043987238806050566, 'epoch': 0.25}
+{'loss': 1.5046, 'grad_norm': 0.14782509207725525, 'learning_rate': 0.0004397374450516421, 'epoch': 0.25}
+{'loss': 1.4909, 'grad_norm': 0.14116014540195465, 'learning_rate': 0.0004396023715360727, 'epoch': 0.25}
+{'loss': 1.49, 'grad_norm': 0.13666093349456787, 'learning_rate': 0.0004394671676067047, 'epoch': 0.25}
+{'loss': 1.5037, 'grad_norm': 0.13942182064056396, 'learning_rate': 0.00043933183335653504, 'epoch': 0.25}
+{'loss': 1.5162, 'grad_norm': 0.15194213390350342, 'learning_rate': 0.00043919636887865043, 'epoch': 0.25}
+{'loss': 1.4861, 'grad_norm': 0.12676601111888885, 'learning_rate': 0.0004390607742662272, 'epoch': 0.25}
+{'loss': 1.4827, 'grad_norm': 0.1349693387746811, 'learning_rate': 0.000438925049612531, 'epoch': 0.25}
+{'loss': 1.4749, 'grad_norm': 0.1452862173318863, 'learning_rate': 0.0004387891950109171, 'epoch': 0.25}
+{'loss': 1.4926, 'grad_norm': 0.15444986522197723, 'learning_rate': 0.0004386532105548301, 'epoch': 0.25}
+{'loss': 1.4806, 'grad_norm': 0.12387440353631973, 'learning_rate': 0.0004385170963378039, 'epoch': 0.25}
+{'loss': 1.4907, 'grad_norm': 0.1668606400489807, 'learning_rate': 0.0004383808524534615, 'epoch': 0.25}
+{'loss': 1.49, 'grad_norm': 0.13618719577789307, 'learning_rate': 0.00043824447899551547, 'epoch': 0.25}
+{'loss': 1.4993, 'grad_norm': 0.12941879034042358, 'learning_rate': 0.0004381079760577671, 'epoch': 0.25}
+{'loss': 1.4868, 'grad_norm': 0.13864050805568695, 'learning_rate': 0.0004379713437341071, 'epoch': 0.25}
+{'loss': 1.4894, 'grad_norm': 0.13671888411045074, 'learning_rate': 0.0004378345821185148, 'epoch': 0.25}
+{'loss': 1.4816, 'grad_norm': 0.13198766112327576, 'learning_rate': 0.00043769769130505863, 'epoch': 0.25}
+{'loss': 1.4952, 'grad_norm': 0.13769599795341492, 'learning_rate': 0.00043756067138789616, 'epoch': 0.25}
+{'loss': 1.4665, 'grad_norm': 0.15260176360607147, 'learning_rate': 0.00043742352246127334, 'epoch': 0.25}
+{'loss': 1.4921, 'grad_norm': 0.1450149565935135, 'learning_rate': 0.00043728624461952505, 'epoch': 0.25}
+{'loss': 1.5036, 'grad_norm': 0.16504880785942078, 'learning_rate': 0.00043714883795707476, 'epoch': 0.25}
+{'loss': 1.4903, 'grad_norm': 0.14812281727790833, 'learning_rate': 0.0004370113025684347, 'epoch': 0.25}
+{'loss': 1.5058, 'grad_norm': 0.15424388647079468, 'learning_rate': 0.0004368736385482056, 'epoch': 0.25}
+{'loss': 1.5021, 'grad_norm': 0.138362318277359, 'learning_rate': 0.0004367358459910764, 'epoch': 0.25}
+{'loss': 1.4961, 'grad_norm': 0.137978658080101, 'learning_rate': 0.00043659792499182483, 'epoch': 0.25}
+{'loss': 1.4962, 'grad_norm': 0.12699225544929504, 'learning_rate': 0.0004364598756453167, 'epoch': 0.26}
+{'loss': 1.4769, 'grad_norm': 0.13899771869182587, 'learning_rate': 0.00043632169804650627, 'epoch': 0.26}
+{'loss': 1.4934, 'grad_norm': 0.14529921114444733, 'learning_rate': 0.00043618339229043596, 'epoch': 0.26}
+{'loss': 1.4811, 'grad_norm': 0.1066000834107399, 'learning_rate': 0.00043604495847223627, 'epoch': 0.26}
+{'loss': 1.4907, 'grad_norm': 0.1281106173992157, 'learning_rate': 0.0004359063966871259, 'epoch': 0.26}
+{'loss': 1.4632, 'grad_norm': 0.13498765230178833, 'learning_rate': 0.0004357677070304115, 'epoch': 0.26}
+{'loss': 1.4952, 'grad_norm': 0.10790685564279556, 'learning_rate': 0.0004356288895974876, 'epoch': 0.26}
+{'loss': 1.4627, 'grad_norm': 0.14162491261959076, 'learning_rate': 0.00043548994448383674, 'epoch': 0.26}
+{'loss': 1.4955, 'grad_norm': 0.13282383978366852, 'learning_rate': 0.0004353508717850293, 'epoch': 0.26}
+{'loss': 1.4741, 'grad_norm': 0.14739158749580383, 'learning_rate': 0.00043521167159672335, 'epoch': 0.26}
+{'loss': 1.4834, 'grad_norm': 0.11889150738716125, 'learning_rate': 0.0004350723440146646, 'epoch': 0.26}
+{'loss': 1.4887, 'grad_norm': 0.13333594799041748, 'learning_rate': 0.0004349328891346865, 'epoch': 0.26}
+{'loss': 1.4877, 'grad_norm': 0.1189461201429367, 'learning_rate': 0.00043479330705271, 'epoch': 0.26}
+{'loss': 1.4868, 'grad_norm': 0.13556237518787384, 'learning_rate': 0.0004346535978647435, 'epoch': 0.26}
+{'loss': 1.5163, 'grad_norm': 0.14357295632362366, 'learning_rate': 0.00043451376166688297, 'epoch': 0.26}
+{'loss': 1.4709, 'grad_norm': 0.12464357912540436, 'learning_rate': 0.00043437379855531155, 'epoch': 0.26}
+{'loss': 1.4806, 'grad_norm': 0.12649032473564148, 'learning_rate': 0.00043423370862629985, 'epoch': 0.26}
+{'loss': 1.4961, 'grad_norm': 0.12419697642326355, 'learning_rate': 0.0004340934919762055, 'epoch': 0.26}
+{'loss': 1.4778, 'grad_norm': 0.12536269426345825, 'learning_rate': 0.0004339531487014736, 'epoch': 0.26}
+{'loss': 1.487, 'grad_norm': 0.1481829732656479, 'learning_rate': 0.0004338126788986361, 'epoch': 0.26}
+{'loss': 1.4916, 'grad_norm': 0.13592927157878876, 'learning_rate': 0.0004336720826643119, 'epoch': 0.26}
+{'loss': 1.4957, 'grad_norm': 0.14917346835136414, 'learning_rate': 0.0004335313600952072, 'epoch': 0.26}
+{'loss': 1.4755, 'grad_norm': 0.16453352570533752, 'learning_rate': 0.0004333905112881149, 'epoch': 0.26}
+{'loss': 1.4922, 'grad_norm': 0.1531350165605545, 'learning_rate': 0.00043324953633991467, 'epoch': 0.26}
+{'loss': 1.5079, 'grad_norm': 0.16051022708415985, 'learning_rate': 0.000433108435347573, 'epoch': 0.26}
+{'loss': 1.4459, 'grad_norm': 0.12647488713264465, 'learning_rate': 0.0004329672084081431, 'epoch': 0.26}
+{'loss': 1.4668, 'grad_norm': 0.1409761607646942, 'learning_rate': 0.0004328258556187649, 'epoch': 0.26}
+{'loss': 1.4798, 'grad_norm': 0.14592686295509338, 'learning_rate': 0.0004326843770766645, 'epoch': 0.26}
+{'loss': 1.476, 'grad_norm': 0.12606093287467957, 'learning_rate': 0.0004325427728791552, 'epoch': 0.26}
+{'loss': 1.4841, 'grad_norm': 0.14987535774707794, 'learning_rate': 0.000432401043123636, 'epoch': 0.26}
+{'loss': 1.4633, 'grad_norm': 0.12016904354095459, 'learning_rate': 0.00043225918790759275, 'epoch': 0.26}
+{'loss': 1.4797, 'grad_norm': 0.14865878224372864, 'learning_rate': 0.00043211720732859725, 'epoch': 0.26}
+{'loss': 1.4773, 'grad_norm': 0.12991508841514587, 'learning_rate': 0.00043197510148430785, 'epoch': 0.26}
+{'loss': 1.4691, 'grad_norm': 0.1699318140745163, 'learning_rate': 0.0004318328704724689, 'epoch': 0.26}
+{'loss': 1.502, 'grad_norm': 0.13198378682136536, 'learning_rate': 0.00043169051439091076, 'epoch': 0.26}
+{'loss': 1.48, 'grad_norm': 0.1506669968366623, 'learning_rate': 0.0004315480333375501, 'epoch': 0.26}
+{'loss': 1.4944, 'grad_norm': 0.10796122997999191, 'learning_rate': 0.00043140542741038914, 'epoch': 0.26}
+{'loss': 1.5076, 'grad_norm': 0.14889471232891083, 'learning_rate': 0.0004312626967075164, 'epoch': 0.26}
+{'loss': 1.4947, 'grad_norm': 0.13984020054340363, 'learning_rate': 0.00043111984132710585, 'epoch': 0.26}
+{'loss': 1.4933, 'grad_norm': 0.10891740024089813, 'learning_rate': 0.0004309768613674175, 'epoch': 0.27}
+{'loss': 1.4845, 'grad_norm': 0.14998385310173035, 'learning_rate': 0.00043083375692679705, 'epoch': 0.27}
+{'loss': 1.4632, 'grad_norm': 0.12554721534252167, 'learning_rate': 0.0004306905281036756, 'epoch': 0.27}
+{'loss': 1.4703, 'grad_norm': 0.14908485114574432, 'learning_rate': 0.0004305471749965699, 'epoch': 0.27}
+{'loss': 1.498, 'grad_norm': 0.14287036657333374, 'learning_rate': 0.0004304036977040824, 'epoch': 0.27}
+{'loss': 1.4796, 'grad_norm': 0.12778644263744354, 'learning_rate': 0.0004302600963249006, 'epoch': 0.27}
+{'loss': 1.4656, 'grad_norm': 0.1168481856584549, 'learning_rate': 0.00043011637095779755, 'epoch': 0.27}
+{'loss': 1.4984, 'grad_norm': 0.14857956767082214, 'learning_rate': 0.00042997252170163164, 'epoch': 0.27}
+{'loss': 1.4738, 'grad_norm': 0.12862670421600342, 'learning_rate': 0.0004298285486553464, 'epoch': 0.27}
+{'loss': 1.485, 'grad_norm': 0.15696752071380615, 'learning_rate': 0.00042968445191797044, 'epoch': 0.27}
+{'loss': 1.4925, 'grad_norm': 0.1306997686624527, 'learning_rate': 0.0004295402315886176, 'epoch': 0.27}
+{'loss': 1.5012, 'grad_norm': 0.16516569256782532, 'learning_rate': 0.0004293958877664865, 'epoch': 0.27}
+{'loss': 1.4873, 'grad_norm': 0.12255334854125977, 'learning_rate': 0.0004292514205508611, 'epoch': 0.27}
+{'loss': 1.4856, 'grad_norm': 0.16212818026542664, 'learning_rate': 0.0004291068300411097, 'epoch': 0.27}
+{'loss': 1.47, 'grad_norm': 0.13928373157978058, 'learning_rate': 0.0004289621163366858, 'epoch': 0.27}
+{'loss': 1.4927, 'grad_norm': 0.14566998183727264, 'learning_rate': 0.00042881727953712756, 'epoch': 0.27}
+{'loss': 1.457, 'grad_norm': 0.15463893115520477, 'learning_rate': 0.00042867231974205776, 'epoch': 0.27}
+{'loss': 1.4754, 'grad_norm': 0.12709420919418335, 'learning_rate': 0.00042852723705118375, 'epoch': 0.27}
+{'loss': 1.4823, 'grad_norm': 0.17169219255447388, 'learning_rate': 0.00042838203156429745, 'epoch': 0.27}
+{'loss': 1.4846, 'grad_norm': 0.13051573932170868, 'learning_rate': 0.0004282367033812753, 'epoch': 0.27}
+{'loss': 1.4855, 'grad_norm': 0.15019343793392181, 'learning_rate': 0.000428091252602078, 'epoch': 0.27}
+{'loss': 1.4612, 'grad_norm': 0.1571946144104004, 'learning_rate': 0.00042794567932675066, 'epoch': 0.27}
+{'loss': 1.4835, 'grad_norm': 0.1660267561674118, 'learning_rate': 0.0004277999836554227, 'epoch': 0.27}
+{'loss': 1.4798, 'grad_norm': 0.1358538120985031, 'learning_rate': 0.00042765416568830766, 'epoch': 0.27}
+{'loss': 1.4592, 'grad_norm': 0.16560181975364685, 'learning_rate': 0.0004275082255257032, 'epoch': 0.27}
+{'loss': 1.4757, 'grad_norm': 0.12726473808288574, 'learning_rate': 0.00042736216326799096, 'epoch': 0.27}
+{'loss': 1.509, 'grad_norm': 0.13647449016571045, 'learning_rate': 0.0004272159790156367, 'epoch': 0.27}
+{'loss': 1.4764, 'grad_norm': 0.12869404256343842, 'learning_rate': 0.00042706967286918997, 'epoch': 0.27}
+{'loss': 1.4911, 'grad_norm': 0.17111781239509583, 'learning_rate': 0.0004269232449292843, 'epoch': 0.27}
+{'loss': 1.4768, 'grad_norm': 0.1345215141773224, 'learning_rate': 0.00042677669529663686, 'epoch': 0.27}
+{'loss': 1.4865, 'grad_norm': 0.17952117323875427, 'learning_rate': 0.00042663002407204866, 'epoch': 0.27}
+{'loss': 1.4565, 'grad_norm': 0.15386292338371277, 'learning_rate': 0.0004264832313564041, 'epoch': 0.27}
+{'loss': 1.4605, 'grad_norm': 0.1492149382829666, 'learning_rate': 0.0004263363172506714, 'epoch': 0.27}
+{'loss': 1.4643, 'grad_norm': 0.1348486840724945, 'learning_rate': 0.0004261892818559021, 'epoch': 0.27}
+{'loss': 1.4798, 'grad_norm': 0.13382628560066223, 'learning_rate': 0.0004260421252732314, 'epoch': 0.27}
+{'loss': 1.4814, 'grad_norm': 0.15173685550689697, 'learning_rate': 0.00042589484760387767, 'epoch': 0.27}
+{'loss': 1.511, 'grad_norm': 0.1321781426668167, 'learning_rate': 0.00042574744894914243, 'epoch': 0.27}
+{'loss': 1.4844, 'grad_norm': 0.16407446563243866, 'learning_rate': 0.0004255999294104107, 'epoch': 0.27}
+{'loss': 1.4778, 'grad_norm': 0.13560816645622253, 'learning_rate': 0.00042545228908915056, 'epoch': 0.27}
+{'loss': 1.489, 'grad_norm': 0.15773537755012512, 'learning_rate': 0.0004253045280869131, 'epoch': 0.28}
+{'loss': 1.4877, 'grad_norm': 0.15028931200504303, 'learning_rate': 0.0004251566465053325, 'epoch': 0.28}
+{'loss': 1.4674, 'grad_norm': 0.13255099952220917, 'learning_rate': 0.00042500864444612574, 'epoch': 0.28}
+{'loss': 1.485, 'grad_norm': 0.14959853887557983, 'learning_rate': 0.0004248605220110929, 'epoch': 0.28}
+{'loss': 1.4632, 'grad_norm': 0.1465458869934082, 'learning_rate': 0.00042471227930211653, 'epoch': 0.28}
+{'loss': 1.4849, 'grad_norm': 0.12347288429737091, 'learning_rate': 0.0004245639164211623, 'epoch': 0.28}
+{'loss': 1.4846, 'grad_norm': 0.1698143482208252, 'learning_rate': 0.0004244154334702782, 'epoch': 0.28}
+{'loss': 1.4929, 'grad_norm': 0.14233188331127167, 'learning_rate': 0.0004242668305515951, 'epoch': 0.28}
+{'loss': 1.5153, 'grad_norm': 0.14067895710468292, 'learning_rate': 0.00042411810776732606, 'epoch': 0.28}
+{'loss': 1.498, 'grad_norm': 0.13106825947761536, 'learning_rate': 0.0004239692652197668, 'epoch': 0.28}
+{'loss': 1.4609, 'grad_norm': 0.16891871392726898, 'learning_rate': 0.00042382030301129546, 'epoch': 0.28}
+{'loss': 1.5038, 'grad_norm': 0.13034051656723022, 'learning_rate': 0.0004236712212443723, 'epoch': 0.28}
+{'loss': 1.4782, 'grad_norm': 0.17511820793151855, 'learning_rate': 0.00042352202002154005, 'epoch': 0.28}
+{'loss': 1.485, 'grad_norm': 0.13534189760684967, 'learning_rate': 0.0004233726994454232, 'epoch': 0.28}
+{'loss': 1.5015, 'grad_norm': 0.1524689942598343, 'learning_rate': 0.000423223259618729, 'epoch': 0.28}
+{'loss': 1.4866, 'grad_norm': 0.1630849838256836, 'learning_rate': 0.000423073700644246, 'epoch': 0.28}
+{'loss': 1.4774, 'grad_norm': 0.1338544487953186, 'learning_rate': 0.00042292402262484517, 'epoch': 0.28}
+{'loss': 1.4827, 'grad_norm': 0.16055446863174438, 'learning_rate': 0.0004227742256634792, 'epoch': 0.28}
+{'loss': 1.4718, 'grad_norm': 0.14894753694534302, 'learning_rate': 0.0004226243098631826, 'epoch': 0.28}
+{'loss': 1.4944, 'grad_norm': 0.17323146760463715, 'learning_rate': 0.00042247427532707174, 'epoch': 0.28}
+{'loss': 1.4915, 'grad_norm': 0.160398930311203, 'learning_rate': 0.00042232412215834444, 'epoch': 0.28}
+{'loss': 1.4712, 'grad_norm': 0.14032109081745148, 'learning_rate': 0.00042217385046028024, 'epoch': 0.28}
+{'loss': 1.4804, 'grad_norm': 0.15601405501365662, 'learning_rate': 0.00042202346033624026, 'epoch': 0.28}
+{'loss': 1.4856, 'grad_norm': 0.1350281983613968, 'learning_rate': 0.0004218729518896671, 'epoch': 0.28}
+{'loss': 1.4999, 'grad_norm': 0.16077427566051483, 'learning_rate': 0.0004217223252240845, 'epoch': 0.28}
+{'loss': 1.4767, 'grad_norm': 0.1359805017709732, 'learning_rate': 0.00042157158044309775, 'epoch': 0.28}
+{'loss': 1.4825, 'grad_norm': 0.13558271527290344, 'learning_rate': 0.00042142071765039325, 'epoch': 0.28}
+{'loss': 1.4826, 'grad_norm': 0.1441158652305603, 'learning_rate': 0.0004212697369497388, 'epoch': 0.28}
+{'loss': 1.4959, 'grad_norm': 0.13493826985359192, 'learning_rate': 0.00042111863844498297, 'epoch': 0.28}
+{'loss': 1.4837, 'grad_norm': 0.13916899263858795, 'learning_rate': 0.0004209674222400557, 'epoch': 0.28}
+{'loss': 1.4749, 'grad_norm': 0.16602641344070435, 'learning_rate': 0.00042081608843896754, 'epoch': 0.28}
+{'loss': 1.4776, 'grad_norm': 0.1453007012605667, 'learning_rate': 0.00042066463714581013, 'epoch': 0.28}
+{'loss': 1.4956, 'grad_norm': 0.16779132187366486, 'learning_rate': 0.000420513068464756, 'epoch': 0.28}
+{'loss': 1.4716, 'grad_norm': 0.1336911916732788, 'learning_rate': 0.00042036138250005817, 'epoch': 0.28}
+{'loss': 1.5062, 'grad_norm': 0.15224754810333252, 'learning_rate': 0.00042020957935605066, 'epoch': 0.28}
+{'loss': 1.4603, 'grad_norm': 0.17845207452774048, 'learning_rate': 0.0004200576591371477, 'epoch': 0.28}
+{'loss': 1.4948, 'grad_norm': 0.15582431852817535, 'learning_rate': 0.00041990562194784434, 'epoch': 0.28}
+{'loss': 1.4796, 'grad_norm': 0.14682874083518982, 'learning_rate': 0.0004197534678927161, 'epoch': 0.28}
+{'loss': 1.4661, 'grad_norm': 0.13031402230262756, 'learning_rate': 0.0004196011970764186, 'epoch': 0.28}
+{'loss': 1.4813, 'grad_norm': 0.1577519029378891, 'learning_rate': 0.000419448809603688, 'epoch': 0.29}
+{'loss': 1.4726, 'grad_norm': 0.11998724192380905, 'learning_rate': 0.00041929630557934085, 'epoch': 0.29}
+{'loss': 1.5096, 'grad_norm': 0.15518026053905487, 'learning_rate': 0.0004191436851082735, 'epoch': 0.29}
+{'loss': 1.4723, 'grad_norm': 0.13422951102256775, 'learning_rate': 0.00041899094829546244, 'epoch': 0.29}
+{'loss': 1.4809, 'grad_norm': 0.11680305749177933, 'learning_rate': 0.0004188380952459646, 'epoch': 0.29}
+{'loss': 1.4767, 'grad_norm': 0.1386314034461975, 'learning_rate': 0.0004186851260649164, 'epoch': 0.29}
+{'loss': 1.5116, 'grad_norm': 0.131450355052948, 'learning_rate': 0.00041853204085753426, 'epoch': 0.29}
+{'loss': 1.4896, 'grad_norm': 0.13049261271953583, 'learning_rate': 0.00041837883972911454, 'epoch': 0.29}
+{'loss': 1.477, 'grad_norm': 0.15208905935287476, 'learning_rate': 0.00041822552278503335, 'epoch': 0.29}
+{'loss': 1.4965, 'grad_norm': 0.14342932403087616, 'learning_rate': 0.0004180720901307461, 'epoch': 0.29}
+{'loss': 1.4689, 'grad_norm': 0.13630762696266174, 'learning_rate': 0.0004179185418717883, 'epoch': 0.29}
+{'loss': 1.4995, 'grad_norm': 0.15454503893852234, 'learning_rate': 0.00041776487811377456, 'epoch': 0.29}
+{'loss': 1.476, 'grad_norm': 0.12989673018455505, 'learning_rate': 0.00041761109896239917, 'epoch': 0.29}
+{'loss': 1.5112, 'grad_norm': 0.1422804743051529, 'learning_rate': 0.0004174572045234357, 'epoch': 0.29}
+{'loss': 1.5026, 'grad_norm': 0.11712633818387985, 'learning_rate': 0.00041730319490273707, 'epoch': 0.29}
+{'loss': 1.4757, 'grad_norm': 0.14177478849887848, 'learning_rate': 0.00041714907020623537, 'epoch': 0.29}
+{'loss': 1.4738, 'grad_norm': 0.13528990745544434, 'learning_rate': 0.0004169948305399418, 'epoch': 0.29}
+{'loss': 1.5025, 'grad_norm': 0.13470740616321564, 'learning_rate': 0.00041684047600994676, 'epoch': 0.29}
+{'loss': 1.4766, 'grad_norm': 0.15507872402668, 'learning_rate': 0.00041668600672241975, 'epoch': 0.29}
+{'loss': 1.4654, 'grad_norm': 0.15344901382923126, 'learning_rate': 0.00041653142278360873, 'epoch': 0.29}
+{'loss': 1.4938, 'grad_norm': 0.1279599964618683, 'learning_rate': 0.00041637672429984106, 'epoch': 0.29}
+{'loss': 1.4817, 'grad_norm': 0.14456267654895782, 'learning_rate': 0.00041622191137752275, 'epoch': 0.29}
+{'loss': 1.4883, 'grad_norm': 0.14983659982681274, 'learning_rate': 0.0004160669841231382, 'epoch': 0.29}
+{'loss': 1.4648, 'grad_norm': 0.13354255259037018, 'learning_rate': 0.0004159119426432509, 'epoch': 0.29}
+{'loss': 1.5052, 'grad_norm': 0.16822130978107452, 'learning_rate': 0.0004157567870445026, 'epoch': 0.29}
+{'loss': 1.4757, 'grad_norm': 0.12080107629299164, 'learning_rate': 0.0004156015174336136, 'epoch': 0.29}
+{'loss': 1.4841, 'grad_norm': 0.1391029953956604, 'learning_rate': 0.00041544613391738286, 'epoch': 0.29}
+{'loss': 1.4774, 'grad_norm': 0.14852140843868256, 'learning_rate': 0.0004152906366026873, 'epoch': 0.29}
+{'loss': 1.4718, 'grad_norm': 0.15600986778736115, 'learning_rate': 0.0004151350255964824, 'epoch': 0.29}
+{'loss': 1.4803, 'grad_norm': 0.15006445348262787, 'learning_rate': 0.00041497930100580177, 'epoch': 0.29}
+{'loss': 1.4909, 'grad_norm': 0.14504176378250122, 'learning_rate': 0.00041482346293775707, 'epoch': 0.29}
+{'loss': 1.4992, 'grad_norm': 0.17416217923164368, 'learning_rate': 0.00041466751149953806, 'epoch': 0.29}
+{'loss': 1.4987, 'grad_norm': 0.16076304018497467, 'learning_rate': 0.0004145114467984126, 'epoch': 0.29}
+{'loss': 1.4814, 'grad_norm': 0.1564471423625946, 'learning_rate': 0.00041435526894172624, 'epoch': 0.29}
+{'loss': 1.4899, 'grad_norm': 0.1268467903137207, 'learning_rate': 0.0004141989780369025, 'epoch': 0.29}
+{'loss': 1.4905, 'grad_norm': 0.1881827414035797, 'learning_rate': 0.0004140425741914426, 'epoch': 0.29}
+{'loss': 1.5032, 'grad_norm': 0.13628390431404114, 'learning_rate': 0.0004138860575129254, 'epoch': 0.29}
+{'loss': 1.4977, 'grad_norm': 0.1442120224237442, 'learning_rate': 0.00041372942810900766, 'epoch': 0.29}
+{'loss': 1.4921, 'grad_norm': 0.16728827357292175, 'learning_rate': 0.00041357268608742317, 'epoch': 0.29}
+{'loss': 1.4805, 'grad_norm': 0.1261442005634308, 'learning_rate': 0.0004134158315559837, 'epoch': 0.3}
+{'loss': 1.5049, 'grad_norm': 0.15353265404701233, 'learning_rate': 0.0004132588646225781, 'epoch': 0.3}
+{'loss': 1.486, 'grad_norm': 0.1487247198820114, 'learning_rate': 0.0004131017853951725, 'epoch': 0.3}
+{'loss': 1.4783, 'grad_norm': 0.1183771938085556, 'learning_rate': 0.00041294459398181046, 'epoch': 0.3}
+{'loss': 1.5138, 'grad_norm': 0.15449035167694092, 'learning_rate': 0.0004127872904906126, 'epoch': 0.3}
+{'loss': 1.496, 'grad_norm': 0.1441347450017929, 'learning_rate': 0.0004126298750297767, 'epoch': 0.3}
+{'loss': 1.4614, 'grad_norm': 0.14041388034820557, 'learning_rate': 0.00041247234770757735, 'epoch': 0.3}
+{'loss': 1.4945, 'grad_norm': 0.15515448153018951, 'learning_rate': 0.00041231470863236643, 'epoch': 0.3}
+{'loss': 1.523, 'grad_norm': 0.13512475788593292, 'learning_rate': 0.0004121569579125724, 'epoch': 0.3}
+{'loss': 1.4932, 'grad_norm': 0.1313992738723755, 'learning_rate': 0.0004119990956567006, 'epoch': 0.3}
+{'loss': 1.4782, 'grad_norm': 0.1344861090183258, 'learning_rate': 0.0004118411219733331, 'epoch': 0.3}
+{'loss': 1.4852, 'grad_norm': 0.14826597273349762, 'learning_rate': 0.0004116830369711286, 'epoch': 0.3}
+{'loss': 1.5003, 'grad_norm': 0.137358620762825, 'learning_rate': 0.00041152484075882245, 'epoch': 0.3}
+{'loss': 1.4715, 'grad_norm': 0.15765555202960968, 'learning_rate': 0.00041136653344522634, 'epoch': 0.3}
+{'loss': 1.4786, 'grad_norm': 0.12936106324195862, 'learning_rate': 0.0004112081151392283, 'epoch': 0.3}
+{'loss': 1.4853, 'grad_norm': 0.14931276440620422, 'learning_rate': 0.00041104958594979327, 'epoch': 0.3}
+{'loss': 1.4969, 'grad_norm': 0.11880885064601898, 'learning_rate': 0.0004108909459859616, 'epoch': 0.3}
+{'loss': 1.5092, 'grad_norm': 0.16568610072135925, 'learning_rate': 0.00041073219535685057, 'epoch': 0.3}
+{'loss': 1.4718, 'grad_norm': 0.13454876840114594, 'learning_rate': 0.00041057333417165315, 'epoch': 0.3}
+{'loss': 1.4739, 'grad_norm': 0.15117888152599335, 'learning_rate': 0.0004104143625396386, 'epoch': 0.3}
+{'loss': 1.4687, 'grad_norm': 0.13096150755882263, 'learning_rate': 0.00041025528057015196, 'epoch': 0.3}
+{'loss': 1.5021, 'grad_norm': 0.16541558504104614, 'learning_rate': 0.0004100960883726142, 'epoch': 0.3}
+{'loss': 1.4841, 'grad_norm': 0.1707933098077774, 'learning_rate': 0.0004099367860565223, 'epoch': 0.3}
+{'loss': 1.4793, 'grad_norm': 0.14590325951576233, 'learning_rate': 0.00040977737373144873, 'epoch': 0.3}
+{'loss': 1.4744, 'grad_norm': 0.16885121166706085, 'learning_rate': 0.0004096178515070418, 'epoch': 0.3}
+{'loss': 1.4699, 'grad_norm': 0.16139832139015198, 'learning_rate': 0.0004094582194930253, 'epoch': 0.3}
+{'loss': 1.4777, 'grad_norm': 0.17833788692951202, 'learning_rate': 0.00040929847779919853, 'epoch': 0.3}
+{'loss': 1.4923, 'grad_norm': 0.15226295590400696, 'learning_rate': 0.0004091386265354364, 'epoch': 0.3}
+{'loss': 1.4736, 'grad_norm': 0.1530865877866745, 'learning_rate': 0.000408978665811689, 'epoch': 0.3}
+{'loss': 1.4787, 'grad_norm': 0.14132747054100037, 'learning_rate': 0.00040881859573798176, 'epoch': 0.3}
+{'loss': 1.5005, 'grad_norm': 0.14691703021526337, 'learning_rate': 0.00040865841642441524, 'epoch': 0.3}
+{'loss': 1.4803, 'grad_norm': 0.15996097028255463, 'learning_rate': 0.0004084981279811656, 'epoch': 0.3}
+{'loss': 1.4744, 'grad_norm': 0.13271692395210266, 'learning_rate': 0.0004083377305184833, 'epoch': 0.3}
+{'loss': 1.5234, 'grad_norm': 0.15847083926200867, 'learning_rate': 0.0004081772241466944, 'epoch': 0.3}
+{'loss': 1.4924, 'grad_norm': 0.12063146382570267, 'learning_rate': 0.00040801660897619963, 'epoch': 0.3}
+{'loss': 1.5004, 'grad_norm': 0.15105792880058289, 'learning_rate': 0.00040785588511747453, 'epoch': 0.3}
+{'loss': 1.4778, 'grad_norm': 0.1254110485315323, 'learning_rate': 0.00040769505268106943, 'epoch': 0.3}
+{'loss': 1.4724, 'grad_norm': 0.13346566259860992, 'learning_rate': 0.0004075341117776095, 'epoch': 0.3}
+{'loss': 1.494, 'grad_norm': 0.13887706398963928, 'learning_rate': 0.00040737306251779426, 'epoch': 0.3}
+{'loss': 1.502, 'grad_norm': 0.12629909813404083, 'learning_rate': 0.000407211905012398, 'epoch': 0.31}
+{'loss': 1.4827, 'grad_norm': 0.16912409663200378, 'learning_rate': 0.00040705063937226916, 'epoch': 0.31}
+{'loss': 1.4599, 'grad_norm': 0.12211980670690536, 'learning_rate': 0.00040688926570833095, 'epoch': 0.31}
+{'loss': 1.4815, 'grad_norm': 0.16322505474090576, 'learning_rate': 0.00040672778413158053, 'epoch': 0.31}
+{'loss': 1.4813, 'grad_norm': 0.14020316302776337, 'learning_rate': 0.00040656619475308944, 'epoch': 0.31}
+{'loss': 1.4975, 'grad_norm': 0.14286036789417267, 'learning_rate': 0.0004064044976840035, 'epoch': 0.31}
+{'loss': 1.4861, 'grad_norm': 0.17757514119148254, 'learning_rate': 0.0004062426930355423, 'epoch': 0.31}
+{'loss': 1.4652, 'grad_norm': 0.12353762984275818, 'learning_rate': 0.0004060807809189997, 'epoch': 0.31}
+{'loss': 1.5078, 'grad_norm': 0.1644207090139389, 'learning_rate': 0.0004059187614457432, 'epoch': 0.31}
+{'loss': 1.4723, 'grad_norm': 0.1263149082660675, 'learning_rate': 0.0004057566347272146, 'epoch': 0.31}
+{'loss': 1.4829, 'grad_norm': 0.14418035745620728, 'learning_rate': 0.00040559440087492896, 'epoch': 0.31}
+{'loss': 1.4713, 'grad_norm': 0.15268158912658691, 'learning_rate': 0.0004054320600004753, 'epoch': 0.31}
+{'loss': 1.4771, 'grad_norm': 0.12493995577096939, 'learning_rate': 0.00040526961221551617, 'epoch': 0.31}
+{'loss': 1.4755, 'grad_norm': 0.17884762585163116, 'learning_rate': 0.0004051070576317877, 'epoch': 0.31}
+{'loss': 1.4792, 'grad_norm': 0.13048557937145233, 'learning_rate': 0.0004049443963610996, 'epoch': 0.31}
+{'loss': 1.4828, 'grad_norm': 0.12783654034137726, 'learning_rate': 0.0004047816285153346, 'epoch': 0.31}
+{'loss': 1.4773, 'grad_norm': 0.136556938290596, 'learning_rate': 0.0004046187542064491, 'epoch': 0.31}
+{'loss': 1.4863, 'grad_norm': 0.12816350162029266, 'learning_rate': 0.0004044557735464726, 'epoch': 0.31}
+{'loss': 1.4755, 'grad_norm': 0.13632158935070038, 'learning_rate': 0.00040429268664750773, 'epoch': 0.31}
+{'loss': 1.4871, 'grad_norm': 0.12784269452095032, 'learning_rate': 0.00040412949362173017, 'epoch': 0.31}
+{'loss': 1.5007, 'grad_norm': 0.13228225708007812, 'learning_rate': 0.0004039661945813886, 'epoch': 0.31}
+{'loss': 1.4726, 'grad_norm': 0.11195982247591019, 'learning_rate': 0.0004038027896388048, 'epoch': 0.31}
+{'loss': 1.4645, 'grad_norm': 0.11956318467855453, 'learning_rate': 0.0004036392789063731, 'epoch': 0.31}
+{'loss': 1.4726, 'grad_norm': 0.11407635360956192, 'learning_rate': 0.0004034756624965608, 'epoch': 0.31}
+{'loss': 1.4856, 'grad_norm': 0.124824158847332, 'learning_rate': 0.0004033119405219079, 'epoch': 0.31}
+{'loss': 1.4823, 'grad_norm': 0.12433946877717972, 'learning_rate': 0.00040314811309502676, 'epoch': 0.31}
+{'loss': 1.4692, 'grad_norm': 0.12872229516506195, 'learning_rate': 0.00040298418032860264, 'epoch': 0.31}
+{'loss': 1.4844, 'grad_norm': 0.12919408082962036, 'learning_rate': 0.0004028201423353929, 'epoch': 0.31}
+{'loss': 1.4624, 'grad_norm': 0.11255000531673431, 'learning_rate': 0.00040265599922822753, 'epoch': 0.31}
+{'loss': 1.4677, 'grad_norm': 0.12234552949666977, 'learning_rate': 0.0004024917511200088, 'epoch': 0.31}
+{'loss': 1.494, 'grad_norm': 0.13436175882816315, 'learning_rate': 0.00040232739812371104, 'epoch': 0.31}
+{'loss': 1.4935, 'grad_norm': 0.10523967444896698, 'learning_rate': 0.0004021629403523809, 'epoch': 0.31}
+{'loss': 1.4917, 'grad_norm': 0.13727596402168274, 'learning_rate': 0.00040199837791913694, 'epoch': 0.31}
+{'loss': 1.4732, 'grad_norm': 0.13478104770183563, 'learning_rate': 0.0004018337109371699, 'epoch': 0.31}
+{'loss': 1.4829, 'grad_norm': 0.12828539311885834, 'learning_rate': 0.00040166893951974216, 'epoch': 0.31}
+{'loss': 1.4897, 'grad_norm': 0.13536317646503448, 'learning_rate': 0.0004015040637801883, 'epoch': 0.31}
+{'loss': 1.4971, 'grad_norm': 0.1356852501630783, 'learning_rate': 0.0004013390838319143, 'epoch': 0.31}
+{'loss': 1.4651, 'grad_norm': 0.11960583925247192, 'learning_rate': 0.00040117399978839796, 'epoch': 0.31}
+{'loss': 1.4887, 'grad_norm': 0.14375893771648407, 'learning_rate': 0.0004010088117631888, 'epoch': 0.31}
+{'loss': 1.4357, 'grad_norm': 0.12332840263843536, 'learning_rate': 0.00040084351986990777, 'epoch': 0.32}
+{'loss': 1.4777, 'grad_norm': 0.151560440659523, 'learning_rate': 0.00040067812422224703, 'epoch': 0.32}
+{'loss': 1.4875, 'grad_norm': 0.12981177866458893, 'learning_rate': 0.0004005126249339705, 'epoch': 0.32}
+{'loss': 1.4709, 'grad_norm': 0.1288008689880371, 'learning_rate': 0.00040034702211891315, 'epoch': 0.32}
+{'loss': 1.4818, 'grad_norm': 0.12258880585432053, 'learning_rate': 0.0004001813158909813, 'epoch': 0.32}
+{'loss': 1.4883, 'grad_norm': 0.11728609353303909, 'learning_rate': 0.0004000155063641522, 'epoch': 0.32}
+{'loss': 1.4885, 'grad_norm': 0.142709881067276, 'learning_rate': 0.00039984959365247427, 'epoch': 0.32}
+{'loss': 1.4761, 'grad_norm': 0.12389206886291504, 'learning_rate': 0.0003996835778700669, 'epoch': 0.32}
+{'loss': 1.4792, 'grad_norm': 0.12298411130905151, 'learning_rate': 0.00039951745913112055, 'epoch': 0.32}
+{'loss': 1.4623, 'grad_norm': 0.12975089251995087, 'learning_rate': 0.00039935123754989603, 'epoch': 0.32}
+{'loss': 1.4762, 'grad_norm': 0.1317141056060791, 'learning_rate': 0.00039918491324072547, 'epoch': 0.32}
+{'loss': 1.4756, 'grad_norm': 0.13627392053604126, 'learning_rate': 0.0003990184863180112, 'epoch': 0.32}
+{'loss': 1.435, 'grad_norm': 0.14232976734638214, 'learning_rate': 0.00039885195689622624, 'epoch': 0.32}
+{'loss': 1.4604, 'grad_norm': 0.11551400274038315, 'learning_rate': 0.0003986853250899143, 'epoch': 0.32}
+{'loss': 1.4634, 'grad_norm': 0.15529705584049225, 'learning_rate': 0.00039851859101368937, 'epoch': 0.32}
+{'loss': 1.4872, 'grad_norm': 0.11732761561870575, 'learning_rate': 0.0003983517547822358, 'epoch': 0.32}
+{'loss': 1.4858, 'grad_norm': 0.1389693170785904, 'learning_rate': 0.00039818481651030815, 'epoch': 0.32}
+{'loss': 1.4754, 'grad_norm': 0.1339356005191803, 'learning_rate': 0.0003980177763127312, 'epoch': 0.32}
+{'loss': 1.4897, 'grad_norm': 0.1402500420808792, 'learning_rate': 0.00039785063430439996, 'epoch': 0.32}
+{'loss': 1.4863, 'grad_norm': 0.12334263324737549, 'learning_rate': 0.0003976833906002792, 'epoch': 0.32}
+{'loss': 1.4815, 'grad_norm': 0.14085693657398224, 'learning_rate': 0.000397516045315404, 'epoch': 0.32}
+{'loss': 1.4636, 'grad_norm': 0.1244041845202446, 'learning_rate': 0.00039734859856487893, 'epoch': 0.32}
+{'loss': 1.4807, 'grad_norm': 0.11925790458917618, 'learning_rate': 0.0003971810504638787, 'epoch': 0.32}
+{'loss': 1.4669, 'grad_norm': 0.13901299238204956, 'learning_rate': 0.0003970134011276475, 'epoch': 0.32}
+{'loss': 1.4944, 'grad_norm': 0.1384763866662979, 'learning_rate': 0.00039684565067149916, 'epoch': 0.32}
+{'loss': 1.5017, 'grad_norm': 0.13316655158996582, 'learning_rate': 0.0003966777992108172, 'epoch': 0.32}
+{'loss': 1.4628, 'grad_norm': 0.12454364448785782, 'learning_rate': 0.0003965098468610545, 'epoch': 0.32}
+{'loss': 1.4577, 'grad_norm': 0.1593112200498581, 'learning_rate': 0.0003963417937377334, 'epoch': 0.32}
+{'loss': 1.4803, 'grad_norm': 0.11764264106750488, 'learning_rate': 0.0003961736399564454, 'epoch': 0.32}
+{'loss': 1.4712, 'grad_norm': 0.15984374284744263, 'learning_rate': 0.0003960053856328516, 'epoch': 0.32}
+{'loss': 1.4657, 'grad_norm': 0.12207148969173431, 'learning_rate': 0.00039583703088268184, 'epoch': 0.32}
+{'loss': 1.4828, 'grad_norm': 0.1331423819065094, 'learning_rate': 0.0003956685758217352, 'epoch': 0.32}
+{'loss': 1.4808, 'grad_norm': 0.14135023951530457, 'learning_rate': 0.00039550002056587986, 'epoch': 0.32}
+{'loss': 1.4561, 'grad_norm': 0.1356327086687088, 'learning_rate': 0.0003953313652310527, 'epoch': 0.32}
+{'loss': 1.4759, 'grad_norm': 0.13498666882514954, 'learning_rate': 0.00039516260993325983, 'epoch': 0.32}
+{'loss': 1.4925, 'grad_norm': 0.12384626269340515, 'learning_rate': 0.00039499375478857545, 'epoch': 0.32}
+{'loss': 1.4944, 'grad_norm': 0.1305716633796692, 'learning_rate': 0.0003948247999131432, 'epoch': 0.32}
+{'loss': 1.4836, 'grad_norm': 0.13273634016513824, 'learning_rate': 0.00039465574542317473, 'epoch': 0.32}
+{'loss': 1.4805, 'grad_norm': 0.1329098492860794, 'learning_rate': 0.0003944865914349506, 'epoch': 0.32}
+{'loss': 1.4865, 'grad_norm': 0.14348803460597992, 'learning_rate': 0.00039431733806481945, 'epoch': 0.33}
+{'loss': 1.4652, 'grad_norm': 0.1430862993001938, 'learning_rate': 0.0003941479854291986, 'epoch': 0.33}
+{'loss': 1.4955, 'grad_norm': 0.14165720343589783, 'learning_rate': 0.0003939785336445735, 'epoch': 0.33}
+{'loss': 1.4849, 'grad_norm': 0.11495064944028854, 'learning_rate': 0.0003938089828274978, 'epoch': 0.33}
+{'loss': 1.4734, 'grad_norm': 0.13828133046627045, 'learning_rate': 0.0003936393330945933, 'epoch': 0.33}
+{'loss': 1.4841, 'grad_norm': 0.12320296466350555, 'learning_rate': 0.00039346958456254976, 'epoch': 0.33}
+{'loss': 1.4474, 'grad_norm': 0.13940498232841492, 'learning_rate': 0.00039329973734812494, 'epoch': 0.33}
+{'loss': 1.455, 'grad_norm': 0.12972518801689148, 'learning_rate': 0.0003931297915681447, 'epoch': 0.33}
+{'loss': 1.4935, 'grad_norm': 0.12963739037513733, 'learning_rate': 0.00039295974733950215, 'epoch': 0.33}
+{'loss': 1.4972, 'grad_norm': 0.1372148096561432, 'learning_rate': 0.00039278960477915877, 'epoch': 0.33}
+{'loss': 1.4881, 'grad_norm': 0.13801270723342896, 'learning_rate': 0.0003926193640041431, 'epoch': 0.33}
+{'loss': 1.4833, 'grad_norm': 0.12611500918865204, 'learning_rate': 0.0003924490251315517, 'epoch': 0.33}
+{'loss': 1.4518, 'grad_norm': 0.14855416119098663, 'learning_rate': 0.0003922785882785483, 'epoch': 0.33}
+{'loss': 1.4733, 'grad_norm': 0.13636614382266998, 'learning_rate': 0.0003921080535623641, 'epoch': 0.33}
+{'loss': 1.4906, 'grad_norm': 0.1486874371767044, 'learning_rate': 0.0003919374211002976, 'epoch': 0.33}
+{'loss': 1.4704, 'grad_norm': 0.13180628418922424, 'learning_rate': 0.0003917666910097147, 'epoch': 0.33}
+{'loss': 1.4775, 'grad_norm': 0.1333024650812149, 'learning_rate': 0.00039159586340804824, 'epoch': 0.33}
+{'loss': 1.4887, 'grad_norm': 0.1357952207326889, 'learning_rate': 0.00039142493841279823, 'epoch': 0.33}
+{'loss': 1.4835, 'grad_norm': 0.15132123231887817, 'learning_rate': 0.0003912539161415316, 'epoch': 0.33}
+{'loss': 1.4536, 'grad_norm': 0.1153608113527298, 'learning_rate': 0.0003910827967118823, 'epoch': 0.33}
+{'loss': 1.4799, 'grad_norm': 0.14779014885425568, 'learning_rate': 0.00039091158024155096, 'epoch': 0.33}
+{'loss': 1.4567, 'grad_norm': 0.12638124823570251, 'learning_rate': 0.00039074026684830516, 'epoch': 0.33}
+{'loss': 1.4686, 'grad_norm': 0.12379150837659836, 'learning_rate': 0.0003905688566499789, 'epoch': 0.33}
+{'loss': 1.4827, 'grad_norm': 0.1221817210316658, 'learning_rate': 0.00039039734976447304, 'epoch': 0.33}
+{'loss': 1.4603, 'grad_norm': 0.11602774262428284, 'learning_rate': 0.0003902257463097547, 'epoch': 0.33}
+{'loss': 1.45, 'grad_norm': 0.1434330940246582, 'learning_rate': 0.00039005404640385746, 'epoch': 0.33}
+{'loss': 1.4822, 'grad_norm': 0.12586204707622528, 'learning_rate': 0.0003898822501648814, 'epoch': 0.33}
+{'loss': 1.4679, 'grad_norm': 0.1341162919998169, 'learning_rate': 0.00038971035771099286, 'epoch': 0.33}
+{'loss': 1.4543, 'grad_norm': 0.12161986529827118, 'learning_rate': 0.00038953836916042405, 'epoch': 0.33}
+{'loss': 1.4891, 'grad_norm': 0.12271805107593536, 'learning_rate': 0.0003893662846314736, 'epoch': 0.33}
+{'loss': 1.4779, 'grad_norm': 0.11630231887102127, 'learning_rate': 0.0003891941042425061, 'epoch': 0.33}
+{'loss': 1.4879, 'grad_norm': 0.10717621445655823, 'learning_rate': 0.000389021828111952, 'epoch': 0.33}
+{'loss': 1.4754, 'grad_norm': 0.12629105150699615, 'learning_rate': 0.0003888494563583075, 'epoch': 0.33}
+{'loss': 1.4935, 'grad_norm': 0.11362975835800171, 'learning_rate': 0.0003886769891001348, 'epoch': 0.33}
+{'loss': 1.4963, 'grad_norm': 0.13756561279296875, 'learning_rate': 0.0003885044264560618, 'epoch': 0.33}
+{'loss': 1.4757, 'grad_norm': 0.12783099710941315, 'learning_rate': 0.0003883317685447816, 'epoch': 0.33}
+{'loss': 1.4765, 'grad_norm': 0.14165504276752472, 'learning_rate': 0.0003881590154850534, 'epoch': 0.33}
+{'loss': 1.4621, 'grad_norm': 0.12230817973613739, 'learning_rate': 0.0003879861673957014, 'epoch': 0.33}
+{'loss': 1.4767, 'grad_norm': 0.16691456735134125, 'learning_rate': 0.0003878132243956155, 'epoch': 0.33}
+{'loss': 1.4865, 'grad_norm': 0.11744481325149536, 'learning_rate': 0.0003876401866037506, 'epoch': 0.34}
+{'loss': 1.4733, 'grad_norm': 0.16126325726509094, 'learning_rate': 0.00038746705413912695, 'epoch': 0.34}
+{'loss': 1.4923, 'grad_norm': 0.10938640683889389, 'learning_rate': 0.0003872938271208299, 'epoch': 0.34}
+{'loss': 1.4917, 'grad_norm': 0.14664535224437714, 'learning_rate': 0.0003871205056680098, 'epoch': 0.34}
+{'loss': 1.4746, 'grad_norm': 0.1126021146774292, 'learning_rate': 0.0003869470898998821, 'epoch': 0.34}
+{'loss': 1.4761, 'grad_norm': 0.1379241794347763, 'learning_rate': 0.00038677357993572675, 'epoch': 0.34}
+{'loss': 1.4846, 'grad_norm': 0.1260223090648651, 'learning_rate': 0.00038659997589488894, 'epoch': 0.34}
+{'loss': 1.4808, 'grad_norm': 0.1110590323805809, 'learning_rate': 0.00038642627789677833, 'epoch': 0.34}
+{'loss': 1.4804, 'grad_norm': 0.1531773805618286, 'learning_rate': 0.0003862524860608692, 'epoch': 0.34}
+{'loss': 1.4962, 'grad_norm': 0.134614497423172, 'learning_rate': 0.0003860786005067005, 'epoch': 0.34}
+{'loss': 1.4734, 'grad_norm': 0.14268648624420166, 'learning_rate': 0.0003859046213538755, 'epoch': 0.34}
+{'loss': 1.4716, 'grad_norm': 0.13118411600589752, 'learning_rate': 0.0003857305487220619, 'epoch': 0.34}
+{'loss': 1.4611, 'grad_norm': 0.13388946652412415, 'learning_rate': 0.0003855563827309917, 'epoch': 0.34}
+{'loss': 1.456, 'grad_norm': 0.12411417812108994, 'learning_rate': 0.0003853821235004613, 'epoch': 0.34}
+{'loss': 1.4823, 'grad_norm': 0.140202134847641, 'learning_rate': 0.00038520777115033086, 'epoch': 0.34}
+{'loss': 1.4724, 'grad_norm': 0.11142860352993011, 'learning_rate': 0.0003850333258005248, 'epoch': 0.34}
+{'loss': 1.4949, 'grad_norm': 0.14706656336784363, 'learning_rate': 0.00038485878757103163, 'epoch': 0.34}
+{'loss': 1.4664, 'grad_norm': 0.12826845049858093, 'learning_rate': 0.00038468415658190347, 'epoch': 0.34}
+{'loss': 1.4669, 'grad_norm': 0.13741262257099152, 'learning_rate': 0.00038450943295325647, 'epoch': 0.34}
+{'loss': 1.4839, 'grad_norm': 0.1334412842988968, 'learning_rate': 0.0003843346168052704, 'epoch': 0.34}
+{'loss': 1.4686, 'grad_norm': 0.13476818799972534, 'learning_rate': 0.00038415970825818866, 'epoch': 0.34}
+{'loss': 1.486, 'grad_norm': 0.15732383728027344, 'learning_rate': 0.00038398470743231827, 'epoch': 0.34}
+{'loss': 1.4523, 'grad_norm': 0.11390911042690277, 'learning_rate': 0.00038380961444802966, 'epoch': 0.34}
+{'loss': 1.4487, 'grad_norm': 0.11879655718803406, 'learning_rate': 0.00038363442942575656, 'epoch': 0.34}
+{'loss': 1.4756, 'grad_norm': 0.12679050862789154, 'learning_rate': 0.00038345915248599627, 'epoch': 0.34}
+{'loss': 1.4724, 'grad_norm': 0.11520493030548096, 'learning_rate': 0.00038328378374930905, 'epoch': 0.34}
+{'loss': 1.4407, 'grad_norm': 0.13551262021064758, 'learning_rate': 0.0003831083233363185, 'epoch': 0.34}
+{'loss': 1.4762, 'grad_norm': 0.10236778855323792, 'learning_rate': 0.0003829327713677111, 'epoch': 0.34}
+{'loss': 1.4687, 'grad_norm': 0.1247723326086998, 'learning_rate': 0.0003827571279642365, 'epoch': 0.34}
+{'loss': 1.4526, 'grad_norm': 0.09886076301336288, 'learning_rate': 0.00038258139324670706, 'epoch': 0.34}
+{'loss': 1.48, 'grad_norm': 0.11462713778018951, 'learning_rate': 0.0003824055673359979, 'epoch': 0.34}
+{'loss': 1.4562, 'grad_norm': 0.11522418260574341, 'learning_rate': 0.0003822296503530472, 'epoch': 0.34}
+{'loss': 1.4428, 'grad_norm': 0.11718818545341492, 'learning_rate': 0.00038205364241885545, 'epoch': 0.34}
+{'loss': 1.4591, 'grad_norm': 0.11516842991113663, 'learning_rate': 0.0003818775436544859, 'epoch': 0.34}
+{'loss': 1.4577, 'grad_norm': 0.10539527237415314, 'learning_rate': 0.000381701354181064, 'epoch': 0.34}
+{'loss': 1.4882, 'grad_norm': 0.11353664845228195, 'learning_rate': 0.000381525074119778, 'epoch': 0.34}
+{'loss': 1.5036, 'grad_norm': 0.11930585652589798, 'learning_rate': 0.00038134870359187806, 'epoch': 0.34}
+{'loss': 1.478, 'grad_norm': 0.11372607946395874, 'learning_rate': 0.00038117224271867696, 'epoch': 0.34}
+{'loss': 1.467, 'grad_norm': 0.1042206808924675, 'learning_rate': 0.0003809956916215491, 'epoch': 0.34}
+{'loss': 1.4765, 'grad_norm': 0.11277202516794205, 'learning_rate': 0.00038081905042193167, 'epoch': 0.35}
+{'loss': 1.4704, 'grad_norm': 0.11505495011806488, 'learning_rate': 0.0003806423192413231, 'epoch': 0.35}
+{'loss': 1.4792, 'grad_norm': 0.12181795388460159, 'learning_rate': 0.00038046549820128407, 'epoch': 0.35}
+{'loss': 1.4782, 'grad_norm': 0.10368617624044418, 'learning_rate': 0.00038028858742343704, 'epoch': 0.35}
+{'loss': 1.4926, 'grad_norm': 0.11566374450922012, 'learning_rate': 0.0003801115870294662, 'epoch': 0.35}
+{'loss': 1.4697, 'grad_norm': 0.13123728334903717, 'learning_rate': 0.0003799344971411174, 'epoch': 0.35}
+{'loss': 1.4528, 'grad_norm': 0.12442275881767273, 'learning_rate': 0.0003797573178801979, 'epoch': 0.35}
+{'loss': 1.4533, 'grad_norm': 0.12005143612623215, 'learning_rate': 0.0003795800493685766, 'epoch': 0.35}
+{'loss': 1.4723, 'grad_norm': 0.13487400114536285, 'learning_rate': 0.0003794026917281838, 'epoch': 0.35}
+{'loss': 1.497, 'grad_norm': 0.11456422507762909, 'learning_rate': 0.00037922524508101084, 'epoch': 0.35}
+{'loss': 1.4702, 'grad_norm': 0.13457998633384705, 'learning_rate': 0.00037904770954911063, 'epoch': 0.35}
+{'loss': 1.4739, 'grad_norm': 0.11126485466957092, 'learning_rate': 0.0003788700852545969, 'epoch': 0.35}
+{'loss': 1.469, 'grad_norm': 0.12614776194095612, 'learning_rate': 0.00037869237231964487, 'epoch': 0.35}
+{'loss': 1.4591, 'grad_norm': 0.12437067925930023, 'learning_rate': 0.0003785145708664903, 'epoch': 0.35}
+{'loss': 1.4862, 'grad_norm': 0.13688725233078003, 'learning_rate': 0.0003783366810174298, 'epoch': 0.35}
+{'loss': 1.4378, 'grad_norm': 0.11550046503543854, 'learning_rate': 0.00037815870289482125, 'epoch': 0.35}
+{'loss': 1.4802, 'grad_norm': 0.1110624298453331, 'learning_rate': 0.0003779806366210828, 'epoch': 0.35}
+{'loss': 1.4838, 'grad_norm': 0.11077465116977692, 'learning_rate': 0.00037780248231869356, 'epoch': 0.35}
+{'loss': 1.4584, 'grad_norm': 0.11550074070692062, 'learning_rate': 0.00037762424011019287, 'epoch': 0.35}
+{'loss': 1.4701, 'grad_norm': 0.12790267169475555, 'learning_rate': 0.00037744591011818076, 'epoch': 0.35}
+{'loss': 1.4673, 'grad_norm': 0.1132439374923706, 'learning_rate': 0.0003772674924653175, 'epoch': 0.35}
+{'loss': 1.4558, 'grad_norm': 0.11995596438646317, 'learning_rate': 0.00037708898727432385, 'epoch': 0.35}
+{'loss': 1.4591, 'grad_norm': 0.1459168791770935, 'learning_rate': 0.00037691039466798053, 'epoch': 0.35}
+{'loss': 1.4835, 'grad_norm': 0.13030743598937988, 'learning_rate': 0.0003767317147691286, 'epoch': 0.35}
+{'loss': 1.4734, 'grad_norm': 0.11966726928949356, 'learning_rate': 0.0003765529477006692, 'epoch': 0.35}
+{'loss': 1.4625, 'grad_norm': 0.12889766693115234, 'learning_rate': 0.00037637409358556303, 'epoch': 0.35}
+{'loss': 1.4604, 'grad_norm': 0.13109683990478516, 'learning_rate': 0.00037619515254683103, 'epoch': 0.35}
+{'loss': 1.4605, 'grad_norm': 0.14128948748111725, 'learning_rate': 0.0003760161247075539, 'epoch': 0.35}
+{'loss': 1.4783, 'grad_norm': 0.11799407750368118, 'learning_rate': 0.00037583701019087203, 'epoch': 0.35}
+{'loss': 1.4809, 'grad_norm': 0.14057745039463043, 'learning_rate': 0.00037565780911998526, 'epoch': 0.35}
+{'loss': 1.5024, 'grad_norm': 0.15150032937526703, 'learning_rate': 0.000375478521618153, 'epoch': 0.35}
+{'loss': 1.4704, 'grad_norm': 0.11753978580236435, 'learning_rate': 0.00037529914780869454, 'epoch': 0.35}
+{'loss': 1.4836, 'grad_norm': 0.1919071078300476, 'learning_rate': 0.00037511968781498795, 'epoch': 0.35}
+{'loss': 1.4501, 'grad_norm': 0.10804058611392975, 'learning_rate': 0.00037494014176047075, 'epoch': 0.35}
+{'loss': 1.4765, 'grad_norm': 0.15818436443805695, 'learning_rate': 0.0003747605097686398, 'epoch': 0.35}
+{'loss': 1.4883, 'grad_norm': 0.1393825262784958, 'learning_rate': 0.0003745807919630511, 'epoch': 0.35}
+{'loss': 1.4672, 'grad_norm': 0.13847902417182922, 'learning_rate': 0.0003744009884673194, 'epoch': 0.35}
+{'loss': 1.472, 'grad_norm': 0.15309928357601166, 'learning_rate': 0.0003742210994051186, 'epoch': 0.35}
+{'loss': 1.4582, 'grad_norm': 0.12245149910449982, 'learning_rate': 0.0003740411249001815, 'epoch': 0.35}
+{'loss': 1.4647, 'grad_norm': 0.1457652449607849, 'learning_rate': 0.00037386106507629956, 'epoch': 0.36}
+{'loss': 1.4539, 'grad_norm': 0.12724481523036957, 'learning_rate': 0.0003736809200573229, 'epoch': 0.36}
+{'loss': 1.4719, 'grad_norm': 0.14650052785873413, 'learning_rate': 0.0003735006899671603, 'epoch': 0.36}
+{'loss': 1.4833, 'grad_norm': 0.14158938825130463, 'learning_rate': 0.000373320374929779, 'epoch': 0.36}
+{'loss': 1.4778, 'grad_norm': 0.1360156536102295, 'learning_rate': 0.0003731399750692049, 'epoch': 0.36}
+{'loss': 1.4858, 'grad_norm': 0.12825924158096313, 'learning_rate': 0.00037295949050952185, 'epoch': 0.36}
+{'loss': 1.4556, 'grad_norm': 0.12967129051685333, 'learning_rate': 0.00037277892137487216, 'epoch': 0.36}
+{'loss': 1.4583, 'grad_norm': 0.1147819310426712, 'learning_rate': 0.00037259826778945643, 'epoch': 0.36}
+{'loss': 1.4852, 'grad_norm': 0.12114033848047256, 'learning_rate': 0.0003724175298775332, 'epoch': 0.36}
+{'loss': 1.4681, 'grad_norm': 0.12460989505052567, 'learning_rate': 0.000372236707763419, 'epoch': 0.36}
+{'loss': 1.4926, 'grad_norm': 0.10878751426935196, 'learning_rate': 0.00037205580157148837, 'epoch': 0.36}
+{'loss': 1.4964, 'grad_norm': 0.13015104830265045, 'learning_rate': 0.0003718748114261736, 'epoch': 0.36}
+{'loss': 1.4571, 'grad_norm': 0.10950950533151627, 'learning_rate': 0.00037169373745196487, 'epoch': 0.36}
+{'loss': 1.4836, 'grad_norm': 0.1256505697965622, 'learning_rate': 0.0003715125797734098, 'epoch': 0.36}
+{'loss': 1.4601, 'grad_norm': 0.11431673914194107, 'learning_rate': 0.00037133133851511364, 'epoch': 0.36}
+{'loss': 1.5008, 'grad_norm': 0.10564496368169785, 'learning_rate': 0.0003711500138017393, 'epoch': 0.36}
+{'loss': 1.4585, 'grad_norm': 0.14514578878879547, 'learning_rate': 0.00037096860575800696, 'epoch': 0.36}
+{'loss': 1.4532, 'grad_norm': 0.11130042374134064, 'learning_rate': 0.0003707871145086941, 'epoch': 0.36}
+{'loss': 1.4733, 'grad_norm': 0.14889581501483917, 'learning_rate': 0.00037060554017863536, 'epoch': 0.36}
+{'loss': 1.4585, 'grad_norm': 0.11355755478143692, 'learning_rate': 0.0003704238828927229, 'epoch': 0.36}
+{'loss': 1.4883, 'grad_norm': 0.15423429012298584, 'learning_rate': 0.00037024214277590537, 'epoch': 0.36}
+{'loss': 1.4809, 'grad_norm': 0.10850317031145096, 'learning_rate': 0.00037006031995318885, 'epoch': 0.36}
+{'loss': 1.4616, 'grad_norm': 0.14654089510440826, 'learning_rate': 0.00036987841454963607, 'epoch': 0.36}
+{'loss': 1.4594, 'grad_norm': 0.12655006349086761, 'learning_rate': 0.0003696964266903667, 'epoch': 0.36}
+{'loss': 1.4535, 'grad_norm': 0.13097842037677765, 'learning_rate': 0.0003695143565005572, 'epoch': 0.36}
+{'loss': 1.47, 'grad_norm': 0.12808643281459808, 'learning_rate': 0.0003693322041054402, 'epoch': 0.36}
+{'loss': 1.4906, 'grad_norm': 0.12528222799301147, 'learning_rate': 0.00036914996963030545, 'epoch': 0.36}
+{'loss': 1.498, 'grad_norm': 0.13807280361652374, 'learning_rate': 0.0003689676532004988, 'epoch': 0.36}
+{'loss': 1.4661, 'grad_norm': 0.11927313357591629, 'learning_rate': 0.0003687852549414227, 'epoch': 0.36}
+{'loss': 1.4631, 'grad_norm': 0.13514108955860138, 'learning_rate': 0.0003686027749785355, 'epoch': 0.36}
+{'loss': 1.467, 'grad_norm': 0.13020852208137512, 'learning_rate': 0.00036842021343735226, 'epoch': 0.36}
+{'loss': 1.4588, 'grad_norm': 0.1302291303873062, 'learning_rate': 0.00036823757044344383, 'epoch': 0.36}
+{'loss': 1.4455, 'grad_norm': 0.13497835397720337, 'learning_rate': 0.00036805484612243707, 'epoch': 0.36}
+{'loss': 1.4674, 'grad_norm': 0.1294967234134674, 'learning_rate': 0.00036787204060001493, 'epoch': 0.36}
+{'loss': 1.4629, 'grad_norm': 0.1584465205669403, 'learning_rate': 0.0003676891540019162, 'epoch': 0.36}
+{'loss': 1.4598, 'grad_norm': 0.12183906883001328, 'learning_rate': 0.0003675061864539352, 'epoch': 0.36}
+{'loss': 1.4882, 'grad_norm': 0.14603425562381744, 'learning_rate': 0.00036732313808192244, 'epoch': 0.36}
+{'loss': 1.4901, 'grad_norm': 0.12989509105682373, 'learning_rate': 0.00036714000901178336, 'epoch': 0.36}
+{'loss': 1.452, 'grad_norm': 0.13188956677913666, 'learning_rate': 0.00036695679936947934, 'epoch': 0.36}
+{'loss': 1.4762, 'grad_norm': 0.15282373130321503, 'learning_rate': 0.00036677350928102716, 'epoch': 0.37}
+{'loss': 1.4861, 'grad_norm': 0.1354535073041916, 'learning_rate': 0.0003665901388724988, 'epoch': 0.37}
+{'loss': 1.4778, 'grad_norm': 0.14046691358089447, 'learning_rate': 0.00036640668827002154, 'epoch': 0.37}
+{'loss': 1.4451, 'grad_norm': 0.15394875407218933, 'learning_rate': 0.0003662231575997779, 'epoch': 0.37}
+{'loss': 1.4861, 'grad_norm': 0.1366267055273056, 'learning_rate': 0.00036603954698800526, 'epoch': 0.37}
+{'loss': 1.4611, 'grad_norm': 0.13030962646007538, 'learning_rate': 0.0003658558565609962, 'epoch': 0.37}
+{'loss': 1.5003, 'grad_norm': 0.1484491378068924, 'learning_rate': 0.00036567208644509803, 'epoch': 0.37}
+{'loss': 1.4621, 'grad_norm': 0.1298937350511551, 'learning_rate': 0.0003654882367667131, 'epoch': 0.37}
+{'loss': 1.465, 'grad_norm': 0.15603817999362946, 'learning_rate': 0.0003653043076522983, 'epoch': 0.37}
+{'loss': 1.4727, 'grad_norm': 0.12495595961809158, 'learning_rate': 0.0003651202992283651, 'epoch': 0.37}
+{'loss': 1.4758, 'grad_norm': 0.1528087556362152, 'learning_rate': 0.00036493621162147973, 'epoch': 0.37}
+{'loss': 1.4607, 'grad_norm': 0.12484296411275864, 'learning_rate': 0.0003647520449582628, 'epoch': 0.37}
+{'loss': 1.4776, 'grad_norm': 0.12259373068809509, 'learning_rate': 0.0003645677993653892, 'epoch': 0.37}
+{'loss': 1.4815, 'grad_norm': 0.1296897828578949, 'learning_rate': 0.00036438347496958826, 'epoch': 0.37}
+{'loss': 1.4544, 'grad_norm': 0.11550658941268921, 'learning_rate': 0.0003641990718976433, 'epoch': 0.37}
+{'loss': 1.4821, 'grad_norm': 0.10855531692504883, 'learning_rate': 0.00036401459027639207, 'epoch': 0.37}
+{'loss': 1.4732, 'grad_norm': 0.1369161158800125, 'learning_rate': 0.0003638300302327261, 'epoch': 0.37}
+{'loss': 1.4567, 'grad_norm': 0.12122738361358643, 'learning_rate': 0.00036364539189359093, 'epoch': 0.37}
+{'loss': 1.4562, 'grad_norm': 0.11722433567047119, 'learning_rate': 0.00036346067538598593, 'epoch': 0.37}
+{'loss': 1.4682, 'grad_norm': 0.14282268285751343, 'learning_rate': 0.0003632758808369643, 'epoch': 0.37}
+{'loss': 1.4665, 'grad_norm': 0.10934777557849884, 'learning_rate': 0.0003630910083736329, 'epoch': 0.37}
+{'loss': 1.4826, 'grad_norm': 0.12291478365659714, 'learning_rate': 0.00036290605812315215, 'epoch': 0.37}
+{'loss': 1.4735, 'grad_norm': 0.12196461856365204, 'learning_rate': 0.00036272103021273594, 'epoch': 0.37}
+{'loss': 1.435, 'grad_norm': 0.12331030517816544, 'learning_rate': 0.00036253592476965174, 'epoch': 0.37}
+{'loss': 1.4786, 'grad_norm': 0.10782469063997269, 'learning_rate': 0.00036235074192122015, 'epoch': 0.37}
+{'loss': 1.4645, 'grad_norm': 0.12444216012954712, 'learning_rate': 0.00036216548179481505, 'epoch': 0.37}
+{'loss': 1.4887, 'grad_norm': 0.12117387354373932, 'learning_rate': 0.00036198014451786363, 'epoch': 0.37}
+{'loss': 1.4795, 'grad_norm': 0.10980464518070221, 'learning_rate': 0.00036179473021784607, 'epoch': 0.37}
+{'loss': 1.4858, 'grad_norm': 0.12907055020332336, 'learning_rate': 0.0003616092390222954, 'epoch': 0.37}
+{'loss': 1.4431, 'grad_norm': 0.11481061577796936, 'learning_rate': 0.0003614236710587976, 'epoch': 0.37}
+{'loss': 1.4568, 'grad_norm': 0.11752166599035263, 'learning_rate': 0.0003612380264549915, 'epoch': 0.37}
+{'loss': 1.4681, 'grad_norm': 0.1153152585029602, 'learning_rate': 0.0003610523053385688, 'epoch': 0.37}
+{'loss': 1.4763, 'grad_norm': 0.13158902525901794, 'learning_rate': 0.00036086650783727353, 'epoch': 0.37}
+{'loss': 1.5063, 'grad_norm': 0.11993814259767532, 'learning_rate': 0.0003606806340789024, 'epoch': 0.37}
+{'loss': 1.4706, 'grad_norm': 0.13961517810821533, 'learning_rate': 0.00036049468419130446, 'epoch': 0.37}
+{'loss': 1.4894, 'grad_norm': 0.1359712779521942, 'learning_rate': 0.0003603086583023815, 'epoch': 0.37}
+{'loss': 1.4857, 'grad_norm': 0.1446598917245865, 'learning_rate': 0.0003601225565400871, 'epoch': 0.37}
+{'loss': 1.4765, 'grad_norm': 0.13680614531040192, 'learning_rate': 0.00035993637903242734, 'epoch': 0.37}
+{'loss': 1.4581, 'grad_norm': 0.11721644550561905, 'learning_rate': 0.0003597501259074601, 'epoch': 0.37}
+{'loss': 1.469, 'grad_norm': 0.16414090991020203, 'learning_rate': 0.00035956379729329586, 'epoch': 0.38}
+{'loss': 1.4626, 'grad_norm': 0.14887316524982452, 'learning_rate': 0.00035937739331809627, 'epoch': 0.38}
+{'loss': 1.4775, 'grad_norm': 0.1337183564901352, 'learning_rate': 0.00035919091411007535, 'epoch': 0.38}
+{'loss': 1.4942, 'grad_norm': 0.14793629944324493, 'learning_rate': 0.0003590043597974987, 'epoch': 0.38}
+{'loss': 1.4765, 'grad_norm': 0.15247249603271484, 'learning_rate': 0.00035881773050868354, 'epoch': 0.38}
+{'loss': 1.4497, 'grad_norm': 0.12001999467611313, 'learning_rate': 0.0003586310263719988, 'epoch': 0.38}
+{'loss': 1.4594, 'grad_norm': 0.13299913704395294, 'learning_rate': 0.0003584442475158645, 'epoch': 0.38}
+{'loss': 1.4676, 'grad_norm': 0.13981710374355316, 'learning_rate': 0.00035825739406875274, 'epoch': 0.38}
+{'loss': 1.4564, 'grad_norm': 0.1448044627904892, 'learning_rate': 0.0003580704661591863, 'epoch': 0.38}
+{'loss': 1.4698, 'grad_norm': 0.13386018574237823, 'learning_rate': 0.0003578834639157394, 'epoch': 0.38}
+{'loss': 1.4891, 'grad_norm': 0.11127787828445435, 'learning_rate': 0.0003576963874670374, 'epoch': 0.38}
+{'loss': 1.465, 'grad_norm': 0.1373772770166397, 'learning_rate': 0.00035750923694175685, 'epoch': 0.38}
+{'loss': 1.4906, 'grad_norm': 0.14992062747478485, 'learning_rate': 0.00035732201246862496, 'epoch': 0.38}
+{'loss': 1.4692, 'grad_norm': 0.15239889919757843, 'learning_rate': 0.00035713471417642, 'epoch': 0.38}
+{'loss': 1.4845, 'grad_norm': 0.15493251383304596, 'learning_rate': 0.0003569473421939709, 'epoch': 0.38}
+{'loss': 1.4804, 'grad_norm': 0.14269506931304932, 'learning_rate': 0.0003567598966501574, 'epoch': 0.38}
+{'loss': 1.4616, 'grad_norm': 0.16712595522403717, 'learning_rate': 0.00035657237767390977, 'epoch': 0.38}
+{'loss': 1.4617, 'grad_norm': 0.13808654248714447, 'learning_rate': 0.00035638478539420877, 'epoch': 0.38}
+{'loss': 1.4463, 'grad_norm': 0.1566009372472763, 'learning_rate': 0.0003561971199400855, 'epoch': 0.38}
+{'loss': 1.4831, 'grad_norm': 0.1460086703300476, 'learning_rate': 0.00035600938144062167, 'epoch': 0.38}
+{'loss': 1.4771, 'grad_norm': 0.13951000571250916, 'learning_rate': 0.000355821570024949, 'epoch': 0.38}
+{'loss': 1.4767, 'grad_norm': 0.1414424031972885, 'learning_rate': 0.0003556336858222494, 'epoch': 0.38}
+{'loss': 1.4668, 'grad_norm': 0.1540313959121704, 'learning_rate': 0.0003554457289617548, 'epoch': 0.38}
+{'loss': 1.4666, 'grad_norm': 0.12132083624601364, 'learning_rate': 0.0003552576995727472, 'epoch': 0.38}
+{'loss': 1.4695, 'grad_norm': 0.1713232398033142, 'learning_rate': 0.00035506959778455863, 'epoch': 0.38}
+{'loss': 1.4782, 'grad_norm': 0.1501426100730896, 'learning_rate': 0.0003548814237265705, 'epoch': 0.38}
+{'loss': 1.4771, 'grad_norm': 0.14183717966079712, 'learning_rate': 0.0003546931775282143, 'epoch': 0.38}
+{'loss': 1.4378, 'grad_norm': 0.14136934280395508, 'learning_rate': 0.000354504859318971, 'epoch': 0.38}
+{'loss': 1.4825, 'grad_norm': 0.15492144227027893, 'learning_rate': 0.00035431646922837114, 'epoch': 0.38}
+{'loss': 1.4766, 'grad_norm': 0.1335032731294632, 'learning_rate': 0.0003541280073859946, 'epoch': 0.38}
+{'loss': 1.4881, 'grad_norm': 0.1453365832567215, 'learning_rate': 0.00035393947392147075, 'epoch': 0.38}
+{'loss': 1.4784, 'grad_norm': 0.13798804581165314, 'learning_rate': 0.0003537508689644782, 'epoch': 0.38}
+{'loss': 1.4731, 'grad_norm': 0.12799178063869476, 'learning_rate': 0.0003535621926447446, 'epoch': 0.38}
+{'loss': 1.4328, 'grad_norm': 0.14224863052368164, 'learning_rate': 0.00035337344509204686, 'epoch': 0.38}
+{'loss': 1.4836, 'grad_norm': 0.12172230333089828, 'learning_rate': 0.0003531846264362108, 'epoch': 0.38}
+{'loss': 1.4621, 'grad_norm': 0.13653776049613953, 'learning_rate': 0.00035299573680711114, 'epoch': 0.38}
+{'loss': 1.4736, 'grad_norm': 0.11765271425247192, 'learning_rate': 0.0003528067763346714, 'epoch': 0.38}
+{'loss': 1.4595, 'grad_norm': 0.14111144840717316, 'learning_rate': 0.0003526177451488639, 'epoch': 0.38}
+{'loss': 1.4923, 'grad_norm': 0.14840389788150787, 'learning_rate': 0.0003524286433797096, 'epoch': 0.38}
+{'loss': 1.4714, 'grad_norm': 0.11023860424757004, 'learning_rate': 0.00035223947115727787, 'epoch': 0.39}
+{'loss': 1.488, 'grad_norm': 0.14943882822990417, 'learning_rate': 0.00035205022861168684, 'epoch': 0.39}
+{'loss': 1.4652, 'grad_norm': 0.1117292195558548, 'learning_rate': 0.0003518609158731025, 'epoch': 0.39}
+{'loss': 1.4423, 'grad_norm': 0.1423799693584442, 'learning_rate': 0.0003516715330717397, 'epoch': 0.39}
+{'loss': 1.4465, 'grad_norm': 0.13067513704299927, 'learning_rate': 0.00035148208033786117, 'epoch': 0.39}
+{'loss': 1.4571, 'grad_norm': 0.12362905591726303, 'learning_rate': 0.00035129255780177765, 'epoch': 0.39}
+{'loss': 1.4539, 'grad_norm': 0.13855642080307007, 'learning_rate': 0.00035110296559384815, 'epoch': 0.39}
+{'loss': 1.4502, 'grad_norm': 0.1221761405467987, 'learning_rate': 0.00035091330384447937, 'epoch': 0.39}
+{'loss': 1.487, 'grad_norm': 0.13767598569393158, 'learning_rate': 0.0003507235726841261, 'epoch': 0.39}
+{'loss': 1.4602, 'grad_norm': 0.14100414514541626, 'learning_rate': 0.0003505337722432906, 'epoch': 0.39}
+{'loss': 1.4827, 'grad_norm': 0.13408757746219635, 'learning_rate': 0.0003503439026525229, 'epoch': 0.39}
+{'loss': 1.4449, 'grad_norm': 0.12148994207382202, 'learning_rate': 0.00035015396404242073, 'epoch': 0.39}
+{'loss': 1.4713, 'grad_norm': 0.14246727526187897, 'learning_rate': 0.000349963956543629, 'epoch': 0.39}
+{'loss': 1.4921, 'grad_norm': 0.11449632793664932, 'learning_rate': 0.00034977388028684033, 'epoch': 0.39}
+{'loss': 1.4803, 'grad_norm': 0.1005486324429512, 'learning_rate': 0.00034958373540279426, 'epoch': 0.39}
+{'loss': 1.4584, 'grad_norm': 0.11609961837530136, 'learning_rate': 0.0003493935220222779, 'epoch': 0.39}
+{'loss': 1.4438, 'grad_norm': 0.13124941289424896, 'learning_rate': 0.00034920324027612536, 'epoch': 0.39}
+{'loss': 1.4618, 'grad_norm': 0.11095459759235382, 'learning_rate': 0.0003490128902952176, 'epoch': 0.39}
+{'loss': 1.4668, 'grad_norm': 0.10998865216970444, 'learning_rate': 0.00034882247221048267, 'epoch': 0.39}
+{'loss': 1.467, 'grad_norm': 0.1230616569519043, 'learning_rate': 0.0003486319861528955, 'epoch': 0.39}
+{'loss': 1.4941, 'grad_norm': 0.11357712000608444, 'learning_rate': 0.0003484414322534777, 'epoch': 0.39}
+{'loss': 1.4636, 'grad_norm': 0.108027383685112, 'learning_rate': 0.0003482508106432975, 'epoch': 0.39}
+{'loss': 1.4735, 'grad_norm': 0.11450006812810898, 'learning_rate': 0.0003480601214534698, 'epoch': 0.39}
+{'loss': 1.4517, 'grad_norm': 0.10826531797647476, 'learning_rate': 0.000347869364815156, 'epoch': 0.39}
+{'loss': 1.4605, 'grad_norm': 0.1245700940489769, 'learning_rate': 0.00034767854085956376, 'epoch': 0.39}
+{'loss': 1.4471, 'grad_norm': 0.11512983590364456, 'learning_rate': 0.0003474876497179471, 'epoch': 0.39}
+{'loss': 1.4673, 'grad_norm': 0.11243108659982681, 'learning_rate': 0.00034729669152160634, 'epoch': 0.39}
+{'loss': 1.4654, 'grad_norm': 0.12725791335105896, 'learning_rate': 0.0003471056664018878, 'epoch': 0.39}
+{'loss': 1.4716, 'grad_norm': 0.11802192777395248, 'learning_rate': 0.0003469145744901839, 'epoch': 0.39}
+{'loss': 1.4542, 'grad_norm': 0.12124704569578171, 'learning_rate': 0.00034672341591793286, 'epoch': 0.39}
+{'loss': 1.4729, 'grad_norm': 0.1217520534992218, 'learning_rate': 0.00034653219081661927, 'epoch': 0.39}
+{'loss': 1.4445, 'grad_norm': 0.12868884205818176, 'learning_rate': 0.00034634089931777264, 'epoch': 0.39}
+{'loss': 1.4551, 'grad_norm': 0.12210513651371002, 'learning_rate': 0.00034614954155296883, 'epoch': 0.39}
+{'loss': 1.4496, 'grad_norm': 0.12187602370977402, 'learning_rate': 0.00034595811765382895, 'epoch': 0.39}
+{'loss': 1.4722, 'grad_norm': 0.1369713693857193, 'learning_rate': 0.00034576662775201976, 'epoch': 0.39}
+{'loss': 1.4494, 'grad_norm': 0.11647247523069382, 'learning_rate': 0.00034557507197925343, 'epoch': 0.39}
+{'loss': 1.4425, 'grad_norm': 0.12121444195508957, 'learning_rate': 0.00034538345046728717, 'epoch': 0.39}
+{'loss': 1.4812, 'grad_norm': 0.12949275970458984, 'learning_rate': 0.00034519176334792367, 'epoch': 0.39}
+{'loss': 1.4635, 'grad_norm': 0.14121514558792114, 'learning_rate': 0.00034500001075301077, 'epoch': 0.39}
+{'loss': 1.472, 'grad_norm': 0.12433426082134247, 'learning_rate': 0.0003448081928144412, 'epoch': 0.4}
+{'loss': 1.4701, 'grad_norm': 0.13854964077472687, 'learning_rate': 0.0003446163096641527, 'epoch': 0.4}
+{'loss': 1.4771, 'grad_norm': 0.1255885660648346, 'learning_rate': 0.0003444243614341277, 'epoch': 0.4}
+{'loss': 1.4922, 'grad_norm': 0.1427147090435028, 'learning_rate': 0.00034423234825639375, 'epoch': 0.4}
+{'loss': 1.4826, 'grad_norm': 0.14212997257709503, 'learning_rate': 0.00034404027026302284, 'epoch': 0.4}
+{'loss': 1.4835, 'grad_norm': 0.13411259651184082, 'learning_rate': 0.0003438481275861315, 'epoch': 0.4}
+{'loss': 1.4663, 'grad_norm': 0.12242633104324341, 'learning_rate': 0.00034365592035788073, 'epoch': 0.4}
+{'loss': 1.4697, 'grad_norm': 0.1292867511510849, 'learning_rate': 0.00034346364871047625, 'epoch': 0.4}
+{'loss': 1.4528, 'grad_norm': 0.1427769511938095, 'learning_rate': 0.00034327131277616773, 'epoch': 0.4}
+{'loss': 1.479, 'grad_norm': 0.1292182207107544, 'learning_rate': 0.00034307891268724915, 'epoch': 0.4}
+{'loss': 1.447, 'grad_norm': 0.12590284645557404, 'learning_rate': 0.00034288644857605877, 'epoch': 0.4}
+{'loss': 1.5016, 'grad_norm': 0.1556946188211441, 'learning_rate': 0.0003426939205749787, 'epoch': 0.4}
+{'loss': 1.4815, 'grad_norm': 0.13115859031677246, 'learning_rate': 0.00034250132881643506, 'epoch': 0.4}
+{'loss': 1.4666, 'grad_norm': 0.13760749995708466, 'learning_rate': 0.0003423086734328979, 'epoch': 0.4}
+{'loss': 1.465, 'grad_norm': 0.11165449023246765, 'learning_rate': 0.0003421159545568809, 'epoch': 0.4}
+{'loss': 1.4726, 'grad_norm': 0.123853899538517, 'learning_rate': 0.0003419231723209415, 'epoch': 0.4}
+{'loss': 1.4695, 'grad_norm': 0.14538121223449707, 'learning_rate': 0.0003417303268576807, 'epoch': 0.4}
+{'loss': 1.4885, 'grad_norm': 0.10305487364530563, 'learning_rate': 0.0003415374182997429, 'epoch': 0.4}
+{'loss': 1.4663, 'grad_norm': 0.15112893283367157, 'learning_rate': 0.0003413444467798162, 'epoch': 0.4}
+{'loss': 1.4946, 'grad_norm': 0.12874552607536316, 'learning_rate': 0.00034115141243063157, 'epoch': 0.4}
+{'loss': 1.462, 'grad_norm': 0.11891502141952515, 'learning_rate': 0.00034095831538496357, 'epoch': 0.4}
+{'loss': 1.4582, 'grad_norm': 0.12997141480445862, 'learning_rate': 0.0003407651557756296, 'epoch': 0.4}
+{'loss': 1.4623, 'grad_norm': 0.10864836722612381, 'learning_rate': 0.00034057193373549036, 'epoch': 0.4}
+{'loss': 1.4614, 'grad_norm': 0.11772878468036652, 'learning_rate': 0.0003403786493974493, 'epoch': 0.4}
+{'loss': 1.473, 'grad_norm': 0.12369471788406372, 'learning_rate': 0.0003401853028944528, 'epoch': 0.4}
+{'loss': 1.4731, 'grad_norm': 0.10342537611722946, 'learning_rate': 0.00033999189435948983, 'epoch': 0.4}
+{'loss': 1.4513, 'grad_norm': 0.11675553023815155, 'learning_rate': 0.0003397984239255924, 'epoch': 0.4}
+{'loss': 1.4696, 'grad_norm': 0.11189363151788712, 'learning_rate': 0.0003396048917258348, 'epoch': 0.4}
+{'loss': 1.4585, 'grad_norm': 0.12351244688034058, 'learning_rate': 0.0003394112978933338, 'epoch': 0.4}
+{'loss': 1.4435, 'grad_norm': 0.10914546996355057, 'learning_rate': 0.0003392176425612486, 'epoch': 0.4}
+{'loss': 1.4459, 'grad_norm': 0.10930592566728592, 'learning_rate': 0.0003390239258627809, 'epoch': 0.4}
+{'loss': 1.4727, 'grad_norm': 0.1195167526602745, 'learning_rate': 0.00033883014793117434, 'epoch': 0.4}
+{'loss': 1.4502, 'grad_norm': 0.10235854238271713, 'learning_rate': 0.0003386363088997148, 'epoch': 0.4}
+{'loss': 1.46, 'grad_norm': 0.1081455796957016, 'learning_rate': 0.0003384424089017301, 'epoch': 0.4}
+{'loss': 1.4627, 'grad_norm': 0.11678650230169296, 'learning_rate': 0.0003382484480705903, 'epoch': 0.4}
+{'loss': 1.4613, 'grad_norm': 0.11868194490671158, 'learning_rate': 0.0003380544265397068, 'epoch': 0.4}
+{'loss': 1.4544, 'grad_norm': 0.11506025493144989, 'learning_rate': 0.0003378603444425332, 'epoch': 0.4}
+{'loss': 1.4614, 'grad_norm': 0.13255159556865692, 'learning_rate': 0.0003376662019125645, 'epoch': 0.4}
+{'loss': 1.4702, 'grad_norm': 0.10430300980806351, 'learning_rate': 0.0003374719990833373, 'epoch': 0.4}
+{'loss': 1.4748, 'grad_norm': 0.10984504222869873, 'learning_rate': 0.0003372777360884298, 'epoch': 0.4}
+{'loss': 1.4779, 'grad_norm': 0.11930585652589798, 'learning_rate': 0.0003370834130614615, 'epoch': 0.41}
+{'loss': 1.4707, 'grad_norm': 0.11175063252449036, 'learning_rate': 0.00033688903013609316, 'epoch': 0.41}
+{'loss': 1.4495, 'grad_norm': 0.12461066991090775, 'learning_rate': 0.0003366945874460269, 'epoch': 0.41}
+{'loss': 1.4538, 'grad_norm': 0.11813239753246307, 'learning_rate': 0.0003365000851250056, 'epoch': 0.41}
+{'loss': 1.4446, 'grad_norm': 0.10062945634126663, 'learning_rate': 0.0003363055233068136, 'epoch': 0.41}
+{'loss': 1.4417, 'grad_norm': 0.1323368102312088, 'learning_rate': 0.0003361109021252757, 'epoch': 0.41}
+{'loss': 1.4907, 'grad_norm': 0.12079176306724548, 'learning_rate': 0.00033591622171425813, 'epoch': 0.41}
+{'loss': 1.4725, 'grad_norm': 0.12324068695306778, 'learning_rate': 0.00033572148220766717, 'epoch': 0.41}
+{'loss': 1.4566, 'grad_norm': 0.11624958366155624, 'learning_rate': 0.0003355266837394502, 'epoch': 0.41}
+{'loss': 1.5018, 'grad_norm': 0.12350025773048401, 'learning_rate': 0.00033533182644359516, 'epoch': 0.41}
+{'loss': 1.4596, 'grad_norm': 0.13961927592754364, 'learning_rate': 0.0003351369104541301, 'epoch': 0.41}
+{'loss': 1.4789, 'grad_norm': 0.12064256519079208, 'learning_rate': 0.0003349419359051239, 'epoch': 0.41}
+{'loss': 1.4931, 'grad_norm': 0.12594690918922424, 'learning_rate': 0.00033474690293068527, 'epoch': 0.41}
+{'loss': 1.4737, 'grad_norm': 0.13821066915988922, 'learning_rate': 0.0003345518116649636, 'epoch': 0.41}
+{'loss': 1.4518, 'grad_norm': 0.12153015285730362, 'learning_rate': 0.00033435666224214785, 'epoch': 0.41}
+{'loss': 1.4565, 'grad_norm': 0.13497941195964813, 'learning_rate': 0.0003341614547964674, 'epoch': 0.41}
+{'loss': 1.4532, 'grad_norm': 0.13559791445732117, 'learning_rate': 0.0003339661894621912, 'epoch': 0.41}
+{'loss': 1.4583, 'grad_norm': 0.11402390897274017, 'learning_rate': 0.00033377086637362844, 'epoch': 0.41}
+{'loss': 1.4726, 'grad_norm': 0.1345556527376175, 'learning_rate': 0.0003335754856651276, 'epoch': 0.41}
+{'loss': 1.4898, 'grad_norm': 0.12073905020952225, 'learning_rate': 0.00033338004747107697, 'epoch': 0.41}
+{'loss': 1.4654, 'grad_norm': 0.12648412585258484, 'learning_rate': 0.0003331845519259045, 'epoch': 0.41}
+{'loss': 1.4656, 'grad_norm': 0.13065733015537262, 'learning_rate': 0.00033298899916407737, 'epoch': 0.41}
+{'loss': 1.4584, 'grad_norm': 0.12416084855794907, 'learning_rate': 0.00033279338932010237, 'epoch': 0.41}
+{'loss': 1.4693, 'grad_norm': 0.12275916337966919, 'learning_rate': 0.00033259772252852536, 'epoch': 0.41}
+{'loss': 1.4329, 'grad_norm': 0.10844416171312332, 'learning_rate': 0.0003324019989239313, 'epoch': 0.41}
+{'loss': 1.4654, 'grad_norm': 0.1280829906463623, 'learning_rate': 0.00033220621864094436, 'epoch': 0.41}
+{'loss': 1.492, 'grad_norm': 0.12384448945522308, 'learning_rate': 0.00033201038181422785, 'epoch': 0.41}
+{'loss': 1.4922, 'grad_norm': 0.11669107526540756, 'learning_rate': 0.0003318144885784836, 'epoch': 0.41}
+{'loss': 1.4632, 'grad_norm': 0.11707546561956406, 'learning_rate': 0.0003316185390684526, 'epoch': 0.41}
+{'loss': 1.4357, 'grad_norm': 0.13661660254001617, 'learning_rate': 0.00033142253341891424, 'epoch': 0.41}
+{'loss': 1.4692, 'grad_norm': 0.11546647548675537, 'learning_rate': 0.0003312264717646868, 'epoch': 0.41}
+{'loss': 1.4679, 'grad_norm': 0.10959838330745697, 'learning_rate': 0.0003310303542406269, 'epoch': 0.41}
+{'loss': 1.4756, 'grad_norm': 0.11950859427452087, 'learning_rate': 0.0003308341809816296, 'epoch': 0.41}
+{'loss': 1.4463, 'grad_norm': 0.11236139386892319, 'learning_rate': 0.00033063795212262835, 'epoch': 0.41}
+{'loss': 1.463, 'grad_norm': 0.10972542315721512, 'learning_rate': 0.00033044166779859496, 'epoch': 0.41}
+{'loss': 1.4762, 'grad_norm': 0.1169847846031189, 'learning_rate': 0.0003302453281445391, 'epoch': 0.41}
+{'loss': 1.4673, 'grad_norm': 0.106987364590168, 'learning_rate': 0.00033004893329550874, 'epoch': 0.41}
+{'loss': 1.4713, 'grad_norm': 0.12385734915733337, 'learning_rate': 0.00032985248338658976, 'epoch': 0.41}
+{'loss': 1.4522, 'grad_norm': 0.10911591351032257, 'learning_rate': 0.00032965597855290574, 'epoch': 0.41}
+{'loss': 1.4609, 'grad_norm': 0.11506539583206177, 'learning_rate': 0.0003294594189296184, 'epoch': 0.42}
+{'loss': 1.4648, 'grad_norm': 0.12223586440086365, 'learning_rate': 0.0003292628046519267, 'epoch': 0.42}
+{'loss': 1.4401, 'grad_norm': 0.10316897183656693, 'learning_rate': 0.0003290661358550677, 'epoch': 0.42}
+{'loss': 1.4679, 'grad_norm': 0.10778959840536118, 'learning_rate': 0.0003288694126743154, 'epoch': 0.42}
+{'loss': 1.4672, 'grad_norm': 0.10627701878547668, 'learning_rate': 0.00032867263524498163, 'epoch': 0.42}
+{'loss': 1.4653, 'grad_norm': 0.11520631611347198, 'learning_rate': 0.00032847580370241544, 'epoch': 0.42}
+{'loss': 1.4693, 'grad_norm': 0.12131781131029129, 'learning_rate': 0.0003282789181820029, 'epoch': 0.42}
+{'loss': 1.4732, 'grad_norm': 0.1019219160079956, 'learning_rate': 0.0003280819788191675, 'epoch': 0.42}
+{'loss': 1.4894, 'grad_norm': 0.10720320791006088, 'learning_rate': 0.0003278849857493696, 'epoch': 0.42}
+{'loss': 1.4602, 'grad_norm': 0.10913556069135666, 'learning_rate': 0.00032768793910810645, 'epoch': 0.42}
+{'loss': 1.457, 'grad_norm': 0.10076695680618286, 'learning_rate': 0.00032749083903091234, 'epoch': 0.42}
+{'loss': 1.4746, 'grad_norm': 0.10793853551149368, 'learning_rate': 0.0003272936856533581, 'epoch': 0.42}
+{'loss': 1.4564, 'grad_norm': 0.12049048393964767, 'learning_rate': 0.0003270964791110513, 'epoch': 0.42}
+{'loss': 1.4303, 'grad_norm': 0.121407650411129, 'learning_rate': 0.0003268992195396363, 'epoch': 0.42}
+{'loss': 1.4724, 'grad_norm': 0.1369486004114151, 'learning_rate': 0.0003267019070747935, 'epoch': 0.42}
+{'loss': 1.4653, 'grad_norm': 0.11657322943210602, 'learning_rate': 0.0003265045418522401, 'epoch': 0.42}
+{'loss': 1.4651, 'grad_norm': 0.13848859071731567, 'learning_rate': 0.00032630712400772923, 'epoch': 0.42}
+{'loss': 1.4496, 'grad_norm': 0.12211132794618607, 'learning_rate': 0.0003261096536770505, 'epoch': 0.42}
+{'loss': 1.4525, 'grad_norm': 0.13188616931438446, 'learning_rate': 0.0003259121309960295, 'epoch': 0.42}
+{'loss': 1.4492, 'grad_norm': 0.11284035444259644, 'learning_rate': 0.00032571455610052783, 'epoch': 0.42}
+{'loss': 1.468, 'grad_norm': 0.11297938227653503, 'learning_rate': 0.00032551692912644297, 'epoch': 0.42}
+{'loss': 1.4733, 'grad_norm': 0.12445835024118423, 'learning_rate': 0.00032531925020970833, 'epoch': 0.42}
+{'loss': 1.4388, 'grad_norm': 0.10879774391651154, 'learning_rate': 0.00032512151948629295, 'epoch': 0.42}
+{'loss': 1.4563, 'grad_norm': 0.1258269101381302, 'learning_rate': 0.0003249237370922015, 'epoch': 0.42}
+{'loss': 1.4627, 'grad_norm': 0.11095303297042847, 'learning_rate': 0.0003247259031634743, 'epoch': 0.42}
+{'loss': 1.4708, 'grad_norm': 0.10139241814613342, 'learning_rate': 0.0003245280178361869, 'epoch': 0.42}
+{'loss': 1.473, 'grad_norm': 0.12997356057167053, 'learning_rate': 0.0003243300812464506, 'epoch': 0.42}
+{'loss': 1.4752, 'grad_norm': 0.11259540915489197, 'learning_rate': 0.00032413209353041153, 'epoch': 0.42}
+{'loss': 1.4716, 'grad_norm': 0.12245472520589828, 'learning_rate': 0.0003239340548242511, 'epoch': 0.42}
+{'loss': 1.4569, 'grad_norm': 0.11601532250642776, 'learning_rate': 0.00032373596526418604, 'epoch': 0.42}
+{'loss': 1.4548, 'grad_norm': 0.11933589726686478, 'learning_rate': 0.0003235378249864678, 'epoch': 0.42}
+{'loss': 1.4767, 'grad_norm': 0.12094143778085709, 'learning_rate': 0.00032333963412738267, 'epoch': 0.42}
+{'loss': 1.4373, 'grad_norm': 0.12324927002191544, 'learning_rate': 0.00032314139282325194, 'epoch': 0.42}
+{'loss': 1.4444, 'grad_norm': 0.12032922357320786, 'learning_rate': 0.00032294310121043165, 'epoch': 0.42}
+{'loss': 1.4711, 'grad_norm': 0.1341927945613861, 'learning_rate': 0.0003227447594253121, 'epoch': 0.42}
+{'loss': 1.4521, 'grad_norm': 0.1431584656238556, 'learning_rate': 0.00032254636760431835, 'epoch': 0.42}
+{'loss': 1.4641, 'grad_norm': 0.12931126356124878, 'learning_rate': 0.0003223479258839098, 'epoch': 0.42}
+{'loss': 1.4516, 'grad_norm': 0.15342116355895996, 'learning_rate': 0.0003221494344005803, 'epoch': 0.42}
+{'loss': 1.4945, 'grad_norm': 0.11799317598342896, 'learning_rate': 0.0003219508932908578, 'epoch': 0.42}
+{'loss': 1.4418, 'grad_norm': 0.13705284893512726, 'learning_rate': 0.0003217523026913044, 'epoch': 0.43}
+{'loss': 1.4438, 'grad_norm': 0.11649402976036072, 'learning_rate': 0.00032155366273851617, 'epoch': 0.43}
+{'loss': 1.4634, 'grad_norm': 0.12027467042207718, 'learning_rate': 0.0003213549735691233, 'epoch': 0.43}
+{'loss': 1.4551, 'grad_norm': 0.12231967598199844, 'learning_rate': 0.0003211562353197897, 'epoch': 0.43}
+{'loss': 1.4895, 'grad_norm': 0.11711141467094421, 'learning_rate': 0.0003209574481272131, 'epoch': 0.43}
+{'loss': 1.4689, 'grad_norm': 0.11747457832098007, 'learning_rate': 0.00032075861212812486, 'epoch': 0.43}
+{'loss': 1.4621, 'grad_norm': 0.10026250779628754, 'learning_rate': 0.00032055972745928996, 'epoch': 0.43}
+{'loss': 1.4579, 'grad_norm': 0.11484099179506302, 'learning_rate': 0.0003203607942575069, 'epoch': 0.43}
+{'loss': 1.4725, 'grad_norm': 0.11593775451183319, 'learning_rate': 0.0003201618126596072, 'epoch': 0.43}
+{'loss': 1.4475, 'grad_norm': 0.10713953524827957, 'learning_rate': 0.00031996278280245624, 'epoch': 0.43}
+{'loss': 1.4815, 'grad_norm': 0.10718758404254913, 'learning_rate': 0.00031976370482295215, 'epoch': 0.43}
+{'loss': 1.4522, 'grad_norm': 0.10797019302845001, 'learning_rate': 0.00031956457885802645, 'epoch': 0.43}
+{'loss': 1.462, 'grad_norm': 0.11828248202800751, 'learning_rate': 0.0003193654050446433, 'epoch': 0.43}
+{'loss': 1.4577, 'grad_norm': 0.11523903906345367, 'learning_rate': 0.00031916618351980034, 'epoch': 0.43}
+{'loss': 1.4879, 'grad_norm': 0.10974453389644623, 'learning_rate': 0.00031896691442052737, 'epoch': 0.43}
+{'loss': 1.4462, 'grad_norm': 0.1267203539609909, 'learning_rate': 0.00031876759788388744, 'epoch': 0.43}
+{'loss': 1.489, 'grad_norm': 0.10127914696931839, 'learning_rate': 0.0003185682340469759, 'epoch': 0.43}
+{'loss': 1.4613, 'grad_norm': 0.11449507623910904, 'learning_rate': 0.0003183688230469208, 'epoch': 0.43}
+{'loss': 1.4741, 'grad_norm': 0.12151435017585754, 'learning_rate': 0.00031816936502088264, 'epoch': 0.43}
+{'loss': 1.4605, 'grad_norm': 0.09925831109285355, 'learning_rate': 0.0003179698601060541, 'epoch': 0.43}
+{'loss': 1.4743, 'grad_norm': 0.1200769692659378, 'learning_rate': 0.0003177703084396603, 'epoch': 0.43}
+{'loss': 1.472, 'grad_norm': 0.11306501924991608, 'learning_rate': 0.0003175707101589585, 'epoch': 0.43}
+{'loss': 1.4558, 'grad_norm': 0.11275044828653336, 'learning_rate': 0.00031737106540123786, 'epoch': 0.43}
+{'loss': 1.4712, 'grad_norm': 0.13027749955654144, 'learning_rate': 0.0003171713743038196, 'epoch': 0.43}
+{'loss': 1.4979, 'grad_norm': 0.12091922014951706, 'learning_rate': 0.00031697163700405685, 'epoch': 0.43}
+{'loss': 1.4681, 'grad_norm': 0.1185532808303833, 'learning_rate': 0.0003167718536393346, 'epoch': 0.43}
+{'loss': 1.4496, 'grad_norm': 0.1109505146741867, 'learning_rate': 0.00031657202434706933, 'epoch': 0.43}
+{'loss': 1.4872, 'grad_norm': 0.11757201701402664, 'learning_rate': 0.00031637214926470914, 'epoch': 0.43}
+{'loss': 1.4516, 'grad_norm': 0.12631136178970337, 'learning_rate': 0.0003161722285297338, 'epoch': 0.43}
+{'loss': 1.4425, 'grad_norm': 0.11533594876527786, 'learning_rate': 0.0003159722622796543, 'epoch': 0.43}
+{'loss': 1.459, 'grad_norm': 0.12118325382471085, 'learning_rate': 0.00031577225065201306, 'epoch': 0.43}
+{'loss': 1.4333, 'grad_norm': 0.10522047430276871, 'learning_rate': 0.0003155721937843836, 'epoch': 0.43}
+{'loss': 1.458, 'grad_norm': 0.1092287003993988, 'learning_rate': 0.0003153720918143705, 'epoch': 0.43}
+{'loss': 1.467, 'grad_norm': 0.10730671137571335, 'learning_rate': 0.0003151719448796098, 'epoch': 0.43}
+{'loss': 1.4565, 'grad_norm': 0.11293138563632965, 'learning_rate': 0.00031497175311776785, 'epoch': 0.43}
+{'loss': 1.4581, 'grad_norm': 0.11410106718540192, 'learning_rate': 0.00031477151666654227, 'epoch': 0.43}
+{'loss': 1.4466, 'grad_norm': 0.10264255851507187, 'learning_rate': 0.00031457123566366115, 'epoch': 0.43}
+{'loss': 1.4715, 'grad_norm': 0.11132719367742538, 'learning_rate': 0.00031437091024688347, 'epoch': 0.43}
+{'loss': 1.4513, 'grad_norm': 0.097053162753582, 'learning_rate': 0.00031417054055399865, 'epoch': 0.43}
+{'loss': 1.4648, 'grad_norm': 0.12044171988964081, 'learning_rate': 0.00031397012672282636, 'epoch': 0.44}
+{'loss': 1.482, 'grad_norm': 0.10202477127313614, 'learning_rate': 0.0003137696688912171, 'epoch': 0.44}
+{'loss': 1.4545, 'grad_norm': 0.10551151633262634, 'learning_rate': 0.0003135691671970512, 'epoch': 0.44}
+{'loss': 1.4688, 'grad_norm': 0.11403901875019073, 'learning_rate': 0.0003133686217782393, 'epoch': 0.44}
+{'loss': 1.4496, 'grad_norm': 0.10689442604780197, 'learning_rate': 0.0003131680327727221, 'epoch': 0.44}
+{'loss': 1.4588, 'grad_norm': 0.11065210402011871, 'learning_rate': 0.00031296740031847047, 'epoch': 0.44}
+{'loss': 1.4534, 'grad_norm': 0.10760006308555603, 'learning_rate': 0.000312766724553485, 'epoch': 0.44}
+{'loss': 1.4606, 'grad_norm': 0.10813451558351517, 'learning_rate': 0.0003125660056157958, 'epoch': 0.44}
+{'loss': 1.4568, 'grad_norm': 0.11958517879247665, 'learning_rate': 0.00031236524364346326, 'epoch': 0.44}
+{'loss': 1.471, 'grad_norm': 0.12403354048728943, 'learning_rate': 0.0003121644387745769, 'epoch': 0.44}
+{'loss': 1.4644, 'grad_norm': 0.12770085036754608, 'learning_rate': 0.000311963591147256, 'epoch': 0.44}
+{'loss': 1.4729, 'grad_norm': 0.12887126207351685, 'learning_rate': 0.00031176270089964907, 'epoch': 0.44}
+{'loss': 1.4693, 'grad_norm': 0.11098144203424454, 'learning_rate': 0.0003115617681699341, 'epoch': 0.44}
+{'loss': 1.4538, 'grad_norm': 0.12937258183956146, 'learning_rate': 0.0003113607930963182, 'epoch': 0.44}
+{'loss': 1.4785, 'grad_norm': 0.12181167304515839, 'learning_rate': 0.0003111597758170376, 'epoch': 0.44}
+{'loss': 1.4622, 'grad_norm': 0.1301536113023758, 'learning_rate': 0.0003109587164703576, 'epoch': 0.44}
+{'loss': 1.4531, 'grad_norm': 0.11832140386104584, 'learning_rate': 0.00031075761519457247, 'epoch': 0.44}
+{'loss': 1.4513, 'grad_norm': 0.12625190615653992, 'learning_rate': 0.0003105564721280053, 'epoch': 0.44}
+{'loss': 1.4647, 'grad_norm': 0.1061728224158287, 'learning_rate': 0.0003103552874090079, 'epoch': 0.44}
+{'loss': 1.4949, 'grad_norm': 0.14033257961273193, 'learning_rate': 0.0003101540611759605, 'epoch': 0.44}
+{'loss': 1.4527, 'grad_norm': 0.1087472066283226, 'learning_rate': 0.00030995279356727234, 'epoch': 0.44}
+{'loss': 1.4462, 'grad_norm': 0.12456326186656952, 'learning_rate': 0.00030975148472138085, 'epoch': 0.44}
+{'loss': 1.4335, 'grad_norm': 0.13855253159999847, 'learning_rate': 0.000309550134776752, 'epoch': 0.44}
+{'loss': 1.4533, 'grad_norm': 0.13031728565692902, 'learning_rate': 0.0003093487438718796, 'epoch': 0.44}
+{'loss': 1.4533, 'grad_norm': 0.11997143179178238, 'learning_rate': 0.00030914731214528614, 'epoch': 0.44}
+{'loss': 1.4509, 'grad_norm': 0.12236347794532776, 'learning_rate': 0.000308945839735522, 'epoch': 0.44}
+{'loss': 1.4626, 'grad_norm': 0.11563381552696228, 'learning_rate': 0.0003087443267811654, 'epoch': 0.44}
+{'loss': 1.4606, 'grad_norm': 0.11629246920347214, 'learning_rate': 0.0003085427734208226, 'epoch': 0.44}
+{'loss': 1.4635, 'grad_norm': 0.11069748550653458, 'learning_rate': 0.00030834117979312766, 'epoch': 0.44}
+{'loss': 1.4705, 'grad_norm': 0.13344869017601013, 'learning_rate': 0.0003081395460367423, 'epoch': 0.44}
+{'loss': 1.4641, 'grad_norm': 0.12110316008329391, 'learning_rate': 0.0003079378722903559, 'epoch': 0.44}
+{'loss': 1.4673, 'grad_norm': 0.13315840065479279, 'learning_rate': 0.00030773615869268505, 'epoch': 0.44}
+{'loss': 1.4491, 'grad_norm': 0.12681172788143158, 'learning_rate': 0.0003075344053824742, 'epoch': 0.44}
+{'loss': 1.4602, 'grad_norm': 0.12967893481254578, 'learning_rate': 0.0003073326124984949, 'epoch': 0.44}
+{'loss': 1.4659, 'grad_norm': 0.15089136362075806, 'learning_rate': 0.00030713078017954594, 'epoch': 0.44}
+{'loss': 1.464, 'grad_norm': 0.11581152677536011, 'learning_rate': 0.000306928908564453, 'epoch': 0.44}
+{'loss': 1.4672, 'grad_norm': 0.1300186812877655, 'learning_rate': 0.00030672699779206924, 'epoch': 0.44}
+{'loss': 1.4619, 'grad_norm': 0.10651853680610657, 'learning_rate': 0.0003065250480012745, 'epoch': 0.44}
+{'loss': 1.4553, 'grad_norm': 0.12479254603385925, 'learning_rate': 0.00030632305933097536, 'epoch': 0.44}
+{'loss': 1.4757, 'grad_norm': 0.12392330169677734, 'learning_rate': 0.00030612103192010525, 'epoch': 0.45}
+{'loss': 1.4672, 'grad_norm': 0.11434907466173172, 'learning_rate': 0.0003059189659076244, 'epoch': 0.45}
+{'loss': 1.4928, 'grad_norm': 0.10757064819335938, 'learning_rate': 0.00030571686143251943, 'epoch': 0.45}
+{'loss': 1.4704, 'grad_norm': 0.132044717669487, 'learning_rate': 0.00030551471863380324, 'epoch': 0.45}
+{'loss': 1.4507, 'grad_norm': 0.11006166785955429, 'learning_rate': 0.00030531253765051555, 'epoch': 0.45}
+{'loss': 1.4615, 'grad_norm': 0.11331003159284592, 'learning_rate': 0.00030511031862172187, 'epoch': 0.45}
+{'loss': 1.46, 'grad_norm': 0.142709881067276, 'learning_rate': 0.0003049080616865142, 'epoch': 0.45}
+{'loss': 1.4671, 'grad_norm': 0.11427611112594604, 'learning_rate': 0.00030470576698401043, 'epoch': 0.45}
+{'loss': 1.4533, 'grad_norm': 0.13970093429088593, 'learning_rate': 0.00030450343465335456, 'epoch': 0.45}
+{'loss': 1.4631, 'grad_norm': 0.11694510281085968, 'learning_rate': 0.00030430106483371645, 'epoch': 0.45}
+{'loss': 1.4824, 'grad_norm': 0.12638577818870544, 'learning_rate': 0.0003040986576642916, 'epoch': 0.45}
+{'loss': 1.4742, 'grad_norm': 0.15757888555526733, 'learning_rate': 0.00030389621328430136, 'epoch': 0.45}
+{'loss': 1.4764, 'grad_norm': 0.12095119804143906, 'learning_rate': 0.00030369373183299254, 'epoch': 0.45}
+{'loss': 1.4595, 'grad_norm': 0.16333311796188354, 'learning_rate': 0.00030349121344963766, 'epoch': 0.45}
+{'loss': 1.4755, 'grad_norm': 0.12547241151332855, 'learning_rate': 0.0003032886582735344, 'epoch': 0.45}
+{'loss': 1.4403, 'grad_norm': 0.1388409286737442, 'learning_rate': 0.00030308606644400594, 'epoch': 0.45}
+{'loss': 1.4581, 'grad_norm': 0.13957005739212036, 'learning_rate': 0.0003028834381004005, 'epoch': 0.45}
+{'loss': 1.47, 'grad_norm': 0.12246063351631165, 'learning_rate': 0.0003026807733820917, 'epoch': 0.45}
+{'loss': 1.4657, 'grad_norm': 0.16014699637889862, 'learning_rate': 0.0003024780724284777, 'epoch': 0.45}
+{'loss': 1.4598, 'grad_norm': 0.12104613333940506, 'learning_rate': 0.0003022753353789821, 'epoch': 0.45}
+{'loss': 1.4663, 'grad_norm': 0.137400820851326, 'learning_rate': 0.000302072562373053, 'epoch': 0.45}
+{'loss': 1.4707, 'grad_norm': 0.14430293440818787, 'learning_rate': 0.0003018697535501633, 'epoch': 0.45}
+{'loss': 1.4592, 'grad_norm': 0.10907319188117981, 'learning_rate': 0.00030166690904981065, 'epoch': 0.45}
+{'loss': 1.4537, 'grad_norm': 0.13897790014743805, 'learning_rate': 0.0003014640290115171, 'epoch': 0.45}
+{'loss': 1.4739, 'grad_norm': 0.12971900403499603, 'learning_rate': 0.0003012611135748292, 'epoch': 0.45}
+{'loss': 1.4578, 'grad_norm': 0.13632948696613312, 'learning_rate': 0.0003010581628793179, 'epoch': 0.45}
+{'loss': 1.4605, 'grad_norm': 0.14702501893043518, 'learning_rate': 0.00030085517706457827, 'epoch': 0.45}
+{'loss': 1.4879, 'grad_norm': 0.12706147134304047, 'learning_rate': 0.0003006521562702295, 'epoch': 0.45}
+{'loss': 1.4505, 'grad_norm': 0.12816543877124786, 'learning_rate': 0.0003004491006359153, 'epoch': 0.45}
+{'loss': 1.4592, 'grad_norm': 0.12809157371520996, 'learning_rate': 0.0003002460103013028, 'epoch': 0.45}
+{'loss': 1.4429, 'grad_norm': 0.12726426124572754, 'learning_rate': 0.000300042885406083, 'epoch': 0.45}
+{'loss': 1.4664, 'grad_norm': 0.13021185994148254, 'learning_rate': 0.00029983972608997123, 'epoch': 0.45}
+{'loss': 1.4589, 'grad_norm': 0.1277676522731781, 'learning_rate': 0.0002996365324927059, 'epoch': 0.45}
+{'loss': 1.4609, 'grad_norm': 0.10852688550949097, 'learning_rate': 0.00029943330475404935, 'epoch': 0.45}
+{'loss': 1.4713, 'grad_norm': 0.13290324807167053, 'learning_rate': 0.0002992300430137872, 'epoch': 0.45}
+{'loss': 1.4506, 'grad_norm': 0.1229896992444992, 'learning_rate': 0.0002990267474117285, 'epoch': 0.45}
+{'loss': 1.4837, 'grad_norm': 0.1133275181055069, 'learning_rate': 0.0002988234180877059, 'epoch': 0.45}
+{'loss': 1.4684, 'grad_norm': 0.14313849806785583, 'learning_rate': 0.00029862005518157457, 'epoch': 0.45}
+{'loss': 1.4511, 'grad_norm': 0.10947928577661514, 'learning_rate': 0.00029841665883321354, 'epoch': 0.45}
+{'loss': 1.4396, 'grad_norm': 0.14512872695922852, 'learning_rate': 0.00029821322918252433, 'epoch': 0.46}
+{'loss': 1.4666, 'grad_norm': 0.1212187111377716, 'learning_rate': 0.0002980097663694316, 'epoch': 0.46}
+{'loss': 1.4828, 'grad_norm': 0.13962936401367188, 'learning_rate': 0.00029780627053388264, 'epoch': 0.46}
+{'loss': 1.4633, 'grad_norm': 0.13293063640594482, 'learning_rate': 0.00029760274181584763, 'epoch': 0.46}
+{'loss': 1.4662, 'grad_norm': 0.12319544702768326, 'learning_rate': 0.0002973991803553193, 'epoch': 0.46}
+{'loss': 1.4822, 'grad_norm': 0.1383584886789322, 'learning_rate': 0.00029719558629231287, 'epoch': 0.46}
+{'loss': 1.4684, 'grad_norm': 0.13076265156269073, 'learning_rate': 0.0002969919597668661, 'epoch': 0.46}
+{'loss': 1.4566, 'grad_norm': 0.12642669677734375, 'learning_rate': 0.00029678830091903885, 'epoch': 0.46}
+{'loss': 1.4833, 'grad_norm': 0.12962447106838226, 'learning_rate': 0.0002965846098889134, 'epoch': 0.46}
+{'loss': 1.4279, 'grad_norm': 0.10065139830112457, 'learning_rate': 0.0002963808868165943, 'epoch': 0.46}
+{'loss': 1.4715, 'grad_norm': 0.1507045030593872, 'learning_rate': 0.0002961771318422077, 'epoch': 0.46}
+{'loss': 1.4809, 'grad_norm': 0.1202099397778511, 'learning_rate': 0.0002959733451059021, 'epoch': 0.46}
+{'loss': 1.4857, 'grad_norm': 0.1386486291885376, 'learning_rate': 0.00029576952674784763, 'epoch': 0.46}
+{'loss': 1.4636, 'grad_norm': 0.12084992974996567, 'learning_rate': 0.0002955656769082363, 'epoch': 0.46}
+{'loss': 1.4748, 'grad_norm': 0.11698507517576218, 'learning_rate': 0.0002953617957272817, 'epoch': 0.46}
+{'loss': 1.4764, 'grad_norm': 0.12167203426361084, 'learning_rate': 0.00029515788334521896, 'epoch': 0.46}
+{'loss': 1.4575, 'grad_norm': 0.11548890918493271, 'learning_rate': 0.00029495393990230484, 'epoch': 0.46}
+{'loss': 1.453, 'grad_norm': 0.10591322928667068, 'learning_rate': 0.0002947499655388171, 'epoch': 0.46}
+{'loss': 1.4656, 'grad_norm': 0.10448834300041199, 'learning_rate': 0.0002945459603950552, 'epoch': 0.46}
+{'loss': 1.4612, 'grad_norm': 0.10381092131137848, 'learning_rate': 0.00029434192461133936, 'epoch': 0.46}
+{'loss': 1.4713, 'grad_norm': 0.10972307622432709, 'learning_rate': 0.00029413785832801124, 'epoch': 0.46}
+{'loss': 1.4581, 'grad_norm': 0.11072458326816559, 'learning_rate': 0.00029393376168543333, 'epoch': 0.46}
+{'loss': 1.4675, 'grad_norm': 0.10089115053415298, 'learning_rate': 0.0002937296348239889, 'epoch': 0.46}
+{'loss': 1.4189, 'grad_norm': 0.12086474150419235, 'learning_rate': 0.0002935254778840821, 'epoch': 0.46}
+{'loss': 1.4654, 'grad_norm': 0.1203429102897644, 'learning_rate': 0.0002933212910061379, 'epoch': 0.46}
+{'loss': 1.4336, 'grad_norm': 0.10512690246105194, 'learning_rate': 0.00029311707433060164, 'epoch': 0.46}
+{'loss': 1.4668, 'grad_norm': 0.1377803236246109, 'learning_rate': 0.0002929128279979392, 'epoch': 0.46}
+{'loss': 1.4524, 'grad_norm': 0.11638088524341583, 'learning_rate': 0.0002927085521486369, 'epoch': 0.46}
+{'loss': 1.4746, 'grad_norm': 0.12197132408618927, 'learning_rate': 0.0002925042469232014, 'epoch': 0.46}
+{'loss': 1.4634, 'grad_norm': 0.15077906847000122, 'learning_rate': 0.0002922999124621596, 'epoch': 0.46}
+{'loss': 1.5033, 'grad_norm': 0.10831651091575623, 'learning_rate': 0.00029209554890605844, 'epoch': 0.46}
+{'loss': 1.4565, 'grad_norm': 0.11781488358974457, 'learning_rate': 0.00029189115639546463, 'epoch': 0.46}
+{'loss': 1.4292, 'grad_norm': 0.13040107488632202, 'learning_rate': 0.0002916867350709654, 'epoch': 0.46}
+{'loss': 1.4461, 'grad_norm': 0.10607773810625076, 'learning_rate': 0.00029148228507316714, 'epoch': 0.46}
+{'loss': 1.4548, 'grad_norm': 0.1242007166147232, 'learning_rate': 0.00029127780654269656, 'epoch': 0.46}
+{'loss': 1.4728, 'grad_norm': 0.12929393351078033, 'learning_rate': 0.0002910732996201993, 'epoch': 0.46}
+{'loss': 1.463, 'grad_norm': 0.13274237513542175, 'learning_rate': 0.00029086876444634125, 'epoch': 0.46}
+{'loss': 1.452, 'grad_norm': 0.12068530917167664, 'learning_rate': 0.0002906642011618073, 'epoch': 0.46}
+{'loss': 1.4532, 'grad_norm': 0.11610852926969528, 'learning_rate': 0.00029045960990730177, 'epoch': 0.46}
+{'loss': 1.5031, 'grad_norm': 0.11427666991949081, 'learning_rate': 0.0002902549908235482, 'epoch': 0.47}
+{'loss': 1.476, 'grad_norm': 0.11376366764307022, 'learning_rate': 0.0002900503440512894, 'epoch': 0.47}
+{'loss': 1.4693, 'grad_norm': 0.12054479867219925, 'learning_rate': 0.00028984566973128703, 'epoch': 0.47}
+{'loss': 1.4613, 'grad_norm': 0.11071722954511642, 'learning_rate': 0.0002896409680043218, 'epoch': 0.47}
+{'loss': 1.4487, 'grad_norm': 0.11689967662096024, 'learning_rate': 0.0002894362390111934, 'epoch': 0.47}
+{'loss': 1.459, 'grad_norm': 0.11204132437705994, 'learning_rate': 0.00028923148289271993, 'epoch': 0.47}
+{'loss': 1.4764, 'grad_norm': 0.1219262033700943, 'learning_rate': 0.00028902669978973853, 'epoch': 0.47}
+{'loss': 1.4465, 'grad_norm': 0.10827245563268661, 'learning_rate': 0.00028882188984310467, 'epoch': 0.47}
+{'loss': 1.4713, 'grad_norm': 0.10781703889369965, 'learning_rate': 0.00028861705319369236, 'epoch': 0.47}
+{'loss': 1.471, 'grad_norm': 0.1135592833161354, 'learning_rate': 0.00028841218998239396, 'epoch': 0.47}
+{'loss': 1.4642, 'grad_norm': 0.11552322655916214, 'learning_rate': 0.00028820730035012, 'epoch': 0.47}
+{'loss': 1.4643, 'grad_norm': 0.10114243626594543, 'learning_rate': 0.00028800238443779934, 'epoch': 0.47}
+{'loss': 1.4433, 'grad_norm': 0.12127403914928436, 'learning_rate': 0.000287797442386379, 'epoch': 0.47}
+{'loss': 1.4658, 'grad_norm': 0.1249672994017601, 'learning_rate': 0.0002875924743368236, 'epoch': 0.47}
+{'loss': 1.4575, 'grad_norm': 0.11841283738613129, 'learning_rate': 0.00028738748043011616, 'epoch': 0.47}
+{'loss': 1.464, 'grad_norm': 0.11325427144765854, 'learning_rate': 0.0002871824608072569, 'epoch': 0.47}
+{'loss': 1.4879, 'grad_norm': 0.1455262005329132, 'learning_rate': 0.00028697741560926424, 'epoch': 0.47}
+{'loss': 1.4575, 'grad_norm': 0.12417373806238174, 'learning_rate': 0.00028677234497717397, 'epoch': 0.47}
+{'loss': 1.4639, 'grad_norm': 0.13127559423446655, 'learning_rate': 0.00028656724905203924, 'epoch': 0.47}
+{'loss': 1.4519, 'grad_norm': 0.11297992616891861, 'learning_rate': 0.0002863621279749309, 'epoch': 0.47}
+{'loss': 1.4271, 'grad_norm': 0.1285834163427353, 'learning_rate': 0.00028615698188693697, 'epoch': 0.47}
+{'loss': 1.4434, 'grad_norm': 0.12744759023189545, 'learning_rate': 0.0002859518109291625, 'epoch': 0.47}
+{'loss': 1.4502, 'grad_norm': 0.116866834461689, 'learning_rate': 0.00028574661524272994, 'epoch': 0.47}
+{'loss': 1.4462, 'grad_norm': 0.13031114637851715, 'learning_rate': 0.0002855413949687784, 'epoch': 0.47}
+{'loss': 1.4754, 'grad_norm': 0.13956373929977417, 'learning_rate': 0.00028533615024846435, 'epoch': 0.47}
+{'loss': 1.4647, 'grad_norm': 0.1313415765762329, 'learning_rate': 0.0002851308812229608, 'epoch': 0.47}
+{'loss': 1.463, 'grad_norm': 0.13825573027133942, 'learning_rate': 0.0002849255880334574, 'epoch': 0.47}
+{'loss': 1.4638, 'grad_norm': 0.12316425889730453, 'learning_rate': 0.00028472027082116055, 'epoch': 0.47}
+{'loss': 1.4504, 'grad_norm': 0.1379832774400711, 'learning_rate': 0.00028451492972729307, 'epoch': 0.47}
+{'loss': 1.4625, 'grad_norm': 0.1107468381524086, 'learning_rate': 0.00028430956489309455, 'epoch': 0.47}
+{'loss': 1.4702, 'grad_norm': 0.13218167424201965, 'learning_rate': 0.00028410417645982047, 'epoch': 0.47}
+{'loss': 1.4635, 'grad_norm': 0.13287386298179626, 'learning_rate': 0.0002838987645687427, 'epoch': 0.47}
+{'loss': 1.4487, 'grad_norm': 0.12206937372684479, 'learning_rate': 0.00028369332936114937, 'epoch': 0.47}
+{'loss': 1.4514, 'grad_norm': 0.12248115986585617, 'learning_rate': 0.0002834878709783445, 'epoch': 0.47}
+{'loss': 1.4931, 'grad_norm': 0.1273556351661682, 'learning_rate': 0.000283282389561648, 'epoch': 0.47}
+{'loss': 1.4354, 'grad_norm': 0.12299494445323944, 'learning_rate': 0.0002830768852523959, 'epoch': 0.47}
+{'loss': 1.4593, 'grad_norm': 0.11712610721588135, 'learning_rate': 0.0002828713581919397, 'epoch': 0.47}
+{'loss': 1.4469, 'grad_norm': 0.1363944709300995, 'learning_rate': 0.0002826658085216466, 'epoch': 0.47}
+{'loss': 1.4659, 'grad_norm': 0.12950703501701355, 'learning_rate': 0.0002824602363828994, 'epoch': 0.47}
+{'loss': 1.4467, 'grad_norm': 0.116488978266716, 'learning_rate': 0.0002822546419170965, 'epoch': 0.48}
+{'loss': 1.444, 'grad_norm': 0.11098099499940872, 'learning_rate': 0.0002820490252656513, 'epoch': 0.48}
+{'loss': 1.4906, 'grad_norm': 0.1225145235657692, 'learning_rate': 0.0002818433865699928, 'epoch': 0.48}
+{'loss': 1.4544, 'grad_norm': 0.11978719383478165, 'learning_rate': 0.00028163772597156493, 'epoch': 0.48}
+{'loss': 1.4366, 'grad_norm': 0.12422464042901993, 'learning_rate': 0.00028143204361182696, 'epoch': 0.48}
+{'loss': 1.4486, 'grad_norm': 0.10669678449630737, 'learning_rate': 0.0002812263396322528, 'epoch': 0.48}
+{'loss': 1.4639, 'grad_norm': 0.13645939528942108, 'learning_rate': 0.00028102061417433144, 'epoch': 0.48}
+{'loss': 1.4423, 'grad_norm': 0.11160808801651001, 'learning_rate': 0.0002808148673795665, 'epoch': 0.48}
+{'loss': 1.454, 'grad_norm': 0.1179799735546112, 'learning_rate': 0.0002806090993894765, 'epoch': 0.48}
+{'loss': 1.4681, 'grad_norm': 0.12484223395586014, 'learning_rate': 0.00028040331034559436, 'epoch': 0.48}
+{'loss': 1.4387, 'grad_norm': 0.11702630668878555, 'learning_rate': 0.0002801975003894675, 'epoch': 0.48}
+{'loss': 1.4522, 'grad_norm': 0.12520906329154968, 'learning_rate': 0.0002799916696626577, 'epoch': 0.48}
+{'loss': 1.4468, 'grad_norm': 0.12635943293571472, 'learning_rate': 0.0002797858183067411, 'epoch': 0.48}
+{'loss': 1.4717, 'grad_norm': 0.12097546458244324, 'learning_rate': 0.0002795799464633081, 'epoch': 0.48}
+{'loss': 1.4891, 'grad_norm': 0.11117228120565414, 'learning_rate': 0.000279374054273963, 'epoch': 0.48}
+{'loss': 1.4676, 'grad_norm': 0.12398441135883331, 'learning_rate': 0.00027916814188032405, 'epoch': 0.48}
+{'loss': 1.452, 'grad_norm': 0.11869334429502487, 'learning_rate': 0.0002789622094240239, 'epoch': 0.48}
+{'loss': 1.448, 'grad_norm': 0.10661447048187256, 'learning_rate': 0.00027875625704670837, 'epoch': 0.48}
+{'loss': 1.4334, 'grad_norm': 0.11704501509666443, 'learning_rate': 0.00027855028489003736, 'epoch': 0.48}
+{'loss': 1.45, 'grad_norm': 0.11497785896062851, 'learning_rate': 0.00027834429309568415, 'epoch': 0.48}
+{'loss': 1.4813, 'grad_norm': 0.11546917259693146, 'learning_rate': 0.00027813828180533567, 'epoch': 0.48}
+{'loss': 1.4691, 'grad_norm': 0.12750467658042908, 'learning_rate': 0.0002779322511606924, 'epoch': 0.48}
+{'loss': 1.471, 'grad_norm': 0.12204443663358688, 'learning_rate': 0.0002777262013034677, 'epoch': 0.48}
+{'loss': 1.4772, 'grad_norm': 0.1293269693851471, 'learning_rate': 0.00027752013237538855, 'epoch': 0.48}
+{'loss': 1.4737, 'grad_norm': 0.10711109638214111, 'learning_rate': 0.0002773140445181949, 'epoch': 0.48}
+{'loss': 1.4842, 'grad_norm': 0.14319480955600739, 'learning_rate': 0.0002771079378736398, 'epoch': 0.48}
+{'loss': 1.464, 'grad_norm': 0.11389622092247009, 'learning_rate': 0.00027690181258348896, 'epoch': 0.48}
+{'loss': 1.432, 'grad_norm': 0.13021236658096313, 'learning_rate': 0.00027669566878952125, 'epoch': 0.48}
+{'loss': 1.4595, 'grad_norm': 0.11323405802249908, 'learning_rate': 0.00027648950663352814, 'epoch': 0.48}
+{'loss': 1.4611, 'grad_norm': 0.1201230138540268, 'learning_rate': 0.00027628332625731353, 'epoch': 0.48}
+{'loss': 1.4272, 'grad_norm': 0.13058236241340637, 'learning_rate': 0.0002760771278026942, 'epoch': 0.48}
+{'loss': 1.4489, 'grad_norm': 0.1220974549651146, 'learning_rate': 0.0002758709114114992, 'epoch': 0.48}
+{'loss': 1.4633, 'grad_norm': 0.12941737473011017, 'learning_rate': 0.0002756646772255698, 'epoch': 0.48}
+{'loss': 1.4514, 'grad_norm': 0.11389872431755066, 'learning_rate': 0.00027545842538675974, 'epoch': 0.48}
+{'loss': 1.4522, 'grad_norm': 0.10663233697414398, 'learning_rate': 0.00027525215603693465, 'epoch': 0.48}
+{'loss': 1.4444, 'grad_norm': 0.1172020211815834, 'learning_rate': 0.00027504586931797255, 'epoch': 0.48}
+{'loss': 1.4384, 'grad_norm': 0.13434399664402008, 'learning_rate': 0.00027483956537176294, 'epoch': 0.48}
+{'loss': 1.4569, 'grad_norm': 0.11493560671806335, 'learning_rate': 0.0002746332443402077, 'epoch': 0.48}
+{'loss': 1.4457, 'grad_norm': 0.11604043841362, 'learning_rate': 0.00027442690636521994, 'epoch': 0.48}
+{'loss': 1.4636, 'grad_norm': 0.12049057334661484, 'learning_rate': 0.0002742205515887248, 'epoch': 0.49}
+{'loss': 1.4591, 'grad_norm': 0.12672437727451324, 'learning_rate': 0.0002740141801526589, 'epoch': 0.49}
+{'loss': 1.4429, 'grad_norm': 0.11973610520362854, 'learning_rate': 0.0002738077921989701, 'epoch': 0.49}
+{'loss': 1.4492, 'grad_norm': 0.1244286596775055, 'learning_rate': 0.000273601387869618, 'epoch': 0.49}
+{'loss': 1.4547, 'grad_norm': 0.11210719496011734, 'learning_rate': 0.00027339496730657305, 'epoch': 0.49}
+{'loss': 1.4339, 'grad_norm': 0.12477565556764603, 'learning_rate': 0.00027318853065181725, 'epoch': 0.49}
+{'loss': 1.4797, 'grad_norm': 0.11645716428756714, 'learning_rate': 0.0002729820780473434, 'epoch': 0.49}
+{'loss': 1.4384, 'grad_norm': 0.11150825023651123, 'learning_rate': 0.00027277560963515524, 'epoch': 0.49}
+{'loss': 1.4532, 'grad_norm': 0.12880638241767883, 'learning_rate': 0.0002725691255572678, 'epoch': 0.49}
+{'loss': 1.4713, 'grad_norm': 0.12537604570388794, 'learning_rate': 0.0002723626259557063, 'epoch': 0.49}
+{'loss': 1.456, 'grad_norm': 0.11482277512550354, 'learning_rate': 0.000272156110972507, 'epoch': 0.49}
+{'loss': 1.479, 'grad_norm': 0.1310359090566635, 'learning_rate': 0.00027194958074971677, 'epoch': 0.49}
+{'loss': 1.4177, 'grad_norm': 0.11192791908979416, 'learning_rate': 0.0002717430354293928, 'epoch': 0.49}
+{'loss': 1.4743, 'grad_norm': 0.11653825640678406, 'learning_rate': 0.00027153647515360267, 'epoch': 0.49}
+{'loss': 1.4615, 'grad_norm': 0.13382430374622345, 'learning_rate': 0.00027132990006442436, 'epoch': 0.49}
+{'loss': 1.4561, 'grad_norm': 0.11218615621328354, 'learning_rate': 0.00027112331030394596, 'epoch': 0.49}
+{'loss': 1.4578, 'grad_norm': 0.11316578835248947, 'learning_rate': 0.0002709167060142656, 'epoch': 0.49}
+{'loss': 1.4456, 'grad_norm': 0.1029282733798027, 'learning_rate': 0.00027071008733749164, 'epoch': 0.49}
+{'loss': 1.4415, 'grad_norm': 0.12909601628780365, 'learning_rate': 0.00027050345441574197, 'epoch': 0.49}
+{'loss': 1.4682, 'grad_norm': 0.1058962345123291, 'learning_rate': 0.0002702968073911446, 'epoch': 0.49}
+{'loss': 1.4675, 'grad_norm': 0.1279802918434143, 'learning_rate': 0.0002700901464058371, 'epoch': 0.49}
+{'loss': 1.468, 'grad_norm': 0.11638839542865753, 'learning_rate': 0.00026988347160196663, 'epoch': 0.49}
+{'loss': 1.4714, 'grad_norm': 0.12918439507484436, 'learning_rate': 0.00026967678312168984, 'epoch': 0.49}
+{'loss': 1.4592, 'grad_norm': 0.12465200573205948, 'learning_rate': 0.000269470081107173, 'epoch': 0.49}
+{'loss': 1.4426, 'grad_norm': 0.11110154539346695, 'learning_rate': 0.0002692633657005914, 'epoch': 0.49}
+{'loss': 1.4592, 'grad_norm': 0.136210635304451, 'learning_rate': 0.0002690566370441296, 'epoch': 0.49}
+{'loss': 1.4478, 'grad_norm': 0.11020412296056747, 'learning_rate': 0.0002688498952799814, 'epoch': 0.49}
+{'loss': 1.4482, 'grad_norm': 0.11915962398052216, 'learning_rate': 0.0002686431405503496, 'epoch': 0.49}
+{'loss': 1.4757, 'grad_norm': 0.12378844618797302, 'learning_rate': 0.00026843637299744585, 'epoch': 0.49}
+{'loss': 1.4495, 'grad_norm': 0.10902010649442673, 'learning_rate': 0.00026822959276349056, 'epoch': 0.49}
+{'loss': 1.4736, 'grad_norm': 0.11724644899368286, 'learning_rate': 0.000268022799990713, 'epoch': 0.49}
+{'loss': 1.4512, 'grad_norm': 0.1227603629231453, 'learning_rate': 0.00026781599482135097, 'epoch': 0.49}
+{'loss': 1.4584, 'grad_norm': 0.09790533035993576, 'learning_rate': 0.00026760917739765096, 'epoch': 0.49}
+{'loss': 1.4251, 'grad_norm': 0.10946708172559738, 'learning_rate': 0.0002674023478618676, 'epoch': 0.49}
+{'loss': 1.4481, 'grad_norm': 0.10307401418685913, 'learning_rate': 0.00026719550635626407, 'epoch': 0.49}
+{'loss': 1.468, 'grad_norm': 0.1140543594956398, 'learning_rate': 0.0002669886530231117, 'epoch': 0.49}
+{'loss': 1.4409, 'grad_norm': 0.11009885370731354, 'learning_rate': 0.0002667817880046901, 'epoch': 0.49}
+{'loss': 1.4457, 'grad_norm': 0.1181577667593956, 'learning_rate': 0.00026657491144328673, 'epoch': 0.49}
+{'loss': 1.4457, 'grad_norm': 0.10419342666864395, 'learning_rate': 0.00026636802348119687, 'epoch': 0.49}
+{'loss': 1.4481, 'grad_norm': 0.09563244134187698, 'learning_rate': 0.0002661611242607242, 'epoch': 0.5}
+{'loss': 1.4712, 'grad_norm': 0.11331411451101303, 'learning_rate': 0.00026595421392417947, 'epoch': 0.5}
+{'loss': 1.461, 'grad_norm': 0.10777884721755981, 'learning_rate': 0.0002657472926138815, 'epoch': 0.5}
+{'loss': 1.4627, 'grad_norm': 0.10447848588228226, 'learning_rate': 0.0002655403604721565, 'epoch': 0.5}
+{'loss': 1.4668, 'grad_norm': 0.12182207405567169, 'learning_rate': 0.0002653334176413382, 'epoch': 0.5}
+{'loss': 1.4792, 'grad_norm': 0.1041194349527359, 'learning_rate': 0.00026512646426376775, 'epoch': 0.5}
+{'loss': 1.438, 'grad_norm': 0.1295718401670456, 'learning_rate': 0.0002649195004817932, 'epoch': 0.5}
+{'loss': 1.4455, 'grad_norm': 0.11556388437747955, 'learning_rate': 0.00026471252643777023, 'epoch': 0.5}
+{'loss': 1.442, 'grad_norm': 0.10359255969524384, 'learning_rate': 0.0002645055422740612, 'epoch': 0.5}
+{'loss': 1.4592, 'grad_norm': 0.11149696260690689, 'learning_rate': 0.00026429854813303576, 'epoch': 0.5}
+{'loss': 1.4681, 'grad_norm': 0.12611982226371765, 'learning_rate': 0.00026409154415707014, 'epoch': 0.5}
+{'loss': 1.4386, 'grad_norm': 0.11754612624645233, 'learning_rate': 0.0002638845304885475, 'epoch': 0.5}
+{'loss': 1.4427, 'grad_norm': 0.10542648285627365, 'learning_rate': 0.00026367750726985755, 'epoch': 0.5}
+{'loss': 1.4477, 'grad_norm': 0.12983086705207825, 'learning_rate': 0.00026347047464339666, 'epoch': 0.5}
+{'loss': 1.4494, 'grad_norm': 0.11224666982889175, 'learning_rate': 0.0002632634327515677, 'epoch': 0.5}
+{'loss': 1.4843, 'grad_norm': 0.1485902965068817, 'learning_rate': 0.0002630563817367798, 'epoch': 0.5}
+{'loss': 1.4678, 'grad_norm': 0.11363953351974487, 'learning_rate': 0.00026284932174144843, 'epoch': 0.5}
+{'loss': 1.4441, 'grad_norm': 0.11083590984344482, 'learning_rate': 0.0002626422529079953, 'epoch': 0.5}
+{'loss': 1.4663, 'grad_norm': 0.11646002531051636, 'learning_rate': 0.000262435175378848, 'epoch': 0.5}
+{'loss': 1.4407, 'grad_norm': 0.1415865421295166, 'learning_rate': 0.0002622280892964403, 'epoch': 0.5}
+{'loss': 1.4598, 'grad_norm': 0.12493574619293213, 'learning_rate': 0.0002620209948032117, 'epoch': 0.5}
+{'loss': 1.4517, 'grad_norm': 0.1282520890235901, 'learning_rate': 0.00026181389204160774, 'epoch': 0.5}
+{'loss': 1.4836, 'grad_norm': 0.12834636867046356, 'learning_rate': 0.0002616067811540793, 'epoch': 0.5}
+{'loss': 1.4725, 'grad_norm': 0.11517532169818878, 'learning_rate': 0.00026139966228308313, 'epoch': 0.5}
+{'loss': 1.4767, 'grad_norm': 0.1297631561756134, 'learning_rate': 0.0002611925355710814, 'epoch': 0.5}
+{'loss': 1.4668, 'grad_norm': 0.1371462345123291, 'learning_rate': 0.00026098540116054156, 'epoch': 0.5}
+{'loss': 1.4536, 'grad_norm': 0.1255711019039154, 'learning_rate': 0.00026077825919393636, 'epoch': 0.5}
+{'loss': 1.4692, 'grad_norm': 0.12010937929153442, 'learning_rate': 0.000260571109813744, 'epoch': 0.5}
+{'loss': 1.4624, 'grad_norm': 0.11130768805742264, 'learning_rate': 0.00026036395316244746, 'epoch': 0.5}
+{'loss': 1.4543, 'grad_norm': 0.12106098234653473, 'learning_rate': 0.000260156789382535, 'epoch': 0.5}
+{'loss': 1.454, 'grad_norm': 0.11066529154777527, 'learning_rate': 0.00025994961861649943, 'epoch': 0.5}
+{'loss': 1.4491, 'grad_norm': 0.11263557523488998, 'learning_rate': 0.00025974244100683883, 'epoch': 0.5}
+{'loss': 1.4362, 'grad_norm': 0.13729450106620789, 'learning_rate': 0.0002595352566960555, 'epoch': 0.5}
+{'loss': 1.4777, 'grad_norm': 0.13071203231811523, 'learning_rate': 0.0002593280658266568, 'epoch': 0.5}
+{'loss': 1.4522, 'grad_norm': 0.12204509973526001, 'learning_rate': 0.0002591208685411542, 'epoch': 0.5}
+{'loss': 1.4622, 'grad_norm': 0.1316479593515396, 'learning_rate': 0.0002589136649820639, 'epoch': 0.5}
+{'loss': 1.4529, 'grad_norm': 0.13337358832359314, 'learning_rate': 0.0002587064552919063, 'epoch': 0.5}
+{'loss': 1.4659, 'grad_norm': 0.12200524657964706, 'learning_rate': 0.00025849923961320594, 'epoch': 0.5}
+{'loss': 1.464, 'grad_norm': 0.12189497798681259, 'learning_rate': 0.0002582920180884915, 'epoch': 0.5}
+{'loss': 1.4483, 'grad_norm': 0.125234916806221, 'learning_rate': 0.00025808479086029577, 'epoch': 0.51}
+{'loss': 1.4617, 'grad_norm': 0.12175776064395905, 'learning_rate': 0.0002578775580711555, 'epoch': 0.51}
+{'loss': 1.4597, 'grad_norm': 0.13626061379909515, 'learning_rate': 0.00025767031986361107, 'epoch': 0.51}
+{'loss': 1.4416, 'grad_norm': 0.12925411760807037, 'learning_rate': 0.00025746307638020667, 'epoch': 0.51}
+{'loss': 1.4419, 'grad_norm': 0.12891803681850433, 'learning_rate': 0.0002572558277634903, 'epoch': 0.51}
+{'loss': 1.4588, 'grad_norm': 0.11999442428350449, 'learning_rate': 0.0002570485741560132, 'epoch': 0.51}
+{'loss': 1.4512, 'grad_norm': 0.13602367043495178, 'learning_rate': 0.00025684131570033025, 'epoch': 0.51}
+{'loss': 1.4473, 'grad_norm': 0.10835288465023041, 'learning_rate': 0.0002566340525389995, 'epoch': 0.51}
+{'loss': 1.463, 'grad_norm': 0.12184549868106842, 'learning_rate': 0.00025642678481458254, 'epoch': 0.51}
+{'loss': 1.4372, 'grad_norm': 0.12961553037166595, 'learning_rate': 0.0002562195126696438, 'epoch': 0.51}
+{'loss': 1.4649, 'grad_norm': 0.09949029237031937, 'learning_rate': 0.00025601223624675064, 'epoch': 0.51}
+{'loss': 1.455, 'grad_norm': 0.12345213443040848, 'learning_rate': 0.00025580495568847377, 'epoch': 0.51}
+{'loss': 1.4537, 'grad_norm': 0.12350154668092728, 'learning_rate': 0.0002555976711373865, 'epoch': 0.51}
+{'loss': 1.4668, 'grad_norm': 0.11105478554964066, 'learning_rate': 0.000255390382736065, 'epoch': 0.51}
+{'loss': 1.4606, 'grad_norm': 0.10808158665895462, 'learning_rate': 0.0002551830906270878, 'epoch': 0.51}
+{'loss': 1.4483, 'grad_norm': 0.11307930946350098, 'learning_rate': 0.00025497579495303635, 'epoch': 0.51}
+{'loss': 1.4735, 'grad_norm': 0.11254294961690903, 'learning_rate': 0.0002547684958564945, 'epoch': 0.51}
+{'loss': 1.4444, 'grad_norm': 0.1247953251004219, 'learning_rate': 0.00025456119348004805, 'epoch': 0.51}
+{'loss': 1.4559, 'grad_norm': 0.12163590639829636, 'learning_rate': 0.0002543538879662856, 'epoch': 0.51}
+{'loss': 1.4701, 'grad_norm': 0.09988299012184143, 'learning_rate': 0.00025414657945779757, 'epoch': 0.51}
+{'loss': 1.4649, 'grad_norm': 0.12608113884925842, 'learning_rate': 0.0002539392680971766, 'epoch': 0.51}
+{'loss': 1.4411, 'grad_norm': 0.10338898003101349, 'learning_rate': 0.0002537319540270172, 'epoch': 0.51}
+{'loss': 1.4393, 'grad_norm': 0.1124231219291687, 'learning_rate': 0.0002535246373899156, 'epoch': 0.51}
+{'loss': 1.4576, 'grad_norm': 0.10854896157979965, 'learning_rate': 0.0002533173183284703, 'epoch': 0.51}
+{'loss': 1.4635, 'grad_norm': 0.10869329422712326, 'learning_rate': 0.00025310999698528074, 'epoch': 0.51}
+{'loss': 1.4503, 'grad_norm': 0.10072045773267746, 'learning_rate': 0.0002529026735029487, 'epoch': 0.51}
+{'loss': 1.4678, 'grad_norm': 0.1000504344701767, 'learning_rate': 0.0002526953480240767, 'epoch': 0.51}
+{'loss': 1.4616, 'grad_norm': 0.1246083527803421, 'learning_rate': 0.0002524880206912694, 'epoch': 0.51}
+{'loss': 1.4505, 'grad_norm': 0.11038616299629211, 'learning_rate': 0.00025228069164713195, 'epoch': 0.51}
+{'loss': 1.4452, 'grad_norm': 0.1024060994386673, 'learning_rate': 0.0002520733610342712, 'epoch': 0.51}
+{'loss': 1.4545, 'grad_norm': 0.11090441793203354, 'learning_rate': 0.0002518660289952949, 'epoch': 0.51}
+{'loss': 1.4533, 'grad_norm': 0.11045932024717331, 'learning_rate': 0.00025165869567281176, 'epoch': 0.51}
+{'loss': 1.4594, 'grad_norm': 0.10112316161394119, 'learning_rate': 0.0002514513612094316, 'epoch': 0.51}
+{'loss': 1.4731, 'grad_norm': 0.10969167947769165, 'learning_rate': 0.0002512440257477646, 'epoch': 0.51}
+{'loss': 1.4491, 'grad_norm': 0.10551450401544571, 'learning_rate': 0.0002510366894304221, 'epoch': 0.51}
+{'loss': 1.4427, 'grad_norm': 0.11297310888767242, 'learning_rate': 0.00025082935240001563, 'epoch': 0.51}
+{'loss': 1.4519, 'grad_norm': 0.11065898835659027, 'learning_rate': 0.00025062201479915755, 'epoch': 0.51}
+{'loss': 1.4383, 'grad_norm': 0.10567706823348999, 'learning_rate': 0.0002504146767704602, 'epoch': 0.51}
+{'loss': 1.4627, 'grad_norm': 0.09643366187810898, 'learning_rate': 0.0002502073384565366, 'epoch': 0.51}
+{'loss': 1.4455, 'grad_norm': 0.11535981297492981, 'learning_rate': 0.00025, 'epoch': 0.52}
+{'loss': 1.4697, 'grad_norm': 0.10068891197443008, 'learning_rate': 0.0002497926615434634, 'epoch': 0.52}
+{'loss': 1.4578, 'grad_norm': 0.10896666347980499, 'learning_rate': 0.00024958532322953984, 'epoch': 0.52}
+{'loss': 1.4638, 'grad_norm': 0.1260269582271576, 'learning_rate': 0.00024937798520084246, 'epoch': 0.52}
+{'loss': 1.4618, 'grad_norm': 0.10897202044725418, 'learning_rate': 0.0002491706475999844, 'epoch': 0.52}
+{'loss': 1.458, 'grad_norm': 0.10415951162576675, 'learning_rate': 0.00024896331056957797, 'epoch': 0.52}
+{'loss': 1.4542, 'grad_norm': 0.10234013199806213, 'learning_rate': 0.00024875597425223544, 'epoch': 0.52}
+{'loss': 1.4643, 'grad_norm': 0.1116122454404831, 'learning_rate': 0.00024854863879056853, 'epoch': 0.52}
+{'loss': 1.4497, 'grad_norm': 0.09816662967205048, 'learning_rate': 0.00024834130432718825, 'epoch': 0.52}
+{'loss': 1.4252, 'grad_norm': 0.10268128663301468, 'learning_rate': 0.0002481339710047052, 'epoch': 0.52}
+{'loss': 1.4378, 'grad_norm': 0.11218131333589554, 'learning_rate': 0.0002479266389657289, 'epoch': 0.52}
+{'loss': 1.4449, 'grad_norm': 0.10704636573791504, 'learning_rate': 0.0002477193083528682, 'epoch': 0.52}
+{'loss': 1.484, 'grad_norm': 0.09766968339681625, 'learning_rate': 0.00024751197930873063, 'epoch': 0.52}
+{'loss': 1.4376, 'grad_norm': 0.11374949663877487, 'learning_rate': 0.00024730465197592323, 'epoch': 0.52}
+{'loss': 1.4741, 'grad_norm': 0.13125388324260712, 'learning_rate': 0.00024709732649705134, 'epoch': 0.52}
+{'loss': 1.4392, 'grad_norm': 0.11534889787435532, 'learning_rate': 0.00024689000301471927, 'epoch': 0.52}
+{'loss': 1.4389, 'grad_norm': 0.10294435173273087, 'learning_rate': 0.00024668268167152985, 'epoch': 0.52}
+{'loss': 1.447, 'grad_norm': 0.11636148393154144, 'learning_rate': 0.0002464753626100844, 'epoch': 0.52}
+{'loss': 1.4588, 'grad_norm': 0.11493472754955292, 'learning_rate': 0.00024626804597298286, 'epoch': 0.52}
+{'loss': 1.4473, 'grad_norm': 0.12061066925525665, 'learning_rate': 0.00024606073190282343, 'epoch': 0.52}
+{'loss': 1.4471, 'grad_norm': 0.14024488627910614, 'learning_rate': 0.0002458534205422025, 'epoch': 0.52}
+{'loss': 1.4354, 'grad_norm': 0.11866376549005508, 'learning_rate': 0.00024564611203371447, 'epoch': 0.52}
+{'loss': 1.4498, 'grad_norm': 0.1257811039686203, 'learning_rate': 0.00024543880651995196, 'epoch': 0.52}
+{'loss': 1.4444, 'grad_norm': 0.13196027278900146, 'learning_rate': 0.0002452315041435056, 'epoch': 0.52}
+{'loss': 1.4417, 'grad_norm': 0.11190930008888245, 'learning_rate': 0.00024502420504696367, 'epoch': 0.52}
+{'loss': 1.4492, 'grad_norm': 0.14364853501319885, 'learning_rate': 0.0002448169093729122, 'epoch': 0.52}
+{'loss': 1.4348, 'grad_norm': 0.13929474353790283, 'learning_rate': 0.00024460961726393513, 'epoch': 0.52}
+{'loss': 1.4313, 'grad_norm': 0.1260954737663269, 'learning_rate': 0.0002444023288626135, 'epoch': 0.52}
+{'loss': 1.4625, 'grad_norm': 0.13860252499580383, 'learning_rate': 0.0002441950443115263, 'epoch': 0.52}
+{'loss': 1.4376, 'grad_norm': 0.11755421757698059, 'learning_rate': 0.0002439877637532494, 'epoch': 0.52}
+{'loss': 1.4482, 'grad_norm': 0.13892856240272522, 'learning_rate': 0.00024378048733035635, 'epoch': 0.52}
+{'loss': 1.438, 'grad_norm': 0.1086435616016388, 'learning_rate': 0.0002435732151854174, 'epoch': 0.52}
+{'loss': 1.4607, 'grad_norm': 0.10580373555421829, 'learning_rate': 0.00024336594746100044, 'epoch': 0.52}
+{'loss': 1.4463, 'grad_norm': 0.12471795082092285, 'learning_rate': 0.00024315868429966982, 'epoch': 0.52}
+{'loss': 1.4379, 'grad_norm': 0.11086845397949219, 'learning_rate': 0.00024295142584398682, 'epoch': 0.52}
+{'loss': 1.4701, 'grad_norm': 0.11727293580770493, 'learning_rate': 0.00024274417223650978, 'epoch': 0.52}
+{'loss': 1.4349, 'grad_norm': 0.11054590344429016, 'learning_rate': 0.0002425369236197933, 'epoch': 0.52}
+{'loss': 1.464, 'grad_norm': 0.09778326004743576, 'learning_rate': 0.000242329680136389, 'epoch': 0.52}
+{'loss': 1.4353, 'grad_norm': 0.11030152440071106, 'learning_rate': 0.00024212244192884454, 'epoch': 0.52}
+{'loss': 1.4364, 'grad_norm': 0.12257514148950577, 'learning_rate': 0.00024191520913970427, 'epoch': 0.53}
+{'loss': 1.4475, 'grad_norm': 0.11348158866167068, 'learning_rate': 0.0002417079819115086, 'epoch': 0.53}
+{'loss': 1.449, 'grad_norm': 0.11895382404327393, 'learning_rate': 0.0002415007603867941, 'epoch': 0.53}
+{'loss': 1.4736, 'grad_norm': 0.09910108894109726, 'learning_rate': 0.0002412935447080937, 'epoch': 0.53}
+{'loss': 1.4303, 'grad_norm': 0.10463014990091324, 'learning_rate': 0.0002410863350179361, 'epoch': 0.53}
+{'loss': 1.4496, 'grad_norm': 0.11502979695796967, 'learning_rate': 0.00024087913145884584, 'epoch': 0.53}
+{'loss': 1.4444, 'grad_norm': 0.11185754090547562, 'learning_rate': 0.00024067193417334328, 'epoch': 0.53}
+{'loss': 1.4155, 'grad_norm': 0.0954200029373169, 'learning_rate': 0.00024046474330394446, 'epoch': 0.53}
+{'loss': 1.4392, 'grad_norm': 0.10099440068006516, 'learning_rate': 0.00024025755899316124, 'epoch': 0.53}
+{'loss': 1.447, 'grad_norm': 0.11607634276151657, 'learning_rate': 0.0002400503813835006, 'epoch': 0.53}
+{'loss': 1.4559, 'grad_norm': 0.10953345149755478, 'learning_rate': 0.0002398432106174651, 'epoch': 0.53}
+{'loss': 1.4442, 'grad_norm': 0.10447607934474945, 'learning_rate': 0.0002396360468375525, 'epoch': 0.53}
+{'loss': 1.4548, 'grad_norm': 0.10662615299224854, 'learning_rate': 0.00023942889018625603, 'epoch': 0.53}
+{'loss': 1.4706, 'grad_norm': 0.109791599214077, 'learning_rate': 0.00023922174080606365, 'epoch': 0.53}
+{'loss': 1.4434, 'grad_norm': 0.1113421693444252, 'learning_rate': 0.0002390145988394585, 'epoch': 0.53}
+{'loss': 1.4614, 'grad_norm': 0.11412521451711655, 'learning_rate': 0.00023880746442891864, 'epoch': 0.53}
+{'loss': 1.4658, 'grad_norm': 0.10506068170070648, 'learning_rate': 0.0002386003377169168, 'epoch': 0.53}
+{'loss': 1.4502, 'grad_norm': 0.11573980003595352, 'learning_rate': 0.00023839321884592068, 'epoch': 0.53}
+{'loss': 1.4407, 'grad_norm': 0.10284097492694855, 'learning_rate': 0.0002381861079583923, 'epoch': 0.53}
+{'loss': 1.4433, 'grad_norm': 0.11477784812450409, 'learning_rate': 0.00023797900519678835, 'epoch': 0.53}
+{'loss': 1.442, 'grad_norm': 0.12424882501363754, 'learning_rate': 0.00023777191070355983, 'epoch': 0.53}
+{'loss': 1.4455, 'grad_norm': 0.1207742840051651, 'learning_rate': 0.00023756482462115205, 'epoch': 0.53}
+{'loss': 1.4453, 'grad_norm': 0.09639076888561249, 'learning_rate': 0.00023735774709200474, 'epoch': 0.53}
+{'loss': 1.4505, 'grad_norm': 0.11824692040681839, 'learning_rate': 0.00023715067825855158, 'epoch': 0.53}
+{'loss': 1.463, 'grad_norm': 0.13559605181217194, 'learning_rate': 0.00023694361826322025, 'epoch': 0.53}
+{'loss': 1.4473, 'grad_norm': 0.09305370599031448, 'learning_rate': 0.00023673656724843234, 'epoch': 0.53}
+{'loss': 1.4688, 'grad_norm': 0.12688703835010529, 'learning_rate': 0.0002365295253566033, 'epoch': 0.53}
+{'loss': 1.4597, 'grad_norm': 0.13288362324237823, 'learning_rate': 0.00023632249273014249, 'epoch': 0.53}
+{'loss': 1.4569, 'grad_norm': 0.10645205527544022, 'learning_rate': 0.00023611546951145257, 'epoch': 0.53}
+{'loss': 1.4386, 'grad_norm': 0.14751210808753967, 'learning_rate': 0.0002359084558429299, 'epoch': 0.53}
+{'loss': 1.4741, 'grad_norm': 0.10937558859586716, 'learning_rate': 0.0002357014518669643, 'epoch': 0.53}
+{'loss': 1.4499, 'grad_norm': 0.09912362694740295, 'learning_rate': 0.00023549445772593877, 'epoch': 0.53}
+{'loss': 1.4325, 'grad_norm': 0.15275266766548157, 'learning_rate': 0.00023528747356222986, 'epoch': 0.53}
+{'loss': 1.4557, 'grad_norm': 0.13111993670463562, 'learning_rate': 0.0002350804995182068, 'epoch': 0.53}
+{'loss': 1.4405, 'grad_norm': 0.1086554229259491, 'learning_rate': 0.00023487353573623234, 'epoch': 0.53}
+{'loss': 1.4564, 'grad_norm': 0.13098059594631195, 'learning_rate': 0.00023466658235866175, 'epoch': 0.53}
+{'loss': 1.4571, 'grad_norm': 0.12254171073436737, 'learning_rate': 0.00023445963952784348, 'epoch': 0.53}
+{'loss': 1.4477, 'grad_norm': 0.11035364121198654, 'learning_rate': 0.00023425270738611852, 'epoch': 0.53}
+{'loss': 1.4639, 'grad_norm': 0.10885145515203476, 'learning_rate': 0.0002340457860758206, 'epoch': 0.53}
+{'loss': 1.4978, 'grad_norm': 0.12793144583702087, 'learning_rate': 0.00023383887573927593, 'epoch': 0.54}
+{'loss': 1.4577, 'grad_norm': 0.10718869417905807, 'learning_rate': 0.0002336319765188031, 'epoch': 0.54}
+{'loss': 1.4526, 'grad_norm': 0.12084412574768066, 'learning_rate': 0.0002334250885567133, 'epoch': 0.54}
+{'loss': 1.4508, 'grad_norm': 0.11719755828380585, 'learning_rate': 0.00023321821199530994, 'epoch': 0.54}
+{'loss': 1.4569, 'grad_norm': 0.1150481253862381, 'learning_rate': 0.00023301134697688834, 'epoch': 0.54}
+{'loss': 1.4527, 'grad_norm': 0.11540792882442474, 'learning_rate': 0.000232804493643736, 'epoch': 0.54}
+{'loss': 1.4674, 'grad_norm': 0.1334664523601532, 'learning_rate': 0.00023259765213813245, 'epoch': 0.54}
+{'loss': 1.4519, 'grad_norm': 0.09932995587587357, 'learning_rate': 0.0002323908226023491, 'epoch': 0.54}
+{'loss': 1.461, 'grad_norm': 0.0970761850476265, 'learning_rate': 0.00023218400517864904, 'epoch': 0.54}
+{'loss': 1.4476, 'grad_norm': 0.11420638859272003, 'learning_rate': 0.00023197720000928704, 'epoch': 0.54}
+{'loss': 1.4668, 'grad_norm': 0.10299664735794067, 'learning_rate': 0.00023177040723650953, 'epoch': 0.54}
+{'loss': 1.4731, 'grad_norm': 0.11020844429731369, 'learning_rate': 0.00023156362700255418, 'epoch': 0.54}
+{'loss': 1.4587, 'grad_norm': 0.10134319216012955, 'learning_rate': 0.00023135685944965044, 'epoch': 0.54}
+{'loss': 1.4473, 'grad_norm': 0.10967420041561127, 'learning_rate': 0.00023115010472001866, 'epoch': 0.54}
+{'loss': 1.4395, 'grad_norm': 0.14183726906776428, 'learning_rate': 0.00023094336295587047, 'epoch': 0.54}
+{'loss': 1.4659, 'grad_norm': 0.116950124502182, 'learning_rate': 0.00023073663429940862, 'epoch': 0.54}
+{'loss': 1.4751, 'grad_norm': 0.10119268298149109, 'learning_rate': 0.00023052991889282702, 'epoch': 0.54}
+{'loss': 1.4627, 'grad_norm': 0.12934058904647827, 'learning_rate': 0.00023032321687831015, 'epoch': 0.54}
+{'loss': 1.4482, 'grad_norm': 0.11357424408197403, 'learning_rate': 0.0002301165283980334, 'epoch': 0.54}
+{'loss': 1.4598, 'grad_norm': 0.1027766689658165, 'learning_rate': 0.00022990985359416297, 'epoch': 0.54}
+{'loss': 1.4369, 'grad_norm': 0.13240155577659607, 'learning_rate': 0.0002297031926088554, 'epoch': 0.54}
+{'loss': 1.461, 'grad_norm': 0.1146165132522583, 'learning_rate': 0.00022949654558425807, 'epoch': 0.54}
+{'loss': 1.4609, 'grad_norm': 0.12557396292686462, 'learning_rate': 0.00022928991266250843, 'epoch': 0.54}
+{'loss': 1.4603, 'grad_norm': 0.14000070095062256, 'learning_rate': 0.00022908329398573443, 'epoch': 0.54}
+{'loss': 1.4377, 'grad_norm': 0.10855478048324585, 'learning_rate': 0.00022887668969605416, 'epoch': 0.54}
+{'loss': 1.452, 'grad_norm': 0.1507720947265625, 'learning_rate': 0.00022867009993557567, 'epoch': 0.54}
+{'loss': 1.4721, 'grad_norm': 0.11475689709186554, 'learning_rate': 0.00022846352484639734, 'epoch': 0.54}
+{'loss': 1.4459, 'grad_norm': 0.13441355526447296, 'learning_rate': 0.00022825696457060726, 'epoch': 0.54}
+{'loss': 1.429, 'grad_norm': 0.12981708347797394, 'learning_rate': 0.0002280504192502833, 'epoch': 0.54}
+{'loss': 1.4409, 'grad_norm': 0.10222181677818298, 'learning_rate': 0.00022784388902749304, 'epoch': 0.54}
+{'loss': 1.4471, 'grad_norm': 0.13222616910934448, 'learning_rate': 0.00022763737404429374, 'epoch': 0.54}
+{'loss': 1.4524, 'grad_norm': 0.11626973748207092, 'learning_rate': 0.00022743087444273232, 'epoch': 0.54}
+{'loss': 1.4475, 'grad_norm': 0.11141326278448105, 'learning_rate': 0.0002272243903648448, 'epoch': 0.54}
+{'loss': 1.4744, 'grad_norm': 0.13536939024925232, 'learning_rate': 0.0002270179219526567, 'epoch': 0.54}
+{'loss': 1.4674, 'grad_norm': 0.10151654481887817, 'learning_rate': 0.00022681146934818276, 'epoch': 0.54}
+{'loss': 1.4232, 'grad_norm': 0.13766728341579437, 'learning_rate': 0.00022660503269342693, 'epoch': 0.54}
+{'loss': 1.4425, 'grad_norm': 0.12025555968284607, 'learning_rate': 0.00022639861213038208, 'epoch': 0.54}
+{'loss': 1.4313, 'grad_norm': 0.11470950394868851, 'learning_rate': 0.0002261922078010299, 'epoch': 0.54}
+{'loss': 1.4571, 'grad_norm': 0.1197364330291748, 'learning_rate': 0.00022598581984734122, 'epoch': 0.54}
+{'loss': 1.4553, 'grad_norm': 0.11251615732908249, 'learning_rate': 0.0002257794484112752, 'epoch': 0.55}
+{'loss': 1.4244, 'grad_norm': 0.10327049344778061, 'learning_rate': 0.0002255730936347801, 'epoch': 0.55}
+{'loss': 1.4417, 'grad_norm': 0.1377667784690857, 'learning_rate': 0.00022536675565979237, 'epoch': 0.55}
+{'loss': 1.4472, 'grad_norm': 0.11456519365310669, 'learning_rate': 0.00022516043462823707, 'epoch': 0.55}
+{'loss': 1.4469, 'grad_norm': 0.13227176666259766, 'learning_rate': 0.0002249541306820276, 'epoch': 0.55}
+{'loss': 1.4576, 'grad_norm': 0.11506114155054092, 'learning_rate': 0.00022474784396306534, 'epoch': 0.55}
+{'loss': 1.4406, 'grad_norm': 0.10338598489761353, 'learning_rate': 0.00022454157461324027, 'epoch': 0.55}
+{'loss': 1.4506, 'grad_norm': 0.11544131487607956, 'learning_rate': 0.00022433532277443022, 'epoch': 0.55}
+{'loss': 1.45, 'grad_norm': 0.11435732990503311, 'learning_rate': 0.0002241290885885009, 'epoch': 0.55}
+{'loss': 1.4585, 'grad_norm': 0.11372564733028412, 'learning_rate': 0.00022392287219730585, 'epoch': 0.55}
+{'loss': 1.4639, 'grad_norm': 0.12277381867170334, 'learning_rate': 0.00022371667374268645, 'epoch': 0.55}
+{'loss': 1.4612, 'grad_norm': 0.11443986743688583, 'learning_rate': 0.00022351049336647192, 'epoch': 0.55}
+{'loss': 1.4618, 'grad_norm': 0.10871852189302444, 'learning_rate': 0.0002233043312104788, 'epoch': 0.55}
+{'loss': 1.4535, 'grad_norm': 0.11892225593328476, 'learning_rate': 0.00022309818741651105, 'epoch': 0.55}
+{'loss': 1.4569, 'grad_norm': 0.11386600881814957, 'learning_rate': 0.00022289206212636022, 'epoch': 0.55}
+{'loss': 1.4367, 'grad_norm': 0.11157631874084473, 'learning_rate': 0.00022268595548180509, 'epoch': 0.55}
+{'loss': 1.4582, 'grad_norm': 0.11112193018198013, 'learning_rate': 0.0002224798676246115, 'epoch': 0.55}
+{'loss': 1.4349, 'grad_norm': 0.11647550761699677, 'learning_rate': 0.00022227379869653235, 'epoch': 0.55}
+{'loss': 1.4545, 'grad_norm': 0.1293669492006302, 'learning_rate': 0.00022206774883930773, 'epoch': 0.55}
+{'loss': 1.4513, 'grad_norm': 0.12413035333156586, 'learning_rate': 0.0002218617181946643, 'epoch': 0.55}
+{'loss': 1.4614, 'grad_norm': 0.13358397781848907, 'learning_rate': 0.00022165570690431592, 'epoch': 0.55}
+{'loss': 1.4621, 'grad_norm': 0.13433608412742615, 'learning_rate': 0.0002214497151099627, 'epoch': 0.55}
+{'loss': 1.4788, 'grad_norm': 0.1297166794538498, 'learning_rate': 0.00022124374295329167, 'epoch': 0.55}
+{'loss': 1.4312, 'grad_norm': 0.10896024852991104, 'learning_rate': 0.00022103779057597618, 'epoch': 0.55}
+{'loss': 1.4537, 'grad_norm': 0.1310357302427292, 'learning_rate': 0.00022083185811967588, 'epoch': 0.55}
+{'loss': 1.4385, 'grad_norm': 0.10410825163125992, 'learning_rate': 0.00022062594572603707, 'epoch': 0.55}
+{'loss': 1.4621, 'grad_norm': 0.11174628138542175, 'learning_rate': 0.000220420053536692, 'epoch': 0.55}
+{'loss': 1.4591, 'grad_norm': 0.10782279074192047, 'learning_rate': 0.00022021418169325895, 'epoch': 0.55}
+{'loss': 1.4652, 'grad_norm': 0.11150266230106354, 'learning_rate': 0.00022000833033734239, 'epoch': 0.55}
+{'loss': 1.4246, 'grad_norm': 0.11800900101661682, 'learning_rate': 0.00021980249961053259, 'epoch': 0.55}
+{'loss': 1.4579, 'grad_norm': 0.11676229536533356, 'learning_rate': 0.00021959668965440565, 'epoch': 0.55}
+{'loss': 1.4485, 'grad_norm': 0.11595045030117035, 'learning_rate': 0.00021939090061052352, 'epoch': 0.55}
+{'loss': 1.4437, 'grad_norm': 0.1293066442012787, 'learning_rate': 0.00021918513262043348, 'epoch': 0.55}
+{'loss': 1.453, 'grad_norm': 0.12348312884569168, 'learning_rate': 0.0002189793858256686, 'epoch': 0.55}
+{'loss': 1.475, 'grad_norm': 0.11995711177587509, 'learning_rate': 0.0002187736603677472, 'epoch': 0.55}
+{'loss': 1.4597, 'grad_norm': 0.11484356969594955, 'learning_rate': 0.00021856795638817305, 'epoch': 0.55}
+{'loss': 1.4505, 'grad_norm': 0.11243751645088196, 'learning_rate': 0.00021836227402843508, 'epoch': 0.55}
+{'loss': 1.4398, 'grad_norm': 0.12544910609722137, 'learning_rate': 0.00021815661343000726, 'epoch': 0.55}
+{'loss': 1.4496, 'grad_norm': 0.11459332704544067, 'learning_rate': 0.0002179509747343487, 'epoch': 0.55}
+{'loss': 1.4277, 'grad_norm': 0.12960638105869293, 'learning_rate': 0.0002177453580829036, 'epoch': 0.56}
+{'loss': 1.4653, 'grad_norm': 0.1190590038895607, 'learning_rate': 0.00021753976361710064, 'epoch': 0.56}
+{'loss': 1.4425, 'grad_norm': 0.11032888293266296, 'learning_rate': 0.00021733419147835348, 'epoch': 0.56}
+{'loss': 1.4503, 'grad_norm': 0.11258038133382797, 'learning_rate': 0.00021712864180806042, 'epoch': 0.56}
+{'loss': 1.4325, 'grad_norm': 0.11955157667398453, 'learning_rate': 0.00021692311474760413, 'epoch': 0.56}
+{'loss': 1.4533, 'grad_norm': 0.10618164390325546, 'learning_rate': 0.00021671761043835203, 'epoch': 0.56}
+{'loss': 1.4457, 'grad_norm': 0.1129685491323471, 'learning_rate': 0.00021651212902165556, 'epoch': 0.56}
+{'loss': 1.4645, 'grad_norm': 0.12434519082307816, 'learning_rate': 0.0002163066706388507, 'epoch': 0.56}
+{'loss': 1.4434, 'grad_norm': 0.10982945561408997, 'learning_rate': 0.00021610123543125737, 'epoch': 0.56}
+{'loss': 1.4302, 'grad_norm': 0.1070660874247551, 'learning_rate': 0.00021589582354017957, 'epoch': 0.56}
+{'loss': 1.4326, 'grad_norm': 0.12040967494249344, 'learning_rate': 0.00021569043510690544, 'epoch': 0.56}
+{'loss': 1.4335, 'grad_norm': 0.10236958414316177, 'learning_rate': 0.0002154850702727069, 'epoch': 0.56}
+{'loss': 1.4593, 'grad_norm': 0.10763328522443771, 'learning_rate': 0.0002152797291788396, 'epoch': 0.56}
+{'loss': 1.4391, 'grad_norm': 0.106887586414814, 'learning_rate': 0.00021507441196654266, 'epoch': 0.56}
+{'loss': 1.4582, 'grad_norm': 0.10499220341444016, 'learning_rate': 0.00021486911877703922, 'epoch': 0.56}
+{'loss': 1.4443, 'grad_norm': 0.09792133420705795, 'learning_rate': 0.00021466384975153563, 'epoch': 0.56}
+{'loss': 1.4368, 'grad_norm': 0.1016220673918724, 'learning_rate': 0.0002144586050312216, 'epoch': 0.56}
+{'loss': 1.4403, 'grad_norm': 0.10864277184009552, 'learning_rate': 0.00021425338475727015, 'epoch': 0.56}
+{'loss': 1.4566, 'grad_norm': 0.11951781064271927, 'learning_rate': 0.0002140481890708375, 'epoch': 0.56}
+{'loss': 1.4362, 'grad_norm': 0.10202957689762115, 'learning_rate': 0.0002138430181130631, 'epoch': 0.56}
+{'loss': 1.4319, 'grad_norm': 0.10883087664842606, 'learning_rate': 0.00021363787202506913, 'epoch': 0.56}
+{'loss': 1.4364, 'grad_norm': 0.10453887283802032, 'learning_rate': 0.00021343275094796077, 'epoch': 0.56}
+{'loss': 1.4401, 'grad_norm': 0.11065410077571869, 'learning_rate': 0.00021322765502282615, 'epoch': 0.56}
+{'loss': 1.4295, 'grad_norm': 0.11155970394611359, 'learning_rate': 0.00021302258439073575, 'epoch': 0.56}
+{'loss': 1.4392, 'grad_norm': 0.12777173519134521, 'learning_rate': 0.00021281753919274313, 'epoch': 0.56}
+{'loss': 1.4699, 'grad_norm': 0.11343185603618622, 'learning_rate': 0.0002126125195698839, 'epoch': 0.56}
+{'loss': 1.4504, 'grad_norm': 0.11287100613117218, 'learning_rate': 0.00021240752566317639, 'epoch': 0.56}
+{'loss': 1.4408, 'grad_norm': 0.12350818514823914, 'learning_rate': 0.00021220255761362112, 'epoch': 0.56}
+{'loss': 1.4673, 'grad_norm': 0.11928463727235794, 'learning_rate': 0.00021199761556220064, 'epoch': 0.56}
+{'loss': 1.441, 'grad_norm': 0.10765288025140762, 'learning_rate': 0.00021179269964988, 'epoch': 0.56}
+{'loss': 1.4491, 'grad_norm': 0.12837722897529602, 'learning_rate': 0.00021158781001760614, 'epoch': 0.56}
+{'loss': 1.4667, 'grad_norm': 0.11566022038459778, 'learning_rate': 0.00021138294680630773, 'epoch': 0.56}
+{'loss': 1.4377, 'grad_norm': 0.12053810060024261, 'learning_rate': 0.00021117811015689531, 'epoch': 0.56}
+{'loss': 1.4385, 'grad_norm': 0.1326526403427124, 'learning_rate': 0.00021097330021026145, 'epoch': 0.56}
+{'loss': 1.4611, 'grad_norm': 0.10970477014780045, 'learning_rate': 0.00021076851710728008, 'epoch': 0.56}
+{'loss': 1.4475, 'grad_norm': 0.11374859511852264, 'learning_rate': 0.0002105637609888067, 'epoch': 0.56}
+{'loss': 1.4618, 'grad_norm': 0.1088925302028656, 'learning_rate': 0.0002103590319956782, 'epoch': 0.56}
+{'loss': 1.4308, 'grad_norm': 0.11184895783662796, 'learning_rate': 0.00021015433026871298, 'epoch': 0.56}
+{'loss': 1.4371, 'grad_norm': 0.1322198510169983, 'learning_rate': 0.00020994965594871062, 'epoch': 0.56}
+{'loss': 1.4646, 'grad_norm': 0.10518595576286316, 'learning_rate': 0.00020974500917645184, 'epoch': 0.56}
+{'loss': 1.4578, 'grad_norm': 0.10648886114358902, 'learning_rate': 0.0002095403900926983, 'epoch': 0.57}
+{'loss': 1.4417, 'grad_norm': 0.11521978676319122, 'learning_rate': 0.00020933579883819278, 'epoch': 0.57}
+{'loss': 1.4609, 'grad_norm': 0.1132906973361969, 'learning_rate': 0.00020913123555365876, 'epoch': 0.57}
+{'loss': 1.4633, 'grad_norm': 0.1041414737701416, 'learning_rate': 0.00020892670037980072, 'epoch': 0.57}
+{'loss': 1.4914, 'grad_norm': 0.10562535375356674, 'learning_rate': 0.00020872219345730353, 'epoch': 0.57}
+{'loss': 1.4582, 'grad_norm': 0.1200818195939064, 'learning_rate': 0.00020851771492683285, 'epoch': 0.57}
+{'loss': 1.424, 'grad_norm': 0.11217988282442093, 'learning_rate': 0.00020831326492903472, 'epoch': 0.57}
+{'loss': 1.4815, 'grad_norm': 0.10466248542070389, 'learning_rate': 0.00020810884360453533, 'epoch': 0.57}
+{'loss': 1.4581, 'grad_norm': 0.10321307182312012, 'learning_rate': 0.00020790445109394163, 'epoch': 0.57}
+{'loss': 1.4372, 'grad_norm': 0.10171563178300858, 'learning_rate': 0.00020770008753784043, 'epoch': 0.57}
+{'loss': 1.4497, 'grad_norm': 0.11895827949047089, 'learning_rate': 0.00020749575307679863, 'epoch': 0.57}
+{'loss': 1.4463, 'grad_norm': 0.1055292934179306, 'learning_rate': 0.00020729144785136316, 'epoch': 0.57}
+{'loss': 1.4469, 'grad_norm': 0.1026504635810852, 'learning_rate': 0.0002070871720020609, 'epoch': 0.57}
+{'loss': 1.4365, 'grad_norm': 0.11710768938064575, 'learning_rate': 0.00020688292566939842, 'epoch': 0.57}
+{'loss': 1.4504, 'grad_norm': 0.10744116455316544, 'learning_rate': 0.00020667870899386214, 'epoch': 0.57}
+{'loss': 1.4358, 'grad_norm': 0.11744392663240433, 'learning_rate': 0.00020647452211591789, 'epoch': 0.57}
+{'loss': 1.4569, 'grad_norm': 0.10525279492139816, 'learning_rate': 0.0002062703651760111, 'epoch': 0.57}
+{'loss': 1.4467, 'grad_norm': 0.1064116433262825, 'learning_rate': 0.00020606623831456668, 'epoch': 0.57}
+{'loss': 1.4636, 'grad_norm': 0.10990399122238159, 'learning_rate': 0.00020586214167198877, 'epoch': 0.57}
+{'loss': 1.4543, 'grad_norm': 0.09698259085416794, 'learning_rate': 0.0002056580753886607, 'epoch': 0.57}
+{'loss': 1.4388, 'grad_norm': 0.1063394844532013, 'learning_rate': 0.0002054540396049449, 'epoch': 0.57}
+{'loss': 1.4656, 'grad_norm': 0.10822702944278717, 'learning_rate': 0.00020525003446118288, 'epoch': 0.57}
+{'loss': 1.4542, 'grad_norm': 0.10869058221578598, 'learning_rate': 0.00020504606009769523, 'epoch': 0.57}
+{'loss': 1.4462, 'grad_norm': 0.11171285063028336, 'learning_rate': 0.00020484211665478102, 'epoch': 0.57}
+{'loss': 1.4687, 'grad_norm': 0.10874301195144653, 'learning_rate': 0.0002046382042727183, 'epoch': 0.57}
+{'loss': 1.4511, 'grad_norm': 0.09654740244150162, 'learning_rate': 0.00020443432309176374, 'epoch': 0.57}
+{'loss': 1.4376, 'grad_norm': 0.09600184112787247, 'learning_rate': 0.00020423047325215235, 'epoch': 0.57}
+{'loss': 1.424, 'grad_norm': 0.10111554712057114, 'learning_rate': 0.00020402665489409796, 'epoch': 0.57}
+{'loss': 1.4505, 'grad_norm': 0.10451100021600723, 'learning_rate': 0.00020382286815779233, 'epoch': 0.57}
+{'loss': 1.464, 'grad_norm': 0.10823896527290344, 'learning_rate': 0.0002036191131834058, 'epoch': 0.57}
+{'loss': 1.4637, 'grad_norm': 0.1023118793964386, 'learning_rate': 0.00020341539011108667, 'epoch': 0.57}
+{'loss': 1.4489, 'grad_norm': 0.10586915165185928, 'learning_rate': 0.0002032116990809612, 'epoch': 0.57}
+{'loss': 1.4494, 'grad_norm': 0.10801669955253601, 'learning_rate': 0.00020300804023313395, 'epoch': 0.57}
+{'loss': 1.4361, 'grad_norm': 0.1139831393957138, 'learning_rate': 0.00020280441370768717, 'epoch': 0.57}
+{'loss': 1.4532, 'grad_norm': 0.12148971110582352, 'learning_rate': 0.0002026008196446808, 'epoch': 0.57}
+{'loss': 1.4427, 'grad_norm': 0.12818008661270142, 'learning_rate': 0.0002023972581841524, 'epoch': 0.57}
+{'loss': 1.4541, 'grad_norm': 0.10624103248119354, 'learning_rate': 0.0002021937294661174, 'epoch': 0.57}
+{'loss': 1.4149, 'grad_norm': 0.13791629672050476, 'learning_rate': 0.0002019902336305685, 'epoch': 0.57}
+{'loss': 1.46, 'grad_norm': 0.11732053756713867, 'learning_rate': 0.00020178677081747573, 'epoch': 0.57}
+{'loss': 1.4587, 'grad_norm': 0.10422999411821365, 'learning_rate': 0.0002015833411667865, 'epoch': 0.58}
+{'loss': 1.4537, 'grad_norm': 0.12825973331928253, 'learning_rate': 0.00020137994481842536, 'epoch': 0.58}
+{'loss': 1.4658, 'grad_norm': 0.11777134984731674, 'learning_rate': 0.0002011765819122942, 'epoch': 0.58}
+{'loss': 1.4551, 'grad_norm': 0.12722459435462952, 'learning_rate': 0.00020097325258827152, 'epoch': 0.58}
+{'loss': 1.4318, 'grad_norm': 0.1283724009990692, 'learning_rate': 0.00020076995698621288, 'epoch': 0.58}
+{'loss': 1.4568, 'grad_norm': 0.10523347556591034, 'learning_rate': 0.0002005666952459507, 'epoch': 0.58}
+{'loss': 1.4242, 'grad_norm': 0.1102033481001854, 'learning_rate': 0.0002003634675072941, 'epoch': 0.58}
+{'loss': 1.4685, 'grad_norm': 0.1431378573179245, 'learning_rate': 0.0002001602739100288, 'epoch': 0.58}
+{'loss': 1.4641, 'grad_norm': 0.1141778826713562, 'learning_rate': 0.00019995711459391697, 'epoch': 0.58}
+{'loss': 1.4455, 'grad_norm': 0.11817990243434906, 'learning_rate': 0.00019975398969869731, 'epoch': 0.58}
+{'loss': 1.4701, 'grad_norm': 0.13176198303699493, 'learning_rate': 0.0001995508993640848, 'epoch': 0.58}
+{'loss': 1.4434, 'grad_norm': 0.10629027336835861, 'learning_rate': 0.00019934784372977043, 'epoch': 0.58}
+{'loss': 1.4584, 'grad_norm': 0.12168247997760773, 'learning_rate': 0.0001991448229354218, 'epoch': 0.58}
+{'loss': 1.47, 'grad_norm': 0.13899889588356018, 'learning_rate': 0.0001989418371206822, 'epoch': 0.58}
+{'loss': 1.42, 'grad_norm': 0.09999706596136093, 'learning_rate': 0.00019873888642517088, 'epoch': 0.58}
+{'loss': 1.4402, 'grad_norm': 0.0933150202035904, 'learning_rate': 0.0001985359709884829, 'epoch': 0.58}
+{'loss': 1.4679, 'grad_norm': 0.12403684109449387, 'learning_rate': 0.00019833309095018933, 'epoch': 0.58}
+{'loss': 1.4516, 'grad_norm': 0.11064396798610687, 'learning_rate': 0.00019813024644983672, 'epoch': 0.58}
+{'loss': 1.438, 'grad_norm': 0.10936421155929565, 'learning_rate': 0.00019792743762694705, 'epoch': 0.58}
+{'loss': 1.4576, 'grad_norm': 0.1090698391199112, 'learning_rate': 0.00019772466462101795, 'epoch': 0.58}
+{'loss': 1.4488, 'grad_norm': 0.11947806924581528, 'learning_rate': 0.00019752192757152226, 'epoch': 0.58}
+{'loss': 1.4345, 'grad_norm': 0.10317773371934891, 'learning_rate': 0.00019731922661790836, 'epoch': 0.58}
+{'loss': 1.4522, 'grad_norm': 0.10929842293262482, 'learning_rate': 0.0001971165618995995, 'epoch': 0.58}
+{'loss': 1.4551, 'grad_norm': 0.11281554400920868, 'learning_rate': 0.00019691393355599407, 'epoch': 0.58}
+{'loss': 1.432, 'grad_norm': 0.10147764533758163, 'learning_rate': 0.00019671134172646564, 'epoch': 0.58}
+{'loss': 1.4566, 'grad_norm': 0.1362754851579666, 'learning_rate': 0.00019650878655036235, 'epoch': 0.58}
+{'loss': 1.426, 'grad_norm': 0.11946803331375122, 'learning_rate': 0.0001963062681670075, 'epoch': 0.58}
+{'loss': 1.4513, 'grad_norm': 0.11416280269622803, 'learning_rate': 0.0001961037867156987, 'epoch': 0.58}
+{'loss': 1.444, 'grad_norm': 0.12056680768728256, 'learning_rate': 0.00019590134233570848, 'epoch': 0.58}
+{'loss': 1.444, 'grad_norm': 0.10320505499839783, 'learning_rate': 0.00019569893516628364, 'epoch': 0.58}
+{'loss': 1.4457, 'grad_norm': 0.10661762952804565, 'learning_rate': 0.0001954965653466454, 'epoch': 0.58}
+{'loss': 1.4641, 'grad_norm': 0.11634916812181473, 'learning_rate': 0.00019529423301598958, 'epoch': 0.58}
+{'loss': 1.4414, 'grad_norm': 0.1004263311624527, 'learning_rate': 0.00019509193831348582, 'epoch': 0.58}
+{'loss': 1.4652, 'grad_norm': 0.11742270737886429, 'learning_rate': 0.0001948896813782782, 'epoch': 0.58}
+{'loss': 1.4529, 'grad_norm': 0.1309213936328888, 'learning_rate': 0.0001946874623494845, 'epoch': 0.58}
+{'loss': 1.4469, 'grad_norm': 0.10481663048267365, 'learning_rate': 0.00019448528136619675, 'epoch': 0.58}
+{'loss': 1.4344, 'grad_norm': 0.11923302710056305, 'learning_rate': 0.00019428313856748063, 'epoch': 0.58}
+{'loss': 1.4526, 'grad_norm': 0.11531763523817062, 'learning_rate': 0.00019408103409237562, 'epoch': 0.58}
+{'loss': 1.4461, 'grad_norm': 0.10522359609603882, 'learning_rate': 0.00019387896807989481, 'epoch': 0.58}
+{'loss': 1.448, 'grad_norm': 0.1050361841917038, 'learning_rate': 0.00019367694066902468, 'epoch': 0.59}
+{'loss': 1.4783, 'grad_norm': 0.124208465218544, 'learning_rate': 0.00019347495199872552, 'epoch': 0.59}
+{'loss': 1.4581, 'grad_norm': 0.10491538047790527, 'learning_rate': 0.00019327300220793077, 'epoch': 0.59}
+{'loss': 1.438, 'grad_norm': 0.11054001748561859, 'learning_rate': 0.00019307109143554705, 'epoch': 0.59}
+{'loss': 1.4455, 'grad_norm': 0.11974581331014633, 'learning_rate': 0.00019286921982045416, 'epoch': 0.59}
+{'loss': 1.4294, 'grad_norm': 0.11600188165903091, 'learning_rate': 0.00019266738750150505, 'epoch': 0.59}
+{'loss': 1.474, 'grad_norm': 0.10728537291288376, 'learning_rate': 0.00019246559461752577, 'epoch': 0.59}
+{'loss': 1.4406, 'grad_norm': 0.12754108011722565, 'learning_rate': 0.000192263841307315, 'epoch': 0.59}
+{'loss': 1.4443, 'grad_norm': 0.10760253667831421, 'learning_rate': 0.00019206212770964422, 'epoch': 0.59}
+{'loss': 1.4279, 'grad_norm': 0.11465387046337128, 'learning_rate': 0.00019186045396325777, 'epoch': 0.59}
+{'loss': 1.4393, 'grad_norm': 0.10931545495986938, 'learning_rate': 0.00019165882020687232, 'epoch': 0.59}
+{'loss': 1.4355, 'grad_norm': 0.11231647431850433, 'learning_rate': 0.00019145722657917745, 'epoch': 0.59}
+{'loss': 1.4446, 'grad_norm': 0.11477350443601608, 'learning_rate': 0.00019125567321883467, 'epoch': 0.59}
+{'loss': 1.4579, 'grad_norm': 0.11190859228372574, 'learning_rate': 0.00019105416026447808, 'epoch': 0.59}
+{'loss': 1.4697, 'grad_norm': 0.11378758400678635, 'learning_rate': 0.00019085268785471382, 'epoch': 0.59}
+{'loss': 1.4463, 'grad_norm': 0.11581668257713318, 'learning_rate': 0.00019065125612812044, 'epoch': 0.59}
+{'loss': 1.4664, 'grad_norm': 0.10674794018268585, 'learning_rate': 0.00019044986522324806, 'epoch': 0.59}
+{'loss': 1.4675, 'grad_norm': 0.09216602891683578, 'learning_rate': 0.00019024851527861913, 'epoch': 0.59}
+{'loss': 1.4432, 'grad_norm': 0.10988636314868927, 'learning_rate': 0.00019004720643272773, 'epoch': 0.59}
+{'loss': 1.4599, 'grad_norm': 0.10996253788471222, 'learning_rate': 0.00018984593882403951, 'epoch': 0.59}
+{'loss': 1.4403, 'grad_norm': 0.11859136819839478, 'learning_rate': 0.0001896447125909922, 'epoch': 0.59}
+{'loss': 1.4385, 'grad_norm': 0.13046224415302277, 'learning_rate': 0.00018944352787199473, 'epoch': 0.59}
+{'loss': 1.4585, 'grad_norm': 0.11608823388814926, 'learning_rate': 0.00018924238480542754, 'epoch': 0.59}
+{'loss': 1.4375, 'grad_norm': 0.09597113728523254, 'learning_rate': 0.00018904128352964243, 'epoch': 0.59}
+{'loss': 1.4379, 'grad_norm': 0.1038123220205307, 'learning_rate': 0.00018884022418296238, 'epoch': 0.59}
+{'loss': 1.4529, 'grad_norm': 0.11199887841939926, 'learning_rate': 0.00018863920690368184, 'epoch': 0.59}
+{'loss': 1.4323, 'grad_norm': 0.10312040150165558, 'learning_rate': 0.00018843823183006597, 'epoch': 0.59}
+{'loss': 1.4337, 'grad_norm': 0.11437071114778519, 'learning_rate': 0.00018823729910035097, 'epoch': 0.59}
+{'loss': 1.4398, 'grad_norm': 0.11556200683116913, 'learning_rate': 0.0001880364088527441, 'epoch': 0.59}
+{'loss': 1.4361, 'grad_norm': 0.11107407510280609, 'learning_rate': 0.00018783556122542312, 'epoch': 0.59}
+{'loss': 1.4562, 'grad_norm': 0.11265026032924652, 'learning_rate': 0.0001876347563565368, 'epoch': 0.59}
+{'loss': 1.4281, 'grad_norm': 0.1008337065577507, 'learning_rate': 0.00018743399438420422, 'epoch': 0.59}
+{'loss': 1.4417, 'grad_norm': 0.11915480345487595, 'learning_rate': 0.00018723327544651513, 'epoch': 0.59}
+{'loss': 1.4421, 'grad_norm': 0.11192250996828079, 'learning_rate': 0.00018703259968152949, 'epoch': 0.59}
+{'loss': 1.4328, 'grad_norm': 0.12308716028928757, 'learning_rate': 0.00018683196722727786, 'epoch': 0.59}
+{'loss': 1.4545, 'grad_norm': 0.1230749562382698, 'learning_rate': 0.00018663137822176075, 'epoch': 0.59}
+{'loss': 1.4377, 'grad_norm': 0.12013175338506699, 'learning_rate': 0.00018643083280294888, 'epoch': 0.59}
+{'loss': 1.4247, 'grad_norm': 0.12801465392112732, 'learning_rate': 0.00018623033110878295, 'epoch': 0.59}
+{'loss': 1.4305, 'grad_norm': 0.10593286901712418, 'learning_rate': 0.00018602987327717357, 'epoch': 0.59}
+{'loss': 1.452, 'grad_norm': 0.11408951878547668, 'learning_rate': 0.00018582945944600138, 'epoch': 0.6}
+{'loss': 1.4324, 'grad_norm': 0.11785794794559479, 'learning_rate': 0.00018562908975311654, 'epoch': 0.6}
+{'loss': 1.4691, 'grad_norm': 0.10866126418113708, 'learning_rate': 0.0001854287643363389, 'epoch': 0.6}
+{'loss': 1.4521, 'grad_norm': 0.1216655969619751, 'learning_rate': 0.00018522848333345782, 'epoch': 0.6}
+{'loss': 1.4577, 'grad_norm': 0.1264597326517105, 'learning_rate': 0.00018502824688223214, 'epoch': 0.6}
+{'loss': 1.45, 'grad_norm': 0.12638799846172333, 'learning_rate': 0.00018482805512039024, 'epoch': 0.6}
+{'loss': 1.4627, 'grad_norm': 0.1273564100265503, 'learning_rate': 0.00018462790818562946, 'epoch': 0.6}
+{'loss': 1.4737, 'grad_norm': 0.10960964858531952, 'learning_rate': 0.00018442780621561648, 'epoch': 0.6}
+{'loss': 1.4296, 'grad_norm': 0.1120624840259552, 'learning_rate': 0.00018422774934798703, 'epoch': 0.6}
+{'loss': 1.4548, 'grad_norm': 0.13970300555229187, 'learning_rate': 0.0001840277377203457, 'epoch': 0.6}
+{'loss': 1.4584, 'grad_norm': 0.11282231658697128, 'learning_rate': 0.00018382777147026624, 'epoch': 0.6}
+{'loss': 1.438, 'grad_norm': 0.12426511198282242, 'learning_rate': 0.00018362785073529087, 'epoch': 0.6}
+{'loss': 1.4639, 'grad_norm': 0.11653971672058105, 'learning_rate': 0.00018342797565293074, 'epoch': 0.6}
+{'loss': 1.4552, 'grad_norm': 0.13134533166885376, 'learning_rate': 0.00018322814636066538, 'epoch': 0.6}
+{'loss': 1.4576, 'grad_norm': 0.11311868578195572, 'learning_rate': 0.00018302836299594313, 'epoch': 0.6}
+{'loss': 1.4808, 'grad_norm': 0.1190371885895729, 'learning_rate': 0.00018282862569618047, 'epoch': 0.6}
+{'loss': 1.4456, 'grad_norm': 0.12838973104953766, 'learning_rate': 0.00018262893459876223, 'epoch': 0.6}
+{'loss': 1.448, 'grad_norm': 0.1075533926486969, 'learning_rate': 0.00018242928984104161, 'epoch': 0.6}
+{'loss': 1.4415, 'grad_norm': 0.11824460327625275, 'learning_rate': 0.00018222969156033968, 'epoch': 0.6}
+{'loss': 1.4343, 'grad_norm': 0.12250245362520218, 'learning_rate': 0.00018203013989394595, 'epoch': 0.6}
+{'loss': 1.4365, 'grad_norm': 0.10818181931972504, 'learning_rate': 0.00018183063497911742, 'epoch': 0.6}
+{'loss': 1.4266, 'grad_norm': 0.11722766607999802, 'learning_rate': 0.00018163117695307927, 'epoch': 0.6}
+{'loss': 1.4501, 'grad_norm': 0.10563488304615021, 'learning_rate': 0.00018143176595302425, 'epoch': 0.6}
+{'loss': 1.3968, 'grad_norm': 0.11290957778692245, 'learning_rate': 0.00018123240211611263, 'epoch': 0.6}
+{'loss': 1.4375, 'grad_norm': 0.10540235042572021, 'learning_rate': 0.0001810330855794726, 'epoch': 0.6}
+{'loss': 1.4403, 'grad_norm': 0.10617480427026749, 'learning_rate': 0.00018083381648019976, 'epoch': 0.6}
+{'loss': 1.4377, 'grad_norm': 0.11419898271560669, 'learning_rate': 0.00018063459495535673, 'epoch': 0.6}
+{'loss': 1.4405, 'grad_norm': 0.11072506010532379, 'learning_rate': 0.00018043542114197365, 'epoch': 0.6}
+{'loss': 1.4479, 'grad_norm': 0.10664493590593338, 'learning_rate': 0.0001802362951770478, 'epoch': 0.6}
+{'loss': 1.4462, 'grad_norm': 0.09900306165218353, 'learning_rate': 0.0001800372171975438, 'epoch': 0.6}
+{'loss': 1.4186, 'grad_norm': 0.11169902980327606, 'learning_rate': 0.00017983818734039285, 'epoch': 0.6}
+{'loss': 1.4555, 'grad_norm': 0.1037893071770668, 'learning_rate': 0.0001796392057424932, 'epoch': 0.6}
+{'loss': 1.4222, 'grad_norm': 0.10492735356092453, 'learning_rate': 0.0001794402725407101, 'epoch': 0.6}
+{'loss': 1.4264, 'grad_norm': 0.0995839536190033, 'learning_rate': 0.0001792413878718751, 'epoch': 0.6}
+{'loss': 1.4232, 'grad_norm': 0.11141534894704819, 'learning_rate': 0.00017904255187278694, 'epoch': 0.6}
+{'loss': 1.4618, 'grad_norm': 0.11567129194736481, 'learning_rate': 0.00017884376468021036, 'epoch': 0.6}
+{'loss': 1.4755, 'grad_norm': 0.10543825477361679, 'learning_rate': 0.00017864502643087678, 'epoch': 0.6}
+{'loss': 1.4512, 'grad_norm': 0.10315066576004028, 'learning_rate': 0.00017844633726148384, 'epoch': 0.6}
+{'loss': 1.4582, 'grad_norm': 0.12953361868858337, 'learning_rate': 0.00017824769730869568, 'epoch': 0.6}
+{'loss': 1.463, 'grad_norm': 0.10367031395435333, 'learning_rate': 0.0001780491067091422, 'epoch': 0.61}
+{'loss': 1.4419, 'grad_norm': 0.12127099931240082, 'learning_rate': 0.0001778505655994197, 'epoch': 0.61}
+{'loss': 1.4277, 'grad_norm': 0.11298875510692596, 'learning_rate': 0.00017765207411609026, 'epoch': 0.61}
+{'loss': 1.4484, 'grad_norm': 0.11584452539682388, 'learning_rate': 0.0001774536323956817, 'epoch': 0.61}
+{'loss': 1.4439, 'grad_norm': 0.11809150129556656, 'learning_rate': 0.00017725524057468796, 'epoch': 0.61}
+{'loss': 1.4389, 'grad_norm': 0.11365010589361191, 'learning_rate': 0.0001770568987895684, 'epoch': 0.61}
+{'loss': 1.4367, 'grad_norm': 0.12262365221977234, 'learning_rate': 0.00017685860717674807, 'epoch': 0.61}
+{'loss': 1.4411, 'grad_norm': 0.10422712564468384, 'learning_rate': 0.0001766603658726174, 'epoch': 0.61}
+{'loss': 1.433, 'grad_norm': 0.11086400598287582, 'learning_rate': 0.00017646217501353224, 'epoch': 0.61}
+{'loss': 1.4855, 'grad_norm': 0.10812142491340637, 'learning_rate': 0.00017626403473581398, 'epoch': 0.61}
+{'loss': 1.452, 'grad_norm': 0.11336390674114227, 'learning_rate': 0.0001760659451757489, 'epoch': 0.61}
+{'loss': 1.4563, 'grad_norm': 0.10374490916728973, 'learning_rate': 0.00017586790646958856, 'epoch': 0.61}
+{'loss': 1.4551, 'grad_norm': 0.124855175614357, 'learning_rate': 0.0001756699187535495, 'epoch': 0.61}
+{'loss': 1.463, 'grad_norm': 0.09456656873226166, 'learning_rate': 0.00017547198216381305, 'epoch': 0.61}
+{'loss': 1.449, 'grad_norm': 0.11476355791091919, 'learning_rate': 0.00017527409683652578, 'epoch': 0.61}
+{'loss': 1.4501, 'grad_norm': 0.11280319839715958, 'learning_rate': 0.00017507626290779853, 'epoch': 0.61}
+{'loss': 1.4607, 'grad_norm': 0.09994751960039139, 'learning_rate': 0.00017487848051370714, 'epoch': 0.61}
+{'loss': 1.4545, 'grad_norm': 0.10735821723937988, 'learning_rate': 0.0001746807497902917, 'epoch': 0.61}
+{'loss': 1.4742, 'grad_norm': 0.10682498663663864, 'learning_rate': 0.0001744830708735571, 'epoch': 0.61}
+{'loss': 1.4492, 'grad_norm': 0.11471110582351685, 'learning_rate': 0.0001742854438994722, 'epoch': 0.61}
+{'loss': 1.441, 'grad_norm': 0.10640890151262283, 'learning_rate': 0.00017408786900397055, 'epoch': 0.61}
+{'loss': 1.4422, 'grad_norm': 0.1065443754196167, 'learning_rate': 0.0001738903463229496, 'epoch': 0.61}
+{'loss': 1.473, 'grad_norm': 0.11374682188034058, 'learning_rate': 0.00017369287599227078, 'epoch': 0.61}
+{'loss': 1.4679, 'grad_norm': 0.10716310888528824, 'learning_rate': 0.0001734954581477599, 'epoch': 0.61}
+{'loss': 1.4329, 'grad_norm': 0.12048507481813431, 'learning_rate': 0.0001732980929252065, 'epoch': 0.61}
+{'loss': 1.4496, 'grad_norm': 0.10268709063529968, 'learning_rate': 0.00017310078046036377, 'epoch': 0.61}
+{'loss': 1.4526, 'grad_norm': 0.1082996055483818, 'learning_rate': 0.00017290352088894867, 'epoch': 0.61}
+{'loss': 1.4586, 'grad_norm': 0.1286364048719406, 'learning_rate': 0.0001727063143466419, 'epoch': 0.61}
+{'loss': 1.4164, 'grad_norm': 0.09539692103862762, 'learning_rate': 0.0001725091609690877, 'epoch': 0.61}
+{'loss': 1.4469, 'grad_norm': 0.10628186166286469, 'learning_rate': 0.0001723120608918936, 'epoch': 0.61}
+{'loss': 1.4411, 'grad_norm': 0.10782410204410553, 'learning_rate': 0.00017211501425063044, 'epoch': 0.61}
+{'loss': 1.4605, 'grad_norm': 0.11142046004533768, 'learning_rate': 0.00017191802118083255, 'epoch': 0.61}
+{'loss': 1.4618, 'grad_norm': 0.11859957128763199, 'learning_rate': 0.0001717210818179971, 'epoch': 0.61}
+{'loss': 1.4525, 'grad_norm': 0.10457195341587067, 'learning_rate': 0.00017152419629758465, 'epoch': 0.61}
+{'loss': 1.4402, 'grad_norm': 0.10425873100757599, 'learning_rate': 0.00017132736475501838, 'epoch': 0.61}
+{'loss': 1.4774, 'grad_norm': 0.11416168510913849, 'learning_rate': 0.00017113058732568464, 'epoch': 0.61}
+{'loss': 1.4496, 'grad_norm': 0.1100025624036789, 'learning_rate': 0.00017093386414493233, 'epoch': 0.61}
+{'loss': 1.4696, 'grad_norm': 0.1028926745057106, 'learning_rate': 0.00017073719534807324, 'epoch': 0.61}
+{'loss': 1.4274, 'grad_norm': 0.11851514130830765, 'learning_rate': 0.00017054058107038167, 'epoch': 0.61}
+{'loss': 1.4562, 'grad_norm': 0.1144365444779396, 'learning_rate': 0.00017034402144709427, 'epoch': 0.62}
+{'loss': 1.4551, 'grad_norm': 0.12301662564277649, 'learning_rate': 0.00017014751661341033, 'epoch': 0.62}
+{'loss': 1.4239, 'grad_norm': 0.10854244977235794, 'learning_rate': 0.00016995106670449124, 'epoch': 0.62}
+{'loss': 1.4303, 'grad_norm': 0.1170981153845787, 'learning_rate': 0.00016975467185546093, 'epoch': 0.62}
+{'loss': 1.4589, 'grad_norm': 0.09637916088104248, 'learning_rate': 0.00016955833220140508, 'epoch': 0.62}
+{'loss': 1.4531, 'grad_norm': 0.11152820289134979, 'learning_rate': 0.00016936204787737166, 'epoch': 0.62}
+{'loss': 1.453, 'grad_norm': 0.10643517225980759, 'learning_rate': 0.00016916581901837052, 'epoch': 0.62}
+{'loss': 1.4457, 'grad_norm': 0.11313606053590775, 'learning_rate': 0.00016896964575937318, 'epoch': 0.62}
+{'loss': 1.4504, 'grad_norm': 0.09484844654798508, 'learning_rate': 0.00016877352823531323, 'epoch': 0.62}
+{'loss': 1.4413, 'grad_norm': 0.10417139530181885, 'learning_rate': 0.0001685774665810858, 'epoch': 0.62}
+{'loss': 1.4475, 'grad_norm': 0.11659339815378189, 'learning_rate': 0.00016838146093154751, 'epoch': 0.62}
+{'loss': 1.4673, 'grad_norm': 0.10770665109157562, 'learning_rate': 0.00016818551142151644, 'epoch': 0.62}
+{'loss': 1.469, 'grad_norm': 0.10506075620651245, 'learning_rate': 0.0001679896181857722, 'epoch': 0.62}
+{'loss': 1.463, 'grad_norm': 0.10626398026943207, 'learning_rate': 0.00016779378135905565, 'epoch': 0.62}
+{'loss': 1.4268, 'grad_norm': 0.10632963478565216, 'learning_rate': 0.00016759800107606882, 'epoch': 0.62}
+{'loss': 1.4277, 'grad_norm': 0.10635577142238617, 'learning_rate': 0.00016740227747147473, 'epoch': 0.62}
+{'loss': 1.4362, 'grad_norm': 0.11307327449321747, 'learning_rate': 0.00016720661067989759, 'epoch': 0.62}
+{'loss': 1.4428, 'grad_norm': 0.11232876032590866, 'learning_rate': 0.0001670110008359226, 'epoch': 0.62}
+{'loss': 1.4562, 'grad_norm': 0.11650338768959045, 'learning_rate': 0.00016681544807409555, 'epoch': 0.62}
+{'loss': 1.4243, 'grad_norm': 0.1259201467037201, 'learning_rate': 0.0001666199525289231, 'epoch': 0.62}
+{'loss': 1.453, 'grad_norm': 0.10454490780830383, 'learning_rate': 0.00016642451433487255, 'epoch': 0.62}
+{'loss': 1.4562, 'grad_norm': 0.12088806927204132, 'learning_rate': 0.0001662291336263716, 'epoch': 0.62}
+{'loss': 1.4482, 'grad_norm': 0.11816418170928955, 'learning_rate': 0.0001660338105378088, 'epoch': 0.62}
+{'loss': 1.4437, 'grad_norm': 0.11909682303667068, 'learning_rate': 0.00016583854520353268, 'epoch': 0.62}
+{'loss': 1.4608, 'grad_norm': 0.1267918348312378, 'learning_rate': 0.00016564333775785222, 'epoch': 0.62}
+{'loss': 1.4519, 'grad_norm': 0.10521426051855087, 'learning_rate': 0.00016544818833503654, 'epoch': 0.62}
+{'loss': 1.4735, 'grad_norm': 0.1111072525382042, 'learning_rate': 0.00016525309706931472, 'epoch': 0.62}
+{'loss': 1.4657, 'grad_norm': 0.12457078695297241, 'learning_rate': 0.00016505806409487615, 'epoch': 0.62}
+{'loss': 1.4208, 'grad_norm': 0.1104062870144844, 'learning_rate': 0.00016486308954586992, 'epoch': 0.62}
+{'loss': 1.4439, 'grad_norm': 0.11049754917621613, 'learning_rate': 0.00016466817355640495, 'epoch': 0.62}
+{'loss': 1.4382, 'grad_norm': 0.1231948584318161, 'learning_rate': 0.00016447331626054984, 'epoch': 0.62}
+{'loss': 1.4354, 'grad_norm': 0.10430475324392319, 'learning_rate': 0.00016427851779233282, 'epoch': 0.62}
+{'loss': 1.4255, 'grad_norm': 0.10799778997898102, 'learning_rate': 0.00016408377828574196, 'epoch': 0.62}
+{'loss': 1.444, 'grad_norm': 0.1361004263162613, 'learning_rate': 0.0001638890978747243, 'epoch': 0.62}
+{'loss': 1.4456, 'grad_norm': 0.09956245869398117, 'learning_rate': 0.00016369447669318648, 'epoch': 0.62}
+{'loss': 1.4372, 'grad_norm': 0.13264620304107666, 'learning_rate': 0.00016349991487499437, 'epoch': 0.62}
+{'loss': 1.4468, 'grad_norm': 0.11536252498626709, 'learning_rate': 0.00016330541255397314, 'epoch': 0.62}
+{'loss': 1.4275, 'grad_norm': 0.11071592569351196, 'learning_rate': 0.00016311096986390683, 'epoch': 0.62}
+{'loss': 1.4385, 'grad_norm': 0.10545065999031067, 'learning_rate': 0.0001629165869385385, 'epoch': 0.62}
+{'loss': 1.4442, 'grad_norm': 0.10408646613359451, 'learning_rate': 0.00016272226391157024, 'epoch': 0.63}
+{'loss': 1.4262, 'grad_norm': 0.12494917958974838, 'learning_rate': 0.0001625280009166627, 'epoch': 0.63}
+{'loss': 1.4347, 'grad_norm': 0.1309003233909607, 'learning_rate': 0.00016233379808743557, 'epoch': 0.63}
+{'loss': 1.4401, 'grad_norm': 0.10538385808467865, 'learning_rate': 0.00016213965555746685, 'epoch': 0.63}
+{'loss': 1.4546, 'grad_norm': 0.10548821091651917, 'learning_rate': 0.00016194557346029323, 'epoch': 0.63}
+{'loss': 1.4356, 'grad_norm': 0.14181867241859436, 'learning_rate': 0.00016175155192940983, 'epoch': 0.63}
+{'loss': 1.4506, 'grad_norm': 0.1128864660859108, 'learning_rate': 0.00016155759109826983, 'epoch': 0.63}
+{'loss': 1.4392, 'grad_norm': 0.1149432584643364, 'learning_rate': 0.00016136369110028521, 'epoch': 0.63}
+{'loss': 1.4431, 'grad_norm': 0.1136450320482254, 'learning_rate': 0.00016116985206882572, 'epoch': 0.63}
+{'loss': 1.4299, 'grad_norm': 0.10909941047430038, 'learning_rate': 0.0001609760741372192, 'epoch': 0.63}
+{'loss': 1.4554, 'grad_norm': 0.10534820705652237, 'learning_rate': 0.00016078235743875144, 'epoch': 0.63}
+{'loss': 1.4585, 'grad_norm': 0.11711892485618591, 'learning_rate': 0.0001605887021066663, 'epoch': 0.63}
+{'loss': 1.4383, 'grad_norm': 0.10147271305322647, 'learning_rate': 0.00016039510827416527, 'epoch': 0.63}
+{'loss': 1.4733, 'grad_norm': 0.11109186708927155, 'learning_rate': 0.0001602015760744076, 'epoch': 0.63}
+{'loss': 1.4682, 'grad_norm': 0.10996713489294052, 'learning_rate': 0.00016000810564051015, 'epoch': 0.63}
+{'loss': 1.4205, 'grad_norm': 0.1212218776345253, 'learning_rate': 0.00015981469710554724, 'epoch': 0.63}
+{'loss': 1.4213, 'grad_norm': 0.10557353496551514, 'learning_rate': 0.00015962135060255066, 'epoch': 0.63}
+{'loss': 1.4371, 'grad_norm': 0.10180789977312088, 'learning_rate': 0.00015942806626450965, 'epoch': 0.63}
+{'loss': 1.44, 'grad_norm': 0.11698950082063675, 'learning_rate': 0.00015923484422437044, 'epoch': 0.63}
+{'loss': 1.4591, 'grad_norm': 0.11635900288820267, 'learning_rate': 0.0001590416846150365, 'epoch': 0.63}
+{'loss': 1.4333, 'grad_norm': 0.11422795057296753, 'learning_rate': 0.0001588485875693684, 'epoch': 0.63}
+{'loss': 1.4558, 'grad_norm': 0.12801145017147064, 'learning_rate': 0.00015865555322018383, 'epoch': 0.63}
+{'loss': 1.4273, 'grad_norm': 0.11840008944272995, 'learning_rate': 0.00015846258170025714, 'epoch': 0.63}
+{'loss': 1.4208, 'grad_norm': 0.1036924421787262, 'learning_rate': 0.0001582696731423194, 'epoch': 0.63}
+{'loss': 1.4277, 'grad_norm': 0.12390049546957016, 'learning_rate': 0.0001580768276790586, 'epoch': 0.63}
+{'loss': 1.452, 'grad_norm': 0.12720857560634613, 'learning_rate': 0.00015788404544311914, 'epoch': 0.63}
+{'loss': 1.4422, 'grad_norm': 0.10485298186540604, 'learning_rate': 0.00015769132656710214, 'epoch': 0.63}
+{'loss': 1.4482, 'grad_norm': 0.12152762711048126, 'learning_rate': 0.00015749867118356492, 'epoch': 0.63}
+{'loss': 1.4496, 'grad_norm': 0.11793820559978485, 'learning_rate': 0.00015730607942502134, 'epoch': 0.63}
+{'loss': 1.4462, 'grad_norm': 0.11112957447767258, 'learning_rate': 0.00015711355142394132, 'epoch': 0.63}
+{'loss': 1.4384, 'grad_norm': 0.10874482989311218, 'learning_rate': 0.00015692108731275083, 'epoch': 0.63}
+{'loss': 1.4498, 'grad_norm': 0.11360253393650055, 'learning_rate': 0.0001567286872238323, 'epoch': 0.63}
+{'loss': 1.4149, 'grad_norm': 0.11265512555837631, 'learning_rate': 0.00015653635128952382, 'epoch': 0.63}
+{'loss': 1.4505, 'grad_norm': 0.10559079051017761, 'learning_rate': 0.00015634407964211934, 'epoch': 0.63}
+{'loss': 1.438, 'grad_norm': 0.112545445561409, 'learning_rate': 0.00015615187241386857, 'epoch': 0.63}
+{'loss': 1.4462, 'grad_norm': 0.10213714838027954, 'learning_rate': 0.0001559597297369772, 'epoch': 0.63}
+{'loss': 1.4407, 'grad_norm': 0.11114884167909622, 'learning_rate': 0.00015576765174360628, 'epoch': 0.63}
+{'loss': 1.4641, 'grad_norm': 0.10637947171926498, 'learning_rate': 0.00015557563856587238, 'epoch': 0.63}
+{'loss': 1.429, 'grad_norm': 0.11118748784065247, 'learning_rate': 0.00015538369033584742, 'epoch': 0.63}
+{'loss': 1.4259, 'grad_norm': 0.10488885641098022, 'learning_rate': 0.00015519180718555882, 'epoch': 0.64}
+{'loss': 1.4367, 'grad_norm': 0.10794463753700256, 'learning_rate': 0.0001549999892469892, 'epoch': 0.64}
+{'loss': 1.4397, 'grad_norm': 0.11909528821706772, 'learning_rate': 0.00015480823665207637, 'epoch': 0.64}
+{'loss': 1.4573, 'grad_norm': 0.10748027265071869, 'learning_rate': 0.0001546165495327129, 'epoch': 0.64}
+{'loss': 1.4312, 'grad_norm': 0.10090286284685135, 'learning_rate': 0.0001544249280207467, 'epoch': 0.64}
+{'loss': 1.4272, 'grad_norm': 0.10508042573928833, 'learning_rate': 0.00015423337224798023, 'epoch': 0.64}
+{'loss': 1.4562, 'grad_norm': 0.11510351300239563, 'learning_rate': 0.0001540418823461711, 'epoch': 0.64}
+{'loss': 1.4362, 'grad_norm': 0.10122639685869217, 'learning_rate': 0.0001538504584470312, 'epoch': 0.64}
+{'loss': 1.4427, 'grad_norm': 0.09412222355604172, 'learning_rate': 0.00015365910068222745, 'epoch': 0.64}
+{'loss': 1.4542, 'grad_norm': 0.0955590084195137, 'learning_rate': 0.00015346780918338088, 'epoch': 0.64}
+{'loss': 1.4305, 'grad_norm': 0.10821416229009628, 'learning_rate': 0.00015327658408206707, 'epoch': 0.64}
+{'loss': 1.4548, 'grad_norm': 0.10420781373977661, 'learning_rate': 0.00015308542550981615, 'epoch': 0.64}
+{'loss': 1.4542, 'grad_norm': 0.09811372309923172, 'learning_rate': 0.00015289433359811229, 'epoch': 0.64}
+{'loss': 1.4149, 'grad_norm': 0.11020799726247787, 'learning_rate': 0.00015270330847839375, 'epoch': 0.64}
+{'loss': 1.4517, 'grad_norm': 0.10613878816366196, 'learning_rate': 0.00015251235028205295, 'epoch': 0.64}
+{'loss': 1.4427, 'grad_norm': 0.10627733170986176, 'learning_rate': 0.00015232145914043625, 'epoch': 0.64}
+{'loss': 1.4414, 'grad_norm': 0.09296669811010361, 'learning_rate': 0.000152130635184844, 'epoch': 0.64}
+{'loss': 1.4457, 'grad_norm': 0.11725235730409622, 'learning_rate': 0.00015193987854653023, 'epoch': 0.64}
+{'loss': 1.4561, 'grad_norm': 0.10323462635278702, 'learning_rate': 0.0001517491893567025, 'epoch': 0.64}
+{'loss': 1.4517, 'grad_norm': 0.09843441843986511, 'learning_rate': 0.00015155856774652228, 'epoch': 0.64}
+{'loss': 1.4323, 'grad_norm': 0.10907770693302155, 'learning_rate': 0.00015136801384710448, 'epoch': 0.64}
+{'loss': 1.4544, 'grad_norm': 0.10337867587804794, 'learning_rate': 0.00015117752778951736, 'epoch': 0.64}
+{'loss': 1.4458, 'grad_norm': 0.09839146584272385, 'learning_rate': 0.00015098710970478247, 'epoch': 0.64}
+{'loss': 1.4245, 'grad_norm': 0.1065727099776268, 'learning_rate': 0.00015079675972387474, 'epoch': 0.64}
+{'loss': 1.451, 'grad_norm': 0.1098216325044632, 'learning_rate': 0.0001506064779777221, 'epoch': 0.64}
+{'loss': 1.4549, 'grad_norm': 0.09697435796260834, 'learning_rate': 0.00015041626459720578, 'epoch': 0.64}
+{'loss': 1.4444, 'grad_norm': 0.10290087759494781, 'learning_rate': 0.00015022611971315974, 'epoch': 0.64}
+{'loss': 1.4297, 'grad_norm': 0.10713338106870651, 'learning_rate': 0.00015003604345637105, 'epoch': 0.64}
+{'loss': 1.463, 'grad_norm': 0.10654246807098389, 'learning_rate': 0.0001498460359575794, 'epoch': 0.64}
+{'loss': 1.4608, 'grad_norm': 0.1028900071978569, 'learning_rate': 0.0001496560973474771, 'epoch': 0.64}
+{'loss': 1.4402, 'grad_norm': 0.09552188217639923, 'learning_rate': 0.00014946622775670942, 'epoch': 0.64}
+{'loss': 1.4386, 'grad_norm': 0.10695374011993408, 'learning_rate': 0.00014927642731587393, 'epoch': 0.64}
+{'loss': 1.43, 'grad_norm': 0.10928739607334137, 'learning_rate': 0.00014908669615552067, 'epoch': 0.64}
+{'loss': 1.4283, 'grad_norm': 0.10471377521753311, 'learning_rate': 0.0001488970344061519, 'epoch': 0.64}
+{'loss': 1.4494, 'grad_norm': 0.10090097039937973, 'learning_rate': 0.00014870744219822236, 'epoch': 0.64}
+{'loss': 1.4438, 'grad_norm': 0.10569516569375992, 'learning_rate': 0.00014851791966213884, 'epoch': 0.64}
+{'loss': 1.4332, 'grad_norm': 0.1237017959356308, 'learning_rate': 0.0001483284669282603, 'epoch': 0.64}
+{'loss': 1.4465, 'grad_norm': 0.11702463775873184, 'learning_rate': 0.00014813908412689746, 'epoch': 0.64}
+{'loss': 1.4446, 'grad_norm': 0.10075972974300385, 'learning_rate': 0.00014794977138831323, 'epoch': 0.64}
+{'loss': 1.452, 'grad_norm': 0.10083430260419846, 'learning_rate': 0.00014776052884272206, 'epoch': 0.65}
+{'loss': 1.4029, 'grad_norm': 0.1115497499704361, 'learning_rate': 0.00014757135662029041, 'epoch': 0.65}
+{'loss': 1.4362, 'grad_norm': 0.11027777194976807, 'learning_rate': 0.00014738225485113615, 'epoch': 0.65}
+{'loss': 1.4416, 'grad_norm': 0.11360842734575272, 'learning_rate': 0.00014719322366532866, 'epoch': 0.65}
+{'loss': 1.4631, 'grad_norm': 0.10526303946971893, 'learning_rate': 0.0001470042631928889, 'epoch': 0.65}
+{'loss': 1.4537, 'grad_norm': 0.10042612999677658, 'learning_rate': 0.00014681537356378923, 'epoch': 0.65}
+{'loss': 1.4331, 'grad_norm': 0.1042090430855751, 'learning_rate': 0.0001466265549079532, 'epoch': 0.65}
+{'loss': 1.4648, 'grad_norm': 0.12292198836803436, 'learning_rate': 0.00014643780735525545, 'epoch': 0.65}
+{'loss': 1.4527, 'grad_norm': 0.11499686539173126, 'learning_rate': 0.00014624913103552189, 'epoch': 0.65}
+{'loss': 1.4396, 'grad_norm': 0.11424098163843155, 'learning_rate': 0.00014606052607852923, 'epoch': 0.65}
+{'loss': 1.4632, 'grad_norm': 0.1172737404704094, 'learning_rate': 0.0001458719926140054, 'epoch': 0.65}
+{'loss': 1.4471, 'grad_norm': 0.10394619405269623, 'learning_rate': 0.00014568353077162887, 'epoch': 0.65}
+{'loss': 1.4462, 'grad_norm': 0.12623648345470428, 'learning_rate': 0.00014549514068102904, 'epoch': 0.65}
+{'loss': 1.4504, 'grad_norm': 0.12096700817346573, 'learning_rate': 0.0001453068224717858, 'epoch': 0.65}
+{'loss': 1.4304, 'grad_norm': 0.11338968575000763, 'learning_rate': 0.0001451185762734295, 'epoch': 0.65}
+{'loss': 1.477, 'grad_norm': 0.1193956732749939, 'learning_rate': 0.00014493040221544146, 'epoch': 0.65}
+{'loss': 1.4813, 'grad_norm': 0.11204739660024643, 'learning_rate': 0.00014474230042725271, 'epoch': 0.65}
+{'loss': 1.4639, 'grad_norm': 0.1263807713985443, 'learning_rate': 0.00014455427103824523, 'epoch': 0.65}
+{'loss': 1.4351, 'grad_norm': 0.12276627123355865, 'learning_rate': 0.0001443663141777506, 'epoch': 0.65}
+{'loss': 1.4454, 'grad_norm': 0.11526186019182205, 'learning_rate': 0.000144178429975051, 'epoch': 0.65}
+{'loss': 1.4411, 'grad_norm': 0.12530764937400818, 'learning_rate': 0.00014399061855937834, 'epoch': 0.65}
+{'loss': 1.438, 'grad_norm': 0.1281881034374237, 'learning_rate': 0.00014380288005991454, 'epoch': 0.65}
+{'loss': 1.4613, 'grad_norm': 0.12672922015190125, 'learning_rate': 0.00014361521460579138, 'epoch': 0.65}
+{'loss': 1.4005, 'grad_norm': 0.11019019782543182, 'learning_rate': 0.0001434276223260903, 'epoch': 0.65}
+{'loss': 1.4563, 'grad_norm': 0.10874477028846741, 'learning_rate': 0.00014324010334984267, 'epoch': 0.65}
+{'loss': 1.4481, 'grad_norm': 0.12616950273513794, 'learning_rate': 0.00014305265780602911, 'epoch': 0.65}
+{'loss': 1.4245, 'grad_norm': 0.123642697930336, 'learning_rate': 0.00014286528582358005, 'epoch': 0.65}
+{'loss': 1.4383, 'grad_norm': 0.12740543484687805, 'learning_rate': 0.00014267798753137513, 'epoch': 0.65}
+{'loss': 1.4244, 'grad_norm': 0.10404404997825623, 'learning_rate': 0.00014249076305824316, 'epoch': 0.65}
+{'loss': 1.4406, 'grad_norm': 0.11064719408750534, 'learning_rate': 0.0001423036125329626, 'epoch': 0.65}
+{'loss': 1.4406, 'grad_norm': 0.11363055557012558, 'learning_rate': 0.0001421165360842607, 'epoch': 0.65}
+{'loss': 1.4171, 'grad_norm': 0.11194043606519699, 'learning_rate': 0.00014192953384081387, 'epoch': 0.65}
+{'loss': 1.4314, 'grad_norm': 0.11717507988214493, 'learning_rate': 0.00014174260593124733, 'epoch': 0.65}
+{'loss': 1.411, 'grad_norm': 0.11592629551887512, 'learning_rate': 0.0001415557524841354, 'epoch': 0.65}
+{'loss': 1.448, 'grad_norm': 0.11646286398172379, 'learning_rate': 0.00014136897362800128, 'epoch': 0.65}
+{'loss': 1.45, 'grad_norm': 0.10988683998584747, 'learning_rate': 0.00014118226949131647, 'epoch': 0.65}
+{'loss': 1.4392, 'grad_norm': 0.11200445890426636, 'learning_rate': 0.00014099564020250132, 'epoch': 0.65}
+{'loss': 1.4438, 'grad_norm': 0.09942831844091415, 'learning_rate': 0.0001408090858899246, 'epoch': 0.65}
+{'loss': 1.4586, 'grad_norm': 0.11632705479860306, 'learning_rate': 0.00014062260668190374, 'epoch': 0.65}
+{'loss': 1.4556, 'grad_norm': 0.12742991745471954, 'learning_rate': 0.0001404362027067042, 'epoch': 0.66}
+{'loss': 1.4548, 'grad_norm': 0.11288278549909592, 'learning_rate': 0.0001402498740925398, 'epoch': 0.66}
+{'loss': 1.4113, 'grad_norm': 0.11231721192598343, 'learning_rate': 0.00014006362096757275, 'epoch': 0.66}
+{'loss': 1.4484, 'grad_norm': 0.13039630651474, 'learning_rate': 0.0001398774434599129, 'epoch': 0.66}
+{'loss': 1.4239, 'grad_norm': 0.12532727420330048, 'learning_rate': 0.0001396913416976185, 'epoch': 0.66}
+{'loss': 1.4392, 'grad_norm': 0.10084742307662964, 'learning_rate': 0.00013950531580869552, 'epoch': 0.66}
+{'loss': 1.4629, 'grad_norm': 0.11184968054294586, 'learning_rate': 0.00013931936592109773, 'epoch': 0.66}
+{'loss': 1.4531, 'grad_norm': 0.1126357838511467, 'learning_rate': 0.00013913349216272659, 'epoch': 0.66}
+{'loss': 1.448, 'grad_norm': 0.1058342382311821, 'learning_rate': 0.00013894769466143127, 'epoch': 0.66}
+{'loss': 1.4437, 'grad_norm': 0.10616143047809601, 'learning_rate': 0.0001387619735450084, 'epoch': 0.66}
+{'loss': 1.4481, 'grad_norm': 0.1145009696483612, 'learning_rate': 0.0001385763289412024, 'epoch': 0.66}
+{'loss': 1.4527, 'grad_norm': 0.12936639785766602, 'learning_rate': 0.0001383907609777047, 'epoch': 0.66}
+{'loss': 1.44, 'grad_norm': 0.10571128875017166, 'learning_rate': 0.00013820526978215402, 'epoch': 0.66}
+{'loss': 1.4365, 'grad_norm': 0.12031808495521545, 'learning_rate': 0.00013801985548213632, 'epoch': 0.66}
+{'loss': 1.418, 'grad_norm': 0.11446696519851685, 'learning_rate': 0.00013783451820518493, 'epoch': 0.66}
+{'loss': 1.4358, 'grad_norm': 0.10185515135526657, 'learning_rate': 0.00013764925807877994, 'epoch': 0.66}
+{'loss': 1.4645, 'grad_norm': 0.10737250000238419, 'learning_rate': 0.0001374640752303483, 'epoch': 0.66}
+{'loss': 1.4723, 'grad_norm': 0.10739488899707794, 'learning_rate': 0.000137278969787264, 'epoch': 0.66}
+{'loss': 1.4581, 'grad_norm': 0.12332217395305634, 'learning_rate': 0.00013709394187684786, 'epoch': 0.66}
+{'loss': 1.4613, 'grad_norm': 0.11988984048366547, 'learning_rate': 0.00013690899162636713, 'epoch': 0.66}
+{'loss': 1.4661, 'grad_norm': 0.11879721283912659, 'learning_rate': 0.00013672411916303576, 'epoch': 0.66}
+{'loss': 1.4515, 'grad_norm': 0.10814270377159119, 'learning_rate': 0.0001365393246140142, 'epoch': 0.66}
+{'loss': 1.4355, 'grad_norm': 0.11070676892995834, 'learning_rate': 0.00013635460810640916, 'epoch': 0.66}
+{'loss': 1.4307, 'grad_norm': 0.11742570251226425, 'learning_rate': 0.00013616996976727397, 'epoch': 0.66}
+{'loss': 1.4142, 'grad_norm': 0.10575716197490692, 'learning_rate': 0.00013598540972360794, 'epoch': 0.66}
+{'loss': 1.4355, 'grad_norm': 0.10095198452472687, 'learning_rate': 0.00013580092810235673, 'epoch': 0.66}
+{'loss': 1.4527, 'grad_norm': 0.12831725180149078, 'learning_rate': 0.00013561652503041186, 'epoch': 0.66}
+{'loss': 1.4283, 'grad_norm': 0.12173651903867722, 'learning_rate': 0.0001354322006346108, 'epoch': 0.66}
+{'loss': 1.4649, 'grad_norm': 0.11182510852813721, 'learning_rate': 0.00013524795504173725, 'epoch': 0.66}
+{'loss': 1.4377, 'grad_norm': 0.11659886687994003, 'learning_rate': 0.0001350637883785203, 'epoch': 0.66}
+{'loss': 1.4376, 'grad_norm': 0.09555573016405106, 'learning_rate': 0.000134879700771635, 'epoch': 0.66}
+{'loss': 1.4303, 'grad_norm': 0.10525096952915192, 'learning_rate': 0.0001346956923477018, 'epoch': 0.66}
+{'loss': 1.4537, 'grad_norm': 0.11382324993610382, 'learning_rate': 0.00013451176323328687, 'epoch': 0.66}
+{'loss': 1.4561, 'grad_norm': 0.11889038980007172, 'learning_rate': 0.00013432791355490198, 'epoch': 0.66}
+{'loss': 1.4289, 'grad_norm': 0.11017874628305435, 'learning_rate': 0.0001341441434390039, 'epoch': 0.66}
+{'loss': 1.4492, 'grad_norm': 0.10569176077842712, 'learning_rate': 0.00013396045301199483, 'epoch': 0.66}
+{'loss': 1.4558, 'grad_norm': 0.11716126650571823, 'learning_rate': 0.00013377684240022214, 'epoch': 0.66}
+{'loss': 1.4405, 'grad_norm': 0.10261291265487671, 'learning_rate': 0.00013359331172997847, 'epoch': 0.66}
+{'loss': 1.4404, 'grad_norm': 0.10305199027061462, 'learning_rate': 0.00013340986112750125, 'epoch': 0.66}
+{'loss': 1.4352, 'grad_norm': 0.11372890323400497, 'learning_rate': 0.00013322649071897285, 'epoch': 0.67}
+{'loss': 1.454, 'grad_norm': 0.09222982078790665, 'learning_rate': 0.0001330432006305207, 'epoch': 0.67}
+{'loss': 1.4061, 'grad_norm': 0.1044708862900734, 'learning_rate': 0.00013285999098821665, 'epoch': 0.67}
+{'loss': 1.4477, 'grad_norm': 0.10267626494169235, 'learning_rate': 0.00013267686191807763, 'epoch': 0.67}
+{'loss': 1.4417, 'grad_norm': 0.11248929798603058, 'learning_rate': 0.00013249381354606476, 'epoch': 0.67}
+{'loss': 1.4236, 'grad_norm': 0.10545814037322998, 'learning_rate': 0.0001323108459980839, 'epoch': 0.67}
+{'loss': 1.4367, 'grad_norm': 0.10253973305225372, 'learning_rate': 0.0001321279593999852, 'epoch': 0.67}
+{'loss': 1.4557, 'grad_norm': 0.10670381784439087, 'learning_rate': 0.00013194515387756297, 'epoch': 0.67}
+{'loss': 1.4681, 'grad_norm': 0.11803550273180008, 'learning_rate': 0.00013176242955655626, 'epoch': 0.67}
+{'loss': 1.4503, 'grad_norm': 0.11974010616540909, 'learning_rate': 0.00013157978656264775, 'epoch': 0.67}
+{'loss': 1.4231, 'grad_norm': 0.10711327195167542, 'learning_rate': 0.00013139722502146452, 'epoch': 0.67}
+{'loss': 1.4432, 'grad_norm': 0.09693320840597153, 'learning_rate': 0.00013121474505857744, 'epoch': 0.67}
+{'loss': 1.4376, 'grad_norm': 0.12013981491327286, 'learning_rate': 0.00013103234679950117, 'epoch': 0.67}
+{'loss': 1.4349, 'grad_norm': 0.1288699507713318, 'learning_rate': 0.00013085003036969456, 'epoch': 0.67}
+{'loss': 1.4718, 'grad_norm': 0.10908801108598709, 'learning_rate': 0.00013066779589455984, 'epoch': 0.67}
+{'loss': 1.436, 'grad_norm': 0.11309623718261719, 'learning_rate': 0.00013048564349944295, 'epoch': 0.67}
+{'loss': 1.4539, 'grad_norm': 0.1103174239397049, 'learning_rate': 0.00013030357330963326, 'epoch': 0.67}
+{'loss': 1.4619, 'grad_norm': 0.10589747130870819, 'learning_rate': 0.00013012158545036388, 'epoch': 0.67}
+{'loss': 1.4435, 'grad_norm': 0.11792121827602386, 'learning_rate': 0.00012993968004681116, 'epoch': 0.67}
+{'loss': 1.4511, 'grad_norm': 0.09322098642587662, 'learning_rate': 0.0001297578572240947, 'epoch': 0.67}
+{'loss': 1.4352, 'grad_norm': 0.09890148788690567, 'learning_rate': 0.00012957611710727723, 'epoch': 0.67}
+{'loss': 1.4543, 'grad_norm': 0.11668945103883743, 'learning_rate': 0.00012939445982136462, 'epoch': 0.67}
+{'loss': 1.4334, 'grad_norm': 0.10616389662027359, 'learning_rate': 0.000129212885491306, 'epoch': 0.67}
+{'loss': 1.443, 'grad_norm': 0.09827357530593872, 'learning_rate': 0.00012903139424199313, 'epoch': 0.67}
+{'loss': 1.4325, 'grad_norm': 0.11502671241760254, 'learning_rate': 0.0001288499861982607, 'epoch': 0.67}
+{'loss': 1.4471, 'grad_norm': 0.09687875211238861, 'learning_rate': 0.00012866866148488637, 'epoch': 0.67}
+{'loss': 1.4668, 'grad_norm': 0.11323488503694534, 'learning_rate': 0.00012848742022659022, 'epoch': 0.67}
+{'loss': 1.4465, 'grad_norm': 0.11248638480901718, 'learning_rate': 0.0001283062625480351, 'epoch': 0.67}
+{'loss': 1.4328, 'grad_norm': 0.10737500339746475, 'learning_rate': 0.00012812518857382638, 'epoch': 0.67}
+{'loss': 1.4704, 'grad_norm': 0.1022484228014946, 'learning_rate': 0.0001279441984285117, 'epoch': 0.67}
+{'loss': 1.4284, 'grad_norm': 0.11418464779853821, 'learning_rate': 0.00012776329223658113, 'epoch': 0.67}
+{'loss': 1.4256, 'grad_norm': 0.12363919615745544, 'learning_rate': 0.0001275824701224669, 'epoch': 0.67}
+{'loss': 1.4573, 'grad_norm': 0.0959695354104042, 'learning_rate': 0.00012740173221054358, 'epoch': 0.67}
+{'loss': 1.4354, 'grad_norm': 0.10577502101659775, 'learning_rate': 0.00012722107862512787, 'epoch': 0.67}
+{'loss': 1.4515, 'grad_norm': 0.12295974791049957, 'learning_rate': 0.00012704050949047824, 'epoch': 0.67}
+{'loss': 1.4528, 'grad_norm': 0.09752903878688812, 'learning_rate': 0.00012686002493079524, 'epoch': 0.67}
+{'loss': 1.4249, 'grad_norm': 0.1133776605129242, 'learning_rate': 0.00012667962507022096, 'epoch': 0.67}
+{'loss': 1.4478, 'grad_norm': 0.09812784940004349, 'learning_rate': 0.00012649931003283976, 'epoch': 0.67}
+{'loss': 1.4249, 'grad_norm': 0.1009828969836235, 'learning_rate': 0.0001263190799426772, 'epoch': 0.67}
+{'loss': 1.4306, 'grad_norm': 0.10249321907758713, 'learning_rate': 0.00012613893492370047, 'epoch': 0.68}
+{'loss': 1.4486, 'grad_norm': 0.10743429511785507, 'learning_rate': 0.00012595887509981844, 'epoch': 0.68}
+{'loss': 1.444, 'grad_norm': 0.09636445343494415, 'learning_rate': 0.00012577890059488136, 'epoch': 0.68}
+{'loss': 1.4414, 'grad_norm': 0.10139892250299454, 'learning_rate': 0.00012559901153268065, 'epoch': 0.68}
+{'loss': 1.4434, 'grad_norm': 0.10470281541347504, 'learning_rate': 0.000125419208036949, 'epoch': 0.68}
+{'loss': 1.4397, 'grad_norm': 0.11129329353570938, 'learning_rate': 0.00012523949023136028, 'epoch': 0.68}
+{'loss': 1.4539, 'grad_norm': 0.10215824097394943, 'learning_rate': 0.0001250598582395293, 'epoch': 0.68}
+{'loss': 1.4652, 'grad_norm': 0.11245166510343552, 'learning_rate': 0.00012488031218501217, 'epoch': 0.68}
+{'loss': 1.4396, 'grad_norm': 0.11448516696691513, 'learning_rate': 0.00012470085219130545, 'epoch': 0.68}
+{'loss': 1.4392, 'grad_norm': 0.11908077448606491, 'learning_rate': 0.00012452147838184694, 'epoch': 0.68}
+{'loss': 1.4651, 'grad_norm': 0.0989801213145256, 'learning_rate': 0.00012434219088001483, 'epoch': 0.68}
+{'loss': 1.4436, 'grad_norm': 0.10662975162267685, 'learning_rate': 0.00012416298980912798, 'epoch': 0.68}
+{'loss': 1.4491, 'grad_norm': 0.10051261633634567, 'learning_rate': 0.00012398387529244612, 'epoch': 0.68}
+{'loss': 1.4479, 'grad_norm': 0.12570011615753174, 'learning_rate': 0.00012380484745316904, 'epoch': 0.68}
+{'loss': 1.4421, 'grad_norm': 0.09755484759807587, 'learning_rate': 0.00012362590641443712, 'epoch': 0.68}
+{'loss': 1.444, 'grad_norm': 0.1075248047709465, 'learning_rate': 0.0001234470522993309, 'epoch': 0.68}
+{'loss': 1.4721, 'grad_norm': 0.1028885766863823, 'learning_rate': 0.0001232682852308713, 'epoch': 0.68}
+{'loss': 1.3975, 'grad_norm': 0.11128026992082596, 'learning_rate': 0.00012308960533201943, 'epoch': 0.68}
+{'loss': 1.415, 'grad_norm': 0.1005411297082901, 'learning_rate': 0.0001229110127256762, 'epoch': 0.68}
+{'loss': 1.4424, 'grad_norm': 0.10792388767004013, 'learning_rate': 0.00012273250753468254, 'epoch': 0.68}
+{'loss': 1.4692, 'grad_norm': 0.10526969283819199, 'learning_rate': 0.00012255408988181925, 'epoch': 0.68}
+{'loss': 1.4578, 'grad_norm': 0.09703723341226578, 'learning_rate': 0.00012237575988980717, 'epoch': 0.68}
+{'loss': 1.4534, 'grad_norm': 0.09628783166408539, 'learning_rate': 0.0001221975176813065, 'epoch': 0.68}
+{'loss': 1.4267, 'grad_norm': 0.10595279186964035, 'learning_rate': 0.00012201936337891714, 'epoch': 0.68}
+{'loss': 1.4329, 'grad_norm': 0.10555016994476318, 'learning_rate': 0.00012184129710517877, 'epoch': 0.68}
+{'loss': 1.4231, 'grad_norm': 0.11059385538101196, 'learning_rate': 0.00012166331898257017, 'epoch': 0.68}
+{'loss': 1.4339, 'grad_norm': 0.10044579207897186, 'learning_rate': 0.00012148542913350977, 'epoch': 0.68}
+{'loss': 1.4189, 'grad_norm': 0.10197169333696365, 'learning_rate': 0.00012130762768035517, 'epoch': 0.68}
+{'loss': 1.4046, 'grad_norm': 0.10862650722265244, 'learning_rate': 0.00012112991474540311, 'epoch': 0.68}
+{'loss': 1.4428, 'grad_norm': 0.11682209372520447, 'learning_rate': 0.00012095229045088949, 'epoch': 0.68}
+{'loss': 1.4581, 'grad_norm': 0.09446420520544052, 'learning_rate': 0.00012077475491898921, 'epoch': 0.68}
+{'loss': 1.4528, 'grad_norm': 0.12735095620155334, 'learning_rate': 0.00012059730827181634, 'epoch': 0.68}
+{'loss': 1.4498, 'grad_norm': 0.10273852944374084, 'learning_rate': 0.00012041995063142339, 'epoch': 0.68}
+{'loss': 1.4581, 'grad_norm': 0.11508407443761826, 'learning_rate': 0.00012024268211980214, 'epoch': 0.68}
+{'loss': 1.4696, 'grad_norm': 0.10582557320594788, 'learning_rate': 0.0001200655028588827, 'epoch': 0.68}
+{'loss': 1.4735, 'grad_norm': 0.10676631331443787, 'learning_rate': 0.00011988841297053379, 'epoch': 0.68}
+{'loss': 1.4507, 'grad_norm': 0.10248374193906784, 'learning_rate': 0.00011971141257656301, 'epoch': 0.68}
+{'loss': 1.4348, 'grad_norm': 0.11214786022901535, 'learning_rate': 0.00011953450179871606, 'epoch': 0.68}
+{'loss': 1.4506, 'grad_norm': 0.0952557846903801, 'learning_rate': 0.00011935768075867707, 'epoch': 0.68}
+{'loss': 1.4328, 'grad_norm': 0.10061486065387726, 'learning_rate': 0.0001191809495780684, 'epoch': 0.69}
+{'loss': 1.4159, 'grad_norm': 0.10920081287622452, 'learning_rate': 0.0001190043083784508, 'epoch': 0.69}
+{'loss': 1.4373, 'grad_norm': 0.11611112207174301, 'learning_rate': 0.00011882775728132309, 'epoch': 0.69}
+{'loss': 1.4365, 'grad_norm': 0.10023369640111923, 'learning_rate': 0.00011865129640812198, 'epoch': 0.69}
+{'loss': 1.4081, 'grad_norm': 0.0991024598479271, 'learning_rate': 0.00011847492588022213, 'epoch': 0.69}
+{'loss': 1.4279, 'grad_norm': 0.12354515492916107, 'learning_rate': 0.000118298645818936, 'epoch': 0.69}
+{'loss': 1.4342, 'grad_norm': 0.11907064914703369, 'learning_rate': 0.00011812245634551421, 'epoch': 0.69}
+{'loss': 1.4384, 'grad_norm': 0.11025530844926834, 'learning_rate': 0.00011794635758114464, 'epoch': 0.69}
+{'loss': 1.4408, 'grad_norm': 0.1262606978416443, 'learning_rate': 0.00011777034964695282, 'epoch': 0.69}
+{'loss': 1.4498, 'grad_norm': 0.12137911468744278, 'learning_rate': 0.00011759443266400213, 'epoch': 0.69}
+{'loss': 1.4205, 'grad_norm': 0.10734790563583374, 'learning_rate': 0.00011741860675329296, 'epoch': 0.69}
+{'loss': 1.4637, 'grad_norm': 0.10817182064056396, 'learning_rate': 0.00011724287203576353, 'epoch': 0.69}
+{'loss': 1.4383, 'grad_norm': 0.14806848764419556, 'learning_rate': 0.00011706722863228892, 'epoch': 0.69}
+{'loss': 1.4575, 'grad_norm': 0.09901890158653259, 'learning_rate': 0.00011689167666368155, 'epoch': 0.69}
+{'loss': 1.4447, 'grad_norm': 0.11594518274068832, 'learning_rate': 0.00011671621625069103, 'epoch': 0.69}
+{'loss': 1.4317, 'grad_norm': 0.1291016787290573, 'learning_rate': 0.00011654084751400379, 'epoch': 0.69}
+{'loss': 1.4259, 'grad_norm': 0.11381108313798904, 'learning_rate': 0.00011636557057424344, 'epoch': 0.69}
+{'loss': 1.4329, 'grad_norm': 0.10842307657003403, 'learning_rate': 0.00011619038555197042, 'epoch': 0.69}
+{'loss': 1.4407, 'grad_norm': 0.12191271036863327, 'learning_rate': 0.00011601529256768181, 'epoch': 0.69}
+{'loss': 1.4185, 'grad_norm': 0.11944454908370972, 'learning_rate': 0.00011584029174181132, 'epoch': 0.69}
+{'loss': 1.4173, 'grad_norm': 0.10391675680875778, 'learning_rate': 0.00011566538319472963, 'epoch': 0.69}
+{'loss': 1.4289, 'grad_norm': 0.09849517792463303, 'learning_rate': 0.00011549056704674357, 'epoch': 0.69}
+{'loss': 1.4356, 'grad_norm': 0.11963902413845062, 'learning_rate': 0.00011531584341809661, 'epoch': 0.69}
+{'loss': 1.4287, 'grad_norm': 0.11543402820825577, 'learning_rate': 0.0001151412124289684, 'epoch': 0.69}
+{'loss': 1.4535, 'grad_norm': 0.0986187532544136, 'learning_rate': 0.00011496667419947515, 'epoch': 0.69}
+{'loss': 1.4347, 'grad_norm': 0.11961657553911209, 'learning_rate': 0.00011479222884966916, 'epoch': 0.69}
+{'loss': 1.4322, 'grad_norm': 0.1229998916387558, 'learning_rate': 0.00011461787649953875, 'epoch': 0.69}
+{'loss': 1.4421, 'grad_norm': 0.11172915995121002, 'learning_rate': 0.00011444361726900832, 'epoch': 0.69}
+{'loss': 1.4506, 'grad_norm': 0.10441874712705612, 'learning_rate': 0.0001142694512779382, 'epoch': 0.69}
+{'loss': 1.4501, 'grad_norm': 0.10443200170993805, 'learning_rate': 0.00011409537864612454, 'epoch': 0.69}
+{'loss': 1.4437, 'grad_norm': 0.10958870500326157, 'learning_rate': 0.00011392139949329957, 'epoch': 0.69}
+{'loss': 1.444, 'grad_norm': 0.097922183573246, 'learning_rate': 0.00011374751393913078, 'epoch': 0.69}
+{'loss': 1.4105, 'grad_norm': 0.10312921553850174, 'learning_rate': 0.0001135737221032217, 'epoch': 0.69}
+{'loss': 1.4525, 'grad_norm': 0.12658385932445526, 'learning_rate': 0.0001134000241051111, 'epoch': 0.69}
+{'loss': 1.4637, 'grad_norm': 0.09847717732191086, 'learning_rate': 0.00011322642006427322, 'epoch': 0.69}
+{'loss': 1.4459, 'grad_norm': 0.10582678020000458, 'learning_rate': 0.00011305291010011795, 'epoch': 0.69}
+{'loss': 1.4427, 'grad_norm': 0.11044987291097641, 'learning_rate': 0.00011287949433199018, 'epoch': 0.69}
+{'loss': 1.4132, 'grad_norm': 0.11660461872816086, 'learning_rate': 0.00011270617287917016, 'epoch': 0.69}
+{'loss': 1.4334, 'grad_norm': 0.10001660883426666, 'learning_rate': 0.00011253294586087304, 'epoch': 0.69}
+{'loss': 1.4495, 'grad_norm': 0.1220955178141594, 'learning_rate': 0.00011235981339624935, 'epoch': 0.7}
+{'loss': 1.4481, 'grad_norm': 0.12119244784116745, 'learning_rate': 0.00011218677560438448, 'epoch': 0.7}
+{'loss': 1.4563, 'grad_norm': 0.10471191257238388, 'learning_rate': 0.00011201383260429859, 'epoch': 0.7}
+{'loss': 1.4409, 'grad_norm': 0.1166408360004425, 'learning_rate': 0.0001118409845149467, 'epoch': 0.7}
+{'loss': 1.4607, 'grad_norm': 0.11185402423143387, 'learning_rate': 0.00011166823145521842, 'epoch': 0.7}
+{'loss': 1.4432, 'grad_norm': 0.10933897644281387, 'learning_rate': 0.00011149557354393832, 'epoch': 0.7}
+{'loss': 1.4279, 'grad_norm': 0.105318583548069, 'learning_rate': 0.00011132301089986527, 'epoch': 0.7}
+{'loss': 1.44, 'grad_norm': 0.1070512980222702, 'learning_rate': 0.00011115054364169253, 'epoch': 0.7}
+{'loss': 1.4414, 'grad_norm': 0.11493837088346481, 'learning_rate': 0.0001109781718880481, 'epoch': 0.7}
+{'loss': 1.4499, 'grad_norm': 0.10694535821676254, 'learning_rate': 0.00011080589575749386, 'epoch': 0.7}
+{'loss': 1.4395, 'grad_norm': 0.1126992329955101, 'learning_rate': 0.00011063371536852637, 'epoch': 0.7}
+{'loss': 1.4387, 'grad_norm': 0.1118502989411354, 'learning_rate': 0.00011046163083957597, 'epoch': 0.7}
+{'loss': 1.4634, 'grad_norm': 0.11307838559150696, 'learning_rate': 0.00011028964228900723, 'epoch': 0.7}
+{'loss': 1.4503, 'grad_norm': 0.09706389904022217, 'learning_rate': 0.00011011774983511865, 'epoch': 0.7}
+{'loss': 1.456, 'grad_norm': 0.12051907181739807, 'learning_rate': 0.00010994595359614257, 'epoch': 0.7}
+{'loss': 1.4152, 'grad_norm': 0.11350777745246887, 'learning_rate': 0.00010977425369024543, 'epoch': 0.7}
+{'loss': 1.4392, 'grad_norm': 0.10572420060634613, 'learning_rate': 0.00010960265023552701, 'epoch': 0.7}
+{'loss': 1.45, 'grad_norm': 0.10578561574220657, 'learning_rate': 0.00010943114335002113, 'epoch': 0.7}
+{'loss': 1.4297, 'grad_norm': 0.09641251713037491, 'learning_rate': 0.00010925973315169485, 'epoch': 0.7}
+{'loss': 1.4667, 'grad_norm': 0.10333345085382462, 'learning_rate': 0.00010908841975844905, 'epoch': 0.7}
+{'loss': 1.4531, 'grad_norm': 0.12371639907360077, 'learning_rate': 0.00010891720328811777, 'epoch': 0.7}
+{'loss': 1.4482, 'grad_norm': 0.10145479440689087, 'learning_rate': 0.00010874608385846846, 'epoch': 0.7}
+{'loss': 1.4429, 'grad_norm': 0.10250366479158401, 'learning_rate': 0.00010857506158720187, 'epoch': 0.7}
+{'loss': 1.4654, 'grad_norm': 0.0996972918510437, 'learning_rate': 0.00010840413659195178, 'epoch': 0.7}
+{'loss': 1.4391, 'grad_norm': 0.11164937168359756, 'learning_rate': 0.00010823330899028524, 'epoch': 0.7}
+{'loss': 1.4653, 'grad_norm': 0.11117390543222427, 'learning_rate': 0.00010806257889970237, 'epoch': 0.7}
+{'loss': 1.4317, 'grad_norm': 0.1148105189204216, 'learning_rate': 0.00010789194643763597, 'epoch': 0.7}
+{'loss': 1.4283, 'grad_norm': 0.10259012877941132, 'learning_rate': 0.00010772141172145181, 'epoch': 0.7}
+{'loss': 1.453, 'grad_norm': 0.10412825644016266, 'learning_rate': 0.00010755097486844831, 'epoch': 0.7}
+{'loss': 1.4612, 'grad_norm': 0.09783174842596054, 'learning_rate': 0.0001073806359958569, 'epoch': 0.7}
+{'loss': 1.4356, 'grad_norm': 0.10562848299741745, 'learning_rate': 0.00010721039522084134, 'epoch': 0.7}
+{'loss': 1.4504, 'grad_norm': 0.11575659364461899, 'learning_rate': 0.00010704025266049782, 'epoch': 0.7}
+{'loss': 1.455, 'grad_norm': 0.09879756718873978, 'learning_rate': 0.00010687020843185538, 'epoch': 0.7}
+{'loss': 1.4459, 'grad_norm': 0.10881244391202927, 'learning_rate': 0.00010670026265187499, 'epoch': 0.7}
+{'loss': 1.4269, 'grad_norm': 0.10829156637191772, 'learning_rate': 0.00010653041543745027, 'epoch': 0.7}
+{'loss': 1.4358, 'grad_norm': 0.1163266971707344, 'learning_rate': 0.00010636066690540677, 'epoch': 0.7}
+{'loss': 1.4436, 'grad_norm': 0.10480149835348129, 'learning_rate': 0.00010619101717250226, 'epoch': 0.7}
+{'loss': 1.4247, 'grad_norm': 0.10265829414129257, 'learning_rate': 0.0001060214663554265, 'epoch': 0.7}
+{'loss': 1.4557, 'grad_norm': 0.10206498205661774, 'learning_rate': 0.00010585201457080144, 'epoch': 0.7}
+{'loss': 1.4341, 'grad_norm': 0.1096256673336029, 'learning_rate': 0.00010568266193518053, 'epoch': 0.71}
+{'loss': 1.4441, 'grad_norm': 0.10744789987802505, 'learning_rate': 0.00010551340856504946, 'epoch': 0.71}
+{'loss': 1.4243, 'grad_norm': 0.10040528327226639, 'learning_rate': 0.0001053442545768253, 'epoch': 0.71}
+{'loss': 1.4423, 'grad_norm': 0.09977683424949646, 'learning_rate': 0.0001051752000868568, 'epoch': 0.71}
+{'loss': 1.4424, 'grad_norm': 0.11153887957334518, 'learning_rate': 0.00010500624521142455, 'epoch': 0.71}
+{'loss': 1.4499, 'grad_norm': 0.09309011697769165, 'learning_rate': 0.00010483739006674029, 'epoch': 0.71}
+{'loss': 1.4703, 'grad_norm': 0.10538867115974426, 'learning_rate': 0.00010466863476894733, 'epoch': 0.71}
+{'loss': 1.433, 'grad_norm': 0.1180746853351593, 'learning_rate': 0.00010449997943412018, 'epoch': 0.71}
+{'loss': 1.4551, 'grad_norm': 0.11713553965091705, 'learning_rate': 0.00010433142417826477, 'epoch': 0.71}
+{'loss': 1.4513, 'grad_norm': 0.11636648327112198, 'learning_rate': 0.00010416296911731818, 'epoch': 0.71}
+{'loss': 1.4452, 'grad_norm': 0.11147310584783554, 'learning_rate': 0.00010399461436714844, 'epoch': 0.71}
+{'loss': 1.4216, 'grad_norm': 0.10910879075527191, 'learning_rate': 0.00010382636004355459, 'epoch': 0.71}
+{'loss': 1.4259, 'grad_norm': 0.10468793660402298, 'learning_rate': 0.00010365820626226671, 'epoch': 0.71}
+{'loss': 1.4667, 'grad_norm': 0.09717263281345367, 'learning_rate': 0.00010349015313894552, 'epoch': 0.71}
+{'loss': 1.4259, 'grad_norm': 0.10972145944833755, 'learning_rate': 0.00010332220078918286, 'epoch': 0.71}
+{'loss': 1.4553, 'grad_norm': 0.10426410287618637, 'learning_rate': 0.00010315434932850081, 'epoch': 0.71}
+{'loss': 1.44, 'grad_norm': 0.10353481024503708, 'learning_rate': 0.00010298659887235254, 'epoch': 0.71}
+{'loss': 1.405, 'grad_norm': 0.10299576073884964, 'learning_rate': 0.00010281894953612134, 'epoch': 0.71}
+{'loss': 1.4349, 'grad_norm': 0.09386269748210907, 'learning_rate': 0.00010265140143512103, 'epoch': 0.71}
+{'loss': 1.4409, 'grad_norm': 0.11022231727838516, 'learning_rate': 0.00010248395468459607, 'epoch': 0.71}
+{'loss': 1.4339, 'grad_norm': 0.10067567229270935, 'learning_rate': 0.00010231660939972084, 'epoch': 0.71}
+{'loss': 1.4348, 'grad_norm': 0.09537608176469803, 'learning_rate': 0.00010214936569560019, 'epoch': 0.71}
+{'loss': 1.4406, 'grad_norm': 0.10013977438211441, 'learning_rate': 0.00010198222368726884, 'epoch': 0.71}
+{'loss': 1.4445, 'grad_norm': 0.09666626900434494, 'learning_rate': 0.00010181518348969188, 'epoch': 0.71}
+{'loss': 1.4136, 'grad_norm': 0.09160143882036209, 'learning_rate': 0.00010164824521776423, 'epoch': 0.71}
+{'loss': 1.4301, 'grad_norm': 0.11353810876607895, 'learning_rate': 0.00010148140898631064, 'epoch': 0.71}
+{'loss': 1.443, 'grad_norm': 0.09924312680959702, 'learning_rate': 0.00010131467491008573, 'epoch': 0.71}
+{'loss': 1.4148, 'grad_norm': 0.10658805072307587, 'learning_rate': 0.00010114804310377377, 'epoch': 0.71}
+{'loss': 1.4383, 'grad_norm': 0.11357705295085907, 'learning_rate': 0.00010098151368198887, 'epoch': 0.71}
+{'loss': 1.4258, 'grad_norm': 0.10482408851385117, 'learning_rate': 0.00010081508675927461, 'epoch': 0.71}
+{'loss': 1.4134, 'grad_norm': 0.11050735414028168, 'learning_rate': 0.00010064876245010394, 'epoch': 0.71}
+{'loss': 1.4234, 'grad_norm': 0.10114888846874237, 'learning_rate': 0.0001004825408688795, 'epoch': 0.71}
+{'loss': 1.4282, 'grad_norm': 0.10725980252027512, 'learning_rate': 0.00010031642212993303, 'epoch': 0.71}
+{'loss': 1.4561, 'grad_norm': 0.10590741783380508, 'learning_rate': 0.00010015040634752576, 'epoch': 0.71}
+{'loss': 1.4536, 'grad_norm': 0.09337061643600464, 'learning_rate': 9.998449363584788e-05, 'epoch': 0.71}
+{'loss': 1.4336, 'grad_norm': 0.10031329840421677, 'learning_rate': 9.981868410901878e-05, 'epoch': 0.71}
+{'loss': 1.4557, 'grad_norm': 0.10223597288131714, 'learning_rate': 9.96529778810869e-05, 'epoch': 0.71}
+{'loss': 1.4401, 'grad_norm': 0.09820433706045151, 'learning_rate': 9.948737506602954e-05, 'epoch': 0.71}
+{'loss': 1.4454, 'grad_norm': 0.10948220640420914, 'learning_rate': 9.932187577775303e-05, 'epoch': 0.71}
+{'loss': 1.4564, 'grad_norm': 0.12605315446853638, 'learning_rate': 9.91564801300923e-05, 'epoch': 0.72}
+{'loss': 1.4377, 'grad_norm': 0.09342598170042038, 'learning_rate': 9.899118823681122e-05, 'epoch': 0.72}
+{'loss': 1.4276, 'grad_norm': 0.11121167987585068, 'learning_rate': 9.882600021160198e-05, 'epoch': 0.72}
+{'loss': 1.4291, 'grad_norm': 0.11034398525953293, 'learning_rate': 9.866091616808573e-05, 'epoch': 0.72}
+{'loss': 1.4086, 'grad_norm': 0.1162429004907608, 'learning_rate': 9.849593621981176e-05, 'epoch': 0.72}
+{'loss': 1.4443, 'grad_norm': 0.11683475971221924, 'learning_rate': 9.833106048025786e-05, 'epoch': 0.72}
+{'loss': 1.45, 'grad_norm': 0.11360175907611847, 'learning_rate': 9.81662890628302e-05, 'epoch': 0.72}
+{'loss': 1.4417, 'grad_norm': 0.11424020677804947, 'learning_rate': 9.800162208086309e-05, 'epoch': 0.72}
+{'loss': 1.4268, 'grad_norm': 0.12136061489582062, 'learning_rate': 9.783705964761907e-05, 'epoch': 0.72}
+{'loss': 1.4531, 'grad_norm': 0.10611280798912048, 'learning_rate': 9.767260187628896e-05, 'epoch': 0.72}
+{'loss': 1.4358, 'grad_norm': 0.1052507758140564, 'learning_rate': 9.750824887999124e-05, 'epoch': 0.72}
+{'loss': 1.4253, 'grad_norm': 0.13135093450546265, 'learning_rate': 9.734400077177252e-05, 'epoch': 0.72}
+{'loss': 1.4548, 'grad_norm': 0.11232543736696243, 'learning_rate': 9.717985766460713e-05, 'epoch': 0.72}
+{'loss': 1.4609, 'grad_norm': 0.10444587469100952, 'learning_rate': 9.701581967139747e-05, 'epoch': 0.72}
+{'loss': 1.4501, 'grad_norm': 0.10474182665348053, 'learning_rate': 9.685188690497334e-05, 'epoch': 0.72}
+{'loss': 1.4428, 'grad_norm': 0.12076599895954132, 'learning_rate': 9.668805947809218e-05, 'epoch': 0.72}
+{'loss': 1.4351, 'grad_norm': 0.11135727912187576, 'learning_rate': 9.652433750343923e-05, 'epoch': 0.72}
+{'loss': 1.4286, 'grad_norm': 0.10819167643785477, 'learning_rate': 9.636072109362687e-05, 'epoch': 0.72}
+{'loss': 1.4668, 'grad_norm': 0.1056591048836708, 'learning_rate': 9.619721036119522e-05, 'epoch': 0.72}
+{'loss': 1.4408, 'grad_norm': 0.10340343415737152, 'learning_rate': 9.60338054186114e-05, 'epoch': 0.72}
+{'loss': 1.4234, 'grad_norm': 0.11815982311964035, 'learning_rate': 9.587050637826991e-05, 'epoch': 0.72}
+{'loss': 1.4066, 'grad_norm': 0.10933749377727509, 'learning_rate': 9.570731335249228e-05, 'epoch': 0.72}
+{'loss': 1.4249, 'grad_norm': 0.10010644793510437, 'learning_rate': 9.554422645352742e-05, 'epoch': 0.72}
+{'loss': 1.4678, 'grad_norm': 0.11531014740467072, 'learning_rate': 9.538124579355084e-05, 'epoch': 0.72}
+{'loss': 1.4286, 'grad_norm': 0.1185053363442421, 'learning_rate': 9.521837148466538e-05, 'epoch': 0.72}
+{'loss': 1.438, 'grad_norm': 0.12415149062871933, 'learning_rate': 9.505560363890048e-05, 'epoch': 0.72}
+{'loss': 1.4143, 'grad_norm': 0.10060375928878784, 'learning_rate': 9.489294236821224e-05, 'epoch': 0.72}
+{'loss': 1.4278, 'grad_norm': 0.09731049090623856, 'learning_rate': 9.473038778448384e-05, 'epoch': 0.72}
+{'loss': 1.4349, 'grad_norm': 0.12480959296226501, 'learning_rate': 9.456793999952478e-05, 'epoch': 0.72}
+{'loss': 1.408, 'grad_norm': 0.10707475990056992, 'learning_rate': 9.440559912507113e-05, 'epoch': 0.72}
+{'loss': 1.442, 'grad_norm': 0.11449030041694641, 'learning_rate': 9.424336527278543e-05, 'epoch': 0.72}
+{'loss': 1.4359, 'grad_norm': 0.10435330122709274, 'learning_rate': 9.408123855425671e-05, 'epoch': 0.72}
+{'loss': 1.4384, 'grad_norm': 0.10681039839982986, 'learning_rate': 9.391921908100032e-05, 'epoch': 0.72}
+{'loss': 1.4583, 'grad_norm': 0.12058226019144058, 'learning_rate': 9.375730696445772e-05, 'epoch': 0.72}
+{'loss': 1.45, 'grad_norm': 0.1239231526851654, 'learning_rate': 9.359550231599657e-05, 'epoch': 0.72}
+{'loss': 1.4327, 'grad_norm': 0.1114567294716835, 'learning_rate': 9.343380524691061e-05, 'epoch': 0.72}
+{'loss': 1.4357, 'grad_norm': 0.12249184399843216, 'learning_rate': 9.327221586841952e-05, 'epoch': 0.72}
+{'loss': 1.442, 'grad_norm': 0.10697636008262634, 'learning_rate': 9.311073429166913e-05, 'epoch': 0.72}
+{'loss': 1.4283, 'grad_norm': 0.10836539417505264, 'learning_rate': 9.294936062773082e-05, 'epoch': 0.72}
+{'loss': 1.4352, 'grad_norm': 0.12622080743312836, 'learning_rate': 9.278809498760205e-05, 'epoch': 0.72}
+{'loss': 1.4378, 'grad_norm': 0.10901322960853577, 'learning_rate': 9.262693748220569e-05, 'epoch': 0.73}
+{'loss': 1.4691, 'grad_norm': 0.09762009978294373, 'learning_rate': 9.24658882223905e-05, 'epoch': 0.73}
+{'loss': 1.4475, 'grad_norm': 0.11517810821533203, 'learning_rate': 9.230494731893058e-05, 'epoch': 0.73}
+{'loss': 1.436, 'grad_norm': 0.11824337393045425, 'learning_rate': 9.214411488252555e-05, 'epoch': 0.73}
+{'loss': 1.44, 'grad_norm': 0.09701330959796906, 'learning_rate': 9.198339102380049e-05, 'epoch': 0.73}
+{'loss': 1.4522, 'grad_norm': 0.1056172102689743, 'learning_rate': 9.182277585330565e-05, 'epoch': 0.73}
+{'loss': 1.4347, 'grad_norm': 0.11221194267272949, 'learning_rate': 9.166226948151676e-05, 'epoch': 0.73}
+{'loss': 1.4484, 'grad_norm': 0.10347408056259155, 'learning_rate': 9.150187201883445e-05, 'epoch': 0.73}
+{'loss': 1.4537, 'grad_norm': 0.10941419005393982, 'learning_rate': 9.134158357558473e-05, 'epoch': 0.73}
+{'loss': 1.4023, 'grad_norm': 0.09934937208890915, 'learning_rate': 9.118140426201834e-05, 'epoch': 0.73}
+{'loss': 1.46, 'grad_norm': 0.09720799326896667, 'learning_rate': 9.102133418831104e-05, 'epoch': 0.73}
+{'loss': 1.4449, 'grad_norm': 0.101846843957901, 'learning_rate': 9.086137346456366e-05, 'epoch': 0.73}
+{'loss': 1.3987, 'grad_norm': 0.11610086262226105, 'learning_rate': 9.070152220080152e-05, 'epoch': 0.73}
+{'loss': 1.4545, 'grad_norm': 0.10450967401266098, 'learning_rate': 9.054178050697482e-05, 'epoch': 0.73}
+{'loss': 1.4212, 'grad_norm': 0.09727738052606583, 'learning_rate': 9.038214849295822e-05, 'epoch': 0.73}
+{'loss': 1.4389, 'grad_norm': 0.09816138446331024, 'learning_rate': 9.022262626855121e-05, 'epoch': 0.73}
+{'loss': 1.4382, 'grad_norm': 0.11151337623596191, 'learning_rate': 9.006321394347769e-05, 'epoch': 0.73}
+{'loss': 1.4209, 'grad_norm': 0.10594829171895981, 'learning_rate': 8.990391162738581e-05, 'epoch': 0.73}
+{'loss': 1.4412, 'grad_norm': 0.11002661287784576, 'learning_rate': 8.974471942984813e-05, 'epoch': 0.73}
+{'loss': 1.4399, 'grad_norm': 0.11460704356431961, 'learning_rate': 8.958563746036144e-05, 'epoch': 0.73}
+{'loss': 1.4379, 'grad_norm': 0.10228228569030762, 'learning_rate': 8.942666582834688e-05, 'epoch': 0.73}
+{'loss': 1.4523, 'grad_norm': 0.0975659191608429, 'learning_rate': 8.926780464314951e-05, 'epoch': 0.73}
+{'loss': 1.4512, 'grad_norm': 0.09962958842515945, 'learning_rate': 8.91090540140384e-05, 'epoch': 0.73}
+{'loss': 1.4423, 'grad_norm': 0.09851247817277908, 'learning_rate': 8.895041405020685e-05, 'epoch': 0.73}
+{'loss': 1.4396, 'grad_norm': 0.09839499741792679, 'learning_rate': 8.879188486077161e-05, 'epoch': 0.73}
+{'loss': 1.4545, 'grad_norm': 0.10427065193653107, 'learning_rate': 8.863346655477373e-05, 'epoch': 0.73}
+{'loss': 1.4712, 'grad_norm': 0.1005486473441124, 'learning_rate': 8.84751592411776e-05, 'epoch': 0.73}
+{'loss': 1.4414, 'grad_norm': 0.10122248530387878, 'learning_rate': 8.831696302887144e-05, 'epoch': 0.73}
+{'loss': 1.4284, 'grad_norm': 0.10131730884313583, 'learning_rate': 8.815887802666698e-05, 'epoch': 0.73}
+{'loss': 1.4528, 'grad_norm': 0.0986456349492073, 'learning_rate': 8.800090434329944e-05, 'epoch': 0.73}
+{'loss': 1.451, 'grad_norm': 0.10168083012104034, 'learning_rate': 8.784304208742758e-05, 'epoch': 0.73}
+{'loss': 1.4302, 'grad_norm': 0.10541708767414093, 'learning_rate': 8.768529136763359e-05, 'epoch': 0.73}
+{'loss': 1.4568, 'grad_norm': 0.09467241168022156, 'learning_rate': 8.752765229242268e-05, 'epoch': 0.73}
+{'loss': 1.4474, 'grad_norm': 0.1159607544541359, 'learning_rate': 8.737012497022342e-05, 'epoch': 0.73}
+{'loss': 1.4346, 'grad_norm': 0.11147964000701904, 'learning_rate': 8.721270950938744e-05, 'epoch': 0.73}
+{'loss': 1.4105, 'grad_norm': 0.09679931402206421, 'learning_rate': 8.705540601818962e-05, 'epoch': 0.73}
+{'loss': 1.4271, 'grad_norm': 0.09666964411735535, 'learning_rate': 8.689821460482761e-05, 'epoch': 0.73}
+{'loss': 1.4295, 'grad_norm': 0.10672549903392792, 'learning_rate': 8.674113537742198e-05, 'epoch': 0.73}
+{'loss': 1.4329, 'grad_norm': 0.09634130448102951, 'learning_rate': 8.658416844401626e-05, 'epoch': 0.73}
+{'loss': 1.4441, 'grad_norm': 0.10214362293481827, 'learning_rate': 8.642731391257678e-05, 'epoch': 0.74}
+{'loss': 1.431, 'grad_norm': 0.10064471513032913, 'learning_rate': 8.627057189099238e-05, 'epoch': 0.74}
+{'loss': 1.4496, 'grad_norm': 0.10213924944400787, 'learning_rate': 8.61139424870746e-05, 'epoch': 0.74}
+{'loss': 1.4822, 'grad_norm': 0.10518503934144974, 'learning_rate': 8.59574258085575e-05, 'epoch': 0.74}
+{'loss': 1.4448, 'grad_norm': 0.10275056958198547, 'learning_rate': 8.580102196309752e-05, 'epoch': 0.74}
+{'loss': 1.4302, 'grad_norm': 0.09893801063299179, 'learning_rate': 8.564473105827381e-05, 'epoch': 0.74}
+{'loss': 1.4272, 'grad_norm': 0.09791211783885956, 'learning_rate': 8.548855320158735e-05, 'epoch': 0.74}
+{'loss': 1.4008, 'grad_norm': 0.12152128666639328, 'learning_rate': 8.533248850046191e-05, 'epoch': 0.74}
+{'loss': 1.4504, 'grad_norm': 0.10411044955253601, 'learning_rate': 8.517653706224296e-05, 'epoch': 0.74}
+{'loss': 1.4331, 'grad_norm': 0.09617727249860764, 'learning_rate': 8.50206989941982e-05, 'epoch': 0.74}
+{'loss': 1.4391, 'grad_norm': 0.10813556611537933, 'learning_rate': 8.48649744035176e-05, 'epoch': 0.74}
+{'loss': 1.4544, 'grad_norm': 0.10670872032642365, 'learning_rate': 8.470936339731275e-05, 'epoch': 0.74}
+{'loss': 1.4465, 'grad_norm': 0.09341903030872345, 'learning_rate': 8.455386608261722e-05, 'epoch': 0.74}
+{'loss': 1.4446, 'grad_norm': 0.10963938385248184, 'learning_rate': 8.439848256638639e-05, 'epoch': 0.74}
+{'loss': 1.4376, 'grad_norm': 0.09070920199155807, 'learning_rate': 8.424321295549739e-05, 'epoch': 0.74}
+{'loss': 1.4435, 'grad_norm': 0.1083735004067421, 'learning_rate': 8.408805735674912e-05, 'epoch': 0.74}
+{'loss': 1.4268, 'grad_norm': 0.11285160481929779, 'learning_rate': 8.393301587686181e-05, 'epoch': 0.74}
+{'loss': 1.4429, 'grad_norm': 0.11116691678762436, 'learning_rate': 8.377808862247733e-05, 'epoch': 0.74}
+{'loss': 1.3984, 'grad_norm': 0.10128817707300186, 'learning_rate': 8.362327570015888e-05, 'epoch': 0.74}
+{'loss': 1.4469, 'grad_norm': 0.099567711353302, 'learning_rate': 8.346857721639128e-05, 'epoch': 0.74}
+{'loss': 1.425, 'grad_norm': 0.10879938304424286, 'learning_rate': 8.331399327758035e-05, 'epoch': 0.74}
+{'loss': 1.4294, 'grad_norm': 0.10296735912561417, 'learning_rate': 8.315952399005319e-05, 'epoch': 0.74}
+{'loss': 1.4649, 'grad_norm': 0.10955432802438736, 'learning_rate': 8.30051694600582e-05, 'epoch': 0.74}
+{'loss': 1.4681, 'grad_norm': 0.10975010693073273, 'learning_rate': 8.285092979376463e-05, 'epoch': 0.74}
+{'loss': 1.4286, 'grad_norm': 0.10592722147703171, 'learning_rate': 8.269680509726293e-05, 'epoch': 0.74}
+{'loss': 1.4281, 'grad_norm': 0.1022961214184761, 'learning_rate': 8.254279547656432e-05, 'epoch': 0.74}
+{'loss': 1.4441, 'grad_norm': 0.1077723428606987, 'learning_rate': 8.238890103760088e-05, 'epoch': 0.74}
+{'loss': 1.4289, 'grad_norm': 0.10548027604818344, 'learning_rate': 8.223512188622553e-05, 'epoch': 0.74}
+{'loss': 1.434, 'grad_norm': 0.10921596735715866, 'learning_rate': 8.208145812821175e-05, 'epoch': 0.74}
+{'loss': 1.4435, 'grad_norm': 0.10262648016214371, 'learning_rate': 8.192790986925395e-05, 'epoch': 0.74}
+{'loss': 1.4652, 'grad_norm': 0.11347375065088272, 'learning_rate': 8.17744772149667e-05, 'epoch': 0.74}
+{'loss': 1.4188, 'grad_norm': 0.10640796273946762, 'learning_rate': 8.162116027088545e-05, 'epoch': 0.74}
+{'loss': 1.4331, 'grad_norm': 0.10656490176916122, 'learning_rate': 8.146795914246579e-05, 'epoch': 0.74}
+{'loss': 1.4206, 'grad_norm': 0.10303173959255219, 'learning_rate': 8.131487393508366e-05, 'epoch': 0.74}
+{'loss': 1.4524, 'grad_norm': 0.10212062299251556, 'learning_rate': 8.116190475403545e-05, 'epoch': 0.74}
+{'loss': 1.4356, 'grad_norm': 0.10618195682764053, 'learning_rate': 8.10090517045376e-05, 'epoch': 0.74}
+{'loss': 1.4516, 'grad_norm': 0.09675421565771103, 'learning_rate': 8.085631489172665e-05, 'epoch': 0.74}
+{'loss': 1.4479, 'grad_norm': 0.11374112218618393, 'learning_rate': 8.07036944206592e-05, 'epoch': 0.74}
+{'loss': 1.4201, 'grad_norm': 0.09652906656265259, 'learning_rate': 8.055119039631192e-05, 'epoch': 0.74}
+{'loss': 1.4348, 'grad_norm': 0.09960701316595078, 'learning_rate': 8.039880292358142e-05, 'epoch': 0.75}
+{'loss': 1.4411, 'grad_norm': 0.11148945242166519, 'learning_rate': 8.024653210728397e-05, 'epoch': 0.75}
+{'loss': 1.4626, 'grad_norm': 0.10564207285642624, 'learning_rate': 8.009437805215572e-05, 'epoch': 0.75}
+{'loss': 1.4383, 'grad_norm': 0.08962181955575943, 'learning_rate': 7.994234086285235e-05, 'epoch': 0.75}
+{'loss': 1.4325, 'grad_norm': 0.09941130131483078, 'learning_rate': 7.979042064394942e-05, 'epoch': 0.75}
+{'loss': 1.4317, 'grad_norm': 0.10368458181619644, 'learning_rate': 7.963861749994188e-05, 'epoch': 0.75}
+{'loss': 1.429, 'grad_norm': 0.09566237032413483, 'learning_rate': 7.948693153524403e-05, 'epoch': 0.75}
+{'loss': 1.4415, 'grad_norm': 0.09976507723331451, 'learning_rate': 7.93353628541899e-05, 'epoch': 0.75}
+{'loss': 1.4402, 'grad_norm': 0.09968914836645126, 'learning_rate': 7.918391156103247e-05, 'epoch': 0.75}
+{'loss': 1.4493, 'grad_norm': 0.09794878214597702, 'learning_rate': 7.903257775994432e-05, 'epoch': 0.75}
+{'loss': 1.4478, 'grad_norm': 0.09915721416473389, 'learning_rate': 7.888136155501701e-05, 'epoch': 0.75}
+{'loss': 1.4678, 'grad_norm': 0.090095154941082, 'learning_rate': 7.873026305026126e-05, 'epoch': 0.75}
+{'loss': 1.4494, 'grad_norm': 0.08820926398038864, 'learning_rate': 7.857928234960682e-05, 'epoch': 0.75}
+{'loss': 1.4277, 'grad_norm': 0.10445279628038406, 'learning_rate': 7.842841955690232e-05, 'epoch': 0.75}
+{'loss': 1.4253, 'grad_norm': 0.11144828796386719, 'learning_rate': 7.827767477591552e-05, 'epoch': 0.75}
+{'loss': 1.4272, 'grad_norm': 0.10379147529602051, 'learning_rate': 7.812704811033294e-05, 'epoch': 0.75}
+{'loss': 1.4394, 'grad_norm': 0.0926949605345726, 'learning_rate': 7.797653966375973e-05, 'epoch': 0.75}
+{'loss': 1.4158, 'grad_norm': 0.09245699644088745, 'learning_rate': 7.782614953971981e-05, 'epoch': 0.75}
+{'loss': 1.4263, 'grad_norm': 0.09675101190805435, 'learning_rate': 7.767587784165559e-05, 'epoch': 0.75}
+{'loss': 1.4136, 'grad_norm': 0.10460769385099411, 'learning_rate': 7.752572467292831e-05, 'epoch': 0.75}
+{'loss': 1.4468, 'grad_norm': 0.09793736785650253, 'learning_rate': 7.737569013681744e-05, 'epoch': 0.75}
+{'loss': 1.4407, 'grad_norm': 0.11515045166015625, 'learning_rate': 7.722577433652084e-05, 'epoch': 0.75}
+{'loss': 1.4486, 'grad_norm': 0.11011791974306107, 'learning_rate': 7.707597737515481e-05, 'epoch': 0.75}
+{'loss': 1.4399, 'grad_norm': 0.09946337342262268, 'learning_rate': 7.692629935575401e-05, 'epoch': 0.75}
+{'loss': 1.3984, 'grad_norm': 0.11106859892606735, 'learning_rate': 7.677674038127106e-05, 'epoch': 0.75}
+{'loss': 1.4307, 'grad_norm': 0.09508202224969864, 'learning_rate': 7.662730055457679e-05, 'epoch': 0.75}
+{'loss': 1.4142, 'grad_norm': 0.10851874202489853, 'learning_rate': 7.647797997846007e-05, 'epoch': 0.75}
+{'loss': 1.4304, 'grad_norm': 0.1001133844256401, 'learning_rate': 7.632877875562771e-05, 'epoch': 0.75}
+{'loss': 1.4288, 'grad_norm': 0.10055461525917053, 'learning_rate': 7.617969698870459e-05, 'epoch': 0.75}
+{'loss': 1.4373, 'grad_norm': 0.09856130182743073, 'learning_rate': 7.603073478023317e-05, 'epoch': 0.75}
+{'loss': 1.4236, 'grad_norm': 0.10351138561964035, 'learning_rate': 7.588189223267397e-05, 'epoch': 0.75}
+{'loss': 1.4281, 'grad_norm': 0.10297054797410965, 'learning_rate': 7.573316944840498e-05, 'epoch': 0.75}
+{'loss': 1.4212, 'grad_norm': 0.1011485755443573, 'learning_rate': 7.558456652972174e-05, 'epoch': 0.75}
+{'loss': 1.4357, 'grad_norm': 0.09032343327999115, 'learning_rate': 7.543608357883771e-05, 'epoch': 0.75}
+{'loss': 1.4182, 'grad_norm': 0.08948232233524323, 'learning_rate': 7.52877206978835e-05, 'epoch': 0.75}
+{'loss': 1.4337, 'grad_norm': 0.09837143123149872, 'learning_rate': 7.513947798890722e-05, 'epoch': 0.75}
+{'loss': 1.4478, 'grad_norm': 0.1127476692199707, 'learning_rate': 7.49913555538743e-05, 'epoch': 0.75}
+{'loss': 1.428, 'grad_norm': 0.10395412892103195, 'learning_rate': 7.48433534946675e-05, 'epoch': 0.75}
+{'loss': 1.4638, 'grad_norm': 0.08902276307344437, 'learning_rate': 7.46954719130869e-05, 'epoch': 0.75}
+{'loss': 1.4496, 'grad_norm': 0.10120810568332672, 'learning_rate': 7.454771091084944e-05, 'epoch': 0.76}
+{'loss': 1.4522, 'grad_norm': 0.10485526919364929, 'learning_rate': 7.440007058958934e-05, 'epoch': 0.76}
+{'loss': 1.4469, 'grad_norm': 0.0961138978600502, 'learning_rate': 7.425255105085757e-05, 'epoch': 0.76}
+{'loss': 1.4484, 'grad_norm': 0.09732719510793686, 'learning_rate': 7.41051523961224e-05, 'epoch': 0.76}
+{'loss': 1.4287, 'grad_norm': 0.09806020557880402, 'learning_rate': 7.395787472676862e-05, 'epoch': 0.76}
+{'loss': 1.436, 'grad_norm': 0.10676485300064087, 'learning_rate': 7.381071814409785e-05, 'epoch': 0.76}
+{'loss': 1.4278, 'grad_norm': 0.10351288318634033, 'learning_rate': 7.366368274932863e-05, 'epoch': 0.76}
+{'loss': 1.4333, 'grad_norm': 0.1016627848148346, 'learning_rate': 7.351676864359588e-05, 'epoch': 0.76}
+{'loss': 1.4353, 'grad_norm': 0.11312959343194962, 'learning_rate': 7.336997592795139e-05, 'epoch': 0.76}
+{'loss': 1.438, 'grad_norm': 0.10538022220134735, 'learning_rate': 7.322330470336314e-05, 'epoch': 0.76}
+{'loss': 1.457, 'grad_norm': 0.1049116998910904, 'learning_rate': 7.307675507071574e-05, 'epoch': 0.76}
+{'loss': 1.4332, 'grad_norm': 0.09932835400104523, 'learning_rate': 7.29303271308101e-05, 'epoch': 0.76}
+{'loss': 1.438, 'grad_norm': 0.10115107893943787, 'learning_rate': 7.278402098436335e-05, 'epoch': 0.76}
+{'loss': 1.4256, 'grad_norm': 0.09560812264680862, 'learning_rate': 7.263783673200914e-05, 'epoch': 0.76}
+{'loss': 1.4594, 'grad_norm': 0.10605437308549881, 'learning_rate': 7.249177447429684e-05, 'epoch': 0.76}
+{'loss': 1.4431, 'grad_norm': 0.09810266643762589, 'learning_rate': 7.234583431169236e-05, 'epoch': 0.76}
+{'loss': 1.4532, 'grad_norm': 0.09144569933414459, 'learning_rate': 7.220001634457735e-05, 'epoch': 0.76}
+{'loss': 1.4407, 'grad_norm': 0.09794154018163681, 'learning_rate': 7.205432067324932e-05, 'epoch': 0.76}
+{'loss': 1.4125, 'grad_norm': 0.11495279520750046, 'learning_rate': 7.190874739792205e-05, 'epoch': 0.76}
+{'loss': 1.4368, 'grad_norm': 0.09124379605054855, 'learning_rate': 7.17632966187248e-05, 'epoch': 0.76}
+{'loss': 1.4291, 'grad_norm': 0.09405361860990524, 'learning_rate': 7.161796843570265e-05, 'epoch': 0.76}
+{'loss': 1.4464, 'grad_norm': 0.11159727722406387, 'learning_rate': 7.14727629488163e-05, 'epoch': 0.76}
+{'loss': 1.445, 'grad_norm': 0.10094548016786575, 'learning_rate': 7.132768025794222e-05, 'epoch': 0.76}
+{'loss': 1.4259, 'grad_norm': 0.09306209534406662, 'learning_rate': 7.118272046287244e-05, 'epoch': 0.76}
+{'loss': 1.4233, 'grad_norm': 0.09484201669692993, 'learning_rate': 7.103788366331424e-05, 'epoch': 0.76}
+{'loss': 1.4488, 'grad_norm': 0.11989036202430725, 'learning_rate': 7.089316995889039e-05, 'epoch': 0.76}
+{'loss': 1.4202, 'grad_norm': 0.09931141883134842, 'learning_rate': 7.074857944913896e-05, 'epoch': 0.76}
+{'loss': 1.4346, 'grad_norm': 0.11656057834625244, 'learning_rate': 7.060411223351349e-05, 'epoch': 0.76}
+{'loss': 1.4431, 'grad_norm': 0.10252568870782852, 'learning_rate': 7.045976841138247e-05, 'epoch': 0.76}
+{'loss': 1.4457, 'grad_norm': 0.11311555653810501, 'learning_rate': 7.031554808202956e-05, 'epoch': 0.76}
+{'loss': 1.433, 'grad_norm': 0.09938648343086243, 'learning_rate': 7.017145134465363e-05, 'epoch': 0.76}
+{'loss': 1.4483, 'grad_norm': 0.10218602418899536, 'learning_rate': 7.002747829836833e-05, 'epoch': 0.76}
+{'loss': 1.4336, 'grad_norm': 0.10366013646125793, 'learning_rate': 6.988362904220244e-05, 'epoch': 0.76}
+{'loss': 1.4257, 'grad_norm': 0.10395881533622742, 'learning_rate': 6.973990367509946e-05, 'epoch': 0.76}
+{'loss': 1.4292, 'grad_norm': 0.10437490046024323, 'learning_rate': 6.959630229591768e-05, 'epoch': 0.76}
+{'loss': 1.4391, 'grad_norm': 0.10021534562110901, 'learning_rate': 6.945282500343014e-05, 'epoch': 0.76}
+{'loss': 1.4217, 'grad_norm': 0.09667617827653885, 'learning_rate': 6.930947189632445e-05, 'epoch': 0.76}
+{'loss': 1.4348, 'grad_norm': 0.10491392016410828, 'learning_rate': 6.916624307320293e-05, 'epoch': 0.76}
+{'loss': 1.4424, 'grad_norm': 0.09261266142129898, 'learning_rate': 6.902313863258247e-05, 'epoch': 0.76}
+{'loss': 1.4335, 'grad_norm': 0.09849120676517487, 'learning_rate': 6.88801586728942e-05, 'epoch': 0.77}
+{'loss': 1.442, 'grad_norm': 0.10378161817789078, 'learning_rate': 6.873730329248365e-05, 'epoch': 0.77}
+{'loss': 1.431, 'grad_norm': 0.0911066010594368, 'learning_rate': 6.859457258961086e-05, 'epoch': 0.77}
+{'loss': 1.4284, 'grad_norm': 0.10098719596862793, 'learning_rate': 6.845196666244995e-05, 'epoch': 0.77}
+{'loss': 1.4311, 'grad_norm': 0.1017184853553772, 'learning_rate': 6.830948560908926e-05, 'epoch': 0.77}
+{'loss': 1.4556, 'grad_norm': 0.11026342958211899, 'learning_rate': 6.81671295275311e-05, 'epoch': 0.77}
+{'loss': 1.427, 'grad_norm': 0.10885374993085861, 'learning_rate': 6.802489851569208e-05, 'epoch': 0.77}
+{'loss': 1.4315, 'grad_norm': 0.11913278698921204, 'learning_rate': 6.788279267140274e-05, 'epoch': 0.77}
+{'loss': 1.4453, 'grad_norm': 0.10029921680688858, 'learning_rate': 6.774081209240732e-05, 'epoch': 0.77}
+{'loss': 1.4607, 'grad_norm': 0.10425106436014175, 'learning_rate': 6.759895687636403e-05, 'epoch': 0.77}
+{'loss': 1.4305, 'grad_norm': 0.1067899689078331, 'learning_rate': 6.745722712084488e-05, 'epoch': 0.77}
+{'loss': 1.4217, 'grad_norm': 0.10531172901391983, 'learning_rate': 6.731562292333546e-05, 'epoch': 0.77}
+{'loss': 1.4378, 'grad_norm': 0.09207658469676971, 'learning_rate': 6.71741443812352e-05, 'epoch': 0.77}
+{'loss': 1.4237, 'grad_norm': 0.09242222458124161, 'learning_rate': 6.703279159185687e-05, 'epoch': 0.77}
+{'loss': 1.4332, 'grad_norm': 0.10697093605995178, 'learning_rate': 6.689156465242702e-05, 'epoch': 0.77}
+{'loss': 1.4619, 'grad_norm': 0.10908743739128113, 'learning_rate': 6.675046366008539e-05, 'epoch': 0.77}
+{'loss': 1.4351, 'grad_norm': 0.12419160455465317, 'learning_rate': 6.66094887118851e-05, 'epoch': 0.77}
+{'loss': 1.4513, 'grad_norm': 0.09907650947570801, 'learning_rate': 6.64686399047928e-05, 'epoch': 0.77}
+{'loss': 1.4377, 'grad_norm': 0.1033216118812561, 'learning_rate': 6.632791733568813e-05, 'epoch': 0.77}
+{'loss': 1.4304, 'grad_norm': 0.10121805965900421, 'learning_rate': 6.618732110136403e-05, 'epoch': 0.77}
+{'loss': 1.4389, 'grad_norm': 0.1052393987774849, 'learning_rate': 6.604685129852645e-05, 'epoch': 0.77}
+{'loss': 1.4592, 'grad_norm': 0.0974993109703064, 'learning_rate': 6.590650802379448e-05, 'epoch': 0.77}
+{'loss': 1.454, 'grad_norm': 0.09896445274353027, 'learning_rate': 6.576629137370019e-05, 'epoch': 0.77}
+{'loss': 1.4255, 'grad_norm': 0.09334137290716171, 'learning_rate': 6.562620144468848e-05, 'epoch': 0.77}
+{'loss': 1.4298, 'grad_norm': 0.10076531767845154, 'learning_rate': 6.548623833311709e-05, 'epoch': 0.77}
+{'loss': 1.4249, 'grad_norm': 0.10097194463014603, 'learning_rate': 6.53464021352565e-05, 'epoch': 0.77}
+{'loss': 1.4156, 'grad_norm': 0.10724009573459625, 'learning_rate': 6.520669294729004e-05, 'epoch': 0.77}
+{'loss': 1.4351, 'grad_norm': 0.10783017426729202, 'learning_rate': 6.506711086531356e-05, 'epoch': 0.77}
+{'loss': 1.4518, 'grad_norm': 0.10076650977134705, 'learning_rate': 6.49276559853354e-05, 'epoch': 0.77}
+{'loss': 1.4318, 'grad_norm': 0.09020362049341202, 'learning_rate': 6.47883284032767e-05, 'epoch': 0.77}
+{'loss': 1.4168, 'grad_norm': 0.0941726341843605, 'learning_rate': 6.464912821497065e-05, 'epoch': 0.77}
+{'loss': 1.4261, 'grad_norm': 0.1132349818944931, 'learning_rate': 6.451005551616326e-05, 'epoch': 0.77}
+{'loss': 1.4478, 'grad_norm': 0.09694357216358185, 'learning_rate': 6.437111040251245e-05, 'epoch': 0.77}
+{'loss': 1.4266, 'grad_norm': 0.10849542170763016, 'learning_rate': 6.42322929695886e-05, 'epoch': 0.77}
+{'loss': 1.4394, 'grad_norm': 0.09697742015123367, 'learning_rate': 6.409360331287417e-05, 'epoch': 0.77}
+{'loss': 1.4351, 'grad_norm': 0.10887401551008224, 'learning_rate': 6.395504152776374e-05, 'epoch': 0.77}
+{'loss': 1.4578, 'grad_norm': 0.11992408335208893, 'learning_rate': 6.38166077095641e-05, 'epoch': 0.77}
+{'loss': 1.4128, 'grad_norm': 0.12400930374860764, 'learning_rate': 6.367830195349373e-05, 'epoch': 0.77}
+{'loss': 1.4004, 'grad_norm': 0.103849858045578, 'learning_rate': 6.354012435468335e-05, 'epoch': 0.77}
+{'loss': 1.4281, 'grad_norm': 0.09854084998369217, 'learning_rate': 6.340207500817526e-05, 'epoch': 0.78}
+{'loss': 1.4445, 'grad_norm': 0.10040459781885147, 'learning_rate': 6.326415400892362e-05, 'epoch': 0.78}
+{'loss': 1.4534, 'grad_norm': 0.09762568026781082, 'learning_rate': 6.312636145179451e-05, 'epoch': 0.78}
+{'loss': 1.4427, 'grad_norm': 0.09999178349971771, 'learning_rate': 6.298869743156533e-05, 'epoch': 0.78}
+{'loss': 1.4212, 'grad_norm': 0.11032401025295258, 'learning_rate': 6.285116204292529e-05, 'epoch': 0.78}
+{'loss': 1.4484, 'grad_norm': 0.10152825713157654, 'learning_rate': 6.2713755380475e-05, 'epoch': 0.78}
+{'loss': 1.4201, 'grad_norm': 0.10534503310918808, 'learning_rate': 6.257647753872664e-05, 'epoch': 0.78}
+{'loss': 1.4518, 'grad_norm': 0.09809096157550812, 'learning_rate': 6.243932861210383e-05, 'epoch': 0.78}
+{'loss': 1.4484, 'grad_norm': 0.09768702834844589, 'learning_rate': 6.230230869494135e-05, 'epoch': 0.78}
+{'loss': 1.4481, 'grad_norm': 0.1023651733994484, 'learning_rate': 6.21654178814853e-05, 'epoch': 0.78}
+{'loss': 1.4448, 'grad_norm': 0.11019592732191086, 'learning_rate': 6.202865626589296e-05, 'epoch': 0.78}
+{'loss': 1.4321, 'grad_norm': 0.09985601156949997, 'learning_rate': 6.189202394223292e-05, 'epoch': 0.78}
+{'loss': 1.4745, 'grad_norm': 0.09481620788574219, 'learning_rate': 6.175552100448461e-05, 'epoch': 0.78}
+{'loss': 1.4196, 'grad_norm': 0.1092681959271431, 'learning_rate': 6.16191475465385e-05, 'epoch': 0.78}
+{'loss': 1.4366, 'grad_norm': 0.10368926078081131, 'learning_rate': 6.148290366219617e-05, 'epoch': 0.78}
+{'loss': 1.4446, 'grad_norm': 0.10058514028787613, 'learning_rate': 6.134678944516989e-05, 'epoch': 0.78}
+{'loss': 1.4132, 'grad_norm': 0.09654568880796432, 'learning_rate': 6.121080498908288e-05, 'epoch': 0.78}
+{'loss': 1.4539, 'grad_norm': 0.11310502141714096, 'learning_rate': 6.107495038746902e-05, 'epoch': 0.78}
+{'loss': 1.4386, 'grad_norm': 0.11114498972892761, 'learning_rate': 6.093922573377286e-05, 'epoch': 0.78}
+{'loss': 1.4374, 'grad_norm': 0.09819472581148148, 'learning_rate': 6.080363112134965e-05, 'epoch': 0.78}
+{'loss': 1.4261, 'grad_norm': 0.09973596781492233, 'learning_rate': 6.066816664346503e-05, 'epoch': 0.78}
+{'loss': 1.4445, 'grad_norm': 0.12092432379722595, 'learning_rate': 6.0532832393295326e-05, 'epoch': 0.78}
+{'loss': 1.422, 'grad_norm': 0.10270804911851883, 'learning_rate': 6.039762846392729e-05, 'epoch': 0.78}
+{'loss': 1.4404, 'grad_norm': 0.0905613973736763, 'learning_rate': 6.026255494835789e-05, 'epoch': 0.78}
+{'loss': 1.4501, 'grad_norm': 0.09418432414531708, 'learning_rate': 6.012761193949437e-05, 'epoch': 0.78}
+{'loss': 1.445, 'grad_norm': 0.11713925004005432, 'learning_rate': 5.9992799530154435e-05, 'epoch': 0.78}
+{'loss': 1.4183, 'grad_norm': 0.1028933897614479, 'learning_rate': 5.985811781306577e-05, 'epoch': 0.78}
+{'loss': 1.4243, 'grad_norm': 0.09970223903656006, 'learning_rate': 5.972356688086619e-05, 'epoch': 0.78}
+{'loss': 1.4368, 'grad_norm': 0.09105683118104935, 'learning_rate': 5.95891468261035e-05, 'epoch': 0.78}
+{'loss': 1.4379, 'grad_norm': 0.10461430996656418, 'learning_rate': 5.945485774123569e-05, 'epoch': 0.78}
+{'loss': 1.4247, 'grad_norm': 0.1083962544798851, 'learning_rate': 5.932069971863055e-05, 'epoch': 0.78}
+{'loss': 1.4546, 'grad_norm': 0.10391946136951447, 'learning_rate': 5.918667285056567e-05, 'epoch': 0.78}
+{'loss': 1.4479, 'grad_norm': 0.10427670925855637, 'learning_rate': 5.905277722922844e-05, 'epoch': 0.78}
+{'loss': 1.428, 'grad_norm': 0.1021961122751236, 'learning_rate': 5.8919012946716036e-05, 'epoch': 0.78}
+{'loss': 1.4529, 'grad_norm': 0.10210897028446198, 'learning_rate': 5.878538009503517e-05, 'epoch': 0.78}
+{'loss': 1.4183, 'grad_norm': 0.10345545411109924, 'learning_rate': 5.86518787661024e-05, 'epoch': 0.78}
+{'loss': 1.4191, 'grad_norm': 0.10517074167728424, 'learning_rate': 5.85185090517435e-05, 'epoch': 0.78}
+{'loss': 1.4352, 'grad_norm': 0.10372691601514816, 'learning_rate': 5.838527104369401e-05, 'epoch': 0.78}
+{'loss': 1.4558, 'grad_norm': 0.10776764154434204, 'learning_rate': 5.825216483359874e-05, 'epoch': 0.78}
+{'loss': 1.432, 'grad_norm': 0.09904579818248749, 'learning_rate': 5.81191905130117e-05, 'epoch': 0.79}
+{'loss': 1.4377, 'grad_norm': 0.1027732640504837, 'learning_rate': 5.7986348173396544e-05, 'epoch': 0.79}
+{'loss': 1.4119, 'grad_norm': 0.0946388691663742, 'learning_rate': 5.785363790612583e-05, 'epoch': 0.79}
+{'loss': 1.443, 'grad_norm': 0.09655722975730896, 'learning_rate': 5.7721059802481406e-05, 'epoch': 0.79}
+{'loss': 1.4457, 'grad_norm': 0.09803606569766998, 'learning_rate': 5.758861395365411e-05, 'epoch': 0.79}
+{'loss': 1.4366, 'grad_norm': 0.09171414375305176, 'learning_rate': 5.745630045074393e-05, 'epoch': 0.79}
+{'loss': 1.4373, 'grad_norm': 0.09609366208314896, 'learning_rate': 5.73241193847599e-05, 'epoch': 0.79}
+{'loss': 1.4323, 'grad_norm': 0.10279088467359543, 'learning_rate': 5.719207084661973e-05, 'epoch': 0.79}
+{'loss': 1.4276, 'grad_norm': 0.09012562036514282, 'learning_rate': 5.7060154927150135e-05, 'epoch': 0.79}
+{'loss': 1.4362, 'grad_norm': 0.0983223021030426, 'learning_rate': 5.6928371717086454e-05, 'epoch': 0.79}
+{'loss': 1.4283, 'grad_norm': 0.10598964989185333, 'learning_rate': 5.6796721307073e-05, 'epoch': 0.79}
+{'loss': 1.4346, 'grad_norm': 0.10307130217552185, 'learning_rate': 5.666520378766255e-05, 'epoch': 0.79}
+{'loss': 1.4434, 'grad_norm': 0.0965329185128212, 'learning_rate': 5.653381924931641e-05, 'epoch': 0.79}
+{'loss': 1.4338, 'grad_norm': 0.09928300976753235, 'learning_rate': 5.640256778240474e-05, 'epoch': 0.79}
+{'loss': 1.4333, 'grad_norm': 0.11297570168972015, 'learning_rate': 5.6271449477205723e-05, 'epoch': 0.79}
+{'loss': 1.4268, 'grad_norm': 0.09296461939811707, 'learning_rate': 5.614046442390641e-05, 'epoch': 0.79}
+{'loss': 1.4432, 'grad_norm': 0.09758487343788147, 'learning_rate': 5.600961271260185e-05, 'epoch': 0.79}
+{'loss': 1.4273, 'grad_norm': 0.11120230704545975, 'learning_rate': 5.5878894433295525e-05, 'epoch': 0.79}
+{'loss': 1.423, 'grad_norm': 0.09865384548902512, 'learning_rate': 5.574830967589911e-05, 'epoch': 0.79}
+{'loss': 1.4296, 'grad_norm': 0.10140741616487503, 'learning_rate': 5.561785853023238e-05, 'epoch': 0.79}
+{'loss': 1.4272, 'grad_norm': 0.10112611204385757, 'learning_rate': 5.5487541086023384e-05, 'epoch': 0.79}
+{'loss': 1.4221, 'grad_norm': 0.09543271362781525, 'learning_rate': 5.5357357432907984e-05, 'epoch': 0.79}
+{'loss': 1.462, 'grad_norm': 0.09810134768486023, 'learning_rate': 5.5227307660430245e-05, 'epoch': 0.79}
+{'loss': 1.4174, 'grad_norm': 0.10200858116149902, 'learning_rate': 5.509739185804188e-05, 'epoch': 0.79}
+{'loss': 1.4498, 'grad_norm': 0.09517644345760345, 'learning_rate': 5.496761011510279e-05, 'epoch': 0.79}
+{'loss': 1.4174, 'grad_norm': 0.10409455001354218, 'learning_rate': 5.483796252088036e-05, 'epoch': 0.79}
+{'loss': 1.4658, 'grad_norm': 0.10551907122135162, 'learning_rate': 5.470844916454984e-05, 'epoch': 0.79}
+{'loss': 1.4587, 'grad_norm': 0.11291937530040741, 'learning_rate': 5.4579070135194114e-05, 'epoch': 0.79}
+{'loss': 1.4221, 'grad_norm': 0.09872157126665115, 'learning_rate': 5.444982552180364e-05, 'epoch': 0.79}
+{'loss': 1.4608, 'grad_norm': 0.09355504810810089, 'learning_rate': 5.4320715413276514e-05, 'epoch': 0.79}
+{'loss': 1.475, 'grad_norm': 0.10170239955186844, 'learning_rate': 5.419173989841833e-05, 'epoch': 0.79}
+{'loss': 1.4374, 'grad_norm': 0.10294691473245621, 'learning_rate': 5.406289906594203e-05, 'epoch': 0.79}
+{'loss': 1.4385, 'grad_norm': 0.11436104774475098, 'learning_rate': 5.3934193004467865e-05, 'epoch': 0.79}
+{'loss': 1.4431, 'grad_norm': 0.10465691238641739, 'learning_rate': 5.380562180252341e-05, 'epoch': 0.79}
+{'loss': 1.4364, 'grad_norm': 0.11000660061836243, 'learning_rate': 5.3677185548543674e-05, 'epoch': 0.79}
+{'loss': 1.4363, 'grad_norm': 0.11406854540109634, 'learning_rate': 5.354888433087063e-05, 'epoch': 0.79}
+{'loss': 1.4371, 'grad_norm': 0.1006794348359108, 'learning_rate': 5.342071823775332e-05, 'epoch': 0.79}
+{'loss': 1.4393, 'grad_norm': 0.10359680652618408, 'learning_rate': 5.329268735734816e-05, 'epoch': 0.79}
+{'loss': 1.4352, 'grad_norm': 0.10521052777767181, 'learning_rate': 5.316479177771816e-05, 'epoch': 0.79}
+{'loss': 1.4091, 'grad_norm': 0.09490997344255447, 'learning_rate': 5.303703158683362e-05, 'epoch': 0.8}
+{'loss': 1.4006, 'grad_norm': 0.0914795771241188, 'learning_rate': 5.2909406872571534e-05, 'epoch': 0.8}
+{'loss': 1.4417, 'grad_norm': 0.11190702021121979, 'learning_rate': 5.278191772271571e-05, 'epoch': 0.8}
+{'loss': 1.4274, 'grad_norm': 0.10362838208675385, 'learning_rate': 5.2654564224956654e-05, 'epoch': 0.8}
+{'loss': 1.3985, 'grad_norm': 0.10496095567941666, 'learning_rate': 5.2527346466891805e-05, 'epoch': 0.8}
+{'loss': 1.4397, 'grad_norm': 0.08711747825145721, 'learning_rate': 5.2400264536024975e-05, 'epoch': 0.8}
+{'loss': 1.4552, 'grad_norm': 0.09749385714530945, 'learning_rate': 5.2273318519766775e-05, 'epoch': 0.8}
+{'loss': 1.4448, 'grad_norm': 0.08812152594327927, 'learning_rate': 5.214650850543412e-05, 'epoch': 0.8}
+{'loss': 1.4495, 'grad_norm': 0.09340167790651321, 'learning_rate': 5.2019834580250447e-05, 'epoch': 0.8}
+{'loss': 1.4531, 'grad_norm': 0.09589555114507675, 'learning_rate': 5.189329683134572e-05, 'epoch': 0.8}
+{'loss': 1.4206, 'grad_norm': 0.1081525981426239, 'learning_rate': 5.176689534575607e-05, 'epoch': 0.8}
+{'loss': 1.4339, 'grad_norm': 0.09297460317611694, 'learning_rate': 5.164063021042401e-05, 'epoch': 0.8}
+{'loss': 1.4169, 'grad_norm': 0.09453105181455612, 'learning_rate': 5.151450151219808e-05, 'epoch': 0.8}
+{'loss': 1.4522, 'grad_norm': 0.08992573618888855, 'learning_rate': 5.138850933783323e-05, 'epoch': 0.8}
+{'loss': 1.4444, 'grad_norm': 0.0996164083480835, 'learning_rate': 5.126265377399045e-05, 'epoch': 0.8}
+{'loss': 1.4558, 'grad_norm': 0.09128505736589432, 'learning_rate': 5.113693490723664e-05, 'epoch': 0.8}
+{'loss': 1.435, 'grad_norm': 0.10688433796167374, 'learning_rate': 5.101135282404473e-05, 'epoch': 0.8}
+{'loss': 1.4419, 'grad_norm': 0.09885556995868683, 'learning_rate': 5.0885907610793594e-05, 'epoch': 0.8}
+{'loss': 1.4188, 'grad_norm': 0.09132438898086548, 'learning_rate': 5.0760599353767865e-05, 'epoch': 0.8}
+{'loss': 1.4201, 'grad_norm': 0.08972888439893723, 'learning_rate': 5.0635428139158226e-05, 'epoch': 0.8}
+{'loss': 1.4595, 'grad_norm': 0.10224787890911102, 'learning_rate': 5.051039405306074e-05, 'epoch': 0.8}
+{'loss': 1.442, 'grad_norm': 0.09076465666294098, 'learning_rate': 5.038549718147753e-05, 'epoch': 0.8}
+{'loss': 1.4326, 'grad_norm': 0.09686728566884995, 'learning_rate': 5.026073761031596e-05, 'epoch': 0.8}
+{'loss': 1.4603, 'grad_norm': 0.09196443855762482, 'learning_rate': 5.0136115425389315e-05, 'epoch': 0.8}
+{'loss': 1.4188, 'grad_norm': 0.09437805414199829, 'learning_rate': 5.001163071241613e-05, 'epoch': 0.8}
+{'loss': 1.4367, 'grad_norm': 0.0945206806063652, 'learning_rate': 4.988728355702046e-05, 'epoch': 0.8}
+{'loss': 1.4312, 'grad_norm': 0.10162273049354553, 'learning_rate': 4.9763074044731736e-05, 'epoch': 0.8}
+{'loss': 1.4359, 'grad_norm': 0.09776246547698975, 'learning_rate': 4.963900226098467e-05, 'epoch': 0.8}
+{'loss': 1.4177, 'grad_norm': 0.09369419515132904, 'learning_rate': 4.951506829111943e-05, 'epoch': 0.8}
+{'loss': 1.4444, 'grad_norm': 0.09505131840705872, 'learning_rate': 4.939127222038115e-05, 'epoch': 0.8}
+{'loss': 1.4218, 'grad_norm': 0.10444139689207077, 'learning_rate': 4.926761413392028e-05, 'epoch': 0.8}
+{'loss': 1.4142, 'grad_norm': 0.09634540230035782, 'learning_rate': 4.91440941167923e-05, 'epoch': 0.8}
+{'loss': 1.4253, 'grad_norm': 0.1016991063952446, 'learning_rate': 4.902071225395763e-05, 'epoch': 0.8}
+{'loss': 1.4375, 'grad_norm': 0.10169389098882675, 'learning_rate': 4.889746863028188e-05, 'epoch': 0.8}
+{'loss': 1.4375, 'grad_norm': 0.09444842487573624, 'learning_rate': 4.877436333053542e-05, 'epoch': 0.8}
+{'loss': 1.4515, 'grad_norm': 0.10233622044324875, 'learning_rate': 4.865139643939345e-05, 'epoch': 0.8}
+{'loss': 1.4202, 'grad_norm': 0.08893038332462311, 'learning_rate': 4.852856804143602e-05, 'epoch': 0.8}
+{'loss': 1.4202, 'grad_norm': 0.10378771275281906, 'learning_rate': 4.840587822114797e-05, 'epoch': 0.8}
+{'loss': 1.4242, 'grad_norm': 0.09536334127187729, 'learning_rate': 4.8283327062918854e-05, 'epoch': 0.8}
+{'loss': 1.4409, 'grad_norm': 0.10244230926036835, 'learning_rate': 4.816091465104269e-05, 'epoch': 0.81}
+{'loss': 1.4384, 'grad_norm': 0.09724730998277664, 'learning_rate': 4.803864106971814e-05, 'epoch': 0.81}
+{'loss': 1.4288, 'grad_norm': 0.0960197001695633, 'learning_rate': 4.7916506403048374e-05, 'epoch': 0.81}
+{'loss': 1.4192, 'grad_norm': 0.09483036398887634, 'learning_rate': 4.7794510735041096e-05, 'epoch': 0.81}
+{'loss': 1.4149, 'grad_norm': 0.10074679553508759, 'learning_rate': 4.767265414960828e-05, 'epoch': 0.81}
+{'loss': 1.433, 'grad_norm': 0.10548319667577744, 'learning_rate': 4.755093673056623e-05, 'epoch': 0.81}
+{'loss': 1.4277, 'grad_norm': 0.09401813894510269, 'learning_rate': 4.7429358561635715e-05, 'epoch': 0.81}
+{'loss': 1.4311, 'grad_norm': 0.09885447472333908, 'learning_rate': 4.730791972644144e-05, 'epoch': 0.81}
+{'loss': 1.4417, 'grad_norm': 0.09396766871213913, 'learning_rate': 4.7186620308512535e-05, 'epoch': 0.81}
+{'loss': 1.4296, 'grad_norm': 0.10183610022068024, 'learning_rate': 4.706546039128212e-05, 'epoch': 0.81}
+{'loss': 1.4034, 'grad_norm': 0.09556523710489273, 'learning_rate': 4.694444005808732e-05, 'epoch': 0.81}
+{'loss': 1.4469, 'grad_norm': 0.09646617621183395, 'learning_rate': 4.6823559392169286e-05, 'epoch': 0.81}
+{'loss': 1.4215, 'grad_norm': 0.10273078829050064, 'learning_rate': 4.670281847667307e-05, 'epoch': 0.81}
+{'loss': 1.4306, 'grad_norm': 0.09757968038320541, 'learning_rate': 4.6582217394647716e-05, 'epoch': 0.81}
+{'loss': 1.42, 'grad_norm': 0.09357032179832458, 'learning_rate': 4.646175622904605e-05, 'epoch': 0.81}
+{'loss': 1.4339, 'grad_norm': 0.08790838718414307, 'learning_rate': 4.6341435062724564e-05, 'epoch': 0.81}
+{'loss': 1.4324, 'grad_norm': 0.10465000569820404, 'learning_rate': 4.622125397844351e-05, 'epoch': 0.81}
+{'loss': 1.4362, 'grad_norm': 0.09610314667224884, 'learning_rate': 4.610121305886672e-05, 'epoch': 0.81}
+{'loss': 1.4568, 'grad_norm': 0.10281985998153687, 'learning_rate': 4.5981312386561835e-05, 'epoch': 0.81}
+{'loss': 1.4202, 'grad_norm': 0.09559870511293411, 'learning_rate': 4.586155204399981e-05, 'epoch': 0.81}
+{'loss': 1.4289, 'grad_norm': 0.09632594138383865, 'learning_rate': 4.574193211355507e-05, 'epoch': 0.81}
+{'loss': 1.4151, 'grad_norm': 0.09536201506853104, 'learning_rate': 4.5622452677505674e-05, 'epoch': 0.81}
+{'loss': 1.4182, 'grad_norm': 0.10098858922719955, 'learning_rate': 4.550311381803279e-05, 'epoch': 0.81}
+{'loss': 1.4208, 'grad_norm': 0.08667430281639099, 'learning_rate': 4.538391561722113e-05, 'epoch': 0.81}
+{'loss': 1.4241, 'grad_norm': 0.10307486355304718, 'learning_rate': 4.5264858157058495e-05, 'epoch': 0.81}
+{'loss': 1.4237, 'grad_norm': 0.1010555848479271, 'learning_rate': 4.5145941519435904e-05, 'epoch': 0.81}
+{'loss': 1.4074, 'grad_norm': 0.10912997275590897, 'learning_rate': 4.5027165786147486e-05, 'epoch': 0.81}
+{'loss': 1.4576, 'grad_norm': 0.09605665504932404, 'learning_rate': 4.490853103889061e-05, 'epoch': 0.81}
+{'loss': 1.409, 'grad_norm': 0.09385696053504944, 'learning_rate': 4.4790037359265485e-05, 'epoch': 0.81}
+{'loss': 1.4287, 'grad_norm': 0.10729281604290009, 'learning_rate': 4.4671684828775454e-05, 'epoch': 0.81}
+{'loss': 1.4226, 'grad_norm': 0.09886100888252258, 'learning_rate': 4.4553473528826636e-05, 'epoch': 0.81}
+{'loss': 1.4304, 'grad_norm': 0.09959062188863754, 'learning_rate': 4.443540354072798e-05, 'epoch': 0.81}
+{'loss': 1.4302, 'grad_norm': 0.09668262302875519, 'learning_rate': 4.431747494569144e-05, 'epoch': 0.81}
+{'loss': 1.424, 'grad_norm': 0.08993958681821823, 'learning_rate': 4.419968782483158e-05, 'epoch': 0.81}
+{'loss': 1.4453, 'grad_norm': 0.10534180700778961, 'learning_rate': 4.4082042259165625e-05, 'epoch': 0.81}
+{'loss': 1.4352, 'grad_norm': 0.10682644695043564, 'learning_rate': 4.396453832961342e-05, 'epoch': 0.81}
+{'loss': 1.4331, 'grad_norm': 0.10865500569343567, 'learning_rate': 4.3847176116997514e-05, 'epoch': 0.81}
+{'loss': 1.4327, 'grad_norm': 0.09368718415498734, 'learning_rate': 4.3729955702042936e-05, 'epoch': 0.81}
+{'loss': 1.4238, 'grad_norm': 0.09306355565786362, 'learning_rate': 4.361287716537715e-05, 'epoch': 0.81}
+{'loss': 1.4322, 'grad_norm': 0.09839857369661331, 'learning_rate': 4.3495940587530005e-05, 'epoch': 0.82}
+{'loss': 1.4308, 'grad_norm': 0.08829209208488464, 'learning_rate': 4.3379146048933756e-05, 'epoch': 0.82}
+{'loss': 1.4294, 'grad_norm': 0.09291144460439682, 'learning_rate': 4.326249362992288e-05, 'epoch': 0.82}
+{'loss': 1.4284, 'grad_norm': 0.09892912209033966, 'learning_rate': 4.314598341073428e-05, 'epoch': 0.82}
+{'loss': 1.4253, 'grad_norm': 0.10243339091539383, 'learning_rate': 4.30296154715068e-05, 'epoch': 0.82}
+{'loss': 1.4237, 'grad_norm': 0.09852969646453857, 'learning_rate': 4.291338989228169e-05, 'epoch': 0.82}
+{'loss': 1.4303, 'grad_norm': 0.09088004380464554, 'learning_rate': 4.279730675300203e-05, 'epoch': 0.82}
+{'loss': 1.4514, 'grad_norm': 0.11225613951683044, 'learning_rate': 4.268136613351314e-05, 'epoch': 0.82}
+{'loss': 1.4277, 'grad_norm': 0.10457633435726166, 'learning_rate': 4.2565568113562185e-05, 'epoch': 0.82}
+{'loss': 1.4112, 'grad_norm': 0.0973530262708664, 'learning_rate': 4.244991277279822e-05, 'epoch': 0.82}
+{'loss': 1.4334, 'grad_norm': 0.09361131489276886, 'learning_rate': 4.233440019077228e-05, 'epoch': 0.82}
+{'loss': 1.4442, 'grad_norm': 0.09829127788543701, 'learning_rate': 4.2219030446937035e-05, 'epoch': 0.82}
+{'loss': 1.4133, 'grad_norm': 0.10292582213878632, 'learning_rate': 4.210380362064711e-05, 'epoch': 0.82}
+{'loss': 1.4546, 'grad_norm': 0.10820174217224121, 'learning_rate': 4.1988719791158675e-05, 'epoch': 0.82}
+{'loss': 1.4297, 'grad_norm': 0.0907256156206131, 'learning_rate': 4.187377903762968e-05, 'epoch': 0.82}
+{'loss': 1.4334, 'grad_norm': 0.09161405265331268, 'learning_rate': 4.175898143911952e-05, 'epoch': 0.82}
+{'loss': 1.4256, 'grad_norm': 0.10365000367164612, 'learning_rate': 4.164432707458915e-05, 'epoch': 0.82}
+{'loss': 1.4535, 'grad_norm': 0.10419940948486328, 'learning_rate': 4.1529816022901095e-05, 'epoch': 0.82}
+{'loss': 1.4341, 'grad_norm': 0.10276488214731216, 'learning_rate': 4.1415448362819266e-05, 'epoch': 0.82}
+{'loss': 1.4437, 'grad_norm': 0.1058875098824501, 'learning_rate': 4.130122417300888e-05, 'epoch': 0.82}
+{'loss': 1.4487, 'grad_norm': 0.10237887501716614, 'learning_rate': 4.118714353203651e-05, 'epoch': 0.82}
+{'loss': 1.4371, 'grad_norm': 0.09477242827415466, 'learning_rate': 4.107320651836999e-05, 'epoch': 0.82}
+{'loss': 1.4288, 'grad_norm': 0.10281171649694443, 'learning_rate': 4.0959413210378496e-05, 'epoch': 0.82}
+{'loss': 1.3857, 'grad_norm': 0.11973164230585098, 'learning_rate': 4.0845763686332135e-05, 'epoch': 0.82}
+{'loss': 1.416, 'grad_norm': 0.09710746258497238, 'learning_rate': 4.073225802440228e-05, 'epoch': 0.82}
+{'loss': 1.4122, 'grad_norm': 0.09818524122238159, 'learning_rate': 4.061889630266116e-05, 'epoch': 0.82}
+{'loss': 1.4471, 'grad_norm': 0.10692843049764633, 'learning_rate': 4.05056785990823e-05, 'epoch': 0.82}
+{'loss': 1.4511, 'grad_norm': 0.09993205219507217, 'learning_rate': 4.0392604991539907e-05, 'epoch': 0.82}
+{'loss': 1.431, 'grad_norm': 0.1039382591843605, 'learning_rate': 4.0279675557809094e-05, 'epoch': 0.82}
+{'loss': 1.4202, 'grad_norm': 0.10674668103456497, 'learning_rate': 4.016689037556601e-05, 'epoch': 0.82}
+{'loss': 1.423, 'grad_norm': 0.10082939267158508, 'learning_rate': 4.0054249522387344e-05, 'epoch': 0.82}
+{'loss': 1.4162, 'grad_norm': 0.09644218534231186, 'learning_rate': 3.994175307575071e-05, 'epoch': 0.82}
+{'loss': 1.4163, 'grad_norm': 0.09862194955348969, 'learning_rate': 3.982940111303426e-05, 'epoch': 0.82}
+{'loss': 1.4448, 'grad_norm': 0.10248298943042755, 'learning_rate': 3.9717193711516804e-05, 'epoch': 0.82}
+{'loss': 1.4434, 'grad_norm': 0.1027749553322792, 'learning_rate': 3.96051309483777e-05, 'epoch': 0.82}
+{'loss': 1.4151, 'grad_norm': 0.09426155686378479, 'learning_rate': 3.94932129006968e-05, 'epoch': 0.82}
+{'loss': 1.4628, 'grad_norm': 0.1040525808930397, 'learning_rate': 3.938143964545452e-05, 'epoch': 0.82}
+{'loss': 1.4068, 'grad_norm': 0.10950911045074463, 'learning_rate': 3.9269811259531666e-05, 'epoch': 0.82}
+{'loss': 1.4381, 'grad_norm': 0.09550826996564865, 'learning_rate': 3.915832781970932e-05, 'epoch': 0.82}
+{'loss': 1.4132, 'grad_norm': 0.09996305406093597, 'learning_rate': 3.90469894026689e-05, 'epoch': 0.83}
+{'loss': 1.4072, 'grad_norm': 0.10484056174755096, 'learning_rate': 3.893579608499198e-05, 'epoch': 0.83}
+{'loss': 1.4227, 'grad_norm': 0.08910159766674042, 'learning_rate': 3.882474794316057e-05, 'epoch': 0.83}
+{'loss': 1.4388, 'grad_norm': 0.10317084938287735, 'learning_rate': 3.871384505355663e-05, 'epoch': 0.83}
+{'loss': 1.4235, 'grad_norm': 0.10325217247009277, 'learning_rate': 3.8603087492462165e-05, 'epoch': 0.83}
+{'loss': 1.4394, 'grad_norm': 0.0933050736784935, 'learning_rate': 3.849247533605943e-05, 'epoch': 0.83}
+{'loss': 1.4525, 'grad_norm': 0.09974893182516098, 'learning_rate': 3.838200866043054e-05, 'epoch': 0.83}
+{'loss': 1.4446, 'grad_norm': 0.10545678436756134, 'learning_rate': 3.827168754155755e-05, 'epoch': 0.83}
+{'loss': 1.4109, 'grad_norm': 0.10556498914957047, 'learning_rate': 3.816151205532237e-05, 'epoch': 0.83}
+{'loss': 1.4416, 'grad_norm': 0.10833717882633209, 'learning_rate': 3.8051482277506795e-05, 'epoch': 0.83}
+{'loss': 1.4494, 'grad_norm': 0.09471084177494049, 'learning_rate': 3.794159828379229e-05, 'epoch': 0.83}
+{'loss': 1.4366, 'grad_norm': 0.08921000361442566, 'learning_rate': 3.783186014976028e-05, 'epoch': 0.83}
+{'loss': 1.4445, 'grad_norm': 0.09031873196363449, 'learning_rate': 3.772226795089159e-05, 'epoch': 0.83}
+{'loss': 1.4205, 'grad_norm': 0.09461411833763123, 'learning_rate': 3.761282176256689e-05, 'epoch': 0.83}
+{'loss': 1.4393, 'grad_norm': 0.10455408692359924, 'learning_rate': 3.750352166006626e-05, 'epoch': 0.83}
+{'loss': 1.4338, 'grad_norm': 0.09494306147098541, 'learning_rate': 3.73943677185693e-05, 'epoch': 0.83}
+{'loss': 1.4307, 'grad_norm': 0.09449520707130432, 'learning_rate': 3.72853600131553e-05, 'epoch': 0.83}
+{'loss': 1.4218, 'grad_norm': 0.09208869189023972, 'learning_rate': 3.717649861880268e-05, 'epoch': 0.83}
+{'loss': 1.4144, 'grad_norm': 0.10022086650133133, 'learning_rate': 3.706778361038934e-05, 'epoch': 0.83}
+{'loss': 1.4363, 'grad_norm': 0.10458464175462723, 'learning_rate': 3.695921506269251e-05, 'epoch': 0.83}
+{'loss': 1.4325, 'grad_norm': 0.10032923519611359, 'learning_rate': 3.685079305038866e-05, 'epoch': 0.83}
+{'loss': 1.4357, 'grad_norm': 0.10436539351940155, 'learning_rate': 3.674251764805353e-05, 'epoch': 0.83}
+{'loss': 1.4405, 'grad_norm': 0.0958424061536789, 'learning_rate': 3.6634388930161936e-05, 'epoch': 0.83}
+{'loss': 1.4255, 'grad_norm': 0.10521188378334045, 'learning_rate': 3.6526406971087807e-05, 'epoch': 0.83}
+{'loss': 1.4271, 'grad_norm': 0.09871852397918701, 'learning_rate': 3.641857184510408e-05, 'epoch': 0.83}
+{'loss': 1.415, 'grad_norm': 0.08867521584033966, 'learning_rate': 3.631088362638291e-05, 'epoch': 0.83}
+{'loss': 1.4225, 'grad_norm': 0.10463543236255646, 'learning_rate': 3.620334238899514e-05, 'epoch': 0.83}
+{'loss': 1.4115, 'grad_norm': 0.09277644753456116, 'learning_rate': 3.6095948206910646e-05, 'epoch': 0.83}
+{'loss': 1.44, 'grad_norm': 0.0885276049375534, 'learning_rate': 3.598870115399821e-05, 'epoch': 0.83}
+{'loss': 1.4312, 'grad_norm': 0.09892558306455612, 'learning_rate': 3.588160130402523e-05, 'epoch': 0.83}
+{'loss': 1.433, 'grad_norm': 0.09924619644880295, 'learning_rate': 3.577464873065814e-05, 'epoch': 0.83}
+{'loss': 1.4295, 'grad_norm': 0.08782510459423065, 'learning_rate': 3.566784350746177e-05, 'epoch': 0.83}
+{'loss': 1.4154, 'grad_norm': 0.0982593521475792, 'learning_rate': 3.556118570789976e-05, 'epoch': 0.83}
+{'loss': 1.4248, 'grad_norm': 0.09474587440490723, 'learning_rate': 3.545467540533434e-05, 'epoch': 0.83}
+{'loss': 1.4383, 'grad_norm': 0.10726114362478256, 'learning_rate': 3.5348312673026184e-05, 'epoch': 0.83}
+{'loss': 1.4308, 'grad_norm': 0.10771682113409042, 'learning_rate': 3.524209758413466e-05, 'epoch': 0.83}
+{'loss': 1.4346, 'grad_norm': 0.09413902461528778, 'learning_rate': 3.513603021171738e-05, 'epoch': 0.83}
+{'loss': 1.4325, 'grad_norm': 0.1000877395272255, 'learning_rate': 3.5030110628730516e-05, 'epoch': 0.83}
+{'loss': 1.4388, 'grad_norm': 0.10351301729679108, 'learning_rate': 3.4924338908028485e-05, 'epoch': 0.83}
+{'loss': 1.4206, 'grad_norm': 0.10318702459335327, 'learning_rate': 3.481871512236395e-05, 'epoch': 0.84}
+{'loss': 1.4313, 'grad_norm': 0.1013173907995224, 'learning_rate': 3.471323934438806e-05, 'epoch': 0.84}
+{'loss': 1.4523, 'grad_norm': 0.11063303053379059, 'learning_rate': 3.4607911646649836e-05, 'epoch': 0.84}
+{'loss': 1.4388, 'grad_norm': 0.09531669318675995, 'learning_rate': 3.4502732101596715e-05, 'epoch': 0.84}
+{'loss': 1.4522, 'grad_norm': 0.08798041939735413, 'learning_rate': 3.4397700781574e-05, 'epoch': 0.84}
+{'loss': 1.4298, 'grad_norm': 0.09465695172548294, 'learning_rate': 3.429281775882523e-05, 'epoch': 0.84}
+{'loss': 1.4161, 'grad_norm': 0.09949281066656113, 'learning_rate': 3.4188083105491956e-05, 'epoch': 0.84}
+{'loss': 1.4401, 'grad_norm': 0.1041698306798935, 'learning_rate': 3.408349689361348e-05, 'epoch': 0.84}
+{'loss': 1.4794, 'grad_norm': 0.09926566481590271, 'learning_rate': 3.39790591951272e-05, 'epoch': 0.84}
+{'loss': 1.421, 'grad_norm': 0.09164442121982574, 'learning_rate': 3.387477008186812e-05, 'epoch': 0.84}
+{'loss': 1.4477, 'grad_norm': 0.08912193030118942, 'learning_rate': 3.37706296255694e-05, 'epoch': 0.84}
+{'loss': 1.4313, 'grad_norm': 0.0966520607471466, 'learning_rate': 3.3666637897861675e-05, 'epoch': 0.84}
+{'loss': 1.4036, 'grad_norm': 0.08686526864767075, 'learning_rate': 3.356279497027326e-05, 'epoch': 0.84}
+{'loss': 1.4576, 'grad_norm': 0.08991148322820663, 'learning_rate': 3.345910091423035e-05, 'epoch': 0.84}
+{'loss': 1.4101, 'grad_norm': 0.10653218626976013, 'learning_rate': 3.335555580105651e-05, 'epoch': 0.84}
+{'loss': 1.4466, 'grad_norm': 0.09550561010837555, 'learning_rate': 3.325215970197304e-05, 'epoch': 0.84}
+{'loss': 1.4418, 'grad_norm': 0.08792141824960709, 'learning_rate': 3.3148912688098636e-05, 'epoch': 0.84}
+{'loss': 1.4424, 'grad_norm': 0.10025717318058014, 'learning_rate': 3.3045814830449465e-05, 'epoch': 0.84}
+{'loss': 1.4365, 'grad_norm': 0.09639380127191544, 'learning_rate': 3.2942866199939084e-05, 'epoch': 0.84}
+{'loss': 1.4405, 'grad_norm': 0.10788712650537491, 'learning_rate': 3.284006686737842e-05, 'epoch': 0.84}
+{'loss': 1.4172, 'grad_norm': 0.10405619442462921, 'learning_rate': 3.273741690347573e-05, 'epoch': 0.84}
+{'loss': 1.413, 'grad_norm': 0.09760018438100815, 'learning_rate': 3.2634916378836616e-05, 'epoch': 0.84}
+{'loss': 1.4283, 'grad_norm': 0.09258417040109634, 'learning_rate': 3.2532565363963707e-05, 'epoch': 0.84}
+{'loss': 1.4443, 'grad_norm': 0.08893632143735886, 'learning_rate': 3.2430363929256854e-05, 'epoch': 0.84}
+{'loss': 1.4576, 'grad_norm': 0.09825308620929718, 'learning_rate': 3.2328312145013165e-05, 'epoch': 0.84}
+{'loss': 1.4722, 'grad_norm': 0.0889030396938324, 'learning_rate': 3.2226410081426654e-05, 'epoch': 0.84}
+{'loss': 1.4444, 'grad_norm': 0.09232938289642334, 'learning_rate': 3.212465780858836e-05, 'epoch': 0.84}
+{'loss': 1.4334, 'grad_norm': 0.09970776736736298, 'learning_rate': 3.202305539648631e-05, 'epoch': 0.84}
+{'loss': 1.4238, 'grad_norm': 0.09507254511117935, 'learning_rate': 3.192160291500557e-05, 'epoch': 0.84}
+{'loss': 1.4233, 'grad_norm': 0.08961595594882965, 'learning_rate': 3.182030043392794e-05, 'epoch': 0.84}
+{'loss': 1.417, 'grad_norm': 0.08682136982679367, 'learning_rate': 3.1719148022932134e-05, 'epoch': 0.84}
+{'loss': 1.4509, 'grad_norm': 0.0933615043759346, 'learning_rate': 3.1618145751593555e-05, 'epoch': 0.84}
+{'loss': 1.427, 'grad_norm': 0.09287954866886139, 'learning_rate': 3.151729368938441e-05, 'epoch': 0.84}
+{'loss': 1.4297, 'grad_norm': 0.09623468667268753, 'learning_rate': 3.1416591905673474e-05, 'epoch': 0.84}
+{'loss': 1.4212, 'grad_norm': 0.09646047651767731, 'learning_rate': 3.131604046972636e-05, 'epoch': 0.84}
+{'loss': 1.4415, 'grad_norm': 0.09779693186283112, 'learning_rate': 3.1215639450705045e-05, 'epoch': 0.84}
+{'loss': 1.4347, 'grad_norm': 0.10091336071491241, 'learning_rate': 3.111538891766824e-05, 'epoch': 0.84}
+{'loss': 1.4304, 'grad_norm': 0.0936874970793724, 'learning_rate': 3.1015288939571034e-05, 'epoch': 0.84}
+{'loss': 1.437, 'grad_norm': 0.10740089416503906, 'learning_rate': 3.0915339585264935e-05, 'epoch': 0.84}
+{'loss': 1.4085, 'grad_norm': 0.10275238007307053, 'learning_rate': 3.081554092349798e-05, 'epoch': 0.85}
+{'loss': 1.4395, 'grad_norm': 0.09320272505283356, 'learning_rate': 3.071589302291441e-05, 'epoch': 0.85}
+{'loss': 1.447, 'grad_norm': 0.09783166646957397, 'learning_rate': 3.061639595205484e-05, 'epoch': 0.85}
+{'loss': 1.4332, 'grad_norm': 0.0895104929804802, 'learning_rate': 3.05170497793561e-05, 'epoch': 0.85}
+{'loss': 1.4331, 'grad_norm': 0.09390397369861603, 'learning_rate': 3.041785457315127e-05, 'epoch': 0.85}
+{'loss': 1.4312, 'grad_norm': 0.0969710648059845, 'learning_rate': 3.0318810401669674e-05, 'epoch': 0.85}
+{'loss': 1.3987, 'grad_norm': 0.09430158138275146, 'learning_rate': 3.0219917333036555e-05, 'epoch': 0.85}
+{'loss': 1.4435, 'grad_norm': 0.09751807898283005, 'learning_rate': 3.0121175435273373e-05, 'epoch': 0.85}
+{'loss': 1.4364, 'grad_norm': 0.0961139127612114, 'learning_rate': 3.0022584776297462e-05, 'epoch': 0.85}
+{'loss': 1.4277, 'grad_norm': 0.10420792549848557, 'learning_rate': 2.9924145423922382e-05, 'epoch': 0.85}
+{'loss': 1.4347, 'grad_norm': 0.09430290758609772, 'learning_rate': 2.982585744585736e-05, 'epoch': 0.85}
+{'loss': 1.4312, 'grad_norm': 0.09630190581083298, 'learning_rate': 2.97277209097076e-05, 'epoch': 0.85}
+{'loss': 1.4425, 'grad_norm': 0.10179015249013901, 'learning_rate': 2.9629735882974213e-05, 'epoch': 0.85}
+{'loss': 1.4089, 'grad_norm': 0.0954250693321228, 'learning_rate': 2.9531902433053953e-05, 'epoch': 0.85}
+{'loss': 1.4343, 'grad_norm': 0.08651488274335861, 'learning_rate': 2.9434220627239493e-05, 'epoch': 0.85}
+{'loss': 1.4265, 'grad_norm': 0.10172263532876968, 'learning_rate': 2.9336690532719064e-05, 'epoch': 0.85}
+{'loss': 1.443, 'grad_norm': 0.08841387182474136, 'learning_rate': 2.9239312216576552e-05, 'epoch': 0.85}
+{'loss': 1.4355, 'grad_norm': 0.09954377263784409, 'learning_rate': 2.9142085745791523e-05, 'epoch': 0.85}
+{'loss': 1.4055, 'grad_norm': 0.09585326910018921, 'learning_rate': 2.9045011187238958e-05, 'epoch': 0.85}
+{'loss': 1.4334, 'grad_norm': 0.09977447986602783, 'learning_rate': 2.8948088607689577e-05, 'epoch': 0.85}
+{'loss': 1.4212, 'grad_norm': 0.08833733201026917, 'learning_rate': 2.8851318073809335e-05, 'epoch': 0.85}
+{'loss': 1.4167, 'grad_norm': 0.09601090848445892, 'learning_rate': 2.8754699652159792e-05, 'epoch': 0.85}
+{'loss': 1.4332, 'grad_norm': 0.09332670271396637, 'learning_rate': 2.8658233409197737e-05, 'epoch': 0.85}
+{'loss': 1.4103, 'grad_norm': 0.09166403114795685, 'learning_rate': 2.856191941127531e-05, 'epoch': 0.85}
+{'loss': 1.4292, 'grad_norm': 0.09286388009786606, 'learning_rate': 2.846575772464005e-05, 'epoch': 0.85}
+{'loss': 1.4417, 'grad_norm': 0.09165027737617493, 'learning_rate': 2.8369748415434605e-05, 'epoch': 0.85}
+{'loss': 1.4124, 'grad_norm': 0.09787581861019135, 'learning_rate': 2.827389154969684e-05, 'epoch': 0.85}
+{'loss': 1.4501, 'grad_norm': 0.09567207098007202, 'learning_rate': 2.8178187193359738e-05, 'epoch': 0.85}
+{'loss': 1.4367, 'grad_norm': 0.09321655333042145, 'learning_rate': 2.8082635412251505e-05, 'epoch': 0.85}
+{'loss': 1.4206, 'grad_norm': 0.09604132920503616, 'learning_rate': 2.7987236272095318e-05, 'epoch': 0.85}
+{'loss': 1.4161, 'grad_norm': 0.08710739761590958, 'learning_rate': 2.7891989838509353e-05, 'epoch': 0.85}
+{'loss': 1.4289, 'grad_norm': 0.09525958448648453, 'learning_rate': 2.779689617700676e-05, 'epoch': 0.85}
+{'loss': 1.4397, 'grad_norm': 0.09355315566062927, 'learning_rate': 2.7701955352995523e-05, 'epoch': 0.85}
+{'loss': 1.4218, 'grad_norm': 0.099025197327137, 'learning_rate': 2.760716743177874e-05, 'epoch': 0.85}
+{'loss': 1.4127, 'grad_norm': 0.09189377725124359, 'learning_rate': 2.751253247855412e-05, 'epoch': 0.85}
+{'loss': 1.431, 'grad_norm': 0.09873281419277191, 'learning_rate': 2.7418050558414176e-05, 'epoch': 0.85}
+{'loss': 1.4336, 'grad_norm': 0.0955178290605545, 'learning_rate': 2.7323721736346285e-05, 'epoch': 0.85}
+{'loss': 1.4529, 'grad_norm': 0.09031982719898224, 'learning_rate': 2.7229546077232352e-05, 'epoch': 0.85}
+{'loss': 1.428, 'grad_norm': 0.10225454717874527, 'learning_rate': 2.713552364584915e-05, 'epoch': 0.85}
+{'loss': 1.4015, 'grad_norm': 0.09723886847496033, 'learning_rate': 2.7041654506867826e-05, 'epoch': 0.86}
+{'loss': 1.4226, 'grad_norm': 0.10202125459909439, 'learning_rate': 2.694793872485424e-05, 'epoch': 0.86}
+{'loss': 1.423, 'grad_norm': 0.09347955882549286, 'learning_rate': 2.6854376364268683e-05, 'epoch': 0.86}
+{'loss': 1.4405, 'grad_norm': 0.09256969392299652, 'learning_rate': 2.6760967489465937e-05, 'epoch': 0.86}
+{'loss': 1.4181, 'grad_norm': 0.09087672829627991, 'learning_rate': 2.666771216469527e-05, 'epoch': 0.86}
+{'loss': 1.4248, 'grad_norm': 0.09041257947683334, 'learning_rate': 2.657461045410034e-05, 'epoch': 0.86}
+{'loss': 1.4402, 'grad_norm': 0.09645313024520874, 'learning_rate': 2.6481662421719067e-05, 'epoch': 0.86}
+{'loss': 1.4362, 'grad_norm': 0.10639853775501251, 'learning_rate': 2.6388868131483613e-05, 'epoch': 0.86}
+{'loss': 1.4423, 'grad_norm': 0.09481167793273926, 'learning_rate': 2.6296227647220617e-05, 'epoch': 0.86}
+{'loss': 1.4419, 'grad_norm': 0.1015462651848793, 'learning_rate': 2.6203741032650718e-05, 'epoch': 0.86}
+{'loss': 1.433, 'grad_norm': 0.09968657046556473, 'learning_rate': 2.6111408351388783e-05, 'epoch': 0.86}
+{'loss': 1.4386, 'grad_norm': 0.1109507754445076, 'learning_rate': 2.6019229666943784e-05, 'epoch': 0.86}
+{'loss': 1.4453, 'grad_norm': 0.09624838083982468, 'learning_rate': 2.5927205042718784e-05, 'epoch': 0.86}
+{'loss': 1.4173, 'grad_norm': 0.09742014110088348, 'learning_rate': 2.583533454201101e-05, 'epoch': 0.86}
+{'loss': 1.4411, 'grad_norm': 0.09318280965089798, 'learning_rate': 2.5743618228011438e-05, 'epoch': 0.86}
+{'loss': 1.4248, 'grad_norm': 0.09750685840845108, 'learning_rate': 2.565205616380517e-05, 'epoch': 0.86}
+{'loss': 1.4651, 'grad_norm': 0.10195209085941315, 'learning_rate': 2.55606484123711e-05, 'epoch': 0.86}
+{'loss': 1.4369, 'grad_norm': 0.09759818017482758, 'learning_rate': 2.5469395036581994e-05, 'epoch': 0.86}
+{'loss': 1.4357, 'grad_norm': 0.08744968473911285, 'learning_rate': 2.5378296099204556e-05, 'epoch': 0.86}
+{'loss': 1.419, 'grad_norm': 0.09094946086406708, 'learning_rate': 2.5287351662899085e-05, 'epoch': 0.86}
+{'loss': 1.4345, 'grad_norm': 0.0935436338186264, 'learning_rate': 2.5196561790219813e-05, 'epoch': 0.86}
+{'loss': 1.4105, 'grad_norm': 0.09401431679725647, 'learning_rate': 2.510592654361446e-05, 'epoch': 0.86}
+{'loss': 1.4417, 'grad_norm': 0.09033547341823578, 'learning_rate': 2.501544598542449e-05, 'epoch': 0.86}
+{'loss': 1.4141, 'grad_norm': 0.10402265936136246, 'learning_rate': 2.492512017788498e-05, 'epoch': 0.86}
+{'loss': 1.4161, 'grad_norm': 0.09157993644475937, 'learning_rate': 2.4834949183124538e-05, 'epoch': 0.86}
+{'loss': 1.4344, 'grad_norm': 0.09456975758075714, 'learning_rate': 2.4744933063165274e-05, 'epoch': 0.86}
+{'loss': 1.4321, 'grad_norm': 0.09175850450992584, 'learning_rate': 2.4655071879922746e-05, 'epoch': 0.86}
+{'loss': 1.4294, 'grad_norm': 0.09641251713037491, 'learning_rate': 2.4565365695206037e-05, 'epoch': 0.86}
+{'loss': 1.4298, 'grad_norm': 0.09325755387544632, 'learning_rate': 2.4475814570717568e-05, 'epoch': 0.86}
+{'loss': 1.4394, 'grad_norm': 0.09598785638809204, 'learning_rate': 2.43864185680531e-05, 'epoch': 0.86}
+{'loss': 1.4327, 'grad_norm': 0.09661587327718735, 'learning_rate': 2.429717774870166e-05, 'epoch': 0.86}
+{'loss': 1.4171, 'grad_norm': 0.09414061903953552, 'learning_rate': 2.4208092174045543e-05, 'epoch': 0.86}
+{'loss': 1.4542, 'grad_norm': 0.09939057379961014, 'learning_rate': 2.41191619053604e-05, 'epoch': 0.86}
+{'loss': 1.436, 'grad_norm': 0.09520643204450607, 'learning_rate': 2.403038700381488e-05, 'epoch': 0.86}
+{'loss': 1.4021, 'grad_norm': 0.08957025408744812, 'learning_rate': 2.3941767530470783e-05, 'epoch': 0.86}
+{'loss': 1.422, 'grad_norm': 0.09376057237386703, 'learning_rate': 2.3853303546283178e-05, 'epoch': 0.86}
+{'loss': 1.4291, 'grad_norm': 0.09416403621435165, 'learning_rate': 2.3764995112099925e-05, 'epoch': 0.86}
+{'loss': 1.4169, 'grad_norm': 0.09149227291345596, 'learning_rate': 2.3676842288662183e-05, 'epoch': 0.86}
+{'loss': 1.4378, 'grad_norm': 0.09184471517801285, 'learning_rate': 2.358884513660381e-05, 'epoch': 0.86}
+{'loss': 1.4172, 'grad_norm': 0.08729784935712814, 'learning_rate': 2.3501003716451752e-05, 'epoch': 0.87}
+{'loss': 1.4195, 'grad_norm': 0.09365127235651016, 'learning_rate': 2.3413318088625736e-05, 'epoch': 0.87}
+{'loss': 1.4486, 'grad_norm': 0.09310159087181091, 'learning_rate': 2.33257883134384e-05, 'epoch': 0.87}
+{'loss': 1.4427, 'grad_norm': 0.09258266538381577, 'learning_rate': 2.32384144510952e-05, 'epoch': 0.87}
+{'loss': 1.4315, 'grad_norm': 0.08951643109321594, 'learning_rate': 2.315119656169426e-05, 'epoch': 0.87}
+{'loss': 1.4191, 'grad_norm': 0.10139749199151993, 'learning_rate': 2.306413470522653e-05, 'epoch': 0.87}
+{'loss': 1.4201, 'grad_norm': 0.09292498975992203, 'learning_rate': 2.297722894157553e-05, 'epoch': 0.87}
+{'loss': 1.415, 'grad_norm': 0.09426071494817734, 'learning_rate': 2.2890479330517548e-05, 'epoch': 0.87}
+{'loss': 1.4261, 'grad_norm': 0.09133288264274597, 'learning_rate': 2.2803885931721337e-05, 'epoch': 0.87}
+{'loss': 1.4323, 'grad_norm': 0.08960976451635361, 'learning_rate': 2.271744880474824e-05, 'epoch': 0.87}
+{'loss': 1.4322, 'grad_norm': 0.09694875031709671, 'learning_rate': 2.2631168009052126e-05, 'epoch': 0.87}
+{'loss': 1.4137, 'grad_norm': 0.09772103279829025, 'learning_rate': 2.25450436039793e-05, 'epoch': 0.87}
+{'loss': 1.4189, 'grad_norm': 0.09471642225980759, 'learning_rate': 2.245907564876859e-05, 'epoch': 0.87}
+{'loss': 1.4309, 'grad_norm': 0.08237182348966599, 'learning_rate': 2.2373264202551175e-05, 'epoch': 0.87}
+{'loss': 1.4477, 'grad_norm': 0.0915505513548851, 'learning_rate': 2.2287609324350506e-05, 'epoch': 0.87}
+{'loss': 1.4251, 'grad_norm': 0.09003590792417526, 'learning_rate': 2.2202111073082398e-05, 'epoch': 0.87}
+{'loss': 1.4324, 'grad_norm': 0.08622578531503677, 'learning_rate': 2.2116769507554922e-05, 'epoch': 0.87}
+{'loss': 1.4379, 'grad_norm': 0.08711369335651398, 'learning_rate': 2.203158468646843e-05, 'epoch': 0.87}
+{'loss': 1.428, 'grad_norm': 0.10119041055440903, 'learning_rate': 2.1946556668415414e-05, 'epoch': 0.87}
+{'loss': 1.4268, 'grad_norm': 0.09196347743272781, 'learning_rate': 2.1861685511880448e-05, 'epoch': 0.87}
+{'loss': 1.4258, 'grad_norm': 0.0941428616642952, 'learning_rate': 2.1776971275240394e-05, 'epoch': 0.87}
+{'loss': 1.4289, 'grad_norm': 0.09185010194778442, 'learning_rate': 2.1692414016763918e-05, 'epoch': 0.87}
+{'loss': 1.4107, 'grad_norm': 0.0958610400557518, 'learning_rate': 2.1608013794612026e-05, 'epoch': 0.87}
+{'loss': 1.4287, 'grad_norm': 0.09510154277086258, 'learning_rate': 2.1523770666837445e-05, 'epoch': 0.87}
+{'loss': 1.4393, 'grad_norm': 0.09010203927755356, 'learning_rate': 2.1439684691384992e-05, 'epoch': 0.87}
+{'loss': 1.4542, 'grad_norm': 0.09401325136423111, 'learning_rate': 2.1355755926091235e-05, 'epoch': 0.87}
+{'loss': 1.4283, 'grad_norm': 0.09186916053295135, 'learning_rate': 2.1271984428684888e-05, 'epoch': 0.87}
+{'loss': 1.4266, 'grad_norm': 0.08423035591840744, 'learning_rate': 2.118837025678616e-05, 'epoch': 0.87}
+{'loss': 1.4167, 'grad_norm': 0.09697676450014114, 'learning_rate': 2.1104913467907354e-05, 'epoch': 0.87}
+{'loss': 1.4077, 'grad_norm': 0.08906364440917969, 'learning_rate': 2.102161411945233e-05, 'epoch': 0.87}
+{'loss': 1.4197, 'grad_norm': 0.09444884955883026, 'learning_rate': 2.0938472268716618e-05, 'epoch': 0.87}
+{'loss': 1.444, 'grad_norm': 0.09732658416032791, 'learning_rate': 2.085548797288761e-05, 'epoch': 0.87}
+{'loss': 1.4283, 'grad_norm': 0.08697722107172012, 'learning_rate': 2.0772661289044174e-05, 'epoch': 0.87}
+{'loss': 1.4325, 'grad_norm': 0.08910862356424332, 'learning_rate': 2.0689992274156828e-05, 'epoch': 0.87}
+{'loss': 1.4404, 'grad_norm': 0.0905480831861496, 'learning_rate': 2.060748098508758e-05, 'epoch': 0.87}
+{'loss': 1.4183, 'grad_norm': 0.09337372332811356, 'learning_rate': 2.0525127478590032e-05, 'epoch': 0.87}
+{'loss': 1.4271, 'grad_norm': 0.09372378885746002, 'learning_rate': 2.044293181130924e-05, 'epoch': 0.87}
+{'loss': 1.4153, 'grad_norm': 0.09323614835739136, 'learning_rate': 2.036089403978167e-05, 'epoch': 0.87}
+{'loss': 1.4267, 'grad_norm': 0.0863831415772438, 'learning_rate': 2.0279014220435183e-05, 'epoch': 0.87}
+{'loss': 1.4325, 'grad_norm': 0.09365250170230865, 'learning_rate': 2.019729240958898e-05, 'epoch': 0.88}
+{'loss': 1.449, 'grad_norm': 0.08665908128023148, 'learning_rate': 2.0115728663453597e-05, 'epoch': 0.88}
+{'loss': 1.4397, 'grad_norm': 0.08467435091733932, 'learning_rate': 2.003432303813088e-05, 'epoch': 0.88}
+{'loss': 1.4326, 'grad_norm': 0.09140859544277191, 'learning_rate': 1.9953075589613873e-05, 'epoch': 0.88}
+{'loss': 1.4077, 'grad_norm': 0.09903191775083542, 'learning_rate': 1.987198637378687e-05, 'epoch': 0.88}
+{'loss': 1.4333, 'grad_norm': 0.0960269495844841, 'learning_rate': 1.9791055446425233e-05, 'epoch': 0.88}
+{'loss': 1.4606, 'grad_norm': 0.0894823968410492, 'learning_rate': 1.9710282863195594e-05, 'epoch': 0.88}
+{'loss': 1.3924, 'grad_norm': 0.09254030883312225, 'learning_rate': 1.9629668679655542e-05, 'epoch': 0.88}
+{'loss': 1.4201, 'grad_norm': 0.10394071787595749, 'learning_rate': 1.9549212951253753e-05, 'epoch': 0.88}
+{'loss': 1.4532, 'grad_norm': 0.08924252539873123, 'learning_rate': 1.9468915733329928e-05, 'epoch': 0.88}
+{'loss': 1.444, 'grad_norm': 0.0954669862985611, 'learning_rate': 1.9388777081114694e-05, 'epoch': 0.88}
+{'loss': 1.4342, 'grad_norm': 0.08957848697900772, 'learning_rate': 1.930879704972971e-05, 'epoch': 0.88}
+{'loss': 1.4522, 'grad_norm': 0.08846428990364075, 'learning_rate': 1.922897569418744e-05, 'epoch': 0.88}
+{'loss': 1.4516, 'grad_norm': 0.08395687490701675, 'learning_rate': 1.9149313069391272e-05, 'epoch': 0.88}
+{'loss': 1.4357, 'grad_norm': 0.08160872012376785, 'learning_rate': 1.9069809230135375e-05, 'epoch': 0.88}
+{'loss': 1.4318, 'grad_norm': 0.09669499099254608, 'learning_rate': 1.8990464231104648e-05, 'epoch': 0.88}
+{'loss': 1.4107, 'grad_norm': 0.08895736932754517, 'learning_rate': 1.8911278126874876e-05, 'epoch': 0.88}
+{'loss': 1.4443, 'grad_norm': 0.09257825464010239, 'learning_rate': 1.8832250971912433e-05, 'epoch': 0.88}
+{'loss': 1.4229, 'grad_norm': 0.08964058756828308, 'learning_rate': 1.8753382820574345e-05, 'epoch': 0.88}
+{'loss': 1.4123, 'grad_norm': 0.08969718217849731, 'learning_rate': 1.8674673727108432e-05, 'epoch': 0.88}
+{'loss': 1.4162, 'grad_norm': 0.09324976801872253, 'learning_rate': 1.8596123745652894e-05, 'epoch': 0.88}
+{'loss': 1.4289, 'grad_norm': 0.09003420919179916, 'learning_rate': 1.8517732930236704e-05, 'epoch': 0.88}
+{'loss': 1.4561, 'grad_norm': 0.09056345373392105, 'learning_rate': 1.8439501334779203e-05, 'epoch': 0.88}
+{'loss': 1.4243, 'grad_norm': 0.08866603672504425, 'learning_rate': 1.8361429013090263e-05, 'epoch': 0.88}
+{'loss': 1.4177, 'grad_norm': 0.08333892375230789, 'learning_rate': 1.8283516018870213e-05, 'epoch': 0.88}
+{'loss': 1.4479, 'grad_norm': 0.08925684541463852, 'learning_rate': 1.820576240570973e-05, 'epoch': 0.88}
+{'loss': 1.4089, 'grad_norm': 0.09575674682855606, 'learning_rate': 1.8128168227089987e-05, 'epoch': 0.88}
+{'loss': 1.43, 'grad_norm': 0.09262610971927643, 'learning_rate': 1.805073353638237e-05, 'epoch': 0.88}
+{'loss': 1.4677, 'grad_norm': 0.0899161770939827, 'learning_rate': 1.797345838684869e-05, 'epoch': 0.88}
+{'loss': 1.4011, 'grad_norm': 0.09374510496854782, 'learning_rate': 1.789634283164085e-05, 'epoch': 0.88}
+{'loss': 1.4127, 'grad_norm': 0.09501822292804718, 'learning_rate': 1.7819386923801196e-05, 'epoch': 0.88}
+{'loss': 1.4553, 'grad_norm': 0.09197526425123215, 'learning_rate': 1.774259071626208e-05, 'epoch': 0.88}
+{'loss': 1.4166, 'grad_norm': 0.0895121693611145, 'learning_rate': 1.7665954261846084e-05, 'epoch': 0.88}
+{'loss': 1.4211, 'grad_norm': 0.08603345602750778, 'learning_rate': 1.7589477613265876e-05, 'epoch': 0.88}
+{'loss': 1.4303, 'grad_norm': 0.09227398782968521, 'learning_rate': 1.7513160823124237e-05, 'epoch': 0.88}
+{'loss': 1.4328, 'grad_norm': 0.09611407667398453, 'learning_rate': 1.743700394391398e-05, 'epoch': 0.88}
+{'loss': 1.4381, 'grad_norm': 0.08969752490520477, 'learning_rate': 1.7361007028018018e-05, 'epoch': 0.88}
+{'loss': 1.421, 'grad_norm': 0.08942988514900208, 'learning_rate': 1.7285170127709055e-05, 'epoch': 0.88}
+{'loss': 1.428, 'grad_norm': 0.09806353598833084, 'learning_rate': 1.7209493295149843e-05, 'epoch': 0.88}
+{'loss': 1.4211, 'grad_norm': 0.09118971228599548, 'learning_rate': 1.713397658239299e-05, 'epoch': 0.88}
+{'loss': 1.4399, 'grad_norm': 0.09235571324825287, 'learning_rate': 1.7058620041381064e-05, 'epoch': 0.89}
+{'loss': 1.4457, 'grad_norm': 0.09065482765436172, 'learning_rate': 1.6983423723946345e-05, 'epoch': 0.89}
+{'loss': 1.4238, 'grad_norm': 0.09136231243610382, 'learning_rate': 1.6908387681810965e-05, 'epoch': 0.89}
+{'loss': 1.4473, 'grad_norm': 0.08688041567802429, 'learning_rate': 1.6833511966586834e-05, 'epoch': 0.89}
+{'loss': 1.4338, 'grad_norm': 0.09223609417676926, 'learning_rate': 1.6758796629775503e-05, 'epoch': 0.89}
+{'loss': 1.4283, 'grad_norm': 0.08777322620153427, 'learning_rate': 1.6684241722768336e-05, 'epoch': 0.89}
+{'loss': 1.4473, 'grad_norm': 0.0937756896018982, 'learning_rate': 1.6609847296846254e-05, 'epoch': 0.89}
+{'loss': 1.4352, 'grad_norm': 0.09531732648611069, 'learning_rate': 1.65356134031798e-05, 'epoch': 0.89}
+{'loss': 1.4415, 'grad_norm': 0.09493836760520935, 'learning_rate': 1.6461540092829076e-05, 'epoch': 0.89}
+{'loss': 1.4228, 'grad_norm': 0.093520388007164, 'learning_rate': 1.638762741674385e-05, 'epoch': 0.89}
+{'loss': 1.4197, 'grad_norm': 0.09202317893505096, 'learning_rate': 1.6313875425763264e-05, 'epoch': 0.89}
+{'loss': 1.4094, 'grad_norm': 0.08544976264238358, 'learning_rate': 1.6240284170616045e-05, 'epoch': 0.89}
+{'loss': 1.424, 'grad_norm': 0.09191721677780151, 'learning_rate': 1.616685370192028e-05, 'epoch': 0.89}
+{'loss': 1.4365, 'grad_norm': 0.09260579198598862, 'learning_rate': 1.6093584070183436e-05, 'epoch': 0.89}
+{'loss': 1.4529, 'grad_norm': 0.08660054951906204, 'learning_rate': 1.602047532580253e-05, 'epoch': 0.89}
+{'loss': 1.4157, 'grad_norm': 0.09692519903182983, 'learning_rate': 1.5947527519063755e-05, 'epoch': 0.89}
+{'loss': 1.4406, 'grad_norm': 0.08859415352344513, 'learning_rate': 1.5874740700142582e-05, 'epoch': 0.89}
+{'loss': 1.4391, 'grad_norm': 0.08718140423297882, 'learning_rate': 1.5802114919103854e-05, 'epoch': 0.89}
+{'loss': 1.4185, 'grad_norm': 0.09073224663734436, 'learning_rate': 1.5729650225901586e-05, 'epoch': 0.89}
+{'loss': 1.4435, 'grad_norm': 0.09318036586046219, 'learning_rate': 1.5657346670379102e-05, 'epoch': 0.89}
+{'loss': 1.4725, 'grad_norm': 0.09384745359420776, 'learning_rate': 1.558520430226873e-05, 'epoch': 0.89}
+{'loss': 1.4338, 'grad_norm': 0.08978293091058731, 'learning_rate': 1.5513223171192025e-05, 'epoch': 0.89}
+{'loss': 1.4185, 'grad_norm': 0.09325810521841049, 'learning_rate': 1.544140332665961e-05, 'epoch': 0.89}
+{'loss': 1.4233, 'grad_norm': 0.08871285617351532, 'learning_rate': 1.536974481807113e-05, 'epoch': 0.89}
+{'loss': 1.445, 'grad_norm': 0.09385091066360474, 'learning_rate': 1.5298247694715384e-05, 'epoch': 0.89}
+{'loss': 1.4234, 'grad_norm': 0.09303021430969238, 'learning_rate': 1.5226912005770034e-05, 'epoch': 0.89}
+{'loss': 1.4186, 'grad_norm': 0.08581940084695816, 'learning_rate': 1.51557378003018e-05, 'epoch': 0.89}
+{'loss': 1.4445, 'grad_norm': 0.09652157872915268, 'learning_rate': 1.5084725127266219e-05, 'epoch': 0.89}
+{'loss': 1.4062, 'grad_norm': 0.09253419190645218, 'learning_rate': 1.5013874035507858e-05, 'epoch': 0.89}
+{'loss': 1.4333, 'grad_norm': 0.0948663055896759, 'learning_rate': 1.4943184573760067e-05, 'epoch': 0.89}
+{'loss': 1.4465, 'grad_norm': 0.09147418290376663, 'learning_rate': 1.4872656790645006e-05, 'epoch': 0.89}
+{'loss': 1.4368, 'grad_norm': 0.0959167554974556, 'learning_rate': 1.4802290734673623e-05, 'epoch': 0.89}
+{'loss': 1.4351, 'grad_norm': 0.09190923720598221, 'learning_rate': 1.4732086454245674e-05, 'epoch': 0.89}
+{'loss': 1.4276, 'grad_norm': 0.09638328105211258, 'learning_rate': 1.4662043997649672e-05, 'epoch': 0.89}
+{'loss': 1.4077, 'grad_norm': 0.08173757791519165, 'learning_rate': 1.4592163413062687e-05, 'epoch': 0.89}
+{'loss': 1.4146, 'grad_norm': 0.08956263214349747, 'learning_rate': 1.4522444748550605e-05, 'epoch': 0.89}
+{'loss': 1.4318, 'grad_norm': 0.08847783505916595, 'learning_rate': 1.4452888052067848e-05, 'epoch': 0.89}
+{'loss': 1.4296, 'grad_norm': 0.08900421112775803, 'learning_rate': 1.438349337145739e-05, 'epoch': 0.89}
+{'loss': 1.4326, 'grad_norm': 0.0958147794008255, 'learning_rate': 1.4314260754450915e-05, 'epoch': 0.89}
+{'loss': 1.4189, 'grad_norm': 0.09456314146518707, 'learning_rate': 1.424519024866855e-05, 'epoch': 0.9}
+{'loss': 1.4307, 'grad_norm': 0.0941406711935997, 'learning_rate': 1.4176281901618849e-05, 'epoch': 0.9}
+{'loss': 1.4227, 'grad_norm': 0.08989154547452927, 'learning_rate': 1.4107535760698898e-05, 'epoch': 0.9}
+{'loss': 1.4204, 'grad_norm': 0.10008951276540756, 'learning_rate': 1.4038951873194234e-05, 'epoch': 0.9}
+{'loss': 1.4299, 'grad_norm': 0.08738405257463455, 'learning_rate': 1.3970530286278788e-05, 'epoch': 0.9}
+{'loss': 1.4322, 'grad_norm': 0.09302837401628494, 'learning_rate': 1.3902271047014831e-05, 'epoch': 0.9}
+{'loss': 1.4221, 'grad_norm': 0.09486595541238785, 'learning_rate': 1.3834174202352972e-05, 'epoch': 0.9}
+{'loss': 1.4162, 'grad_norm': 0.08582329750061035, 'learning_rate': 1.3766239799132052e-05, 'epoch': 0.9}
+{'loss': 1.434, 'grad_norm': 0.09217808395624161, 'learning_rate': 1.3698467884079357e-05, 'epoch': 0.9}
+{'loss': 1.4143, 'grad_norm': 0.08561346679925919, 'learning_rate': 1.3630858503810212e-05, 'epoch': 0.9}
+{'loss': 1.4423, 'grad_norm': 0.08973497152328491, 'learning_rate': 1.356341170482825e-05, 'epoch': 0.9}
+{'loss': 1.4273, 'grad_norm': 0.09442874789237976, 'learning_rate': 1.3496127533525332e-05, 'epoch': 0.9}
+{'loss': 1.4236, 'grad_norm': 0.09159765392541885, 'learning_rate': 1.3429006036181274e-05, 'epoch': 0.9}
+{'loss': 1.4641, 'grad_norm': 0.08979880809783936, 'learning_rate': 1.33620472589642e-05, 'epoch': 0.9}
+{'loss': 1.422, 'grad_norm': 0.087364062666893, 'learning_rate': 1.3295251247930212e-05, 'epoch': 0.9}
+{'loss': 1.4333, 'grad_norm': 0.08949249237775803, 'learning_rate': 1.322861804902345e-05, 'epoch': 0.9}
+{'loss': 1.4335, 'grad_norm': 0.08887413144111633, 'learning_rate': 1.3162147708076083e-05, 'epoch': 0.9}
+{'loss': 1.4112, 'grad_norm': 0.08739539980888367, 'learning_rate': 1.3095840270808234e-05, 'epoch': 0.9}
+{'loss': 1.4384, 'grad_norm': 0.08651404082775116, 'learning_rate': 1.3029695782828061e-05, 'epoch': 0.9}
+{'loss': 1.4052, 'grad_norm': 0.0862591415643692, 'learning_rate': 1.2963714289631584e-05, 'epoch': 0.9}
+{'loss': 1.4264, 'grad_norm': 0.09291764348745346, 'learning_rate': 1.2897895836602724e-05, 'epoch': 0.9}
+{'loss': 1.4171, 'grad_norm': 0.08687242865562439, 'learning_rate': 1.2832240469013212e-05, 'epoch': 0.9}
+{'loss': 1.4113, 'grad_norm': 0.09745118021965027, 'learning_rate': 1.2766748232022618e-05, 'epoch': 0.9}
+{'loss': 1.4416, 'grad_norm': 0.08440004289150238, 'learning_rate': 1.2701419170678408e-05, 'epoch': 0.9}
+{'loss': 1.3949, 'grad_norm': 0.0930834487080574, 'learning_rate': 1.2636253329915692e-05, 'epoch': 0.9}
+{'loss': 1.4385, 'grad_norm': 0.0959428995847702, 'learning_rate': 1.257125075455734e-05, 'epoch': 0.9}
+{'loss': 1.4572, 'grad_norm': 0.09647273272275925, 'learning_rate': 1.2506411489313918e-05, 'epoch': 0.9}
+{'loss': 1.416, 'grad_norm': 0.09356438368558884, 'learning_rate': 1.2441735578783753e-05, 'epoch': 0.9}
+{'loss': 1.4329, 'grad_norm': 0.08476269990205765, 'learning_rate': 1.2377223067452675e-05, 'epoch': 0.9}
+{'loss': 1.4402, 'grad_norm': 0.08452361077070236, 'learning_rate': 1.2312873999694246e-05, 'epoch': 0.9}
+{'loss': 1.4335, 'grad_norm': 0.09650825709104538, 'learning_rate': 1.2248688419769477e-05, 'epoch': 0.9}
+{'loss': 1.4353, 'grad_norm': 0.09397874027490616, 'learning_rate': 1.2184666371827024e-05, 'epoch': 0.9}
+{'loss': 1.453, 'grad_norm': 0.09015701711177826, 'learning_rate': 1.212080789990308e-05, 'epoch': 0.9}
+{'loss': 1.4395, 'grad_norm': 0.09479271620512009, 'learning_rate': 1.205711304792123e-05, 'epoch': 0.9}
+{'loss': 1.4523, 'grad_norm': 0.10038290917873383, 'learning_rate': 1.1993581859692598e-05, 'epoch': 0.9}
+{'loss': 1.4402, 'grad_norm': 0.09406449645757675, 'learning_rate': 1.1930214378915726e-05, 'epoch': 0.9}
+{'loss': 1.4321, 'grad_norm': 0.08407403528690338, 'learning_rate': 1.1867010649176473e-05, 'epoch': 0.9}
+{'loss': 1.4257, 'grad_norm': 0.09435014426708221, 'learning_rate': 1.1803970713948176e-05, 'epoch': 0.9}
+{'loss': 1.4267, 'grad_norm': 0.08500972390174866, 'learning_rate': 1.1741094616591453e-05, 'epoch': 0.9}
+{'loss': 1.4363, 'grad_norm': 0.09740415215492249, 'learning_rate': 1.1678382400354236e-05, 'epoch': 0.91}
+{'loss': 1.4057, 'grad_norm': 0.08778747916221619, 'learning_rate': 1.161583410837172e-05, 'epoch': 0.91}
+{'loss': 1.4333, 'grad_norm': 0.08752243220806122, 'learning_rate': 1.1553449783666347e-05, 'epoch': 0.91}
+{'loss': 1.4226, 'grad_norm': 0.09773818403482437, 'learning_rate': 1.1491229469147879e-05, 'epoch': 0.91}
+{'loss': 1.4132, 'grad_norm': 0.096884585916996, 'learning_rate': 1.1429173207613108e-05, 'epoch': 0.91}
+{'loss': 1.4445, 'grad_norm': 0.0882185772061348, 'learning_rate': 1.1367281041746087e-05, 'epoch': 0.91}
+{'loss': 1.4184, 'grad_norm': 0.09593774378299713, 'learning_rate': 1.1305553014117953e-05, 'epoch': 0.91}
+{'loss': 1.4281, 'grad_norm': 0.08621599525213242, 'learning_rate': 1.1243989167186997e-05, 'epoch': 0.91}
+{'loss': 1.4128, 'grad_norm': 0.09372429549694061, 'learning_rate': 1.1182589543298539e-05, 'epoch': 0.91}
+{'loss': 1.4266, 'grad_norm': 0.08911700546741486, 'learning_rate': 1.1121354184684906e-05, 'epoch': 0.91}
+{'loss': 1.4215, 'grad_norm': 0.08995824307203293, 'learning_rate': 1.1060283133465577e-05, 'epoch': 0.91}
+{'loss': 1.4317, 'grad_norm': 0.08708509802818298, 'learning_rate': 1.0999376431646834e-05, 'epoch': 0.91}
+{'loss': 1.4276, 'grad_norm': 0.09228000789880753, 'learning_rate': 1.093863412112206e-05, 'epoch': 0.91}
+{'loss': 1.4393, 'grad_norm': 0.09086917340755463, 'learning_rate': 1.0878056243671497e-05, 'epoch': 0.91}
+{'loss': 1.4131, 'grad_norm': 0.09573271125555038, 'learning_rate': 1.0817642840962316e-05, 'epoch': 0.91}
+{'loss': 1.4349, 'grad_norm': 0.09085987508296967, 'learning_rate': 1.0757393954548527e-05, 'epoch': 0.91}
+{'loss': 1.4188, 'grad_norm': 0.08986573666334152, 'learning_rate': 1.0697309625870927e-05, 'epoch': 0.91}
+{'loss': 1.4176, 'grad_norm': 0.08867284655570984, 'learning_rate': 1.0637389896257289e-05, 'epoch': 0.91}
+{'loss': 1.4088, 'grad_norm': 0.08720023185014725, 'learning_rate': 1.0577634806922032e-05, 'epoch': 0.91}
+{'loss': 1.4137, 'grad_norm': 0.09885581582784653, 'learning_rate': 1.0518044398966393e-05, 'epoch': 0.91}
+{'loss': 1.4272, 'grad_norm': 0.09368076175451279, 'learning_rate': 1.0458618713378303e-05, 'epoch': 0.91}
+{'loss': 1.4377, 'grad_norm': 0.09531670808792114, 'learning_rate': 1.0399357791032377e-05, 'epoch': 0.91}
+{'loss': 1.425, 'grad_norm': 0.09573289006948471, 'learning_rate': 1.0340261672689977e-05, 'epoch': 0.91}
+{'loss': 1.4398, 'grad_norm': 0.09579354524612427, 'learning_rate': 1.028133039899906e-05, 'epoch': 0.91}
+{'loss': 1.4267, 'grad_norm': 0.09254401177167892, 'learning_rate': 1.0222564010494178e-05, 'epoch': 0.91}
+{'loss': 1.4312, 'grad_norm': 0.08924905955791473, 'learning_rate': 1.0163962547596467e-05, 'epoch': 0.91}
+{'loss': 1.4325, 'grad_norm': 0.09829320013523102, 'learning_rate': 1.0105526050613655e-05, 'epoch': 0.91}
+{'loss': 1.4174, 'grad_norm': 0.08695722371339798, 'learning_rate': 1.0047254559740065e-05, 'epoch': 0.91}
+{'loss': 1.4098, 'grad_norm': 0.08759361505508423, 'learning_rate': 9.989148115056412e-06, 'epoch': 0.91}
+{'loss': 1.4334, 'grad_norm': 0.10523243993520737, 'learning_rate': 9.931206756529893e-06, 'epoch': 0.91}
+{'loss': 1.4279, 'grad_norm': 0.0928189605474472, 'learning_rate': 9.87343052401421e-06, 'epoch': 0.91}
+{'loss': 1.4466, 'grad_norm': 0.09020897001028061, 'learning_rate': 9.815819457249519e-06, 'epoch': 0.91}
+{'loss': 1.4291, 'grad_norm': 0.08170787245035172, 'learning_rate': 9.758373595862236e-06, 'epoch': 0.91}
+{'loss': 1.4189, 'grad_norm': 0.08906711637973785, 'learning_rate': 9.701092979365278e-06, 'epoch': 0.91}
+{'loss': 1.4461, 'grad_norm': 0.0844777524471283, 'learning_rate': 9.643977647157825e-06, 'epoch': 0.91}
+{'loss': 1.4429, 'grad_norm': 0.08734046667814255, 'learning_rate': 9.587027638525398e-06, 'epoch': 0.91}
+{'loss': 1.4012, 'grad_norm': 0.09637855738401413, 'learning_rate': 9.530242992639855e-06, 'epoch': 0.91}
+{'loss': 1.4263, 'grad_norm': 0.09056146442890167, 'learning_rate': 9.473623748559202e-06, 'epoch': 0.91}
+{'loss': 1.4246, 'grad_norm': 0.09405940026044846, 'learning_rate': 9.417169945227732e-06, 'epoch': 0.91}
+{'loss': 1.4452, 'grad_norm': 0.0966527909040451, 'learning_rate': 9.360881621475997e-06, 'epoch': 0.92}
+{'loss': 1.4349, 'grad_norm': 0.09533985704183578, 'learning_rate': 9.30475881602058e-06, 'epoch': 0.92}
+{'loss': 1.431, 'grad_norm': 0.09898510575294495, 'learning_rate': 9.248801567464383e-06, 'epoch': 0.92}
+{'loss': 1.4321, 'grad_norm': 0.08347529172897339, 'learning_rate': 9.193009914296363e-06, 'epoch': 0.92}
+{'loss': 1.4247, 'grad_norm': 0.08913667500019073, 'learning_rate': 9.137383894891576e-06, 'epoch': 0.92}
+{'loss': 1.4245, 'grad_norm': 0.08862341195344925, 'learning_rate': 9.08192354751114e-06, 'epoch': 0.92}
+{'loss': 1.4233, 'grad_norm': 0.09335239976644516, 'learning_rate': 9.026628910302176e-06, 'epoch': 0.92}
+{'loss': 1.4384, 'grad_norm': 0.08869542181491852, 'learning_rate': 8.971500021297958e-06, 'epoch': 0.92}
+{'loss': 1.4277, 'grad_norm': 0.08574611693620682, 'learning_rate': 8.91653691841765e-06, 'epoch': 0.92}
+{'loss': 1.4243, 'grad_norm': 0.09061870723962784, 'learning_rate': 8.861739639466377e-06, 'epoch': 0.92}
+{'loss': 1.4097, 'grad_norm': 0.09373259544372559, 'learning_rate': 8.807108222135235e-06, 'epoch': 0.92}
+{'loss': 1.4309, 'grad_norm': 0.0936913937330246, 'learning_rate': 8.752642704001307e-06, 'epoch': 0.92}
+{'loss': 1.4257, 'grad_norm': 0.08843863010406494, 'learning_rate': 8.69834312252743e-06, 'epoch': 0.92}
+{'loss': 1.3995, 'grad_norm': 0.0900488793849945, 'learning_rate': 8.644209515062396e-06, 'epoch': 0.92}
+{'loss': 1.4285, 'grad_norm': 0.0843793973326683, 'learning_rate': 8.59024191884078e-06, 'epoch': 0.92}
+{'loss': 1.4364, 'grad_norm': 0.08562983572483063, 'learning_rate': 8.536440370983e-06, 'epoch': 0.92}
+{'loss': 1.4395, 'grad_norm': 0.08878451585769653, 'learning_rate': 8.482804908495317e-06, 'epoch': 0.92}
+{'loss': 1.4422, 'grad_norm': 0.0869612842798233, 'learning_rate': 8.429335568269635e-06, 'epoch': 0.92}
+{'loss': 1.4406, 'grad_norm': 0.09073042124509811, 'learning_rate': 8.376032387083704e-06, 'epoch': 0.92}
+{'loss': 1.4066, 'grad_norm': 0.08810212463140488, 'learning_rate': 8.322895401600944e-06, 'epoch': 0.92}
+{'loss': 1.4314, 'grad_norm': 0.08738502115011215, 'learning_rate': 8.26992464837037e-06, 'epoch': 0.92}
+{'loss': 1.4259, 'grad_norm': 0.09412173181772232, 'learning_rate': 8.217120163826835e-06, 'epoch': 0.92}
+{'loss': 1.4184, 'grad_norm': 0.0917704626917839, 'learning_rate': 8.164481984290705e-06, 'epoch': 0.92}
+{'loss': 1.4184, 'grad_norm': 0.08267529308795929, 'learning_rate': 8.11201014596799e-06, 'epoch': 0.92}
+{'loss': 1.4227, 'grad_norm': 0.09107766300439835, 'learning_rate': 8.059704684950265e-06, 'epoch': 0.92}
+{'loss': 1.4329, 'grad_norm': 0.08693909645080566, 'learning_rate': 8.007565637214692e-06, 'epoch': 0.92}
+{'loss': 1.4294, 'grad_norm': 0.08774729818105698, 'learning_rate': 7.955593038623975e-06, 'epoch': 0.92}
+{'loss': 1.4044, 'grad_norm': 0.09098786860704422, 'learning_rate': 7.903786924926326e-06, 'epoch': 0.92}
+{'loss': 1.4339, 'grad_norm': 0.09122167527675629, 'learning_rate': 7.852147331755432e-06, 'epoch': 0.92}
+{'loss': 1.4281, 'grad_norm': 0.09228016436100006, 'learning_rate': 7.800674294630411e-06, 'epoch': 0.92}
+{'loss': 1.4515, 'grad_norm': 0.09450113028287888, 'learning_rate': 7.749367848955885e-06, 'epoch': 0.92}
+{'loss': 1.4199, 'grad_norm': 0.08131939172744751, 'learning_rate': 7.698228030021848e-06, 'epoch': 0.92}
+{'loss': 1.4374, 'grad_norm': 0.08570221811532974, 'learning_rate': 7.64725487300369e-06, 'epoch': 0.92}
+{'loss': 1.4501, 'grad_norm': 0.09054559469223022, 'learning_rate': 7.596448412962198e-06, 'epoch': 0.92}
+{'loss': 1.4396, 'grad_norm': 0.08588400483131409, 'learning_rate': 7.545808684843392e-06, 'epoch': 0.92}
+{'loss': 1.4178, 'grad_norm': 0.09585659205913544, 'learning_rate': 7.4953357234787965e-06, 'epoch': 0.92}
+{'loss': 1.4094, 'grad_norm': 0.09044142067432404, 'learning_rate': 7.445029563585088e-06, 'epoch': 0.92}
+{'loss': 1.4338, 'grad_norm': 0.09669655561447144, 'learning_rate': 7.394890239764196e-06, 'epoch': 0.92}
+{'loss': 1.4355, 'grad_norm': 0.08500541001558304, 'learning_rate': 7.3449177865033965e-06, 'epoch': 0.92}
+{'loss': 1.4138, 'grad_norm': 0.08654096722602844, 'learning_rate': 7.295112238175084e-06, 'epoch': 0.93}
+{'loss': 1.409, 'grad_norm': 0.08725132048130035, 'learning_rate': 7.245473629036992e-06, 'epoch': 0.93}
+{'loss': 1.4388, 'grad_norm': 0.08438671380281448, 'learning_rate': 7.196001993231837e-06, 'epoch': 0.93}
+{'loss': 1.4229, 'grad_norm': 0.08685421943664551, 'learning_rate': 7.146697364787652e-06, 'epoch': 0.93}
+{'loss': 1.4177, 'grad_norm': 0.08646101504564285, 'learning_rate': 7.097559777617557e-06, 'epoch': 0.93}
+{'loss': 1.4204, 'grad_norm': 0.08929285407066345, 'learning_rate': 7.048589265519684e-06, 'epoch': 0.93}
+{'loss': 1.4315, 'grad_norm': 0.1024923324584961, 'learning_rate': 6.999785862177366e-06, 'epoch': 0.93}
+{'loss': 1.4517, 'grad_norm': 0.08634566515684128, 'learning_rate': 6.951149601158946e-06, 'epoch': 0.93}
+{'loss': 1.4311, 'grad_norm': 0.08911822736263275, 'learning_rate': 6.902680515917775e-06, 'epoch': 0.93}
+{'loss': 1.4575, 'grad_norm': 0.08589291572570801, 'learning_rate': 6.854378639792241e-06, 'epoch': 0.93}
+{'loss': 1.4176, 'grad_norm': 0.08979159593582153, 'learning_rate': 6.80624400600574e-06, 'epoch': 0.93}
+{'loss': 1.4086, 'grad_norm': 0.08844362944364548, 'learning_rate': 6.758276647666622e-06, 'epoch': 0.93}
+{'loss': 1.4426, 'grad_norm': 0.08323425054550171, 'learning_rate': 6.7104765977681616e-06, 'epoch': 0.93}
+{'loss': 1.4292, 'grad_norm': 0.08876034617424011, 'learning_rate': 6.662843889188558e-06, 'epoch': 0.93}
+{'loss': 1.4171, 'grad_norm': 0.08689068257808685, 'learning_rate': 6.61537855469091e-06, 'epoch': 0.93}
+{'loss': 1.4561, 'grad_norm': 0.08754263818264008, 'learning_rate': 6.568080626923239e-06, 'epoch': 0.93}
+{'loss': 1.4367, 'grad_norm': 0.08635801076889038, 'learning_rate': 6.520950138418358e-06, 'epoch': 0.93}
+{'loss': 1.4187, 'grad_norm': 0.08789918571710587, 'learning_rate': 6.473987121593888e-06, 'epoch': 0.93}
+{'loss': 1.4163, 'grad_norm': 0.09780033677816391, 'learning_rate': 6.4271916087523805e-06, 'epoch': 0.93}
+{'loss': 1.426, 'grad_norm': 0.08576352894306183, 'learning_rate': 6.380563632081005e-06, 'epoch': 0.93}
+{'loss': 1.4308, 'grad_norm': 0.08697289973497391, 'learning_rate': 6.334103223651883e-06, 'epoch': 0.93}
+{'loss': 1.4228, 'grad_norm': 0.08849119395017624, 'learning_rate': 6.287810415421702e-06, 'epoch': 0.93}
+{'loss': 1.4336, 'grad_norm': 0.08362415432929993, 'learning_rate': 6.241685239231992e-06, 'epoch': 0.93}
+{'loss': 1.4489, 'grad_norm': 0.08773625642061234, 'learning_rate': 6.195727726808903e-06, 'epoch': 0.93}
+{'loss': 1.4302, 'grad_norm': 0.08403339982032776, 'learning_rate': 6.149937909763314e-06, 'epoch': 0.93}
+{'loss': 1.4426, 'grad_norm': 0.09197433292865753, 'learning_rate': 6.1043158195907e-06, 'epoch': 0.93}
+{'loss': 1.437, 'grad_norm': 0.08841320872306824, 'learning_rate': 6.058861487671264e-06, 'epoch': 0.93}
+{'loss': 1.4325, 'grad_norm': 0.08313179761171341, 'learning_rate': 6.013574945269746e-06, 'epoch': 0.93}
+{'loss': 1.4413, 'grad_norm': 0.08498769998550415, 'learning_rate': 5.968456223535451e-06, 'epoch': 0.93}
+{'loss': 1.4232, 'grad_norm': 0.08507023751735687, 'learning_rate': 5.923505353502362e-06, 'epoch': 0.93}
+{'loss': 1.4282, 'grad_norm': 0.08561386168003082, 'learning_rate': 5.878722366088912e-06, 'epoch': 0.93}
+{'loss': 1.4341, 'grad_norm': 0.09801049530506134, 'learning_rate': 5.834107292098073e-06, 'epoch': 0.93}
+{'loss': 1.4351, 'grad_norm': 0.09038384258747101, 'learning_rate': 5.789660162217325e-06, 'epoch': 0.93}
+{'loss': 1.4336, 'grad_norm': 0.08893242478370667, 'learning_rate': 5.745381007018657e-06, 'epoch': 0.93}
+{'loss': 1.4174, 'grad_norm': 0.08670200407505035, 'learning_rate': 5.7012698569585405e-06, 'epoch': 0.93}
+{'loss': 1.427, 'grad_norm': 0.09121931344270706, 'learning_rate': 5.657326742377844e-06, 'epoch': 0.93}
+{'loss': 1.424, 'grad_norm': 0.08635648339986801, 'learning_rate': 5.613551693501834e-06, 'epoch': 0.93}
+{'loss': 1.4458, 'grad_norm': 0.08883894234895706, 'learning_rate': 5.56994474044023e-06, 'epoch': 0.93}
+{'loss': 1.4313, 'grad_norm': 0.0887884795665741, 'learning_rate': 5.526505913187096e-06, 'epoch': 0.93}
+{'loss': 1.4179, 'grad_norm': 0.08636699616909027, 'learning_rate': 5.483235241620893e-06, 'epoch': 0.94}
+{'loss': 1.4323, 'grad_norm': 0.1025136262178421, 'learning_rate': 5.440132755504368e-06, 'epoch': 0.94}
+{'loss': 1.4596, 'grad_norm': 0.09328556060791016, 'learning_rate': 5.397198484484667e-06, 'epoch': 0.94}
+{'loss': 1.4447, 'grad_norm': 0.09487751871347427, 'learning_rate': 5.3544324580931115e-06, 'epoch': 0.94}
+{'loss': 1.4428, 'grad_norm': 0.09093185514211655, 'learning_rate': 5.311834705745394e-06, 'epoch': 0.94}
+{'loss': 1.4444, 'grad_norm': 0.08224982768297195, 'learning_rate': 5.269405256741467e-06, 'epoch': 0.94}
+{'loss': 1.4211, 'grad_norm': 0.08969347923994064, 'learning_rate': 5.227144140265427e-06, 'epoch': 0.94}
+{'loss': 1.4236, 'grad_norm': 0.08904283493757248, 'learning_rate': 5.185051385385719e-06, 'epoch': 0.94}
+{'loss': 1.4181, 'grad_norm': 0.09059110283851624, 'learning_rate': 5.143127021054822e-06, 'epoch': 0.94}
+{'loss': 1.4228, 'grad_norm': 0.09110251814126968, 'learning_rate': 5.101371076109557e-06, 'epoch': 0.94}
+{'loss': 1.4263, 'grad_norm': 0.09058509767055511, 'learning_rate': 5.059783579270838e-06, 'epoch': 0.94}
+{'loss': 1.4288, 'grad_norm': 0.08618651330471039, 'learning_rate': 5.018364559143674e-06, 'epoch': 0.94}
+{'loss': 1.4274, 'grad_norm': 0.08887344598770142, 'learning_rate': 4.97711404421719e-06, 'epoch': 0.94}
+{'loss': 1.4438, 'grad_norm': 0.08746904134750366, 'learning_rate': 4.936032062864693e-06, 'epoch': 0.94}
+{'loss': 1.4211, 'grad_norm': 0.08360771834850311, 'learning_rate': 4.895118643343494e-06, 'epoch': 0.94}
+{'loss': 1.4367, 'grad_norm': 0.08743596822023392, 'learning_rate': 4.854373813794999e-06, 'epoch': 0.94}
+{'loss': 1.4341, 'grad_norm': 0.09192594885826111, 'learning_rate': 4.813797602244596e-06, 'epoch': 0.94}
+{'loss': 1.4284, 'grad_norm': 0.09212321043014526, 'learning_rate': 4.773390036601794e-06, 'epoch': 0.94}
+{'loss': 1.4172, 'grad_norm': 0.08684428036212921, 'learning_rate': 4.73315114465997e-06, 'epoch': 0.94}
+{'loss': 1.4108, 'grad_norm': 0.08921243250370026, 'learning_rate': 4.693080954096624e-06, 'epoch': 0.94}
+{'loss': 1.4254, 'grad_norm': 0.0863877534866333, 'learning_rate': 4.653179492473153e-06, 'epoch': 0.94}
+{'loss': 1.4294, 'grad_norm': 0.08681213855743408, 'learning_rate': 4.613446787234854e-06, 'epoch': 0.94}
+{'loss': 1.4298, 'grad_norm': 0.08774800598621368, 'learning_rate': 4.573882865711004e-06, 'epoch': 0.94}
+{'loss': 1.4458, 'grad_norm': 0.08891060203313828, 'learning_rate': 4.534487755114752e-06, 'epoch': 0.94}
+{'loss': 1.406, 'grad_norm': 0.08365627378225327, 'learning_rate': 4.495261482543172e-06, 'epoch': 0.94}
+{'loss': 1.4303, 'grad_norm': 0.08134052157402039, 'learning_rate': 4.45620407497721e-06, 'epoch': 0.94}
+{'loss': 1.4273, 'grad_norm': 0.09932179749011993, 'learning_rate': 4.417315559281598e-06, 'epoch': 0.94}
+{'loss': 1.4196, 'grad_norm': 0.08943530917167664, 'learning_rate': 4.378595962204968e-06, 'epoch': 0.94}
+{'loss': 1.4255, 'grad_norm': 0.09583716839551926, 'learning_rate': 4.340045310379737e-06, 'epoch': 0.94}
+{'loss': 1.4245, 'grad_norm': 0.08751670271158218, 'learning_rate': 4.301663630322139e-06, 'epoch': 0.94}
+{'loss': 1.4022, 'grad_norm': 0.09221585839986801, 'learning_rate': 4.2634509484321125e-06, 'epoch': 0.94}
+{'loss': 1.4399, 'grad_norm': 0.09561893343925476, 'learning_rate': 4.225407290993466e-06, 'epoch': 0.94}
+{'loss': 1.4168, 'grad_norm': 0.08851577341556549, 'learning_rate': 4.187532684173601e-06, 'epoch': 0.94}
+{'loss': 1.4075, 'grad_norm': 0.08750837296247482, 'learning_rate': 4.1498271540238165e-06, 'epoch': 0.94}
+{'loss': 1.4229, 'grad_norm': 0.08587615191936493, 'learning_rate': 4.1122907264789785e-06, 'epoch': 0.94}
+{'loss': 1.4485, 'grad_norm': 0.08607301861047745, 'learning_rate': 4.074923427357741e-06, 'epoch': 0.94}
+{'loss': 1.4252, 'grad_norm': 0.08799538016319275, 'learning_rate': 4.0377252823622924e-06, 'epoch': 0.94}
+{'loss': 1.4247, 'grad_norm': 0.08646552264690399, 'learning_rate': 4.000696317078611e-06, 'epoch': 0.94}
+{'loss': 1.4617, 'grad_norm': 0.0858481228351593, 'learning_rate': 3.963836556976241e-06, 'epoch': 0.94}
+{'loss': 1.4221, 'grad_norm': 0.08662516623735428, 'learning_rate': 3.9271460274083735e-06, 'epoch': 0.95}
+{'loss': 1.417, 'grad_norm': 0.08658940345048904, 'learning_rate': 3.890624753611738e-06, 'epoch': 0.95}
+{'loss': 1.4268, 'grad_norm': 0.08655736595392227, 'learning_rate': 3.854272760706712e-06, 'epoch': 0.95}
+{'loss': 1.4314, 'grad_norm': 0.08916512131690979, 'learning_rate': 3.818090073697183e-06, 'epoch': 0.95}
+{'loss': 1.4486, 'grad_norm': 0.08655048906803131, 'learning_rate': 3.782076717470634e-06, 'epoch': 0.95}
+{'loss': 1.4476, 'grad_norm': 0.0837610512971878, 'learning_rate': 3.7462327167980815e-06, 'epoch': 0.95}
+{'loss': 1.4532, 'grad_norm': 0.08978200703859329, 'learning_rate': 3.7105580963339713e-06, 'epoch': 0.95}
+{'loss': 1.4317, 'grad_norm': 0.0909590870141983, 'learning_rate': 3.6750528806163142e-06, 'epoch': 0.95}
+{'loss': 1.4246, 'grad_norm': 0.08697489649057388, 'learning_rate': 3.63971709406663e-06, 'epoch': 0.95}
+{'loss': 1.416, 'grad_norm': 0.08309143036603928, 'learning_rate': 3.6045507609898388e-06, 'epoch': 0.95}
+{'loss': 1.4112, 'grad_norm': 0.08462245762348175, 'learning_rate': 3.569553905574313e-06, 'epoch': 0.95}
+{'loss': 1.4448, 'grad_norm': 0.08332722634077072, 'learning_rate': 3.5347265518918538e-06, 'epoch': 0.95}
+{'loss': 1.4095, 'grad_norm': 0.0901389941573143, 'learning_rate': 3.5000687238977146e-06, 'epoch': 0.95}
+{'loss': 1.454, 'grad_norm': 0.09182855486869812, 'learning_rate': 3.465580445430522e-06, 'epoch': 0.95}
+{'loss': 1.4369, 'grad_norm': 0.08396698534488678, 'learning_rate': 3.431261740212244e-06, 'epoch': 0.95}
+{'loss': 1.4384, 'grad_norm': 0.08740916103124619, 'learning_rate': 3.3971126318482758e-06, 'epoch': 0.95}
+{'loss': 1.4248, 'grad_norm': 0.08367914706468582, 'learning_rate': 3.363133143827274e-06, 'epoch': 0.95}
+{'loss': 1.4616, 'grad_norm': 0.08353929221630096, 'learning_rate': 3.3293232995213195e-06, 'epoch': 0.95}
+{'loss': 1.4154, 'grad_norm': 0.09294778853654861, 'learning_rate': 3.295683122185783e-06, 'epoch': 0.95}
+{'loss': 1.4177, 'grad_norm': 0.0876418799161911, 'learning_rate': 3.2622126349592663e-06, 'epoch': 0.95}
+{'loss': 1.4458, 'grad_norm': 0.08642261475324631, 'learning_rate': 3.2289118608637703e-06, 'epoch': 0.95}
+{'loss': 1.4303, 'grad_norm': 0.08591266721487045, 'learning_rate': 3.195780822804417e-06, 'epoch': 0.95}
+{'loss': 1.4414, 'grad_norm': 0.09019539505243301, 'learning_rate': 3.1628195435697007e-06, 'epoch': 0.95}
+{'loss': 1.428, 'grad_norm': 0.0844544768333435, 'learning_rate': 3.130028045831318e-06, 'epoch': 0.95}
+{'loss': 1.4376, 'grad_norm': 0.08451645076274872, 'learning_rate': 3.097406352144172e-06, 'epoch': 0.95}
+{'loss': 1.4246, 'grad_norm': 0.07918062806129456, 'learning_rate': 3.0649544849463416e-06, 'epoch': 0.95}
+{'loss': 1.4214, 'grad_norm': 0.08534414321184158, 'learning_rate': 3.0326724665591663e-06, 'epoch': 0.95}
+{'loss': 1.4102, 'grad_norm': 0.09124217927455902, 'learning_rate': 3.000560319187079e-06, 'epoch': 0.95}
+{'loss': 1.4322, 'grad_norm': 0.08978281915187836, 'learning_rate': 2.9686180649177718e-06, 'epoch': 0.95}
+{'loss': 1.4262, 'grad_norm': 0.08723771572113037, 'learning_rate': 2.9368457257219484e-06, 'epoch': 0.95}
+{'loss': 1.4224, 'grad_norm': 0.08522291481494904, 'learning_rate': 2.9052433234535437e-06, 'epoch': 0.95}
+{'loss': 1.4357, 'grad_norm': 0.08267586678266525, 'learning_rate': 2.873810879849559e-06, 'epoch': 0.95}
+{'loss': 1.421, 'grad_norm': 0.09104052186012268, 'learning_rate': 2.842548416530116e-06, 'epoch': 0.95}
+{'loss': 1.421, 'grad_norm': 0.09032072871923447, 'learning_rate': 2.811455954998432e-06, 'epoch': 0.95}
+{'loss': 1.4626, 'grad_norm': 0.09563852846622467, 'learning_rate': 2.780533516640732e-06, 'epoch': 0.95}
+{'loss': 1.4104, 'grad_norm': 0.08508379012346268, 'learning_rate': 2.7497811227263357e-06, 'epoch': 0.95}
+{'loss': 1.4415, 'grad_norm': 0.08990350365638733, 'learning_rate': 2.7191987944076014e-06, 'epoch': 0.95}
+{'loss': 1.4723, 'grad_norm': 0.08715835213661194, 'learning_rate': 2.688786552719896e-06, 'epoch': 0.95}
+{'loss': 1.4373, 'grad_norm': 0.08876734972000122, 'learning_rate': 2.658544418581654e-06, 'epoch': 0.95}
+{'loss': 1.4158, 'grad_norm': 0.0872654914855957, 'learning_rate': 2.6284724127942084e-06, 'epoch': 0.96}
+{'loss': 1.4216, 'grad_norm': 0.08846139907836914, 'learning_rate': 2.598570556041957e-06, 'epoch': 0.96}
+{'loss': 1.4083, 'grad_norm': 0.08780524879693985, 'learning_rate': 2.5688388688921983e-06, 'epoch': 0.96}
+{'loss': 1.4022, 'grad_norm': 0.0947737842798233, 'learning_rate': 2.53927737179524e-06, 'epoch': 0.96}
+{'loss': 1.4333, 'grad_norm': 0.08538402616977692, 'learning_rate': 2.5098860850842896e-06, 'epoch': 0.96}
+{'loss': 1.4068, 'grad_norm': 0.08946681022644043, 'learning_rate': 2.480665028975537e-06, 'epoch': 0.96}
+{'loss': 1.4354, 'grad_norm': 0.0902818888425827, 'learning_rate': 2.4516142235679606e-06, 'epoch': 0.96}
+{'loss': 1.4276, 'grad_norm': 0.0836835727095604, 'learning_rate': 2.4227336888435757e-06, 'epoch': 0.96}
+{'loss': 1.4411, 'grad_norm': 0.08800078928470612, 'learning_rate': 2.394023444667215e-06, 'epoch': 0.96}
+{'loss': 1.4474, 'grad_norm': 0.09528334438800812, 'learning_rate': 2.3654835107865257e-06, 'epoch': 0.96}
+{'loss': 1.4585, 'grad_norm': 0.08821788430213928, 'learning_rate': 2.3371139068321665e-06, 'epoch': 0.96}
+{'loss': 1.4247, 'grad_norm': 0.08866799622774124, 'learning_rate': 2.3089146523174453e-06, 'epoch': 0.96}
+{'loss': 1.4424, 'grad_norm': 0.08553680032491684, 'learning_rate': 2.2808857666386797e-06, 'epoch': 0.96}
+{'loss': 1.4272, 'grad_norm': 0.08961803466081619, 'learning_rate': 2.253027269074892e-06, 'epoch': 0.96}
+{'loss': 1.4356, 'grad_norm': 0.08586464077234268, 'learning_rate': 2.225339178787894e-06, 'epoch': 0.96}
+{'loss': 1.4312, 'grad_norm': 0.08192604035139084, 'learning_rate': 2.197821514822368e-06, 'epoch': 0.96}
+{'loss': 1.4335, 'grad_norm': 0.08993285149335861, 'learning_rate': 2.170474296105701e-06, 'epoch': 0.96}
+{'loss': 1.4306, 'grad_norm': 0.09078166633844376, 'learning_rate': 2.143297541448097e-06, 'epoch': 0.96}
+{'loss': 1.4288, 'grad_norm': 0.08386354893445969, 'learning_rate': 2.116291269542492e-06, 'epoch': 0.96}
+{'loss': 1.4331, 'grad_norm': 0.08491938561201096, 'learning_rate': 2.0894554989645543e-06, 'epoch': 0.96}
+{'loss': 1.4398, 'grad_norm': 0.08905787765979767, 'learning_rate': 2.06279024817263e-06, 'epoch': 0.96}
+{'loss': 1.4508, 'grad_norm': 0.09179823845624924, 'learning_rate': 2.0362955355078537e-06, 'epoch': 0.96}
+{'loss': 1.4378, 'grad_norm': 0.08468684554100037, 'learning_rate': 2.0099713791940365e-06, 'epoch': 0.96}
+{'loss': 1.418, 'grad_norm': 0.08473320305347443, 'learning_rate': 1.983817797337667e-06, 'epoch': 0.96}
+{'loss': 1.4191, 'grad_norm': 0.08814851939678192, 'learning_rate': 1.957834807927883e-06, 'epoch': 0.96}
+{'loss': 1.4194, 'grad_norm': 0.08591987937688828, 'learning_rate': 1.9320224288365275e-06, 'epoch': 0.96}
+{'loss': 1.4266, 'grad_norm': 0.08559451997280121, 'learning_rate': 1.9063806778180648e-06, 'epoch': 0.96}
+{'loss': 1.4276, 'grad_norm': 0.09064128994941711, 'learning_rate': 1.8809095725096092e-06, 'epoch': 0.96}
+{'loss': 1.4261, 'grad_norm': 0.08347410708665848, 'learning_rate': 1.8556091304309241e-06, 'epoch': 0.96}
+{'loss': 1.4131, 'grad_norm': 0.0946204885840416, 'learning_rate': 1.8304793689843391e-06, 'epoch': 0.96}
+{'loss': 1.4407, 'grad_norm': 0.09296049177646637, 'learning_rate': 1.8055203054547775e-06, 'epoch': 0.96}
+{'loss': 1.4437, 'grad_norm': 0.09330828487873077, 'learning_rate': 1.7807319570098124e-06, 'epoch': 0.96}
+{'loss': 1.4393, 'grad_norm': 0.08666864782571793, 'learning_rate': 1.756114340699555e-06, 'epoch': 0.96}
+{'loss': 1.4464, 'grad_norm': 0.08988672494888306, 'learning_rate': 1.7316674734566828e-06, 'epoch': 0.96}
+{'loss': 1.4238, 'grad_norm': 0.08828891813755035, 'learning_rate': 1.7073913720964673e-06, 'epoch': 0.96}
+{'loss': 1.4353, 'grad_norm': 0.08655884116888046, 'learning_rate': 1.6832860533166073e-06, 'epoch': 0.96}
+{'loss': 1.4261, 'grad_norm': 0.08259758353233337, 'learning_rate': 1.6593515336975062e-06, 'epoch': 0.96}
+{'loss': 1.4445, 'grad_norm': 0.0848640576004982, 'learning_rate': 1.63558782970194e-06, 'epoch': 0.96}
+{'loss': 1.4307, 'grad_norm': 0.08327044546604156, 'learning_rate': 1.6119949576752502e-06, 'epoch': 0.96}
+{'loss': 1.4412, 'grad_norm': 0.08626936376094818, 'learning_rate': 1.5885729338452615e-06, 'epoch': 0.97}
+{'loss': 1.4071, 'grad_norm': 0.08787606656551361, 'learning_rate': 1.565321774322337e-06, 'epoch': 0.97}
+{'loss': 1.4457, 'grad_norm': 0.08845390379428864, 'learning_rate': 1.5422414950992391e-06, 'epoch': 0.97}
+{'loss': 1.4278, 'grad_norm': 0.08663433790206909, 'learning_rate': 1.5193321120512415e-06, 'epoch': 0.97}
+{'loss': 1.4045, 'grad_norm': 0.08312876522541046, 'learning_rate': 1.4965936409360447e-06, 'epoch': 0.97}
+{'loss': 1.4248, 'grad_norm': 0.09606009721755981, 'learning_rate': 1.4740260973938325e-06, 'epoch': 0.97}
+{'loss': 1.431, 'grad_norm': 0.08916398882865906, 'learning_rate': 1.45162949694716e-06, 'epoch': 0.97}
+{'loss': 1.435, 'grad_norm': 0.09404774755239487, 'learning_rate': 1.429403855001038e-06, 'epoch': 0.97}
+{'loss': 1.3997, 'grad_norm': 0.0941302552819252, 'learning_rate': 1.4073491868428767e-06, 'epoch': 0.97}
+{'loss': 1.4624, 'grad_norm': 0.09255735576152802, 'learning_rate': 1.3854655076425137e-06, 'epoch': 0.97}
+{'loss': 1.4082, 'grad_norm': 0.08348637819290161, 'learning_rate': 1.363752832452131e-06, 'epoch': 0.97}
+{'loss': 1.444, 'grad_norm': 0.08352658152580261, 'learning_rate': 1.3422111762063372e-06, 'epoch': 0.97}
+{'loss': 1.4188, 'grad_norm': 0.09024463593959808, 'learning_rate': 1.3208405537220858e-06, 'epoch': 0.97}
+{'loss': 1.4303, 'grad_norm': 0.09380295127630234, 'learning_rate': 1.2996409796986464e-06, 'epoch': 0.97}
+{'loss': 1.4237, 'grad_norm': 0.08428657054901123, 'learning_rate': 1.2786124687177158e-06, 'epoch': 0.97}
+{'loss': 1.4318, 'grad_norm': 0.08683302998542786, 'learning_rate': 1.2577550352432798e-06, 'epoch': 0.97}
+{'loss': 1.4386, 'grad_norm': 0.08675512671470642, 'learning_rate': 1.237068693621668e-06, 'epoch': 0.97}
+{'loss': 1.4221, 'grad_norm': 0.09335820376873016, 'learning_rate': 1.2165534580814709e-06, 'epoch': 0.97}
+{'loss': 1.4266, 'grad_norm': 0.08646002411842346, 'learning_rate': 1.196209342733734e-06, 'epoch': 0.97}
+{'loss': 1.4345, 'grad_norm': 0.09159129858016968, 'learning_rate': 1.176036361571653e-06, 'epoch': 0.97}
+{'loss': 1.4102, 'grad_norm': 0.0915859267115593, 'learning_rate': 1.1560345284707397e-06, 'epoch': 0.97}
+{'loss': 1.4404, 'grad_norm': 0.09188903868198395, 'learning_rate': 1.1362038571888777e-06, 'epoch': 0.97}
+{'loss': 1.4487, 'grad_norm': 0.08117332309484482, 'learning_rate': 1.1165443613661009e-06, 'epoch': 0.97}
+{'loss': 1.4284, 'grad_norm': 0.08732157945632935, 'learning_rate': 1.0970560545247866e-06, 'epoch': 0.97}
+{'loss': 1.43, 'grad_norm': 0.08435468375682831, 'learning_rate': 1.0777389500695178e-06, 'epoch': 0.97}
+{'loss': 1.4216, 'grad_norm': 0.08527166396379471, 'learning_rate': 1.0585930612871664e-06, 'epoch': 0.97}
+{'loss': 1.4247, 'grad_norm': 0.08907229453325272, 'learning_rate': 1.0396184013467813e-06, 'epoch': 0.97}
+{'loss': 1.4382, 'grad_norm': 0.08963809907436371, 'learning_rate': 1.0208149832997004e-06, 'epoch': 0.97}
+{'loss': 1.4239, 'grad_norm': 0.078351229429245, 'learning_rate': 1.0021828200793836e-06, 'epoch': 0.97}
+{'loss': 1.4336, 'grad_norm': 0.08503228425979614, 'learning_rate': 9.837219245015794e-07, 'epoch': 0.97}
+{'loss': 1.4003, 'grad_norm': 0.08303625881671906, 'learning_rate': 9.654323092642136e-07, 'epoch': 0.97}
+{'loss': 1.4405, 'grad_norm': 0.08386628329753876, 'learning_rate': 9.473139869473901e-07, 'epoch': 0.97}
+{'loss': 1.4328, 'grad_norm': 0.08788557350635529, 'learning_rate': 9.2936697001339e-07, 'epoch': 0.97}
+{'loss': 1.4461, 'grad_norm': 0.08873343467712402, 'learning_rate': 9.11591270806672e-07, 'epoch': 0.97}
+{'loss': 1.4208, 'grad_norm': 0.08550004661083221, 'learning_rate': 8.939869015538727e-07, 'epoch': 0.97}
+{'loss': 1.4166, 'grad_norm': 0.08691591769456863, 'learning_rate': 8.765538743637502e-07, 'epoch': 0.97}
+{'loss': 1.4346, 'grad_norm': 0.08473288267850876, 'learning_rate': 8.592922012272408e-07, 'epoch': 0.97}
+{'loss': 1.4357, 'grad_norm': 0.08637017756700516, 'learning_rate': 8.422018940174026e-07, 'epoch': 0.97}
+{'loss': 1.4493, 'grad_norm': 0.08413752913475037, 'learning_rate': 8.252829644894155e-07, 'epoch': 0.97}
+{'loss': 1.4258, 'grad_norm': 0.09008058905601501, 'learning_rate': 8.08535424280582e-07, 'epoch': 0.98}
+{'loss': 1.4414, 'grad_norm': 0.09088826179504395, 'learning_rate': 7.919592849103263e-07, 'epoch': 0.98}
+{'loss': 1.4469, 'grad_norm': 0.08804970979690552, 'learning_rate': 7.755545577802225e-07, 'epoch': 0.98}
+{'loss': 1.4416, 'grad_norm': 0.09061618149280548, 'learning_rate': 7.593212541738837e-07, 'epoch': 0.98}
+{'loss': 1.4311, 'grad_norm': 0.09038654714822769, 'learning_rate': 7.432593852569892e-07, 'epoch': 0.98}
+{'loss': 1.4436, 'grad_norm': 0.08913630992174149, 'learning_rate': 7.273689620773683e-07, 'epoch': 0.98}
+{'loss': 1.4007, 'grad_norm': 0.08757178485393524, 'learning_rate': 7.11649995564917e-07, 'epoch': 0.98}
+{'loss': 1.4324, 'grad_norm': 0.09549002349376678, 'learning_rate': 6.961024965315421e-07, 'epoch': 0.98}
+{'loss': 1.4347, 'grad_norm': 0.08512811362743378, 'learning_rate': 6.80726475671245e-07, 'epoch': 0.98}
+{'loss': 1.427, 'grad_norm': 0.0900772288441658, 'learning_rate': 6.655219435601212e-07, 'epoch': 0.98}
+{'loss': 1.4539, 'grad_norm': 0.08941490203142166, 'learning_rate': 6.504889106562495e-07, 'epoch': 0.98}
+{'loss': 1.4076, 'grad_norm': 0.08950194716453552, 'learning_rate': 6.356273872997754e-07, 'epoch': 0.98}
+{'loss': 1.4162, 'grad_norm': 0.08378951251506805, 'learning_rate': 6.209373837128551e-07, 'epoch': 0.98}
+{'loss': 1.4265, 'grad_norm': 0.08441003412008286, 'learning_rate': 6.064189099997119e-07, 'epoch': 0.98}
+{'loss': 1.4361, 'grad_norm': 0.08916612714529037, 'learning_rate': 5.920719761465243e-07, 'epoch': 0.98}
+{'loss': 1.4588, 'grad_norm': 0.09001931548118591, 'learning_rate': 5.778965920215096e-07, 'epoch': 0.98}
+{'loss': 1.4373, 'grad_norm': 0.08426594734191895, 'learning_rate': 5.638927673749239e-07, 'epoch': 0.98}
+{'loss': 1.4291, 'grad_norm': 0.09037305414676666, 'learning_rate': 5.500605118389512e-07, 'epoch': 0.98}
+{'loss': 1.4043, 'grad_norm': 0.09312625229358673, 'learning_rate': 5.363998349278421e-07, 'epoch': 0.98}
+{'loss': 1.4282, 'grad_norm': 0.0890076756477356, 'learning_rate': 5.229107460377746e-07, 'epoch': 0.98}
+{'loss': 1.4149, 'grad_norm': 0.0901147797703743, 'learning_rate': 5.095932544469106e-07, 'epoch': 0.98}
+{'loss': 1.4598, 'grad_norm': 0.09253266453742981, 'learning_rate': 4.964473693154226e-07, 'epoch': 0.98}
+{'loss': 1.4508, 'grad_norm': 0.08283660560846329, 'learning_rate': 4.834730996853831e-07, 'epoch': 0.98}
+{'loss': 1.4367, 'grad_norm': 0.08479209244251251, 'learning_rate': 4.7067045448084824e-07, 'epoch': 0.98}
+{'loss': 1.4236, 'grad_norm': 0.08584355562925339, 'learning_rate': 4.580394425078571e-07, 'epoch': 0.98}
+{'loss': 1.4388, 'grad_norm': 0.09207329154014587, 'learning_rate': 4.4558007245437684e-07, 'epoch': 0.98}
+{'loss': 1.4207, 'grad_norm': 0.08051665127277374, 'learning_rate': 4.332923528903299e-07, 'epoch': 0.98}
+{'loss': 1.4185, 'grad_norm': 0.08334936201572418, 'learning_rate': 4.2117629226748333e-07, 'epoch': 0.98}
+{'loss': 1.4505, 'grad_norm': 0.08618319034576416, 'learning_rate': 4.092318989196708e-07, 'epoch': 0.98}
+{'loss': 1.423, 'grad_norm': 0.07985605299472809, 'learning_rate': 3.9745918106254275e-07, 'epoch': 0.98}
+{'loss': 1.4501, 'grad_norm': 0.0872395858168602, 'learning_rate': 3.85858146793705e-07, 'epoch': 0.98}
+{'loss': 1.437, 'grad_norm': 0.0956510454416275, 'learning_rate': 3.744288040926913e-07, 'epoch': 0.98}
+{'loss': 1.4169, 'grad_norm': 0.08628227561712265, 'learning_rate': 3.6317116082087987e-07, 'epoch': 0.98}
+{'loss': 1.4281, 'grad_norm': 0.0847591832280159, 'learning_rate': 3.5208522472165996e-07, 'epoch': 0.98}
+{'loss': 1.4162, 'grad_norm': 0.07914703339338303, 'learning_rate': 3.4117100342018204e-07, 'epoch': 0.98}
+{'loss': 1.4335, 'grad_norm': 0.08875120431184769, 'learning_rate': 3.3042850442357995e-07, 'epoch': 0.98}
+{'loss': 1.4488, 'grad_norm': 0.08452151715755463, 'learning_rate': 3.198577351208598e-07, 'epoch': 0.98}
+{'loss': 1.4518, 'grad_norm': 0.08832979947328568, 'learning_rate': 3.0945870278287213e-07, 'epoch': 0.98}
+{'loss': 1.4255, 'grad_norm': 0.08781661093235016, 'learning_rate': 2.992314145623676e-07, 'epoch': 0.98}
+{'loss': 1.434, 'grad_norm': 0.08634842187166214, 'learning_rate': 2.8917587749394125e-07, 'epoch': 0.99}
+{'loss': 1.437, 'grad_norm': 0.0833403468132019, 'learning_rate': 2.7929209849408834e-07, 'epoch': 0.99}
+{'loss': 1.4131, 'grad_norm': 0.0808686912059784, 'learning_rate': 2.6958008436114843e-07, 'epoch': 0.99}
+{'loss': 1.424, 'grad_norm': 0.08442540466785431, 'learning_rate': 2.6003984177533356e-07, 'epoch': 0.99}
+{'loss': 1.427, 'grad_norm': 0.0856848955154419, 'learning_rate': 2.506713772986446e-07, 'epoch': 0.99}
+{'loss': 1.4081, 'grad_norm': 0.08167456090450287, 'learning_rate': 2.414746973750104e-07, 'epoch': 0.99}
+{'loss': 1.4133, 'grad_norm': 0.08532445877790451, 'learning_rate': 2.324498083301485e-07, 'epoch': 0.99}
+{'loss': 1.4408, 'grad_norm': 0.08672859519720078, 'learning_rate': 2.2359671637162127e-07, 'epoch': 0.99}
+{'loss': 1.4544, 'grad_norm': 0.08632869273424149, 'learning_rate': 2.1491542758883542e-07, 'epoch': 0.99}
+{'loss': 1.4337, 'grad_norm': 0.08147928863763809, 'learning_rate': 2.0640594795304224e-07, 'epoch': 0.99}
+{'loss': 1.4137, 'grad_norm': 0.08464398980140686, 'learning_rate': 1.9806828331730976e-07, 'epoch': 0.99}
+{'loss': 1.4333, 'grad_norm': 0.08671684563159943, 'learning_rate': 1.8990243941646723e-07, 'epoch': 0.99}
+{'loss': 1.4194, 'grad_norm': 0.08414352685213089, 'learning_rate': 1.8190842186724398e-07, 'epoch': 0.99}
+{'loss': 1.436, 'grad_norm': 0.08985208719968796, 'learning_rate': 1.7408623616813058e-07, 'epoch': 0.99}
+{'loss': 1.427, 'grad_norm': 0.08628722280263901, 'learning_rate': 1.6643588769946206e-07, 'epoch': 0.99}
+{'loss': 1.4347, 'grad_norm': 0.08544366806745529, 'learning_rate': 1.589573817233625e-07, 'epoch': 0.99}
+{'loss': 1.4302, 'grad_norm': 0.08618205040693283, 'learning_rate': 1.5165072338374498e-07, 'epoch': 0.99}
+{'loss': 1.4585, 'grad_norm': 0.08598068356513977, 'learning_rate': 1.4451591770631156e-07, 'epoch': 0.99}
+{'loss': 1.431, 'grad_norm': 0.08522932976484299, 'learning_rate': 1.3755296959863663e-07, 'epoch': 0.99}
+{'loss': 1.4361, 'grad_norm': 0.08758196979761124, 'learning_rate': 1.3076188384997246e-07, 'epoch': 0.99}
+{'loss': 1.4517, 'grad_norm': 0.0874522477388382, 'learning_rate': 1.2414266513147143e-07, 'epoch': 0.99}
+{'loss': 1.4108, 'grad_norm': 0.0842878445982933, 'learning_rate': 1.1769531799596389e-07, 'epoch': 0.99}
+{'loss': 1.4188, 'grad_norm': 0.08750755339860916, 'learning_rate': 1.1141984687815243e-07, 'epoch': 0.99}
+{'loss': 1.4385, 'grad_norm': 0.0856870710849762, 'learning_rate': 1.0531625609447315e-07, 'epoch': 0.99}
+{'loss': 1.4279, 'grad_norm': 0.08718421310186386, 'learning_rate': 9.938454984312339e-08, 'epoch': 0.99}
+{'loss': 1.4329, 'grad_norm': 0.08411855250597, 'learning_rate': 9.362473220411727e-08, 'epoch': 0.99}
+{'loss': 1.4216, 'grad_norm': 0.08445558696985245, 'learning_rate': 8.803680713923012e-08, 'epoch': 0.99}
+{'loss': 1.4078, 'grad_norm': 0.08599995821714401, 'learning_rate': 8.26207784919708e-08, 'epoch': 0.99}
+{'loss': 1.4339, 'grad_norm': 0.08754006028175354, 'learning_rate': 7.737664998763716e-08, 'epoch': 0.99}
+{'loss': 1.4185, 'grad_norm': 0.0863712728023529, 'learning_rate': 7.230442523328828e-08, 'epoch': 0.99}
+{'loss': 1.4162, 'grad_norm': 0.08311012387275696, 'learning_rate': 6.740410771777228e-08, 'epoch': 0.99}
+{'loss': 1.4156, 'grad_norm': 0.08244993537664413, 'learning_rate': 6.267570081161523e-08, 'epoch': 0.99}
+{'loss': 1.4121, 'grad_norm': 0.08449169248342514, 'learning_rate': 5.811920776715995e-08, 'epoch': 0.99}
+{'loss': 1.4563, 'grad_norm': 0.09355662018060684, 'learning_rate': 5.373463171851056e-08, 'epoch': 0.99}
+{'loss': 1.4181, 'grad_norm': 0.08535929024219513, 'learning_rate': 4.952197568147687e-08, 'epoch': 0.99}
+{'loss': 1.4313, 'grad_norm': 0.08157965540885925, 'learning_rate': 4.5481242553657706e-08, 'epoch': 0.99}
+{'loss': 1.4171, 'grad_norm': 0.08936267346143723, 'learning_rate': 4.161243511438539e-08, 'epoch': 0.99}
+{'loss': 1.4059, 'grad_norm': 0.08144199848175049, 'learning_rate': 3.791555602469798e-08, 'epoch': 0.99}
+{'loss': 1.4178, 'grad_norm': 0.08774277567863464, 'learning_rate': 3.439060782747805e-08, 'epoch': 0.99}
+{'loss': 1.4048, 'grad_norm': 0.08446335047483444, 'learning_rate': 3.103759294723063e-08, 'epoch': 1.0}
+{'loss': 1.4202, 'grad_norm': 0.08383145928382874, 'learning_rate': 2.7856513690249775e-08, 'epoch': 1.0}
+{'loss': 1.4446, 'grad_norm': 0.09292246401309967, 'learning_rate': 2.4847372244590773e-08, 'epoch': 1.0}
+{'loss': 1.4208, 'grad_norm': 0.08868372440338135, 'learning_rate': 2.2010170680042408e-08, 'epoch': 1.0}
+{'loss': 1.4465, 'grad_norm': 0.08411423861980438, 'learning_rate': 1.9344910948071448e-08, 'epoch': 1.0}
+{'loss': 1.4301, 'grad_norm': 0.08445841819047928, 'learning_rate': 1.6851594881933663e-08, 'epoch': 1.0}
+{'loss': 1.4352, 'grad_norm': 0.0869644284248352, 'learning_rate': 1.4530224196618314e-08, 'epoch': 1.0}
+{'loss': 1.4047, 'grad_norm': 0.08822295814752579, 'learning_rate': 1.2380800488820399e-08, 'epoch': 1.0}
+{'loss': 1.4471, 'grad_norm': 0.08626815676689148, 'learning_rate': 1.0403325236940652e-08, 'epoch': 1.0}
+{'loss': 1.4559, 'grad_norm': 0.08548569679260254, 'learning_rate': 8.59779980119657e-09, 'epoch': 1.0}
+{'loss': 1.4488, 'grad_norm': 0.08768969774246216, 'learning_rate': 6.964225423428117e-09, 'epoch': 1.0}
+{'loss': 1.4129, 'grad_norm': 0.09083378314971924, 'learning_rate': 5.5026032272920135e-09, 'epoch': 1.0}
+{'loss': 1.4228, 'grad_norm': 0.08277708292007446, 'learning_rate': 4.2129342181229655e-09, 'epoch': 1.0}
+{'loss': 1.4248, 'grad_norm': 0.08856510370969772, 'learning_rate': 3.0952192829614146e-09, 'epoch': 1.0}
+{'loss': 1.4311, 'grad_norm': 0.09206737577915192, 'learning_rate': 2.1494591906368042e-09, 'epoch': 1.0}
+{'loss': 1.4301, 'grad_norm': 0.08667585253715515, 'learning_rate': 1.3756545916843166e-09, 'epoch': 1.0}
+{'loss': 1.4314, 'grad_norm': 0.09146103262901306, 'learning_rate': 7.73806018289358e-10, 'epoch': 1.0}
+{'loss': 1.4081, 'grad_norm': 0.08601124584674835, 'learning_rate': 3.4391388448185013e-10, 'epoch': 1.0}
+{'loss': 1.4444, 'grad_norm': 0.08957687765359879, 'learning_rate': 8.597848591418433e-11, 'epoch': 1.0}
+{'loss': 1.436, 'grad_norm': 0.08317038416862488, 'learning_rate': 0.0, 'epoch': 1.0}
+{'train_runtime': 32903.0658, 'train_samples_per_second': 30.392, 'train_steps_per_second': 0.119, 'train_loss': 1.4850972515158452, 'epoch': 1.0}
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/requirements.txt b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f47bafa7ba36fa343927f31d466b172f425e32c8
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/requirements.txt
@@ -0,0 +1,125 @@
+nvidia-nvtx-cu11==11.8.86
+nvidia-nvtx-cu12==12.4.127
+pandas==2.3.3
+peft==0.17.1
+nvidia-cufft-cu12==11.2.1.3
+Jinja2==3.1.6
+httpcore==1.0.9
+nvidia-cuda-runtime-cu11==11.8.89
+charset-normalizer==3.4.4
+scikit-learn==1.7.2
+nvidia-cusolver-cu11==11.4.1.48
+timm==1.0.12
+nvidia-cusparse-cu11==11.7.5.86
+aiosignal==1.4.0
+nvidia-curand-cu11==10.3.0.86
+pydantic_core==2.41.5
+mpmath==1.3.0
+async-timeout==5.0.1
+fsspec==2025.10.0
+numpy==2.2.6
+GitPython==3.1.46
+tqdm==4.67.1
+click==8.3.1
+accelerate==1.12.0
+nvidia-cuda-runtime-cu12==12.4.127
+threadpoolctl==3.6.0
+exceptiongroup==1.3.1
+smmap==5.0.2
+xxhash==3.6.0
+nvidia-cusparse-cu12==12.3.1.170
+pytz==2025.2
+aiohappyeyeballs==2.6.1
+requests==2.32.5
+dill==0.4.0
+nvidia-cuda-cupti-cu11==11.8.87
+nvidia-cusparselt-cu12==0.6.2
+torch==2.4.0+cu118
+pillow==12.0.0
+pip==25.3
+wheel==0.45.1
+protobuf==6.33.4
+nvidia-curand-cu12==10.3.5.147
+ninja==1.13.0
+nvidia-cufft-cu11==10.9.0.58
+safetensors==0.7.0
+annotated-types==0.7.0
+hjson==3.1.0
+certifi==2026.1.4
+scipy==1.15.3
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-nvrtc-cu11==11.8.89
+typing-inspection==0.4.2
+urllib3==2.6.3
+torchaudio==2.6.0+cu124
+torch==2.6.0+cu124
+networkx==3.4.2
+deepspeed==0.18.4
+yarl==1.22.0
+sympy==1.13.1
+packaging==25.0
+h11==0.16.0
+nvidia-nvjitlink-cu12==12.4.127
+gitdb==4.0.12
+nvidia-cudnn-cu11==9.1.0.70
+nvidia-cudnn-cu12==9.1.0.70
+sentry-sdk==2.49.0
+tzdata==2025.3
+setuptools==80.9.0
+hf-xet==1.2.0
+MarkupSafe==2.1.5
+pyarrow==22.0.0
+httpx==0.28.1
+py-cpuinfo==9.0.0
+nvidia-nccl-cu12==2.21.5
+huggingface-hub==0.36.0
+xformers==0.0.29.post3
+evaluate==0.4.6
+python-dateutil==2.9.0.post0
+idna==3.11
+filelock==3.20.2
+multiprocess==0.70.18
+attrs==25.4.0
+anyio==4.12.1
+pydantic==2.12.5
+nvidia-cuda-cupti-cu12==12.4.127
+typing_extensions==4.15.0
+datasets==4.4.2
+einops==0.8.1
+nvidia-cusolver-cu12==11.6.1.9
+multidict==6.7.0
+regex==2025.11.3
+nvidia-nccl-cu11==2.20.5
+tokenizers==0.19.1
+nvidia-cublas-cu12==12.4.5.8
+psutil==7.2.1
+aiohttp==3.13.3
+propcache==0.4.1
+platformdirs==4.5.1
+triton==3.2.0
+msgpack==1.1.2
+nvidia-cublas-cu11==11.11.3.6
+llm2vec==0.2.3
+torchvision==0.21.0+cu124
+joblib==1.5.3
+wandb==0.23.1
+six==1.17.0
+PyYAML==6.0.3
+frozenlist==1.8.0
+transformers==4.44.0
+zipp==3.19.2
+more-itertools==10.3.0
+importlib_metadata==8.0.0
+jaraco.functools==4.0.1
+inflect==7.3.1
+jaraco.text==3.12.1
+wheel==0.45.1
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+typing_extensions==4.12.2
+typeguard==4.3.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+jaraco.context==5.3.0
+packaging==24.2
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/wandb-metadata.json b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..1b62548a0f11595fa8b7acebba7ffc9b328bd815
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/wandb-metadata.json
@@ -0,0 +1,146 @@
+{
+  "os":  "Linux-5.4.0-42-generic-x86_64-with-glibc2.35",
+  "python":  "CPython 3.10.19",
+  "startedAt":  "2026-01-15T15:09:08.896016Z",
+  "args":  [
+    "--local_rank=0",
+    "--deepspeed",
+    "./script/deepspeed/zero2.json",
+    "--model_name_or_path",
+    "/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct",
+    "--model_type",
+    "llama3-8b",
+    "--version",
+    "plain",
+    "--data_path",
+    "/llm-align/liuchonghan/xiaomin/data/densefusion/densefusion_pretrain_ours.json",
+    "--mm_projector_type",
+    "mlp2x_gelu",
+    "--tune_mm_mlp_adapter",
+    "True",
+    "--image_aspect_ratio",
+    "square",
+    "--bf16",
+    "True",
+    "--output_dir",
+    "/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain",
+    "--num_train_epochs",
+    "1",
+    "--per_device_train_batch_size",
+    "8",
+    "--per_device_eval_batch_size",
+    "4",
+    "--gradient_accumulation_steps",
+    "4",
+    "--evaluation_strategy",
+    "no",
+    "--save_strategy",
+    "steps",
+    "--save_steps",
+    "100000",
+    "--save_total_limit",
+    "1",
+    "--learning_rate",
+    "5e-4",
+    "--weight_decay",
+    "0.",
+    "--warmup_ratio",
+    "0.03",
+    "--lr_scheduler_type",
+    "cosine",
+    "--logging_steps",
+    "1",
+    "--tf32",
+    "True",
+    "--model_max_length",
+    "2048",
+    "--gradient_checkpointing",
+    "True",
+    "--dataloader_num_workers",
+    "4",
+    "--lazy_preprocess",
+    "True",
+    "--report_to",
+    "wandb"
+  ],
+  "program":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense/bunny/train/train.py",
+  "codePath":  "bunny/train/train.py",
+  "codePathLocal":  "bunny/train/train.py",
+  "email":  "yuxm02@gmail.com",
+  "root":  "/llm-align/liuchonghan/xiaomin/Unicorn_dense",
+  "host":  "h-liuchonghan-rler1225-a800-a100-2nodes-m-0",
+  "executable":  "/llm-align/liuchonghan/env/envs/bunny/bin/python",
+  "cpu_count":  128,
+  "cpu_count_logical":  255,
+  "gpu":  "NVIDIA A800-SXM4-80GB",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "53687091200",
+      "used":  "15148830720"
+    }
+  },
+  "memory":  {
+    "total":  "2164358094848"
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-a3fc74bf-1f17-5efa-f250-bcbcbcf95ece"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-de894aa2-80ed-5287-811c-51192fa8348e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-3c6bdd46-409d-a93f-e9b7-a124938ce17e"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-6e5234d7-e2d4-69d9-3213-cc1239573e6d"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-0e81592d-2c75-2476-c37d-e8d1d4fb2d65"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-d2f05526-805c-8dec-ae5f-ff04f3cec8f5"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-b3f69678-17b2-d1eb-c163-f104c5f03d77"
+    },
+    {
+      "name":  "NVIDIA A800-SXM4-80GB",
+      "memoryTotal":  "85899345920",
+      "cudaCores":  6912,
+      "architecture":  "Ampere",
+      "uuid":  "GPU-9bf33294-cd7e-ffd9-184d-02e4b5d18550"
+    }
+  ],
+  "cudaVersion":  "12.4",
+  "writerId":  "mzazmdqp175if22daw2xhicv4zdaa94j"
+}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/wandb-summary.json b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..e8ea1e63259a6eeee95de788448187325d43fe9f
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train/epoch":0.999936,"train_runtime":32903.0658,"_step":3906,"train_samples_per_second":30.392,"train_loss":1.4850972515158452,"train/global_step":3906,"_runtime":32901,"train/grad_norm":0.08317038416862488,"_wandb":{"runtime":32901},"train/learning_rate":0,"_timestamp":1.7685226477991323e+09,"train_steps_per_second":0.119,"total_flos":1.4782740625270768e+19,"train/loss":1.436}
\ No newline at end of file
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug-internal.log b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..a9cdab117235c9cd8e5bc6322bae8919a0d4a377
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2026-01-15T23:09:09.359519736+08:00","level":"INFO","msg":"stream: starting","core version":"0.23.1"}
+{"time":"2026-01-15T23:09:10.053029159+08:00","level":"INFO","msg":"stream: created new stream","id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053157747+08:00","level":"INFO","msg":"handler: started","stream_id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053614895+08:00","level":"INFO","msg":"stream: started","id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053705975+08:00","level":"INFO","msg":"writer: started","stream_id":"tzltcduc"}
+{"time":"2026-01-15T23:09:10.053751795+08:00","level":"INFO","msg":"sender: started","stream_id":"tzltcduc"}
+{"time":"2026-01-16T00:58:27.786570434+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T01:01:02.736252069+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T01:50:41.805241062+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T02:31:11.489117871+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T05:47:50.424144962+08:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/xiaomin02/huggingface/tzltcduc/file_stream","body":"\n<html><head>\n<meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\">\n<title>502 Server Error</title>\n</head>\n<body text=#000000 bgcolor=#ffffff>\n<h1>Error: Server Error</h1>\n<h2>The server encountered a temporary error and could not complete your request.<p>Please try again in 30 seconds.</h2>\n<h2></h2>\n</body></html>\n"}
+{"time":"2026-01-16T08:17:31.77758427+08:00","level":"INFO","msg":"stream: closing","id":"tzltcduc"}
+{"time":"2026-01-16T08:17:34.163717521+08:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2026-01-16T08:17:34.848919185+08:00","level":"INFO","msg":"handler: closed","stream_id":"tzltcduc"}
+{"time":"2026-01-16T08:17:34.849133266+08:00","level":"INFO","msg":"sender: closed","stream_id":"tzltcduc"}
+{"time":"2026-01-16T08:17:34.84916337+08:00","level":"INFO","msg":"stream: closed","id":"tzltcduc"}
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug.log b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..b08e57f53a0cd2ba6a32dccb3c226ce02bfb41e3
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug.log
@@ -0,0 +1,26 @@
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Current SDK version is 0.23.1
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Configure stats pid to 443684
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Loading settings from /root/.config/wandb/settings
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Loading settings from /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/settings
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_setup.py:_flush():80] Loading settings from environment variables
+2026-01-15 23:09:08,904 INFO    MainThread:443684 [wandb_init.py:setup_run_log_directory():714] Logging user logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug.log
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:setup_run_log_directory():715] Logging internal logs to /llm-align/liuchonghan/xiaomin/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/logs/debug-internal.log
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:init():841] calling init triggers
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:init():846] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2026-01-15 23:09:08,905 INFO    MainThread:443684 [wandb_init.py:init():889] starting backend
+2026-01-15 23:09:09,343 INFO    MainThread:443684 [wandb_init.py:init():892] sending inform_init request
+2026-01-15 23:09:09,356 INFO    MainThread:443684 [wandb_init.py:init():900] backend started and connected
+2026-01-15 23:09:09,358 INFO    MainThread:443684 [wandb_init.py:init():970] updated telemetry
+2026-01-15 23:09:09,359 INFO    MainThread:443684 [wandb_init.py:init():994] communicating run to backend with 90.0 second timeout
+2026-01-15 23:09:10,667 INFO    MainThread:443684 [wandb_init.py:init():1041] starting run threads in backend
+2026-01-15 23:09:10,942 INFO    MainThread:443684 [wandb_run.py:_console_start():2521] atexit reg
+2026-01-15 23:09:10,942 INFO    MainThread:443684 [wandb_run.py:_redirect():2369] redirect: wrap_raw
+2026-01-15 23:09:10,942 INFO    MainThread:443684 [wandb_run.py:_redirect():2438] Wrapping output streams.
+2026-01-15 23:09:10,943 INFO    MainThread:443684 [wandb_run.py:_redirect():2461] Redirects installed.
+2026-01-15 23:09:10,950 INFO    MainThread:443684 [wandb_init.py:init():1081] run started, returning control to user process
+2026-01-15 23:09:10,953 INFO    MainThread:443684 [wandb_run.py:_config_callback():1396] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 8192, 'hidden_size': 4096, 'intermediate_size': 14336, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': False, 'rope_theta': 500000.0, 'rope_scaling': None, 'attention_bias': False, 'attention_dropout': 0.0, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': '/llm-align/liuchonghan/xiaomin/model/Meta-Llama-3-8B-Instruct', 'transformers_version': '4.44.0', 'model_type': 'bunny-llama', 'use_mm_proj': True, 'mm_projector_type': 'mlp2x_gelu', 'mm_hidden_size': 1280, 'image_aspect_ratio': 'square', 'tokenizer_padding_side': 'right', 'tokenizer_model_max_length': 2048, 'tune_mm_mlp_adapter': True, 'freeze_mm_mlp_adapter': False, 'mm_projector_lr': None, 'use_s2': False, 'output_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'eval_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0005, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 1.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain/runs/Jan15_23-06-00_h-liuchonghan-rler1225-a800-a100-2nodes-m-0', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1.0, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100000, 'save_total_limit': 1, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': True, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 4, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/llm-align/liuchonghan/xiaomin/checkpoints-pretrain-densefusion/densefusion-llama3-8b-pretrain', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': './script/deepspeed/zero2.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': True, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'no', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'eval_use_gather_object': False, 'cache_dir': None, 'mpt_attn_impl': 'triton', 'model_max_length': 2048, 'group_by_modality_length': False}
+2026-01-15 23:09:10,972 INFO    MainThread:443684 [wandb_config.py:__setitem__():154] [no run ID] config set model/num_parameters = 8052289536 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f7369353f40>>
+2026-01-15 23:09:10,972 INFO    MainThread:443684 [wandb_run.py:_config_callback():1396] config_cb model/num_parameters 8052289536 None
+2026-01-16 08:17:31,777 INFO    wandb-AsyncioManager-main:443684 [service_client.py:_forward_responses():80] Reached EOF.
+2026-01-16 08:17:31,777 INFO    wandb-AsyncioManager-main:443684 [mailbox.py:close():137] Closing mailbox, abandoning 2 handles.
diff --git a/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/run-tzltcduc.wandb b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/run-tzltcduc.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..2e8d1cb9a36771a00e3469b0f69b3670265e79d9
--- /dev/null
+++ b/Unicorn_dense/wandb/run-20260115_230908-tzltcduc/run-tzltcduc.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:309d0ef38fa559a5d92b33732aeea019a20bfe95a8886a7c369704b974e5c204
+size 16994397