diff --git a/.gitattributes b/.gitattributes
index a434c44379cdeef1f79bc1e83f04b9f9dffab5de..fc11d84836fbe4639b2a81fa3379877fa4a4b75f 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -88,3 +88,7 @@ wandb/run-20241113_180154-hcvkmgna/run-hcvkmgna.wandb filter=lfs diff=lfs merge=
 wandb/run-20241130_011200-7wusu3nn/run-7wusu3nn.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241031_001056-a89didan/run-a89didan.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241129_235322-uoj0g6xp/run-uoj0g6xp.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241106_232725-f16bcfrx/run-f16bcfrx.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241105_163244-59l4qxgx/run-59l4qxgx.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241101_202058-ptl7coag/run-ptl7coag.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241129_235322-bxqdruiw/run-bxqdruiw.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/wandb/run-20241030_013141-l1dv6fk2/files/config.yaml b/wandb/run-20241030_013141-l1dv6fk2/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..d471293c627dbaeaf5be47c709016b3dfbf28c6c
--- /dev/null
+++ b/wandb/run-20241030_013141-l1dv6fk2/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 7
+perturbation:
+    value: reverse_full
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_013141-l1dv6fk2/files/output.log b/wandb/run-20241030_013141-l1dv6fk2/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..da5ebfb768b2bd39a5fe8ed035bcfd920a9e5316
--- /dev/null
+++ b/wandb/run-20241030_013141-l1dv6fk2/files/output.log
@@ -0,0 +1,61 @@
+Downloading shards:   0%|                                                                                                                                        | 0/2 [00:00<?, ?it/s]Exception ignored in: <generator object tqdm.__iter__ at 0x7f620061fdd0>
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1196, in __iter__
+    self.close()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1302, in close
+    self.display(pos=0)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1495, in display
+    self.sp(self.__str__() if msg is None else msg)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 459, in print_status
+    fp_write('\r' + s + (' ' * max(last_len[0] - len_s, 0)))
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 452, in fp_write
+    fp.write(str(s))
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/utils.py", line 196, in inner
+    return func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/redirect.py", line 648, in write
+    cb(data)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 2386, in <lambda>
+    lambda data: self._console_raw_callback("stderr", data),
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 403, in wrapper_fn
+    return func(self, *args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 1547, in _console_raw_callback
+    self._backend.interface.publish_output_raw(name, data)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/interface/interface.py", line 721, in publish_output_raw
+    self._publish_output_raw(o)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/interface/interface_shared.py", line 79, in _publish_output_raw
+    self._publish(rec)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/interface/interface_sock.py", line 51, in _publish
+    self._sock_client.send_record_publish(record)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/sock_client.py", line 225, in send_record_publish
+    self.send_server_request(server_req)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/sock_client.py", line 157, in send_server_request
+    self._send_message(msg)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/sock_client.py", line 149, in _send_message
+    raw_size = msg.ByteSize()
+KeyboardInterrupt:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 172, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1380, in _hf_hub_download_to_cache_dir
+    with WeakFileLock(lock_path):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/contextlib.py", line 119, in __enter__
+    return next(self.gen)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_fixes.py", line 98, in WeakFileLock
+    lock.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241030_013141-l1dv6fk2/files/requirements.txt b/wandb/run-20241030_013141-l1dv6fk2/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_013141-l1dv6fk2/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_013141-l1dv6fk2/files/wandb-metadata.json b/wandb/run-20241030_013141-l1dv6fk2/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..e4c536d19cea334d203226f8442abbcab75fde1e
--- /dev/null
+++ b/wandb/run-20241030_013141-l1dv6fk2/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-30T05:31:41.769137Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "7",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1709824413696"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_013141-l1dv6fk2/files/wandb-summary.json b/wandb/run-20241030_013141-l1dv6fk2/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..b155621703e444311fe2da9b782a2b70b5491169
--- /dev/null
+++ b/wandb/run-20241030_013141-l1dv6fk2/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":94}}
\ No newline at end of file
diff --git a/wandb/run-20241030_013141-l1dv6fk2/logs/debug-internal.log b/wandb/run-20241030_013141-l1dv6fk2/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..bcf23695815f3eb3ddcd203ee90fc1c8cbf4bfd5
--- /dev/null
+++ b/wandb/run-20241030_013141-l1dv6fk2/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2024-10-30T01:31:41.770829124-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:31:41.770841454-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_013141-l1dv6fk2/logs/debug-core.log"}
+{"time":"2024-10-30T01:31:41.876553546-04:00","level":"INFO","msg":"created new stream","id":"l1dv6fk2"}
+{"time":"2024-10-30T01:31:41.876597536-04:00","level":"INFO","msg":"stream: started","id":"l1dv6fk2"}
+{"time":"2024-10-30T01:31:41.876671397-04:00","level":"INFO","msg":"sender: started","stream_id":"l1dv6fk2"}
+{"time":"2024-10-30T01:31:41.876656516-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"l1dv6fk2"}}
+{"time":"2024-10-30T01:31:41.876621636-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"l1dv6fk2"}}
+{"time":"2024-10-30T01:31:42.076183199-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T01:33:16.601963699-04:00","level":"INFO","msg":"stream: closing","id":"l1dv6fk2"}
+{"time":"2024-10-30T01:33:16.602019459-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T01:33:16.602687014-04:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20241030_013141-l1dv6fk2/logs/debug.log b/wandb/run-20241030_013141-l1dv6fk2/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..fbdba0338de89f0735527a95ef3781771426ee73
--- /dev/null
+++ b/wandb/run-20241030_013141-l1dv6fk2/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-30 01:31:41,766 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 01:31:41,766 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Configure stats pid to 335753
+2024-10-30 01:31:41,766 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_013141-l1dv6fk2/logs/debug.log
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_013141-l1dv6fk2/logs/debug-internal.log
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_init.py:init():621] calling init triggers
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_init.py:init():671] starting backend
+2024-10-30 01:31:41,767 INFO    MainThread:335753 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 01:31:41,768 INFO    MainThread:335753 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 01:31:41,768 INFO    MainThread:335753 [wandb_init.py:init():688] backend started and connected
+2024-10-30 01:31:41,772 INFO    MainThread:335753 [wandb_init.py:init():783] updated telemetry
+2024-10-30 01:31:41,821 INFO    MainThread:335753 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 01:31:42,070 INFO    MainThread:335753 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 01:31:42,184 INFO    MainThread:335753 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 01:31:42,185 INFO    MainThread:335753 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 01:31:42,185 INFO    MainThread:335753 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 01:31:42,185 INFO    MainThread:335753 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 01:31:42,186 INFO    MainThread:335753 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 01:31:42,186 INFO    MainThread:335753 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0}
+2024-10-30 01:33:16,602 WARNING MsgRouterThr:335753 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241030_013141-l1dv6fk2/run-l1dv6fk2.wandb b/wandb/run-20241030_013141-l1dv6fk2/run-l1dv6fk2.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..7b3fb11d1c7093a72c5696387e8beff68ddde78a
Binary files /dev/null and b/wandb/run-20241030_013141-l1dv6fk2/run-l1dv6fk2.wandb differ
diff --git a/wandb/run-20241031_000839-xm9f2csf/files/output.log b/wandb/run-20241031_000839-xm9f2csf/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..e770bdcb9430e97400b22fc928b12ebcb95c2f92
--- /dev/null
+++ b/wandb/run-20241031_000839-xm9f2csf/files/output.log
@@ -0,0 +1,16 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.33s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 00:09:00,201] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 00:09:10,050] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Emitting ninja build file /home/chunhui/.cache/torch_extensions/py39_cu117/cpu_adam/build.ninja...
+Building extension module cpu_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.461333274841309 seconds
diff --git a/wandb/run-20241031_000839-xm9f2csf/files/requirements.txt b/wandb/run-20241031_000839-xm9f2csf/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241031_000839-xm9f2csf/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241031_000839-xm9f2csf/files/wandb-metadata.json b/wandb/run-20241031_000839-xm9f2csf/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..fb00f1391478cba444182f6b699409e3bc3b0104
--- /dev/null
+++ b/wandb/run-20241031_000839-xm9f2csf/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T04:08:39.128145Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1727270539264"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_000839-xm9f2csf/logs/debug-internal.log b/wandb/run-20241031_000839-xm9f2csf/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..80638eec3f8dbcfcbe5dd59219296b250ea14ce2
--- /dev/null
+++ b/wandb/run-20241031_000839-xm9f2csf/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-31T00:08:39.130243946-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T00:08:39.130254286-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-xm9f2csf/logs/debug-core.log"}
+{"time":"2024-10-31T00:08:39.236787826-04:00","level":"INFO","msg":"created new stream","id":"xm9f2csf"}
+{"time":"2024-10-31T00:08:39.236865977-04:00","level":"INFO","msg":"stream: started","id":"xm9f2csf"}
+{"time":"2024-10-31T00:08:39.236982138-04:00","level":"INFO","msg":"sender: started","stream_id":"xm9f2csf"}
+{"time":"2024-10-31T00:08:39.236945847-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"xm9f2csf"}}
+{"time":"2024-10-31T00:08:39.236987988-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"xm9f2csf"}}
+{"time":"2024-10-31T00:08:39.449935127-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_000839-xm9f2csf/logs/debug.log b/wandb/run-20241031_000839-xm9f2csf/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..c1d1ce8b5bb0b7bd37b5c1405df0fd69e4e613e8
--- /dev/null
+++ b/wandb/run-20241031_000839-xm9f2csf/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Configure stats pid to 477297
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-xm9f2csf/logs/debug.log
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-xm9f2csf/logs/debug-internal.log
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_init.py:init():621] calling init triggers
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_init.py:init():671] starting backend
+2024-10-31 00:08:39,126 INFO    MainThread:477297 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 00:08:39,127 INFO    MainThread:477297 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 00:08:39,127 INFO    MainThread:477297 [wandb_init.py:init():688] backend started and connected
+2024-10-31 00:08:39,131 INFO    MainThread:477297 [wandb_init.py:init():783] updated telemetry
+2024-10-31 00:08:39,153 INFO    MainThread:477297 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 00:08:39,447 INFO    MainThread:477297 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 00:08:39,540 INFO    MainThread:477297 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 00:08:39,541 INFO    MainThread:477297 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 00:08:39,541 INFO    MainThread:477297 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 00:08:39,541 INFO    MainThread:477297 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 00:08:39,543 INFO    MainThread:477297 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 00:08:39,543 INFO    MainThread:477297 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 1e-05}
diff --git a/wandb/run-20241031_000839-xm9f2csf/run-xm9f2csf.wandb b/wandb/run-20241031_000839-xm9f2csf/run-xm9f2csf.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..c6505468e9ff476fc9c7c5ff53bfa487301a977e
Binary files /dev/null and b/wandb/run-20241031_000839-xm9f2csf/run-xm9f2csf.wandb differ
diff --git a/wandb/run-20241031_122005-oby2afce/files/config.yaml b/wandb/run-20241031_122005-oby2afce/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..725c8381c5f9fe81efa0c182e9fe88850f0f19e9
--- /dev/null
+++ b/wandb/run-20241031_122005-oby2afce/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 6
+lr:
+    value: 5e-06
+perturbation:
+    value: reverse_full
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241031_122005-oby2afce/files/output.log b/wandb/run-20241031_122005-oby2afce/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..63d308ce782120b87d9b99df3ae16cdf4182715e
--- /dev/null
+++ b/wandb/run-20241031_122005-oby2afce/files/output.log
@@ -0,0 +1,49 @@
+Downloading shards:   0%|                                                                                                                                        | 0/2 [00:22<?, ?it/s]Exception ignored in: <generator object tqdm.__iter__ at 0x7f449c078d60>
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1196, in __iter__
+    self.close()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1303, in close
+    fp_write('\n')
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1287, in fp_write
+    self.fp.write(str(s))
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/utils.py", line 196, in inner
+    return func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/redirect.py", line 648, in write
+    cb(data)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 2386, in <lambda>
+    lambda data: self._console_raw_callback("stderr", data),
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 403, in wrapper_fn
+    return func(self, *args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 1547, in _console_raw_callback
+    self._backend.interface.publish_output_raw(name, data)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/interface/interface.py", line 715, in publish_output_raw
+    otype = pb.OutputRawRecord.OutputType.STDERR
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/google/protobuf/internal/enum_type_wrapper.py", line 94, in __getattr__
+    try:
+KeyboardInterrupt:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 173, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1380, in _hf_hub_download_to_cache_dir
+    with WeakFileLock(lock_path):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/contextlib.py", line 119, in __enter__
+    return next(self.gen)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_fixes.py", line 98, in WeakFileLock
+    lock.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241031_122005-oby2afce/files/wandb-metadata.json b/wandb/run-20241031_122005-oby2afce/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..8f3636b9a265a027a25efe7efd6404a36aec4ad1
--- /dev/null
+++ b/wandb/run-20241031_122005-oby2afce/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T16:20:05.857918Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753159847936"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_122005-oby2afce/files/wandb-summary.json b/wandb/run-20241031_122005-oby2afce/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..15f6b8e9049a55292dab131278b3f2fc1f52e50d
--- /dev/null
+++ b/wandb/run-20241031_122005-oby2afce/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":23}}
\ No newline at end of file
diff --git a/wandb/run-20241031_122005-oby2afce/logs/debug-internal.log b/wandb/run-20241031_122005-oby2afce/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..fd96280bed0bdbab68c32fc147be485ab3d94db9
--- /dev/null
+++ b/wandb/run-20241031_122005-oby2afce/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2024-10-31T12:20:05.859652319-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T12:20:05.859662679-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_122005-oby2afce/logs/debug-core.log"}
+{"time":"2024-10-31T12:20:05.96611756-04:00","level":"INFO","msg":"created new stream","id":"oby2afce"}
+{"time":"2024-10-31T12:20:05.96615247-04:00","level":"INFO","msg":"stream: started","id":"oby2afce"}
+{"time":"2024-10-31T12:20:05.96618829-04:00","level":"INFO","msg":"sender: started","stream_id":"oby2afce"}
+{"time":"2024-10-31T12:20:05.96616822-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"oby2afce"}}
+{"time":"2024-10-31T12:20:05.96618968-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"oby2afce"}}
+{"time":"2024-10-31T12:20:06.184419076-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-31T12:20:29.34968594-04:00","level":"INFO","msg":"stream: closing","id":"oby2afce"}
+{"time":"2024-10-31T12:20:29.34972926-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-31T12:20:29.35043694-04:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20241031_122005-oby2afce/logs/debug.log b/wandb/run-20241031_122005-oby2afce/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..8da3014b9d706df7cff95fd0bade41d26ee346f6
--- /dev/null
+++ b/wandb/run-20241031_122005-oby2afce/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Configure stats pid to 557181
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_122005-oby2afce/logs/debug.log
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_122005-oby2afce/logs/debug-internal.log
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_init.py:init():621] calling init triggers
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_init.py:init():671] starting backend
+2024-10-31 12:20:05,856 INFO    MainThread:557181 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 12:20:05,857 INFO    MainThread:557181 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 12:20:05,857 INFO    MainThread:557181 [wandb_init.py:init():688] backend started and connected
+2024-10-31 12:20:05,860 INFO    MainThread:557181 [wandb_init.py:init():783] updated telemetry
+2024-10-31 12:20:05,891 INFO    MainThread:557181 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 12:20:06,181 INFO    MainThread:557181 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 12:20:06,275 INFO    MainThread:557181 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 12:20:06,276 INFO    MainThread:557181 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 12:20:06,276 INFO    MainThread:557181 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 12:20:06,276 INFO    MainThread:557181 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 12:20:06,277 INFO    MainThread:557181 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 12:20:06,278 INFO    MainThread:557181 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 5e-06}
+2024-10-31 12:20:29,349 WARNING MsgRouterThr:557181 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241031_122005-oby2afce/run-oby2afce.wandb b/wandb/run-20241031_122005-oby2afce/run-oby2afce.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20241101_012438-pm66le56/files/config.yaml b/wandb/run-20241101_012438-pm66le56/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..16d25ee0e4092474360045faaf0959cfc1b3e91d
--- /dev/null
+++ b/wandb/run-20241101_012438-pm66le56/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 6
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_nodeterministic
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241101_012438-pm66le56/files/output.log b/wandb/run-20241101_012438-pm66le56/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5824b3c1b0e7410256b3374a200db5bd3cc11c9d
--- /dev/null
+++ b/wandb/run-20241101_012438-pm66le56/files/output.log
@@ -0,0 +1,12 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 164, in <module>
+    dataset = load_dataset('babylm_dataset_test.py', name=dataset_name, trust_remote_code=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 2074, in load_dataset
+    builder_instance = load_dataset_builder(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 1832, in load_dataset_builder
+    builder_instance: DatasetBuilder = builder_cls(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 342, in __init__
+    self.config, self.config_id = self._create_builder_config(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 569, in _create_builder_config
+    raise ValueError(
+ValueError: BuilderConfig 'babylm_shuffle_nodeterministic_10M_seed0' not found. Available: ['babylm_hop_control_10M_seed0', 'babylm_hop_tokens4_10M_seed0', 'babylm_hop_words4_10M_seed0', 'babylm_reverse_control_10M_seed0', 'babylm_reverse_partial_10M_seed0', 'babylm_reverse_full_10M_seed0', 'babylm_shuffle_control_10M_seed0', 'babylm_shuffle_nondeterministic_10M_seed0', 'babylm_shuffle_deterministic21_10M_seed0', 'babylm_shuffle_deterministic57_10M_seed0', 'babylm_shuffle_deterministic84_10M_seed0', 'babylm_shuffle_local3_10M_seed0', 'babylm_shuffle_local5_10M_seed0', 'babylm_shuffle_local10_10M_seed0', 'babylm_shuffle_even_odd_10M_seed0']
diff --git a/wandb/run-20241101_012438-pm66le56/files/wandb-metadata.json b/wandb/run-20241101_012438-pm66le56/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..83ab5e50c3e234880c9bd08211907b99a8788266
--- /dev/null
+++ b/wandb/run-20241101_012438-pm66le56/files/wandb-metadata.json
@@ -0,0 +1,29 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-01T05:24:38.162026Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nodeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_012438-pm66le56/files/wandb-summary.json b/wandb/run-20241101_012438-pm66le56/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20241101_012438-pm66le56/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20241101_012438-pm66le56/logs/debug-internal.log b/wandb/run-20241101_012438-pm66le56/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..1249a87154c41ccec9ccad73b17542ed7f1fe6c4
--- /dev/null
+++ b/wandb/run-20241101_012438-pm66le56/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-01T01:24:38.163852936-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T01:24:38.163865796-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_012438-pm66le56/logs/debug-core.log"}
+{"time":"2024-11-01T01:24:38.271438014-04:00","level":"INFO","msg":"created new stream","id":"pm66le56"}
+{"time":"2024-11-01T01:24:38.271465954-04:00","level":"INFO","msg":"stream: started","id":"pm66le56"}
+{"time":"2024-11-01T01:24:38.271510694-04:00","level":"INFO","msg":"sender: started","stream_id":"pm66le56"}
+{"time":"2024-11-01T01:24:38.271504754-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"pm66le56"}}
+{"time":"2024-11-01T01:24:38.271523085-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"pm66le56"}}
+{"time":"2024-11-01T01:24:38.47207326-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-01T01:24:38.640865874-04:00","level":"INFO","msg":"stream: closing","id":"pm66le56"}
+{"time":"2024-11-01T01:24:38.640889844-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-01T01:24:38.645833748-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-01T01:24:39.198611434-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-01T01:24:39.326514964-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"pm66le56"}}
+{"time":"2024-11-01T01:24:39.326560314-04:00","level":"INFO","msg":"sender: closed","stream_id":"pm66le56"}
+{"time":"2024-11-01T01:24:39.326542564-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"pm66le56"}}
+{"time":"2024-11-01T01:24:39.326608975-04:00","level":"INFO","msg":"stream: closed","id":"pm66le56"}
diff --git a/wandb/run-20241101_012438-pm66le56/logs/debug.log b/wandb/run-20241101_012438-pm66le56/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..08a7830cba48f102433de1560c7c6f9f40ccbb21
--- /dev/null
+++ b/wandb/run-20241101_012438-pm66le56/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-01 01:24:38,159 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 01:24:38,159 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Configure stats pid to 676352
+2024-11-01 01:24:38,159 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_012438-pm66le56/logs/debug.log
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_012438-pm66le56/logs/debug-internal.log
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_init.py:init():621] calling init triggers
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_init.py:init():671] starting backend
+2024-11-01 01:24:38,160 INFO    MainThread:676352 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 01:24:38,161 INFO    MainThread:676352 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 01:24:38,161 INFO    MainThread:676352 [wandb_init.py:init():688] backend started and connected
+2024-11-01 01:24:38,164 INFO    MainThread:676352 [wandb_init.py:init():783] updated telemetry
+2024-11-01 01:24:38,198 INFO    MainThread:676352 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 01:24:38,468 INFO    MainThread:676352 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 01:24:38,576 INFO    MainThread:676352 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 01:24:38,577 INFO    MainThread:676352 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 01:24:38,577 INFO    MainThread:676352 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 01:24:38,577 INFO    MainThread:676352 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 01:24:38,579 INFO    MainThread:676352 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 01:24:38,579 INFO    MainThread:676352 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nodeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 5e-06}
+2024-11-01 01:24:38,640 WARNING MsgRouterThr:676352 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241101_012438-pm66le56/run-pm66le56.wandb b/wandb/run-20241101_012438-pm66le56/run-pm66le56.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..90995993ea8317ecc95bccdc4a169117c070845c
Binary files /dev/null and b/wandb/run-20241101_012438-pm66le56/run-pm66le56.wandb differ
diff --git a/wandb/run-20241101_200502-ydj2ohih/files/output.log b/wandb/run-20241101_200502-ydj2ohih/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..04ca77dae62c42467f2e3713ee4aa0dba0d01be1
--- /dev/null
+++ b/wandb/run-20241101_200502-ydj2ohih/files/output.log
@@ -0,0 +1 @@
+Loading checkpoint shards:   0%|                                                                                                                                                        | 0/2 [00:00<?, ?it/s]
diff --git a/wandb/run-20241101_200502-ydj2ohih/files/requirements.txt b/wandb/run-20241101_200502-ydj2ohih/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_200502-ydj2ohih/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_200502-ydj2ohih/files/wandb-metadata.json b/wandb/run-20241101_200502-ydj2ohih/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..592edea7b71ea945a319540afb25d399432a8628
--- /dev/null
+++ b/wandb/run-20241101_200502-ydj2ohih/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:05:02.886763Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754801463296"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_200502-ydj2ohih/logs/debug-internal.log b/wandb/run-20241101_200502-ydj2ohih/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..fec7a93bed88d362fcb6728381fe6272c046ff89
--- /dev/null
+++ b/wandb/run-20241101_200502-ydj2ohih/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-01T20:05:02.888695149-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T20:05:02.888709799-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200502-ydj2ohih/logs/debug-core.log"}
+{"time":"2024-11-01T20:05:02.997414667-04:00","level":"INFO","msg":"created new stream","id":"ydj2ohih"}
+{"time":"2024-11-01T20:05:02.997458267-04:00","level":"INFO","msg":"stream: started","id":"ydj2ohih"}
+{"time":"2024-11-01T20:05:02.997548358-04:00","level":"INFO","msg":"sender: started","stream_id":"ydj2ohih"}
+{"time":"2024-11-01T20:05:02.997488097-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"ydj2ohih"}}
+{"time":"2024-11-01T20:05:02.997548098-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"ydj2ohih"}}
+{"time":"2024-11-01T20:05:03.215129003-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241101_200502-ydj2ohih/logs/debug.log b/wandb/run-20241101_200502-ydj2ohih/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..1cd881c9ed91bb0eddd6b30dedd8d5b25ca6eb24
--- /dev/null
+++ b/wandb/run-20241101_200502-ydj2ohih/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Configure stats pid to 869510
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200502-ydj2ohih/logs/debug.log
+2024-11-01 20:05:02,883 INFO    MainThread:869510 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200502-ydj2ohih/logs/debug-internal.log
+2024-11-01 20:05:02,884 INFO    MainThread:869510 [wandb_init.py:init():621] calling init triggers
+2024-11-01 20:05:02,884 INFO    MainThread:869510 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 20:05:02,884 INFO    MainThread:869510 [wandb_init.py:init():671] starting backend
+2024-11-01 20:05:02,884 INFO    MainThread:869510 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 20:05:02,886 INFO    MainThread:869510 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 20:05:02,886 INFO    MainThread:869510 [wandb_init.py:init():688] backend started and connected
+2024-11-01 20:05:02,889 INFO    MainThread:869510 [wandb_init.py:init():783] updated telemetry
+2024-11-01 20:05:02,921 INFO    MainThread:869510 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 20:05:03,212 INFO    MainThread:869510 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 20:05:03,301 INFO    MainThread:869510 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 20:05:03,302 INFO    MainThread:869510 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 20:05:03,302 INFO    MainThread:869510 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 20:05:03,302 INFO    MainThread:869510 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 20:05:03,303 INFO    MainThread:869510 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 20:05:03,304 INFO    MainThread:869510 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nondeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241101_200502-ydj2ohih/run-ydj2ohih.wandb b/wandb/run-20241101_200502-ydj2ohih/run-ydj2ohih.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20241101_200517-7w8d5k1u/files/config.yaml b/wandb/run-20241101_200517-7w8d5k1u/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4e34fec43368c51fb4bd10a24a21dd490ecdba44
--- /dev/null
+++ b/wandb/run-20241101_200517-7w8d5k1u/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_nondeterministic
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241101_200517-7w8d5k1u/files/output.log b/wandb/run-20241101_200517-7w8d5k1u/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..e8457741f2f303735e083254c4ffcefe20996350
--- /dev/null
+++ b/wandb/run-20241101_200517-7w8d5k1u/files/output.log
@@ -0,0 +1,53 @@
+config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 844/844 [00:00<00:00, 423kB/s]
+model.safetensors.index.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20.9k/20.9k [00:00<00:00, 16.2MB/s]
+model-00001-of-00002.safetensors:   6%|███████▋                                                                                                                           | 294M/4.97G [00:06<01:50, 42.2MB/s]
+Exception ignored in: <function BaseFileLock.__del__ at 0x7f9a29cd8af0>                                                                                                   | 294M/4.97G [00:06<01:50, 42.4MB/s]
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 273, in __del__
+    def __del__(self) -> None:
+KeyboardInterrupt:
+Downloading shards:   0%|                                                                                                                                                               | 0/2 [00:07<?, ?it/s]
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 173, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1381, in _hf_hub_download_to_cache_dir
+    _download_to_tmp_and_move(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1915, in _download_to_tmp_and_move
+    http_get(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 541, in http_get
+    for chunk in r.iter_content(chunk_size=constants.DOWNLOAD_CHUNK_SIZE):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 820, in generate
+    yield from self.raw.stream(chunk_size, decode_content=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/urllib3/response.py", line 934, in stream
+    data = self.read(amt=amt, decode_content=decode_content)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/urllib3/response.py", line 877, in read
+    data = self._raw_read(amt)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/urllib3/response.py", line 812, in _raw_read
+    data = self._fp_read(amt) if not fp_closed else b""
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/urllib3/response.py", line 789, in _fp_read
+    data = self._fp.read(chunk_amt)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/http/client.py", line 463, in read
+    n = self.readinto(b)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/http/client.py", line 507, in readinto
+    n = self.fp.readinto(b)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/socket.py", line 704, in readinto
+    return self._sock.recv_into(b)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/ssl.py", line 1275, in recv_into
+    return self.read(nbytes, buffer)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/ssl.py", line 1133, in read
+    return self._sslobj.read(len, buffer)
+KeyboardInterrupt
diff --git a/wandb/run-20241101_200517-7w8d5k1u/files/wandb-metadata.json b/wandb/run-20241101_200517-7w8d5k1u/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..be8b1d296b4cc43cb82a7c55d31d00ccb3b546be
--- /dev/null
+++ b/wandb/run-20241101_200517-7w8d5k1u/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:05:17.122237Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754801557504"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_200517-7w8d5k1u/files/wandb-summary.json b/wandb/run-20241101_200517-7w8d5k1u/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..779a0b5a17ed7980591fb713a2a4db505a51ed4b
--- /dev/null
+++ b/wandb/run-20241101_200517-7w8d5k1u/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":8}}
\ No newline at end of file
diff --git a/wandb/run-20241101_200517-7w8d5k1u/logs/debug-internal.log b/wandb/run-20241101_200517-7w8d5k1u/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..67ee0718984413a0ab2ded77dc9f9bfb58ad65a3
--- /dev/null
+++ b/wandb/run-20241101_200517-7w8d5k1u/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2024-11-01T20:05:17.125935487-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T20:05:17.125950717-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200517-7w8d5k1u/logs/debug-core.log"}
+{"time":"2024-11-01T20:05:17.232850512-04:00","level":"INFO","msg":"created new stream","id":"7w8d5k1u"}
+{"time":"2024-11-01T20:05:17.232884112-04:00","level":"INFO","msg":"stream: started","id":"7w8d5k1u"}
+{"time":"2024-11-01T20:05:17.233000493-04:00","level":"INFO","msg":"sender: started","stream_id":"7w8d5k1u"}
+{"time":"2024-11-01T20:05:17.232970413-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"7w8d5k1u"}}
+{"time":"2024-11-01T20:05:17.232915643-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"7w8d5k1u"}}
+{"time":"2024-11-01T20:05:17.489000404-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-01T20:05:25.26447236-04:00","level":"INFO","msg":"stream: closing","id":"7w8d5k1u"}
+{"time":"2024-11-01T20:05:25.26451279-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-01T20:05:25.265030874-04:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20241101_200517-7w8d5k1u/logs/debug.log b/wandb/run-20241101_200517-7w8d5k1u/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d5133e3d51148460eb850994a99ad2679d4629b2
--- /dev/null
+++ b/wandb/run-20241101_200517-7w8d5k1u/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-01 20:05:17,118 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Configure stats pid to 870380
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200517-7w8d5k1u/logs/debug.log
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200517-7w8d5k1u/logs/debug-internal.log
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_init.py:init():621] calling init triggers
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_init.py:init():671] starting backend
+2024-11-01 20:05:17,119 INFO    MainThread:870380 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 20:05:17,121 INFO    MainThread:870380 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 20:05:17,122 INFO    MainThread:870380 [wandb_init.py:init():688] backend started and connected
+2024-11-01 20:05:17,126 INFO    MainThread:870380 [wandb_init.py:init():783] updated telemetry
+2024-11-01 20:05:17,156 INFO    MainThread:870380 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 20:05:17,486 INFO    MainThread:870380 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 20:05:17,572 INFO    MainThread:870380 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 20:05:17,572 INFO    MainThread:870380 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 20:05:17,572 INFO    MainThread:870380 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 20:05:17,572 INFO    MainThread:870380 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 20:05:17,573 INFO    MainThread:870380 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 20:05:17,574 INFO    MainThread:870380 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nondeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-01 20:05:25,264 WARNING MsgRouterThr:870380 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241101_200517-7w8d5k1u/run-7w8d5k1u.wandb b/wandb/run-20241101_200517-7w8d5k1u/run-7w8d5k1u.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20241101_200535-kh416n4m/files/output.log b/wandb/run-20241101_200535-kh416n4m/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..80cbc9ac740271077883a4d8c66317b8a4f5ea3b
--- /dev/null
+++ b/wandb/run-20241101_200535-kh416n4m/files/output.log
@@ -0,0 +1,14 @@
+Downloading shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:25<00:00, 72.79s/it]
+Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.66s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-01 20:08:09,698] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-01 20:08:20,613] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.421607255935669 seconds
diff --git a/wandb/run-20241101_200535-kh416n4m/files/requirements.txt b/wandb/run-20241101_200535-kh416n4m/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_200535-kh416n4m/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_200535-kh416n4m/files/wandb-metadata.json b/wandb/run-20241101_200535-kh416n4m/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..6ae8b704b7caa23c936de1776ae565317cede49f
--- /dev/null
+++ b/wandb/run-20241101_200535-kh416n4m/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:05:35.952941Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754801680384"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_200535-kh416n4m/logs/debug-internal.log b/wandb/run-20241101_200535-kh416n4m/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..74b35e568ff54e2b4b850bc189dfeb7bfabb62a0
--- /dev/null
+++ b/wandb/run-20241101_200535-kh416n4m/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-01T20:05:35.954949925-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T20:05:35.954961945-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200535-kh416n4m/logs/debug-core.log"}
+{"time":"2024-11-01T20:05:36.060080068-04:00","level":"INFO","msg":"created new stream","id":"kh416n4m"}
+{"time":"2024-11-01T20:05:36.060105218-04:00","level":"INFO","msg":"stream: started","id":"kh416n4m"}
+{"time":"2024-11-01T20:05:36.060156568-04:00","level":"INFO","msg":"sender: started","stream_id":"kh416n4m"}
+{"time":"2024-11-01T20:05:36.060165538-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"kh416n4m"}}
+{"time":"2024-11-01T20:05:36.060141578-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"kh416n4m"}}
+{"time":"2024-11-01T20:05:36.221966887-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241101_200535-kh416n4m/logs/debug.log b/wandb/run-20241101_200535-kh416n4m/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..843c8c6240bb4c616e9ae5065b63f43782ed57a7
--- /dev/null
+++ b/wandb/run-20241101_200535-kh416n4m/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-01 20:05:35,949 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 20:05:35,949 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Configure stats pid to 871228
+2024-11-01 20:05:35,949 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200535-kh416n4m/logs/debug.log
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200535-kh416n4m/logs/debug-internal.log
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_init.py:init():621] calling init triggers
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_init.py:init():671] starting backend
+2024-11-01 20:05:35,950 INFO    MainThread:871228 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 20:05:35,952 INFO    MainThread:871228 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 20:05:35,952 INFO    MainThread:871228 [wandb_init.py:init():688] backend started and connected
+2024-11-01 20:05:35,955 INFO    MainThread:871228 [wandb_init.py:init():783] updated telemetry
+2024-11-01 20:05:35,976 INFO    MainThread:871228 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 20:05:36,218 INFO    MainThread:871228 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 20:05:36,308 INFO    MainThread:871228 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 20:05:36,308 INFO    MainThread:871228 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 20:05:36,309 INFO    MainThread:871228 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 20:05:36,309 INFO    MainThread:871228 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 20:05:36,310 INFO    MainThread:871228 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 20:05:36,311 INFO    MainThread:871228 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nondeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241101_201630-e5gt2fir/files/wandb-metadata.json b/wandb/run-20241101_201630-e5gt2fir/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..e5421b5b8f15d3f9736272d242284bc8284317c5
--- /dev/null
+++ b/wandb/run-20241101_201630-e5gt2fir/files/wandb-metadata.json
@@ -0,0 +1,29 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:16:30.559840Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nodeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_201630-e5gt2fir/run-e5gt2fir.wandb b/wandb/run-20241101_201630-e5gt2fir/run-e5gt2fir.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..9f492327687d2c6dedfb9fc127f358f8acf7e534
Binary files /dev/null and b/wandb/run-20241101_201630-e5gt2fir/run-e5gt2fir.wandb differ
diff --git a/wandb/run-20241101_202058-ptl7coag/run-ptl7coag.wandb b/wandb/run-20241101_202058-ptl7coag/run-ptl7coag.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..47bd48dbea9b942b8ec637b2770e1a65d62ff97e
--- /dev/null
+++ b/wandb/run-20241101_202058-ptl7coag/run-ptl7coag.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f69d6a48f65835780c44feae49d31d9772a0b67ce04a0dd11866a80d8fc15eb
+size 13298469
diff --git a/wandb/run-20241105_163244-59l4qxgx/run-59l4qxgx.wandb b/wandb/run-20241105_163244-59l4qxgx/run-59l4qxgx.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..0d289d5dddb8b680fc394755100898804719a923
--- /dev/null
+++ b/wandb/run-20241105_163244-59l4qxgx/run-59l4qxgx.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d31ba92b91501273e9e020069753627cbe5972cdb47aea5656c6207c49336fa
+size 12910592
diff --git a/wandb/run-20241106_224020-6t4ecdk6/files/config.yaml b/wandb/run-20241106_224020-6t4ecdk6/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..507bc548a43d1c7afb495d052831f04f348b9c17
--- /dev/null
+++ b/wandb/run-20241106_224020-6t4ecdk6/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic84
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_224020-6t4ecdk6/files/output.log b/wandb/run-20241106_224020-6t4ecdk6/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..78761d11ef81254884318d343e9a73e24ac989c0
--- /dev/null
+++ b/wandb/run-20241106_224020-6t4ecdk6/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c36a5-3d1a15e50c26ac21382118eb;cd91d217-8faa-4bce-9962-fd1cdf4f682c)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c36a5-3d1a15e50c26ac21382118eb;cd91d217-8faa-4bce-9962-fd1cdf4f682c)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_224020-6t4ecdk6/files/wandb-metadata.json b/wandb/run-20241106_224020-6t4ecdk6/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..8f317744ff07852d187dddd720b09ab3d0ec7764
--- /dev/null
+++ b/wandb/run-20241106_224020-6t4ecdk6/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T03:40:20.673705Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic84",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1774852558848"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_224020-6t4ecdk6/files/wandb-summary.json b/wandb/run-20241106_224020-6t4ecdk6/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20241106_224020-6t4ecdk6/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20241106_224020-6t4ecdk6/logs/debug-internal.log b/wandb/run-20241106_224020-6t4ecdk6/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..9900bd7a492f8e398eb3cce347de99aceff40745
--- /dev/null
+++ b/wandb/run-20241106_224020-6t4ecdk6/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T22:40:20.677815214-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T22:40:20.677833874-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224020-6t4ecdk6/logs/debug-core.log"}
+{"time":"2024-11-06T22:40:20.785737176-05:00","level":"INFO","msg":"created new stream","id":"6t4ecdk6"}
+{"time":"2024-11-06T22:40:20.785790116-05:00","level":"INFO","msg":"stream: started","id":"6t4ecdk6"}
+{"time":"2024-11-06T22:40:20.785885497-05:00","level":"INFO","msg":"sender: started","stream_id":"6t4ecdk6"}
+{"time":"2024-11-06T22:40:20.785863237-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"6t4ecdk6"}}
+{"time":"2024-11-06T22:40:20.785914067-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"6t4ecdk6"}}
+{"time":"2024-11-06T22:40:20.968333299-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T22:40:21.240933341-05:00","level":"INFO","msg":"stream: closing","id":"6t4ecdk6"}
+{"time":"2024-11-06T22:40:21.240979112-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T22:40:21.241614097-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T22:40:21.608700557-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T22:40:21.766312379-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"6t4ecdk6"}}
+{"time":"2024-11-06T22:40:21.76643101-05:00","level":"INFO","msg":"sender: closed","stream_id":"6t4ecdk6"}
+{"time":"2024-11-06T22:40:21.76644053-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"6t4ecdk6"}}
+{"time":"2024-11-06T22:40:21.766605371-05:00","level":"INFO","msg":"stream: closed","id":"6t4ecdk6"}
diff --git a/wandb/run-20241106_224020-6t4ecdk6/logs/debug.log b/wandb/run-20241106_224020-6t4ecdk6/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..b6343fd08191a254f97687afb985a3c408c864af
--- /dev/null
+++ b/wandb/run-20241106_224020-6t4ecdk6/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Configure stats pid to 1980805
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 22:40:20,670 INFO    MainThread:1980805 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 22:40:20,671 INFO    MainThread:1980805 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224020-6t4ecdk6/logs/debug.log
+2024-11-06 22:40:20,671 INFO    MainThread:1980805 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224020-6t4ecdk6/logs/debug-internal.log
+2024-11-06 22:40:20,671 INFO    MainThread:1980805 [wandb_init.py:init():621] calling init triggers
+2024-11-06 22:40:20,671 INFO    MainThread:1980805 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 22:40:20,671 INFO    MainThread:1980805 [wandb_init.py:init():671] starting backend
+2024-11-06 22:40:20,671 INFO    MainThread:1980805 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 22:40:20,673 INFO    MainThread:1980805 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 22:40:20,673 INFO    MainThread:1980805 [wandb_init.py:init():688] backend started and connected
+2024-11-06 22:40:20,678 INFO    MainThread:1980805 [wandb_init.py:init():783] updated telemetry
+2024-11-06 22:40:20,715 INFO    MainThread:1980805 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 22:40:20,965 INFO    MainThread:1980805 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 22:40:21,058 INFO    MainThread:1980805 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 22:40:21,058 INFO    MainThread:1980805 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 22:40:21,058 INFO    MainThread:1980805 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 22:40:21,058 INFO    MainThread:1980805 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 22:40:21,059 INFO    MainThread:1980805 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 22:40:21,059 INFO    MainThread:1980805 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic84', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 22:40:21,241 WARNING MsgRouterThr:1980805 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_224020-6t4ecdk6/run-6t4ecdk6.wandb b/wandb/run-20241106_224020-6t4ecdk6/run-6t4ecdk6.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..6f4ab3f94dda58b5339146768691077cca2202c9
Binary files /dev/null and b/wandb/run-20241106_224020-6t4ecdk6/run-6t4ecdk6.wandb differ
diff --git a/wandb/run-20241106_224020-fxy5qkfb/files/config.yaml b/wandb/run-20241106_224020-fxy5qkfb/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..507bc548a43d1c7afb495d052831f04f348b9c17
--- /dev/null
+++ b/wandb/run-20241106_224020-fxy5qkfb/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic84
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_224020-fxy5qkfb/files/output.log b/wandb/run-20241106_224020-fxy5qkfb/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..c511c19d543451d0a67a1ac637fda6554e57c4c8
--- /dev/null
+++ b/wandb/run-20241106_224020-fxy5qkfb/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c36a5-50b8fb404a4b8ba27483361d;6111df08-0da7-4409-937d-e14a7d88c5a8)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c36a5-50b8fb404a4b8ba27483361d;6111df08-0da7-4409-937d-e14a7d88c5a8)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_224020-fxy5qkfb/files/wandb-metadata.json b/wandb/run-20241106_224020-fxy5qkfb/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..31d7c93d75f02ea35f9c9ae95b1ad5619e40971b
--- /dev/null
+++ b/wandb/run-20241106_224020-fxy5qkfb/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T03:40:20.532470Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic84",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1774852558848"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_224020-fxy5qkfb/files/wandb-summary.json b/wandb/run-20241106_224020-fxy5qkfb/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20241106_224020-fxy5qkfb/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20241106_224020-fxy5qkfb/logs/debug-internal.log b/wandb/run-20241106_224020-fxy5qkfb/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..7a7e11bdca3a805a5c3d9d312bf09ac7e8ef6ec2
--- /dev/null
+++ b/wandb/run-20241106_224020-fxy5qkfb/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T22:40:20.533679885-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T22:40:20.533690466-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224020-fxy5qkfb/logs/debug-core.log"}
+{"time":"2024-11-06T22:40:20.638875205-05:00","level":"INFO","msg":"created new stream","id":"fxy5qkfb"}
+{"time":"2024-11-06T22:40:20.638902535-05:00","level":"INFO","msg":"stream: started","id":"fxy5qkfb"}
+{"time":"2024-11-06T22:40:20.638913975-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"fxy5qkfb"}}
+{"time":"2024-11-06T22:40:20.638937045-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"fxy5qkfb"}}
+{"time":"2024-11-06T22:40:20.639017016-05:00","level":"INFO","msg":"sender: started","stream_id":"fxy5qkfb"}
+{"time":"2024-11-06T22:40:20.838110449-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T22:40:21.052910713-05:00","level":"INFO","msg":"stream: closing","id":"fxy5qkfb"}
+{"time":"2024-11-06T22:40:21.052936593-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T22:40:21.053356577-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T22:40:21.552534893-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T22:40:21.670937893-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"fxy5qkfb"}}
+{"time":"2024-11-06T22:40:21.671002624-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"fxy5qkfb"}}
+{"time":"2024-11-06T22:40:21.671010694-05:00","level":"INFO","msg":"sender: closed","stream_id":"fxy5qkfb"}
+{"time":"2024-11-06T22:40:21.671072604-05:00","level":"INFO","msg":"stream: closed","id":"fxy5qkfb"}
diff --git a/wandb/run-20241106_224020-fxy5qkfb/logs/debug.log b/wandb/run-20241106_224020-fxy5qkfb/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..c796c2590e813df270d0217bef030a228839cff2
--- /dev/null
+++ b/wandb/run-20241106_224020-fxy5qkfb/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Configure stats pid to 1980803
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224020-fxy5qkfb/logs/debug.log
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224020-fxy5qkfb/logs/debug-internal.log
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_init.py:init():621] calling init triggers
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_init.py:init():671] starting backend
+2024-11-06 22:40:20,529 INFO    MainThread:1980803 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 22:40:20,531 INFO    MainThread:1980803 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 22:40:20,532 INFO    MainThread:1980803 [wandb_init.py:init():688] backend started and connected
+2024-11-06 22:40:20,535 INFO    MainThread:1980803 [wandb_init.py:init():783] updated telemetry
+2024-11-06 22:40:20,560 INFO    MainThread:1980803 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 22:40:20,835 INFO    MainThread:1980803 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 22:40:20,923 INFO    MainThread:1980803 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 22:40:20,923 INFO    MainThread:1980803 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 22:40:20,923 INFO    MainThread:1980803 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 22:40:20,923 INFO    MainThread:1980803 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 22:40:20,924 INFO    MainThread:1980803 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 22:40:20,924 INFO    MainThread:1980803 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic84', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 22:40:21,053 WARNING MsgRouterThr:1980803 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_224020-fxy5qkfb/run-fxy5qkfb.wandb b/wandb/run-20241106_224020-fxy5qkfb/run-fxy5qkfb.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..18f5ef17a26c14dedb9da7baa3eb272abb8c5aa9
Binary files /dev/null and b/wandb/run-20241106_224020-fxy5qkfb/run-fxy5qkfb.wandb differ
diff --git a/wandb/run-20241106_232725-f16bcfrx/run-f16bcfrx.wandb b/wandb/run-20241106_232725-f16bcfrx/run-f16bcfrx.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..82cbfd3d67a69e3986ff5758c75afc6b46ab592e
--- /dev/null
+++ b/wandb/run-20241106_232725-f16bcfrx/run-f16bcfrx.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8b9b2d8278d426efc79ee38622d79b1bebb0810f155e941c74984e905747c53
+size 111840
diff --git a/wandb/run-20241118_085831-h3p12015/files/config.yaml b/wandb/run-20241118_085831-h3p12015/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..48b4359bc00506bfffbea094886a86b04198c5c0
--- /dev/null
+++ b/wandb/run-20241118_085831-h3p12015/files/config.yaml
@@ -0,0 +1,531 @@
+_name_or_path:
+    value: meta-llama/Llama-3.2-3B
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": train/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/learning_rate
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/epoch
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/runtime
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+epoch:
+    value: 3
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+head_dim:
+    value: 128
+hidden_act:
+    value: silu
+hidden_size:
+    value: 3072
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 8192
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 131072
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mlp_bias:
+    value: false
+model/num_parameters:
+    value: 3212749824
+model_type:
+    value: llama
+mp_parameters:
+    value: ""
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 24
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 28
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 3
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_nondeterministic_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: shuffle_nondeterministic
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value:
+        factor: 32
+        high_freq_factor: 4
+        low_freq_factor: 1
+        original_max_position_embeddings: 8192
+        rope_type: llama3
+rope_theta:
+    value: 500000
+run_name:
+    value: ./checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_nondeterministic_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.1
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241118_085831-h3p12015/files/output.log b/wandb/run-20241118_085831-h3p12015/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..94304310986a71a7349143d4139e60b2bda62c72
--- /dev/null
+++ b/wandb/run-20241118_085831-h3p12015/files/output.log
@@ -0,0 +1,3038 @@
+config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 844/844 [00:00<00:00, 217kB/s]
+model-00001-of-00002.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 4.97G/4.97G [01:57<00:00, 42.1MB/s]
+model-00002-of-00002.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1.46G/1.46G [00:34<00:00, 42.5MB/s]
+Downloading shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:32<00:00, 76.22s/it]
+Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.02s/it]
+generation_config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [00:00<00:00, 82.4kB/s]
+Map: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16425/16425 [00:45<00:00, 357.21 examples/s]
+Map: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17013/17013 [00:47<00:00, 360.42 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-18 09:03:05,454] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-18 09:03:12,206] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-18 09:03:12,206] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Emitting ninja build file /home/chunhui/.cache/torch_extensions/py39_cu117/cpu_adam/build.ninja...
+Building extension module cpu_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 8.036640882492065 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                      
+{'loss': 3.0998, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0858, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0672, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0802, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0636, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.1672, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0961, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.1258, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0953, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.1404, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                      
+{'eval_loss': 3.1298255920410156, 'eval_runtime': 38.6417, 'eval_samples_per_second': 25.879, 'eval_steps_per_second': 1.087, 'epoch': 0.01}
+{'loss': 3.1187, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0593, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.111, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0974, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 3.135, 'grad_norm': 5.991453647613525, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 3.0799, 'grad_norm': 5.991453647613525, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 3.0851, 'grad_norm': 5.991453647613525, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 3.1008, 'grad_norm': 10.659249305725098, 'learning_rate': 3.6496350364963505e-08, 'epoch': 0.02}
+{'loss': 3.0962, 'grad_norm': 8.556068420410156, 'learning_rate': 5.4744525547445264e-08, 'epoch': 0.02}
+{'loss': 3.0638, 'grad_norm': 5.162924766540527, 'learning_rate': 7.299270072992701e-08, 'epoch': 0.02}
+{'eval_loss': 3.0002310276031494, 'eval_runtime': 38.1663, 'eval_samples_per_second': 26.201, 'eval_steps_per_second': 1.1, 'epoch': 0.02}
+{'loss': 2.9786, 'grad_norm': 4.7945966720581055, 'learning_rate': 9.124087591240876e-08, 'epoch': 0.02}
+{'loss': 2.8652, 'grad_norm': 5.523077487945557, 'learning_rate': 1.0948905109489053e-07, 'epoch': 0.02}
+{'loss': 2.8468, 'grad_norm': 2.859027862548828, 'learning_rate': 1.2773722627737227e-07, 'epoch': 0.03}
+{'loss': 2.8626, 'grad_norm': 4.805753707885742, 'learning_rate': 1.4598540145985402e-07, 'epoch': 0.03}
+{'loss': 2.8487, 'grad_norm': 3.050151824951172, 'learning_rate': 1.642335766423358e-07, 'epoch': 0.03}
+{'loss': 2.8154, 'grad_norm': 2.5798933506011963, 'learning_rate': 1.8248175182481753e-07, 'epoch': 0.03}
+{'loss': 2.8028, 'grad_norm': 2.379521369934082, 'learning_rate': 2.0072992700729928e-07, 'epoch': 0.03}
+{'loss': 2.7474, 'grad_norm': 2.509614944458008, 'learning_rate': 2.1897810218978106e-07, 'epoch': 0.03}
+{'loss': 2.7206, 'grad_norm': 2.5612199306488037, 'learning_rate': 2.3722627737226278e-07, 'epoch': 0.03}
+{'loss': 2.6676, 'grad_norm': 2.068345069885254, 'learning_rate': 2.5547445255474454e-07, 'epoch': 0.03}
+{'eval_loss': 2.762876033782959, 'eval_runtime': 37.7329, 'eval_samples_per_second': 26.502, 'eval_steps_per_second': 1.113, 'epoch': 0.03}
+{'loss': 2.692, 'grad_norm': 2.1446118354797363, 'learning_rate': 2.737226277372263e-07, 'epoch': 0.03}
+{'loss': 2.6617, 'grad_norm': 2.0872929096221924, 'learning_rate': 2.9197080291970804e-07, 'epoch': 0.04}
+{'loss': 2.6252, 'grad_norm': 2.2962639331817627, 'learning_rate': 3.102189781021898e-07, 'epoch': 0.04}
+{'loss': 2.6068, 'grad_norm': 2.0494158267974854, 'learning_rate': 3.284671532846716e-07, 'epoch': 0.04}
+{'loss': 2.6194, 'grad_norm': 2.2687947750091553, 'learning_rate': 3.467153284671533e-07, 'epoch': 0.04}
+{'loss': 2.6304, 'grad_norm': 3.141436815261841, 'learning_rate': 3.6496350364963505e-07, 'epoch': 0.04}
+{'loss': 2.5855, 'grad_norm': 1.7621077299118042, 'learning_rate': 3.8321167883211686e-07, 'epoch': 0.04}
+{'loss': 2.5497, 'grad_norm': 2.396498441696167, 'learning_rate': 4.0145985401459856e-07, 'epoch': 0.04}
+{'loss': 2.6161, 'grad_norm': 1.8160557746887207, 'learning_rate': 4.197080291970803e-07, 'epoch': 0.04}
+{'loss': 2.5377, 'grad_norm': 2.3418030738830566, 'learning_rate': 4.379562043795621e-07, 'epoch': 0.04}
+{'eval_loss': 2.6371867656707764, 'eval_runtime': 37.7063, 'eval_samples_per_second': 26.521, 'eval_steps_per_second': 1.114, 'epoch': 0.04}
+{'loss': 2.5333, 'grad_norm': 1.572534203529358, 'learning_rate': 4.562043795620438e-07, 'epoch': 0.04}
+{'loss': 2.5797, 'grad_norm': 2.2532575130462646, 'learning_rate': 4.7445255474452557e-07, 'epoch': 0.05}
+{'loss': 2.5446, 'grad_norm': 1.5870578289031982, 'learning_rate': 4.927007299270073e-07, 'epoch': 0.05}
+{'loss': 2.561, 'grad_norm': 1.848671317100525, 'learning_rate': 5.109489051094891e-07, 'epoch': 0.05}
+{'loss': 2.5415, 'grad_norm': 1.8653115034103394, 'learning_rate': 5.291970802919708e-07, 'epoch': 0.05}
+{'loss': 2.5034, 'grad_norm': 1.8786529302597046, 'learning_rate': 5.474452554744526e-07, 'epoch': 0.05}
+{'loss': 2.4951, 'grad_norm': 1.9696972370147705, 'learning_rate': 5.656934306569343e-07, 'epoch': 0.05}
+{'loss': 2.5062, 'grad_norm': 1.6735143661499023, 'learning_rate': 5.839416058394161e-07, 'epoch': 0.05}
+{'loss': 2.4351, 'grad_norm': 1.860193133354187, 'learning_rate': 6.021897810218979e-07, 'epoch': 0.05}
+{'loss': 2.5634, 'grad_norm': 1.6798452138900757, 'learning_rate': 6.204379562043796e-07, 'epoch': 0.05}
+{'eval_loss': 2.569493055343628, 'eval_runtime': 37.7225, 'eval_samples_per_second': 26.509, 'eval_steps_per_second': 1.113, 'epoch': 0.05}
+{'loss': 2.4502, 'grad_norm': 1.7167212963104248, 'learning_rate': 6.386861313868614e-07, 'epoch': 0.06}
+{'loss': 2.4877, 'grad_norm': 1.6960467100143433, 'learning_rate': 6.569343065693432e-07, 'epoch': 0.06}
+{'loss': 2.426, 'grad_norm': 1.4868950843811035, 'learning_rate': 6.751824817518248e-07, 'epoch': 0.06}
+{'loss': 2.4438, 'grad_norm': 1.633758544921875, 'learning_rate': 6.934306569343066e-07, 'epoch': 0.06}
+{'loss': 2.4505, 'grad_norm': 1.5697351694107056, 'learning_rate': 7.116788321167883e-07, 'epoch': 0.06}
+{'loss': 2.4659, 'grad_norm': 1.7102861404418945, 'learning_rate': 7.299270072992701e-07, 'epoch': 0.06}
+{'loss': 2.4728, 'grad_norm': 1.6420042514801025, 'learning_rate': 7.48175182481752e-07, 'epoch': 0.06}
+{'loss': 2.4531, 'grad_norm': 1.7134343385696411, 'learning_rate': 7.664233576642337e-07, 'epoch': 0.06}
+{'loss': 2.4263, 'grad_norm': 1.7748825550079346, 'learning_rate': 7.846715328467154e-07, 'epoch': 0.06}
+{'loss': 2.4049, 'grad_norm': 1.7815611362457275, 'learning_rate': 8.029197080291971e-07, 'epoch': 0.07}
+{'eval_loss': 2.531026840209961, 'eval_runtime': 37.7203, 'eval_samples_per_second': 26.511, 'eval_steps_per_second': 1.113, 'epoch': 0.07}
+{'loss': 2.4158, 'grad_norm': 1.9545243978500366, 'learning_rate': 8.211678832116789e-07, 'epoch': 0.07}
+{'loss': 2.4248, 'grad_norm': 1.5614768266677856, 'learning_rate': 8.394160583941606e-07, 'epoch': 0.07}
+{'loss': 2.4311, 'grad_norm': 1.7685444355010986, 'learning_rate': 8.576642335766425e-07, 'epoch': 0.07}
+{'loss': 2.4514, 'grad_norm': 1.742304801940918, 'learning_rate': 8.759124087591242e-07, 'epoch': 0.07}
+{'loss': 2.4034, 'grad_norm': 1.4872788190841675, 'learning_rate': 8.94160583941606e-07, 'epoch': 0.07}
+{'loss': 2.426, 'grad_norm': 1.735102653503418, 'learning_rate': 9.124087591240876e-07, 'epoch': 0.07}
+{'loss': 2.4188, 'grad_norm': 1.9607082605361938, 'learning_rate': 9.306569343065694e-07, 'epoch': 0.07}
+{'loss': 2.4516, 'grad_norm': 1.8506171703338623, 'learning_rate': 9.489051094890511e-07, 'epoch': 0.07}
+{'loss': 2.4068, 'grad_norm': 2.18963360786438, 'learning_rate': 9.67153284671533e-07, 'epoch': 0.08}
+{'loss': 2.3709, 'grad_norm': 3.0092129707336426, 'learning_rate': 9.854014598540146e-07, 'epoch': 0.08}
+{'eval_loss': 2.5034940242767334, 'eval_runtime': 37.8469, 'eval_samples_per_second': 26.422, 'eval_steps_per_second': 1.11, 'epoch': 0.08}
+{'loss': 2.4394, 'grad_norm': 1.9387335777282715, 'learning_rate': 1.0036496350364965e-06, 'epoch': 0.08}
+{'loss': 2.355, 'grad_norm': 3.146247386932373, 'learning_rate': 1.0218978102189781e-06, 'epoch': 0.08}
+{'loss': 2.3574, 'grad_norm': 2.447643518447876, 'learning_rate': 1.04014598540146e-06, 'epoch': 0.08}
+{'loss': 2.374, 'grad_norm': 2.1435651779174805, 'learning_rate': 1.0583941605839416e-06, 'epoch': 0.08}
+{'loss': 2.4076, 'grad_norm': 2.143691301345825, 'learning_rate': 1.0766423357664233e-06, 'epoch': 0.08}
+{'loss': 2.4193, 'grad_norm': 1.8463176488876343, 'learning_rate': 1.0948905109489052e-06, 'epoch': 0.08}
+{'loss': 2.3622, 'grad_norm': 1.906254529953003, 'learning_rate': 1.113138686131387e-06, 'epoch': 0.08}
+{'loss': 2.3389, 'grad_norm': 1.7407734394073486, 'learning_rate': 1.1313868613138687e-06, 'epoch': 0.09}
+{'loss': 2.3601, 'grad_norm': 1.9932411909103394, 'learning_rate': 1.1496350364963505e-06, 'epoch': 0.09}
+{'loss': 2.354, 'grad_norm': 1.8244212865829468, 'learning_rate': 1.1678832116788322e-06, 'epoch': 0.09}
+{'eval_loss': 2.4792213439941406, 'eval_runtime': 37.7188, 'eval_samples_per_second': 26.512, 'eval_steps_per_second': 1.114, 'epoch': 0.09}
+{'loss': 2.3719, 'grad_norm': 1.6612335443496704, 'learning_rate': 1.1861313868613138e-06, 'epoch': 0.09}
+{'loss': 2.4127, 'grad_norm': 1.7231117486953735, 'learning_rate': 1.2043795620437959e-06, 'epoch': 0.09}
+{'loss': 2.37, 'grad_norm': 1.6009923219680786, 'learning_rate': 1.2226277372262775e-06, 'epoch': 0.09}
+{'loss': 2.3874, 'grad_norm': 2.51488995552063, 'learning_rate': 1.2408759124087592e-06, 'epoch': 0.09}
+{'loss': 2.3787, 'grad_norm': 2.2683658599853516, 'learning_rate': 1.259124087591241e-06, 'epoch': 0.09}
+{'loss': 2.3383, 'grad_norm': 1.7536020278930664, 'learning_rate': 1.2773722627737229e-06, 'epoch': 0.09}
+{'loss': 2.3597, 'grad_norm': 1.9104911088943481, 'learning_rate': 1.2956204379562045e-06, 'epoch': 0.1}
+{'loss': 2.3134, 'grad_norm': 1.9581283330917358, 'learning_rate': 1.3138686131386864e-06, 'epoch': 0.1}
+{'loss': 2.3527, 'grad_norm': 2.0857372283935547, 'learning_rate': 1.332116788321168e-06, 'epoch': 0.1}
+{'loss': 2.2812, 'grad_norm': 1.8731858730316162, 'learning_rate': 1.3503649635036497e-06, 'epoch': 0.1}
+{'eval_loss': 2.46639347076416, 'eval_runtime': 37.7185, 'eval_samples_per_second': 26.512, 'eval_steps_per_second': 1.114, 'epoch': 0.1}
+{'loss': 2.3857, 'grad_norm': 2.262418746948242, 'learning_rate': 1.3686131386861315e-06, 'epoch': 0.1}
+{'loss': 2.3513, 'grad_norm': 1.8655835390090942, 'learning_rate': 1.3868613138686132e-06, 'epoch': 0.1}
+{'loss': 2.3804, 'grad_norm': 2.1694376468658447, 'learning_rate': 1.405109489051095e-06, 'epoch': 0.1}
+{'loss': 2.3432, 'grad_norm': 1.9875420331954956, 'learning_rate': 1.4233576642335767e-06, 'epoch': 0.1}
+{'loss': 2.3258, 'grad_norm': 2.093919515609741, 'learning_rate': 1.4416058394160583e-06, 'epoch': 0.1}
+{'loss': 2.3926, 'grad_norm': 2.2373430728912354, 'learning_rate': 1.4598540145985402e-06, 'epoch': 0.11}
+{'loss': 2.3596, 'grad_norm': 1.830695629119873, 'learning_rate': 1.478102189781022e-06, 'epoch': 0.11}
+{'loss': 2.3817, 'grad_norm': 1.9554585218429565, 'learning_rate': 1.496350364963504e-06, 'epoch': 0.11}
+{'loss': 2.3516, 'grad_norm': 1.7795532941818237, 'learning_rate': 1.5145985401459856e-06, 'epoch': 0.11}
+{'loss': 2.3108, 'grad_norm': 2.1863558292388916, 'learning_rate': 1.5328467153284674e-06, 'epoch': 0.11}
+{'eval_loss': 2.4552853107452393, 'eval_runtime': 37.7096, 'eval_samples_per_second': 26.518, 'eval_steps_per_second': 1.114, 'epoch': 0.11}
+{'loss': 2.3047, 'grad_norm': 1.9794018268585205, 'learning_rate': 1.551094890510949e-06, 'epoch': 0.11}
+{'loss': 2.3671, 'grad_norm': 2.396454334259033, 'learning_rate': 1.5693430656934307e-06, 'epoch': 0.11}
+{'loss': 2.4105, 'grad_norm': 2.0826210975646973, 'learning_rate': 1.5875912408759126e-06, 'epoch': 0.11}
+{'loss': 2.3405, 'grad_norm': 2.3590970039367676, 'learning_rate': 1.6058394160583942e-06, 'epoch': 0.11}
+{'loss': 2.2922, 'grad_norm': 2.3945844173431396, 'learning_rate': 1.624087591240876e-06, 'epoch': 0.12}
+{'loss': 2.3399, 'grad_norm': 2.185126781463623, 'learning_rate': 1.6423357664233577e-06, 'epoch': 0.12}
+{'loss': 2.3547, 'grad_norm': 2.2687461376190186, 'learning_rate': 1.6605839416058394e-06, 'epoch': 0.12}
+{'loss': 2.28, 'grad_norm': 1.920499324798584, 'learning_rate': 1.6788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.3409, 'grad_norm': 2.127774715423584, 'learning_rate': 1.6970802919708029e-06, 'epoch': 0.12}
+{'loss': 2.3406, 'grad_norm': 1.8677122592926025, 'learning_rate': 1.715328467153285e-06, 'epoch': 0.12}
+{'eval_loss': 2.4506173133850098, 'eval_runtime': 37.5008, 'eval_samples_per_second': 26.666, 'eval_steps_per_second': 1.12, 'epoch': 0.12}
+{'loss': 2.3642, 'grad_norm': 1.9803308248519897, 'learning_rate': 1.7335766423357666e-06, 'epoch': 0.12}
+{'loss': 2.3666, 'grad_norm': 1.7733794450759888, 'learning_rate': 1.7518248175182485e-06, 'epoch': 0.12}
+{'loss': 2.3926, 'grad_norm': 1.7639747858047485, 'learning_rate': 1.77007299270073e-06, 'epoch': 0.12}
+{'loss': 2.3431, 'grad_norm': 1.9172815084457397, 'learning_rate': 1.788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.2967, 'grad_norm': 1.580621361732483, 'learning_rate': 1.8065693430656936e-06, 'epoch': 0.13}
+{'loss': 2.331, 'grad_norm': 2.0889124870300293, 'learning_rate': 1.8248175182481753e-06, 'epoch': 0.13}
+{'loss': 2.3181, 'grad_norm': 1.6659903526306152, 'learning_rate': 1.8430656934306571e-06, 'epoch': 0.13}
+{'loss': 2.3237, 'grad_norm': 2.028651237487793, 'learning_rate': 1.8613138686131388e-06, 'epoch': 0.13}
+{'loss': 2.32, 'grad_norm': 1.681212306022644, 'learning_rate': 1.8795620437956206e-06, 'epoch': 0.13}
+{'loss': 2.3425, 'grad_norm': 1.9986696243286133, 'learning_rate': 1.8978102189781023e-06, 'epoch': 0.13}
+{'eval_loss': 2.4408469200134277, 'eval_runtime': 37.7136, 'eval_samples_per_second': 26.516, 'eval_steps_per_second': 1.114, 'epoch': 0.13}
+{'loss': 2.2548, 'grad_norm': 1.832582950592041, 'learning_rate': 1.916058394160584e-06, 'epoch': 0.13}
+{'loss': 2.3024, 'grad_norm': 1.8609144687652588, 'learning_rate': 1.934306569343066e-06, 'epoch': 0.13}
+{'loss': 2.3044, 'grad_norm': 1.8699817657470703, 'learning_rate': 1.952554744525548e-06, 'epoch': 0.13}
+{'loss': 2.3098, 'grad_norm': 1.81354558467865, 'learning_rate': 1.9708029197080293e-06, 'epoch': 0.14}
+{'loss': 2.3623, 'grad_norm': 1.7789452075958252, 'learning_rate': 1.989051094890511e-06, 'epoch': 0.14}
+{'loss': 2.303, 'grad_norm': 1.6322330236434937, 'learning_rate': 2.007299270072993e-06, 'epoch': 0.14}
+{'loss': 2.3183, 'grad_norm': 1.8742916584014893, 'learning_rate': 2.025547445255475e-06, 'epoch': 0.14}
+{'loss': 2.3168, 'grad_norm': 1.7790557146072388, 'learning_rate': 2.0437956204379563e-06, 'epoch': 0.14}
+{'loss': 2.3629, 'grad_norm': 1.7624462842941284, 'learning_rate': 2.062043795620438e-06, 'epoch': 0.14}
+{'loss': 2.2813, 'grad_norm': 1.781114101409912, 'learning_rate': 2.08029197080292e-06, 'epoch': 0.14}
+{'eval_loss': 2.426335334777832, 'eval_runtime': 37.7146, 'eval_samples_per_second': 26.515, 'eval_steps_per_second': 1.114, 'epoch': 0.14}
+{'loss': 2.3396, 'grad_norm': 1.769988775253296, 'learning_rate': 2.0985401459854014e-06, 'epoch': 0.14}
+{'loss': 2.3688, 'grad_norm': 2.0640275478363037, 'learning_rate': 2.1167883211678833e-06, 'epoch': 0.14}
+{'loss': 2.2775, 'grad_norm': 1.7884094715118408, 'learning_rate': 2.135036496350365e-06, 'epoch': 0.15}
+{'loss': 2.2966, 'grad_norm': 1.831847071647644, 'learning_rate': 2.1532846715328466e-06, 'epoch': 0.15}
+{'loss': 2.3359, 'grad_norm': 1.9044525623321533, 'learning_rate': 2.171532846715329e-06, 'epoch': 0.15}
+{'loss': 2.3099, 'grad_norm': 1.9899096488952637, 'learning_rate': 2.1897810218978103e-06, 'epoch': 0.15}
+{'loss': 2.3016, 'grad_norm': 1.8570183515548706, 'learning_rate': 2.208029197080292e-06, 'epoch': 0.15}
+{'loss': 2.335, 'grad_norm': 1.8255733251571655, 'learning_rate': 2.226277372262774e-06, 'epoch': 0.15}
+{'loss': 2.3357, 'grad_norm': 1.8759729862213135, 'learning_rate': 2.244525547445256e-06, 'epoch': 0.15}
+{'loss': 2.3014, 'grad_norm': 1.9031389951705933, 'learning_rate': 2.2627737226277373e-06, 'epoch': 0.15}
+{'eval_loss': 2.4213266372680664, 'eval_runtime': 37.6757, 'eval_samples_per_second': 26.542, 'eval_steps_per_second': 1.115, 'epoch': 0.15}
+{'loss': 2.2946, 'grad_norm': 2.1044118404388428, 'learning_rate': 2.281021897810219e-06, 'epoch': 0.15}
+{'loss': 2.3132, 'grad_norm': 2.005735158920288, 'learning_rate': 2.299270072992701e-06, 'epoch': 0.16}
+{'loss': 2.2816, 'grad_norm': 1.8821312189102173, 'learning_rate': 2.3175182481751825e-06, 'epoch': 0.16}
+{'loss': 2.309, 'grad_norm': 1.7866829633712769, 'learning_rate': 2.3357664233576643e-06, 'epoch': 0.16}
+{'loss': 2.3222, 'grad_norm': 1.8452801704406738, 'learning_rate': 2.354014598540146e-06, 'epoch': 0.16}
+{'loss': 2.2688, 'grad_norm': 1.5781638622283936, 'learning_rate': 2.3722627737226276e-06, 'epoch': 0.16}
+{'loss': 2.2864, 'grad_norm': 1.9746729135513306, 'learning_rate': 2.39051094890511e-06, 'epoch': 0.16}
+{'loss': 2.2914, 'grad_norm': 2.0312447547912598, 'learning_rate': 2.4087591240875918e-06, 'epoch': 0.16}
+{'loss': 2.3441, 'grad_norm': 1.675674557685852, 'learning_rate': 2.427007299270073e-06, 'epoch': 0.16}
+{'loss': 2.2589, 'grad_norm': 1.8987798690795898, 'learning_rate': 2.445255474452555e-06, 'epoch': 0.16}
+{'eval_loss': 2.4149818420410156, 'eval_runtime': 37.6627, 'eval_samples_per_second': 26.551, 'eval_steps_per_second': 1.115, 'epoch': 0.16}
+{'loss': 2.2457, 'grad_norm': 2.041752338409424, 'learning_rate': 2.463503649635037e-06, 'epoch': 0.17}
+{'loss': 2.3376, 'grad_norm': 1.7845569849014282, 'learning_rate': 2.4817518248175183e-06, 'epoch': 0.17}
+{'loss': 2.258, 'grad_norm': 2.489330530166626, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 2.2561, 'grad_norm': 2.3793296813964844, 'learning_rate': 2.518248175182482e-06, 'epoch': 0.17}
+{'loss': 2.2992, 'grad_norm': 2.0474460124969482, 'learning_rate': 2.5364963503649635e-06, 'epoch': 0.17}
+{'loss': 2.3003, 'grad_norm': 2.7181849479675293, 'learning_rate': 2.5547445255474458e-06, 'epoch': 0.17}
+{'loss': 2.2866, 'grad_norm': 2.3854947090148926, 'learning_rate': 2.5729927007299272e-06, 'epoch': 0.17}
+{'loss': 2.3027, 'grad_norm': 1.7228457927703857, 'learning_rate': 2.591240875912409e-06, 'epoch': 0.17}
+{'loss': 2.3233, 'grad_norm': 2.3928253650665283, 'learning_rate': 2.6094890510948905e-06, 'epoch': 0.17}
+{'loss': 2.2949, 'grad_norm': 2.136934757232666, 'learning_rate': 2.627737226277373e-06, 'epoch': 0.18}
+{'eval_loss': 2.410449266433716, 'eval_runtime': 37.6837, 'eval_samples_per_second': 26.537, 'eval_steps_per_second': 1.115, 'epoch': 0.18}
+{'loss': 2.2693, 'grad_norm': 1.8906159400939941, 'learning_rate': 2.6459854014598542e-06, 'epoch': 0.18}
+{'loss': 2.2944, 'grad_norm': 1.8668863773345947, 'learning_rate': 2.664233576642336e-06, 'epoch': 0.18}
+{'loss': 2.2791, 'grad_norm': 2.319363594055176, 'learning_rate': 2.6824817518248175e-06, 'epoch': 0.18}
+{'loss': 2.32, 'grad_norm': 2.0869688987731934, 'learning_rate': 2.7007299270072994e-06, 'epoch': 0.18}
+{'loss': 2.3059, 'grad_norm': 1.8910208940505981, 'learning_rate': 2.718978102189781e-06, 'epoch': 0.18}
+{'loss': 2.2756, 'grad_norm': 2.157984495162964, 'learning_rate': 2.737226277372263e-06, 'epoch': 0.18}
+{'loss': 2.3597, 'grad_norm': 2.387314558029175, 'learning_rate': 2.755474452554745e-06, 'epoch': 0.18}
+{'loss': 2.322, 'grad_norm': 2.183333158493042, 'learning_rate': 2.7737226277372264e-06, 'epoch': 0.18}
+{'loss': 2.2663, 'grad_norm': 2.158015489578247, 'learning_rate': 2.7919708029197082e-06, 'epoch': 0.19}
+{'loss': 2.3, 'grad_norm': 1.9594391584396362, 'learning_rate': 2.81021897810219e-06, 'epoch': 0.19}
+{'eval_loss': 2.411637306213379, 'eval_runtime': 37.6428, 'eval_samples_per_second': 26.565, 'eval_steps_per_second': 1.116, 'epoch': 0.19}
+{'loss': 2.2258, 'grad_norm': 2.28957462310791, 'learning_rate': 2.828467153284672e-06, 'epoch': 0.19}
+{'loss': 2.2739, 'grad_norm': 1.8085683584213257, 'learning_rate': 2.8467153284671534e-06, 'epoch': 0.19}
+{'loss': 2.2398, 'grad_norm': 1.9662787914276123, 'learning_rate': 2.8649635036496353e-06, 'epoch': 0.19}
+{'loss': 2.3216, 'grad_norm': 2.337609052658081, 'learning_rate': 2.8832116788321167e-06, 'epoch': 0.19}
+{'loss': 2.2997, 'grad_norm': 1.6008479595184326, 'learning_rate': 2.901459854014599e-06, 'epoch': 0.19}
+{'loss': 2.2893, 'grad_norm': 2.177690029144287, 'learning_rate': 2.9197080291970804e-06, 'epoch': 0.19}
+{'loss': 2.3303, 'grad_norm': 1.8746743202209473, 'learning_rate': 2.9379562043795623e-06, 'epoch': 0.19}
+{'loss': 2.3007, 'grad_norm': 1.7862998247146606, 'learning_rate': 2.956204379562044e-06, 'epoch': 0.2}
+{'loss': 2.2591, 'grad_norm': 1.7578285932540894, 'learning_rate': 2.9744525547445256e-06, 'epoch': 0.2}
+{'loss': 2.2544, 'grad_norm': 2.1532702445983887, 'learning_rate': 2.992700729927008e-06, 'epoch': 0.2}
+{'eval_loss': 2.3992533683776855, 'eval_runtime': 37.6571, 'eval_samples_per_second': 26.555, 'eval_steps_per_second': 1.115, 'epoch': 0.2}
+{'loss': 2.3108, 'grad_norm': 2.0168659687042236, 'learning_rate': 3.0109489051094893e-06, 'epoch': 0.2}
+{'loss': 2.3044, 'grad_norm': 1.8336135149002075, 'learning_rate': 3.029197080291971e-06, 'epoch': 0.2}
+{'loss': 2.2978, 'grad_norm': 1.6675384044647217, 'learning_rate': 3.0474452554744526e-06, 'epoch': 0.2}
+{'loss': 2.3169, 'grad_norm': 1.8866558074951172, 'learning_rate': 3.065693430656935e-06, 'epoch': 0.2}
+{'loss': 2.3041, 'grad_norm': 2.0588760375976562, 'learning_rate': 3.0839416058394163e-06, 'epoch': 0.2}
+{'loss': 2.2494, 'grad_norm': 1.9300280809402466, 'learning_rate': 3.102189781021898e-06, 'epoch': 0.2}
+{'loss': 2.2339, 'grad_norm': 1.837496042251587, 'learning_rate': 3.1204379562043796e-06, 'epoch': 0.2}
+{'loss': 2.324, 'grad_norm': 2.155080795288086, 'learning_rate': 3.1386861313868614e-06, 'epoch': 0.21}
+{'loss': 2.2937, 'grad_norm': 1.9562510251998901, 'learning_rate': 3.156934306569343e-06, 'epoch': 0.21}
+{'loss': 2.2683, 'grad_norm': 2.522388219833374, 'learning_rate': 3.175182481751825e-06, 'epoch': 0.21}
+{'eval_loss': 2.3936216831207275, 'eval_runtime': 37.6499, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 0.21}
+{'loss': 2.2833, 'grad_norm': 1.7409396171569824, 'learning_rate': 3.193430656934307e-06, 'epoch': 0.21}
+{'loss': 2.2748, 'grad_norm': 2.176687002182007, 'learning_rate': 3.2116788321167884e-06, 'epoch': 0.21}
+{'loss': 2.2144, 'grad_norm': 1.8576542139053345, 'learning_rate': 3.2299270072992707e-06, 'epoch': 0.21}
+{'loss': 2.2898, 'grad_norm': 1.9564870595932007, 'learning_rate': 3.248175182481752e-06, 'epoch': 0.21}
+{'loss': 2.2793, 'grad_norm': 1.896238088607788, 'learning_rate': 3.266423357664234e-06, 'epoch': 0.21}
+{'loss': 2.2869, 'grad_norm': 1.735960841178894, 'learning_rate': 3.2846715328467155e-06, 'epoch': 0.21}
+{'loss': 2.2775, 'grad_norm': 2.018303394317627, 'learning_rate': 3.3029197080291973e-06, 'epoch': 0.22}
+{'loss': 2.2736, 'grad_norm': 1.7448145151138306, 'learning_rate': 3.3211678832116788e-06, 'epoch': 0.22}
+{'loss': 2.2799, 'grad_norm': 1.8245689868927002, 'learning_rate': 3.339416058394161e-06, 'epoch': 0.22}
+{'loss': 2.2823, 'grad_norm': 1.821118950843811, 'learning_rate': 3.3576642335766425e-06, 'epoch': 0.22}
+{'eval_loss': 2.3893656730651855, 'eval_runtime': 37.676, 'eval_samples_per_second': 26.542, 'eval_steps_per_second': 1.115, 'epoch': 0.22}
+{'loss': 2.287, 'grad_norm': 1.9112446308135986, 'learning_rate': 3.3759124087591243e-06, 'epoch': 0.22}
+{'loss': 2.2865, 'grad_norm': 1.6978867053985596, 'learning_rate': 3.3941605839416058e-06, 'epoch': 0.22}
+{'loss': 2.2326, 'grad_norm': 1.9376300573349, 'learning_rate': 3.412408759124088e-06, 'epoch': 0.22}
+{'loss': 2.2739, 'grad_norm': 1.8067563772201538, 'learning_rate': 3.43065693430657e-06, 'epoch': 0.22}
+{'loss': 2.2328, 'grad_norm': 1.8476370573043823, 'learning_rate': 3.4489051094890513e-06, 'epoch': 0.22}
+{'loss': 2.2679, 'grad_norm': 1.927923321723938, 'learning_rate': 3.467153284671533e-06, 'epoch': 0.23}
+{'loss': 2.2607, 'grad_norm': 1.7956453561782837, 'learning_rate': 3.4854014598540146e-06, 'epoch': 0.23}
+{'loss': 2.2854, 'grad_norm': 1.857413649559021, 'learning_rate': 3.503649635036497e-06, 'epoch': 0.23}
+{'loss': 2.3021, 'grad_norm': 1.8384093046188354, 'learning_rate': 3.5218978102189783e-06, 'epoch': 0.23}
+{'loss': 2.3402, 'grad_norm': 1.7346371412277222, 'learning_rate': 3.54014598540146e-06, 'epoch': 0.23}
+{'eval_loss': 2.390045642852783, 'eval_runtime': 37.4358, 'eval_samples_per_second': 26.712, 'eval_steps_per_second': 1.122, 'epoch': 0.23}
+{'loss': 2.3214, 'grad_norm': 1.7546677589416504, 'learning_rate': 3.5583941605839416e-06, 'epoch': 0.23}
+{'loss': 2.2004, 'grad_norm': 1.7437881231307983, 'learning_rate': 3.576642335766424e-06, 'epoch': 0.23}
+{'loss': 2.2044, 'grad_norm': 1.9509227275848389, 'learning_rate': 3.5948905109489054e-06, 'epoch': 0.23}
+{'loss': 2.2369, 'grad_norm': 1.6918139457702637, 'learning_rate': 3.6131386861313872e-06, 'epoch': 0.23}
+{'loss': 2.254, 'grad_norm': 1.9664885997772217, 'learning_rate': 3.6313868613138687e-06, 'epoch': 0.24}
+{'loss': 2.2296, 'grad_norm': 1.7942848205566406, 'learning_rate': 3.6496350364963505e-06, 'epoch': 0.24}
+{'loss': 2.2273, 'grad_norm': 1.8610197305679321, 'learning_rate': 3.667883211678833e-06, 'epoch': 0.24}
+{'loss': 2.3034, 'grad_norm': 1.8405956029891968, 'learning_rate': 3.6861313868613142e-06, 'epoch': 0.24}
+{'loss': 2.2689, 'grad_norm': 1.7151877880096436, 'learning_rate': 3.704379562043796e-06, 'epoch': 0.24}
+{'loss': 2.2363, 'grad_norm': 1.8795795440673828, 'learning_rate': 3.7226277372262775e-06, 'epoch': 0.24}
+{'eval_loss': 2.384481430053711, 'eval_runtime': 37.6512, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 0.24}
+{'loss': 2.257, 'grad_norm': 1.7494690418243408, 'learning_rate': 3.7408759124087594e-06, 'epoch': 0.24}
+{'loss': 2.2457, 'grad_norm': 1.7700639963150024, 'learning_rate': 3.7591240875912412e-06, 'epoch': 0.24}
+{'loss': 2.2425, 'grad_norm': 1.846092700958252, 'learning_rate': 3.777372262773723e-06, 'epoch': 0.24}
+{'loss': 2.2734, 'grad_norm': 1.6699751615524292, 'learning_rate': 3.7956204379562045e-06, 'epoch': 0.25}
+{'loss': 2.2435, 'grad_norm': 1.8978508710861206, 'learning_rate': 3.8138686131386864e-06, 'epoch': 0.25}
+{'loss': 2.2241, 'grad_norm': 1.6387466192245483, 'learning_rate': 3.832116788321168e-06, 'epoch': 0.25}
+{'loss': 2.2468, 'grad_norm': 1.6999541521072388, 'learning_rate': 3.85036496350365e-06, 'epoch': 0.25}
+{'loss': 2.2642, 'grad_norm': 1.6322710514068604, 'learning_rate': 3.868613138686132e-06, 'epoch': 0.25}
+{'loss': 2.2862, 'grad_norm': 1.5633572340011597, 'learning_rate': 3.886861313868613e-06, 'epoch': 0.25}
+{'loss': 2.2414, 'grad_norm': 1.7642648220062256, 'learning_rate': 3.905109489051096e-06, 'epoch': 0.25}
+{'eval_loss': 2.3775289058685303, 'eval_runtime': 37.7434, 'eval_samples_per_second': 26.495, 'eval_steps_per_second': 1.113, 'epoch': 0.25}
+{'loss': 2.2976, 'grad_norm': 1.76724374294281, 'learning_rate': 3.923357664233577e-06, 'epoch': 0.25}
+{'loss': 2.3034, 'grad_norm': 1.6049190759658813, 'learning_rate': 3.9416058394160585e-06, 'epoch': 0.25}
+{'loss': 2.1957, 'grad_norm': 1.6591981649398804, 'learning_rate': 3.95985401459854e-06, 'epoch': 0.26}
+{'loss': 2.275, 'grad_norm': 1.650676965713501, 'learning_rate': 3.978102189781022e-06, 'epoch': 0.26}
+{'loss': 2.1853, 'grad_norm': 1.6665960550308228, 'learning_rate': 3.996350364963504e-06, 'epoch': 0.26}
+{'loss': 2.2399, 'grad_norm': 1.5785901546478271, 'learning_rate': 4.014598540145986e-06, 'epoch': 0.26}
+{'loss': 2.2499, 'grad_norm': 1.976162075996399, 'learning_rate': 4.032846715328467e-06, 'epoch': 0.26}
+{'loss': 2.235, 'grad_norm': 1.642327904701233, 'learning_rate': 4.05109489051095e-06, 'epoch': 0.26}
+{'loss': 2.2466, 'grad_norm': 2.0126261711120605, 'learning_rate': 4.069343065693431e-06, 'epoch': 0.26}
+{'loss': 2.2984, 'grad_norm': 1.6737161874771118, 'learning_rate': 4.0875912408759126e-06, 'epoch': 0.26}
+{'eval_loss': 2.375901222229004, 'eval_runtime': 37.7072, 'eval_samples_per_second': 26.52, 'eval_steps_per_second': 1.114, 'epoch': 0.26}
+{'loss': 2.251, 'grad_norm': 2.094257354736328, 'learning_rate': 4.105839416058395e-06, 'epoch': 0.26}
+{'loss': 2.2366, 'grad_norm': 1.655393123626709, 'learning_rate': 4.124087591240876e-06, 'epoch': 0.27}
+{'loss': 2.2986, 'grad_norm': 2.5909082889556885, 'learning_rate': 4.1423357664233586e-06, 'epoch': 0.27}
+{'loss': 2.1977, 'grad_norm': 1.8278532028198242, 'learning_rate': 4.16058394160584e-06, 'epoch': 0.27}
+{'loss': 2.2578, 'grad_norm': 1.9404895305633545, 'learning_rate': 4.1788321167883214e-06, 'epoch': 0.27}
+{'loss': 2.2263, 'grad_norm': 1.6525582075119019, 'learning_rate': 4.197080291970803e-06, 'epoch': 0.27}
+{'loss': 2.2326, 'grad_norm': 2.021822929382324, 'learning_rate': 4.215328467153285e-06, 'epoch': 0.27}
+{'loss': 2.2457, 'grad_norm': 1.9136033058166504, 'learning_rate': 4.233576642335767e-06, 'epoch': 0.27}
+{'loss': 2.2256, 'grad_norm': 2.389714002609253, 'learning_rate': 4.251824817518249e-06, 'epoch': 0.27}
+{'loss': 2.2222, 'grad_norm': 1.7886695861816406, 'learning_rate': 4.27007299270073e-06, 'epoch': 0.27}
+{'eval_loss': 2.3729844093322754, 'eval_runtime': 37.7638, 'eval_samples_per_second': 26.48, 'eval_steps_per_second': 1.112, 'epoch': 0.27}
+{'loss': 2.2026, 'grad_norm': 1.9499074220657349, 'learning_rate': 4.288321167883212e-06, 'epoch': 0.28}
+{'loss': 2.2564, 'grad_norm': 1.834797978401184, 'learning_rate': 4.306569343065693e-06, 'epoch': 0.28}
+{'loss': 2.2462, 'grad_norm': 2.0415048599243164, 'learning_rate': 4.3248175182481755e-06, 'epoch': 0.28}
+{'loss': 2.2493, 'grad_norm': 1.6527886390686035, 'learning_rate': 4.343065693430658e-06, 'epoch': 0.28}
+{'loss': 2.2734, 'grad_norm': 2.0504889488220215, 'learning_rate': 4.361313868613139e-06, 'epoch': 0.28}
+{'loss': 2.2469, 'grad_norm': 2.004772424697876, 'learning_rate': 4.379562043795621e-06, 'epoch': 0.28}
+{'loss': 2.2479, 'grad_norm': 2.1973347663879395, 'learning_rate': 4.397810218978102e-06, 'epoch': 0.28}
+{'loss': 2.2206, 'grad_norm': 1.8222625255584717, 'learning_rate': 4.416058394160584e-06, 'epoch': 0.28}
+{'loss': 2.261, 'grad_norm': 2.1759912967681885, 'learning_rate': 4.434306569343066e-06, 'epoch': 0.28}
+{'loss': 2.2605, 'grad_norm': 1.8344624042510986, 'learning_rate': 4.452554744525548e-06, 'epoch': 0.28}
+{'eval_loss': 2.3706893920898438, 'eval_runtime': 37.734, 'eval_samples_per_second': 26.501, 'eval_steps_per_second': 1.113, 'epoch': 0.28}
+{'loss': 2.284, 'grad_norm': 1.7783704996109009, 'learning_rate': 4.4708029197080295e-06, 'epoch': 0.29}
+{'loss': 2.2524, 'grad_norm': 2.101193428039551, 'learning_rate': 4.489051094890512e-06, 'epoch': 0.29}
+{'loss': 2.2434, 'grad_norm': 1.7923569679260254, 'learning_rate': 4.507299270072993e-06, 'epoch': 0.29}
+{'loss': 2.2173, 'grad_norm': 2.170883893966675, 'learning_rate': 4.525547445255475e-06, 'epoch': 0.29}
+{'loss': 2.283, 'grad_norm': 1.6749192476272583, 'learning_rate': 4.543795620437956e-06, 'epoch': 0.29}
+{'loss': 2.2931, 'grad_norm': 2.0484230518341064, 'learning_rate': 4.562043795620438e-06, 'epoch': 0.29}
+{'loss': 2.2661, 'grad_norm': 1.9212749004364014, 'learning_rate': 4.580291970802921e-06, 'epoch': 0.29}
+{'loss': 2.2269, 'grad_norm': 1.6729028224945068, 'learning_rate': 4.598540145985402e-06, 'epoch': 0.29}
+{'loss': 2.2278, 'grad_norm': 2.1190619468688965, 'learning_rate': 4.6167883211678835e-06, 'epoch': 0.29}
+{'loss': 2.2634, 'grad_norm': 1.7444697618484497, 'learning_rate': 4.635036496350365e-06, 'epoch': 0.3}
+{'eval_loss': 2.3706092834472656, 'eval_runtime': 37.7391, 'eval_samples_per_second': 26.498, 'eval_steps_per_second': 1.113, 'epoch': 0.3}
+{'loss': 2.2697, 'grad_norm': 1.8921526670455933, 'learning_rate': 4.653284671532847e-06, 'epoch': 0.3}
+{'loss': 2.2406, 'grad_norm': 1.7347339391708374, 'learning_rate': 4.671532846715329e-06, 'epoch': 0.3}
+{'loss': 2.2891, 'grad_norm': 2.1617953777313232, 'learning_rate': 4.689781021897811e-06, 'epoch': 0.3}
+{'loss': 2.2554, 'grad_norm': 1.873384714126587, 'learning_rate': 4.708029197080292e-06, 'epoch': 0.3}
+{'loss': 2.2073, 'grad_norm': 1.801356554031372, 'learning_rate': 4.726277372262774e-06, 'epoch': 0.3}
+{'loss': 2.2501, 'grad_norm': 1.9250633716583252, 'learning_rate': 4.744525547445255e-06, 'epoch': 0.3}
+{'loss': 2.2561, 'grad_norm': 1.8360860347747803, 'learning_rate': 4.7627737226277375e-06, 'epoch': 0.3}
+{'loss': 2.2247, 'grad_norm': 1.8711498975753784, 'learning_rate': 4.78102189781022e-06, 'epoch': 0.3}
+{'loss': 2.2448, 'grad_norm': 1.6604810953140259, 'learning_rate': 4.799270072992701e-06, 'epoch': 0.31}
+{'loss': 2.2494, 'grad_norm': 1.689201831817627, 'learning_rate': 4.8175182481751835e-06, 'epoch': 0.31}
+{'eval_loss': 2.3682427406311035, 'eval_runtime': 37.7233, 'eval_samples_per_second': 26.509, 'eval_steps_per_second': 1.113, 'epoch': 0.31}
+{'loss': 2.2013, 'grad_norm': 1.720961093902588, 'learning_rate': 4.835766423357665e-06, 'epoch': 0.31}
+{'loss': 2.2183, 'grad_norm': 1.7863153219223022, 'learning_rate': 4.854014598540146e-06, 'epoch': 0.31}
+{'loss': 2.2013, 'grad_norm': 1.8583060503005981, 'learning_rate': 4.872262773722628e-06, 'epoch': 0.31}
+{'loss': 2.2399, 'grad_norm': 1.722428560256958, 'learning_rate': 4.89051094890511e-06, 'epoch': 0.31}
+{'loss': 2.2489, 'grad_norm': 1.8408993482589722, 'learning_rate': 4.9087591240875915e-06, 'epoch': 0.31}
+{'loss': 2.2145, 'grad_norm': 1.887604832649231, 'learning_rate': 4.927007299270074e-06, 'epoch': 0.31}
+{'loss': 2.2915, 'grad_norm': 1.7112189531326294, 'learning_rate': 4.945255474452555e-06, 'epoch': 0.31}
+{'loss': 2.2786, 'grad_norm': 1.8314064741134644, 'learning_rate': 4.963503649635037e-06, 'epoch': 0.32}
+{'loss': 2.249, 'grad_norm': 1.7001186609268188, 'learning_rate': 4.981751824817518e-06, 'epoch': 0.32}
+{'loss': 2.254, 'grad_norm': 1.5820505619049072, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'eval_loss': 2.3624653816223145, 'eval_runtime': 37.7283, 'eval_samples_per_second': 26.505, 'eval_steps_per_second': 1.113, 'epoch': 0.32}
+{'loss': 2.1894, 'grad_norm': 1.8516303300857544, 'learning_rate': 4.997969130787978e-06, 'epoch': 0.32}
+{'loss': 2.2537, 'grad_norm': 1.8591808080673218, 'learning_rate': 4.995938261575955e-06, 'epoch': 0.32}
+{'loss': 2.1978, 'grad_norm': 1.6822415590286255, 'learning_rate': 4.993907392363932e-06, 'epoch': 0.32}
+{'loss': 2.2286, 'grad_norm': 2.0779759883880615, 'learning_rate': 4.9918765231519095e-06, 'epoch': 0.32}
+{'loss': 2.2339, 'grad_norm': 1.6937508583068848, 'learning_rate': 4.989845653939887e-06, 'epoch': 0.32}
+{'loss': 2.2145, 'grad_norm': 1.9342437982559204, 'learning_rate': 4.987814784727864e-06, 'epoch': 0.32}
+{'loss': 2.2368, 'grad_norm': 1.773258924484253, 'learning_rate': 4.985783915515841e-06, 'epoch': 0.33}
+{'loss': 2.2224, 'grad_norm': 1.8196488618850708, 'learning_rate': 4.983753046303819e-06, 'epoch': 0.33}
+{'loss': 2.2439, 'grad_norm': 1.6786775588989258, 'learning_rate': 4.981722177091796e-06, 'epoch': 0.33}
+{'loss': 2.236, 'grad_norm': 1.7761427164077759, 'learning_rate': 4.979691307879773e-06, 'epoch': 0.33}
+{'eval_loss': 2.3614282608032227, 'eval_runtime': 37.7314, 'eval_samples_per_second': 26.503, 'eval_steps_per_second': 1.113, 'epoch': 0.33}
+{'loss': 2.2745, 'grad_norm': 1.8389159440994263, 'learning_rate': 4.9776604386677504e-06, 'epoch': 0.33}
+{'loss': 2.2122, 'grad_norm': 1.7774744033813477, 'learning_rate': 4.975629569455728e-06, 'epoch': 0.33}
+{'loss': 2.2097, 'grad_norm': 1.7862017154693604, 'learning_rate': 4.973598700243705e-06, 'epoch': 0.33}
+{'loss': 2.118, 'grad_norm': 1.8851722478866577, 'learning_rate': 4.971567831031681e-06, 'epoch': 0.33}
+{'loss': 2.1884, 'grad_norm': 2.068608045578003, 'learning_rate': 4.9695369618196595e-06, 'epoch': 0.33}
+{'loss': 2.2097, 'grad_norm': 1.8885847330093384, 'learning_rate': 4.967506092607636e-06, 'epoch': 0.34}
+{'loss': 2.2068, 'grad_norm': 1.9441415071487427, 'learning_rate': 4.965475223395614e-06, 'epoch': 0.34}
+{'loss': 2.2355, 'grad_norm': 2.313577890396118, 'learning_rate': 4.9634443541835905e-06, 'epoch': 0.34}
+{'loss': 2.2299, 'grad_norm': 1.8542472124099731, 'learning_rate': 4.961413484971569e-06, 'epoch': 0.34}
+{'loss': 2.2072, 'grad_norm': 1.9382838010787964, 'learning_rate': 4.959382615759545e-06, 'epoch': 0.34}
+{'eval_loss': 2.361767053604126, 'eval_runtime': 37.4603, 'eval_samples_per_second': 26.695, 'eval_steps_per_second': 1.121, 'epoch': 0.34}
+{'loss': 2.3167, 'grad_norm': 2.081242322921753, 'learning_rate': 4.957351746547523e-06, 'epoch': 0.34}
+{'loss': 2.2336, 'grad_norm': 1.9109065532684326, 'learning_rate': 4.9553208773355e-06, 'epoch': 0.34}
+{'loss': 2.184, 'grad_norm': 2.124897003173828, 'learning_rate': 4.953290008123478e-06, 'epoch': 0.34}
+{'loss': 2.2836, 'grad_norm': 1.8820433616638184, 'learning_rate': 4.951259138911454e-06, 'epoch': 0.34}
+{'loss': 2.2221, 'grad_norm': 2.016204595565796, 'learning_rate': 4.9492282696994315e-06, 'epoch': 0.35}
+{'loss': 2.2113, 'grad_norm': 2.0679776668548584, 'learning_rate': 4.947197400487409e-06, 'epoch': 0.35}
+{'loss': 2.2292, 'grad_norm': 1.8040891885757446, 'learning_rate': 4.945166531275386e-06, 'epoch': 0.35}
+{'loss': 2.2657, 'grad_norm': 2.0315871238708496, 'learning_rate': 4.943135662063363e-06, 'epoch': 0.35}
+{'loss': 2.2517, 'grad_norm': 1.71120023727417, 'learning_rate': 4.9411047928513406e-06, 'epoch': 0.35}
+{'loss': 2.2105, 'grad_norm': 2.0443193912506104, 'learning_rate': 4.939073923639318e-06, 'epoch': 0.35}
+{'eval_loss': 2.3582265377044678, 'eval_runtime': 37.6749, 'eval_samples_per_second': 26.543, 'eval_steps_per_second': 1.115, 'epoch': 0.35}
+{'loss': 2.1944, 'grad_norm': 1.9363837242126465, 'learning_rate': 4.937043054427295e-06, 'epoch': 0.35}
+{'loss': 2.2477, 'grad_norm': 2.0878167152404785, 'learning_rate': 4.935012185215272e-06, 'epoch': 0.35}
+{'loss': 2.2278, 'grad_norm': 1.9059010744094849, 'learning_rate': 4.93298131600325e-06, 'epoch': 0.35}
+{'loss': 2.2391, 'grad_norm': 2.220851421356201, 'learning_rate': 4.930950446791227e-06, 'epoch': 0.36}
+{'loss': 2.2206, 'grad_norm': 1.7555570602416992, 'learning_rate': 4.928919577579204e-06, 'epoch': 0.36}
+{'loss': 2.2216, 'grad_norm': 2.1546502113342285, 'learning_rate': 4.9268887083671815e-06, 'epoch': 0.36}
+{'loss': 2.2423, 'grad_norm': 1.9688911437988281, 'learning_rate': 4.924857839155159e-06, 'epoch': 0.36}
+{'loss': 2.1738, 'grad_norm': 1.983587622642517, 'learning_rate': 4.922826969943136e-06, 'epoch': 0.36}
+{'loss': 2.2341, 'grad_norm': 2.1990034580230713, 'learning_rate': 4.920796100731113e-06, 'epoch': 0.36}
+{'loss': 2.1914, 'grad_norm': 1.9690128564834595, 'learning_rate': 4.918765231519091e-06, 'epoch': 0.36}
+{'eval_loss': 2.36171817779541, 'eval_runtime': 37.727, 'eval_samples_per_second': 26.506, 'eval_steps_per_second': 1.113, 'epoch': 0.36}
+{'loss': 2.1921, 'grad_norm': 2.5950212478637695, 'learning_rate': 4.916734362307068e-06, 'epoch': 0.36}
+{'loss': 2.1932, 'grad_norm': 2.023130416870117, 'learning_rate': 4.914703493095045e-06, 'epoch': 0.36}
+{'loss': 2.2174, 'grad_norm': 2.2486252784729004, 'learning_rate': 4.912672623883022e-06, 'epoch': 0.36}
+{'loss': 2.2173, 'grad_norm': 1.723677635192871, 'learning_rate': 4.910641754671e-06, 'epoch': 0.37}
+{'loss': 2.2539, 'grad_norm': 1.94509756565094, 'learning_rate': 4.908610885458977e-06, 'epoch': 0.37}
+{'loss': 2.2345, 'grad_norm': 1.6934322118759155, 'learning_rate': 4.906580016246954e-06, 'epoch': 0.37}
+{'loss': 2.231, 'grad_norm': 1.6882652044296265, 'learning_rate': 4.9045491470349315e-06, 'epoch': 0.37}
+{'loss': 2.2394, 'grad_norm': 1.6730620861053467, 'learning_rate': 4.902518277822909e-06, 'epoch': 0.37}
+{'loss': 2.2524, 'grad_norm': 1.7261624336242676, 'learning_rate': 4.900487408610886e-06, 'epoch': 0.37}
+{'loss': 2.3004, 'grad_norm': 1.8310920000076294, 'learning_rate': 4.898456539398863e-06, 'epoch': 0.37}
+{'eval_loss': 2.3536295890808105, 'eval_runtime': 37.7461, 'eval_samples_per_second': 26.493, 'eval_steps_per_second': 1.113, 'epoch': 0.37}
+{'loss': 2.1923, 'grad_norm': 1.7025809288024902, 'learning_rate': 4.89642567018684e-06, 'epoch': 0.37}
+{'loss': 2.241, 'grad_norm': 1.7285082340240479, 'learning_rate': 4.894394800974818e-06, 'epoch': 0.37}
+{'loss': 2.2019, 'grad_norm': 1.7589807510375977, 'learning_rate': 4.892363931762794e-06, 'epoch': 0.38}
+{'loss': 2.1822, 'grad_norm': 1.6664931774139404, 'learning_rate': 4.8903330625507725e-06, 'epoch': 0.38}
+{'loss': 2.2651, 'grad_norm': 1.8308027982711792, 'learning_rate': 4.888302193338749e-06, 'epoch': 0.38}
+{'loss': 2.2514, 'grad_norm': 1.6426894664764404, 'learning_rate': 4.886271324126727e-06, 'epoch': 0.38}
+{'loss': 2.226, 'grad_norm': 1.9765205383300781, 'learning_rate': 4.8842404549147034e-06, 'epoch': 0.38}
+{'loss': 2.18, 'grad_norm': 1.7872203588485718, 'learning_rate': 4.8822095857026816e-06, 'epoch': 0.38}
+{'loss': 2.2023, 'grad_norm': 2.0645813941955566, 'learning_rate': 4.880178716490658e-06, 'epoch': 0.38}
+{'loss': 2.1801, 'grad_norm': 1.9823166131973267, 'learning_rate': 4.878147847278636e-06, 'epoch': 0.38}
+{'eval_loss': 2.353776454925537, 'eval_runtime': 37.771, 'eval_samples_per_second': 26.475, 'eval_steps_per_second': 1.112, 'epoch': 0.38}
+{'loss': 2.1858, 'grad_norm': 1.831152319908142, 'learning_rate': 4.8761169780666125e-06, 'epoch': 0.38}
+{'loss': 2.1638, 'grad_norm': 1.9321790933609009, 'learning_rate': 4.874086108854591e-06, 'epoch': 0.39}
+{'loss': 2.2206, 'grad_norm': 1.9097596406936646, 'learning_rate': 4.872055239642567e-06, 'epoch': 0.39}
+{'loss': 2.2338, 'grad_norm': 1.8821815252304077, 'learning_rate': 4.870024370430544e-06, 'epoch': 0.39}
+{'loss': 2.1882, 'grad_norm': 1.7959749698638916, 'learning_rate': 4.867993501218522e-06, 'epoch': 0.39}
+{'loss': 2.2137, 'grad_norm': 1.625320315361023, 'learning_rate': 4.865962632006499e-06, 'epoch': 0.39}
+{'loss': 2.2374, 'grad_norm': 1.6914536952972412, 'learning_rate': 4.863931762794476e-06, 'epoch': 0.39}
+{'loss': 2.2517, 'grad_norm': 2.0801584720611572, 'learning_rate': 4.8619008935824535e-06, 'epoch': 0.39}
+{'loss': 2.2621, 'grad_norm': 1.6874804496765137, 'learning_rate': 4.859870024370431e-06, 'epoch': 0.39}
+{'loss': 2.2326, 'grad_norm': 1.9347832202911377, 'learning_rate': 4.857839155158408e-06, 'epoch': 0.39}
+{'eval_loss': 2.3468236923217773, 'eval_runtime': 37.7184, 'eval_samples_per_second': 26.512, 'eval_steps_per_second': 1.114, 'epoch': 0.39}
+{'loss': 2.2222, 'grad_norm': 1.6798334121704102, 'learning_rate': 4.855808285946385e-06, 'epoch': 0.4}
+{'loss': 2.2178, 'grad_norm': 1.8993884325027466, 'learning_rate': 4.8537774167343626e-06, 'epoch': 0.4}
+{'loss': 2.2217, 'grad_norm': 1.697892189025879, 'learning_rate': 4.85174654752234e-06, 'epoch': 0.4}
+{'loss': 2.2069, 'grad_norm': 1.8484156131744385, 'learning_rate': 4.849715678310317e-06, 'epoch': 0.4}
+{'loss': 2.2285, 'grad_norm': 1.8125075101852417, 'learning_rate': 4.847684809098294e-06, 'epoch': 0.4}
+{'loss': 2.2029, 'grad_norm': 1.8215030431747437, 'learning_rate': 4.845653939886272e-06, 'epoch': 0.4}
+{'loss': 2.2512, 'grad_norm': 1.777129054069519, 'learning_rate': 4.843623070674249e-06, 'epoch': 0.4}
+{'loss': 2.1767, 'grad_norm': 1.7327351570129395, 'learning_rate': 4.841592201462226e-06, 'epoch': 0.4}
+{'loss': 2.2174, 'grad_norm': 1.7363202571868896, 'learning_rate': 4.8395613322502035e-06, 'epoch': 0.4}
+{'loss': 2.2383, 'grad_norm': 1.9183942079544067, 'learning_rate': 4.837530463038181e-06, 'epoch': 0.41}
+{'eval_loss': 2.345961332321167, 'eval_runtime': 37.722, 'eval_samples_per_second': 26.51, 'eval_steps_per_second': 1.113, 'epoch': 0.41}
+{'loss': 2.22, 'grad_norm': 1.7290767431259155, 'learning_rate': 4.835499593826158e-06, 'epoch': 0.41}
+{'loss': 2.1403, 'grad_norm': 1.7892694473266602, 'learning_rate': 4.833468724614135e-06, 'epoch': 0.41}
+{'loss': 2.1989, 'grad_norm': 1.6671900749206543, 'learning_rate': 4.831437855402113e-06, 'epoch': 0.41}
+{'loss': 2.245, 'grad_norm': 1.848751425743103, 'learning_rate': 4.82940698619009e-06, 'epoch': 0.41}
+{'loss': 2.2239, 'grad_norm': 1.6957710981369019, 'learning_rate': 4.827376116978067e-06, 'epoch': 0.41}
+{'loss': 2.2101, 'grad_norm': 1.650583267211914, 'learning_rate': 4.8253452477660444e-06, 'epoch': 0.41}
+{'loss': 2.204, 'grad_norm': 1.6510974168777466, 'learning_rate': 4.823314378554022e-06, 'epoch': 0.41}
+{'loss': 2.221, 'grad_norm': 1.9469026327133179, 'learning_rate': 4.821283509341998e-06, 'epoch': 0.41}
+{'loss': 2.1926, 'grad_norm': 1.6031194925308228, 'learning_rate': 4.819252640129976e-06, 'epoch': 0.42}
+{'loss': 2.2166, 'grad_norm': 2.120325803756714, 'learning_rate': 4.817221770917953e-06, 'epoch': 0.42}
+{'eval_loss': 2.3419017791748047, 'eval_runtime': 37.6854, 'eval_samples_per_second': 26.535, 'eval_steps_per_second': 1.114, 'epoch': 0.42}
+{'loss': 2.1981, 'grad_norm': 1.5533722639083862, 'learning_rate': 4.815190901705931e-06, 'epoch': 0.42}
+{'loss': 2.2319, 'grad_norm': 1.9650007486343384, 'learning_rate': 4.813160032493907e-06, 'epoch': 0.42}
+{'loss': 2.2263, 'grad_norm': 1.6874849796295166, 'learning_rate': 4.811129163281885e-06, 'epoch': 0.42}
+{'loss': 2.2546, 'grad_norm': 1.787996768951416, 'learning_rate': 4.809098294069862e-06, 'epoch': 0.42}
+{'loss': 2.1994, 'grad_norm': 1.7853440046310425, 'learning_rate': 4.80706742485784e-06, 'epoch': 0.42}
+{'loss': 2.2449, 'grad_norm': 1.7882641553878784, 'learning_rate': 4.805036555645816e-06, 'epoch': 0.42}
+{'loss': 2.2144, 'grad_norm': 1.8206003904342651, 'learning_rate': 4.8030056864337945e-06, 'epoch': 0.42}
+{'loss': 2.2122, 'grad_norm': 1.7012749910354614, 'learning_rate': 4.800974817221771e-06, 'epoch': 0.43}
+{'loss': 2.2132, 'grad_norm': 1.8711670637130737, 'learning_rate': 4.798943948009749e-06, 'epoch': 0.43}
+{'loss': 2.2336, 'grad_norm': 1.6880611181259155, 'learning_rate': 4.7969130787977254e-06, 'epoch': 0.43}
+{'eval_loss': 2.340393543243408, 'eval_runtime': 37.6885, 'eval_samples_per_second': 26.533, 'eval_steps_per_second': 1.114, 'epoch': 0.43}
+{'loss': 2.1899, 'grad_norm': 2.0543065071105957, 'learning_rate': 4.794882209585703e-06, 'epoch': 0.43}
+{'loss': 2.1982, 'grad_norm': 1.5774480104446411, 'learning_rate': 4.79285134037368e-06, 'epoch': 0.43}
+{'loss': 2.2096, 'grad_norm': 1.7154620885849, 'learning_rate': 4.790820471161657e-06, 'epoch': 0.43}
+{'loss': 2.2391, 'grad_norm': 1.8200151920318604, 'learning_rate': 4.7887896019496345e-06, 'epoch': 0.43}
+{'loss': 2.1855, 'grad_norm': 1.6368298530578613, 'learning_rate': 4.786758732737612e-06, 'epoch': 0.43}
+{'loss': 2.2114, 'grad_norm': 1.6851340532302856, 'learning_rate': 4.784727863525589e-06, 'epoch': 0.43}
+{'loss': 2.1636, 'grad_norm': 1.8293818235397339, 'learning_rate': 4.782696994313566e-06, 'epoch': 0.44}
+{'loss': 2.1884, 'grad_norm': 1.6213513612747192, 'learning_rate': 4.780666125101544e-06, 'epoch': 0.44}
+{'loss': 2.1977, 'grad_norm': 1.7791825532913208, 'learning_rate': 4.778635255889521e-06, 'epoch': 0.44}
+{'loss': 2.2444, 'grad_norm': 1.6627994775772095, 'learning_rate': 4.776604386677498e-06, 'epoch': 0.44}
+{'eval_loss': 2.3396637439727783, 'eval_runtime': 37.7069, 'eval_samples_per_second': 26.52, 'eval_steps_per_second': 1.114, 'epoch': 0.44}
+{'loss': 2.2369, 'grad_norm': 1.7597277164459229, 'learning_rate': 4.7745735174654755e-06, 'epoch': 0.44}
+{'loss': 2.1859, 'grad_norm': 1.7754322290420532, 'learning_rate': 4.772542648253453e-06, 'epoch': 0.44}
+{'loss': 2.2245, 'grad_norm': 1.7897601127624512, 'learning_rate': 4.77051177904143e-06, 'epoch': 0.44}
+{'loss': 2.1998, 'grad_norm': 1.7294282913208008, 'learning_rate': 4.768480909829407e-06, 'epoch': 0.44}
+{'loss': 2.2353, 'grad_norm': 1.8406974077224731, 'learning_rate': 4.766450040617385e-06, 'epoch': 0.44}
+{'loss': 2.2165, 'grad_norm': 1.849493384361267, 'learning_rate': 4.764419171405362e-06, 'epoch': 0.44}
+{'loss': 2.1989, 'grad_norm': 1.5568877458572388, 'learning_rate': 4.762388302193339e-06, 'epoch': 0.45}
+{'loss': 2.2062, 'grad_norm': 1.8816689252853394, 'learning_rate': 4.760357432981316e-06, 'epoch': 0.45}
+{'loss': 2.2204, 'grad_norm': 1.7648332118988037, 'learning_rate': 4.758326563769294e-06, 'epoch': 0.45}
+{'loss': 2.1748, 'grad_norm': 1.753944754600525, 'learning_rate': 4.756295694557271e-06, 'epoch': 0.45}
+{'eval_loss': 2.339653253555298, 'eval_runtime': 37.4438, 'eval_samples_per_second': 26.707, 'eval_steps_per_second': 1.122, 'epoch': 0.45}
+{'loss': 2.1843, 'grad_norm': 1.7343329191207886, 'learning_rate': 4.754264825345248e-06, 'epoch': 0.45}
+{'loss': 2.1492, 'grad_norm': 1.8125407695770264, 'learning_rate': 4.7522339561332255e-06, 'epoch': 0.45}
+{'loss': 2.2178, 'grad_norm': 1.5255184173583984, 'learning_rate': 4.750203086921203e-06, 'epoch': 0.45}
+{'loss': 2.2516, 'grad_norm': 1.6692545413970947, 'learning_rate': 4.74817221770918e-06, 'epoch': 0.45}
+{'loss': 2.1592, 'grad_norm': 1.7804819345474243, 'learning_rate': 4.7461413484971565e-06, 'epoch': 0.45}
+{'loss': 2.1869, 'grad_norm': 1.8048933744430542, 'learning_rate': 4.744110479285135e-06, 'epoch': 0.46}
+{'loss': 2.1995, 'grad_norm': 1.6439207792282104, 'learning_rate': 4.742079610073111e-06, 'epoch': 0.46}
+{'loss': 2.2067, 'grad_norm': 1.7375173568725586, 'learning_rate': 4.740048740861089e-06, 'epoch': 0.46}
+{'loss': 2.2513, 'grad_norm': 1.9471659660339355, 'learning_rate': 4.738017871649066e-06, 'epoch': 0.46}
+{'loss': 2.2643, 'grad_norm': 1.6524564027786255, 'learning_rate': 4.735987002437044e-06, 'epoch': 0.46}
+{'eval_loss': 2.337153434753418, 'eval_runtime': 37.6888, 'eval_samples_per_second': 26.533, 'eval_steps_per_second': 1.114, 'epoch': 0.46}
+{'loss': 2.2373, 'grad_norm': 1.8574563264846802, 'learning_rate': 4.73395613322502e-06, 'epoch': 0.46}
+{'loss': 2.1769, 'grad_norm': 1.836464524269104, 'learning_rate': 4.731925264012998e-06, 'epoch': 0.46}
+{'loss': 2.1494, 'grad_norm': 1.7012423276901245, 'learning_rate': 4.729894394800975e-06, 'epoch': 0.46}
+{'loss': 2.186, 'grad_norm': 1.953180193901062, 'learning_rate': 4.727863525588953e-06, 'epoch': 0.46}
+{'loss': 2.2279, 'grad_norm': 1.8468470573425293, 'learning_rate': 4.725832656376929e-06, 'epoch': 0.47}
+{'loss': 2.1798, 'grad_norm': 2.005077362060547, 'learning_rate': 4.723801787164907e-06, 'epoch': 0.47}
+{'loss': 2.1916, 'grad_norm': 1.8246952295303345, 'learning_rate': 4.721770917952885e-06, 'epoch': 0.47}
+{'loss': 2.2237, 'grad_norm': 1.8558839559555054, 'learning_rate': 4.719740048740861e-06, 'epoch': 0.47}
+{'loss': 2.2179, 'grad_norm': 1.7670999765396118, 'learning_rate': 4.717709179528839e-06, 'epoch': 0.47}
+{'loss': 2.1811, 'grad_norm': 1.8544219732284546, 'learning_rate': 4.715678310316816e-06, 'epoch': 0.47}
+{'eval_loss': 2.333791732788086, 'eval_runtime': 37.7254, 'eval_samples_per_second': 26.507, 'eval_steps_per_second': 1.113, 'epoch': 0.47}
+{'loss': 2.1749, 'grad_norm': 1.5792925357818604, 'learning_rate': 4.713647441104794e-06, 'epoch': 0.47}
+{'loss': 2.2294, 'grad_norm': 1.5678222179412842, 'learning_rate': 4.71161657189277e-06, 'epoch': 0.47}
+{'loss': 2.2684, 'grad_norm': 1.9467812776565552, 'learning_rate': 4.709585702680748e-06, 'epoch': 0.47}
+{'loss': 2.1722, 'grad_norm': 1.6647964715957642, 'learning_rate': 4.707554833468725e-06, 'epoch': 0.48}
+{'loss': 2.1915, 'grad_norm': 1.7037622928619385, 'learning_rate': 4.705523964256703e-06, 'epoch': 0.48}
+{'loss': 2.1466, 'grad_norm': 1.5857148170471191, 'learning_rate': 4.703493095044679e-06, 'epoch': 0.48}
+{'loss': 2.2472, 'grad_norm': 1.5792173147201538, 'learning_rate': 4.701462225832657e-06, 'epoch': 0.48}
+{'loss': 2.2129, 'grad_norm': 1.5998480319976807, 'learning_rate': 4.699431356620634e-06, 'epoch': 0.48}
+{'loss': 2.2057, 'grad_norm': 1.6728194952011108, 'learning_rate': 4.697400487408612e-06, 'epoch': 0.48}
+{'loss': 2.1903, 'grad_norm': 1.5402852296829224, 'learning_rate': 4.695369618196588e-06, 'epoch': 0.48}
+{'eval_loss': 2.3325934410095215, 'eval_runtime': 37.7463, 'eval_samples_per_second': 26.493, 'eval_steps_per_second': 1.113, 'epoch': 0.48}
+{'loss': 2.1584, 'grad_norm': 1.5890164375305176, 'learning_rate': 4.693338748984566e-06, 'epoch': 0.48}
+{'loss': 2.2263, 'grad_norm': 1.805923581123352, 'learning_rate': 4.691307879772543e-06, 'epoch': 0.48}
+{'loss': 2.2109, 'grad_norm': 1.5932700634002686, 'learning_rate': 4.68927701056052e-06, 'epoch': 0.49}
+{'loss': 2.192, 'grad_norm': 1.5611685514450073, 'learning_rate': 4.6872461413484975e-06, 'epoch': 0.49}
+{'loss': 2.1998, 'grad_norm': 1.6976194381713867, 'learning_rate': 4.685215272136475e-06, 'epoch': 0.49}
+{'loss': 2.2599, 'grad_norm': 1.7149630784988403, 'learning_rate': 4.683184402924452e-06, 'epoch': 0.49}
+{'loss': 2.1765, 'grad_norm': 1.7597423791885376, 'learning_rate': 4.681153533712429e-06, 'epoch': 0.49}
+{'loss': 2.1635, 'grad_norm': 1.539652943611145, 'learning_rate': 4.679122664500407e-06, 'epoch': 0.49}
+{'loss': 2.2417, 'grad_norm': 1.690402865409851, 'learning_rate': 4.677091795288384e-06, 'epoch': 0.49}
+{'loss': 2.166, 'grad_norm': 1.7267673015594482, 'learning_rate': 4.675060926076361e-06, 'epoch': 0.49}
+{'eval_loss': 2.331728935241699, 'eval_runtime': 37.7133, 'eval_samples_per_second': 26.516, 'eval_steps_per_second': 1.114, 'epoch': 0.49}
+{'loss': 2.1624, 'grad_norm': 1.6383073329925537, 'learning_rate': 4.673030056864338e-06, 'epoch': 0.49}
+{'loss': 2.1696, 'grad_norm': 1.5364140272140503, 'learning_rate': 4.670999187652316e-06, 'epoch': 0.5}
+{'loss': 2.2306, 'grad_norm': 1.591477870941162, 'learning_rate': 4.668968318440293e-06, 'epoch': 0.5}
+{'loss': 2.1449, 'grad_norm': 1.8121449947357178, 'learning_rate': 4.66693744922827e-06, 'epoch': 0.5}
+{'loss': 2.2108, 'grad_norm': 1.515539288520813, 'learning_rate': 4.6649065800162475e-06, 'epoch': 0.5}
+{'loss': 2.1398, 'grad_norm': 1.6521453857421875, 'learning_rate': 4.662875710804225e-06, 'epoch': 0.5}
+{'loss': 2.2342, 'grad_norm': 1.7074251174926758, 'learning_rate': 4.660844841592202e-06, 'epoch': 0.5}
+{'loss': 2.1287, 'grad_norm': 1.7688119411468506, 'learning_rate': 4.658813972380179e-06, 'epoch': 0.5}
+{'loss': 2.2143, 'grad_norm': 1.7170679569244385, 'learning_rate': 4.656783103168157e-06, 'epoch': 0.5}
+{'loss': 2.1855, 'grad_norm': 1.7401350736618042, 'learning_rate': 4.654752233956134e-06, 'epoch': 0.5}
+{'eval_loss': 2.335416555404663, 'eval_runtime': 37.7115, 'eval_samples_per_second': 26.517, 'eval_steps_per_second': 1.114, 'epoch': 0.5}
+{'loss': 2.2205, 'grad_norm': 1.6344956159591675, 'learning_rate': 4.652721364744111e-06, 'epoch': 0.51}
+{'loss': 2.2271, 'grad_norm': 1.629184603691101, 'learning_rate': 4.6506904955320885e-06, 'epoch': 0.51}
+{'loss': 2.1945, 'grad_norm': 1.769491195678711, 'learning_rate': 4.648659626320066e-06, 'epoch': 0.51}
+{'loss': 2.1705, 'grad_norm': 1.6513251066207886, 'learning_rate': 4.646628757108043e-06, 'epoch': 0.51}
+{'loss': 2.1968, 'grad_norm': 1.9357609748840332, 'learning_rate': 4.6445978878960194e-06, 'epoch': 0.51}
+{'loss': 2.2229, 'grad_norm': 1.75972318649292, 'learning_rate': 4.6425670186839976e-06, 'epoch': 0.51}
+{'loss': 2.2361, 'grad_norm': 1.686574935913086, 'learning_rate': 4.640536149471974e-06, 'epoch': 0.51}
+{'loss': 2.2064, 'grad_norm': 1.655661702156067, 'learning_rate': 4.638505280259952e-06, 'epoch': 0.51}
+{'loss': 2.2352, 'grad_norm': 1.7583094835281372, 'learning_rate': 4.6364744110479285e-06, 'epoch': 0.51}
+{'loss': 2.187, 'grad_norm': 1.5906383991241455, 'learning_rate': 4.634443541835907e-06, 'epoch': 0.52}
+{'eval_loss': 2.332923412322998, 'eval_runtime': 37.7496, 'eval_samples_per_second': 26.49, 'eval_steps_per_second': 1.113, 'epoch': 0.52}
+{'loss': 2.1032, 'grad_norm': 1.708019733428955, 'learning_rate': 4.632412672623883e-06, 'epoch': 0.52}
+{'loss': 2.1976, 'grad_norm': 1.6350252628326416, 'learning_rate': 4.630381803411861e-06, 'epoch': 0.52}
+{'loss': 2.224, 'grad_norm': 1.9037389755249023, 'learning_rate': 4.628350934199838e-06, 'epoch': 0.52}
+{'loss': 2.1925, 'grad_norm': 1.7126816511154175, 'learning_rate': 4.626320064987816e-06, 'epoch': 0.52}
+{'loss': 2.1928, 'grad_norm': 1.5828406810760498, 'learning_rate': 4.624289195775792e-06, 'epoch': 0.52}
+{'loss': 2.1902, 'grad_norm': 1.6797102689743042, 'learning_rate': 4.62225832656377e-06, 'epoch': 0.52}
+{'loss': 2.2024, 'grad_norm': 1.6871609687805176, 'learning_rate': 4.620227457351747e-06, 'epoch': 0.52}
+{'loss': 2.1778, 'grad_norm': 1.8785804510116577, 'learning_rate': 4.618196588139724e-06, 'epoch': 0.52}
+{'loss': 2.2438, 'grad_norm': 1.6175488233566284, 'learning_rate': 4.616165718927701e-06, 'epoch': 0.52}
+{'loss': 2.2272, 'grad_norm': 1.7724019289016724, 'learning_rate': 4.6141348497156786e-06, 'epoch': 0.53}
+{'eval_loss': 2.328923225402832, 'eval_runtime': 37.7443, 'eval_samples_per_second': 26.494, 'eval_steps_per_second': 1.113, 'epoch': 0.53}
+{'loss': 2.2021, 'grad_norm': 1.7230926752090454, 'learning_rate': 4.612103980503656e-06, 'epoch': 0.53}
+{'loss': 2.1854, 'grad_norm': 1.7899917364120483, 'learning_rate': 4.610073111291633e-06, 'epoch': 0.53}
+{'loss': 2.2042, 'grad_norm': 1.5864417552947998, 'learning_rate': 4.60804224207961e-06, 'epoch': 0.53}
+{'loss': 2.1844, 'grad_norm': 1.875375509262085, 'learning_rate': 4.606011372867588e-06, 'epoch': 0.53}
+{'loss': 2.1474, 'grad_norm': 1.830597162246704, 'learning_rate': 4.603980503655565e-06, 'epoch': 0.53}
+{'loss': 2.158, 'grad_norm': 1.8624461889266968, 'learning_rate': 4.601949634443542e-06, 'epoch': 0.53}
+{'loss': 2.1838, 'grad_norm': 1.7161756753921509, 'learning_rate': 4.5999187652315195e-06, 'epoch': 0.53}
+{'loss': 2.1911, 'grad_norm': 1.6212890148162842, 'learning_rate': 4.597887896019497e-06, 'epoch': 0.53}
+{'loss': 2.1794, 'grad_norm': 1.8586416244506836, 'learning_rate': 4.595857026807474e-06, 'epoch': 0.54}
+{'loss': 2.2428, 'grad_norm': 1.653976559638977, 'learning_rate': 4.593826157595451e-06, 'epoch': 0.54}
+{'eval_loss': 2.3279106616973877, 'eval_runtime': 37.739, 'eval_samples_per_second': 26.498, 'eval_steps_per_second': 1.113, 'epoch': 0.54}
+{'loss': 2.2003, 'grad_norm': 2.054537057876587, 'learning_rate': 4.591795288383429e-06, 'epoch': 0.54}
+{'loss': 2.1816, 'grad_norm': 1.730942964553833, 'learning_rate': 4.589764419171406e-06, 'epoch': 0.54}
+{'loss': 2.1615, 'grad_norm': 1.7264728546142578, 'learning_rate': 4.587733549959383e-06, 'epoch': 0.54}
+{'loss': 2.1442, 'grad_norm': 1.8276281356811523, 'learning_rate': 4.5857026807473604e-06, 'epoch': 0.54}
+{'loss': 2.2192, 'grad_norm': 1.9947556257247925, 'learning_rate': 4.583671811535338e-06, 'epoch': 0.54}
+{'loss': 2.233, 'grad_norm': 1.770601511001587, 'learning_rate': 4.581640942323315e-06, 'epoch': 0.54}
+{'loss': 2.2249, 'grad_norm': 1.8946491479873657, 'learning_rate': 4.579610073111292e-06, 'epoch': 0.54}
+{'loss': 2.2469, 'grad_norm': 1.7839634418487549, 'learning_rate': 4.5775792038992695e-06, 'epoch': 0.55}
+{'loss': 2.1723, 'grad_norm': 1.6298807859420776, 'learning_rate': 4.575548334687247e-06, 'epoch': 0.55}
+{'loss': 2.2156, 'grad_norm': 1.9310041666030884, 'learning_rate': 4.573517465475224e-06, 'epoch': 0.55}
+{'eval_loss': 2.3249237537384033, 'eval_runtime': 37.7505, 'eval_samples_per_second': 26.49, 'eval_steps_per_second': 1.113, 'epoch': 0.55}
+{'loss': 2.2169, 'grad_norm': 1.7901647090911865, 'learning_rate': 4.571486596263201e-06, 'epoch': 0.55}
+{'loss': 2.2005, 'grad_norm': 1.7739574909210205, 'learning_rate': 4.569455727051178e-06, 'epoch': 0.55}
+{'loss': 2.2369, 'grad_norm': 1.7310121059417725, 'learning_rate': 4.567424857839156e-06, 'epoch': 0.55}
+{'loss': 2.2051, 'grad_norm': 2.004469156265259, 'learning_rate': 4.565393988627132e-06, 'epoch': 0.55}
+{'loss': 2.1908, 'grad_norm': 1.7906666994094849, 'learning_rate': 4.5633631194151105e-06, 'epoch': 0.55}
+{'loss': 2.1529, 'grad_norm': 1.7224774360656738, 'learning_rate': 4.561332250203087e-06, 'epoch': 0.55}
+{'loss': 2.1776, 'grad_norm': 1.9950156211853027, 'learning_rate': 4.559301380991065e-06, 'epoch': 0.56}
+{'loss': 2.2267, 'grad_norm': 1.8257590532302856, 'learning_rate': 4.5572705117790414e-06, 'epoch': 0.56}
+{'loss': 2.1703, 'grad_norm': 2.038490056991577, 'learning_rate': 4.5552396425670196e-06, 'epoch': 0.56}
+{'loss': 2.2409, 'grad_norm': 1.7314448356628418, 'learning_rate': 4.553208773354996e-06, 'epoch': 0.56}
+{'eval_loss': 2.327078104019165, 'eval_runtime': 37.4614, 'eval_samples_per_second': 26.694, 'eval_steps_per_second': 1.121, 'epoch': 0.56}
+{'loss': 2.1732, 'grad_norm': 2.0013606548309326, 'learning_rate': 4.551177904142974e-06, 'epoch': 0.56}
+{'loss': 2.2027, 'grad_norm': 1.7352690696716309, 'learning_rate': 4.5491470349309505e-06, 'epoch': 0.56}
+{'loss': 2.1806, 'grad_norm': 1.9024865627288818, 'learning_rate': 4.547116165718929e-06, 'epoch': 0.56}
+{'loss': 2.1664, 'grad_norm': 1.8870717287063599, 'learning_rate': 4.545085296506905e-06, 'epoch': 0.56}
+{'loss': 2.166, 'grad_norm': 1.781226634979248, 'learning_rate': 4.543054427294882e-06, 'epoch': 0.56}
+{'loss': 2.1951, 'grad_norm': 1.8994221687316895, 'learning_rate': 4.54102355808286e-06, 'epoch': 0.57}
+{'loss': 2.1786, 'grad_norm': 1.6999517679214478, 'learning_rate': 4.538992688870837e-06, 'epoch': 0.57}
+{'loss': 2.2051, 'grad_norm': 1.899590253829956, 'learning_rate': 4.536961819658814e-06, 'epoch': 0.57}
+{'loss': 2.1675, 'grad_norm': 1.8054970502853394, 'learning_rate': 4.5349309504467915e-06, 'epoch': 0.57}
+{'loss': 2.1997, 'grad_norm': 1.6732861995697021, 'learning_rate': 4.532900081234769e-06, 'epoch': 0.57}
+{'eval_loss': 2.3242335319519043, 'eval_runtime': 37.6748, 'eval_samples_per_second': 26.543, 'eval_steps_per_second': 1.115, 'epoch': 0.57}
+{'loss': 2.1909, 'grad_norm': 2.0063157081604004, 'learning_rate': 4.530869212022746e-06, 'epoch': 0.57}
+{'loss': 2.1935, 'grad_norm': 1.7750036716461182, 'learning_rate': 4.528838342810723e-06, 'epoch': 0.57}
+{'loss': 2.1753, 'grad_norm': 1.9993029832839966, 'learning_rate': 4.526807473598701e-06, 'epoch': 0.57}
+{'loss': 2.2205, 'grad_norm': 1.6742994785308838, 'learning_rate': 4.524776604386678e-06, 'epoch': 0.57}
+{'loss': 2.2081, 'grad_norm': 1.9300428628921509, 'learning_rate': 4.522745735174655e-06, 'epoch': 0.58}
+{'loss': 2.2074, 'grad_norm': 1.8770017623901367, 'learning_rate': 4.520714865962632e-06, 'epoch': 0.58}
+{'loss': 2.1775, 'grad_norm': 1.847765326499939, 'learning_rate': 4.51868399675061e-06, 'epoch': 0.58}
+{'loss': 2.1511, 'grad_norm': 1.905117392539978, 'learning_rate': 4.516653127538587e-06, 'epoch': 0.58}
+{'loss': 2.188, 'grad_norm': 1.7623670101165771, 'learning_rate': 4.514622258326564e-06, 'epoch': 0.58}
+{'loss': 2.2109, 'grad_norm': 1.9232176542282104, 'learning_rate': 4.5125913891145415e-06, 'epoch': 0.58}
+{'eval_loss': 2.3252475261688232, 'eval_runtime': 37.6923, 'eval_samples_per_second': 26.531, 'eval_steps_per_second': 1.114, 'epoch': 0.58}
+{'loss': 2.1499, 'grad_norm': 1.6523535251617432, 'learning_rate': 4.510560519902519e-06, 'epoch': 0.58}
+{'loss': 2.1383, 'grad_norm': 1.9934184551239014, 'learning_rate': 4.508529650690496e-06, 'epoch': 0.58}
+{'loss': 2.1892, 'grad_norm': 1.704522728919983, 'learning_rate': 4.506498781478473e-06, 'epoch': 0.58}
+{'loss': 2.2422, 'grad_norm': 1.9909989833831787, 'learning_rate': 4.504467912266451e-06, 'epoch': 0.59}
+{'loss': 2.2008, 'grad_norm': 1.7490800619125366, 'learning_rate': 4.502437043054428e-06, 'epoch': 0.59}
+{'loss': 2.1892, 'grad_norm': 1.8620145320892334, 'learning_rate': 4.500406173842405e-06, 'epoch': 0.59}
+{'loss': 2.1816, 'grad_norm': 1.7069931030273438, 'learning_rate': 4.4983753046303824e-06, 'epoch': 0.59}
+{'loss': 2.2331, 'grad_norm': 2.152491807937622, 'learning_rate': 4.49634443541836e-06, 'epoch': 0.59}
+{'loss': 2.1811, 'grad_norm': 1.8526151180267334, 'learning_rate': 4.494313566206336e-06, 'epoch': 0.59}
+{'loss': 2.1599, 'grad_norm': 1.6865259408950806, 'learning_rate': 4.492282696994314e-06, 'epoch': 0.59}
+{'eval_loss': 2.3265392780303955, 'eval_runtime': 37.7255, 'eval_samples_per_second': 26.507, 'eval_steps_per_second': 1.113, 'epoch': 0.59}
+{'loss': 2.1636, 'grad_norm': 1.7710354328155518, 'learning_rate': 4.490251827782291e-06, 'epoch': 0.59}
+{'loss': 2.1345, 'grad_norm': 1.8444210290908813, 'learning_rate': 4.488220958570269e-06, 'epoch': 0.59}
+{'loss': 2.2236, 'grad_norm': 1.9095014333724976, 'learning_rate': 4.486190089358245e-06, 'epoch': 0.6}
+{'loss': 2.2078, 'grad_norm': 1.7406108379364014, 'learning_rate': 4.484159220146223e-06, 'epoch': 0.6}
+{'loss': 2.1809, 'grad_norm': 1.712534785270691, 'learning_rate': 4.4821283509342e-06, 'epoch': 0.6}
+{'loss': 2.158, 'grad_norm': 1.8921459913253784, 'learning_rate': 4.480097481722178e-06, 'epoch': 0.6}
+{'loss': 2.1765, 'grad_norm': 1.805146336555481, 'learning_rate': 4.478066612510154e-06, 'epoch': 0.6}
+{'loss': 2.2832, 'grad_norm': 2.1620516777038574, 'learning_rate': 4.4760357432981325e-06, 'epoch': 0.6}
+{'loss': 2.1397, 'grad_norm': 1.661618947982788, 'learning_rate': 4.474004874086109e-06, 'epoch': 0.6}
+{'loss': 2.225, 'grad_norm': 1.732483983039856, 'learning_rate': 4.471974004874087e-06, 'epoch': 0.6}
+{'eval_loss': 2.3276846408843994, 'eval_runtime': 37.7156, 'eval_samples_per_second': 26.514, 'eval_steps_per_second': 1.114, 'epoch': 0.6}
+{'loss': 2.1959, 'grad_norm': 1.8693495988845825, 'learning_rate': 4.4699431356620635e-06, 'epoch': 0.6}
+{'loss': 2.1882, 'grad_norm': 1.8201690912246704, 'learning_rate': 4.467912266450041e-06, 'epoch': 0.6}
+{'loss': 2.2006, 'grad_norm': 1.9229968786239624, 'learning_rate': 4.465881397238018e-06, 'epoch': 0.61}
+{'loss': 2.209, 'grad_norm': 1.6330770254135132, 'learning_rate': 4.463850528025995e-06, 'epoch': 0.61}
+{'loss': 2.1963, 'grad_norm': 1.9654744863510132, 'learning_rate': 4.4618196588139726e-06, 'epoch': 0.61}
+{'loss': 2.1538, 'grad_norm': 1.8808507919311523, 'learning_rate': 4.45978878960195e-06, 'epoch': 0.61}
+{'loss': 2.1769, 'grad_norm': 1.8481040000915527, 'learning_rate': 4.457757920389927e-06, 'epoch': 0.61}
+{'loss': 2.2241, 'grad_norm': 2.114439010620117, 'learning_rate': 4.455727051177904e-06, 'epoch': 0.61}
+{'loss': 2.206, 'grad_norm': 1.5492331981658936, 'learning_rate': 4.453696181965882e-06, 'epoch': 0.61}
+{'loss': 2.2328, 'grad_norm': 2.11787486076355, 'learning_rate': 4.451665312753859e-06, 'epoch': 0.61}
+{'eval_loss': 2.3215034008026123, 'eval_runtime': 37.7471, 'eval_samples_per_second': 26.492, 'eval_steps_per_second': 1.113, 'epoch': 0.61}
+{'loss': 2.1607, 'grad_norm': 1.6561832427978516, 'learning_rate': 4.449634443541836e-06, 'epoch': 0.61}
+{'loss': 2.1699, 'grad_norm': 1.7510966062545776, 'learning_rate': 4.4476035743298135e-06, 'epoch': 0.62}
+{'loss': 2.2298, 'grad_norm': 1.9424657821655273, 'learning_rate': 4.445572705117791e-06, 'epoch': 0.62}
+{'loss': 2.1711, 'grad_norm': 1.5836161375045776, 'learning_rate': 4.443541835905768e-06, 'epoch': 0.62}
+{'loss': 2.2252, 'grad_norm': 1.895216464996338, 'learning_rate': 4.441510966693745e-06, 'epoch': 0.62}
+{'loss': 2.1309, 'grad_norm': 2.3365776538848877, 'learning_rate': 4.439480097481723e-06, 'epoch': 0.62}
+{'loss': 2.2023, 'grad_norm': 1.6988815069198608, 'learning_rate': 4.4374492282697e-06, 'epoch': 0.62}
+{'loss': 2.2021, 'grad_norm': 2.228900671005249, 'learning_rate': 4.435418359057677e-06, 'epoch': 0.62}
+{'loss': 2.1706, 'grad_norm': 1.5536632537841797, 'learning_rate': 4.433387489845654e-06, 'epoch': 0.62}
+{'loss': 2.1715, 'grad_norm': 1.8463878631591797, 'learning_rate': 4.431356620633632e-06, 'epoch': 0.62}
+{'eval_loss': 2.320664167404175, 'eval_runtime': 37.7539, 'eval_samples_per_second': 26.487, 'eval_steps_per_second': 1.112, 'epoch': 0.62}
+{'loss': 2.1894, 'grad_norm': 1.924741506576538, 'learning_rate': 4.429325751421609e-06, 'epoch': 0.63}
+{'loss': 2.1358, 'grad_norm': 1.5921828746795654, 'learning_rate': 4.427294882209586e-06, 'epoch': 0.63}
+{'loss': 2.1918, 'grad_norm': 2.4617693424224854, 'learning_rate': 4.4252640129975635e-06, 'epoch': 0.63}
+{'loss': 2.1996, 'grad_norm': 1.6239196062088013, 'learning_rate': 4.423233143785541e-06, 'epoch': 0.63}
+{'loss': 2.112, 'grad_norm': 1.952112078666687, 'learning_rate': 4.421202274573518e-06, 'epoch': 0.63}
+{'loss': 2.149, 'grad_norm': 1.663409948348999, 'learning_rate': 4.4191714053614945e-06, 'epoch': 0.63}
+{'loss': 2.209, 'grad_norm': 1.831711769104004, 'learning_rate': 4.417140536149473e-06, 'epoch': 0.63}
+{'loss': 2.1637, 'grad_norm': 1.9281738996505737, 'learning_rate': 4.415109666937449e-06, 'epoch': 0.63}
+{'loss': 2.1832, 'grad_norm': 1.5661600828170776, 'learning_rate': 4.413078797725427e-06, 'epoch': 0.63}
+{'loss': 2.196, 'grad_norm': 1.6930522918701172, 'learning_rate': 4.411047928513404e-06, 'epoch': 0.64}
+{'eval_loss': 2.318861246109009, 'eval_runtime': 37.6994, 'eval_samples_per_second': 26.526, 'eval_steps_per_second': 1.114, 'epoch': 0.64}
+{'loss': 2.2097, 'grad_norm': 1.74558424949646, 'learning_rate': 4.409017059301382e-06, 'epoch': 0.64}
+{'loss': 2.2076, 'grad_norm': 1.664880633354187, 'learning_rate': 4.406986190089358e-06, 'epoch': 0.64}
+{'loss': 2.1706, 'grad_norm': 1.5981497764587402, 'learning_rate': 4.404955320877336e-06, 'epoch': 0.64}
+{'loss': 2.1538, 'grad_norm': 1.6035112142562866, 'learning_rate': 4.402924451665313e-06, 'epoch': 0.64}
+{'loss': 2.1816, 'grad_norm': 1.6819255352020264, 'learning_rate': 4.400893582453291e-06, 'epoch': 0.64}
+{'loss': 2.1804, 'grad_norm': 1.7082457542419434, 'learning_rate': 4.398862713241267e-06, 'epoch': 0.64}
+{'loss': 2.1783, 'grad_norm': 1.6893151998519897, 'learning_rate': 4.396831844029245e-06, 'epoch': 0.64}
+{'loss': 2.1989, 'grad_norm': 1.8639923334121704, 'learning_rate': 4.394800974817222e-06, 'epoch': 0.64}
+{'loss': 2.2013, 'grad_norm': 1.6407119035720825, 'learning_rate': 4.392770105605199e-06, 'epoch': 0.65}
+{'loss': 2.2049, 'grad_norm': 1.6435848474502563, 'learning_rate': 4.390739236393176e-06, 'epoch': 0.65}
+{'eval_loss': 2.318084478378296, 'eval_runtime': 37.6999, 'eval_samples_per_second': 26.525, 'eval_steps_per_second': 1.114, 'epoch': 0.65}
+{'loss': 2.188, 'grad_norm': 1.7974674701690674, 'learning_rate': 4.388708367181154e-06, 'epoch': 0.65}
+{'loss': 2.2305, 'grad_norm': 1.8340431451797485, 'learning_rate': 4.386677497969131e-06, 'epoch': 0.65}
+{'loss': 2.1837, 'grad_norm': 1.55428946018219, 'learning_rate': 4.384646628757108e-06, 'epoch': 0.65}
+{'loss': 2.1426, 'grad_norm': 1.7258585691452026, 'learning_rate': 4.3826157595450855e-06, 'epoch': 0.65}
+{'loss': 2.1161, 'grad_norm': 1.7347694635391235, 'learning_rate': 4.380584890333063e-06, 'epoch': 0.65}
+{'loss': 2.2284, 'grad_norm': 1.6082992553710938, 'learning_rate': 4.37855402112104e-06, 'epoch': 0.65}
+{'loss': 2.1571, 'grad_norm': 1.9446425437927246, 'learning_rate': 4.376523151909017e-06, 'epoch': 0.65}
+{'loss': 2.1982, 'grad_norm': 1.8597826957702637, 'learning_rate': 4.3744922826969946e-06, 'epoch': 0.66}
+{'loss': 2.2097, 'grad_norm': 1.8589327335357666, 'learning_rate': 4.372461413484972e-06, 'epoch': 0.66}
+{'loss': 2.2077, 'grad_norm': 1.6825448274612427, 'learning_rate': 4.370430544272949e-06, 'epoch': 0.66}
+{'eval_loss': 2.315889596939087, 'eval_runtime': 37.6852, 'eval_samples_per_second': 26.536, 'eval_steps_per_second': 1.114, 'epoch': 0.66}
+{'loss': 2.1843, 'grad_norm': 1.8007057905197144, 'learning_rate': 4.368399675060926e-06, 'epoch': 0.66}
+{'loss': 2.13, 'grad_norm': 2.057697057723999, 'learning_rate': 4.366368805848904e-06, 'epoch': 0.66}
+{'loss': 2.1879, 'grad_norm': 1.5714081525802612, 'learning_rate': 4.364337936636881e-06, 'epoch': 0.66}
+{'loss': 2.1659, 'grad_norm': 1.855185866355896, 'learning_rate': 4.362307067424858e-06, 'epoch': 0.66}
+{'loss': 2.1716, 'grad_norm': 1.826479196548462, 'learning_rate': 4.3602761982128355e-06, 'epoch': 0.66}
+{'loss': 2.1825, 'grad_norm': 1.6905351877212524, 'learning_rate': 4.358245329000813e-06, 'epoch': 0.66}
+{'loss': 2.1811, 'grad_norm': 1.8157447576522827, 'learning_rate': 4.35621445978879e-06, 'epoch': 0.67}
+{'loss': 2.1507, 'grad_norm': 1.6311850547790527, 'learning_rate': 4.354183590576767e-06, 'epoch': 0.67}
+{'loss': 2.2031, 'grad_norm': 1.579039454460144, 'learning_rate': 4.352152721364745e-06, 'epoch': 0.67}
+{'loss': 2.1978, 'grad_norm': 1.7773518562316895, 'learning_rate': 4.350121852152722e-06, 'epoch': 0.67}
+{'eval_loss': 2.314854383468628, 'eval_runtime': 37.4501, 'eval_samples_per_second': 26.702, 'eval_steps_per_second': 1.121, 'epoch': 0.67}
+{'loss': 2.1891, 'grad_norm': 1.7606587409973145, 'learning_rate': 4.348090982940699e-06, 'epoch': 0.67}
+{'loss': 2.1799, 'grad_norm': 1.6145644187927246, 'learning_rate': 4.3460601137286764e-06, 'epoch': 0.67}
+{'loss': 2.241, 'grad_norm': 1.8070226907730103, 'learning_rate': 4.344029244516654e-06, 'epoch': 0.67}
+{'loss': 2.1908, 'grad_norm': 1.6185903549194336, 'learning_rate': 4.341998375304631e-06, 'epoch': 0.67}
+{'loss': 2.1804, 'grad_norm': 1.6690049171447754, 'learning_rate': 4.339967506092607e-06, 'epoch': 0.67}
+{'loss': 2.1734, 'grad_norm': 1.740003228187561, 'learning_rate': 4.3379366368805855e-06, 'epoch': 0.68}
+{'loss': 2.2015, 'grad_norm': 1.7311010360717773, 'learning_rate': 4.335905767668562e-06, 'epoch': 0.68}
+{'loss': 2.1894, 'grad_norm': 1.7491734027862549, 'learning_rate': 4.33387489845654e-06, 'epoch': 0.68}
+{'loss': 2.1583, 'grad_norm': 1.6343051195144653, 'learning_rate': 4.3318440292445165e-06, 'epoch': 0.68}
+{'loss': 2.1396, 'grad_norm': 1.584243893623352, 'learning_rate': 4.329813160032495e-06, 'epoch': 0.68}
+{'eval_loss': 2.3157904148101807, 'eval_runtime': 37.6734, 'eval_samples_per_second': 26.544, 'eval_steps_per_second': 1.115, 'epoch': 0.68}
+{'loss': 2.2064, 'grad_norm': 1.6275745630264282, 'learning_rate': 4.327782290820471e-06, 'epoch': 0.68}
+{'loss': 2.1686, 'grad_norm': 1.5353672504425049, 'learning_rate': 4.325751421608449e-06, 'epoch': 0.68}
+{'loss': 2.1652, 'grad_norm': 1.6155133247375488, 'learning_rate': 4.323720552396426e-06, 'epoch': 0.68}
+{'loss': 2.1747, 'grad_norm': 1.638383150100708, 'learning_rate': 4.321689683184404e-06, 'epoch': 0.68}
+{'loss': 2.1975, 'grad_norm': 1.6153279542922974, 'learning_rate': 4.31965881397238e-06, 'epoch': 0.68}
+{'loss': 2.1904, 'grad_norm': 2.023699998855591, 'learning_rate': 4.3176279447603574e-06, 'epoch': 0.69}
+{'loss': 2.2133, 'grad_norm': 1.5969340801239014, 'learning_rate': 4.315597075548335e-06, 'epoch': 0.69}
+{'loss': 2.1685, 'grad_norm': 2.138498067855835, 'learning_rate': 4.313566206336312e-06, 'epoch': 0.69}
+{'loss': 2.1818, 'grad_norm': 1.7141013145446777, 'learning_rate': 4.311535337124289e-06, 'epoch': 0.69}
+{'loss': 2.191, 'grad_norm': 1.9214462041854858, 'learning_rate': 4.3095044679122665e-06, 'epoch': 0.69}
+{'eval_loss': 2.3150644302368164, 'eval_runtime': 37.723, 'eval_samples_per_second': 26.509, 'eval_steps_per_second': 1.113, 'epoch': 0.69}
+{'loss': 2.1398, 'grad_norm': 2.03241229057312, 'learning_rate': 4.307473598700244e-06, 'epoch': 0.69}
+{'loss': 2.2113, 'grad_norm': 1.608492374420166, 'learning_rate': 4.305442729488221e-06, 'epoch': 0.69}
+{'loss': 2.2012, 'grad_norm': 2.1223549842834473, 'learning_rate': 4.303411860276198e-06, 'epoch': 0.69}
+{'loss': 2.2201, 'grad_norm': 1.5212339162826538, 'learning_rate': 4.301380991064176e-06, 'epoch': 0.69}
+{'loss': 2.2155, 'grad_norm': 1.9565715789794922, 'learning_rate': 4.299350121852153e-06, 'epoch': 0.7}
+{'loss': 2.1764, 'grad_norm': 1.700822114944458, 'learning_rate': 4.29731925264013e-06, 'epoch': 0.7}
+{'loss': 2.1407, 'grad_norm': 1.5625321865081787, 'learning_rate': 4.2952883834281075e-06, 'epoch': 0.7}
+{'loss': 2.2058, 'grad_norm': 2.3319756984710693, 'learning_rate': 4.293257514216085e-06, 'epoch': 0.7}
+{'loss': 2.2157, 'grad_norm': 1.617644190788269, 'learning_rate': 4.291226645004062e-06, 'epoch': 0.7}
+{'loss': 2.1736, 'grad_norm': 1.9357377290725708, 'learning_rate': 4.289195775792039e-06, 'epoch': 0.7}
+{'eval_loss': 2.310267925262451, 'eval_runtime': 37.731, 'eval_samples_per_second': 26.503, 'eval_steps_per_second': 1.113, 'epoch': 0.7}
+{'loss': 2.1523, 'grad_norm': 1.6908962726593018, 'learning_rate': 4.287164906580017e-06, 'epoch': 0.7}
+{'loss': 2.1499, 'grad_norm': 1.6051634550094604, 'learning_rate': 4.285134037367994e-06, 'epoch': 0.7}
+{'loss': 2.1493, 'grad_norm': 1.760164499282837, 'learning_rate': 4.283103168155971e-06, 'epoch': 0.7}
+{'loss': 2.1737, 'grad_norm': 1.6225790977478027, 'learning_rate': 4.281072298943948e-06, 'epoch': 0.71}
+{'loss': 2.1492, 'grad_norm': 1.8128079175949097, 'learning_rate': 4.279041429731926e-06, 'epoch': 0.71}
+{'loss': 2.1702, 'grad_norm': 1.993295431137085, 'learning_rate': 4.277010560519903e-06, 'epoch': 0.71}
+{'loss': 2.1939, 'grad_norm': 1.7715190649032593, 'learning_rate': 4.27497969130788e-06, 'epoch': 0.71}
+{'loss': 2.201, 'grad_norm': 1.921738624572754, 'learning_rate': 4.2729488220958575e-06, 'epoch': 0.71}
+{'loss': 2.152, 'grad_norm': 1.5670042037963867, 'learning_rate': 4.270917952883835e-06, 'epoch': 0.71}
+{'loss': 2.2488, 'grad_norm': 1.6405668258666992, 'learning_rate': 4.268887083671812e-06, 'epoch': 0.71}
+{'eval_loss': 2.3100948333740234, 'eval_runtime': 37.7393, 'eval_samples_per_second': 26.498, 'eval_steps_per_second': 1.113, 'epoch': 0.71}
+{'loss': 2.1506, 'grad_norm': 1.79966402053833, 'learning_rate': 4.266856214459789e-06, 'epoch': 0.71}
+{'loss': 2.1818, 'grad_norm': 1.6062074899673462, 'learning_rate': 4.264825345247766e-06, 'epoch': 0.71}
+{'loss': 2.1269, 'grad_norm': 1.61439049243927, 'learning_rate': 4.262794476035744e-06, 'epoch': 0.72}
+{'loss': 2.1703, 'grad_norm': 1.7649872303009033, 'learning_rate': 4.26076360682372e-06, 'epoch': 0.72}
+{'loss': 2.1764, 'grad_norm': 1.6238528490066528, 'learning_rate': 4.2587327376116984e-06, 'epoch': 0.72}
+{'loss': 2.1796, 'grad_norm': 1.6847354173660278, 'learning_rate': 4.256701868399675e-06, 'epoch': 0.72}
+{'loss': 2.1903, 'grad_norm': 1.7208436727523804, 'learning_rate': 4.254670999187653e-06, 'epoch': 0.72}
+{'loss': 2.1686, 'grad_norm': 1.5888099670410156, 'learning_rate': 4.252640129975629e-06, 'epoch': 0.72}
+{'loss': 2.1287, 'grad_norm': 1.742118000984192, 'learning_rate': 4.2506092607636075e-06, 'epoch': 0.72}
+{'loss': 2.1761, 'grad_norm': 1.8450883626937866, 'learning_rate': 4.248578391551584e-06, 'epoch': 0.72}
+{'eval_loss': 2.3134732246398926, 'eval_runtime': 37.7568, 'eval_samples_per_second': 26.485, 'eval_steps_per_second': 1.112, 'epoch': 0.72}
+{'loss': 2.1743, 'grad_norm': 1.630985140800476, 'learning_rate': 4.246547522339562e-06, 'epoch': 0.72}
+{'loss': 2.1356, 'grad_norm': 1.6984914541244507, 'learning_rate': 4.2445166531275385e-06, 'epoch': 0.73}
+{'loss': 2.1377, 'grad_norm': 1.6732920408248901, 'learning_rate': 4.242485783915517e-06, 'epoch': 0.73}
+{'loss': 2.1455, 'grad_norm': 1.6210153102874756, 'learning_rate': 4.240454914703493e-06, 'epoch': 0.73}
+{'loss': 2.1373, 'grad_norm': 1.7643382549285889, 'learning_rate': 4.23842404549147e-06, 'epoch': 0.73}
+{'loss': 2.1897, 'grad_norm': 1.6491565704345703, 'learning_rate': 4.236393176279448e-06, 'epoch': 0.73}
+{'loss': 2.2081, 'grad_norm': 1.670323133468628, 'learning_rate': 4.234362307067425e-06, 'epoch': 0.73}
+{'loss': 2.2002, 'grad_norm': 1.6350057125091553, 'learning_rate': 4.232331437855402e-06, 'epoch': 0.73}
+{'loss': 2.1744, 'grad_norm': 1.6191266775131226, 'learning_rate': 4.2303005686433795e-06, 'epoch': 0.73}
+{'loss': 2.1797, 'grad_norm': 1.5511432886123657, 'learning_rate': 4.228269699431357e-06, 'epoch': 0.73}
+{'eval_loss': 2.313626527786255, 'eval_runtime': 37.7763, 'eval_samples_per_second': 26.472, 'eval_steps_per_second': 1.112, 'epoch': 0.73}
+{'loss': 2.1729, 'grad_norm': 1.5128833055496216, 'learning_rate': 4.226238830219334e-06, 'epoch': 0.74}
+{'loss': 2.1747, 'grad_norm': 1.6752032041549683, 'learning_rate': 4.224207961007311e-06, 'epoch': 0.74}
+{'loss': 2.174, 'grad_norm': 1.8643760681152344, 'learning_rate': 4.2221770917952886e-06, 'epoch': 0.74}
+{'loss': 2.1706, 'grad_norm': 1.5659266710281372, 'learning_rate': 4.220146222583266e-06, 'epoch': 0.74}
+{'loss': 2.1558, 'grad_norm': 1.9675986766815186, 'learning_rate': 4.218115353371243e-06, 'epoch': 0.74}
+{'loss': 2.2126, 'grad_norm': 1.6091173887252808, 'learning_rate': 4.21608448415922e-06, 'epoch': 0.74}
+{'loss': 2.1352, 'grad_norm': 1.6801071166992188, 'learning_rate': 4.214053614947198e-06, 'epoch': 0.74}
+{'loss': 2.1863, 'grad_norm': 1.6964598894119263, 'learning_rate': 4.212022745735175e-06, 'epoch': 0.74}
+{'loss': 2.1478, 'grad_norm': 1.670597791671753, 'learning_rate': 4.209991876523152e-06, 'epoch': 0.74}
+{'loss': 2.2198, 'grad_norm': 1.6591588258743286, 'learning_rate': 4.2079610073111295e-06, 'epoch': 0.75}
+{'eval_loss': 2.3091039657592773, 'eval_runtime': 37.7551, 'eval_samples_per_second': 26.486, 'eval_steps_per_second': 1.112, 'epoch': 0.75}
+{'loss': 2.1836, 'grad_norm': 1.5147838592529297, 'learning_rate': 4.205930138099107e-06, 'epoch': 0.75}
+{'loss': 2.196, 'grad_norm': 1.6278952360153198, 'learning_rate': 4.203899268887084e-06, 'epoch': 0.75}
+{'loss': 2.1162, 'grad_norm': 1.5964363813400269, 'learning_rate': 4.201868399675061e-06, 'epoch': 0.75}
+{'loss': 2.1731, 'grad_norm': 1.6993104219436646, 'learning_rate': 4.199837530463039e-06, 'epoch': 0.75}
+{'loss': 2.16, 'grad_norm': 1.6196811199188232, 'learning_rate': 4.197806661251016e-06, 'epoch': 0.75}
+{'loss': 2.1123, 'grad_norm': 1.6826317310333252, 'learning_rate': 4.195775792038993e-06, 'epoch': 0.75}
+{'loss': 2.1962, 'grad_norm': 1.7604600191116333, 'learning_rate': 4.19374492282697e-06, 'epoch': 0.75}
+{'loss': 2.1593, 'grad_norm': 1.5533616542816162, 'learning_rate': 4.191714053614948e-06, 'epoch': 0.75}
+{'loss': 2.2067, 'grad_norm': 1.8652232885360718, 'learning_rate': 4.189683184402924e-06, 'epoch': 0.76}
+{'loss': 2.1483, 'grad_norm': 1.6330097913742065, 'learning_rate': 4.187652315190902e-06, 'epoch': 0.76}
+{'eval_loss': 2.309835195541382, 'eval_runtime': 37.746, 'eval_samples_per_second': 26.493, 'eval_steps_per_second': 1.113, 'epoch': 0.76}
+{'loss': 2.1686, 'grad_norm': 1.5989009141921997, 'learning_rate': 4.185621445978879e-06, 'epoch': 0.76}
+{'loss': 2.2111, 'grad_norm': 1.7416167259216309, 'learning_rate': 4.183590576766857e-06, 'epoch': 0.76}
+{'loss': 2.1499, 'grad_norm': 1.5840280055999756, 'learning_rate': 4.181559707554833e-06, 'epoch': 0.76}
+{'loss': 2.1492, 'grad_norm': 1.839306354522705, 'learning_rate': 4.179528838342811e-06, 'epoch': 0.76}
+{'loss': 2.2029, 'grad_norm': 1.54163658618927, 'learning_rate': 4.177497969130788e-06, 'epoch': 0.76}
+{'loss': 2.1615, 'grad_norm': 1.8050168752670288, 'learning_rate': 4.175467099918766e-06, 'epoch': 0.76}
+{'loss': 2.1476, 'grad_norm': 1.6971197128295898, 'learning_rate': 4.173436230706742e-06, 'epoch': 0.76}
+{'loss': 2.1602, 'grad_norm': 1.6200546026229858, 'learning_rate': 4.1714053614947205e-06, 'epoch': 0.76}
+{'loss': 2.1949, 'grad_norm': 1.7440853118896484, 'learning_rate': 4.169374492282697e-06, 'epoch': 0.77}
+{'loss': 2.1656, 'grad_norm': 1.5590331554412842, 'learning_rate': 4.167343623070675e-06, 'epoch': 0.77}
+{'eval_loss': 2.309752941131592, 'eval_runtime': 37.7663, 'eval_samples_per_second': 26.479, 'eval_steps_per_second': 1.112, 'epoch': 0.77}
+{'loss': 2.1516, 'grad_norm': 1.7314256429672241, 'learning_rate': 4.165312753858652e-06, 'epoch': 0.77}
+{'loss': 2.1795, 'grad_norm': 1.5145938396453857, 'learning_rate': 4.163281884646629e-06, 'epoch': 0.77}
+{'loss': 2.1356, 'grad_norm': 1.5300369262695312, 'learning_rate': 4.161251015434607e-06, 'epoch': 0.77}
+{'loss': 2.157, 'grad_norm': 1.6113280057907104, 'learning_rate': 4.159220146222583e-06, 'epoch': 0.77}
+{'loss': 2.2017, 'grad_norm': 1.5458502769470215, 'learning_rate': 4.157189277010561e-06, 'epoch': 0.77}
+{'loss': 2.1758, 'grad_norm': 1.5456187725067139, 'learning_rate': 4.155158407798538e-06, 'epoch': 0.77}
+{'loss': 2.183, 'grad_norm': 1.6051454544067383, 'learning_rate': 4.153127538586516e-06, 'epoch': 0.77}
+{'loss': 2.1538, 'grad_norm': 1.565788745880127, 'learning_rate': 4.151096669374492e-06, 'epoch': 0.78}
+{'loss': 2.169, 'grad_norm': 1.7484439611434937, 'learning_rate': 4.1490658001624705e-06, 'epoch': 0.78}
+{'loss': 2.1661, 'grad_norm': 1.7206509113311768, 'learning_rate': 4.147034930950447e-06, 'epoch': 0.78}
+{'eval_loss': 2.307927131652832, 'eval_runtime': 37.5145, 'eval_samples_per_second': 26.656, 'eval_steps_per_second': 1.12, 'epoch': 0.78}
+{'loss': 2.093, 'grad_norm': 1.8865350484848022, 'learning_rate': 4.145004061738425e-06, 'epoch': 0.78}
+{'loss': 2.1298, 'grad_norm': 1.935110092163086, 'learning_rate': 4.1429731925264015e-06, 'epoch': 0.78}
+{'loss': 2.1508, 'grad_norm': 1.6938892602920532, 'learning_rate': 4.140942323314379e-06, 'epoch': 0.78}
+{'loss': 2.1808, 'grad_norm': 1.5774824619293213, 'learning_rate': 4.138911454102356e-06, 'epoch': 0.78}
+{'loss': 2.1822, 'grad_norm': 1.8637802600860596, 'learning_rate': 4.136880584890333e-06, 'epoch': 0.78}
+{'loss': 2.1807, 'grad_norm': 1.6216785907745361, 'learning_rate': 4.1348497156783106e-06, 'epoch': 0.78}
+{'loss': 2.1967, 'grad_norm': 1.7688151597976685, 'learning_rate': 4.132818846466288e-06, 'epoch': 0.79}
+{'loss': 2.1952, 'grad_norm': 1.6824712753295898, 'learning_rate': 4.130787977254265e-06, 'epoch': 0.79}
+{'loss': 2.2408, 'grad_norm': 1.911048412322998, 'learning_rate': 4.128757108042242e-06, 'epoch': 0.79}
+{'loss': 2.1647, 'grad_norm': 1.62872314453125, 'learning_rate': 4.12672623883022e-06, 'epoch': 0.79}
+{'eval_loss': 2.3071532249450684, 'eval_runtime': 37.6838, 'eval_samples_per_second': 26.537, 'eval_steps_per_second': 1.115, 'epoch': 0.79}
+{'loss': 2.1614, 'grad_norm': 2.080674171447754, 'learning_rate': 4.124695369618197e-06, 'epoch': 0.79}
+{'loss': 2.1784, 'grad_norm': 1.7225316762924194, 'learning_rate': 4.122664500406174e-06, 'epoch': 0.79}
+{'loss': 2.1281, 'grad_norm': 1.838957667350769, 'learning_rate': 4.1206336311941515e-06, 'epoch': 0.79}
+{'loss': 2.1168, 'grad_norm': 1.9360777139663696, 'learning_rate': 4.118602761982129e-06, 'epoch': 0.79}
+{'loss': 2.2004, 'grad_norm': 1.7712862491607666, 'learning_rate': 4.116571892770106e-06, 'epoch': 0.79}
+{'loss': 2.1588, 'grad_norm': 1.6759192943572998, 'learning_rate': 4.114541023558083e-06, 'epoch': 0.8}
+{'loss': 2.1777, 'grad_norm': 1.8396296501159668, 'learning_rate': 4.112510154346061e-06, 'epoch': 0.8}
+{'loss': 2.1923, 'grad_norm': 1.6775752305984497, 'learning_rate': 4.110479285134038e-06, 'epoch': 0.8}
+{'loss': 2.1854, 'grad_norm': 1.7111576795578003, 'learning_rate': 4.108448415922015e-06, 'epoch': 0.8}
+{'loss': 2.0897, 'grad_norm': 1.7400974035263062, 'learning_rate': 4.1064175467099924e-06, 'epoch': 0.8}
+{'eval_loss': 2.3070170879364014, 'eval_runtime': 37.7602, 'eval_samples_per_second': 26.483, 'eval_steps_per_second': 1.112, 'epoch': 0.8}
+{'loss': 2.2417, 'grad_norm': 1.9166353940963745, 'learning_rate': 4.10438667749797e-06, 'epoch': 0.8}
+{'loss': 2.1677, 'grad_norm': 1.7914725542068481, 'learning_rate': 4.102355808285947e-06, 'epoch': 0.8}
+{'loss': 2.1623, 'grad_norm': 1.7602828741073608, 'learning_rate': 4.100324939073924e-06, 'epoch': 0.8}
+{'loss': 2.1748, 'grad_norm': 1.6864640712738037, 'learning_rate': 4.0982940698619015e-06, 'epoch': 0.8}
+{'loss': 2.1458, 'grad_norm': 1.564070463180542, 'learning_rate': 4.096263200649879e-06, 'epoch': 0.81}
+{'loss': 2.1536, 'grad_norm': 1.9004014730453491, 'learning_rate': 4.094232331437856e-06, 'epoch': 0.81}
+{'loss': 2.1809, 'grad_norm': 1.6670420169830322, 'learning_rate': 4.092201462225833e-06, 'epoch': 0.81}
+{'loss': 2.1343, 'grad_norm': 1.6553101539611816, 'learning_rate': 4.090170593013811e-06, 'epoch': 0.81}
+{'loss': 2.1455, 'grad_norm': 1.9083986282348633, 'learning_rate': 4.088139723801787e-06, 'epoch': 0.81}
+{'loss': 2.1621, 'grad_norm': 1.6069375276565552, 'learning_rate': 4.086108854589765e-06, 'epoch': 0.81}
+{'eval_loss': 2.3045499324798584, 'eval_runtime': 37.7804, 'eval_samples_per_second': 26.469, 'eval_steps_per_second': 1.112, 'epoch': 0.81}
+{'loss': 2.2079, 'grad_norm': 1.6774693727493286, 'learning_rate': 4.084077985377742e-06, 'epoch': 0.81}
+{'loss': 2.1276, 'grad_norm': 1.772355556488037, 'learning_rate': 4.08204711616572e-06, 'epoch': 0.81}
+{'loss': 2.1903, 'grad_norm': 1.6998035907745361, 'learning_rate': 4.080016246953696e-06, 'epoch': 0.81}
+{'loss': 2.1965, 'grad_norm': 1.850844383239746, 'learning_rate': 4.077985377741674e-06, 'epoch': 0.82}
+{'loss': 2.1982, 'grad_norm': 1.5916879177093506, 'learning_rate': 4.075954508529651e-06, 'epoch': 0.82}
+{'loss': 2.1507, 'grad_norm': 1.8195812702178955, 'learning_rate': 4.073923639317629e-06, 'epoch': 0.82}
+{'loss': 2.1236, 'grad_norm': 1.5145621299743652, 'learning_rate': 4.071892770105605e-06, 'epoch': 0.82}
+{'loss': 2.142, 'grad_norm': 1.5750877857208252, 'learning_rate': 4.069861900893583e-06, 'epoch': 0.82}
+{'loss': 2.1577, 'grad_norm': 1.708666443824768, 'learning_rate': 4.06783103168156e-06, 'epoch': 0.82}
+{'loss': 2.1795, 'grad_norm': 1.5988762378692627, 'learning_rate': 4.065800162469538e-06, 'epoch': 0.82}
+{'eval_loss': 2.3052196502685547, 'eval_runtime': 37.7983, 'eval_samples_per_second': 26.456, 'eval_steps_per_second': 1.111, 'epoch': 0.82}
+{'loss': 2.1578, 'grad_norm': 1.608738899230957, 'learning_rate': 4.063769293257514e-06, 'epoch': 0.82}
+{'loss': 2.1724, 'grad_norm': 1.5578334331512451, 'learning_rate': 4.061738424045492e-06, 'epoch': 0.82}
+{'loss': 2.1975, 'grad_norm': 1.6957333087921143, 'learning_rate': 4.059707554833469e-06, 'epoch': 0.83}
+{'loss': 2.1705, 'grad_norm': 1.691512107849121, 'learning_rate': 4.057676685621446e-06, 'epoch': 0.83}
+{'loss': 2.1031, 'grad_norm': 1.6061747074127197, 'learning_rate': 4.0556458164094235e-06, 'epoch': 0.83}
+{'loss': 2.1738, 'grad_norm': 1.6074447631835938, 'learning_rate': 4.053614947197401e-06, 'epoch': 0.83}
+{'loss': 2.2043, 'grad_norm': 1.9722917079925537, 'learning_rate': 4.051584077985378e-06, 'epoch': 0.83}
+{'loss': 2.1621, 'grad_norm': 1.597692847251892, 'learning_rate': 4.049553208773355e-06, 'epoch': 0.83}
+{'loss': 2.1504, 'grad_norm': 1.85458242893219, 'learning_rate': 4.047522339561333e-06, 'epoch': 0.83}
+{'loss': 2.2541, 'grad_norm': 1.8328344821929932, 'learning_rate': 4.04549147034931e-06, 'epoch': 0.83}
+{'eval_loss': 2.3033809661865234, 'eval_runtime': 37.8088, 'eval_samples_per_second': 26.449, 'eval_steps_per_second': 1.111, 'epoch': 0.83}
+{'loss': 2.1605, 'grad_norm': 1.6544418334960938, 'learning_rate': 4.043460601137287e-06, 'epoch': 0.83}
+{'loss': 2.1621, 'grad_norm': 1.9443641901016235, 'learning_rate': 4.041429731925264e-06, 'epoch': 0.84}
+{'loss': 2.2168, 'grad_norm': 1.731277346611023, 'learning_rate': 4.039398862713242e-06, 'epoch': 0.84}
+{'loss': 2.1612, 'grad_norm': 1.671072244644165, 'learning_rate': 4.037367993501219e-06, 'epoch': 0.84}
+{'loss': 2.1339, 'grad_norm': 1.8777449131011963, 'learning_rate': 4.035337124289196e-06, 'epoch': 0.84}
+{'loss': 2.1545, 'grad_norm': 1.5941543579101562, 'learning_rate': 4.0333062550771735e-06, 'epoch': 0.84}
+{'loss': 2.187, 'grad_norm': 1.9245301485061646, 'learning_rate': 4.031275385865151e-06, 'epoch': 0.84}
+{'loss': 2.1168, 'grad_norm': 1.69217848777771, 'learning_rate': 4.029244516653128e-06, 'epoch': 0.84}
+{'loss': 2.1353, 'grad_norm': 1.7042242288589478, 'learning_rate': 4.027213647441105e-06, 'epoch': 0.84}
+{'loss': 2.1568, 'grad_norm': 1.6391927003860474, 'learning_rate': 4.025182778229083e-06, 'epoch': 0.84}
+{'eval_loss': 2.310056686401367, 'eval_runtime': 37.7573, 'eval_samples_per_second': 26.485, 'eval_steps_per_second': 1.112, 'epoch': 0.84}
+{'loss': 2.1664, 'grad_norm': 1.7833209037780762, 'learning_rate': 4.02315190901706e-06, 'epoch': 0.84}
+{'loss': 2.2342, 'grad_norm': 1.8203891515731812, 'learning_rate': 4.021121039805037e-06, 'epoch': 0.85}
+{'loss': 2.1418, 'grad_norm': 1.572940707206726, 'learning_rate': 4.0190901705930144e-06, 'epoch': 0.85}
+{'loss': 2.2023, 'grad_norm': 1.6871955394744873, 'learning_rate': 4.017059301380992e-06, 'epoch': 0.85}
+{'loss': 2.1302, 'grad_norm': 1.6343133449554443, 'learning_rate': 4.015028432168969e-06, 'epoch': 0.85}
+{'loss': 2.1427, 'grad_norm': 1.4492065906524658, 'learning_rate': 4.012997562956945e-06, 'epoch': 0.85}
+{'loss': 2.1479, 'grad_norm': 1.6599146127700806, 'learning_rate': 4.0109666937449235e-06, 'epoch': 0.85}
+{'loss': 2.148, 'grad_norm': 1.6836353540420532, 'learning_rate': 4.0089358245329e-06, 'epoch': 0.85}
+{'loss': 2.1946, 'grad_norm': 1.5977990627288818, 'learning_rate': 4.006904955320878e-06, 'epoch': 0.85}
+{'loss': 2.1761, 'grad_norm': 1.6259957551956177, 'learning_rate': 4.0048740861088545e-06, 'epoch': 0.85}
+{'eval_loss': 2.303910970687866, 'eval_runtime': 37.7728, 'eval_samples_per_second': 26.474, 'eval_steps_per_second': 1.112, 'epoch': 0.85}
+{'loss': 2.1309, 'grad_norm': 1.6990300416946411, 'learning_rate': 4.002843216896833e-06, 'epoch': 0.86}
+{'loss': 2.151, 'grad_norm': 1.6556029319763184, 'learning_rate': 4.000812347684809e-06, 'epoch': 0.86}
+{'loss': 2.1317, 'grad_norm': 1.5659290552139282, 'learning_rate': 3.998781478472787e-06, 'epoch': 0.86}
+{'loss': 2.2344, 'grad_norm': 1.6553704738616943, 'learning_rate': 3.996750609260764e-06, 'epoch': 0.86}
+{'loss': 2.1807, 'grad_norm': 1.6608418226242065, 'learning_rate': 3.994719740048742e-06, 'epoch': 0.86}
+{'loss': 2.1351, 'grad_norm': 1.5862030982971191, 'learning_rate': 3.992688870836718e-06, 'epoch': 0.86}
+{'loss': 2.1856, 'grad_norm': 1.767526388168335, 'learning_rate': 3.990658001624696e-06, 'epoch': 0.86}
+{'loss': 2.1592, 'grad_norm': 1.6902577877044678, 'learning_rate': 3.988627132412673e-06, 'epoch': 0.86}
+{'loss': 2.1645, 'grad_norm': 1.7760623693466187, 'learning_rate': 3.98659626320065e-06, 'epoch': 0.86}
+{'loss': 2.1611, 'grad_norm': 1.6791038513183594, 'learning_rate': 3.984565393988627e-06, 'epoch': 0.87}
+{'eval_loss': 2.3027942180633545, 'eval_runtime': 37.736, 'eval_samples_per_second': 26.5, 'eval_steps_per_second': 1.113, 'epoch': 0.87}
+{'loss': 2.1747, 'grad_norm': 1.6695773601531982, 'learning_rate': 3.9825345247766046e-06, 'epoch': 0.87}
+{'loss': 2.1806, 'grad_norm': 1.8736445903778076, 'learning_rate': 3.980503655564582e-06, 'epoch': 0.87}
+{'loss': 2.1631, 'grad_norm': 1.6695518493652344, 'learning_rate': 3.978472786352559e-06, 'epoch': 0.87}
+{'loss': 2.2175, 'grad_norm': 1.6782366037368774, 'learning_rate': 3.976441917140536e-06, 'epoch': 0.87}
+{'loss': 2.1883, 'grad_norm': 1.678619623184204, 'learning_rate': 3.974411047928514e-06, 'epoch': 0.87}
+{'loss': 2.1866, 'grad_norm': 1.6274909973144531, 'learning_rate': 3.972380178716491e-06, 'epoch': 0.87}
+{'loss': 2.1257, 'grad_norm': 1.5609477758407593, 'learning_rate': 3.970349309504468e-06, 'epoch': 0.87}
+{'loss': 2.1253, 'grad_norm': 1.7419973611831665, 'learning_rate': 3.9683184402924455e-06, 'epoch': 0.87}
+{'loss': 2.1755, 'grad_norm': 1.6296330690383911, 'learning_rate': 3.966287571080423e-06, 'epoch': 0.88}
+{'loss': 2.169, 'grad_norm': 1.5995864868164062, 'learning_rate': 3.9642567018684e-06, 'epoch': 0.88}
+{'eval_loss': 2.301098108291626, 'eval_runtime': 37.7893, 'eval_samples_per_second': 26.463, 'eval_steps_per_second': 1.111, 'epoch': 0.88}
+{'loss': 2.115, 'grad_norm': 1.653707504272461, 'learning_rate': 3.962225832656377e-06, 'epoch': 0.88}
+{'loss': 2.1659, 'grad_norm': 1.5908581018447876, 'learning_rate': 3.960194963444355e-06, 'epoch': 0.88}
+{'loss': 2.1666, 'grad_norm': 1.6865545511245728, 'learning_rate': 3.958164094232332e-06, 'epoch': 0.88}
+{'loss': 2.1594, 'grad_norm': 1.6234707832336426, 'learning_rate': 3.956133225020309e-06, 'epoch': 0.88}
+{'loss': 2.1596, 'grad_norm': 1.7375986576080322, 'learning_rate': 3.954102355808286e-06, 'epoch': 0.88}
+{'loss': 2.1495, 'grad_norm': 1.6529247760772705, 'learning_rate': 3.952071486596264e-06, 'epoch': 0.88}
+{'loss': 2.1394, 'grad_norm': 1.517357349395752, 'learning_rate': 3.950040617384241e-06, 'epoch': 0.88}
+{'loss': 2.206, 'grad_norm': 1.7367429733276367, 'learning_rate': 3.948009748172218e-06, 'epoch': 0.89}
+{'loss': 2.1672, 'grad_norm': 1.5467783212661743, 'learning_rate': 3.9459788789601955e-06, 'epoch': 0.89}
+{'loss': 2.1695, 'grad_norm': 1.5647791624069214, 'learning_rate': 3.943948009748173e-06, 'epoch': 0.89}
+{'eval_loss': 2.2975995540618896, 'eval_runtime': 37.4912, 'eval_samples_per_second': 26.673, 'eval_steps_per_second': 1.12, 'epoch': 0.89}
+{'loss': 2.1808, 'grad_norm': 1.597876787185669, 'learning_rate': 3.94191714053615e-06, 'epoch': 0.89}
+{'loss': 2.1291, 'grad_norm': 1.7645189762115479, 'learning_rate': 3.939886271324127e-06, 'epoch': 0.89}
+{'loss': 2.1269, 'grad_norm': 1.5209035873413086, 'learning_rate': 3.937855402112104e-06, 'epoch': 0.89}
+{'loss': 2.1751, 'grad_norm': 1.5804905891418457, 'learning_rate': 3.935824532900082e-06, 'epoch': 0.89}
+{'loss': 2.1917, 'grad_norm': 1.687865972518921, 'learning_rate': 3.933793663688058e-06, 'epoch': 0.89}
+{'loss': 2.118, 'grad_norm': 1.6767957210540771, 'learning_rate': 3.9317627944760365e-06, 'epoch': 0.89}
+{'loss': 2.1479, 'grad_norm': 1.657046914100647, 'learning_rate': 3.929731925264013e-06, 'epoch': 0.9}
+{'loss': 2.1565, 'grad_norm': 1.5638110637664795, 'learning_rate': 3.927701056051991e-06, 'epoch': 0.9}
+{'loss': 2.1382, 'grad_norm': 1.6865980625152588, 'learning_rate': 3.9256701868399674e-06, 'epoch': 0.9}
+{'loss': 2.1257, 'grad_norm': 1.6738817691802979, 'learning_rate': 3.9236393176279456e-06, 'epoch': 0.9}
+{'eval_loss': 2.2953474521636963, 'eval_runtime': 37.7016, 'eval_samples_per_second': 26.524, 'eval_steps_per_second': 1.114, 'epoch': 0.9}
+{'loss': 2.169, 'grad_norm': 1.568678617477417, 'learning_rate': 3.921608448415922e-06, 'epoch': 0.9}
+{'loss': 2.1489, 'grad_norm': 1.6803818941116333, 'learning_rate': 3.9195775792039e-06, 'epoch': 0.9}
+{'loss': 2.1846, 'grad_norm': 1.7010858058929443, 'learning_rate': 3.9175467099918765e-06, 'epoch': 0.9}
+{'loss': 2.1788, 'grad_norm': 1.5782372951507568, 'learning_rate': 3.915515840779855e-06, 'epoch': 0.9}
+{'loss': 2.1058, 'grad_norm': 1.7804685831069946, 'learning_rate': 3.913484971567831e-06, 'epoch': 0.9}
+{'loss': 2.1716, 'grad_norm': 1.5909292697906494, 'learning_rate': 3.911454102355808e-06, 'epoch': 0.91}
+{'loss': 2.1647, 'grad_norm': 1.7001307010650635, 'learning_rate': 3.909423233143786e-06, 'epoch': 0.91}
+{'loss': 2.2174, 'grad_norm': 1.5576646327972412, 'learning_rate': 3.907392363931763e-06, 'epoch': 0.91}
+{'loss': 2.2344, 'grad_norm': 1.6621390581130981, 'learning_rate': 3.90536149471974e-06, 'epoch': 0.91}
+{'loss': 2.2501, 'grad_norm': 1.592091679573059, 'learning_rate': 3.9033306255077175e-06, 'epoch': 0.91}
+{'eval_loss': 2.294229507446289, 'eval_runtime': 37.7195, 'eval_samples_per_second': 26.512, 'eval_steps_per_second': 1.113, 'epoch': 0.91}
+{'loss': 2.1534, 'grad_norm': 1.5698535442352295, 'learning_rate': 3.901299756295695e-06, 'epoch': 0.91}
+{'loss': 2.1601, 'grad_norm': 1.7159922122955322, 'learning_rate': 3.899268887083672e-06, 'epoch': 0.91}
+{'loss': 2.1598, 'grad_norm': 1.5601210594177246, 'learning_rate': 3.897238017871649e-06, 'epoch': 0.91}
+{'loss': 2.1307, 'grad_norm': 1.5987435579299927, 'learning_rate': 3.8952071486596266e-06, 'epoch': 0.91}
+{'loss': 2.2209, 'grad_norm': 1.7568409442901611, 'learning_rate': 3.893176279447604e-06, 'epoch': 0.92}
+{'loss': 2.1699, 'grad_norm': 1.5044634342193604, 'learning_rate': 3.891145410235581e-06, 'epoch': 0.92}
+{'loss': 2.1489, 'grad_norm': 1.7287421226501465, 'learning_rate': 3.889114541023558e-06, 'epoch': 0.92}
+{'loss': 2.1167, 'grad_norm': 1.6595203876495361, 'learning_rate': 3.887083671811536e-06, 'epoch': 0.92}
+{'loss': 2.2119, 'grad_norm': 1.5620248317718506, 'learning_rate': 3.885052802599513e-06, 'epoch': 0.92}
+{'loss': 2.1725, 'grad_norm': 1.6492353677749634, 'learning_rate': 3.88302193338749e-06, 'epoch': 0.92}
+{'eval_loss': 2.2956349849700928, 'eval_runtime': 37.779, 'eval_samples_per_second': 26.47, 'eval_steps_per_second': 1.112, 'epoch': 0.92}
+{'loss': 2.1532, 'grad_norm': 1.6601520776748657, 'learning_rate': 3.8809910641754675e-06, 'epoch': 0.92}
+{'loss': 2.1931, 'grad_norm': 1.6723994016647339, 'learning_rate': 3.878960194963445e-06, 'epoch': 0.92}
+{'loss': 2.1219, 'grad_norm': 1.7594473361968994, 'learning_rate': 3.876929325751422e-06, 'epoch': 0.92}
+{'loss': 2.1679, 'grad_norm': 1.546398401260376, 'learning_rate': 3.874898456539399e-06, 'epoch': 0.92}
+{'loss': 2.1434, 'grad_norm': 1.8171741962432861, 'learning_rate': 3.872867587327377e-06, 'epoch': 0.93}
+{'loss': 2.1574, 'grad_norm': 1.703196406364441, 'learning_rate': 3.870836718115354e-06, 'epoch': 0.93}
+{'loss': 2.1657, 'grad_norm': 1.6290628910064697, 'learning_rate': 3.868805848903331e-06, 'epoch': 0.93}
+{'loss': 2.1659, 'grad_norm': 1.5868806838989258, 'learning_rate': 3.8667749796913084e-06, 'epoch': 0.93}
+{'loss': 2.1916, 'grad_norm': 1.551581621170044, 'learning_rate': 3.864744110479286e-06, 'epoch': 0.93}
+{'loss': 2.2027, 'grad_norm': 1.6634963750839233, 'learning_rate': 3.862713241267262e-06, 'epoch': 0.93}
+{'eval_loss': 2.2988946437835693, 'eval_runtime': 37.7841, 'eval_samples_per_second': 26.466, 'eval_steps_per_second': 1.112, 'epoch': 0.93}
+{'loss': 2.1634, 'grad_norm': 1.6138510704040527, 'learning_rate': 3.86068237205524e-06, 'epoch': 0.93}
+{'loss': 2.1175, 'grad_norm': 1.6294615268707275, 'learning_rate': 3.858651502843217e-06, 'epoch': 0.93}
+{'loss': 2.1562, 'grad_norm': 1.7515549659729004, 'learning_rate': 3.856620633631195e-06, 'epoch': 0.93}
+{'loss': 2.2256, 'grad_norm': 1.6304186582565308, 'learning_rate': 3.854589764419171e-06, 'epoch': 0.94}
+{'loss': 2.1742, 'grad_norm': 1.6189597845077515, 'learning_rate': 3.852558895207149e-06, 'epoch': 0.94}
+{'loss': 2.1481, 'grad_norm': 1.665515661239624, 'learning_rate': 3.850528025995126e-06, 'epoch': 0.94}
+{'loss': 2.1522, 'grad_norm': 1.7066419124603271, 'learning_rate': 3.848497156783104e-06, 'epoch': 0.94}
+{'loss': 2.1493, 'grad_norm': 1.884599208831787, 'learning_rate': 3.84646628757108e-06, 'epoch': 0.94}
+{'loss': 2.1461, 'grad_norm': 1.6224873065948486, 'learning_rate': 3.8444354183590585e-06, 'epoch': 0.94}
+{'loss': 2.1265, 'grad_norm': 1.916416049003601, 'learning_rate': 3.842404549147035e-06, 'epoch': 0.94}
+{'eval_loss': 2.297154426574707, 'eval_runtime': 37.77, 'eval_samples_per_second': 26.476, 'eval_steps_per_second': 1.112, 'epoch': 0.94}
+{'loss': 2.1476, 'grad_norm': 1.5281857252120972, 'learning_rate': 3.840373679935013e-06, 'epoch': 0.94}
+{'loss': 2.1421, 'grad_norm': 1.7905207872390747, 'learning_rate': 3.8383428107229894e-06, 'epoch': 0.94}
+{'loss': 2.1807, 'grad_norm': 1.8282849788665771, 'learning_rate': 3.836311941510967e-06, 'epoch': 0.95}
+{'loss': 2.1337, 'grad_norm': 1.7861522436141968, 'learning_rate': 3.834281072298944e-06, 'epoch': 0.95}
+{'loss': 2.1911, 'grad_norm': 1.6107250452041626, 'learning_rate': 3.832250203086921e-06, 'epoch': 0.95}
+{'loss': 2.2257, 'grad_norm': 1.657909631729126, 'learning_rate': 3.8302193338748985e-06, 'epoch': 0.95}
+{'loss': 2.1778, 'grad_norm': 1.8969722986221313, 'learning_rate': 3.828188464662876e-06, 'epoch': 0.95}
+{'loss': 2.127, 'grad_norm': 1.6498360633850098, 'learning_rate': 3.826157595450853e-06, 'epoch': 0.95}
+{'loss': 2.1716, 'grad_norm': 1.5750585794448853, 'learning_rate': 3.82412672623883e-06, 'epoch': 0.95}
+{'loss': 2.1354, 'grad_norm': 1.6047886610031128, 'learning_rate': 3.822095857026808e-06, 'epoch': 0.95}
+{'eval_loss': 2.295785665512085, 'eval_runtime': 37.7419, 'eval_samples_per_second': 26.496, 'eval_steps_per_second': 1.113, 'epoch': 0.95}
+{'loss': 2.1375, 'grad_norm': 1.6426187753677368, 'learning_rate': 3.820064987814785e-06, 'epoch': 0.95}
+{'loss': 2.1491, 'grad_norm': 1.5118632316589355, 'learning_rate': 3.818034118602762e-06, 'epoch': 0.96}
+{'loss': 2.1497, 'grad_norm': 1.630476474761963, 'learning_rate': 3.8160032493907395e-06, 'epoch': 0.96}
+{'loss': 2.1746, 'grad_norm': 1.6820838451385498, 'learning_rate': 3.813972380178717e-06, 'epoch': 0.96}
+{'loss': 2.1226, 'grad_norm': 1.5480482578277588, 'learning_rate': 3.811941510966694e-06, 'epoch': 0.96}
+{'loss': 2.0934, 'grad_norm': 1.601493239402771, 'learning_rate': 3.809910641754671e-06, 'epoch': 0.96}
+{'loss': 2.1679, 'grad_norm': 1.5756622552871704, 'learning_rate': 3.8078797725426486e-06, 'epoch': 0.96}
+{'loss': 2.1407, 'grad_norm': 1.6811070442199707, 'learning_rate': 3.8058489033306254e-06, 'epoch': 0.96}
+{'loss': 2.1985, 'grad_norm': 1.5748940706253052, 'learning_rate': 3.803818034118603e-06, 'epoch': 0.96}
+{'loss': 2.1876, 'grad_norm': 1.5412342548370361, 'learning_rate': 3.80178716490658e-06, 'epoch': 0.96}
+{'eval_loss': 2.291630268096924, 'eval_runtime': 37.7702, 'eval_samples_per_second': 26.476, 'eval_steps_per_second': 1.112, 'epoch': 0.96}
+{'loss': 2.1453, 'grad_norm': 1.7080684900283813, 'learning_rate': 3.7997562956945577e-06, 'epoch': 0.97}
+{'loss': 2.1298, 'grad_norm': 1.8705110549926758, 'learning_rate': 3.7977254264825345e-06, 'epoch': 0.97}
+{'loss': 2.2117, 'grad_norm': 1.7332537174224854, 'learning_rate': 3.7956945572705122e-06, 'epoch': 0.97}
+{'loss': 2.2005, 'grad_norm': 1.88144052028656, 'learning_rate': 3.793663688058489e-06, 'epoch': 0.97}
+{'loss': 2.1853, 'grad_norm': 1.6263943910598755, 'learning_rate': 3.791632818846467e-06, 'epoch': 0.97}
+{'loss': 2.1998, 'grad_norm': 1.5968067646026611, 'learning_rate': 3.7896019496344436e-06, 'epoch': 0.97}
+{'loss': 2.1855, 'grad_norm': 1.7149827480316162, 'learning_rate': 3.787571080422421e-06, 'epoch': 0.97}
+{'loss': 2.1664, 'grad_norm': 1.7375026941299438, 'learning_rate': 3.785540211210398e-06, 'epoch': 0.97}
+{'loss': 2.1492, 'grad_norm': 1.6411423683166504, 'learning_rate': 3.7835093419983755e-06, 'epoch': 0.97}
+{'loss': 2.2341, 'grad_norm': 1.6208266019821167, 'learning_rate': 3.7814784727863527e-06, 'epoch': 0.98}
+{'eval_loss': 2.2929985523223877, 'eval_runtime': 37.6693, 'eval_samples_per_second': 26.547, 'eval_steps_per_second': 1.115, 'epoch': 0.98}
+{'loss': 2.1985, 'grad_norm': 1.6871188879013062, 'learning_rate': 3.77944760357433e-06, 'epoch': 0.98}
+{'loss': 2.1423, 'grad_norm': 1.8475587368011475, 'learning_rate': 3.7774167343623073e-06, 'epoch': 0.98}
+{'loss': 2.1944, 'grad_norm': 1.6115065813064575, 'learning_rate': 3.7753858651502846e-06, 'epoch': 0.98}
+{'loss': 2.1751, 'grad_norm': 1.6232231855392456, 'learning_rate': 3.773354995938262e-06, 'epoch': 0.98}
+{'loss': 2.2021, 'grad_norm': 1.8564099073410034, 'learning_rate': 3.771324126726239e-06, 'epoch': 0.98}
+{'loss': 2.1351, 'grad_norm': 1.7270197868347168, 'learning_rate': 3.7692932575142164e-06, 'epoch': 0.98}
+{'loss': 2.0856, 'grad_norm': 1.7187668085098267, 'learning_rate': 3.7672623883021937e-06, 'epoch': 0.98}
+{'loss': 2.168, 'grad_norm': 1.7766387462615967, 'learning_rate': 3.765231519090171e-06, 'epoch': 0.98}
+{'loss': 2.1317, 'grad_norm': 1.8063374757766724, 'learning_rate': 3.7632006498781482e-06, 'epoch': 0.99}
+{'loss': 2.1742, 'grad_norm': 1.7601871490478516, 'learning_rate': 3.761169780666125e-06, 'epoch': 0.99}
+{'eval_loss': 2.292574167251587, 'eval_runtime': 37.6888, 'eval_samples_per_second': 26.533, 'eval_steps_per_second': 1.114, 'epoch': 0.99}
+{'loss': 2.1856, 'grad_norm': 1.8501280546188354, 'learning_rate': 3.7591389114541028e-06, 'epoch': 0.99}
+{'loss': 2.1432, 'grad_norm': 1.8786728382110596, 'learning_rate': 3.7571080422420796e-06, 'epoch': 0.99}
+{'loss': 2.2011, 'grad_norm': 1.7662389278411865, 'learning_rate': 3.7550771730300573e-06, 'epoch': 0.99}
+{'loss': 2.1719, 'grad_norm': 1.6810210943222046, 'learning_rate': 3.753046303818034e-06, 'epoch': 0.99}
+{'loss': 2.2206, 'grad_norm': 2.034982681274414, 'learning_rate': 3.751015434606012e-06, 'epoch': 0.99}
+{'loss': 2.1248, 'grad_norm': 1.804049015045166, 'learning_rate': 3.7489845653939887e-06, 'epoch': 0.99}
+{'loss': 2.1545, 'grad_norm': 1.6039106845855713, 'learning_rate': 3.7469536961819664e-06, 'epoch': 0.99}
+{'loss': 2.1842, 'grad_norm': 1.9352415800094604, 'learning_rate': 3.7449228269699433e-06, 'epoch': 1.0}
+{'loss': 2.1588, 'grad_norm': 1.5759649276733398, 'learning_rate': 3.742891957757921e-06, 'epoch': 1.0}
+{'loss': 2.1871, 'grad_norm': 1.6169486045837402, 'learning_rate': 3.740861088545898e-06, 'epoch': 1.0}
+{'eval_loss': 2.2923426628112793, 'eval_runtime': 37.4584, 'eval_samples_per_second': 26.696, 'eval_steps_per_second': 1.121, 'epoch': 1.0}
+{'loss': 2.144, 'grad_norm': 1.748138427734375, 'learning_rate': 3.7388302193338755e-06, 'epoch': 1.0}
+{'loss': 2.1474, 'grad_norm': 1.8182991743087769, 'learning_rate': 3.7367993501218524e-06, 'epoch': 1.0}
+{'loss': 2.1146, 'grad_norm': 1.6532196998596191, 'learning_rate': 3.7347684809098297e-06, 'epoch': 1.0}
+{'loss': 2.0851, 'grad_norm': 2.0338973999023438, 'learning_rate': 3.732737611697807e-06, 'epoch': 1.0}
+{'loss': 2.1197, 'grad_norm': 1.71133553981781, 'learning_rate': 3.7307067424857842e-06, 'epoch': 1.0}
+{'loss': 2.1106, 'grad_norm': 1.6081736087799072, 'learning_rate': 3.7286758732737615e-06, 'epoch': 1.0}
+{'loss': 2.2125, 'grad_norm': 2.100734233856201, 'learning_rate': 3.7266450040617388e-06, 'epoch': 1.0}
+{'loss': 2.0985, 'grad_norm': 1.758898377418518, 'learning_rate': 3.724614134849716e-06, 'epoch': 1.01}
+{'loss': 2.1911, 'grad_norm': 1.7335586547851562, 'learning_rate': 3.7225832656376933e-06, 'epoch': 1.01}
+{'loss': 2.1632, 'grad_norm': 1.7879023551940918, 'learning_rate': 3.7205523964256706e-06, 'epoch': 1.01}
+{'eval_loss': 2.294053554534912, 'eval_runtime': 37.6132, 'eval_samples_per_second': 26.586, 'eval_steps_per_second': 1.117, 'epoch': 1.01}
+{'loss': 2.1501, 'grad_norm': 1.7201987504959106, 'learning_rate': 3.718521527213648e-06, 'epoch': 1.01}
+{'loss': 2.0661, 'grad_norm': 1.7638986110687256, 'learning_rate': 3.716490658001625e-06, 'epoch': 1.01}
+{'loss': 2.1613, 'grad_norm': 1.7376288175582886, 'learning_rate': 3.7144597887896024e-06, 'epoch': 1.01}
+{'loss': 2.1562, 'grad_norm': 1.9208155870437622, 'learning_rate': 3.7124289195775797e-06, 'epoch': 1.01}
+{'loss': 2.1309, 'grad_norm': 1.6709166765213013, 'learning_rate': 3.710398050365557e-06, 'epoch': 1.01}
+{'loss': 2.1538, 'grad_norm': 1.7070904970169067, 'learning_rate': 3.708367181153534e-06, 'epoch': 1.01}
+{'loss': 2.1262, 'grad_norm': 1.7832821607589722, 'learning_rate': 3.7063363119415115e-06, 'epoch': 1.02}
+{'loss': 2.1142, 'grad_norm': 1.8703486919403076, 'learning_rate': 3.7043054427294884e-06, 'epoch': 1.02}
+{'loss': 2.1182, 'grad_norm': 1.692858338356018, 'learning_rate': 3.702274573517466e-06, 'epoch': 1.02}
+{'loss': 2.1189, 'grad_norm': 1.7156164646148682, 'learning_rate': 3.700243704305443e-06, 'epoch': 1.02}
+{'eval_loss': 2.2969048023223877, 'eval_runtime': 37.6673, 'eval_samples_per_second': 26.548, 'eval_steps_per_second': 1.115, 'epoch': 1.02}
+{'loss': 2.1058, 'grad_norm': 1.7443044185638428, 'learning_rate': 3.6982128350934206e-06, 'epoch': 1.02}
+{'loss': 2.2071, 'grad_norm': 2.00412917137146, 'learning_rate': 3.6961819658813975e-06, 'epoch': 1.02}
+{'loss': 2.1254, 'grad_norm': 1.7170531749725342, 'learning_rate': 3.694151096669375e-06, 'epoch': 1.02}
+{'loss': 2.1487, 'grad_norm': 1.679018497467041, 'learning_rate': 3.692120227457352e-06, 'epoch': 1.02}
+{'loss': 2.062, 'grad_norm': 1.8477305173873901, 'learning_rate': 3.6900893582453297e-06, 'epoch': 1.02}
+{'loss': 2.1418, 'grad_norm': 1.664095401763916, 'learning_rate': 3.6880584890333066e-06, 'epoch': 1.03}
+{'loss': 2.1483, 'grad_norm': 1.8831602334976196, 'learning_rate': 3.6860276198212834e-06, 'epoch': 1.03}
+{'loss': 2.146, 'grad_norm': 1.7625365257263184, 'learning_rate': 3.683996750609261e-06, 'epoch': 1.03}
+{'loss': 2.1594, 'grad_norm': 1.8168137073516846, 'learning_rate': 3.681965881397238e-06, 'epoch': 1.03}
+{'loss': 2.1168, 'grad_norm': 1.6803343296051025, 'learning_rate': 3.6799350121852157e-06, 'epoch': 1.03}
+{'eval_loss': 2.2941982746124268, 'eval_runtime': 37.7112, 'eval_samples_per_second': 26.517, 'eval_steps_per_second': 1.114, 'epoch': 1.03}
+{'loss': 2.1399, 'grad_norm': 2.0829122066497803, 'learning_rate': 3.6779041429731925e-06, 'epoch': 1.03}
+{'loss': 2.1312, 'grad_norm': 1.6813585758209229, 'learning_rate': 3.6758732737611702e-06, 'epoch': 1.03}
+{'loss': 2.1273, 'grad_norm': 1.7511613368988037, 'learning_rate': 3.673842404549147e-06, 'epoch': 1.03}
+{'loss': 2.1343, 'grad_norm': 1.8264555931091309, 'learning_rate': 3.671811535337125e-06, 'epoch': 1.03}
+{'loss': 2.2153, 'grad_norm': 1.7675082683563232, 'learning_rate': 3.6697806661251016e-06, 'epoch': 1.04}
+{'loss': 2.1575, 'grad_norm': 1.6589823961257935, 'learning_rate': 3.6677497969130793e-06, 'epoch': 1.04}
+{'loss': 2.1773, 'grad_norm': 1.6730010509490967, 'learning_rate': 3.665718927701056e-06, 'epoch': 1.04}
+{'loss': 2.1394, 'grad_norm': 1.627983570098877, 'learning_rate': 3.663688058489034e-06, 'epoch': 1.04}
+{'loss': 2.0828, 'grad_norm': 1.6363394260406494, 'learning_rate': 3.6616571892770107e-06, 'epoch': 1.04}
+{'loss': 2.1308, 'grad_norm': 1.6270133256912231, 'learning_rate': 3.659626320064988e-06, 'epoch': 1.04}
+{'eval_loss': 2.293911933898926, 'eval_runtime': 37.7095, 'eval_samples_per_second': 26.519, 'eval_steps_per_second': 1.114, 'epoch': 1.04}
+{'loss': 2.1239, 'grad_norm': 1.784549593925476, 'learning_rate': 3.6575954508529653e-06, 'epoch': 1.04}
+{'loss': 2.1573, 'grad_norm': 1.7265311479568481, 'learning_rate': 3.6555645816409426e-06, 'epoch': 1.04}
+{'loss': 2.046, 'grad_norm': 1.8133327960968018, 'learning_rate': 3.65353371242892e-06, 'epoch': 1.04}
+{'loss': 2.1471, 'grad_norm': 1.7085450887680054, 'learning_rate': 3.651502843216897e-06, 'epoch': 1.05}
+{'loss': 2.1193, 'grad_norm': 2.0099172592163086, 'learning_rate': 3.6494719740048744e-06, 'epoch': 1.05}
+{'loss': 2.1522, 'grad_norm': 1.582085132598877, 'learning_rate': 3.6474411047928517e-06, 'epoch': 1.05}
+{'loss': 2.1358, 'grad_norm': 1.7923028469085693, 'learning_rate': 3.645410235580829e-06, 'epoch': 1.05}
+{'loss': 2.1263, 'grad_norm': 1.6636080741882324, 'learning_rate': 3.6433793663688062e-06, 'epoch': 1.05}
+{'loss': 2.1369, 'grad_norm': 1.681675672531128, 'learning_rate': 3.6413484971567835e-06, 'epoch': 1.05}
+{'loss': 2.1606, 'grad_norm': 1.7007646560668945, 'learning_rate': 3.6393176279447608e-06, 'epoch': 1.05}
+{'eval_loss': 2.291552782058716, 'eval_runtime': 37.704, 'eval_samples_per_second': 26.522, 'eval_steps_per_second': 1.114, 'epoch': 1.05}
+{'loss': 2.1742, 'grad_norm': 1.632997989654541, 'learning_rate': 3.637286758732738e-06, 'epoch': 1.05}
+{'loss': 2.1555, 'grad_norm': 1.6881494522094727, 'learning_rate': 3.6352558895207153e-06, 'epoch': 1.05}
+{'loss': 2.1278, 'grad_norm': 1.6624116897583008, 'learning_rate': 3.633225020308692e-06, 'epoch': 1.06}
+{'loss': 2.1599, 'grad_norm': 1.7851325273513794, 'learning_rate': 3.63119415109667e-06, 'epoch': 1.06}
+{'loss': 2.0898, 'grad_norm': 1.7592188119888306, 'learning_rate': 3.6291632818846467e-06, 'epoch': 1.06}
+{'loss': 2.0876, 'grad_norm': 1.9573521614074707, 'learning_rate': 3.6271324126726244e-06, 'epoch': 1.06}
+{'loss': 2.1288, 'grad_norm': 1.6684988737106323, 'learning_rate': 3.6251015434606013e-06, 'epoch': 1.06}
+{'loss': 2.1166, 'grad_norm': 2.0011937618255615, 'learning_rate': 3.623070674248579e-06, 'epoch': 1.06}
+{'loss': 2.1532, 'grad_norm': 1.7490673065185547, 'learning_rate': 3.621039805036556e-06, 'epoch': 1.06}
+{'loss': 2.1486, 'grad_norm': 1.756422758102417, 'learning_rate': 3.6190089358245335e-06, 'epoch': 1.06}
+{'eval_loss': 2.29402494430542, 'eval_runtime': 37.7078, 'eval_samples_per_second': 26.52, 'eval_steps_per_second': 1.114, 'epoch': 1.06}
+{'loss': 2.1512, 'grad_norm': 2.014153480529785, 'learning_rate': 3.6169780666125104e-06, 'epoch': 1.06}
+{'loss': 2.0787, 'grad_norm': 1.6026027202606201, 'learning_rate': 3.614947197400488e-06, 'epoch': 1.07}
+{'loss': 2.1675, 'grad_norm': 1.8149386644363403, 'learning_rate': 3.612916328188465e-06, 'epoch': 1.07}
+{'loss': 2.1584, 'grad_norm': 1.697019338607788, 'learning_rate': 3.610885458976442e-06, 'epoch': 1.07}
+{'loss': 2.1048, 'grad_norm': 1.7330286502838135, 'learning_rate': 3.6088545897644195e-06, 'epoch': 1.07}
+{'loss': 2.1078, 'grad_norm': 1.650336742401123, 'learning_rate': 3.6068237205523963e-06, 'epoch': 1.07}
+{'loss': 2.1656, 'grad_norm': 1.7817063331604004, 'learning_rate': 3.604792851340374e-06, 'epoch': 1.07}
+{'loss': 2.1388, 'grad_norm': 1.818617820739746, 'learning_rate': 3.602761982128351e-06, 'epoch': 1.07}
+{'loss': 2.1022, 'grad_norm': 1.7448735237121582, 'learning_rate': 3.6007311129163286e-06, 'epoch': 1.07}
+{'loss': 2.1181, 'grad_norm': 1.8401628732681274, 'learning_rate': 3.5987002437043054e-06, 'epoch': 1.07}
+{'eval_loss': 2.2948012351989746, 'eval_runtime': 37.6902, 'eval_samples_per_second': 26.532, 'eval_steps_per_second': 1.114, 'epoch': 1.07}
+{'loss': 2.1766, 'grad_norm': 1.979794979095459, 'learning_rate': 3.596669374492283e-06, 'epoch': 1.08}
+{'loss': 2.0889, 'grad_norm': 1.7657036781311035, 'learning_rate': 3.59463850528026e-06, 'epoch': 1.08}
+{'loss': 2.159, 'grad_norm': 1.8293733596801758, 'learning_rate': 3.5926076360682377e-06, 'epoch': 1.08}
+{'loss': 2.1391, 'grad_norm': 1.7979159355163574, 'learning_rate': 3.5905767668562145e-06, 'epoch': 1.08}
+{'loss': 2.1695, 'grad_norm': 1.847598910331726, 'learning_rate': 3.5885458976441922e-06, 'epoch': 1.08}
+{'loss': 2.1745, 'grad_norm': 1.608178734779358, 'learning_rate': 3.586515028432169e-06, 'epoch': 1.08}
+{'loss': 2.0882, 'grad_norm': 1.8166873455047607, 'learning_rate': 3.5844841592201464e-06, 'epoch': 1.08}
+{'loss': 2.1244, 'grad_norm': 1.847463607788086, 'learning_rate': 3.5824532900081237e-06, 'epoch': 1.08}
+{'loss': 2.1398, 'grad_norm': 1.6194696426391602, 'learning_rate': 3.580422420796101e-06, 'epoch': 1.08}
+{'loss': 2.0774, 'grad_norm': 1.9055372476577759, 'learning_rate': 3.578391551584078e-06, 'epoch': 1.08}
+{'eval_loss': 2.2899444103240967, 'eval_runtime': 37.7237, 'eval_samples_per_second': 26.509, 'eval_steps_per_second': 1.113, 'epoch': 1.08}
+{'loss': 2.1351, 'grad_norm': 1.6451077461242676, 'learning_rate': 3.5763606823720555e-06, 'epoch': 1.09}
+{'loss': 2.1536, 'grad_norm': 1.8144199848175049, 'learning_rate': 3.5743298131600328e-06, 'epoch': 1.09}
+{'loss': 2.1485, 'grad_norm': 1.760130763053894, 'learning_rate': 3.57229894394801e-06, 'epoch': 1.09}
+{'loss': 2.1136, 'grad_norm': 1.7544556856155396, 'learning_rate': 3.5702680747359873e-06, 'epoch': 1.09}
+{'loss': 2.1366, 'grad_norm': 1.9884154796600342, 'learning_rate': 3.5682372055239646e-06, 'epoch': 1.09}
+{'loss': 2.1103, 'grad_norm': 1.72066330909729, 'learning_rate': 3.566206336311942e-06, 'epoch': 1.09}
+{'loss': 2.0905, 'grad_norm': 1.807808756828308, 'learning_rate': 3.564175467099919e-06, 'epoch': 1.09}
+{'loss': 2.1427, 'grad_norm': 2.1075172424316406, 'learning_rate': 3.5621445978878964e-06, 'epoch': 1.09}
+{'loss': 2.1124, 'grad_norm': 1.7037009000778198, 'learning_rate': 3.5601137286758737e-06, 'epoch': 1.09}
+{'loss': 2.1379, 'grad_norm': 1.842721700668335, 'learning_rate': 3.5580828594638505e-06, 'epoch': 1.1}
+{'eval_loss': 2.291067361831665, 'eval_runtime': 37.6852, 'eval_samples_per_second': 26.536, 'eval_steps_per_second': 1.114, 'epoch': 1.1}
+{'loss': 2.156, 'grad_norm': 1.802979588508606, 'learning_rate': 3.5560519902518282e-06, 'epoch': 1.1}
+{'loss': 2.1353, 'grad_norm': 1.699763298034668, 'learning_rate': 3.554021121039805e-06, 'epoch': 1.1}
+{'loss': 2.1039, 'grad_norm': 1.695544958114624, 'learning_rate': 3.551990251827783e-06, 'epoch': 1.1}
+{'loss': 2.1201, 'grad_norm': 1.9509766101837158, 'learning_rate': 3.5499593826157596e-06, 'epoch': 1.1}
+{'loss': 2.1149, 'grad_norm': 1.7657231092453003, 'learning_rate': 3.5479285134037373e-06, 'epoch': 1.1}
+{'loss': 2.1116, 'grad_norm': 1.7416653633117676, 'learning_rate': 3.545897644191714e-06, 'epoch': 1.1}
+{'loss': 2.1426, 'grad_norm': 1.804185390472412, 'learning_rate': 3.543866774979692e-06, 'epoch': 1.1}
+{'loss': 2.1132, 'grad_norm': 1.8011984825134277, 'learning_rate': 3.5418359057676687e-06, 'epoch': 1.1}
+{'loss': 2.1479, 'grad_norm': 1.9039791822433472, 'learning_rate': 3.5398050365556464e-06, 'epoch': 1.11}
+{'loss': 2.1093, 'grad_norm': 1.9513524770736694, 'learning_rate': 3.5377741673436233e-06, 'epoch': 1.11}
+{'eval_loss': 2.290522575378418, 'eval_runtime': 37.4617, 'eval_samples_per_second': 26.694, 'eval_steps_per_second': 1.121, 'epoch': 1.11}
+{'loss': 2.138, 'grad_norm': 1.7262980937957764, 'learning_rate': 3.535743298131601e-06, 'epoch': 1.11}
+{'loss': 2.1669, 'grad_norm': 1.9514356851577759, 'learning_rate': 3.533712428919578e-06, 'epoch': 1.11}
+{'loss': 2.105, 'grad_norm': 1.7947099208831787, 'learning_rate': 3.5316815597075547e-06, 'epoch': 1.11}
+{'loss': 2.1306, 'grad_norm': 1.8680298328399658, 'learning_rate': 3.5296506904955324e-06, 'epoch': 1.11}
+{'loss': 2.1681, 'grad_norm': 2.121732711791992, 'learning_rate': 3.5276198212835093e-06, 'epoch': 1.11}
+{'loss': 2.1681, 'grad_norm': 1.662564754486084, 'learning_rate': 3.525588952071487e-06, 'epoch': 1.11}
+{'loss': 2.1363, 'grad_norm': 1.8358488082885742, 'learning_rate': 3.523558082859464e-06, 'epoch': 1.11}
+{'loss': 2.1179, 'grad_norm': 1.8742910623550415, 'learning_rate': 3.5215272136474415e-06, 'epoch': 1.12}
+{'loss': 2.103, 'grad_norm': 1.8780633211135864, 'learning_rate': 3.5194963444354184e-06, 'epoch': 1.12}
+{'loss': 2.0885, 'grad_norm': 1.6979540586471558, 'learning_rate': 3.517465475223396e-06, 'epoch': 1.12}
+{'eval_loss': 2.2939751148223877, 'eval_runtime': 37.66, 'eval_samples_per_second': 26.553, 'eval_steps_per_second': 1.115, 'epoch': 1.12}
+{'loss': 2.1582, 'grad_norm': 2.494971752166748, 'learning_rate': 3.515434606011373e-06, 'epoch': 1.12}
+{'loss': 2.189, 'grad_norm': 1.9183858633041382, 'learning_rate': 3.5134037367993506e-06, 'epoch': 1.12}
+{'loss': 2.1503, 'grad_norm': 1.9055982828140259, 'learning_rate': 3.5113728675873275e-06, 'epoch': 1.12}
+{'loss': 2.1414, 'grad_norm': 2.118046522140503, 'learning_rate': 3.5093419983753047e-06, 'epoch': 1.12}
+{'loss': 2.09, 'grad_norm': 1.8413280248641968, 'learning_rate': 3.507311129163282e-06, 'epoch': 1.12}
+{'loss': 2.132, 'grad_norm': 2.0261356830596924, 'learning_rate': 3.5052802599512593e-06, 'epoch': 1.12}
+{'loss': 2.1366, 'grad_norm': 1.8393104076385498, 'learning_rate': 3.5032493907392366e-06, 'epoch': 1.13}
+{'loss': 2.0758, 'grad_norm': 2.0282111167907715, 'learning_rate': 3.501218521527214e-06, 'epoch': 1.13}
+{'loss': 2.1294, 'grad_norm': 1.8438650369644165, 'learning_rate': 3.499187652315191e-06, 'epoch': 1.13}
+{'loss': 2.1591, 'grad_norm': 1.890739917755127, 'learning_rate': 3.4971567831031684e-06, 'epoch': 1.13}
+{'eval_loss': 2.2894623279571533, 'eval_runtime': 37.6941, 'eval_samples_per_second': 26.529, 'eval_steps_per_second': 1.114, 'epoch': 1.13}
+{'loss': 2.0823, 'grad_norm': 1.877964973449707, 'learning_rate': 3.4951259138911457e-06, 'epoch': 1.13}
+{'loss': 2.1758, 'grad_norm': 1.7460334300994873, 'learning_rate': 3.493095044679123e-06, 'epoch': 1.13}
+{'loss': 2.0461, 'grad_norm': 1.668459415435791, 'learning_rate': 3.4910641754671002e-06, 'epoch': 1.13}
+{'loss': 2.1394, 'grad_norm': 1.9560495615005493, 'learning_rate': 3.4890333062550775e-06, 'epoch': 1.13}
+{'loss': 2.0735, 'grad_norm': 1.820432424545288, 'learning_rate': 3.4870024370430548e-06, 'epoch': 1.13}
+{'loss': 2.1196, 'grad_norm': 1.7064971923828125, 'learning_rate': 3.484971567831032e-06, 'epoch': 1.14}
+{'loss': 2.1562, 'grad_norm': 1.837594747543335, 'learning_rate': 3.482940698619009e-06, 'epoch': 1.14}
+{'loss': 2.1253, 'grad_norm': 1.7570106983184814, 'learning_rate': 3.4809098294069866e-06, 'epoch': 1.14}
+{'loss': 2.1369, 'grad_norm': 1.7931634187698364, 'learning_rate': 3.4788789601949634e-06, 'epoch': 1.14}
+{'loss': 2.1204, 'grad_norm': 1.957241177558899, 'learning_rate': 3.476848090982941e-06, 'epoch': 1.14}
+{'eval_loss': 2.2888705730438232, 'eval_runtime': 37.7002, 'eval_samples_per_second': 26.525, 'eval_steps_per_second': 1.114, 'epoch': 1.14}
+{'loss': 2.2008, 'grad_norm': 1.7801663875579834, 'learning_rate': 3.474817221770918e-06, 'epoch': 1.14}
+{'loss': 2.1451, 'grad_norm': 1.654398798942566, 'learning_rate': 3.4727863525588957e-06, 'epoch': 1.14}
+{'loss': 2.1318, 'grad_norm': 1.8888044357299805, 'learning_rate': 3.4707554833468725e-06, 'epoch': 1.14}
+{'loss': 2.1051, 'grad_norm': 1.8398077487945557, 'learning_rate': 3.4687246141348502e-06, 'epoch': 1.14}
+{'loss': 2.119, 'grad_norm': 1.6971104145050049, 'learning_rate': 3.466693744922827e-06, 'epoch': 1.15}
+{'loss': 2.1343, 'grad_norm': 1.605700969696045, 'learning_rate': 3.464662875710805e-06, 'epoch': 1.15}
+{'loss': 2.1331, 'grad_norm': 1.8513860702514648, 'learning_rate': 3.4626320064987817e-06, 'epoch': 1.15}
+{'loss': 2.1367, 'grad_norm': 1.7160199880599976, 'learning_rate': 3.4606011372867594e-06, 'epoch': 1.15}
+{'loss': 2.1183, 'grad_norm': 1.5926575660705566, 'learning_rate': 3.458570268074736e-06, 'epoch': 1.15}
+{'loss': 2.1107, 'grad_norm': 1.663843035697937, 'learning_rate': 3.4565393988627135e-06, 'epoch': 1.15}
+{'eval_loss': 2.286076545715332, 'eval_runtime': 37.6944, 'eval_samples_per_second': 26.529, 'eval_steps_per_second': 1.114, 'epoch': 1.15}
+{'loss': 2.0912, 'grad_norm': 1.7697075605392456, 'learning_rate': 3.4545085296506908e-06, 'epoch': 1.15}
+{'loss': 2.1508, 'grad_norm': 1.626094937324524, 'learning_rate': 3.452477660438668e-06, 'epoch': 1.15}
+{'loss': 2.0819, 'grad_norm': 1.9503792524337769, 'learning_rate': 3.4504467912266453e-06, 'epoch': 1.15}
+{'loss': 2.1233, 'grad_norm': 1.7748280763626099, 'learning_rate': 3.4484159220146226e-06, 'epoch': 1.16}
+{'loss': 2.1245, 'grad_norm': 2.099339008331299, 'learning_rate': 3.4463850528026e-06, 'epoch': 1.16}
+{'loss': 2.1437, 'grad_norm': 1.6200031042099, 'learning_rate': 3.444354183590577e-06, 'epoch': 1.16}
+{'loss': 2.0874, 'grad_norm': 1.7703361511230469, 'learning_rate': 3.4423233143785544e-06, 'epoch': 1.16}
+{'loss': 2.0655, 'grad_norm': 1.6505805253982544, 'learning_rate': 3.4402924451665317e-06, 'epoch': 1.16}
+{'loss': 2.1383, 'grad_norm': 1.7199327945709229, 'learning_rate': 3.438261575954509e-06, 'epoch': 1.16}
+{'loss': 2.1673, 'grad_norm': 1.772292137145996, 'learning_rate': 3.4362307067424862e-06, 'epoch': 1.16}
+{'eval_loss': 2.2869999408721924, 'eval_runtime': 37.7398, 'eval_samples_per_second': 26.497, 'eval_steps_per_second': 1.113, 'epoch': 1.16}
+{'loss': 2.1331, 'grad_norm': 1.5849649906158447, 'learning_rate': 3.434199837530463e-06, 'epoch': 1.16}
+{'loss': 2.0832, 'grad_norm': 1.8389405012130737, 'learning_rate': 3.432168968318441e-06, 'epoch': 1.16}
+{'loss': 2.1447, 'grad_norm': 1.7142471075057983, 'learning_rate': 3.4301380991064176e-06, 'epoch': 1.16}
+{'loss': 2.1591, 'grad_norm': 1.7853225469589233, 'learning_rate': 3.4281072298943953e-06, 'epoch': 1.17}
+{'loss': 2.1684, 'grad_norm': 1.8228695392608643, 'learning_rate': 3.426076360682372e-06, 'epoch': 1.17}
+{'loss': 2.1339, 'grad_norm': 1.7090480327606201, 'learning_rate': 3.42404549147035e-06, 'epoch': 1.17}
+{'loss': 2.075, 'grad_norm': 1.642682433128357, 'learning_rate': 3.4220146222583267e-06, 'epoch': 1.17}
+{'loss': 2.1128, 'grad_norm': 1.8230397701263428, 'learning_rate': 3.4199837530463044e-06, 'epoch': 1.17}
+{'loss': 2.1885, 'grad_norm': 1.761135458946228, 'learning_rate': 3.4179528838342813e-06, 'epoch': 1.17}
+{'loss': 2.1584, 'grad_norm': 1.7829216718673706, 'learning_rate': 3.415922014622259e-06, 'epoch': 1.17}
+{'eval_loss': 2.2878382205963135, 'eval_runtime': 37.7433, 'eval_samples_per_second': 26.495, 'eval_steps_per_second': 1.113, 'epoch': 1.17}
+{'loss': 2.1602, 'grad_norm': 1.5480386018753052, 'learning_rate': 3.413891145410236e-06, 'epoch': 1.17}
+{'loss': 2.1706, 'grad_norm': 1.8957836627960205, 'learning_rate': 3.4118602761982135e-06, 'epoch': 1.17}
+{'loss': 2.1339, 'grad_norm': 1.924424648284912, 'learning_rate': 3.4098294069861904e-06, 'epoch': 1.18}
+{'loss': 2.1175, 'grad_norm': 1.660370111465454, 'learning_rate': 3.4077985377741673e-06, 'epoch': 1.18}
+{'loss': 2.1672, 'grad_norm': 1.7255185842514038, 'learning_rate': 3.405767668562145e-06, 'epoch': 1.18}
+{'loss': 2.1527, 'grad_norm': 1.8028507232666016, 'learning_rate': 3.403736799350122e-06, 'epoch': 1.18}
+{'loss': 2.1031, 'grad_norm': 1.7100828886032104, 'learning_rate': 3.4017059301380995e-06, 'epoch': 1.18}
+{'loss': 2.1829, 'grad_norm': 1.785955548286438, 'learning_rate': 3.3996750609260764e-06, 'epoch': 1.18}
+{'loss': 2.1198, 'grad_norm': 1.8583980798721313, 'learning_rate': 3.397644191714054e-06, 'epoch': 1.18}
+{'loss': 2.123, 'grad_norm': 1.8848942518234253, 'learning_rate': 3.395613322502031e-06, 'epoch': 1.18}
+{'eval_loss': 2.288412094116211, 'eval_runtime': 37.7637, 'eval_samples_per_second': 26.48, 'eval_steps_per_second': 1.112, 'epoch': 1.18}
+{'loss': 2.1087, 'grad_norm': 1.6747279167175293, 'learning_rate': 3.3935824532900086e-06, 'epoch': 1.18}
+{'loss': 2.1316, 'grad_norm': 1.8993490934371948, 'learning_rate': 3.3915515840779855e-06, 'epoch': 1.19}
+{'loss': 2.1242, 'grad_norm': 1.7047377824783325, 'learning_rate': 3.389520714865963e-06, 'epoch': 1.19}
+{'loss': 2.1556, 'grad_norm': 1.767811894416809, 'learning_rate': 3.38748984565394e-06, 'epoch': 1.19}
+{'loss': 2.101, 'grad_norm': 1.665313720703125, 'learning_rate': 3.3854589764419177e-06, 'epoch': 1.19}
+{'loss': 2.1307, 'grad_norm': 1.7752090692520142, 'learning_rate': 3.3834281072298946e-06, 'epoch': 1.19}
+{'loss': 2.1093, 'grad_norm': 1.9759247303009033, 'learning_rate': 3.381397238017872e-06, 'epoch': 1.19}
+{'loss': 2.1851, 'grad_norm': 1.8772896528244019, 'learning_rate': 3.379366368805849e-06, 'epoch': 1.19}
+{'loss': 2.1433, 'grad_norm': 1.7442713975906372, 'learning_rate': 3.3773354995938264e-06, 'epoch': 1.19}
+{'loss': 2.1246, 'grad_norm': 1.8106931447982788, 'learning_rate': 3.3753046303818037e-06, 'epoch': 1.19}
+{'eval_loss': 2.2858333587646484, 'eval_runtime': 37.7434, 'eval_samples_per_second': 26.495, 'eval_steps_per_second': 1.113, 'epoch': 1.19}
+{'loss': 2.1325, 'grad_norm': 1.7938610315322876, 'learning_rate': 3.373273761169781e-06, 'epoch': 1.2}
+{'loss': 2.1036, 'grad_norm': 1.5760858058929443, 'learning_rate': 3.3712428919577582e-06, 'epoch': 1.2}
+{'loss': 2.1509, 'grad_norm': 1.8173094987869263, 'learning_rate': 3.3692120227457355e-06, 'epoch': 1.2}
+{'loss': 2.0883, 'grad_norm': 2.0316812992095947, 'learning_rate': 3.3671811535337128e-06, 'epoch': 1.2}
+{'loss': 2.1038, 'grad_norm': 1.7735658884048462, 'learning_rate': 3.36515028432169e-06, 'epoch': 1.2}
+{'loss': 2.1393, 'grad_norm': 1.752718210220337, 'learning_rate': 3.3631194151096673e-06, 'epoch': 1.2}
+{'loss': 2.1641, 'grad_norm': 1.778838872909546, 'learning_rate': 3.3610885458976446e-06, 'epoch': 1.2}
+{'loss': 2.1624, 'grad_norm': 1.7422083616256714, 'learning_rate': 3.359057676685622e-06, 'epoch': 1.2}
+{'loss': 2.0845, 'grad_norm': 1.7196860313415527, 'learning_rate': 3.357026807473599e-06, 'epoch': 1.2}
+{'loss': 2.1092, 'grad_norm': 1.8373215198516846, 'learning_rate': 3.354995938261576e-06, 'epoch': 1.21}
+{'eval_loss': 2.285470485687256, 'eval_runtime': 37.728, 'eval_samples_per_second': 26.505, 'eval_steps_per_second': 1.113, 'epoch': 1.21}
+{'loss': 2.0789, 'grad_norm': 1.626450538635254, 'learning_rate': 3.3529650690495537e-06, 'epoch': 1.21}
+{'loss': 2.1227, 'grad_norm': 1.736264705657959, 'learning_rate': 3.3509341998375305e-06, 'epoch': 1.21}
+{'loss': 2.1301, 'grad_norm': 1.6195942163467407, 'learning_rate': 3.3489033306255082e-06, 'epoch': 1.21}
+{'loss': 2.1059, 'grad_norm': 1.6958918571472168, 'learning_rate': 3.346872461413485e-06, 'epoch': 1.21}
+{'loss': 2.0917, 'grad_norm': 1.6385109424591064, 'learning_rate': 3.344841592201463e-06, 'epoch': 1.21}
+{'loss': 2.1204, 'grad_norm': 1.6833516359329224, 'learning_rate': 3.3428107229894397e-06, 'epoch': 1.21}
+{'loss': 2.138, 'grad_norm': 1.724780559539795, 'learning_rate': 3.3407798537774174e-06, 'epoch': 1.21}
+{'loss': 2.1628, 'grad_norm': 1.7483834028244019, 'learning_rate': 3.338748984565394e-06, 'epoch': 1.21}
+{'loss': 2.1738, 'grad_norm': 1.6398268938064575, 'learning_rate': 3.336718115353372e-06, 'epoch': 1.22}
+{'loss': 2.1182, 'grad_norm': 1.6916258335113525, 'learning_rate': 3.3346872461413488e-06, 'epoch': 1.22}
+{'eval_loss': 2.285295009613037, 'eval_runtime': 37.508, 'eval_samples_per_second': 26.661, 'eval_steps_per_second': 1.12, 'epoch': 1.22}
+{'loss': 2.1085, 'grad_norm': 1.764147400856018, 'learning_rate': 3.3326563769293256e-06, 'epoch': 1.22}
+{'loss': 2.1208, 'grad_norm': 1.5984162092208862, 'learning_rate': 3.3306255077173033e-06, 'epoch': 1.22}
+{'loss': 2.1226, 'grad_norm': 1.6280403137207031, 'learning_rate': 3.32859463850528e-06, 'epoch': 1.22}
+{'loss': 2.071, 'grad_norm': 1.5922425985336304, 'learning_rate': 3.326563769293258e-06, 'epoch': 1.22}
+{'loss': 2.1059, 'grad_norm': 1.5941506624221802, 'learning_rate': 3.3245329000812347e-06, 'epoch': 1.22}
+{'loss': 2.1192, 'grad_norm': 1.7812453508377075, 'learning_rate': 3.3225020308692124e-06, 'epoch': 1.22}
+{'loss': 2.0898, 'grad_norm': 1.6033459901809692, 'learning_rate': 3.3204711616571893e-06, 'epoch': 1.22}
+{'loss': 2.1237, 'grad_norm': 1.7053911685943604, 'learning_rate': 3.318440292445167e-06, 'epoch': 1.23}
+{'loss': 2.1014, 'grad_norm': 1.699777364730835, 'learning_rate': 3.316409423233144e-06, 'epoch': 1.23}
+{'loss': 2.1777, 'grad_norm': 1.7440428733825684, 'learning_rate': 3.3143785540211215e-06, 'epoch': 1.23}
+{'eval_loss': 2.2857329845428467, 'eval_runtime': 37.7298, 'eval_samples_per_second': 26.504, 'eval_steps_per_second': 1.113, 'epoch': 1.23}
+{'loss': 2.1373, 'grad_norm': 1.6901912689208984, 'learning_rate': 3.3123476848090984e-06, 'epoch': 1.23}
+{'loss': 2.1285, 'grad_norm': 1.5694825649261475, 'learning_rate': 3.310316815597076e-06, 'epoch': 1.23}
+{'loss': 2.1858, 'grad_norm': 1.6858313083648682, 'learning_rate': 3.308285946385053e-06, 'epoch': 1.23}
+{'loss': 2.0793, 'grad_norm': 1.6308691501617432, 'learning_rate': 3.30625507717303e-06, 'epoch': 1.23}
+{'loss': 2.1445, 'grad_norm': 1.6708226203918457, 'learning_rate': 3.3042242079610075e-06, 'epoch': 1.23}
+{'loss': 2.159, 'grad_norm': 1.7215708494186401, 'learning_rate': 3.3021933387489847e-06, 'epoch': 1.23}
+{'loss': 2.0993, 'grad_norm': 1.5764784812927246, 'learning_rate': 3.300162469536962e-06, 'epoch': 1.24}
+{'loss': 2.1643, 'grad_norm': 1.6322427988052368, 'learning_rate': 3.2981316003249393e-06, 'epoch': 1.24}
+{'loss': 2.1332, 'grad_norm': 1.6528997421264648, 'learning_rate': 3.2961007311129166e-06, 'epoch': 1.24}
+{'loss': 2.1875, 'grad_norm': 1.6434602737426758, 'learning_rate': 3.294069861900894e-06, 'epoch': 1.24}
+{'eval_loss': 2.2840054035186768, 'eval_runtime': 37.7227, 'eval_samples_per_second': 26.509, 'eval_steps_per_second': 1.113, 'epoch': 1.24}
+{'loss': 2.1396, 'grad_norm': 1.6974412202835083, 'learning_rate': 3.292038992688871e-06, 'epoch': 1.24}
+{'loss': 2.1448, 'grad_norm': 1.7754731178283691, 'learning_rate': 3.2900081234768484e-06, 'epoch': 1.24}
+{'loss': 2.1665, 'grad_norm': 1.5928994417190552, 'learning_rate': 3.2879772542648257e-06, 'epoch': 1.24}
+{'loss': 2.0787, 'grad_norm': 1.609265685081482, 'learning_rate': 3.285946385052803e-06, 'epoch': 1.24}
+{'loss': 2.1453, 'grad_norm': 1.7366653680801392, 'learning_rate': 3.2839155158407802e-06, 'epoch': 1.24}
+{'loss': 2.0705, 'grad_norm': 1.5945746898651123, 'learning_rate': 3.2818846466287575e-06, 'epoch': 1.24}
+{'loss': 2.1802, 'grad_norm': 1.55001962184906, 'learning_rate': 3.2798537774167344e-06, 'epoch': 1.25}
+{'loss': 2.1205, 'grad_norm': 1.6575016975402832, 'learning_rate': 3.277822908204712e-06, 'epoch': 1.25}
+{'loss': 2.0747, 'grad_norm': 1.7479991912841797, 'learning_rate': 3.275792038992689e-06, 'epoch': 1.25}
+{'loss': 2.1263, 'grad_norm': 1.5351295471191406, 'learning_rate': 3.2737611697806666e-06, 'epoch': 1.25}
+{'eval_loss': 2.286621570587158, 'eval_runtime': 37.744, 'eval_samples_per_second': 26.494, 'eval_steps_per_second': 1.113, 'epoch': 1.25}
+{'loss': 2.0967, 'grad_norm': 1.6440327167510986, 'learning_rate': 3.2717303005686435e-06, 'epoch': 1.25}
+{'loss': 2.1375, 'grad_norm': 1.6527445316314697, 'learning_rate': 3.269699431356621e-06, 'epoch': 1.25}
+{'loss': 2.1292, 'grad_norm': 1.6786249876022339, 'learning_rate': 3.267668562144598e-06, 'epoch': 1.25}
+{'loss': 2.1008, 'grad_norm': 1.693476676940918, 'learning_rate': 3.2656376929325757e-06, 'epoch': 1.25}
+{'loss': 2.1504, 'grad_norm': 1.5634204149246216, 'learning_rate': 3.2636068237205526e-06, 'epoch': 1.25}
+{'loss': 2.1347, 'grad_norm': 1.6024060249328613, 'learning_rate': 3.2615759545085303e-06, 'epoch': 1.26}
+{'loss': 2.1722, 'grad_norm': 1.7107738256454468, 'learning_rate': 3.259545085296507e-06, 'epoch': 1.26}
+{'loss': 2.0948, 'grad_norm': 1.6810829639434814, 'learning_rate': 3.257514216084484e-06, 'epoch': 1.26}
+{'loss': 2.1677, 'grad_norm': 1.6437987089157104, 'learning_rate': 3.2554833468724617e-06, 'epoch': 1.26}
+{'loss': 2.136, 'grad_norm': 1.6707998514175415, 'learning_rate': 3.2534524776604385e-06, 'epoch': 1.26}
+{'eval_loss': 2.2854597568511963, 'eval_runtime': 37.72, 'eval_samples_per_second': 26.511, 'eval_steps_per_second': 1.113, 'epoch': 1.26}
+{'loss': 2.1278, 'grad_norm': 1.653172492980957, 'learning_rate': 3.2514216084484162e-06, 'epoch': 1.26}
+{'loss': 2.1401, 'grad_norm': 1.6651742458343506, 'learning_rate': 3.249390739236393e-06, 'epoch': 1.26}
+{'loss': 2.1067, 'grad_norm': 1.6661403179168701, 'learning_rate': 3.2473598700243708e-06, 'epoch': 1.26}
+{'loss': 2.1309, 'grad_norm': 1.6470211744308472, 'learning_rate': 3.2453290008123476e-06, 'epoch': 1.26}
+{'loss': 2.139, 'grad_norm': 1.8089711666107178, 'learning_rate': 3.2432981316003253e-06, 'epoch': 1.27}
+{'loss': 2.0906, 'grad_norm': 1.7904900312423706, 'learning_rate': 3.241267262388302e-06, 'epoch': 1.27}
+{'loss': 2.1263, 'grad_norm': 1.6502841711044312, 'learning_rate': 3.23923639317628e-06, 'epoch': 1.27}
+{'loss': 2.098, 'grad_norm': 1.5825791358947754, 'learning_rate': 3.2372055239642567e-06, 'epoch': 1.27}
+{'loss': 2.1367, 'grad_norm': 1.7173693180084229, 'learning_rate': 3.2351746547522344e-06, 'epoch': 1.27}
+{'loss': 2.1914, 'grad_norm': 1.766738772392273, 'learning_rate': 3.2331437855402113e-06, 'epoch': 1.27}
+{'eval_loss': 2.282374858856201, 'eval_runtime': 37.7395, 'eval_samples_per_second': 26.497, 'eval_steps_per_second': 1.113, 'epoch': 1.27}
+{'loss': 2.0959, 'grad_norm': 1.6669079065322876, 'learning_rate': 3.2311129163281885e-06, 'epoch': 1.27}
+{'loss': 2.1431, 'grad_norm': 1.7150713205337524, 'learning_rate': 3.229082047116166e-06, 'epoch': 1.27}
+{'loss': 2.1239, 'grad_norm': 1.5927042961120605, 'learning_rate': 3.227051177904143e-06, 'epoch': 1.27}
+{'loss': 2.1307, 'grad_norm': 1.8086377382278442, 'learning_rate': 3.2250203086921204e-06, 'epoch': 1.28}
+{'loss': 2.1632, 'grad_norm': 1.8078030347824097, 'learning_rate': 3.2229894394800977e-06, 'epoch': 1.28}
+{'loss': 2.0663, 'grad_norm': 1.7087128162384033, 'learning_rate': 3.220958570268075e-06, 'epoch': 1.28}
+{'loss': 2.1225, 'grad_norm': 1.8242524862289429, 'learning_rate': 3.218927701056052e-06, 'epoch': 1.28}
+{'loss': 2.0586, 'grad_norm': 1.6094539165496826, 'learning_rate': 3.2168968318440295e-06, 'epoch': 1.28}
+{'loss': 2.1632, 'grad_norm': 1.8592051267623901, 'learning_rate': 3.2148659626320068e-06, 'epoch': 1.28}
+{'loss': 2.1002, 'grad_norm': 1.6238080263137817, 'learning_rate': 3.212835093419984e-06, 'epoch': 1.28}
+{'eval_loss': 2.285175323486328, 'eval_runtime': 37.7569, 'eval_samples_per_second': 26.485, 'eval_steps_per_second': 1.112, 'epoch': 1.28}
+{'loss': 2.1094, 'grad_norm': 1.631516933441162, 'learning_rate': 3.2108042242079613e-06, 'epoch': 1.28}
+{'loss': 2.1614, 'grad_norm': 1.6518285274505615, 'learning_rate': 3.2087733549959386e-06, 'epoch': 1.28}
+{'loss': 2.0863, 'grad_norm': 1.64463210105896, 'learning_rate': 3.206742485783916e-06, 'epoch': 1.29}
+{'loss': 2.0795, 'grad_norm': 1.5903335809707642, 'learning_rate': 3.2047116165718927e-06, 'epoch': 1.29}
+{'loss': 2.1352, 'grad_norm': 1.6504883766174316, 'learning_rate': 3.2026807473598704e-06, 'epoch': 1.29}
+{'loss': 2.1511, 'grad_norm': 1.7765742540359497, 'learning_rate': 3.2006498781478473e-06, 'epoch': 1.29}
+{'loss': 2.0768, 'grad_norm': 1.7253892421722412, 'learning_rate': 3.198619008935825e-06, 'epoch': 1.29}
+{'loss': 2.1196, 'grad_norm': 1.7327924966812134, 'learning_rate': 3.196588139723802e-06, 'epoch': 1.29}
+{'loss': 2.1398, 'grad_norm': 1.6659244298934937, 'learning_rate': 3.1945572705117795e-06, 'epoch': 1.29}
+{'loss': 2.1382, 'grad_norm': 1.8803845643997192, 'learning_rate': 3.1925264012997564e-06, 'epoch': 1.29}
+{'eval_loss': 2.284956455230713, 'eval_runtime': 37.7442, 'eval_samples_per_second': 26.494, 'eval_steps_per_second': 1.113, 'epoch': 1.29}
+{'loss': 2.1403, 'grad_norm': 1.6562074422836304, 'learning_rate': 3.190495532087734e-06, 'epoch': 1.29}
+{'loss': 2.1782, 'grad_norm': 1.6407029628753662, 'learning_rate': 3.188464662875711e-06, 'epoch': 1.3}
+{'loss': 2.1129, 'grad_norm': 1.638464331626892, 'learning_rate': 3.1864337936636886e-06, 'epoch': 1.3}
+{'loss': 2.0967, 'grad_norm': 1.6085008382797241, 'learning_rate': 3.1844029244516655e-06, 'epoch': 1.3}
+{'loss': 2.0906, 'grad_norm': 1.9340208768844604, 'learning_rate': 3.182372055239643e-06, 'epoch': 1.3}
+{'loss': 2.1519, 'grad_norm': 1.6958277225494385, 'learning_rate': 3.18034118602762e-06, 'epoch': 1.3}
+{'loss': 2.1286, 'grad_norm': 1.6682950258255005, 'learning_rate': 3.1783103168155973e-06, 'epoch': 1.3}
+{'loss': 2.1153, 'grad_norm': 1.7564821243286133, 'learning_rate': 3.1762794476035746e-06, 'epoch': 1.3}
+{'loss': 2.112, 'grad_norm': 1.765539526939392, 'learning_rate': 3.174248578391552e-06, 'epoch': 1.3}
+{'loss': 2.1169, 'grad_norm': 1.8028367757797241, 'learning_rate': 3.172217709179529e-06, 'epoch': 1.3}
+{'eval_loss': 2.2839744091033936, 'eval_runtime': 37.7782, 'eval_samples_per_second': 26.47, 'eval_steps_per_second': 1.112, 'epoch': 1.3}
+{'loss': 2.1147, 'grad_norm': 1.6870243549346924, 'learning_rate': 3.1701868399675064e-06, 'epoch': 1.31}
+{'loss': 2.081, 'grad_norm': 1.6161645650863647, 'learning_rate': 3.1681559707554837e-06, 'epoch': 1.31}
+{'loss': 2.139, 'grad_norm': 1.5438032150268555, 'learning_rate': 3.166125101543461e-06, 'epoch': 1.31}
+{'loss': 2.1346, 'grad_norm': 1.6329416036605835, 'learning_rate': 3.1640942323314382e-06, 'epoch': 1.31}
+{'loss': 2.0906, 'grad_norm': 1.6933001279830933, 'learning_rate': 3.1620633631194155e-06, 'epoch': 1.31}
+{'loss': 2.1191, 'grad_norm': 1.5968612432479858, 'learning_rate': 3.1600324939073928e-06, 'epoch': 1.31}
+{'loss': 2.1253, 'grad_norm': 1.654739499092102, 'learning_rate': 3.15800162469537e-06, 'epoch': 1.31}
+{'loss': 2.1326, 'grad_norm': 1.6595433950424194, 'learning_rate': 3.155970755483347e-06, 'epoch': 1.31}
+{'loss': 2.1427, 'grad_norm': 1.5709439516067505, 'learning_rate': 3.1539398862713246e-06, 'epoch': 1.31}
+{'loss': 2.1311, 'grad_norm': 1.7586764097213745, 'learning_rate': 3.1519090170593015e-06, 'epoch': 1.32}
+{'eval_loss': 2.2803795337677, 'eval_runtime': 37.7752, 'eval_samples_per_second': 26.472, 'eval_steps_per_second': 1.112, 'epoch': 1.32}
+{'loss': 2.1679, 'grad_norm': 1.675703763961792, 'learning_rate': 3.149878147847279e-06, 'epoch': 1.32}
+{'loss': 2.1889, 'grad_norm': 1.632204294204712, 'learning_rate': 3.147847278635256e-06, 'epoch': 1.32}
+{'loss': 2.1186, 'grad_norm': 1.6142032146453857, 'learning_rate': 3.1458164094232337e-06, 'epoch': 1.32}
+{'loss': 2.0699, 'grad_norm': 1.5145642757415771, 'learning_rate': 3.1437855402112106e-06, 'epoch': 1.32}
+{'loss': 2.1435, 'grad_norm': 1.6954951286315918, 'learning_rate': 3.1417546709991883e-06, 'epoch': 1.32}
+{'loss': 2.1105, 'grad_norm': 1.5725785493850708, 'learning_rate': 3.139723801787165e-06, 'epoch': 1.32}
+{'loss': 2.1526, 'grad_norm': 1.6296924352645874, 'learning_rate': 3.137692932575143e-06, 'epoch': 1.32}
+{'loss': 2.0966, 'grad_norm': 1.758583426475525, 'learning_rate': 3.1356620633631197e-06, 'epoch': 1.32}
+{'loss': 2.1227, 'grad_norm': 1.6128432750701904, 'learning_rate': 3.1336311941510974e-06, 'epoch': 1.32}
+{'loss': 2.1557, 'grad_norm': 1.6251143217086792, 'learning_rate': 3.1316003249390742e-06, 'epoch': 1.33}
+{'eval_loss': 2.277153253555298, 'eval_runtime': 37.4484, 'eval_samples_per_second': 26.703, 'eval_steps_per_second': 1.122, 'epoch': 1.33}
+{'loss': 2.1515, 'grad_norm': 1.6224772930145264, 'learning_rate': 3.129569455727051e-06, 'epoch': 1.33}
+{'loss': 2.1415, 'grad_norm': 1.6408687829971313, 'learning_rate': 3.1275385865150288e-06, 'epoch': 1.33}
+{'loss': 2.1369, 'grad_norm': 1.5633060932159424, 'learning_rate': 3.1255077173030056e-06, 'epoch': 1.33}
+{'loss': 2.1302, 'grad_norm': 1.6440671682357788, 'learning_rate': 3.1234768480909833e-06, 'epoch': 1.33}
+{'loss': 2.1359, 'grad_norm': 1.6065458059310913, 'learning_rate': 3.12144597887896e-06, 'epoch': 1.33}
+{'loss': 2.1669, 'grad_norm': 1.6209193468093872, 'learning_rate': 3.119415109666938e-06, 'epoch': 1.33}
+{'loss': 2.1318, 'grad_norm': 1.745129942893982, 'learning_rate': 3.1173842404549147e-06, 'epoch': 1.33}
+{'loss': 2.1318, 'grad_norm': 1.6090255975723267, 'learning_rate': 3.1153533712428924e-06, 'epoch': 1.33}
+{'loss': 2.152, 'grad_norm': 1.5840481519699097, 'learning_rate': 3.1133225020308693e-06, 'epoch': 1.34}
+{'loss': 2.1597, 'grad_norm': 1.6378774642944336, 'learning_rate': 3.111291632818847e-06, 'epoch': 1.34}
+{'eval_loss': 2.2799103260040283, 'eval_runtime': 37.6598, 'eval_samples_per_second': 26.554, 'eval_steps_per_second': 1.115, 'epoch': 1.34}
+{'loss': 2.1328, 'grad_norm': 1.7247775793075562, 'learning_rate': 3.109260763606824e-06, 'epoch': 1.34}
+{'loss': 2.1434, 'grad_norm': 1.6469335556030273, 'learning_rate': 3.1072298943948015e-06, 'epoch': 1.34}
+{'loss': 2.1077, 'grad_norm': 1.5268198251724243, 'learning_rate': 3.1051990251827784e-06, 'epoch': 1.34}
+{'loss': 2.1583, 'grad_norm': 1.6413369178771973, 'learning_rate': 3.1031681559707557e-06, 'epoch': 1.34}
+{'loss': 2.1625, 'grad_norm': 1.7595359086990356, 'learning_rate': 3.101137286758733e-06, 'epoch': 1.34}
+{'loss': 2.1555, 'grad_norm': 1.6333140134811401, 'learning_rate': 3.09910641754671e-06, 'epoch': 1.34}
+{'loss': 2.1403, 'grad_norm': 1.8567262887954712, 'learning_rate': 3.0970755483346875e-06, 'epoch': 1.34}
+{'loss': 2.1686, 'grad_norm': 1.5342068672180176, 'learning_rate': 3.0950446791226648e-06, 'epoch': 1.35}
+{'loss': 2.1345, 'grad_norm': 1.6217644214630127, 'learning_rate': 3.093013809910642e-06, 'epoch': 1.35}
+{'loss': 2.1769, 'grad_norm': 1.7755476236343384, 'learning_rate': 3.0909829406986193e-06, 'epoch': 1.35}
+{'eval_loss': 2.2792110443115234, 'eval_runtime': 37.6822, 'eval_samples_per_second': 26.538, 'eval_steps_per_second': 1.115, 'epoch': 1.35}
+{'loss': 2.1501, 'grad_norm': 1.4750087261199951, 'learning_rate': 3.0889520714865966e-06, 'epoch': 1.35}
+{'loss': 2.1254, 'grad_norm': 1.7657350301742554, 'learning_rate': 3.086921202274574e-06, 'epoch': 1.35}
+{'loss': 2.1004, 'grad_norm': 1.6447482109069824, 'learning_rate': 3.084890333062551e-06, 'epoch': 1.35}
+{'loss': 2.1276, 'grad_norm': 1.658786654472351, 'learning_rate': 3.0828594638505284e-06, 'epoch': 1.35}
+{'loss': 2.1067, 'grad_norm': 1.5626777410507202, 'learning_rate': 3.0808285946385057e-06, 'epoch': 1.35}
+{'loss': 2.0656, 'grad_norm': 1.7021020650863647, 'learning_rate': 3.078797725426483e-06, 'epoch': 1.35}
+{'loss': 2.1319, 'grad_norm': 1.5983797311782837, 'learning_rate': 3.07676685621446e-06, 'epoch': 1.36}
+{'loss': 2.1008, 'grad_norm': 1.5506508350372314, 'learning_rate': 3.0747359870024375e-06, 'epoch': 1.36}
+{'loss': 2.1102, 'grad_norm': 1.5998226404190063, 'learning_rate': 3.0727051177904144e-06, 'epoch': 1.36}
+{'loss': 2.1352, 'grad_norm': 1.6222437620162964, 'learning_rate': 3.070674248578392e-06, 'epoch': 1.36}
+{'eval_loss': 2.278921127319336, 'eval_runtime': 37.6613, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 1.36}
+{'loss': 2.1115, 'grad_norm': 1.600468397140503, 'learning_rate': 3.068643379366369e-06, 'epoch': 1.36}
+{'loss': 2.0887, 'grad_norm': 1.6324045658111572, 'learning_rate': 3.0666125101543466e-06, 'epoch': 1.36}
+{'loss': 2.1344, 'grad_norm': 1.7005919218063354, 'learning_rate': 3.0645816409423235e-06, 'epoch': 1.36}
+{'loss': 2.1165, 'grad_norm': 1.6483793258666992, 'learning_rate': 3.062550771730301e-06, 'epoch': 1.36}
+{'loss': 2.1137, 'grad_norm': 1.774255633354187, 'learning_rate': 3.060519902518278e-06, 'epoch': 1.36}
+{'loss': 2.0656, 'grad_norm': 1.7157840728759766, 'learning_rate': 3.0584890333062557e-06, 'epoch': 1.37}
+{'loss': 2.128, 'grad_norm': 1.6053105592727661, 'learning_rate': 3.0564581640942326e-06, 'epoch': 1.37}
+{'loss': 2.106, 'grad_norm': 1.8893406391143799, 'learning_rate': 3.0544272948822094e-06, 'epoch': 1.37}
+{'loss': 2.1422, 'grad_norm': 1.6212185621261597, 'learning_rate': 3.052396425670187e-06, 'epoch': 1.37}
+{'loss': 2.1132, 'grad_norm': 1.595241665840149, 'learning_rate': 3.050365556458164e-06, 'epoch': 1.37}
+{'eval_loss': 2.280195474624634, 'eval_runtime': 37.69, 'eval_samples_per_second': 26.532, 'eval_steps_per_second': 1.114, 'epoch': 1.37}
+{'loss': 2.1088, 'grad_norm': 1.7002182006835938, 'learning_rate': 3.0483346872461417e-06, 'epoch': 1.37}
+{'loss': 2.1371, 'grad_norm': 1.7393778562545776, 'learning_rate': 3.0463038180341185e-06, 'epoch': 1.37}
+{'loss': 2.1514, 'grad_norm': 1.5694235563278198, 'learning_rate': 3.0442729488220962e-06, 'epoch': 1.37}
+{'loss': 2.1512, 'grad_norm': 1.689393401145935, 'learning_rate': 3.042242079610073e-06, 'epoch': 1.37}
+{'loss': 2.0749, 'grad_norm': 1.6431982517242432, 'learning_rate': 3.0402112103980508e-06, 'epoch': 1.38}
+{'loss': 2.1024, 'grad_norm': 1.6122742891311646, 'learning_rate': 3.0381803411860276e-06, 'epoch': 1.38}
+{'loss': 2.1208, 'grad_norm': 1.5770806074142456, 'learning_rate': 3.0361494719740053e-06, 'epoch': 1.38}
+{'loss': 2.1209, 'grad_norm': 1.7665551900863647, 'learning_rate': 3.034118602761982e-06, 'epoch': 1.38}
+{'loss': 2.0986, 'grad_norm': 1.6896030902862549, 'learning_rate': 3.03208773354996e-06, 'epoch': 1.38}
+{'loss': 2.156, 'grad_norm': 1.7461376190185547, 'learning_rate': 3.0300568643379367e-06, 'epoch': 1.38}
+{'eval_loss': 2.27716064453125, 'eval_runtime': 37.7183, 'eval_samples_per_second': 26.512, 'eval_steps_per_second': 1.114, 'epoch': 1.38}
+{'loss': 2.1449, 'grad_norm': 1.6952084302902222, 'learning_rate': 3.028025995125914e-06, 'epoch': 1.38}
+{'loss': 2.082, 'grad_norm': 1.5834839344024658, 'learning_rate': 3.0259951259138913e-06, 'epoch': 1.38}
+{'loss': 2.126, 'grad_norm': 1.7395371198654175, 'learning_rate': 3.0239642567018686e-06, 'epoch': 1.38}
+{'loss': 2.0833, 'grad_norm': 1.6316404342651367, 'learning_rate': 3.021933387489846e-06, 'epoch': 1.39}
+{'loss': 2.1311, 'grad_norm': 1.6206353902816772, 'learning_rate': 3.019902518277823e-06, 'epoch': 1.39}
+{'loss': 2.1468, 'grad_norm': 1.632569432258606, 'learning_rate': 3.0178716490658004e-06, 'epoch': 1.39}
+{'loss': 2.0859, 'grad_norm': 1.64067804813385, 'learning_rate': 3.0158407798537777e-06, 'epoch': 1.39}
+{'loss': 2.0992, 'grad_norm': 1.54572331905365, 'learning_rate': 3.013809910641755e-06, 'epoch': 1.39}
+{'loss': 2.0895, 'grad_norm': 1.5950230360031128, 'learning_rate': 3.0117790414297322e-06, 'epoch': 1.39}
+{'loss': 2.1165, 'grad_norm': 1.8030891418457031, 'learning_rate': 3.0097481722177095e-06, 'epoch': 1.39}
+{'eval_loss': 2.2781739234924316, 'eval_runtime': 37.7428, 'eval_samples_per_second': 26.495, 'eval_steps_per_second': 1.113, 'epoch': 1.39}
+{'loss': 2.1015, 'grad_norm': 1.5848240852355957, 'learning_rate': 3.0077173030056868e-06, 'epoch': 1.39}
+{'loss': 2.1341, 'grad_norm': 1.682953953742981, 'learning_rate': 3.005686433793664e-06, 'epoch': 1.39}
+{'loss': 2.111, 'grad_norm': 1.8385032415390015, 'learning_rate': 3.0036555645816413e-06, 'epoch': 1.4}
+{'loss': 2.1418, 'grad_norm': 1.5879863500595093, 'learning_rate': 3.001624695369618e-06, 'epoch': 1.4}
+{'loss': 2.1076, 'grad_norm': 1.8076952695846558, 'learning_rate': 2.999593826157596e-06, 'epoch': 1.4}
+{'loss': 2.1415, 'grad_norm': 1.6944698095321655, 'learning_rate': 2.9975629569455727e-06, 'epoch': 1.4}
+{'loss': 2.1186, 'grad_norm': 1.7351915836334229, 'learning_rate': 2.9955320877335504e-06, 'epoch': 1.4}
+{'loss': 2.1374, 'grad_norm': 1.6877539157867432, 'learning_rate': 2.9935012185215273e-06, 'epoch': 1.4}
+{'loss': 2.114, 'grad_norm': 1.6253048181533813, 'learning_rate': 2.991470349309505e-06, 'epoch': 1.4}
+{'loss': 2.1231, 'grad_norm': 1.6599102020263672, 'learning_rate': 2.989439480097482e-06, 'epoch': 1.4}
+{'eval_loss': 2.2765634059906006, 'eval_runtime': 37.7438, 'eval_samples_per_second': 26.494, 'eval_steps_per_second': 1.113, 'epoch': 1.4}
+{'loss': 2.108, 'grad_norm': 1.6010860204696655, 'learning_rate': 2.9874086108854595e-06, 'epoch': 1.4}
+{'loss': 2.143, 'grad_norm': 1.7082704305648804, 'learning_rate': 2.9853777416734364e-06, 'epoch': 1.4}
+{'loss': 2.1582, 'grad_norm': 1.5962858200073242, 'learning_rate': 2.983346872461414e-06, 'epoch': 1.41}
+{'loss': 2.1308, 'grad_norm': 1.678695559501648, 'learning_rate': 2.981316003249391e-06, 'epoch': 1.41}
+{'loss': 2.1192, 'grad_norm': 1.8608810901641846, 'learning_rate': 2.9792851340373678e-06, 'epoch': 1.41}
+{'loss': 2.149, 'grad_norm': 1.6447912454605103, 'learning_rate': 2.9772542648253455e-06, 'epoch': 1.41}
+{'loss': 2.1073, 'grad_norm': 1.8847064971923828, 'learning_rate': 2.9752233956133223e-06, 'epoch': 1.41}
+{'loss': 2.1123, 'grad_norm': 1.76127290725708, 'learning_rate': 2.9731925264013e-06, 'epoch': 1.41}
+{'loss': 2.1123, 'grad_norm': 1.8126407861709595, 'learning_rate': 2.971161657189277e-06, 'epoch': 1.41}
+{'loss': 2.1156, 'grad_norm': 1.8271949291229248, 'learning_rate': 2.9691307879772546e-06, 'epoch': 1.41}
+{'eval_loss': 2.2737486362457275, 'eval_runtime': 37.6964, 'eval_samples_per_second': 26.528, 'eval_steps_per_second': 1.114, 'epoch': 1.41}
+{'loss': 2.0904, 'grad_norm': 1.6088656187057495, 'learning_rate': 2.9670999187652314e-06, 'epoch': 1.41}
+{'loss': 2.1669, 'grad_norm': 1.8934502601623535, 'learning_rate': 2.965069049553209e-06, 'epoch': 1.42}
+{'loss': 2.0866, 'grad_norm': 1.770875334739685, 'learning_rate': 2.963038180341186e-06, 'epoch': 1.42}
+{'loss': 2.1433, 'grad_norm': 1.6065635681152344, 'learning_rate': 2.9610073111291637e-06, 'epoch': 1.42}
+{'loss': 2.1611, 'grad_norm': 1.8257594108581543, 'learning_rate': 2.9589764419171405e-06, 'epoch': 1.42}
+{'loss': 2.0991, 'grad_norm': 1.7531297206878662, 'learning_rate': 2.9569455727051182e-06, 'epoch': 1.42}
+{'loss': 2.121, 'grad_norm': 1.6781302690505981, 'learning_rate': 2.954914703493095e-06, 'epoch': 1.42}
+{'loss': 2.1012, 'grad_norm': 1.7489228248596191, 'learning_rate': 2.9528838342810724e-06, 'epoch': 1.42}
+{'loss': 2.1066, 'grad_norm': 1.7776473760604858, 'learning_rate': 2.9508529650690496e-06, 'epoch': 1.42}
+{'loss': 2.1278, 'grad_norm': 1.7317523956298828, 'learning_rate': 2.948822095857027e-06, 'epoch': 1.42}
+{'eval_loss': 2.2755467891693115, 'eval_runtime': 37.7024, 'eval_samples_per_second': 26.524, 'eval_steps_per_second': 1.114, 'epoch': 1.42}
+{'loss': 2.0971, 'grad_norm': 1.9439119100570679, 'learning_rate': 2.946791226645004e-06, 'epoch': 1.43}
+{'loss': 2.0895, 'grad_norm': 1.683897614479065, 'learning_rate': 2.9447603574329815e-06, 'epoch': 1.43}
+{'loss': 2.1011, 'grad_norm': 1.620665192604065, 'learning_rate': 2.9427294882209587e-06, 'epoch': 1.43}
+{'loss': 2.1253, 'grad_norm': 1.9428532123565674, 'learning_rate': 2.940698619008936e-06, 'epoch': 1.43}
+{'loss': 2.1146, 'grad_norm': 1.897630214691162, 'learning_rate': 2.9386677497969133e-06, 'epoch': 1.43}
+{'loss': 2.1407, 'grad_norm': 1.767519235610962, 'learning_rate': 2.9366368805848906e-06, 'epoch': 1.43}
+{'loss': 2.1432, 'grad_norm': 1.630615234375, 'learning_rate': 2.934606011372868e-06, 'epoch': 1.43}
+{'loss': 2.1226, 'grad_norm': 1.7037104368209839, 'learning_rate': 2.932575142160845e-06, 'epoch': 1.43}
+{'loss': 2.1235, 'grad_norm': 1.5496717691421509, 'learning_rate': 2.9305442729488224e-06, 'epoch': 1.43}
+{'loss': 2.1183, 'grad_norm': 1.6394745111465454, 'learning_rate': 2.9285134037367997e-06, 'epoch': 1.44}
+{'eval_loss': 2.2730512619018555, 'eval_runtime': 37.4684, 'eval_samples_per_second': 26.689, 'eval_steps_per_second': 1.121, 'epoch': 1.44}
+{'loss': 2.1297, 'grad_norm': 1.5624728202819824, 'learning_rate': 2.9264825345247765e-06, 'epoch': 1.44}
+{'loss': 2.1299, 'grad_norm': 1.7173740863800049, 'learning_rate': 2.9244516653127542e-06, 'epoch': 1.44}
+{'loss': 2.0605, 'grad_norm': 1.5682451725006104, 'learning_rate': 2.922420796100731e-06, 'epoch': 1.44}
+{'loss': 2.1721, 'grad_norm': 1.6592832803726196, 'learning_rate': 2.9203899268887088e-06, 'epoch': 1.44}
+{'loss': 2.0873, 'grad_norm': 1.7420763969421387, 'learning_rate': 2.9183590576766856e-06, 'epoch': 1.44}
+{'loss': 2.1213, 'grad_norm': 1.6949102878570557, 'learning_rate': 2.9163281884646633e-06, 'epoch': 1.44}
+{'loss': 2.1501, 'grad_norm': 1.7273104190826416, 'learning_rate': 2.91429731925264e-06, 'epoch': 1.44}
+{'loss': 2.1252, 'grad_norm': 1.684362530708313, 'learning_rate': 2.912266450040618e-06, 'epoch': 1.44}
+{'loss': 2.1039, 'grad_norm': 1.627016305923462, 'learning_rate': 2.9102355808285947e-06, 'epoch': 1.45}
+{'loss': 2.1049, 'grad_norm': 1.8114672899246216, 'learning_rate': 2.9082047116165724e-06, 'epoch': 1.45}
+{'eval_loss': 2.273300886154175, 'eval_runtime': 37.6816, 'eval_samples_per_second': 26.538, 'eval_steps_per_second': 1.115, 'epoch': 1.45}
+{'loss': 2.1026, 'grad_norm': 1.6053475141525269, 'learning_rate': 2.9061738424045493e-06, 'epoch': 1.45}
+{'loss': 2.1683, 'grad_norm': 1.757144570350647, 'learning_rate': 2.904142973192527e-06, 'epoch': 1.45}
+{'loss': 2.1308, 'grad_norm': 1.6230170726776123, 'learning_rate': 2.902112103980504e-06, 'epoch': 1.45}
+{'loss': 2.1194, 'grad_norm': 1.5634756088256836, 'learning_rate': 2.900081234768481e-06, 'epoch': 1.45}
+{'loss': 2.1135, 'grad_norm': 1.853056788444519, 'learning_rate': 2.8980503655564584e-06, 'epoch': 1.45}
+{'loss': 2.0872, 'grad_norm': 1.6028629541397095, 'learning_rate': 2.8960194963444357e-06, 'epoch': 1.45}
+{'loss': 2.1059, 'grad_norm': 1.657346487045288, 'learning_rate': 2.893988627132413e-06, 'epoch': 1.45}
+{'loss': 2.0726, 'grad_norm': 1.6872131824493408, 'learning_rate': 2.8919577579203902e-06, 'epoch': 1.46}
+{'loss': 2.1199, 'grad_norm': 1.677079439163208, 'learning_rate': 2.8899268887083675e-06, 'epoch': 1.46}
+{'loss': 2.1231, 'grad_norm': 1.6555675268173218, 'learning_rate': 2.8878960194963448e-06, 'epoch': 1.46}
+{'eval_loss': 2.277087688446045, 'eval_runtime': 37.7399, 'eval_samples_per_second': 26.497, 'eval_steps_per_second': 1.113, 'epoch': 1.46}
+{'loss': 2.1397, 'grad_norm': 1.6812067031860352, 'learning_rate': 2.885865150284322e-06, 'epoch': 1.46}
+{'loss': 2.1005, 'grad_norm': 1.5711122751235962, 'learning_rate': 2.8838342810722993e-06, 'epoch': 1.46}
+{'loss': 2.0874, 'grad_norm': 1.7067155838012695, 'learning_rate': 2.8818034118602766e-06, 'epoch': 1.46}
+{'loss': 2.1376, 'grad_norm': 1.7551555633544922, 'learning_rate': 2.879772542648254e-06, 'epoch': 1.46}
+{'loss': 2.0595, 'grad_norm': 1.6309247016906738, 'learning_rate': 2.8777416734362307e-06, 'epoch': 1.46}
+{'loss': 2.1778, 'grad_norm': 1.6252689361572266, 'learning_rate': 2.8757108042242084e-06, 'epoch': 1.46}
+{'loss': 2.1575, 'grad_norm': 1.5928912162780762, 'learning_rate': 2.8736799350121853e-06, 'epoch': 1.47}
+{'loss': 2.1638, 'grad_norm': 1.6079543828964233, 'learning_rate': 2.871649065800163e-06, 'epoch': 1.47}
+{'loss': 2.0999, 'grad_norm': 1.628999948501587, 'learning_rate': 2.86961819658814e-06, 'epoch': 1.47}
+{'loss': 2.1282, 'grad_norm': 1.5877981185913086, 'learning_rate': 2.8675873273761175e-06, 'epoch': 1.47}
+{'eval_loss': 2.275458574295044, 'eval_runtime': 37.7539, 'eval_samples_per_second': 26.487, 'eval_steps_per_second': 1.112, 'epoch': 1.47}
+{'loss': 2.1164, 'grad_norm': 1.6038731336593628, 'learning_rate': 2.8655564581640944e-06, 'epoch': 1.47}
+{'loss': 2.1471, 'grad_norm': 1.6492732763290405, 'learning_rate': 2.863525588952072e-06, 'epoch': 1.47}
+{'loss': 2.0737, 'grad_norm': 1.647605538368225, 'learning_rate': 2.861494719740049e-06, 'epoch': 1.47}
+{'loss': 2.0784, 'grad_norm': 1.5875589847564697, 'learning_rate': 2.8594638505280266e-06, 'epoch': 1.47}
+{'loss': 2.1166, 'grad_norm': 1.660346508026123, 'learning_rate': 2.8574329813160035e-06, 'epoch': 1.47}
+{'loss': 2.1068, 'grad_norm': 1.5677483081817627, 'learning_rate': 2.855402112103981e-06, 'epoch': 1.48}
+{'loss': 2.1118, 'grad_norm': 1.6814773082733154, 'learning_rate': 2.853371242891958e-06, 'epoch': 1.48}
+{'loss': 2.1255, 'grad_norm': 1.7251765727996826, 'learning_rate': 2.851340373679935e-06, 'epoch': 1.48}
+{'loss': 2.1675, 'grad_norm': 1.6479768753051758, 'learning_rate': 2.8493095044679126e-06, 'epoch': 1.48}
+{'loss': 2.1271, 'grad_norm': 1.5761340856552124, 'learning_rate': 2.8472786352558894e-06, 'epoch': 1.48}
+{'eval_loss': 2.2767348289489746, 'eval_runtime': 37.7124, 'eval_samples_per_second': 26.516, 'eval_steps_per_second': 1.114, 'epoch': 1.48}
+{'loss': 2.0968, 'grad_norm': 1.577124834060669, 'learning_rate': 2.845247766043867e-06, 'epoch': 1.48}
+{'loss': 2.092, 'grad_norm': 1.6901545524597168, 'learning_rate': 2.843216896831844e-06, 'epoch': 1.48}
+{'loss': 2.1067, 'grad_norm': 1.582205891609192, 'learning_rate': 2.8411860276198217e-06, 'epoch': 1.48}
+{'loss': 2.1524, 'grad_norm': 1.6398444175720215, 'learning_rate': 2.8391551584077985e-06, 'epoch': 1.48}
+{'loss': 2.1523, 'grad_norm': 1.6396856307983398, 'learning_rate': 2.8371242891957762e-06, 'epoch': 1.48}
+{'loss': 2.1186, 'grad_norm': 1.7187350988388062, 'learning_rate': 2.835093419983753e-06, 'epoch': 1.49}
+{'loss': 2.1119, 'grad_norm': 1.6155378818511963, 'learning_rate': 2.833062550771731e-06, 'epoch': 1.49}
+{'loss': 2.0871, 'grad_norm': 1.6749935150146484, 'learning_rate': 2.8310316815597076e-06, 'epoch': 1.49}
+{'loss': 2.1296, 'grad_norm': 1.7644442319869995, 'learning_rate': 2.8290008123476853e-06, 'epoch': 1.49}
+{'loss': 2.1168, 'grad_norm': 1.7644187211990356, 'learning_rate': 2.826969943135662e-06, 'epoch': 1.49}
+{'eval_loss': 2.275988817214966, 'eval_runtime': 37.7569, 'eval_samples_per_second': 26.485, 'eval_steps_per_second': 1.112, 'epoch': 1.49}
+{'loss': 2.1126, 'grad_norm': 1.6250940561294556, 'learning_rate': 2.8249390739236395e-06, 'epoch': 1.49}
+{'loss': 2.1014, 'grad_norm': 1.545547366142273, 'learning_rate': 2.8229082047116167e-06, 'epoch': 1.49}
+{'loss': 2.0994, 'grad_norm': 1.6356806755065918, 'learning_rate': 2.820877335499594e-06, 'epoch': 1.49}
+{'loss': 2.0638, 'grad_norm': 1.6093254089355469, 'learning_rate': 2.8188464662875713e-06, 'epoch': 1.49}
+{'loss': 2.0873, 'grad_norm': 1.531909465789795, 'learning_rate': 2.8168155970755486e-06, 'epoch': 1.5}
+{'loss': 2.1124, 'grad_norm': 1.7620573043823242, 'learning_rate': 2.814784727863526e-06, 'epoch': 1.5}
+{'loss': 2.1308, 'grad_norm': 1.7096633911132812, 'learning_rate': 2.812753858651503e-06, 'epoch': 1.5}
+{'loss': 2.0961, 'grad_norm': 1.8180763721466064, 'learning_rate': 2.8107229894394804e-06, 'epoch': 1.5}
+{'loss': 2.0784, 'grad_norm': 1.7475993633270264, 'learning_rate': 2.8086921202274577e-06, 'epoch': 1.5}
+{'loss': 2.1298, 'grad_norm': 1.7892746925354004, 'learning_rate': 2.806661251015435e-06, 'epoch': 1.5}
+{'eval_loss': 2.2772014141082764, 'eval_runtime': 37.709, 'eval_samples_per_second': 26.519, 'eval_steps_per_second': 1.114, 'epoch': 1.5}
+{'loss': 2.1571, 'grad_norm': 1.700134038925171, 'learning_rate': 2.8046303818034122e-06, 'epoch': 1.5}
+{'loss': 2.2039, 'grad_norm': 1.7968006134033203, 'learning_rate': 2.802599512591389e-06, 'epoch': 1.5}
+{'loss': 2.1078, 'grad_norm': 1.5552955865859985, 'learning_rate': 2.8005686433793668e-06, 'epoch': 1.5}
+{'loss': 2.071, 'grad_norm': 1.6243152618408203, 'learning_rate': 2.7985377741673436e-06, 'epoch': 1.51}
+{'loss': 2.1228, 'grad_norm': 1.7453999519348145, 'learning_rate': 2.7965069049553213e-06, 'epoch': 1.51}
+{'loss': 2.158, 'grad_norm': 1.6567325592041016, 'learning_rate': 2.794476035743298e-06, 'epoch': 1.51}
+{'loss': 2.1231, 'grad_norm': 1.6160842180252075, 'learning_rate': 2.792445166531276e-06, 'epoch': 1.51}
+{'loss': 2.1466, 'grad_norm': 1.715888500213623, 'learning_rate': 2.7904142973192527e-06, 'epoch': 1.51}
+{'loss': 2.0926, 'grad_norm': 1.6263453960418701, 'learning_rate': 2.7883834281072304e-06, 'epoch': 1.51}
+{'loss': 2.0877, 'grad_norm': 1.7616580724716187, 'learning_rate': 2.7863525588952073e-06, 'epoch': 1.51}
+{'eval_loss': 2.275289535522461, 'eval_runtime': 37.722, 'eval_samples_per_second': 26.51, 'eval_steps_per_second': 1.113, 'epoch': 1.51}
+{'loss': 2.0867, 'grad_norm': 1.6861932277679443, 'learning_rate': 2.784321689683185e-06, 'epoch': 1.51}
+{'loss': 2.0957, 'grad_norm': 1.570162296295166, 'learning_rate': 2.782290820471162e-06, 'epoch': 1.51}
+{'loss': 2.1427, 'grad_norm': 1.698014259338379, 'learning_rate': 2.7802599512591395e-06, 'epoch': 1.52}
+{'loss': 2.135, 'grad_norm': 1.6773440837860107, 'learning_rate': 2.7782290820471164e-06, 'epoch': 1.52}
+{'loss': 2.132, 'grad_norm': 1.6762758493423462, 'learning_rate': 2.7761982128350932e-06, 'epoch': 1.52}
+{'loss': 2.1616, 'grad_norm': 1.5917284488677979, 'learning_rate': 2.774167343623071e-06, 'epoch': 1.52}
+{'loss': 2.0901, 'grad_norm': 1.583791732788086, 'learning_rate': 2.772136474411048e-06, 'epoch': 1.52}
+{'loss': 2.0577, 'grad_norm': 1.6780498027801514, 'learning_rate': 2.7701056051990255e-06, 'epoch': 1.52}
+{'loss': 2.1381, 'grad_norm': 1.6320325136184692, 'learning_rate': 2.7680747359870023e-06, 'epoch': 1.52}
+{'loss': 2.115, 'grad_norm': 1.7060813903808594, 'learning_rate': 2.76604386677498e-06, 'epoch': 1.52}
+{'eval_loss': 2.27346134185791, 'eval_runtime': 37.778, 'eval_samples_per_second': 26.47, 'eval_steps_per_second': 1.112, 'epoch': 1.52}
+{'loss': 2.1388, 'grad_norm': 1.6142189502716064, 'learning_rate': 2.764012997562957e-06, 'epoch': 1.52}
+{'loss': 2.0784, 'grad_norm': 1.6605664491653442, 'learning_rate': 2.7619821283509346e-06, 'epoch': 1.53}
+{'loss': 2.1461, 'grad_norm': 1.7281928062438965, 'learning_rate': 2.7599512591389114e-06, 'epoch': 1.53}
+{'loss': 2.0987, 'grad_norm': 1.6661336421966553, 'learning_rate': 2.757920389926889e-06, 'epoch': 1.53}
+{'loss': 2.0912, 'grad_norm': 1.6454191207885742, 'learning_rate': 2.755889520714866e-06, 'epoch': 1.53}
+{'loss': 2.0642, 'grad_norm': 1.6793323755264282, 'learning_rate': 2.7538586515028437e-06, 'epoch': 1.53}
+{'loss': 2.1232, 'grad_norm': 1.5941072702407837, 'learning_rate': 2.7518277822908205e-06, 'epoch': 1.53}
+{'loss': 2.1406, 'grad_norm': 1.5669342279434204, 'learning_rate': 2.749796913078798e-06, 'epoch': 1.53}
+{'loss': 2.1096, 'grad_norm': 1.5805522203445435, 'learning_rate': 2.747766043866775e-06, 'epoch': 1.53}
+{'loss': 2.15, 'grad_norm': 1.6227574348449707, 'learning_rate': 2.7457351746547524e-06, 'epoch': 1.53}
+{'eval_loss': 2.27066707611084, 'eval_runtime': 37.708, 'eval_samples_per_second': 26.52, 'eval_steps_per_second': 1.114, 'epoch': 1.53}
+{'loss': 2.193, 'grad_norm': 1.6500868797302246, 'learning_rate': 2.7437043054427297e-06, 'epoch': 1.54}
+{'loss': 2.1196, 'grad_norm': 1.6337374448776245, 'learning_rate': 2.741673436230707e-06, 'epoch': 1.54}
+{'loss': 2.0906, 'grad_norm': 1.5784432888031006, 'learning_rate': 2.739642567018684e-06, 'epoch': 1.54}
+{'loss': 2.124, 'grad_norm': 1.75803542137146, 'learning_rate': 2.7376116978066615e-06, 'epoch': 1.54}
+{'loss': 2.121, 'grad_norm': 1.7682627439498901, 'learning_rate': 2.7355808285946388e-06, 'epoch': 1.54}
+{'loss': 2.0975, 'grad_norm': 1.7324312925338745, 'learning_rate': 2.733549959382616e-06, 'epoch': 1.54}
+{'loss': 2.1668, 'grad_norm': 1.765071153640747, 'learning_rate': 2.7315190901705933e-06, 'epoch': 1.54}
+{'loss': 2.1284, 'grad_norm': 1.7210100889205933, 'learning_rate': 2.7294882209585706e-06, 'epoch': 1.54}
+{'loss': 2.1007, 'grad_norm': 1.7064242362976074, 'learning_rate': 2.727457351746548e-06, 'epoch': 1.54}
+{'loss': 2.0908, 'grad_norm': 1.7347673177719116, 'learning_rate': 2.725426482534525e-06, 'epoch': 1.55}
+{'eval_loss': 2.273494005203247, 'eval_runtime': 37.5003, 'eval_samples_per_second': 26.666, 'eval_steps_per_second': 1.12, 'epoch': 1.55}
+{'loss': 2.1238, 'grad_norm': 1.6207059621810913, 'learning_rate': 2.723395613322502e-06, 'epoch': 1.55}
+{'loss': 2.107, 'grad_norm': 1.6258277893066406, 'learning_rate': 2.7213647441104797e-06, 'epoch': 1.55}
+{'loss': 2.1198, 'grad_norm': 1.8286561965942383, 'learning_rate': 2.7193338748984565e-06, 'epoch': 1.55}
+{'loss': 2.2353, 'grad_norm': 1.6007434129714966, 'learning_rate': 2.7173030056864342e-06, 'epoch': 1.55}
+{'loss': 2.0716, 'grad_norm': 1.665379285812378, 'learning_rate': 2.715272136474411e-06, 'epoch': 1.55}
+{'loss': 2.1239, 'grad_norm': 1.6235698461532593, 'learning_rate': 2.713241267262389e-06, 'epoch': 1.55}
+{'loss': 2.1033, 'grad_norm': 1.6042425632476807, 'learning_rate': 2.7112103980503656e-06, 'epoch': 1.55}
+{'loss': 2.1326, 'grad_norm': 1.6660529375076294, 'learning_rate': 2.7091795288383433e-06, 'epoch': 1.55}
+{'loss': 2.0977, 'grad_norm': 1.7682642936706543, 'learning_rate': 2.70714865962632e-06, 'epoch': 1.56}
+{'loss': 2.1078, 'grad_norm': 1.633492112159729, 'learning_rate': 2.705117790414298e-06, 'epoch': 1.56}
+{'eval_loss': 2.2733564376831055, 'eval_runtime': 37.7364, 'eval_samples_per_second': 26.5, 'eval_steps_per_second': 1.113, 'epoch': 1.56}
+{'loss': 2.1395, 'grad_norm': 1.6661697626113892, 'learning_rate': 2.7030869212022747e-06, 'epoch': 1.56}
+{'loss': 2.101, 'grad_norm': 1.678194284439087, 'learning_rate': 2.7010560519902516e-06, 'epoch': 1.56}
+{'loss': 2.1117, 'grad_norm': 1.686339020729065, 'learning_rate': 2.6990251827782293e-06, 'epoch': 1.56}
+{'loss': 2.1075, 'grad_norm': 1.5932446718215942, 'learning_rate': 2.696994313566206e-06, 'epoch': 1.56}
+{'loss': 2.1658, 'grad_norm': 1.744378685951233, 'learning_rate': 2.694963444354184e-06, 'epoch': 1.56}
+{'loss': 2.1027, 'grad_norm': 1.5379083156585693, 'learning_rate': 2.6929325751421607e-06, 'epoch': 1.56}
+{'loss': 2.1343, 'grad_norm': 1.582470417022705, 'learning_rate': 2.6909017059301384e-06, 'epoch': 1.56}
+{'loss': 2.0837, 'grad_norm': 1.6151307821273804, 'learning_rate': 2.6888708367181153e-06, 'epoch': 1.56}
+{'loss': 2.135, 'grad_norm': 1.7137283086776733, 'learning_rate': 2.686839967506093e-06, 'epoch': 1.57}
+{'loss': 2.0593, 'grad_norm': 1.6230741739273071, 'learning_rate': 2.68480909829407e-06, 'epoch': 1.57}
+{'eval_loss': 2.2720754146575928, 'eval_runtime': 37.8152, 'eval_samples_per_second': 26.444, 'eval_steps_per_second': 1.111, 'epoch': 1.57}
+{'loss': 2.0652, 'grad_norm': 1.638656497001648, 'learning_rate': 2.6827782290820475e-06, 'epoch': 1.57}
+{'loss': 2.154, 'grad_norm': 1.565036654472351, 'learning_rate': 2.6807473598700244e-06, 'epoch': 1.57}
+{'loss': 2.1264, 'grad_norm': 1.624617576599121, 'learning_rate': 2.678716490658002e-06, 'epoch': 1.57}
+{'loss': 2.1189, 'grad_norm': 1.5961869955062866, 'learning_rate': 2.676685621445979e-06, 'epoch': 1.57}
+{'loss': 2.1229, 'grad_norm': 1.5941061973571777, 'learning_rate': 2.674654752233956e-06, 'epoch': 1.57}
+{'loss': 2.1174, 'grad_norm': 1.5900241136550903, 'learning_rate': 2.6726238830219335e-06, 'epoch': 1.57}
+{'loss': 2.1463, 'grad_norm': 1.696982979774475, 'learning_rate': 2.6705930138099107e-06, 'epoch': 1.57}
+{'loss': 2.0515, 'grad_norm': 1.5432531833648682, 'learning_rate': 2.668562144597888e-06, 'epoch': 1.58}
+{'loss': 2.1281, 'grad_norm': 1.6274412870407104, 'learning_rate': 2.6665312753858653e-06, 'epoch': 1.58}
+{'loss': 2.123, 'grad_norm': 1.5978962182998657, 'learning_rate': 2.6645004061738426e-06, 'epoch': 1.58}
+{'eval_loss': 2.2747466564178467, 'eval_runtime': 37.7905, 'eval_samples_per_second': 26.462, 'eval_steps_per_second': 1.111, 'epoch': 1.58}
+{'loss': 2.09, 'grad_norm': 1.684459924697876, 'learning_rate': 2.66246953696182e-06, 'epoch': 1.58}
+{'loss': 2.0723, 'grad_norm': 1.6446969509124756, 'learning_rate': 2.660438667749797e-06, 'epoch': 1.58}
+{'loss': 2.1052, 'grad_norm': 1.6567888259887695, 'learning_rate': 2.6584077985377744e-06, 'epoch': 1.58}
+{'loss': 2.11, 'grad_norm': 1.6030794382095337, 'learning_rate': 2.6563769293257517e-06, 'epoch': 1.58}
+{'loss': 2.0903, 'grad_norm': 1.5979795455932617, 'learning_rate': 2.654346060113729e-06, 'epoch': 1.58}
+{'loss': 2.0998, 'grad_norm': 1.5626153945922852, 'learning_rate': 2.6523151909017062e-06, 'epoch': 1.58}
+{'loss': 2.0863, 'grad_norm': 1.6497416496276855, 'learning_rate': 2.6502843216896835e-06, 'epoch': 1.59}
+{'loss': 2.1615, 'grad_norm': 1.6650139093399048, 'learning_rate': 2.6482534524776603e-06, 'epoch': 1.59}
+{'loss': 2.1374, 'grad_norm': 1.6197447776794434, 'learning_rate': 2.646222583265638e-06, 'epoch': 1.59}
+{'loss': 2.1242, 'grad_norm': 1.6509665250778198, 'learning_rate': 2.644191714053615e-06, 'epoch': 1.59}
+{'eval_loss': 2.272801160812378, 'eval_runtime': 37.769, 'eval_samples_per_second': 26.477, 'eval_steps_per_second': 1.112, 'epoch': 1.59}
+{'loss': 2.0899, 'grad_norm': 1.570002555847168, 'learning_rate': 2.6421608448415926e-06, 'epoch': 1.59}
+{'loss': 2.0823, 'grad_norm': 1.653418779373169, 'learning_rate': 2.6401299756295694e-06, 'epoch': 1.59}
+{'loss': 2.1162, 'grad_norm': 1.7645854949951172, 'learning_rate': 2.638099106417547e-06, 'epoch': 1.59}
+{'loss': 2.0887, 'grad_norm': 1.6598302125930786, 'learning_rate': 2.636068237205524e-06, 'epoch': 1.59}
+{'loss': 2.153, 'grad_norm': 1.7615699768066406, 'learning_rate': 2.6340373679935017e-06, 'epoch': 1.59}
+{'loss': 2.0635, 'grad_norm': 1.5611566305160522, 'learning_rate': 2.6320064987814785e-06, 'epoch': 1.6}
+{'loss': 2.1248, 'grad_norm': 1.7776182889938354, 'learning_rate': 2.6299756295694562e-06, 'epoch': 1.6}
+{'loss': 2.1591, 'grad_norm': 1.563895344734192, 'learning_rate': 2.627944760357433e-06, 'epoch': 1.6}
+{'loss': 2.1594, 'grad_norm': 1.5638104677200317, 'learning_rate': 2.6259138911454104e-06, 'epoch': 1.6}
+{'loss': 2.143, 'grad_norm': 1.6918673515319824, 'learning_rate': 2.6238830219333877e-06, 'epoch': 1.6}
+{'eval_loss': 2.27238130569458, 'eval_runtime': 37.7964, 'eval_samples_per_second': 26.458, 'eval_steps_per_second': 1.111, 'epoch': 1.6}
+{'loss': 2.0692, 'grad_norm': 1.6937850713729858, 'learning_rate': 2.621852152721365e-06, 'epoch': 1.6}
+{'loss': 2.1432, 'grad_norm': 1.6500011682510376, 'learning_rate': 2.619821283509342e-06, 'epoch': 1.6}
+{'loss': 2.0811, 'grad_norm': 1.583245038986206, 'learning_rate': 2.6177904142973195e-06, 'epoch': 1.6}
+{'loss': 2.1268, 'grad_norm': 1.7283663749694824, 'learning_rate': 2.6157595450852968e-06, 'epoch': 1.6}
+{'loss': 2.1464, 'grad_norm': 1.6247549057006836, 'learning_rate': 2.613728675873274e-06, 'epoch': 1.61}
+{'loss': 2.1428, 'grad_norm': 1.6460528373718262, 'learning_rate': 2.6116978066612513e-06, 'epoch': 1.61}
+{'loss': 2.1216, 'grad_norm': 1.6332457065582275, 'learning_rate': 2.6096669374492286e-06, 'epoch': 1.61}
+{'loss': 2.0877, 'grad_norm': 1.7202653884887695, 'learning_rate': 2.607636068237206e-06, 'epoch': 1.61}
+{'loss': 2.129, 'grad_norm': 1.6361600160598755, 'learning_rate': 2.605605199025183e-06, 'epoch': 1.61}
+{'loss': 2.1181, 'grad_norm': 1.6851226091384888, 'learning_rate': 2.6035743298131604e-06, 'epoch': 1.61}
+{'eval_loss': 2.276170492172241, 'eval_runtime': 37.7741, 'eval_samples_per_second': 26.473, 'eval_steps_per_second': 1.112, 'epoch': 1.61}
+{'loss': 2.137, 'grad_norm': 1.7388262748718262, 'learning_rate': 2.6015434606011377e-06, 'epoch': 1.61}
+{'loss': 2.1324, 'grad_norm': 1.8428372144699097, 'learning_rate': 2.5995125913891145e-06, 'epoch': 1.61}
+{'loss': 2.1207, 'grad_norm': 1.6778063774108887, 'learning_rate': 2.5974817221770922e-06, 'epoch': 1.61}
+{'loss': 2.1297, 'grad_norm': 1.5915114879608154, 'learning_rate': 2.595450852965069e-06, 'epoch': 1.62}
+{'loss': 2.1574, 'grad_norm': 1.6911993026733398, 'learning_rate': 2.593419983753047e-06, 'epoch': 1.62}
+{'loss': 2.1046, 'grad_norm': 1.568377137184143, 'learning_rate': 2.5913891145410236e-06, 'epoch': 1.62}
+{'loss': 2.145, 'grad_norm': 1.6314934492111206, 'learning_rate': 2.5893582453290013e-06, 'epoch': 1.62}
+{'loss': 2.1017, 'grad_norm': 1.6405373811721802, 'learning_rate': 2.587327376116978e-06, 'epoch': 1.62}
+{'loss': 2.1106, 'grad_norm': 1.5760985612869263, 'learning_rate': 2.585296506904956e-06, 'epoch': 1.62}
+{'loss': 2.0898, 'grad_norm': 1.667673945426941, 'learning_rate': 2.5832656376929327e-06, 'epoch': 1.62}
+{'eval_loss': 2.272311210632324, 'eval_runtime': 37.6893, 'eval_samples_per_second': 26.533, 'eval_steps_per_second': 1.114, 'epoch': 1.62}
+{'loss': 2.0515, 'grad_norm': 1.6694347858428955, 'learning_rate': 2.5812347684809104e-06, 'epoch': 1.62}
+{'loss': 2.1824, 'grad_norm': 1.6225323677062988, 'learning_rate': 2.5792038992688873e-06, 'epoch': 1.62}
+{'loss': 2.0484, 'grad_norm': 1.7553166151046753, 'learning_rate': 2.577173030056865e-06, 'epoch': 1.63}
+{'loss': 2.1306, 'grad_norm': 1.6127912998199463, 'learning_rate': 2.575142160844842e-06, 'epoch': 1.63}
+{'loss': 2.1371, 'grad_norm': 1.728456974029541, 'learning_rate': 2.5731112916328187e-06, 'epoch': 1.63}
+{'loss': 2.0918, 'grad_norm': 1.655109167098999, 'learning_rate': 2.5710804224207964e-06, 'epoch': 1.63}
+{'loss': 2.0534, 'grad_norm': 1.7091511487960815, 'learning_rate': 2.5690495532087733e-06, 'epoch': 1.63}
+{'loss': 2.1262, 'grad_norm': 1.663798213005066, 'learning_rate': 2.567018683996751e-06, 'epoch': 1.63}
+{'loss': 2.088, 'grad_norm': 1.7468243837356567, 'learning_rate': 2.564987814784728e-06, 'epoch': 1.63}
+{'loss': 2.1063, 'grad_norm': 1.662075400352478, 'learning_rate': 2.5629569455727055e-06, 'epoch': 1.63}
+{'eval_loss': 2.268484354019165, 'eval_runtime': 37.698, 'eval_samples_per_second': 26.527, 'eval_steps_per_second': 1.114, 'epoch': 1.63}
+{'loss': 2.0996, 'grad_norm': 1.6704449653625488, 'learning_rate': 2.5609260763606824e-06, 'epoch': 1.63}
+{'loss': 2.1792, 'grad_norm': 1.622410774230957, 'learning_rate': 2.55889520714866e-06, 'epoch': 1.64}
+{'loss': 2.0999, 'grad_norm': 1.6591641902923584, 'learning_rate': 2.556864337936637e-06, 'epoch': 1.64}
+{'loss': 2.1152, 'grad_norm': 1.7249618768692017, 'learning_rate': 2.5548334687246146e-06, 'epoch': 1.64}
+{'loss': 2.1512, 'grad_norm': 1.8214666843414307, 'learning_rate': 2.5528025995125915e-06, 'epoch': 1.64}
+{'loss': 2.1375, 'grad_norm': 1.6735785007476807, 'learning_rate': 2.550771730300569e-06, 'epoch': 1.64}
+{'loss': 2.1425, 'grad_norm': 1.8190255165100098, 'learning_rate': 2.548740861088546e-06, 'epoch': 1.64}
+{'loss': 2.0658, 'grad_norm': 1.6991790533065796, 'learning_rate': 2.5467099918765233e-06, 'epoch': 1.64}
+{'loss': 2.0505, 'grad_norm': 1.6228128671646118, 'learning_rate': 2.5446791226645006e-06, 'epoch': 1.64}
+{'loss': 2.1374, 'grad_norm': 1.9889343976974487, 'learning_rate': 2.542648253452478e-06, 'epoch': 1.64}
+{'eval_loss': 2.2690248489379883, 'eval_runtime': 37.6989, 'eval_samples_per_second': 26.526, 'eval_steps_per_second': 1.114, 'epoch': 1.64}
+{'loss': 2.1171, 'grad_norm': 1.6495356559753418, 'learning_rate': 2.540617384240455e-06, 'epoch': 1.64}
+{'loss': 2.092, 'grad_norm': 1.7420153617858887, 'learning_rate': 2.5385865150284324e-06, 'epoch': 1.65}
+{'loss': 2.1029, 'grad_norm': 1.7456740140914917, 'learning_rate': 2.5365556458164097e-06, 'epoch': 1.65}
+{'loss': 2.1173, 'grad_norm': 1.607245922088623, 'learning_rate': 2.534524776604387e-06, 'epoch': 1.65}
+{'loss': 2.0275, 'grad_norm': 1.648555040359497, 'learning_rate': 2.5324939073923642e-06, 'epoch': 1.65}
+{'loss': 2.103, 'grad_norm': 1.753891944885254, 'learning_rate': 2.5304630381803415e-06, 'epoch': 1.65}
+{'loss': 2.111, 'grad_norm': 1.6390420198440552, 'learning_rate': 2.5284321689683188e-06, 'epoch': 1.65}
+{'loss': 2.0834, 'grad_norm': 1.6427407264709473, 'learning_rate': 2.526401299756296e-06, 'epoch': 1.65}
+{'loss': 2.1125, 'grad_norm': 1.7193669080734253, 'learning_rate': 2.524370430544273e-06, 'epoch': 1.65}
+{'loss': 2.0839, 'grad_norm': 1.6364102363586426, 'learning_rate': 2.5223395613322506e-06, 'epoch': 1.65}
+{'eval_loss': 2.271984577178955, 'eval_runtime': 37.4343, 'eval_samples_per_second': 26.713, 'eval_steps_per_second': 1.122, 'epoch': 1.65}
+{'loss': 2.1296, 'grad_norm': 1.6273912191390991, 'learning_rate': 2.5203086921202274e-06, 'epoch': 1.66}
+{'loss': 2.0956, 'grad_norm': 1.631685733795166, 'learning_rate': 2.518277822908205e-06, 'epoch': 1.66}
+{'loss': 2.1216, 'grad_norm': 1.668209195137024, 'learning_rate': 2.516246953696182e-06, 'epoch': 1.66}
+{'loss': 2.1421, 'grad_norm': 1.7267968654632568, 'learning_rate': 2.5142160844841597e-06, 'epoch': 1.66}
+{'loss': 2.1286, 'grad_norm': 1.730349063873291, 'learning_rate': 2.5121852152721365e-06, 'epoch': 1.66}
+{'loss': 2.123, 'grad_norm': 1.6914033889770508, 'learning_rate': 2.5101543460601142e-06, 'epoch': 1.66}
+{'loss': 2.0714, 'grad_norm': 1.6512525081634521, 'learning_rate': 2.508123476848091e-06, 'epoch': 1.66}
+{'loss': 2.1508, 'grad_norm': 1.7400277853012085, 'learning_rate': 2.506092607636069e-06, 'epoch': 1.66}
+{'loss': 2.0897, 'grad_norm': 1.6652593612670898, 'learning_rate': 2.5040617384240457e-06, 'epoch': 1.66}
+{'loss': 2.0946, 'grad_norm': 1.8187719583511353, 'learning_rate': 2.5020308692120234e-06, 'epoch': 1.67}
+{'eval_loss': 2.2724390029907227, 'eval_runtime': 37.6493, 'eval_samples_per_second': 26.561, 'eval_steps_per_second': 1.116, 'epoch': 1.67}
+{'loss': 2.1534, 'grad_norm': 1.6140000820159912, 'learning_rate': 2.5e-06, 'epoch': 1.67}
+{'loss': 2.1028, 'grad_norm': 1.7010711431503296, 'learning_rate': 2.4979691307879775e-06, 'epoch': 1.67}
+{'loss': 2.0763, 'grad_norm': 1.661583423614502, 'learning_rate': 2.4959382615759548e-06, 'epoch': 1.67}
+{'loss': 2.1602, 'grad_norm': 1.6757241487503052, 'learning_rate': 2.493907392363932e-06, 'epoch': 1.67}
+{'loss': 2.1251, 'grad_norm': 1.5544378757476807, 'learning_rate': 2.4918765231519093e-06, 'epoch': 1.67}
+{'loss': 2.1044, 'grad_norm': 1.7000782489776611, 'learning_rate': 2.4898456539398866e-06, 'epoch': 1.67}
+{'loss': 2.166, 'grad_norm': 1.584068775177002, 'learning_rate': 2.487814784727864e-06, 'epoch': 1.67}
+{'loss': 2.1079, 'grad_norm': 1.6422476768493652, 'learning_rate': 2.4857839155158407e-06, 'epoch': 1.67}
+{'loss': 2.107, 'grad_norm': 1.621401071548462, 'learning_rate': 2.483753046303818e-06, 'epoch': 1.68}
+{'loss': 2.1161, 'grad_norm': 1.6382123231887817, 'learning_rate': 2.4817221770917953e-06, 'epoch': 1.68}
+{'eval_loss': 2.2733490467071533, 'eval_runtime': 37.713, 'eval_samples_per_second': 26.516, 'eval_steps_per_second': 1.114, 'epoch': 1.68}
+{'loss': 2.138, 'grad_norm': 1.7815386056900024, 'learning_rate': 2.4796913078797725e-06, 'epoch': 1.68}
+{'loss': 2.1342, 'grad_norm': 1.7218440771102905, 'learning_rate': 2.47766043866775e-06, 'epoch': 1.68}
+{'loss': 2.1229, 'grad_norm': 1.5806915760040283, 'learning_rate': 2.475629569455727e-06, 'epoch': 1.68}
+{'loss': 2.0883, 'grad_norm': 1.5785084962844849, 'learning_rate': 2.4735987002437044e-06, 'epoch': 1.68}
+{'loss': 2.0956, 'grad_norm': 1.587751030921936, 'learning_rate': 2.4715678310316816e-06, 'epoch': 1.68}
+{'loss': 2.1014, 'grad_norm': 1.604783296585083, 'learning_rate': 2.469536961819659e-06, 'epoch': 1.68}
+{'loss': 2.1099, 'grad_norm': 1.6625169515609741, 'learning_rate': 2.467506092607636e-06, 'epoch': 1.68}
+{'loss': 2.1012, 'grad_norm': 1.623159646987915, 'learning_rate': 2.4654752233956135e-06, 'epoch': 1.69}
+{'loss': 2.1635, 'grad_norm': 1.7528589963912964, 'learning_rate': 2.4634443541835907e-06, 'epoch': 1.69}
+{'loss': 2.1057, 'grad_norm': 1.6822079420089722, 'learning_rate': 2.461413484971568e-06, 'epoch': 1.69}
+{'eval_loss': 2.269556999206543, 'eval_runtime': 37.6668, 'eval_samples_per_second': 26.549, 'eval_steps_per_second': 1.115, 'epoch': 1.69}
+{'loss': 2.1831, 'grad_norm': 1.5787808895111084, 'learning_rate': 2.4593826157595453e-06, 'epoch': 1.69}
+{'loss': 2.0706, 'grad_norm': 1.5939741134643555, 'learning_rate': 2.4573517465475226e-06, 'epoch': 1.69}
+{'loss': 2.0959, 'grad_norm': 1.796216607093811, 'learning_rate': 2.4553208773355e-06, 'epoch': 1.69}
+{'loss': 2.1098, 'grad_norm': 1.6734933853149414, 'learning_rate': 2.453290008123477e-06, 'epoch': 1.69}
+{'loss': 2.12, 'grad_norm': 1.5036938190460205, 'learning_rate': 2.4512591389114544e-06, 'epoch': 1.69}
+{'loss': 2.1207, 'grad_norm': 1.631889820098877, 'learning_rate': 2.4492282696994317e-06, 'epoch': 1.69}
+{'loss': 2.115, 'grad_norm': 1.6895856857299805, 'learning_rate': 2.447197400487409e-06, 'epoch': 1.7}
+{'loss': 2.1337, 'grad_norm': 1.581718921661377, 'learning_rate': 2.4451665312753862e-06, 'epoch': 1.7}
+{'loss': 2.1269, 'grad_norm': 1.6116989850997925, 'learning_rate': 2.4431356620633635e-06, 'epoch': 1.7}
+{'loss': 2.1115, 'grad_norm': 1.5890625715255737, 'learning_rate': 2.4411047928513408e-06, 'epoch': 1.7}
+{'eval_loss': 2.269603729248047, 'eval_runtime': 37.7242, 'eval_samples_per_second': 26.508, 'eval_steps_per_second': 1.113, 'epoch': 1.7}
+{'loss': 2.1243, 'grad_norm': 1.6351535320281982, 'learning_rate': 2.439073923639318e-06, 'epoch': 1.7}
+{'loss': 2.0874, 'grad_norm': 1.628990650177002, 'learning_rate': 2.4370430544272953e-06, 'epoch': 1.7}
+{'loss': 2.0774, 'grad_norm': 1.6842089891433716, 'learning_rate': 2.435012185215272e-06, 'epoch': 1.7}
+{'loss': 2.09, 'grad_norm': 1.6843653917312622, 'learning_rate': 2.4329813160032495e-06, 'epoch': 1.7}
+{'loss': 2.1029, 'grad_norm': 1.6409231424331665, 'learning_rate': 2.4309504467912267e-06, 'epoch': 1.7}
+{'loss': 2.1014, 'grad_norm': 1.6237034797668457, 'learning_rate': 2.428919577579204e-06, 'epoch': 1.71}
+{'loss': 2.1786, 'grad_norm': 1.7377818822860718, 'learning_rate': 2.4268887083671813e-06, 'epoch': 1.71}
+{'loss': 2.0985, 'grad_norm': 1.6430894136428833, 'learning_rate': 2.4248578391551586e-06, 'epoch': 1.71}
+{'loss': 2.0913, 'grad_norm': 1.5623244047164917, 'learning_rate': 2.422826969943136e-06, 'epoch': 1.71}
+{'loss': 2.0673, 'grad_norm': 1.6417165994644165, 'learning_rate': 2.420796100731113e-06, 'epoch': 1.71}
+{'eval_loss': 2.268665075302124, 'eval_runtime': 37.7309, 'eval_samples_per_second': 26.504, 'eval_steps_per_second': 1.113, 'epoch': 1.71}
+{'loss': 2.1087, 'grad_norm': 1.605925440788269, 'learning_rate': 2.4187652315190904e-06, 'epoch': 1.71}
+{'loss': 2.1254, 'grad_norm': 1.5908552408218384, 'learning_rate': 2.4167343623070677e-06, 'epoch': 1.71}
+{'loss': 2.109, 'grad_norm': 1.6716837882995605, 'learning_rate': 2.414703493095045e-06, 'epoch': 1.71}
+{'loss': 2.1181, 'grad_norm': 1.735393762588501, 'learning_rate': 2.4126726238830222e-06, 'epoch': 1.71}
+{'loss': 2.1, 'grad_norm': 1.6103562116622925, 'learning_rate': 2.410641754670999e-06, 'epoch': 1.72}
+{'loss': 2.1363, 'grad_norm': 1.6393123865127563, 'learning_rate': 2.4086108854589763e-06, 'epoch': 1.72}
+{'loss': 2.0909, 'grad_norm': 1.6986010074615479, 'learning_rate': 2.4065800162469536e-06, 'epoch': 1.72}
+{'loss': 2.1046, 'grad_norm': 1.5851256847381592, 'learning_rate': 2.404549147034931e-06, 'epoch': 1.72}
+{'loss': 2.1517, 'grad_norm': 1.7347966432571411, 'learning_rate': 2.402518277822908e-06, 'epoch': 1.72}
+{'loss': 2.0702, 'grad_norm': 1.6968820095062256, 'learning_rate': 2.4004874086108854e-06, 'epoch': 1.72}
+{'eval_loss': 2.26865816116333, 'eval_runtime': 37.6876, 'eval_samples_per_second': 26.534, 'eval_steps_per_second': 1.114, 'epoch': 1.72}
+{'loss': 2.1416, 'grad_norm': 1.5828689336776733, 'learning_rate': 2.3984565393988627e-06, 'epoch': 1.72}
+{'loss': 2.09, 'grad_norm': 1.672504186630249, 'learning_rate': 2.39642567018684e-06, 'epoch': 1.72}
+{'loss': 2.1042, 'grad_norm': 1.6303755044937134, 'learning_rate': 2.3943948009748173e-06, 'epoch': 1.72}
+{'loss': 2.1246, 'grad_norm': 1.6052359342575073, 'learning_rate': 2.3923639317627945e-06, 'epoch': 1.72}
+{'loss': 2.0823, 'grad_norm': 1.5766305923461914, 'learning_rate': 2.390333062550772e-06, 'epoch': 1.73}
+{'loss': 2.0112, 'grad_norm': 1.6897045373916626, 'learning_rate': 2.388302193338749e-06, 'epoch': 1.73}
+{'loss': 2.1817, 'grad_norm': 1.732053518295288, 'learning_rate': 2.3862713241267264e-06, 'epoch': 1.73}
+{'loss': 2.0971, 'grad_norm': 1.7444037199020386, 'learning_rate': 2.3842404549147037e-06, 'epoch': 1.73}
+{'loss': 2.0825, 'grad_norm': 1.6277426481246948, 'learning_rate': 2.382209585702681e-06, 'epoch': 1.73}
+{'loss': 2.146, 'grad_norm': 1.765645146369934, 'learning_rate': 2.380178716490658e-06, 'epoch': 1.73}
+{'eval_loss': 2.2666616439819336, 'eval_runtime': 37.7024, 'eval_samples_per_second': 26.524, 'eval_steps_per_second': 1.114, 'epoch': 1.73}
+{'loss': 2.1107, 'grad_norm': 1.6550240516662598, 'learning_rate': 2.3781478472786355e-06, 'epoch': 1.73}
+{'loss': 2.1346, 'grad_norm': 1.5257171392440796, 'learning_rate': 2.3761169780666128e-06, 'epoch': 1.73}
+{'loss': 2.1402, 'grad_norm': 1.6080381870269775, 'learning_rate': 2.37408610885459e-06, 'epoch': 1.73}
+{'loss': 2.0894, 'grad_norm': 1.6197988986968994, 'learning_rate': 2.3720552396425673e-06, 'epoch': 1.74}
+{'loss': 2.1612, 'grad_norm': 1.5313374996185303, 'learning_rate': 2.3700243704305446e-06, 'epoch': 1.74}
+{'loss': 2.1149, 'grad_norm': 1.5613369941711426, 'learning_rate': 2.367993501218522e-06, 'epoch': 1.74}
+{'loss': 2.1186, 'grad_norm': 1.616064429283142, 'learning_rate': 2.365962632006499e-06, 'epoch': 1.74}
+{'loss': 2.1373, 'grad_norm': 1.6820755004882812, 'learning_rate': 2.3639317627944764e-06, 'epoch': 1.74}
+{'loss': 2.1316, 'grad_norm': 1.6518917083740234, 'learning_rate': 2.3619008935824537e-06, 'epoch': 1.74}
+{'loss': 2.1281, 'grad_norm': 1.6021987199783325, 'learning_rate': 2.3598700243704305e-06, 'epoch': 1.74}
+{'eval_loss': 2.2650322914123535, 'eval_runtime': 37.6736, 'eval_samples_per_second': 26.544, 'eval_steps_per_second': 1.115, 'epoch': 1.74}
+{'loss': 2.1237, 'grad_norm': 1.571864366531372, 'learning_rate': 2.357839155158408e-06, 'epoch': 1.74}
+{'loss': 2.116, 'grad_norm': 1.5786241292953491, 'learning_rate': 2.355808285946385e-06, 'epoch': 1.74}
+{'loss': 2.1398, 'grad_norm': 1.8110829591751099, 'learning_rate': 2.3537774167343624e-06, 'epoch': 1.75}
+{'loss': 2.1183, 'grad_norm': 1.648918628692627, 'learning_rate': 2.3517465475223396e-06, 'epoch': 1.75}
+{'loss': 2.133, 'grad_norm': 1.6972789764404297, 'learning_rate': 2.349715678310317e-06, 'epoch': 1.75}
+{'loss': 2.0891, 'grad_norm': 1.6375590562820435, 'learning_rate': 2.347684809098294e-06, 'epoch': 1.75}
+{'loss': 2.1456, 'grad_norm': 1.7189046144485474, 'learning_rate': 2.3456539398862715e-06, 'epoch': 1.75}
+{'loss': 2.0876, 'grad_norm': 1.729980230331421, 'learning_rate': 2.3436230706742487e-06, 'epoch': 1.75}
+{'loss': 2.1071, 'grad_norm': 1.8501031398773193, 'learning_rate': 2.341592201462226e-06, 'epoch': 1.75}
+{'loss': 2.1006, 'grad_norm': 1.6985840797424316, 'learning_rate': 2.3395613322502033e-06, 'epoch': 1.75}
+{'eval_loss': 2.2667760848999023, 'eval_runtime': 37.7374, 'eval_samples_per_second': 26.499, 'eval_steps_per_second': 1.113, 'epoch': 1.75}
+{'loss': 2.0745, 'grad_norm': 1.6635565757751465, 'learning_rate': 2.3375304630381806e-06, 'epoch': 1.75}
+{'loss': 2.0823, 'grad_norm': 1.69534170627594, 'learning_rate': 2.335499593826158e-06, 'epoch': 1.76}
+{'loss': 2.1176, 'grad_norm': 1.8325625658035278, 'learning_rate': 2.333468724614135e-06, 'epoch': 1.76}
+{'loss': 2.1426, 'grad_norm': 1.6108698844909668, 'learning_rate': 2.3314378554021124e-06, 'epoch': 1.76}
+{'loss': 2.0901, 'grad_norm': 1.7432985305786133, 'learning_rate': 2.3294069861900897e-06, 'epoch': 1.76}
+{'loss': 2.0718, 'grad_norm': 1.5642728805541992, 'learning_rate': 2.327376116978067e-06, 'epoch': 1.76}
+{'loss': 2.1437, 'grad_norm': 1.7221434116363525, 'learning_rate': 2.3253452477660442e-06, 'epoch': 1.76}
+{'loss': 2.0853, 'grad_norm': 1.595481514930725, 'learning_rate': 2.3233143785540215e-06, 'epoch': 1.76}
+{'loss': 2.1324, 'grad_norm': 1.659735083580017, 'learning_rate': 2.3212835093419988e-06, 'epoch': 1.76}
+{'loss': 2.0842, 'grad_norm': 1.591446876525879, 'learning_rate': 2.319252640129976e-06, 'epoch': 1.76}
+{'eval_loss': 2.265777111053467, 'eval_runtime': 37.4623, 'eval_samples_per_second': 26.694, 'eval_steps_per_second': 1.121, 'epoch': 1.76}
+{'loss': 2.1646, 'grad_norm': 1.6175882816314697, 'learning_rate': 2.3172217709179533e-06, 'epoch': 1.77}
+{'loss': 2.1396, 'grad_norm': 1.730900526046753, 'learning_rate': 2.3151909017059306e-06, 'epoch': 1.77}
+{'loss': 2.0645, 'grad_norm': 1.6827929019927979, 'learning_rate': 2.313160032493908e-06, 'epoch': 1.77}
+{'loss': 2.1179, 'grad_norm': 1.621931552886963, 'learning_rate': 2.311129163281885e-06, 'epoch': 1.77}
+{'loss': 2.0894, 'grad_norm': 1.7136013507843018, 'learning_rate': 2.309098294069862e-06, 'epoch': 1.77}
+{'loss': 2.0717, 'grad_norm': 1.5491700172424316, 'learning_rate': 2.3070674248578393e-06, 'epoch': 1.77}
+{'loss': 2.1221, 'grad_norm': 1.702519416809082, 'learning_rate': 2.3050365556458166e-06, 'epoch': 1.77}
+{'loss': 2.1273, 'grad_norm': 1.6896106004714966, 'learning_rate': 2.303005686433794e-06, 'epoch': 1.77}
+{'loss': 2.0903, 'grad_norm': 1.6859010457992554, 'learning_rate': 2.300974817221771e-06, 'epoch': 1.77}
+{'loss': 2.0701, 'grad_norm': 1.5701655149459839, 'learning_rate': 2.2989439480097484e-06, 'epoch': 1.78}
+{'eval_loss': 2.266063690185547, 'eval_runtime': 37.7002, 'eval_samples_per_second': 26.525, 'eval_steps_per_second': 1.114, 'epoch': 1.78}
+{'loss': 2.1066, 'grad_norm': 1.7901954650878906, 'learning_rate': 2.2969130787977257e-06, 'epoch': 1.78}
+{'loss': 2.1322, 'grad_norm': 1.6261320114135742, 'learning_rate': 2.294882209585703e-06, 'epoch': 1.78}
+{'loss': 2.0891, 'grad_norm': 1.5909242630004883, 'learning_rate': 2.2928513403736802e-06, 'epoch': 1.78}
+{'loss': 2.1065, 'grad_norm': 1.597174048423767, 'learning_rate': 2.2908204711616575e-06, 'epoch': 1.78}
+{'loss': 2.1491, 'grad_norm': 1.6266214847564697, 'learning_rate': 2.2887896019496348e-06, 'epoch': 1.78}
+{'loss': 2.1004, 'grad_norm': 1.6197980642318726, 'learning_rate': 2.286758732737612e-06, 'epoch': 1.78}
+{'loss': 2.1053, 'grad_norm': 1.6115243434906006, 'learning_rate': 2.284727863525589e-06, 'epoch': 1.78}
+{'loss': 2.1433, 'grad_norm': 1.7729809284210205, 'learning_rate': 2.282696994313566e-06, 'epoch': 1.78}
+{'loss': 2.1294, 'grad_norm': 1.6845381259918213, 'learning_rate': 2.2806661251015434e-06, 'epoch': 1.79}
+{'loss': 2.101, 'grad_norm': 1.6369025707244873, 'learning_rate': 2.2786352558895207e-06, 'epoch': 1.79}
+{'eval_loss': 2.2655839920043945, 'eval_runtime': 37.7129, 'eval_samples_per_second': 26.516, 'eval_steps_per_second': 1.114, 'epoch': 1.79}
+{'loss': 2.0706, 'grad_norm': 1.6781350374221802, 'learning_rate': 2.276604386677498e-06, 'epoch': 1.79}
+{'loss': 2.0901, 'grad_norm': 1.8017534017562866, 'learning_rate': 2.2745735174654753e-06, 'epoch': 1.79}
+{'loss': 2.1282, 'grad_norm': 1.6327341794967651, 'learning_rate': 2.2725426482534526e-06, 'epoch': 1.79}
+{'loss': 2.1161, 'grad_norm': 1.6167854070663452, 'learning_rate': 2.27051177904143e-06, 'epoch': 1.79}
+{'loss': 2.103, 'grad_norm': 1.834930658340454, 'learning_rate': 2.268480909829407e-06, 'epoch': 1.79}
+{'loss': 2.1187, 'grad_norm': 1.6765397787094116, 'learning_rate': 2.2664500406173844e-06, 'epoch': 1.79}
+{'loss': 2.1316, 'grad_norm': 1.5943162441253662, 'learning_rate': 2.2644191714053617e-06, 'epoch': 1.79}
+{'loss': 2.1093, 'grad_norm': 1.5250434875488281, 'learning_rate': 2.262388302193339e-06, 'epoch': 1.8}
+{'loss': 2.1105, 'grad_norm': 1.6569294929504395, 'learning_rate': 2.260357432981316e-06, 'epoch': 1.8}
+{'loss': 2.1226, 'grad_norm': 1.671498417854309, 'learning_rate': 2.2583265637692935e-06, 'epoch': 1.8}
+{'eval_loss': 2.2658486366271973, 'eval_runtime': 37.7223, 'eval_samples_per_second': 26.509, 'eval_steps_per_second': 1.113, 'epoch': 1.8}
+{'loss': 2.1118, 'grad_norm': 1.7031270265579224, 'learning_rate': 2.2562956945572708e-06, 'epoch': 1.8}
+{'loss': 2.0964, 'grad_norm': 1.7372241020202637, 'learning_rate': 2.254264825345248e-06, 'epoch': 1.8}
+{'loss': 2.109, 'grad_norm': 1.7946152687072754, 'learning_rate': 2.2522339561332253e-06, 'epoch': 1.8}
+{'loss': 2.107, 'grad_norm': 1.658363938331604, 'learning_rate': 2.2502030869212026e-06, 'epoch': 1.8}
+{'loss': 2.15, 'grad_norm': 1.742719054222107, 'learning_rate': 2.24817221770918e-06, 'epoch': 1.8}
+{'loss': 2.1304, 'grad_norm': 1.7087559700012207, 'learning_rate': 2.246141348497157e-06, 'epoch': 1.8}
+{'loss': 2.0938, 'grad_norm': 1.6908596754074097, 'learning_rate': 2.2441104792851344e-06, 'epoch': 1.8}
+{'loss': 2.126, 'grad_norm': 1.6445401906967163, 'learning_rate': 2.2420796100731117e-06, 'epoch': 1.81}
+{'loss': 2.1372, 'grad_norm': 1.9059737920761108, 'learning_rate': 2.240048740861089e-06, 'epoch': 1.81}
+{'loss': 2.0276, 'grad_norm': 1.5548077821731567, 'learning_rate': 2.2380178716490662e-06, 'epoch': 1.81}
+{'eval_loss': 2.2644405364990234, 'eval_runtime': 37.7453, 'eval_samples_per_second': 26.493, 'eval_steps_per_second': 1.113, 'epoch': 1.81}
+{'loss': 2.1285, 'grad_norm': 1.6281542778015137, 'learning_rate': 2.2359870024370435e-06, 'epoch': 1.81}
+{'loss': 2.1349, 'grad_norm': 1.705527901649475, 'learning_rate': 2.2339561332250204e-06, 'epoch': 1.81}
+{'loss': 2.1183, 'grad_norm': 1.7579933404922485, 'learning_rate': 2.2319252640129976e-06, 'epoch': 1.81}
+{'loss': 2.0732, 'grad_norm': 1.791908621788025, 'learning_rate': 2.229894394800975e-06, 'epoch': 1.81}
+{'loss': 2.0453, 'grad_norm': 1.6568973064422607, 'learning_rate': 2.227863525588952e-06, 'epoch': 1.81}
+{'loss': 2.0717, 'grad_norm': 1.7207781076431274, 'learning_rate': 2.2258326563769295e-06, 'epoch': 1.81}
+{'loss': 2.0606, 'grad_norm': 1.7678815126419067, 'learning_rate': 2.2238017871649067e-06, 'epoch': 1.82}
+{'loss': 2.1165, 'grad_norm': 1.7331746816635132, 'learning_rate': 2.221770917952884e-06, 'epoch': 1.82}
+{'loss': 2.1383, 'grad_norm': 1.7091835737228394, 'learning_rate': 2.2197400487408613e-06, 'epoch': 1.82}
+{'loss': 2.0699, 'grad_norm': 1.733068823814392, 'learning_rate': 2.2177091795288386e-06, 'epoch': 1.82}
+{'eval_loss': 2.2659995555877686, 'eval_runtime': 37.7136, 'eval_samples_per_second': 26.516, 'eval_steps_per_second': 1.114, 'epoch': 1.82}
+{'loss': 2.1038, 'grad_norm': 1.7482062578201294, 'learning_rate': 2.215678310316816e-06, 'epoch': 1.82}
+{'loss': 2.1132, 'grad_norm': 1.769737958908081, 'learning_rate': 2.213647441104793e-06, 'epoch': 1.82}
+{'loss': 2.0996, 'grad_norm': 1.699000358581543, 'learning_rate': 2.2116165718927704e-06, 'epoch': 1.82}
+{'loss': 2.1191, 'grad_norm': 1.5369913578033447, 'learning_rate': 2.2095857026807473e-06, 'epoch': 1.82}
+{'loss': 2.074, 'grad_norm': 1.798531174659729, 'learning_rate': 2.2075548334687245e-06, 'epoch': 1.82}
+{'loss': 2.0802, 'grad_norm': 1.5534207820892334, 'learning_rate': 2.205523964256702e-06, 'epoch': 1.83}
+{'loss': 2.114, 'grad_norm': 1.6919447183609009, 'learning_rate': 2.203493095044679e-06, 'epoch': 1.83}
+{'loss': 2.1328, 'grad_norm': 1.7718945741653442, 'learning_rate': 2.2014622258326564e-06, 'epoch': 1.83}
+{'loss': 2.1472, 'grad_norm': 1.5809446573257446, 'learning_rate': 2.1994313566206336e-06, 'epoch': 1.83}
+{'loss': 2.0894, 'grad_norm': 1.671584963798523, 'learning_rate': 2.197400487408611e-06, 'epoch': 1.83}
+{'eval_loss': 2.2637691497802734, 'eval_runtime': 37.7573, 'eval_samples_per_second': 26.485, 'eval_steps_per_second': 1.112, 'epoch': 1.83}
+{'loss': 2.0732, 'grad_norm': 1.7733304500579834, 'learning_rate': 2.195369618196588e-06, 'epoch': 1.83}
+{'loss': 2.1032, 'grad_norm': 1.680348515510559, 'learning_rate': 2.1933387489845655e-06, 'epoch': 1.83}
+{'loss': 2.123, 'grad_norm': 1.734384298324585, 'learning_rate': 2.1913078797725427e-06, 'epoch': 1.83}
+{'loss': 2.1599, 'grad_norm': 1.6625633239746094, 'learning_rate': 2.18927701056052e-06, 'epoch': 1.83}
+{'loss': 2.0988, 'grad_norm': 2.6964328289031982, 'learning_rate': 2.1872461413484973e-06, 'epoch': 1.84}
+{'loss': 2.0959, 'grad_norm': 1.7807667255401611, 'learning_rate': 2.1852152721364746e-06, 'epoch': 1.84}
+{'loss': 2.072, 'grad_norm': 1.6420763731002808, 'learning_rate': 2.183184402924452e-06, 'epoch': 1.84}
+{'loss': 2.1293, 'grad_norm': 1.6583257913589478, 'learning_rate': 2.181153533712429e-06, 'epoch': 1.84}
+{'loss': 2.1025, 'grad_norm': 1.7795226573944092, 'learning_rate': 2.1791226645004064e-06, 'epoch': 1.84}
+{'loss': 2.094, 'grad_norm': 1.5687706470489502, 'learning_rate': 2.1770917952883837e-06, 'epoch': 1.84}
+{'eval_loss': 2.265833854675293, 'eval_runtime': 37.757, 'eval_samples_per_second': 26.485, 'eval_steps_per_second': 1.112, 'epoch': 1.84}
+{'loss': 2.1515, 'grad_norm': 1.5199975967407227, 'learning_rate': 2.175060926076361e-06, 'epoch': 1.84}
+{'loss': 2.1615, 'grad_norm': 1.6898490190505981, 'learning_rate': 2.1730300568643382e-06, 'epoch': 1.84}
+{'loss': 2.0923, 'grad_norm': 1.7239112854003906, 'learning_rate': 2.1709991876523155e-06, 'epoch': 1.84}
+{'loss': 2.0615, 'grad_norm': 1.8588145971298218, 'learning_rate': 2.1689683184402928e-06, 'epoch': 1.85}
+{'loss': 2.1324, 'grad_norm': 1.7058383226394653, 'learning_rate': 2.16693744922827e-06, 'epoch': 1.85}
+{'loss': 2.0982, 'grad_norm': 1.5865023136138916, 'learning_rate': 2.1649065800162473e-06, 'epoch': 1.85}
+{'loss': 2.0894, 'grad_norm': 1.8552294969558716, 'learning_rate': 2.1628757108042246e-06, 'epoch': 1.85}
+{'loss': 2.0789, 'grad_norm': 1.6848362684249878, 'learning_rate': 2.160844841592202e-06, 'epoch': 1.85}
+{'loss': 2.0784, 'grad_norm': 1.7172846794128418, 'learning_rate': 2.1588139723801787e-06, 'epoch': 1.85}
+{'loss': 2.089, 'grad_norm': 1.598373532295227, 'learning_rate': 2.156783103168156e-06, 'epoch': 1.85}
+{'eval_loss': 2.265944719314575, 'eval_runtime': 37.7878, 'eval_samples_per_second': 26.464, 'eval_steps_per_second': 1.111, 'epoch': 1.85}
+{'loss': 2.081, 'grad_norm': 1.7011735439300537, 'learning_rate': 2.1547522339561333e-06, 'epoch': 1.85}
+{'loss': 2.1199, 'grad_norm': 1.5379940271377563, 'learning_rate': 2.1527213647441106e-06, 'epoch': 1.85}
+{'loss': 2.1497, 'grad_norm': 1.6489131450653076, 'learning_rate': 2.150690495532088e-06, 'epoch': 1.86}
+{'loss': 2.1207, 'grad_norm': 1.6760814189910889, 'learning_rate': 2.148659626320065e-06, 'epoch': 1.86}
+{'loss': 2.124, 'grad_norm': 1.668662190437317, 'learning_rate': 2.1466287571080424e-06, 'epoch': 1.86}
+{'loss': 2.0949, 'grad_norm': 1.6035821437835693, 'learning_rate': 2.1445978878960197e-06, 'epoch': 1.86}
+{'loss': 2.098, 'grad_norm': 1.8574438095092773, 'learning_rate': 2.142567018683997e-06, 'epoch': 1.86}
+{'loss': 2.1454, 'grad_norm': 1.642325520515442, 'learning_rate': 2.140536149471974e-06, 'epoch': 1.86}
+{'loss': 2.0833, 'grad_norm': 1.869927167892456, 'learning_rate': 2.1385052802599515e-06, 'epoch': 1.86}
+{'loss': 2.0935, 'grad_norm': 1.815918207168579, 'learning_rate': 2.1364744110479288e-06, 'epoch': 1.86}
+{'eval_loss': 2.2657382488250732, 'eval_runtime': 37.7421, 'eval_samples_per_second': 26.496, 'eval_steps_per_second': 1.113, 'epoch': 1.86}
+{'loss': 2.1358, 'grad_norm': 1.609971523284912, 'learning_rate': 2.134443541835906e-06, 'epoch': 1.86}
+{'loss': 2.1081, 'grad_norm': 1.6993458271026611, 'learning_rate': 2.132412672623883e-06, 'epoch': 1.87}
+{'loss': 2.0801, 'grad_norm': 1.7515426874160767, 'learning_rate': 2.13038180341186e-06, 'epoch': 1.87}
+{'loss': 2.1145, 'grad_norm': 1.698072910308838, 'learning_rate': 2.1283509341998374e-06, 'epoch': 1.87}
+{'loss': 2.1484, 'grad_norm': 1.7313581705093384, 'learning_rate': 2.1263200649878147e-06, 'epoch': 1.87}
+{'loss': 2.0898, 'grad_norm': 1.6221377849578857, 'learning_rate': 2.124289195775792e-06, 'epoch': 1.87}
+{'loss': 2.0946, 'grad_norm': 1.5667396783828735, 'learning_rate': 2.1222583265637693e-06, 'epoch': 1.87}
+{'loss': 2.0404, 'grad_norm': 1.8587998151779175, 'learning_rate': 2.1202274573517465e-06, 'epoch': 1.87}
+{'loss': 2.0666, 'grad_norm': 1.7496662139892578, 'learning_rate': 2.118196588139724e-06, 'epoch': 1.87}
+{'loss': 2.095, 'grad_norm': 1.533149003982544, 'learning_rate': 2.116165718927701e-06, 'epoch': 1.87}
+{'eval_loss': 2.265054702758789, 'eval_runtime': 37.5457, 'eval_samples_per_second': 26.634, 'eval_steps_per_second': 1.119, 'epoch': 1.87}
+{'loss': 2.1094, 'grad_norm': 1.8064663410186768, 'learning_rate': 2.1141348497156784e-06, 'epoch': 1.88}
+{'loss': 2.0774, 'grad_norm': 1.787508249282837, 'learning_rate': 2.1121039805036556e-06, 'epoch': 1.88}
+{'loss': 2.0714, 'grad_norm': 1.5017589330673218, 'learning_rate': 2.110073111291633e-06, 'epoch': 1.88}
+{'loss': 2.1137, 'grad_norm': 1.9216089248657227, 'learning_rate': 2.10804224207961e-06, 'epoch': 1.88}
+{'loss': 2.128, 'grad_norm': 1.7207211256027222, 'learning_rate': 2.1060113728675875e-06, 'epoch': 1.88}
+{'loss': 2.1328, 'grad_norm': 1.7134265899658203, 'learning_rate': 2.1039805036555647e-06, 'epoch': 1.88}
+{'loss': 2.0283, 'grad_norm': 1.8054198026657104, 'learning_rate': 2.101949634443542e-06, 'epoch': 1.88}
+{'loss': 2.0977, 'grad_norm': 1.7098181247711182, 'learning_rate': 2.0999187652315193e-06, 'epoch': 1.88}
+{'loss': 2.0571, 'grad_norm': 1.5794416666030884, 'learning_rate': 2.0978878960194966e-06, 'epoch': 1.88}
+{'loss': 2.1173, 'grad_norm': 2.0511538982391357, 'learning_rate': 2.095857026807474e-06, 'epoch': 1.88}
+{'eval_loss': 2.2639269828796387, 'eval_runtime': 37.7403, 'eval_samples_per_second': 26.497, 'eval_steps_per_second': 1.113, 'epoch': 1.88}
+{'loss': 2.1061, 'grad_norm': 1.7650041580200195, 'learning_rate': 2.093826157595451e-06, 'epoch': 1.89}
+{'loss': 2.0871, 'grad_norm': 1.6807425022125244, 'learning_rate': 2.0917952883834284e-06, 'epoch': 1.89}
+{'loss': 2.116, 'grad_norm': 1.6733806133270264, 'learning_rate': 2.0897644191714057e-06, 'epoch': 1.89}
+{'loss': 2.1236, 'grad_norm': 1.661421298980713, 'learning_rate': 2.087733549959383e-06, 'epoch': 1.89}
+{'loss': 2.0658, 'grad_norm': 1.7579859495162964, 'learning_rate': 2.0857026807473602e-06, 'epoch': 1.89}
+{'loss': 2.0572, 'grad_norm': 1.5937249660491943, 'learning_rate': 2.0836718115353375e-06, 'epoch': 1.89}
+{'loss': 2.1358, 'grad_norm': 1.6673567295074463, 'learning_rate': 2.0816409423233144e-06, 'epoch': 1.89}
+{'loss': 2.0763, 'grad_norm': 1.5095911026000977, 'learning_rate': 2.0796100731112916e-06, 'epoch': 1.89}
+{'loss': 2.099, 'grad_norm': 1.8159763813018799, 'learning_rate': 2.077579203899269e-06, 'epoch': 1.89}
+{'loss': 2.0587, 'grad_norm': 1.84743070602417, 'learning_rate': 2.075548334687246e-06, 'epoch': 1.9}
+{'eval_loss': 2.26218581199646, 'eval_runtime': 37.7531, 'eval_samples_per_second': 26.488, 'eval_steps_per_second': 1.112, 'epoch': 1.9}
+{'loss': 2.1187, 'grad_norm': 1.672770619392395, 'learning_rate': 2.0735174654752235e-06, 'epoch': 1.9}
+{'loss': 2.0673, 'grad_norm': 1.7117408514022827, 'learning_rate': 2.0714865962632007e-06, 'epoch': 1.9}
+{'loss': 2.1028, 'grad_norm': 1.6646281480789185, 'learning_rate': 2.069455727051178e-06, 'epoch': 1.9}
+{'loss': 2.0796, 'grad_norm': 1.6250144243240356, 'learning_rate': 2.0674248578391553e-06, 'epoch': 1.9}
+{'loss': 2.0886, 'grad_norm': 1.8120079040527344, 'learning_rate': 2.0653939886271326e-06, 'epoch': 1.9}
+{'loss': 2.1317, 'grad_norm': 1.7067025899887085, 'learning_rate': 2.06336311941511e-06, 'epoch': 1.9}
+{'loss': 2.0894, 'grad_norm': 1.5476025342941284, 'learning_rate': 2.061332250203087e-06, 'epoch': 1.9}
+{'loss': 2.0669, 'grad_norm': 1.7876477241516113, 'learning_rate': 2.0593013809910644e-06, 'epoch': 1.9}
+{'loss': 2.1002, 'grad_norm': 1.7675834894180298, 'learning_rate': 2.0572705117790417e-06, 'epoch': 1.91}
+{'loss': 2.12, 'grad_norm': 1.615241289138794, 'learning_rate': 2.055239642567019e-06, 'epoch': 1.91}
+{'eval_loss': 2.2644169330596924, 'eval_runtime': 37.7812, 'eval_samples_per_second': 26.468, 'eval_steps_per_second': 1.112, 'epoch': 1.91}
+{'loss': 2.1043, 'grad_norm': 1.9149322509765625, 'learning_rate': 2.0532087733549962e-06, 'epoch': 1.91}
+{'loss': 2.1076, 'grad_norm': 1.5919498205184937, 'learning_rate': 2.0511779041429735e-06, 'epoch': 1.91}
+{'loss': 2.0742, 'grad_norm': 1.6232175827026367, 'learning_rate': 2.0491470349309508e-06, 'epoch': 1.91}
+{'loss': 2.1076, 'grad_norm': 1.8049280643463135, 'learning_rate': 2.047116165718928e-06, 'epoch': 1.91}
+{'loss': 2.105, 'grad_norm': 1.7234073877334595, 'learning_rate': 2.0450852965069053e-06, 'epoch': 1.91}
+{'loss': 2.1412, 'grad_norm': 1.6357167959213257, 'learning_rate': 2.0430544272948826e-06, 'epoch': 1.91}
+{'loss': 2.0964, 'grad_norm': 1.6867221593856812, 'learning_rate': 2.04102355808286e-06, 'epoch': 1.91}
+{'loss': 2.0584, 'grad_norm': 1.6216603517532349, 'learning_rate': 2.038992688870837e-06, 'epoch': 1.92}
+{'loss': 2.0754, 'grad_norm': 1.5643348693847656, 'learning_rate': 2.0369618196588144e-06, 'epoch': 1.92}
+{'loss': 2.0822, 'grad_norm': 1.7462424039840698, 'learning_rate': 2.0349309504467917e-06, 'epoch': 1.92}
+{'eval_loss': 2.2651402950286865, 'eval_runtime': 37.7568, 'eval_samples_per_second': 26.485, 'eval_steps_per_second': 1.112, 'epoch': 1.92}
+{'loss': 2.1225, 'grad_norm': 1.597892165184021, 'learning_rate': 2.032900081234769e-06, 'epoch': 1.92}
+{'loss': 2.1395, 'grad_norm': 1.642027497291565, 'learning_rate': 2.030869212022746e-06, 'epoch': 1.92}
+{'loss': 2.0901, 'grad_norm': 1.6824513673782349, 'learning_rate': 2.028838342810723e-06, 'epoch': 1.92}
+{'loss': 2.0903, 'grad_norm': 1.712195634841919, 'learning_rate': 2.0268074735987004e-06, 'epoch': 1.92}
+{'loss': 2.0769, 'grad_norm': 1.5537784099578857, 'learning_rate': 2.0247766043866777e-06, 'epoch': 1.92}
+{'loss': 2.1298, 'grad_norm': 1.6253074407577515, 'learning_rate': 2.022745735174655e-06, 'epoch': 1.92}
+{'loss': 2.0843, 'grad_norm': 1.589336633682251, 'learning_rate': 2.020714865962632e-06, 'epoch': 1.93}
+{'loss': 2.1122, 'grad_norm': 1.6642729043960571, 'learning_rate': 2.0186839967506095e-06, 'epoch': 1.93}
+{'loss': 2.1065, 'grad_norm': 1.5955874919891357, 'learning_rate': 2.0166531275385868e-06, 'epoch': 1.93}
+{'loss': 2.0694, 'grad_norm': 1.7347276210784912, 'learning_rate': 2.014622258326564e-06, 'epoch': 1.93}
+{'eval_loss': 2.2625210285186768, 'eval_runtime': 37.775, 'eval_samples_per_second': 26.473, 'eval_steps_per_second': 1.112, 'epoch': 1.93}
+{'loss': 2.1073, 'grad_norm': 1.6319622993469238, 'learning_rate': 2.0125913891145413e-06, 'epoch': 1.93}
+{'loss': 2.1034, 'grad_norm': 1.6117467880249023, 'learning_rate': 2.0105605199025186e-06, 'epoch': 1.93}
+{'loss': 2.0777, 'grad_norm': 1.8599581718444824, 'learning_rate': 2.008529650690496e-06, 'epoch': 1.93}
+{'loss': 2.1212, 'grad_norm': 1.687566876411438, 'learning_rate': 2.0064987814784727e-06, 'epoch': 1.93}
+{'loss': 2.0995, 'grad_norm': 1.5645672082901, 'learning_rate': 2.00446791226645e-06, 'epoch': 1.93}
+{'loss': 2.0725, 'grad_norm': 1.6311290264129639, 'learning_rate': 2.0024370430544273e-06, 'epoch': 1.94}
+{'loss': 2.1068, 'grad_norm': 1.6554040908813477, 'learning_rate': 2.0004061738424045e-06, 'epoch': 1.94}
+{'loss': 2.1267, 'grad_norm': 1.6757251024246216, 'learning_rate': 1.998375304630382e-06, 'epoch': 1.94}
+{'loss': 2.0932, 'grad_norm': 1.611087679862976, 'learning_rate': 1.996344435418359e-06, 'epoch': 1.94}
+{'loss': 2.1181, 'grad_norm': 1.6848406791687012, 'learning_rate': 1.9943135662063364e-06, 'epoch': 1.94}
+{'eval_loss': 2.261915922164917, 'eval_runtime': 37.7409, 'eval_samples_per_second': 26.496, 'eval_steps_per_second': 1.113, 'epoch': 1.94}
+{'loss': 2.1045, 'grad_norm': 1.773903727531433, 'learning_rate': 1.9922826969943136e-06, 'epoch': 1.94}
+{'loss': 2.1236, 'grad_norm': 1.7215983867645264, 'learning_rate': 1.990251827782291e-06, 'epoch': 1.94}
+{'loss': 2.1117, 'grad_norm': 1.6992584466934204, 'learning_rate': 1.988220958570268e-06, 'epoch': 1.94}
+{'loss': 2.1153, 'grad_norm': 1.5958611965179443, 'learning_rate': 1.9861900893582455e-06, 'epoch': 1.94}
+{'loss': 2.1142, 'grad_norm': 1.8404580354690552, 'learning_rate': 1.9841592201462227e-06, 'epoch': 1.95}
+{'loss': 2.0636, 'grad_norm': 1.645383596420288, 'learning_rate': 1.9821283509342e-06, 'epoch': 1.95}
+{'loss': 2.0625, 'grad_norm': 1.5884764194488525, 'learning_rate': 1.9800974817221773e-06, 'epoch': 1.95}
+{'loss': 2.1173, 'grad_norm': 1.5789474248886108, 'learning_rate': 1.9780666125101546e-06, 'epoch': 1.95}
+{'loss': 2.0826, 'grad_norm': 1.595267415046692, 'learning_rate': 1.976035743298132e-06, 'epoch': 1.95}
+{'loss': 2.1399, 'grad_norm': 1.5294370651245117, 'learning_rate': 1.974004874086109e-06, 'epoch': 1.95}
+{'eval_loss': 2.2618696689605713, 'eval_runtime': 37.7778, 'eval_samples_per_second': 26.471, 'eval_steps_per_second': 1.112, 'epoch': 1.95}
+{'loss': 2.0513, 'grad_norm': 1.6089496612548828, 'learning_rate': 1.9719740048740864e-06, 'epoch': 1.95}
+{'loss': 2.0923, 'grad_norm': 1.4680594205856323, 'learning_rate': 1.9699431356620637e-06, 'epoch': 1.95}
+{'loss': 2.0818, 'grad_norm': 1.6666256189346313, 'learning_rate': 1.967912266450041e-06, 'epoch': 1.95}
+{'loss': 2.0698, 'grad_norm': 1.6503198146820068, 'learning_rate': 1.9658813972380182e-06, 'epoch': 1.96}
+{'loss': 2.1724, 'grad_norm': 1.5552059412002563, 'learning_rate': 1.9638505280259955e-06, 'epoch': 1.96}
+{'loss': 2.0826, 'grad_norm': 1.6461236476898193, 'learning_rate': 1.9618196588139728e-06, 'epoch': 1.96}
+{'loss': 2.1014, 'grad_norm': 1.5430357456207275, 'learning_rate': 1.95978878960195e-06, 'epoch': 1.96}
+{'loss': 2.1612, 'grad_norm': 1.6345195770263672, 'learning_rate': 1.9577579203899273e-06, 'epoch': 1.96}
+{'loss': 2.1305, 'grad_norm': 1.585314393043518, 'learning_rate': 1.955727051177904e-06, 'epoch': 1.96}
+{'loss': 2.0829, 'grad_norm': 1.6025995016098022, 'learning_rate': 1.9536961819658815e-06, 'epoch': 1.96}
+{'eval_loss': 2.2633187770843506, 'eval_runtime': 37.7379, 'eval_samples_per_second': 26.499, 'eval_steps_per_second': 1.113, 'epoch': 1.96}
+{'loss': 2.0674, 'grad_norm': 1.503288984298706, 'learning_rate': 1.9516653127538587e-06, 'epoch': 1.96}
+{'loss': 2.0783, 'grad_norm': 1.6138869524002075, 'learning_rate': 1.949634443541836e-06, 'epoch': 1.96}
+{'loss': 2.0666, 'grad_norm': 1.5192114114761353, 'learning_rate': 1.9476035743298133e-06, 'epoch': 1.96}
+{'loss': 2.1238, 'grad_norm': 1.5506458282470703, 'learning_rate': 1.9455727051177906e-06, 'epoch': 1.97}
+{'loss': 2.0937, 'grad_norm': 1.586253046989441, 'learning_rate': 1.943541835905768e-06, 'epoch': 1.97}
+{'loss': 2.1517, 'grad_norm': 1.7651121616363525, 'learning_rate': 1.941510966693745e-06, 'epoch': 1.97}
+{'loss': 2.0622, 'grad_norm': 1.693560004234314, 'learning_rate': 1.9394800974817224e-06, 'epoch': 1.97}
+{'loss': 2.1232, 'grad_norm': 1.5557150840759277, 'learning_rate': 1.9374492282696997e-06, 'epoch': 1.97}
+{'loss': 2.1441, 'grad_norm': 1.5719987154006958, 'learning_rate': 1.935418359057677e-06, 'epoch': 1.97}
+{'loss': 2.0986, 'grad_norm': 1.6564991474151611, 'learning_rate': 1.9333874898456542e-06, 'epoch': 1.97}
+{'eval_loss': 2.2631354331970215, 'eval_runtime': 37.7442, 'eval_samples_per_second': 26.494, 'eval_steps_per_second': 1.113, 'epoch': 1.97}
+{'loss': 2.1458, 'grad_norm': 1.5581752061843872, 'learning_rate': 1.931356620633631e-06, 'epoch': 1.97}
+{'loss': 2.0584, 'grad_norm': 1.6118229627609253, 'learning_rate': 1.9293257514216083e-06, 'epoch': 1.97}
+{'loss': 2.1078, 'grad_norm': 1.5779790878295898, 'learning_rate': 1.9272948822095856e-06, 'epoch': 1.98}
+{'loss': 2.0616, 'grad_norm': 1.7222095727920532, 'learning_rate': 1.925264012997563e-06, 'epoch': 1.98}
+{'loss': 2.0854, 'grad_norm': 1.5988832712173462, 'learning_rate': 1.92323314378554e-06, 'epoch': 1.98}
+{'loss': 2.1208, 'grad_norm': 1.5355324745178223, 'learning_rate': 1.9212022745735174e-06, 'epoch': 1.98}
+{'loss': 2.075, 'grad_norm': 1.5681253671646118, 'learning_rate': 1.9191714053614947e-06, 'epoch': 1.98}
+{'loss': 2.0643, 'grad_norm': 1.716667890548706, 'learning_rate': 1.917140536149472e-06, 'epoch': 1.98}
+{'loss': 2.0575, 'grad_norm': 1.6974313259124756, 'learning_rate': 1.9151096669374493e-06, 'epoch': 1.98}
+{'loss': 2.1276, 'grad_norm': 1.8449302911758423, 'learning_rate': 1.9130787977254266e-06, 'epoch': 1.98}
+{'eval_loss': 2.2627832889556885, 'eval_runtime': 37.4952, 'eval_samples_per_second': 26.67, 'eval_steps_per_second': 1.12, 'epoch': 1.98}
+{'loss': 2.0987, 'grad_norm': 1.5791739225387573, 'learning_rate': 1.911047928513404e-06, 'epoch': 1.98}
+{'loss': 2.0771, 'grad_norm': 1.6087177991867065, 'learning_rate': 1.909017059301381e-06, 'epoch': 1.99}
+{'loss': 2.0802, 'grad_norm': 1.6372435092926025, 'learning_rate': 1.9069861900893586e-06, 'epoch': 1.99}
+{'loss': 2.1082, 'grad_norm': 1.5792263746261597, 'learning_rate': 1.9049553208773354e-06, 'epoch': 1.99}
+{'loss': 2.0871, 'grad_norm': 1.56145441532135, 'learning_rate': 1.9029244516653127e-06, 'epoch': 1.99}
+{'loss': 2.0437, 'grad_norm': 1.5819900035858154, 'learning_rate': 1.90089358245329e-06, 'epoch': 1.99}
+{'loss': 2.0919, 'grad_norm': 1.598279595375061, 'learning_rate': 1.8988627132412673e-06, 'epoch': 1.99}
+{'loss': 2.1209, 'grad_norm': 1.670866847038269, 'learning_rate': 1.8968318440292445e-06, 'epoch': 1.99}
+{'loss': 2.053, 'grad_norm': 1.6809357404708862, 'learning_rate': 1.8948009748172218e-06, 'epoch': 1.99}
+{'loss': 2.1158, 'grad_norm': 1.6601941585540771, 'learning_rate': 1.892770105605199e-06, 'epoch': 1.99}
+{'eval_loss': 2.263678550720215, 'eval_runtime': 37.6519, 'eval_samples_per_second': 26.559, 'eval_steps_per_second': 1.115, 'epoch': 1.99}
+{'loss': 2.1137, 'grad_norm': 1.6545871496200562, 'learning_rate': 1.8907392363931764e-06, 'epoch': 2.0}
+{'loss': 2.0855, 'grad_norm': 1.6433789730072021, 'learning_rate': 1.8887083671811536e-06, 'epoch': 2.0}
+{'loss': 2.1013, 'grad_norm': 1.5055043697357178, 'learning_rate': 1.886677497969131e-06, 'epoch': 2.0}
+{'loss': 2.0204, 'grad_norm': 1.6598320007324219, 'learning_rate': 1.8846466287571082e-06, 'epoch': 2.0}
+{'loss': 2.114, 'grad_norm': 1.651822805404663, 'learning_rate': 1.8826157595450855e-06, 'epoch': 2.0}
+{'loss': 2.03, 'grad_norm': 1.7223222255706787, 'learning_rate': 1.8805848903330625e-06, 'epoch': 2.0}
+{'loss': 2.1526, 'grad_norm': 1.7248355150222778, 'learning_rate': 1.8785540211210398e-06, 'epoch': 2.0}
+{'loss': 2.0962, 'grad_norm': 1.6611034870147705, 'learning_rate': 1.876523151909017e-06, 'epoch': 2.0}
+{'loss': 2.0684, 'grad_norm': 1.8848307132720947, 'learning_rate': 1.8744922826969944e-06, 'epoch': 2.0}
+{'loss': 2.061, 'grad_norm': 1.905985951423645, 'learning_rate': 1.8724614134849716e-06, 'epoch': 2.01}
+{'eval_loss': 2.2726547718048096, 'eval_runtime': 37.6606, 'eval_samples_per_second': 26.553, 'eval_steps_per_second': 1.115, 'epoch': 2.01}
+{'loss': 2.0627, 'grad_norm': 1.821939468383789, 'learning_rate': 1.870430544272949e-06, 'epoch': 2.01}
+{'loss': 2.1351, 'grad_norm': 1.9563604593276978, 'learning_rate': 1.8683996750609262e-06, 'epoch': 2.01}
+{'loss': 2.0494, 'grad_norm': 1.8462769985198975, 'learning_rate': 1.8663688058489035e-06, 'epoch': 2.01}
+{'loss': 2.0737, 'grad_norm': 1.8355573415756226, 'learning_rate': 1.8643379366368807e-06, 'epoch': 2.01}
+{'loss': 2.0923, 'grad_norm': 1.736944317817688, 'learning_rate': 1.862307067424858e-06, 'epoch': 2.01}
+{'loss': 2.0805, 'grad_norm': 1.7038421630859375, 'learning_rate': 1.8602761982128353e-06, 'epoch': 2.01}
+{'loss': 2.1041, 'grad_norm': 1.7488082647323608, 'learning_rate': 1.8582453290008126e-06, 'epoch': 2.01}
+{'loss': 2.0582, 'grad_norm': 1.8163859844207764, 'learning_rate': 1.8562144597887898e-06, 'epoch': 2.01}
+{'loss': 2.0746, 'grad_norm': 1.807167887687683, 'learning_rate': 1.854183590576767e-06, 'epoch': 2.02}
+{'loss': 2.1083, 'grad_norm': 1.8042654991149902, 'learning_rate': 1.8521527213647442e-06, 'epoch': 2.02}
+{'eval_loss': 2.270277738571167, 'eval_runtime': 37.6637, 'eval_samples_per_second': 26.551, 'eval_steps_per_second': 1.115, 'epoch': 2.02}
+{'loss': 2.0484, 'grad_norm': 1.8522469997406006, 'learning_rate': 1.8501218521527215e-06, 'epoch': 2.02}
+{'loss': 2.0165, 'grad_norm': 1.8334914445877075, 'learning_rate': 1.8480909829406987e-06, 'epoch': 2.02}
+{'loss': 2.0432, 'grad_norm': 1.8615881204605103, 'learning_rate': 1.846060113728676e-06, 'epoch': 2.02}
+{'loss': 2.075, 'grad_norm': 1.798062801361084, 'learning_rate': 1.8440292445166533e-06, 'epoch': 2.02}
+{'loss': 2.0365, 'grad_norm': 1.8295692205429077, 'learning_rate': 1.8419983753046306e-06, 'epoch': 2.02}
+{'loss': 2.1058, 'grad_norm': 1.7701200246810913, 'learning_rate': 1.8399675060926078e-06, 'epoch': 2.02}
+{'loss': 2.0709, 'grad_norm': 1.7420741319656372, 'learning_rate': 1.8379366368805851e-06, 'epoch': 2.02}
+{'loss': 2.0528, 'grad_norm': 1.7441455125808716, 'learning_rate': 1.8359057676685624e-06, 'epoch': 2.03}
+{'loss': 2.0412, 'grad_norm': 1.8108539581298828, 'learning_rate': 1.8338748984565397e-06, 'epoch': 2.03}
+{'loss': 2.0635, 'grad_norm': 1.7343703508377075, 'learning_rate': 1.831844029244517e-06, 'epoch': 2.03}
+{'eval_loss': 2.2657172679901123, 'eval_runtime': 37.6601, 'eval_samples_per_second': 26.553, 'eval_steps_per_second': 1.115, 'epoch': 2.03}
+{'loss': 2.0299, 'grad_norm': 1.8633806705474854, 'learning_rate': 1.829813160032494e-06, 'epoch': 2.03}
+{'loss': 2.0493, 'grad_norm': 1.7966036796569824, 'learning_rate': 1.8277822908204713e-06, 'epoch': 2.03}
+{'loss': 2.0849, 'grad_norm': 1.8244894742965698, 'learning_rate': 1.8257514216084486e-06, 'epoch': 2.03}
+{'loss': 2.0597, 'grad_norm': 1.8330730199813843, 'learning_rate': 1.8237205523964258e-06, 'epoch': 2.03}
+{'loss': 2.0793, 'grad_norm': 1.6965467929840088, 'learning_rate': 1.8216896831844031e-06, 'epoch': 2.03}
+{'loss': 2.0978, 'grad_norm': 1.7375191450119019, 'learning_rate': 1.8196588139723804e-06, 'epoch': 2.03}
+{'loss': 2.0325, 'grad_norm': 1.790861964225769, 'learning_rate': 1.8176279447603577e-06, 'epoch': 2.04}
+{'loss': 2.0639, 'grad_norm': 1.8882683515548706, 'learning_rate': 1.815597075548335e-06, 'epoch': 2.04}
+{'loss': 2.0853, 'grad_norm': 1.8117995262145996, 'learning_rate': 1.8135662063363122e-06, 'epoch': 2.04}
+{'loss': 2.0893, 'grad_norm': 1.7351316213607788, 'learning_rate': 1.8115353371242895e-06, 'epoch': 2.04}
+{'eval_loss': 2.2647769451141357, 'eval_runtime': 37.6701, 'eval_samples_per_second': 26.546, 'eval_steps_per_second': 1.115, 'epoch': 2.04}
+{'loss': 2.0227, 'grad_norm': 1.7703355550765991, 'learning_rate': 1.8095044679122668e-06, 'epoch': 2.04}
+{'loss': 2.057, 'grad_norm': 1.7836110591888428, 'learning_rate': 1.807473598700244e-06, 'epoch': 2.04}
+{'loss': 2.0596, 'grad_norm': 1.7477662563323975, 'learning_rate': 1.805442729488221e-06, 'epoch': 2.04}
+{'loss': 2.0701, 'grad_norm': 1.7267078161239624, 'learning_rate': 1.8034118602761982e-06, 'epoch': 2.04}
+{'loss': 2.0626, 'grad_norm': 1.7117913961410522, 'learning_rate': 1.8013809910641754e-06, 'epoch': 2.04}
+{'loss': 2.0596, 'grad_norm': 1.7216103076934814, 'learning_rate': 1.7993501218521527e-06, 'epoch': 2.04}
+{'loss': 2.0351, 'grad_norm': 1.6997607946395874, 'learning_rate': 1.79731925264013e-06, 'epoch': 2.05}
+{'loss': 2.0984, 'grad_norm': 1.7966370582580566, 'learning_rate': 1.7952883834281073e-06, 'epoch': 2.05}
+{'loss': 2.0511, 'grad_norm': 1.765936017036438, 'learning_rate': 1.7932575142160846e-06, 'epoch': 2.05}
+{'loss': 2.0794, 'grad_norm': 1.7255085706710815, 'learning_rate': 1.7912266450040618e-06, 'epoch': 2.05}
+{'eval_loss': 2.263674736022949, 'eval_runtime': 37.6568, 'eval_samples_per_second': 26.556, 'eval_steps_per_second': 1.115, 'epoch': 2.05}
+{'loss': 2.0937, 'grad_norm': 1.732675552368164, 'learning_rate': 1.789195775792039e-06, 'epoch': 2.05}
+{'loss': 2.0099, 'grad_norm': 1.88129460811615, 'learning_rate': 1.7871649065800164e-06, 'epoch': 2.05}
+{'loss': 2.1199, 'grad_norm': 1.8175556659698486, 'learning_rate': 1.7851340373679937e-06, 'epoch': 2.05}
+{'loss': 2.0291, 'grad_norm': 1.7024649381637573, 'learning_rate': 1.783103168155971e-06, 'epoch': 2.05}
+{'loss': 2.0701, 'grad_norm': 1.7528632879257202, 'learning_rate': 1.7810722989439482e-06, 'epoch': 2.05}
+{'loss': 2.0686, 'grad_norm': 1.7669185400009155, 'learning_rate': 1.7790414297319253e-06, 'epoch': 2.06}
+{'loss': 2.0434, 'grad_norm': 1.8897175788879395, 'learning_rate': 1.7770105605199025e-06, 'epoch': 2.06}
+{'loss': 2.0284, 'grad_norm': 1.8344897031784058, 'learning_rate': 1.7749796913078798e-06, 'epoch': 2.06}
+{'loss': 2.0768, 'grad_norm': 1.826278567314148, 'learning_rate': 1.772948822095857e-06, 'epoch': 2.06}
+{'loss': 2.114, 'grad_norm': 1.936743974685669, 'learning_rate': 1.7709179528838344e-06, 'epoch': 2.06}
+{'eval_loss': 2.26519775390625, 'eval_runtime': 37.6736, 'eval_samples_per_second': 26.544, 'eval_steps_per_second': 1.115, 'epoch': 2.06}
+{'loss': 2.0908, 'grad_norm': 1.7615277767181396, 'learning_rate': 1.7688870836718116e-06, 'epoch': 2.06}
+{'loss': 2.0679, 'grad_norm': 1.9557232856750488, 'learning_rate': 1.766856214459789e-06, 'epoch': 2.06}
+{'loss': 2.0675, 'grad_norm': 1.8528341054916382, 'learning_rate': 1.7648253452477662e-06, 'epoch': 2.06}
+{'loss': 2.0446, 'grad_norm': 1.7378684282302856, 'learning_rate': 1.7627944760357435e-06, 'epoch': 2.06}
+{'loss': 2.1069, 'grad_norm': 1.7999491691589355, 'learning_rate': 1.7607636068237208e-06, 'epoch': 2.07}
+{'loss': 2.0759, 'grad_norm': 1.8005017042160034, 'learning_rate': 1.758732737611698e-06, 'epoch': 2.07}
+{'loss': 2.0717, 'grad_norm': 1.7498255968093872, 'learning_rate': 1.7567018683996753e-06, 'epoch': 2.07}
+{'loss': 2.0619, 'grad_norm': 1.9361906051635742, 'learning_rate': 1.7546709991876524e-06, 'epoch': 2.07}
+{'loss': 2.0421, 'grad_norm': 1.6968938112258911, 'learning_rate': 1.7526401299756296e-06, 'epoch': 2.07}
+{'loss': 2.0533, 'grad_norm': 1.7960610389709473, 'learning_rate': 1.750609260763607e-06, 'epoch': 2.07}
+{'eval_loss': 2.2673912048339844, 'eval_runtime': 37.6925, 'eval_samples_per_second': 26.53, 'eval_steps_per_second': 1.114, 'epoch': 2.07}
+{'loss': 2.0752, 'grad_norm': 1.9378719329833984, 'learning_rate': 1.7485783915515842e-06, 'epoch': 2.07}
+{'loss': 2.0644, 'grad_norm': 1.8713290691375732, 'learning_rate': 1.7465475223395615e-06, 'epoch': 2.07}
+{'loss': 2.0365, 'grad_norm': 1.7992442846298218, 'learning_rate': 1.7445166531275387e-06, 'epoch': 2.07}
+{'loss': 2.1452, 'grad_norm': 1.7976951599121094, 'learning_rate': 1.742485783915516e-06, 'epoch': 2.08}
+{'loss': 2.1311, 'grad_norm': 2.0065741539001465, 'learning_rate': 1.7404549147034933e-06, 'epoch': 2.08}
+{'loss': 2.014, 'grad_norm': 1.753688097000122, 'learning_rate': 1.7384240454914706e-06, 'epoch': 2.08}
+{'loss': 2.0753, 'grad_norm': 1.8901431560516357, 'learning_rate': 1.7363931762794478e-06, 'epoch': 2.08}
+{'loss': 2.0946, 'grad_norm': 2.065866470336914, 'learning_rate': 1.7343623070674251e-06, 'epoch': 2.08}
+{'loss': 2.0635, 'grad_norm': 1.7597064971923828, 'learning_rate': 1.7323314378554024e-06, 'epoch': 2.08}
+{'loss': 2.0711, 'grad_norm': 1.9087393283843994, 'learning_rate': 1.7303005686433797e-06, 'epoch': 2.08}
+{'eval_loss': 2.2645835876464844, 'eval_runtime': 37.7552, 'eval_samples_per_second': 26.486, 'eval_steps_per_second': 1.112, 'epoch': 2.08}
+{'loss': 2.0698, 'grad_norm': 1.9217143058776855, 'learning_rate': 1.7282696994313567e-06, 'epoch': 2.08}
+{'loss': 2.0727, 'grad_norm': 1.7899013757705688, 'learning_rate': 1.726238830219334e-06, 'epoch': 2.08}
+{'loss': 2.0544, 'grad_norm': 1.8324130773544312, 'learning_rate': 1.7242079610073113e-06, 'epoch': 2.09}
+{'loss': 2.1119, 'grad_norm': 1.8263957500457764, 'learning_rate': 1.7221770917952886e-06, 'epoch': 2.09}
+{'loss': 2.0746, 'grad_norm': 1.8298128843307495, 'learning_rate': 1.7201462225832658e-06, 'epoch': 2.09}
+{'loss': 2.0804, 'grad_norm': 1.8689907789230347, 'learning_rate': 1.7181153533712431e-06, 'epoch': 2.09}
+{'loss': 2.0029, 'grad_norm': 1.8399882316589355, 'learning_rate': 1.7160844841592204e-06, 'epoch': 2.09}
+{'loss': 2.03, 'grad_norm': 1.8941278457641602, 'learning_rate': 1.7140536149471977e-06, 'epoch': 2.09}
+{'loss': 2.0607, 'grad_norm': 1.8218003511428833, 'learning_rate': 1.712022745735175e-06, 'epoch': 2.09}
+{'loss': 2.0573, 'grad_norm': 1.820852279663086, 'learning_rate': 1.7099918765231522e-06, 'epoch': 2.09}
+{'eval_loss': 2.2611513137817383, 'eval_runtime': 37.4842, 'eval_samples_per_second': 26.678, 'eval_steps_per_second': 1.12, 'epoch': 2.09}
+{'loss': 2.0706, 'grad_norm': 1.7027291059494019, 'learning_rate': 1.7079610073111295e-06, 'epoch': 2.09}
+{'loss': 2.017, 'grad_norm': 1.8876452445983887, 'learning_rate': 1.7059301380991068e-06, 'epoch': 2.1}
+{'loss': 2.0669, 'grad_norm': 1.8601975440979004, 'learning_rate': 1.7038992688870836e-06, 'epoch': 2.1}
+{'loss': 2.0406, 'grad_norm': 1.8746047019958496, 'learning_rate': 1.701868399675061e-06, 'epoch': 2.1}
+{'loss': 2.0804, 'grad_norm': 2.0587048530578613, 'learning_rate': 1.6998375304630382e-06, 'epoch': 2.1}
+{'loss': 2.1325, 'grad_norm': 1.8523770570755005, 'learning_rate': 1.6978066612510155e-06, 'epoch': 2.1}
+{'loss': 2.1028, 'grad_norm': 1.8776931762695312, 'learning_rate': 1.6957757920389927e-06, 'epoch': 2.1}
+{'loss': 2.0681, 'grad_norm': 2.0797929763793945, 'learning_rate': 1.69374492282697e-06, 'epoch': 2.1}
+{'loss': 2.0525, 'grad_norm': 1.869533658027649, 'learning_rate': 1.6917140536149473e-06, 'epoch': 2.1}
+{'loss': 2.1103, 'grad_norm': 1.8312443494796753, 'learning_rate': 1.6896831844029246e-06, 'epoch': 2.1}
+{'eval_loss': 2.267488479614258, 'eval_runtime': 37.6718, 'eval_samples_per_second': 26.545, 'eval_steps_per_second': 1.115, 'epoch': 2.1}
+{'loss': 2.0773, 'grad_norm': 2.164790153503418, 'learning_rate': 1.6876523151909018e-06, 'epoch': 2.11}
+{'loss': 2.0848, 'grad_norm': 1.8514399528503418, 'learning_rate': 1.6856214459788791e-06, 'epoch': 2.11}
+{'loss': 2.046, 'grad_norm': 1.8508572578430176, 'learning_rate': 1.6835905767668564e-06, 'epoch': 2.11}
+{'loss': 2.0549, 'grad_norm': 1.9300267696380615, 'learning_rate': 1.6815597075548337e-06, 'epoch': 2.11}
+{'loss': 2.1214, 'grad_norm': 1.6878728866577148, 'learning_rate': 1.679528838342811e-06, 'epoch': 2.11}
+{'loss': 2.0374, 'grad_norm': 1.8168129920959473, 'learning_rate': 1.677497969130788e-06, 'epoch': 2.11}
+{'loss': 2.0513, 'grad_norm': 1.9450105428695679, 'learning_rate': 1.6754670999187653e-06, 'epoch': 2.11}
+{'loss': 2.0771, 'grad_norm': 1.9010601043701172, 'learning_rate': 1.6734362307067426e-06, 'epoch': 2.11}
+{'loss': 2.0321, 'grad_norm': 1.7334376573562622, 'learning_rate': 1.6714053614947198e-06, 'epoch': 2.11}
+{'loss': 2.0347, 'grad_norm': 1.9980703592300415, 'learning_rate': 1.669374492282697e-06, 'epoch': 2.12}
+{'eval_loss': 2.2659449577331543, 'eval_runtime': 37.7008, 'eval_samples_per_second': 26.525, 'eval_steps_per_second': 1.114, 'epoch': 2.12}
+{'loss': 2.1019, 'grad_norm': 1.9333648681640625, 'learning_rate': 1.6673436230706744e-06, 'epoch': 2.12}
+{'loss': 2.0865, 'grad_norm': 1.7904168367385864, 'learning_rate': 1.6653127538586517e-06, 'epoch': 2.12}
+{'loss': 2.0507, 'grad_norm': 1.8196371793746948, 'learning_rate': 1.663281884646629e-06, 'epoch': 2.12}
+{'loss': 2.0533, 'grad_norm': 1.799830436706543, 'learning_rate': 1.6612510154346062e-06, 'epoch': 2.12}
+{'loss': 2.1154, 'grad_norm': 1.8558661937713623, 'learning_rate': 1.6592201462225835e-06, 'epoch': 2.12}
+{'loss': 2.0834, 'grad_norm': 1.7904359102249146, 'learning_rate': 1.6571892770105608e-06, 'epoch': 2.12}
+{'loss': 2.1108, 'grad_norm': 1.8627485036849976, 'learning_rate': 1.655158407798538e-06, 'epoch': 2.12}
+{'loss': 2.0671, 'grad_norm': 1.7689932584762573, 'learning_rate': 1.653127538586515e-06, 'epoch': 2.12}
+{'loss': 2.0902, 'grad_norm': 1.775831937789917, 'learning_rate': 1.6510966693744924e-06, 'epoch': 2.12}
+{'loss': 2.0931, 'grad_norm': 1.8722971677780151, 'learning_rate': 1.6490658001624696e-06, 'epoch': 2.13}
+{'eval_loss': 2.2668471336364746, 'eval_runtime': 37.6788, 'eval_samples_per_second': 26.54, 'eval_steps_per_second': 1.115, 'epoch': 2.13}
+{'loss': 2.0905, 'grad_norm': 1.8237229585647583, 'learning_rate': 1.647034930950447e-06, 'epoch': 2.13}
+{'loss': 2.0517, 'grad_norm': 1.9563652276992798, 'learning_rate': 1.6450040617384242e-06, 'epoch': 2.13}
+{'loss': 2.0599, 'grad_norm': 1.8637902736663818, 'learning_rate': 1.6429731925264015e-06, 'epoch': 2.13}
+{'loss': 2.0872, 'grad_norm': 1.7909362316131592, 'learning_rate': 1.6409423233143788e-06, 'epoch': 2.13}
+{'loss': 2.0606, 'grad_norm': 1.812567949295044, 'learning_rate': 1.638911454102356e-06, 'epoch': 2.13}
+{'loss': 2.0393, 'grad_norm': 1.7116492986679077, 'learning_rate': 1.6368805848903333e-06, 'epoch': 2.13}
+{'loss': 2.0957, 'grad_norm': 1.7569715976715088, 'learning_rate': 1.6348497156783106e-06, 'epoch': 2.13}
+{'loss': 2.05, 'grad_norm': 1.8204025030136108, 'learning_rate': 1.6328188464662879e-06, 'epoch': 2.13}
+{'loss': 2.0608, 'grad_norm': 1.7346827983856201, 'learning_rate': 1.6307879772542651e-06, 'epoch': 2.14}
+{'loss': 2.0692, 'grad_norm': 1.6859444379806519, 'learning_rate': 1.628757108042242e-06, 'epoch': 2.14}
+{'eval_loss': 2.265343189239502, 'eval_runtime': 37.7395, 'eval_samples_per_second': 26.497, 'eval_steps_per_second': 1.113, 'epoch': 2.14}
+{'loss': 2.0984, 'grad_norm': 1.8390599489212036, 'learning_rate': 1.6267262388302193e-06, 'epoch': 2.14}
+{'loss': 2.0573, 'grad_norm': 1.7002995014190674, 'learning_rate': 1.6246953696181965e-06, 'epoch': 2.14}
+{'loss': 2.0853, 'grad_norm': 1.7980247735977173, 'learning_rate': 1.6226645004061738e-06, 'epoch': 2.14}
+{'loss': 2.1389, 'grad_norm': 1.7110742330551147, 'learning_rate': 1.620633631194151e-06, 'epoch': 2.14}
+{'loss': 2.0928, 'grad_norm': 1.7753539085388184, 'learning_rate': 1.6186027619821284e-06, 'epoch': 2.14}
+{'loss': 2.0375, 'grad_norm': 1.8391844034194946, 'learning_rate': 1.6165718927701056e-06, 'epoch': 2.14}
+{'loss': 2.0888, 'grad_norm': 1.7682923078536987, 'learning_rate': 1.614541023558083e-06, 'epoch': 2.14}
+{'loss': 2.0752, 'grad_norm': 1.7667080163955688, 'learning_rate': 1.6125101543460602e-06, 'epoch': 2.15}
+{'loss': 2.0783, 'grad_norm': 1.802897334098816, 'learning_rate': 1.6104792851340375e-06, 'epoch': 2.15}
+{'loss': 2.0943, 'grad_norm': 1.6980665922164917, 'learning_rate': 1.6084484159220147e-06, 'epoch': 2.15}
+{'eval_loss': 2.2633140087127686, 'eval_runtime': 37.7105, 'eval_samples_per_second': 26.518, 'eval_steps_per_second': 1.114, 'epoch': 2.15}
+{'loss': 2.0692, 'grad_norm': 1.880696177482605, 'learning_rate': 1.606417546709992e-06, 'epoch': 2.15}
+{'loss': 2.0597, 'grad_norm': 1.7680584192276, 'learning_rate': 1.6043866774979693e-06, 'epoch': 2.15}
+{'loss': 2.0702, 'grad_norm': 1.735554575920105, 'learning_rate': 1.6023558082859464e-06, 'epoch': 2.15}
+{'loss': 2.0489, 'grad_norm': 1.7784112691879272, 'learning_rate': 1.6003249390739236e-06, 'epoch': 2.15}
+{'loss': 2.0644, 'grad_norm': 1.8209941387176514, 'learning_rate': 1.598294069861901e-06, 'epoch': 2.15}
+{'loss': 2.0419, 'grad_norm': 1.7755030393600464, 'learning_rate': 1.5962632006498782e-06, 'epoch': 2.15}
+{'loss': 2.0936, 'grad_norm': 1.924762487411499, 'learning_rate': 1.5942323314378555e-06, 'epoch': 2.16}
+{'loss': 2.0233, 'grad_norm': 1.8836493492126465, 'learning_rate': 1.5922014622258327e-06, 'epoch': 2.16}
+{'loss': 2.0486, 'grad_norm': 1.8052717447280884, 'learning_rate': 1.59017059301381e-06, 'epoch': 2.16}
+{'loss': 2.0989, 'grad_norm': 1.85506010055542, 'learning_rate': 1.5881397238017873e-06, 'epoch': 2.16}
+{'eval_loss': 2.2657792568206787, 'eval_runtime': 37.7246, 'eval_samples_per_second': 26.508, 'eval_steps_per_second': 1.113, 'epoch': 2.16}
+{'loss': 2.0702, 'grad_norm': 1.70002281665802, 'learning_rate': 1.5861088545897646e-06, 'epoch': 2.16}
+{'loss': 2.0312, 'grad_norm': 1.8084272146224976, 'learning_rate': 1.5840779853777418e-06, 'epoch': 2.16}
+{'loss': 2.0664, 'grad_norm': 1.8022247552871704, 'learning_rate': 1.5820471161657191e-06, 'epoch': 2.16}
+{'loss': 2.0466, 'grad_norm': 1.7773394584655762, 'learning_rate': 1.5800162469536964e-06, 'epoch': 2.16}
+{'loss': 2.0971, 'grad_norm': 1.7938237190246582, 'learning_rate': 1.5779853777416735e-06, 'epoch': 2.16}
+{'loss': 2.0957, 'grad_norm': 1.8763842582702637, 'learning_rate': 1.5759545085296507e-06, 'epoch': 2.17}
+{'loss': 2.0726, 'grad_norm': 1.8329912424087524, 'learning_rate': 1.573923639317628e-06, 'epoch': 2.17}
+{'loss': 2.0768, 'grad_norm': 1.8630871772766113, 'learning_rate': 1.5718927701056053e-06, 'epoch': 2.17}
+{'loss': 2.0709, 'grad_norm': 1.7493082284927368, 'learning_rate': 1.5698619008935826e-06, 'epoch': 2.17}
+{'loss': 2.0894, 'grad_norm': 1.8056007623672485, 'learning_rate': 1.5678310316815598e-06, 'epoch': 2.17}
+{'eval_loss': 2.2638700008392334, 'eval_runtime': 37.7196, 'eval_samples_per_second': 26.511, 'eval_steps_per_second': 1.113, 'epoch': 2.17}
+{'loss': 2.046, 'grad_norm': 1.8915694952011108, 'learning_rate': 1.5658001624695371e-06, 'epoch': 2.17}
+{'loss': 2.1059, 'grad_norm': 1.8530871868133545, 'learning_rate': 1.5637692932575144e-06, 'epoch': 2.17}
+{'loss': 2.0496, 'grad_norm': 1.762414813041687, 'learning_rate': 1.5617384240454917e-06, 'epoch': 2.17}
+{'loss': 2.0691, 'grad_norm': 1.6948293447494507, 'learning_rate': 1.559707554833469e-06, 'epoch': 2.17}
+{'loss': 2.0921, 'grad_norm': 1.7287510633468628, 'learning_rate': 1.5576766856214462e-06, 'epoch': 2.18}
+{'loss': 2.0016, 'grad_norm': 1.6203533411026, 'learning_rate': 1.5556458164094235e-06, 'epoch': 2.18}
+{'loss': 2.0616, 'grad_norm': 1.8231979608535767, 'learning_rate': 1.5536149471974008e-06, 'epoch': 2.18}
+{'loss': 2.0292, 'grad_norm': 1.746643304824829, 'learning_rate': 1.5515840779853778e-06, 'epoch': 2.18}
+{'loss': 2.0689, 'grad_norm': 1.7545182704925537, 'learning_rate': 1.549553208773355e-06, 'epoch': 2.18}
+{'loss': 2.0609, 'grad_norm': 1.761176347732544, 'learning_rate': 1.5475223395613324e-06, 'epoch': 2.18}
+{'eval_loss': 2.265695333480835, 'eval_runtime': 37.7207, 'eval_samples_per_second': 26.511, 'eval_steps_per_second': 1.113, 'epoch': 2.18}
+{'loss': 2.0535, 'grad_norm': 1.7471305131912231, 'learning_rate': 1.5454914703493097e-06, 'epoch': 2.18}
+{'loss': 2.1311, 'grad_norm': 2.0592401027679443, 'learning_rate': 1.543460601137287e-06, 'epoch': 2.18}
+{'loss': 2.0771, 'grad_norm': 1.7411099672317505, 'learning_rate': 1.5414297319252642e-06, 'epoch': 2.18}
+{'loss': 2.0831, 'grad_norm': 1.859423041343689, 'learning_rate': 1.5393988627132415e-06, 'epoch': 2.19}
+{'loss': 2.0672, 'grad_norm': 1.9562842845916748, 'learning_rate': 1.5373679935012188e-06, 'epoch': 2.19}
+{'loss': 2.0203, 'grad_norm': 1.730803370475769, 'learning_rate': 1.535337124289196e-06, 'epoch': 2.19}
+{'loss': 2.0653, 'grad_norm': 2.2535834312438965, 'learning_rate': 1.5333062550771733e-06, 'epoch': 2.19}
+{'loss': 2.1449, 'grad_norm': 1.9807013273239136, 'learning_rate': 1.5312753858651506e-06, 'epoch': 2.19}
+{'loss': 2.0633, 'grad_norm': 1.927152156829834, 'learning_rate': 1.5292445166531279e-06, 'epoch': 2.19}
+{'loss': 2.0746, 'grad_norm': 1.9098169803619385, 'learning_rate': 1.5272136474411047e-06, 'epoch': 2.19}
+{'eval_loss': 2.267674446105957, 'eval_runtime': 37.7195, 'eval_samples_per_second': 26.511, 'eval_steps_per_second': 1.113, 'epoch': 2.19}
+{'loss': 2.1185, 'grad_norm': 1.8107478618621826, 'learning_rate': 1.525182778229082e-06, 'epoch': 2.19}
+{'loss': 2.0706, 'grad_norm': 1.7669944763183594, 'learning_rate': 1.5231519090170593e-06, 'epoch': 2.19}
+{'loss': 2.0486, 'grad_norm': 1.8877167701721191, 'learning_rate': 1.5211210398050365e-06, 'epoch': 2.2}
+{'loss': 2.0663, 'grad_norm': 1.8357380628585815, 'learning_rate': 1.5190901705930138e-06, 'epoch': 2.2}
+{'loss': 2.0803, 'grad_norm': 1.687699794769287, 'learning_rate': 1.517059301380991e-06, 'epoch': 2.2}
+{'loss': 2.0601, 'grad_norm': 1.8233404159545898, 'learning_rate': 1.5150284321689684e-06, 'epoch': 2.2}
+{'loss': 2.0576, 'grad_norm': 1.817450761795044, 'learning_rate': 1.5129975629569456e-06, 'epoch': 2.2}
+{'loss': 2.0661, 'grad_norm': 1.9173139333724976, 'learning_rate': 1.510966693744923e-06, 'epoch': 2.2}
+{'loss': 2.0752, 'grad_norm': 1.9552985429763794, 'learning_rate': 1.5089358245329002e-06, 'epoch': 2.2}
+{'loss': 2.061, 'grad_norm': 1.8234542608261108, 'learning_rate': 1.5069049553208775e-06, 'epoch': 2.2}
+{'eval_loss': 2.2650015354156494, 'eval_runtime': 37.5047, 'eval_samples_per_second': 26.663, 'eval_steps_per_second': 1.12, 'epoch': 2.2}
+{'loss': 2.0693, 'grad_norm': 1.8103924989700317, 'learning_rate': 1.5048740861088547e-06, 'epoch': 2.2}
+{'loss': 2.0846, 'grad_norm': 1.7639232873916626, 'learning_rate': 1.502843216896832e-06, 'epoch': 2.2}
+{'loss': 2.006, 'grad_norm': 1.8803489208221436, 'learning_rate': 1.500812347684809e-06, 'epoch': 2.21}
+{'loss': 2.0704, 'grad_norm': 1.7828997373580933, 'learning_rate': 1.4987814784727864e-06, 'epoch': 2.21}
+{'loss': 2.073, 'grad_norm': 1.8497276306152344, 'learning_rate': 1.4967506092607636e-06, 'epoch': 2.21}
+{'loss': 2.0231, 'grad_norm': 1.7710354328155518, 'learning_rate': 1.494719740048741e-06, 'epoch': 2.21}
+{'loss': 2.0941, 'grad_norm': 1.8529518842697144, 'learning_rate': 1.4926888708367182e-06, 'epoch': 2.21}
+{'loss': 2.1003, 'grad_norm': 1.9271605014801025, 'learning_rate': 1.4906580016246955e-06, 'epoch': 2.21}
+{'loss': 2.0943, 'grad_norm': 1.9052354097366333, 'learning_rate': 1.4886271324126727e-06, 'epoch': 2.21}
+{'loss': 2.1116, 'grad_norm': 1.7124340534210205, 'learning_rate': 1.48659626320065e-06, 'epoch': 2.21}
+{'eval_loss': 2.2650375366210938, 'eval_runtime': 37.6817, 'eval_samples_per_second': 26.538, 'eval_steps_per_second': 1.115, 'epoch': 2.21}
+{'loss': 2.0085, 'grad_norm': 1.8429542779922485, 'learning_rate': 1.4845653939886273e-06, 'epoch': 2.21}
+{'loss': 2.0265, 'grad_norm': 1.8243448734283447, 'learning_rate': 1.4825345247766046e-06, 'epoch': 2.22}
+{'loss': 2.0162, 'grad_norm': 1.803934097290039, 'learning_rate': 1.4805036555645818e-06, 'epoch': 2.22}
+{'loss': 2.0684, 'grad_norm': 1.760542392730713, 'learning_rate': 1.4784727863525591e-06, 'epoch': 2.22}
+{'loss': 2.0393, 'grad_norm': 1.7856435775756836, 'learning_rate': 1.4764419171405362e-06, 'epoch': 2.22}
+{'loss': 2.0989, 'grad_norm': 1.7334879636764526, 'learning_rate': 1.4744110479285135e-06, 'epoch': 2.22}
+{'loss': 2.1039, 'grad_norm': 1.8512253761291504, 'learning_rate': 1.4723801787164907e-06, 'epoch': 2.22}
+{'loss': 2.0906, 'grad_norm': 1.7622313499450684, 'learning_rate': 1.470349309504468e-06, 'epoch': 2.22}
+{'loss': 2.0816, 'grad_norm': 1.723610281944275, 'learning_rate': 1.4683184402924453e-06, 'epoch': 2.22}
+{'loss': 2.0913, 'grad_norm': 1.7802045345306396, 'learning_rate': 1.4662875710804226e-06, 'epoch': 2.22}
+{'eval_loss': 2.261765956878662, 'eval_runtime': 37.7119, 'eval_samples_per_second': 26.517, 'eval_steps_per_second': 1.114, 'epoch': 2.22}
+{'loss': 2.1314, 'grad_norm': 1.7080022096633911, 'learning_rate': 1.4642567018683998e-06, 'epoch': 2.23}
+{'loss': 2.0616, 'grad_norm': 1.7036887407302856, 'learning_rate': 1.4622258326563771e-06, 'epoch': 2.23}
+{'loss': 2.0496, 'grad_norm': 1.6967296600341797, 'learning_rate': 1.4601949634443544e-06, 'epoch': 2.23}
+{'loss': 2.0815, 'grad_norm': 1.7793478965759277, 'learning_rate': 1.4581640942323317e-06, 'epoch': 2.23}
+{'loss': 2.1357, 'grad_norm': 1.6818945407867432, 'learning_rate': 1.456133225020309e-06, 'epoch': 2.23}
+{'loss': 2.0965, 'grad_norm': 1.8442819118499756, 'learning_rate': 1.4541023558082862e-06, 'epoch': 2.23}
+{'loss': 2.0832, 'grad_norm': 1.799098014831543, 'learning_rate': 1.4520714865962635e-06, 'epoch': 2.23}
+{'loss': 2.0985, 'grad_norm': 1.8094325065612793, 'learning_rate': 1.4500406173842406e-06, 'epoch': 2.23}
+{'loss': 2.0712, 'grad_norm': 1.7331414222717285, 'learning_rate': 1.4480097481722178e-06, 'epoch': 2.23}
+{'loss': 2.0744, 'grad_norm': 1.8157544136047363, 'learning_rate': 1.4459788789601951e-06, 'epoch': 2.24}
+{'eval_loss': 2.2571167945861816, 'eval_runtime': 37.7096, 'eval_samples_per_second': 26.518, 'eval_steps_per_second': 1.114, 'epoch': 2.24}
+{'loss': 2.0461, 'grad_norm': 1.7404601573944092, 'learning_rate': 1.4439480097481724e-06, 'epoch': 2.24}
+{'loss': 2.0254, 'grad_norm': 1.8892534971237183, 'learning_rate': 1.4419171405361497e-06, 'epoch': 2.24}
+{'loss': 2.0868, 'grad_norm': 1.7493387460708618, 'learning_rate': 1.439886271324127e-06, 'epoch': 2.24}
+{'loss': 2.0758, 'grad_norm': 1.7248482704162598, 'learning_rate': 1.4378554021121042e-06, 'epoch': 2.24}
+{'loss': 2.0504, 'grad_norm': 1.913336992263794, 'learning_rate': 1.4358245329000815e-06, 'epoch': 2.24}
+{'loss': 2.0913, 'grad_norm': 1.9043806791305542, 'learning_rate': 1.4337936636880588e-06, 'epoch': 2.24}
+{'loss': 2.0813, 'grad_norm': 1.7969772815704346, 'learning_rate': 1.431762794476036e-06, 'epoch': 2.24}
+{'loss': 2.0371, 'grad_norm': 1.8503608703613281, 'learning_rate': 1.4297319252640133e-06, 'epoch': 2.24}
+{'loss': 2.066, 'grad_norm': 1.779099702835083, 'learning_rate': 1.4277010560519906e-06, 'epoch': 2.25}
+{'loss': 2.0333, 'grad_norm': 1.743699550628662, 'learning_rate': 1.4256701868399674e-06, 'epoch': 2.25}
+{'eval_loss': 2.260805130004883, 'eval_runtime': 37.7213, 'eval_samples_per_second': 26.51, 'eval_steps_per_second': 1.113, 'epoch': 2.25}
+{'loss': 2.1233, 'grad_norm': 1.8443049192428589, 'learning_rate': 1.4236393176279447e-06, 'epoch': 2.25}
+{'loss': 2.0623, 'grad_norm': 1.7747890949249268, 'learning_rate': 1.421608448415922e-06, 'epoch': 2.25}
+{'loss': 2.1225, 'grad_norm': 1.7706109285354614, 'learning_rate': 1.4195775792038993e-06, 'epoch': 2.25}
+{'loss': 2.0427, 'grad_norm': 1.7809358835220337, 'learning_rate': 1.4175467099918765e-06, 'epoch': 2.25}
+{'loss': 2.0648, 'grad_norm': 1.7465680837631226, 'learning_rate': 1.4155158407798538e-06, 'epoch': 2.25}
+{'loss': 2.0916, 'grad_norm': 1.7456731796264648, 'learning_rate': 1.413484971567831e-06, 'epoch': 2.25}
+{'loss': 2.0196, 'grad_norm': 1.7478255033493042, 'learning_rate': 1.4114541023558084e-06, 'epoch': 2.25}
+{'loss': 2.0572, 'grad_norm': 1.8639498949050903, 'learning_rate': 1.4094232331437856e-06, 'epoch': 2.26}
+{'loss': 2.1019, 'grad_norm': 1.8510676622390747, 'learning_rate': 1.407392363931763e-06, 'epoch': 2.26}
+{'loss': 2.1375, 'grad_norm': 1.8009498119354248, 'learning_rate': 1.4053614947197402e-06, 'epoch': 2.26}
+{'eval_loss': 2.2622830867767334, 'eval_runtime': 37.7329, 'eval_samples_per_second': 26.502, 'eval_steps_per_second': 1.113, 'epoch': 2.26}
+{'loss': 2.0846, 'grad_norm': 1.8282663822174072, 'learning_rate': 1.4033306255077175e-06, 'epoch': 2.26}
+{'loss': 2.0093, 'grad_norm': 1.7587144374847412, 'learning_rate': 1.4012997562956945e-06, 'epoch': 2.26}
+{'loss': 2.1143, 'grad_norm': 1.8915597200393677, 'learning_rate': 1.3992688870836718e-06, 'epoch': 2.26}
+{'loss': 2.0761, 'grad_norm': 1.7379379272460938, 'learning_rate': 1.397238017871649e-06, 'epoch': 2.26}
+{'loss': 2.0762, 'grad_norm': 1.6817508935928345, 'learning_rate': 1.3952071486596264e-06, 'epoch': 2.26}
+{'loss': 2.0372, 'grad_norm': 1.7910810708999634, 'learning_rate': 1.3931762794476036e-06, 'epoch': 2.26}
+{'loss': 2.1123, 'grad_norm': 1.8954648971557617, 'learning_rate': 1.391145410235581e-06, 'epoch': 2.27}
+{'loss': 2.0647, 'grad_norm': 1.6816895008087158, 'learning_rate': 1.3891145410235582e-06, 'epoch': 2.27}
+{'loss': 2.0054, 'grad_norm': 1.912908673286438, 'learning_rate': 1.3870836718115355e-06, 'epoch': 2.27}
+{'loss': 2.0551, 'grad_norm': 1.9691258668899536, 'learning_rate': 1.3850528025995127e-06, 'epoch': 2.27}
+{'eval_loss': 2.264782667160034, 'eval_runtime': 37.7422, 'eval_samples_per_second': 26.496, 'eval_steps_per_second': 1.113, 'epoch': 2.27}
+{'loss': 2.0551, 'grad_norm': 1.7667577266693115, 'learning_rate': 1.38302193338749e-06, 'epoch': 2.27}
+{'loss': 2.0092, 'grad_norm': 2.115990400314331, 'learning_rate': 1.3809910641754673e-06, 'epoch': 2.27}
+{'loss': 2.096, 'grad_norm': 1.9355361461639404, 'learning_rate': 1.3789601949634446e-06, 'epoch': 2.27}
+{'loss': 2.0114, 'grad_norm': 1.83534574508667, 'learning_rate': 1.3769293257514218e-06, 'epoch': 2.27}
+{'loss': 2.0811, 'grad_norm': 1.9388320446014404, 'learning_rate': 1.374898456539399e-06, 'epoch': 2.27}
+{'loss': 2.0446, 'grad_norm': 2.0216164588928223, 'learning_rate': 1.3728675873273762e-06, 'epoch': 2.28}
+{'loss': 2.0941, 'grad_norm': 1.702087163925171, 'learning_rate': 1.3708367181153535e-06, 'epoch': 2.28}
+{'loss': 2.0845, 'grad_norm': 1.8640434741973877, 'learning_rate': 1.3688058489033307e-06, 'epoch': 2.28}
+{'loss': 2.0823, 'grad_norm': 1.8582801818847656, 'learning_rate': 1.366774979691308e-06, 'epoch': 2.28}
+{'loss': 2.0885, 'grad_norm': 1.7718850374221802, 'learning_rate': 1.3647441104792853e-06, 'epoch': 2.28}
+{'eval_loss': 2.2654788494110107, 'eval_runtime': 37.75, 'eval_samples_per_second': 26.49, 'eval_steps_per_second': 1.113, 'epoch': 2.28}
+{'loss': 2.074, 'grad_norm': 1.8356283903121948, 'learning_rate': 1.3627132412672626e-06, 'epoch': 2.28}
+{'loss': 2.037, 'grad_norm': 2.0514018535614014, 'learning_rate': 1.3606823720552398e-06, 'epoch': 2.28}
+{'loss': 2.0835, 'grad_norm': 1.779360294342041, 'learning_rate': 1.3586515028432171e-06, 'epoch': 2.28}
+{'loss': 2.0238, 'grad_norm': 1.9533519744873047, 'learning_rate': 1.3566206336311944e-06, 'epoch': 2.28}
+{'loss': 2.0695, 'grad_norm': 1.815062165260315, 'learning_rate': 1.3545897644191717e-06, 'epoch': 2.28}
+{'loss': 2.0633, 'grad_norm': 1.7120598554611206, 'learning_rate': 1.352558895207149e-06, 'epoch': 2.29}
+{'loss': 2.0873, 'grad_norm': 1.8280580043792725, 'learning_rate': 1.3505280259951258e-06, 'epoch': 2.29}
+{'loss': 2.0597, 'grad_norm': 1.886336088180542, 'learning_rate': 1.348497156783103e-06, 'epoch': 2.29}
+{'loss': 2.1056, 'grad_norm': 1.6575541496276855, 'learning_rate': 1.3464662875710804e-06, 'epoch': 2.29}
+{'loss': 2.0339, 'grad_norm': 1.9519585371017456, 'learning_rate': 1.3444354183590576e-06, 'epoch': 2.29}
+{'eval_loss': 2.2632851600646973, 'eval_runtime': 37.7647, 'eval_samples_per_second': 26.48, 'eval_steps_per_second': 1.112, 'epoch': 2.29}
+{'loss': 2.0823, 'grad_norm': 1.768110990524292, 'learning_rate': 1.342404549147035e-06, 'epoch': 2.29}
+{'loss': 2.0444, 'grad_norm': 1.795876383781433, 'learning_rate': 1.3403736799350122e-06, 'epoch': 2.29}
+{'loss': 2.0821, 'grad_norm': 1.9888944625854492, 'learning_rate': 1.3383428107229895e-06, 'epoch': 2.29}
+{'loss': 2.1067, 'grad_norm': 1.857003092765808, 'learning_rate': 1.3363119415109667e-06, 'epoch': 2.29}
+{'loss': 2.0818, 'grad_norm': 1.71320378780365, 'learning_rate': 1.334281072298944e-06, 'epoch': 2.3}
+{'loss': 2.0832, 'grad_norm': 1.8885241746902466, 'learning_rate': 1.3322502030869213e-06, 'epoch': 2.3}
+{'loss': 2.0597, 'grad_norm': 1.8718510866165161, 'learning_rate': 1.3302193338748986e-06, 'epoch': 2.3}
+{'loss': 2.1081, 'grad_norm': 1.7712024450302124, 'learning_rate': 1.3281884646628758e-06, 'epoch': 2.3}
+{'loss': 2.0956, 'grad_norm': 1.7316144704818726, 'learning_rate': 1.3261575954508531e-06, 'epoch': 2.3}
+{'loss': 2.0948, 'grad_norm': 1.9258216619491577, 'learning_rate': 1.3241267262388302e-06, 'epoch': 2.3}
+{'eval_loss': 2.2612640857696533, 'eval_runtime': 37.7454, 'eval_samples_per_second': 26.493, 'eval_steps_per_second': 1.113, 'epoch': 2.3}
+{'loss': 2.0772, 'grad_norm': 1.7806365489959717, 'learning_rate': 1.3220958570268074e-06, 'epoch': 2.3}
+{'loss': 2.0316, 'grad_norm': 1.8003284931182861, 'learning_rate': 1.3200649878147847e-06, 'epoch': 2.3}
+{'loss': 2.067, 'grad_norm': 1.8113213777542114, 'learning_rate': 1.318034118602762e-06, 'epoch': 2.3}
+{'loss': 2.1011, 'grad_norm': 1.748888611793518, 'learning_rate': 1.3160032493907393e-06, 'epoch': 2.31}
+{'loss': 2.0863, 'grad_norm': 1.8190544843673706, 'learning_rate': 1.3139723801787166e-06, 'epoch': 2.31}
+{'loss': 2.1231, 'grad_norm': 1.9063167572021484, 'learning_rate': 1.3119415109666938e-06, 'epoch': 2.31}
+{'loss': 2.0743, 'grad_norm': 1.9155728816986084, 'learning_rate': 1.309910641754671e-06, 'epoch': 2.31}
+{'loss': 2.028, 'grad_norm': 1.7539788484573364, 'learning_rate': 1.3078797725426484e-06, 'epoch': 2.31}
+{'loss': 2.0475, 'grad_norm': 1.716995120048523, 'learning_rate': 1.3058489033306257e-06, 'epoch': 2.31}
+{'loss': 2.0443, 'grad_norm': 1.741199254989624, 'learning_rate': 1.303818034118603e-06, 'epoch': 2.31}
+{'eval_loss': 2.2609009742736816, 'eval_runtime': 37.5575, 'eval_samples_per_second': 26.626, 'eval_steps_per_second': 1.118, 'epoch': 2.31}
+{'loss': 2.0763, 'grad_norm': 1.8082469701766968, 'learning_rate': 1.3017871649065802e-06, 'epoch': 2.31}
+{'loss': 2.0518, 'grad_norm': 1.7473814487457275, 'learning_rate': 1.2997562956945573e-06, 'epoch': 2.31}
+{'loss': 2.0402, 'grad_norm': 1.7918633222579956, 'learning_rate': 1.2977254264825345e-06, 'epoch': 2.32}
+{'loss': 2.0752, 'grad_norm': 1.7782365083694458, 'learning_rate': 1.2956945572705118e-06, 'epoch': 2.32}
+{'loss': 2.086, 'grad_norm': 1.7259325981140137, 'learning_rate': 1.293663688058489e-06, 'epoch': 2.32}
+{'loss': 2.0329, 'grad_norm': 1.6706572771072388, 'learning_rate': 1.2916328188464664e-06, 'epoch': 2.32}
+{'loss': 1.99, 'grad_norm': 1.9212367534637451, 'learning_rate': 1.2896019496344436e-06, 'epoch': 2.32}
+{'loss': 2.0466, 'grad_norm': 1.7982757091522217, 'learning_rate': 1.287571080422421e-06, 'epoch': 2.32}
+{'loss': 2.0985, 'grad_norm': 1.8918166160583496, 'learning_rate': 1.2855402112103982e-06, 'epoch': 2.32}
+{'loss': 2.0407, 'grad_norm': 1.8231842517852783, 'learning_rate': 1.2835093419983755e-06, 'epoch': 2.32}
+{'eval_loss': 2.2623486518859863, 'eval_runtime': 37.7257, 'eval_samples_per_second': 26.507, 'eval_steps_per_second': 1.113, 'epoch': 2.32}
+{'loss': 2.0621, 'grad_norm': 1.9068831205368042, 'learning_rate': 1.2814784727863528e-06, 'epoch': 2.32}
+{'loss': 2.0528, 'grad_norm': 1.830091953277588, 'learning_rate': 1.27944760357433e-06, 'epoch': 2.33}
+{'loss': 2.1084, 'grad_norm': 1.83510422706604, 'learning_rate': 1.2774167343623073e-06, 'epoch': 2.33}
+{'loss': 2.1044, 'grad_norm': 1.8806310892105103, 'learning_rate': 1.2753858651502846e-06, 'epoch': 2.33}
+{'loss': 2.0746, 'grad_norm': 1.850572943687439, 'learning_rate': 1.2733549959382616e-06, 'epoch': 2.33}
+{'loss': 2.0665, 'grad_norm': 1.8118853569030762, 'learning_rate': 1.271324126726239e-06, 'epoch': 2.33}
+{'loss': 2.0685, 'grad_norm': 1.7433947324752808, 'learning_rate': 1.2692932575142162e-06, 'epoch': 2.33}
+{'loss': 2.0298, 'grad_norm': 1.8238822221755981, 'learning_rate': 1.2672623883021935e-06, 'epoch': 2.33}
+{'loss': 2.0238, 'grad_norm': 1.810469388961792, 'learning_rate': 1.2652315190901707e-06, 'epoch': 2.33}
+{'loss': 2.1146, 'grad_norm': 2.0768167972564697, 'learning_rate': 1.263200649878148e-06, 'epoch': 2.33}
+{'eval_loss': 2.2652904987335205, 'eval_runtime': 37.778, 'eval_samples_per_second': 26.47, 'eval_steps_per_second': 1.112, 'epoch': 2.33}
+{'loss': 2.066, 'grad_norm': 2.0012145042419434, 'learning_rate': 1.2611697806661253e-06, 'epoch': 2.34}
+{'loss': 2.0775, 'grad_norm': 1.8526004552841187, 'learning_rate': 1.2591389114541026e-06, 'epoch': 2.34}
+{'loss': 2.0554, 'grad_norm': 1.9513905048370361, 'learning_rate': 1.2571080422420798e-06, 'epoch': 2.34}
+{'loss': 2.049, 'grad_norm': 1.97819185256958, 'learning_rate': 1.2550771730300571e-06, 'epoch': 2.34}
+{'loss': 2.1066, 'grad_norm': 1.857419729232788, 'learning_rate': 1.2530463038180344e-06, 'epoch': 2.34}
+{'loss': 2.0693, 'grad_norm': 1.905017375946045, 'learning_rate': 1.2510154346060117e-06, 'epoch': 2.34}
+{'loss': 2.0709, 'grad_norm': 2.012636423110962, 'learning_rate': 1.2489845653939887e-06, 'epoch': 2.34}
+{'loss': 2.0928, 'grad_norm': 1.7782214879989624, 'learning_rate': 1.246953696181966e-06, 'epoch': 2.34}
+{'loss': 2.1276, 'grad_norm': 1.8550869226455688, 'learning_rate': 1.2449228269699433e-06, 'epoch': 2.34}
+{'loss': 2.0704, 'grad_norm': 1.9954646825790405, 'learning_rate': 1.2428919577579204e-06, 'epoch': 2.35}
+{'eval_loss': 2.261857748031616, 'eval_runtime': 37.7595, 'eval_samples_per_second': 26.483, 'eval_steps_per_second': 1.112, 'epoch': 2.35}
+{'loss': 2.0402, 'grad_norm': 1.7906090021133423, 'learning_rate': 1.2408610885458976e-06, 'epoch': 2.35}
+{'loss': 2.0618, 'grad_norm': 1.8965619802474976, 'learning_rate': 1.238830219333875e-06, 'epoch': 2.35}
+{'loss': 2.0477, 'grad_norm': 1.8767648935317993, 'learning_rate': 1.2367993501218522e-06, 'epoch': 2.35}
+{'loss': 2.099, 'grad_norm': 2.0294620990753174, 'learning_rate': 1.2347684809098295e-06, 'epoch': 2.35}
+{'loss': 2.0943, 'grad_norm': 1.7903203964233398, 'learning_rate': 1.2327376116978067e-06, 'epoch': 2.35}
+{'loss': 2.0233, 'grad_norm': 1.992177963256836, 'learning_rate': 1.230706742485784e-06, 'epoch': 2.35}
+{'loss': 2.033, 'grad_norm': 1.886515498161316, 'learning_rate': 1.2286758732737613e-06, 'epoch': 2.35}
+{'loss': 2.1198, 'grad_norm': 1.8276830911636353, 'learning_rate': 1.2266450040617386e-06, 'epoch': 2.35}
+{'loss': 2.1412, 'grad_norm': 1.901737928390503, 'learning_rate': 1.2246141348497158e-06, 'epoch': 2.36}
+{'loss': 2.0696, 'grad_norm': 1.8697527647018433, 'learning_rate': 1.2225832656376931e-06, 'epoch': 2.36}
+{'eval_loss': 2.2617249488830566, 'eval_runtime': 37.7052, 'eval_samples_per_second': 26.522, 'eval_steps_per_second': 1.114, 'epoch': 2.36}
+{'loss': 2.0667, 'grad_norm': 1.7540130615234375, 'learning_rate': 1.2205523964256704e-06, 'epoch': 2.36}
+{'loss': 2.061, 'grad_norm': 1.810065746307373, 'learning_rate': 1.2185215272136477e-06, 'epoch': 2.36}
+{'loss': 2.0706, 'grad_norm': 1.841596007347107, 'learning_rate': 1.2164906580016247e-06, 'epoch': 2.36}
+{'loss': 2.0779, 'grad_norm': 1.7993100881576538, 'learning_rate': 1.214459788789602e-06, 'epoch': 2.36}
+{'loss': 1.9962, 'grad_norm': 1.757999300956726, 'learning_rate': 1.2124289195775793e-06, 'epoch': 2.36}
+{'loss': 2.027, 'grad_norm': 1.8330270051956177, 'learning_rate': 1.2103980503655566e-06, 'epoch': 2.36}
+{'loss': 2.0585, 'grad_norm': 1.939033031463623, 'learning_rate': 1.2083671811535338e-06, 'epoch': 2.36}
+{'loss': 2.0428, 'grad_norm': 1.7172845602035522, 'learning_rate': 1.2063363119415111e-06, 'epoch': 2.36}
+{'loss': 2.0487, 'grad_norm': 1.7456353902816772, 'learning_rate': 1.2043054427294882e-06, 'epoch': 2.37}
+{'loss': 2.0649, 'grad_norm': 1.8008595705032349, 'learning_rate': 1.2022745735174654e-06, 'epoch': 2.37}
+{'eval_loss': 2.2617688179016113, 'eval_runtime': 37.703, 'eval_samples_per_second': 26.523, 'eval_steps_per_second': 1.114, 'epoch': 2.37}
+{'loss': 2.0784, 'grad_norm': 1.805388331413269, 'learning_rate': 1.2002437043054427e-06, 'epoch': 2.37}
+{'loss': 2.099, 'grad_norm': 1.6986628770828247, 'learning_rate': 1.19821283509342e-06, 'epoch': 2.37}
+{'loss': 2.1047, 'grad_norm': 1.678431510925293, 'learning_rate': 1.1961819658813973e-06, 'epoch': 2.37}
+{'loss': 2.0846, 'grad_norm': 1.9180532693862915, 'learning_rate': 1.1941510966693746e-06, 'epoch': 2.37}
+{'loss': 2.0557, 'grad_norm': 1.90804922580719, 'learning_rate': 1.1921202274573518e-06, 'epoch': 2.37}
+{'loss': 2.0659, 'grad_norm': 1.8519015312194824, 'learning_rate': 1.190089358245329e-06, 'epoch': 2.37}
+{'loss': 2.106, 'grad_norm': 1.8298829793930054, 'learning_rate': 1.1880584890333064e-06, 'epoch': 2.37}
+{'loss': 2.0636, 'grad_norm': 1.886002779006958, 'learning_rate': 1.1860276198212837e-06, 'epoch': 2.38}
+{'loss': 2.0917, 'grad_norm': 1.9021803140640259, 'learning_rate': 1.183996750609261e-06, 'epoch': 2.38}
+{'loss': 2.0773, 'grad_norm': 1.8855856657028198, 'learning_rate': 1.1819658813972382e-06, 'epoch': 2.38}
+{'eval_loss': 2.260166883468628, 'eval_runtime': 37.7544, 'eval_samples_per_second': 26.487, 'eval_steps_per_second': 1.112, 'epoch': 2.38}
+{'loss': 2.0699, 'grad_norm': 1.7587647438049316, 'learning_rate': 1.1799350121852153e-06, 'epoch': 2.38}
+{'loss': 2.1038, 'grad_norm': 1.8876614570617676, 'learning_rate': 1.1779041429731925e-06, 'epoch': 2.38}
+{'loss': 2.101, 'grad_norm': 1.788678765296936, 'learning_rate': 1.1758732737611698e-06, 'epoch': 2.38}
+{'loss': 2.0516, 'grad_norm': 1.859751582145691, 'learning_rate': 1.173842404549147e-06, 'epoch': 2.38}
+{'loss': 2.1067, 'grad_norm': 1.8080034255981445, 'learning_rate': 1.1718115353371244e-06, 'epoch': 2.38}
+{'loss': 2.0559, 'grad_norm': 1.8428994417190552, 'learning_rate': 1.1697806661251016e-06, 'epoch': 2.38}
+{'loss': 2.0978, 'grad_norm': 1.7173036336898804, 'learning_rate': 1.167749796913079e-06, 'epoch': 2.39}
+{'loss': 2.0902, 'grad_norm': 1.8584660291671753, 'learning_rate': 1.1657189277010562e-06, 'epoch': 2.39}
+{'loss': 2.0689, 'grad_norm': 1.8458948135375977, 'learning_rate': 1.1636880584890335e-06, 'epoch': 2.39}
+{'loss': 2.0692, 'grad_norm': 1.8567832708358765, 'learning_rate': 1.1616571892770108e-06, 'epoch': 2.39}
+{'eval_loss': 2.2607147693634033, 'eval_runtime': 37.6994, 'eval_samples_per_second': 26.526, 'eval_steps_per_second': 1.114, 'epoch': 2.39}
+{'loss': 2.1004, 'grad_norm': 1.8030701875686646, 'learning_rate': 1.159626320064988e-06, 'epoch': 2.39}
+{'loss': 2.0785, 'grad_norm': 1.7480740547180176, 'learning_rate': 1.1575954508529653e-06, 'epoch': 2.39}
+{'loss': 2.0871, 'grad_norm': 1.7143640518188477, 'learning_rate': 1.1555645816409426e-06, 'epoch': 2.39}
+{'loss': 2.0811, 'grad_norm': 1.825270652770996, 'learning_rate': 1.1535337124289196e-06, 'epoch': 2.39}
+{'loss': 2.0328, 'grad_norm': 1.6898294687271118, 'learning_rate': 1.151502843216897e-06, 'epoch': 2.39}
+{'loss': 2.0105, 'grad_norm': 1.798836588859558, 'learning_rate': 1.1494719740048742e-06, 'epoch': 2.4}
+{'loss': 2.0792, 'grad_norm': 1.9395827054977417, 'learning_rate': 1.1474411047928515e-06, 'epoch': 2.4}
+{'loss': 2.0754, 'grad_norm': 1.853737235069275, 'learning_rate': 1.1454102355808287e-06, 'epoch': 2.4}
+{'loss': 2.0464, 'grad_norm': 1.8393898010253906, 'learning_rate': 1.143379366368806e-06, 'epoch': 2.4}
+{'loss': 2.0434, 'grad_norm': 1.8392260074615479, 'learning_rate': 1.141348497156783e-06, 'epoch': 2.4}
+{'eval_loss': 2.2647299766540527, 'eval_runtime': 37.671, 'eval_samples_per_second': 26.546, 'eval_steps_per_second': 1.115, 'epoch': 2.4}
+{'loss': 2.1333, 'grad_norm': 1.7502994537353516, 'learning_rate': 1.1393176279447604e-06, 'epoch': 2.4}
+{'loss': 2.1199, 'grad_norm': 1.7917377948760986, 'learning_rate': 1.1372867587327376e-06, 'epoch': 2.4}
+{'loss': 2.005, 'grad_norm': 1.7924400568008423, 'learning_rate': 1.135255889520715e-06, 'epoch': 2.4}
+{'loss': 2.092, 'grad_norm': 1.8941304683685303, 'learning_rate': 1.1332250203086922e-06, 'epoch': 2.4}
+{'loss': 2.0809, 'grad_norm': 1.7152738571166992, 'learning_rate': 1.1311941510966695e-06, 'epoch': 2.41}
+{'loss': 2.053, 'grad_norm': 1.7781386375427246, 'learning_rate': 1.1291632818846467e-06, 'epoch': 2.41}
+{'loss': 2.0463, 'grad_norm': 1.7461341619491577, 'learning_rate': 1.127132412672624e-06, 'epoch': 2.41}
+{'loss': 2.0626, 'grad_norm': 1.9233760833740234, 'learning_rate': 1.1251015434606013e-06, 'epoch': 2.41}
+{'loss': 2.0717, 'grad_norm': 1.860851526260376, 'learning_rate': 1.1230706742485786e-06, 'epoch': 2.41}
+{'loss': 2.0986, 'grad_norm': 1.8057936429977417, 'learning_rate': 1.1210398050365558e-06, 'epoch': 2.41}
+{'eval_loss': 2.2644400596618652, 'eval_runtime': 37.6804, 'eval_samples_per_second': 26.539, 'eval_steps_per_second': 1.115, 'epoch': 2.41}
+{'loss': 2.0727, 'grad_norm': 1.8950588703155518, 'learning_rate': 1.1190089358245331e-06, 'epoch': 2.41}
+{'loss': 2.0287, 'grad_norm': 1.8877761363983154, 'learning_rate': 1.1169780666125102e-06, 'epoch': 2.41}
+{'loss': 2.1108, 'grad_norm': 1.812900424003601, 'learning_rate': 1.1149471974004875e-06, 'epoch': 2.41}
+{'loss': 2.0529, 'grad_norm': 1.7108607292175293, 'learning_rate': 1.1129163281884647e-06, 'epoch': 2.42}
+{'loss': 2.1083, 'grad_norm': 1.7623745203018188, 'learning_rate': 1.110885458976442e-06, 'epoch': 2.42}
+{'loss': 2.0378, 'grad_norm': 1.8351991176605225, 'learning_rate': 1.1088545897644193e-06, 'epoch': 2.42}
+{'loss': 2.075, 'grad_norm': 1.7301013469696045, 'learning_rate': 1.1068237205523966e-06, 'epoch': 2.42}
+{'loss': 2.085, 'grad_norm': 1.6882472038269043, 'learning_rate': 1.1047928513403736e-06, 'epoch': 2.42}
+{'loss': 2.0998, 'grad_norm': 1.9267663955688477, 'learning_rate': 1.102761982128351e-06, 'epoch': 2.42}
+{'loss': 2.0361, 'grad_norm': 1.7983266115188599, 'learning_rate': 1.1007311129163282e-06, 'epoch': 2.42}
+{'eval_loss': 2.2617909908294678, 'eval_runtime': 37.3823, 'eval_samples_per_second': 26.751, 'eval_steps_per_second': 1.124, 'epoch': 2.42}
+{'loss': 2.071, 'grad_norm': 1.8166961669921875, 'learning_rate': 1.0987002437043055e-06, 'epoch': 2.42}
+{'loss': 2.05, 'grad_norm': 1.7888365983963013, 'learning_rate': 1.0966693744922827e-06, 'epoch': 2.42}
+{'loss': 2.0245, 'grad_norm': 1.8105911016464233, 'learning_rate': 1.09463850528026e-06, 'epoch': 2.43}
+{'loss': 2.0593, 'grad_norm': 1.8546974658966064, 'learning_rate': 1.0926076360682373e-06, 'epoch': 2.43}
+{'loss': 2.043, 'grad_norm': 1.7437154054641724, 'learning_rate': 1.0905767668562146e-06, 'epoch': 2.43}
+{'loss': 2.0561, 'grad_norm': 1.7918599843978882, 'learning_rate': 1.0885458976441918e-06, 'epoch': 2.43}
+{'loss': 2.1387, 'grad_norm': 1.8164209127426147, 'learning_rate': 1.0865150284321691e-06, 'epoch': 2.43}
+{'loss': 2.0652, 'grad_norm': 1.7355620861053467, 'learning_rate': 1.0844841592201464e-06, 'epoch': 2.43}
+{'loss': 2.0879, 'grad_norm': 1.69545578956604, 'learning_rate': 1.0824532900081237e-06, 'epoch': 2.43}
+{'loss': 2.076, 'grad_norm': 1.8504338264465332, 'learning_rate': 1.080422420796101e-06, 'epoch': 2.43}
+{'eval_loss': 2.263489246368408, 'eval_runtime': 37.5925, 'eval_samples_per_second': 26.601, 'eval_steps_per_second': 1.117, 'epoch': 2.43}
+{'loss': 2.0706, 'grad_norm': 1.8369933366775513, 'learning_rate': 1.078391551584078e-06, 'epoch': 2.43}
+{'loss': 2.0915, 'grad_norm': 1.7192511558532715, 'learning_rate': 1.0763606823720553e-06, 'epoch': 2.44}
+{'loss': 2.1238, 'grad_norm': 1.7745388746261597, 'learning_rate': 1.0743298131600326e-06, 'epoch': 2.44}
+{'loss': 2.0954, 'grad_norm': 1.7708141803741455, 'learning_rate': 1.0722989439480098e-06, 'epoch': 2.44}
+{'loss': 2.0578, 'grad_norm': 1.8125660419464111, 'learning_rate': 1.070268074735987e-06, 'epoch': 2.44}
+{'loss': 2.0622, 'grad_norm': 1.7258166074752808, 'learning_rate': 1.0682372055239644e-06, 'epoch': 2.44}
+{'loss': 2.0552, 'grad_norm': 1.8316234350204468, 'learning_rate': 1.0662063363119414e-06, 'epoch': 2.44}
+{'loss': 2.0384, 'grad_norm': 1.8031924962997437, 'learning_rate': 1.0641754670999187e-06, 'epoch': 2.44}
+{'loss': 2.0673, 'grad_norm': 2.1155524253845215, 'learning_rate': 1.062144597887896e-06, 'epoch': 2.44}
+{'loss': 2.0676, 'grad_norm': 1.812660574913025, 'learning_rate': 1.0601137286758733e-06, 'epoch': 2.44}
+{'eval_loss': 2.2612040042877197, 'eval_runtime': 37.662, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 2.44}
+{'loss': 2.1076, 'grad_norm': 1.8111554384231567, 'learning_rate': 1.0580828594638505e-06, 'epoch': 2.44}
+{'loss': 2.0125, 'grad_norm': 2.020663261413574, 'learning_rate': 1.0560519902518278e-06, 'epoch': 2.45}
+{'loss': 2.1028, 'grad_norm': 1.7910871505737305, 'learning_rate': 1.054021121039805e-06, 'epoch': 2.45}
+{'loss': 2.0386, 'grad_norm': 1.867717981338501, 'learning_rate': 1.0519902518277824e-06, 'epoch': 2.45}
+{'loss': 2.019, 'grad_norm': 1.770634412765503, 'learning_rate': 1.0499593826157596e-06, 'epoch': 2.45}
+{'loss': 2.0967, 'grad_norm': 1.7467143535614014, 'learning_rate': 1.047928513403737e-06, 'epoch': 2.45}
+{'loss': 2.0653, 'grad_norm': 1.8609609603881836, 'learning_rate': 1.0458976441917142e-06, 'epoch': 2.45}
+{'loss': 2.0042, 'grad_norm': 1.8420764207839966, 'learning_rate': 1.0438667749796915e-06, 'epoch': 2.45}
+{'loss': 2.018, 'grad_norm': 1.845444917678833, 'learning_rate': 1.0418359057676688e-06, 'epoch': 2.45}
+{'loss': 2.0464, 'grad_norm': 1.9762401580810547, 'learning_rate': 1.0398050365556458e-06, 'epoch': 2.45}
+{'eval_loss': 2.2617149353027344, 'eval_runtime': 37.6868, 'eval_samples_per_second': 26.534, 'eval_steps_per_second': 1.114, 'epoch': 2.45}
+{'loss': 2.0862, 'grad_norm': 1.7733274698257446, 'learning_rate': 1.037774167343623e-06, 'epoch': 2.46}
+{'loss': 2.0483, 'grad_norm': 1.8240267038345337, 'learning_rate': 1.0357432981316004e-06, 'epoch': 2.46}
+{'loss': 2.0541, 'grad_norm': 1.7222731113433838, 'learning_rate': 1.0337124289195776e-06, 'epoch': 2.46}
+{'loss': 2.1, 'grad_norm': 1.7129679918289185, 'learning_rate': 1.031681559707555e-06, 'epoch': 2.46}
+{'loss': 2.0982, 'grad_norm': 1.795702576637268, 'learning_rate': 1.0296506904955322e-06, 'epoch': 2.46}
+{'loss': 2.0642, 'grad_norm': 1.8094655275344849, 'learning_rate': 1.0276198212835095e-06, 'epoch': 2.46}
+{'loss': 2.0823, 'grad_norm': 1.710478663444519, 'learning_rate': 1.0255889520714867e-06, 'epoch': 2.46}
+{'loss': 2.0527, 'grad_norm': 1.733186960220337, 'learning_rate': 1.023558082859464e-06, 'epoch': 2.46}
+{'loss': 2.0272, 'grad_norm': 1.7282971143722534, 'learning_rate': 1.0215272136474413e-06, 'epoch': 2.46}
+{'loss': 2.1047, 'grad_norm': 1.7519830465316772, 'learning_rate': 1.0194963444354186e-06, 'epoch': 2.47}
+{'eval_loss': 2.2586944103240967, 'eval_runtime': 37.685, 'eval_samples_per_second': 26.536, 'eval_steps_per_second': 1.115, 'epoch': 2.47}
+{'loss': 2.0295, 'grad_norm': 1.7522954940795898, 'learning_rate': 1.0174654752233958e-06, 'epoch': 2.47}
+{'loss': 2.0914, 'grad_norm': 1.7970813512802124, 'learning_rate': 1.015434606011373e-06, 'epoch': 2.47}
+{'loss': 2.0513, 'grad_norm': 1.729516625404358, 'learning_rate': 1.0134037367993502e-06, 'epoch': 2.47}
+{'loss': 2.0704, 'grad_norm': 1.7297344207763672, 'learning_rate': 1.0113728675873275e-06, 'epoch': 2.47}
+{'loss': 2.0522, 'grad_norm': 1.79285728931427, 'learning_rate': 1.0093419983753047e-06, 'epoch': 2.47}
+{'loss': 2.0709, 'grad_norm': 1.9120210409164429, 'learning_rate': 1.007311129163282e-06, 'epoch': 2.47}
+{'loss': 2.0161, 'grad_norm': 1.716218113899231, 'learning_rate': 1.0052802599512593e-06, 'epoch': 2.47}
+{'loss': 2.0279, 'grad_norm': 1.7411410808563232, 'learning_rate': 1.0032493907392364e-06, 'epoch': 2.47}
+{'loss': 2.0641, 'grad_norm': 1.8842027187347412, 'learning_rate': 1.0012185215272136e-06, 'epoch': 2.48}
+{'loss': 2.0409, 'grad_norm': 1.766549825668335, 'learning_rate': 9.99187652315191e-07, 'epoch': 2.48}
+{'eval_loss': 2.2580111026763916, 'eval_runtime': 37.7102, 'eval_samples_per_second': 26.518, 'eval_steps_per_second': 1.114, 'epoch': 2.48}
+{'loss': 2.1005, 'grad_norm': 1.814784049987793, 'learning_rate': 9.971567831031682e-07, 'epoch': 2.48}
+{'loss': 2.09, 'grad_norm': 1.7551223039627075, 'learning_rate': 9.951259138911455e-07, 'epoch': 2.48}
+{'loss': 2.0237, 'grad_norm': 1.8674261569976807, 'learning_rate': 9.930950446791227e-07, 'epoch': 2.48}
+{'loss': 2.0995, 'grad_norm': 1.8419820070266724, 'learning_rate': 9.910641754671e-07, 'epoch': 2.48}
+{'loss': 2.1251, 'grad_norm': 1.839034080505371, 'learning_rate': 9.890333062550773e-07, 'epoch': 2.48}
+{'loss': 2.0657, 'grad_norm': 1.7819119691848755, 'learning_rate': 9.870024370430546e-07, 'epoch': 2.48}
+{'loss': 2.0672, 'grad_norm': 1.7822142839431763, 'learning_rate': 9.849715678310318e-07, 'epoch': 2.48}
+{'loss': 2.0675, 'grad_norm': 1.7320845127105713, 'learning_rate': 9.829406986190091e-07, 'epoch': 2.49}
+{'loss': 2.0778, 'grad_norm': 1.850285530090332, 'learning_rate': 9.809098294069864e-07, 'epoch': 2.49}
+{'loss': 2.0155, 'grad_norm': 1.741349220275879, 'learning_rate': 9.788789601949637e-07, 'epoch': 2.49}
+{'eval_loss': 2.259030342102051, 'eval_runtime': 37.7139, 'eval_samples_per_second': 26.515, 'eval_steps_per_second': 1.114, 'epoch': 2.49}
+{'loss': 2.0838, 'grad_norm': 1.7456356287002563, 'learning_rate': 9.768480909829407e-07, 'epoch': 2.49}
+{'loss': 2.1232, 'grad_norm': 1.8568801879882812, 'learning_rate': 9.74817221770918e-07, 'epoch': 2.49}
+{'loss': 2.0703, 'grad_norm': 1.902815818786621, 'learning_rate': 9.727863525588953e-07, 'epoch': 2.49}
+{'loss': 2.0842, 'grad_norm': 1.7440564632415771, 'learning_rate': 9.707554833468726e-07, 'epoch': 2.49}
+{'loss': 2.055, 'grad_norm': 1.7580363750457764, 'learning_rate': 9.687246141348498e-07, 'epoch': 2.49}
+{'loss': 2.052, 'grad_norm': 1.744526982307434, 'learning_rate': 9.666937449228271e-07, 'epoch': 2.49}
+{'loss': 2.0611, 'grad_norm': 1.6443480253219604, 'learning_rate': 9.646628757108042e-07, 'epoch': 2.5}
+{'loss': 2.026, 'grad_norm': 1.810998797416687, 'learning_rate': 9.626320064987814e-07, 'epoch': 2.5}
+{'loss': 2.0766, 'grad_norm': 1.7149463891983032, 'learning_rate': 9.606011372867587e-07, 'epoch': 2.5}
+{'loss': 2.0329, 'grad_norm': 1.8703508377075195, 'learning_rate': 9.58570268074736e-07, 'epoch': 2.5}
+{'eval_loss': 2.2603201866149902, 'eval_runtime': 37.6925, 'eval_samples_per_second': 26.53, 'eval_steps_per_second': 1.114, 'epoch': 2.5}
+{'loss': 2.0642, 'grad_norm': 1.8663973808288574, 'learning_rate': 9.565393988627133e-07, 'epoch': 2.5}
+{'loss': 2.0542, 'grad_norm': 1.7108863592147827, 'learning_rate': 9.545085296506906e-07, 'epoch': 2.5}
+{'loss': 2.0819, 'grad_norm': 1.8154582977294922, 'learning_rate': 9.524776604386677e-07, 'epoch': 2.5}
+{'loss': 2.0756, 'grad_norm': 1.7598388195037842, 'learning_rate': 9.50446791226645e-07, 'epoch': 2.5}
+{'loss': 2.0184, 'grad_norm': 1.923313856124878, 'learning_rate': 9.484159220146223e-07, 'epoch': 2.5}
+{'loss': 2.0991, 'grad_norm': 1.6755825281143188, 'learning_rate': 9.463850528025995e-07, 'epoch': 2.51}
+{'loss': 2.0815, 'grad_norm': 1.8223607540130615, 'learning_rate': 9.443541835905768e-07, 'epoch': 2.51}
+{'loss': 2.116, 'grad_norm': 1.7071499824523926, 'learning_rate': 9.423233143785541e-07, 'epoch': 2.51}
+{'loss': 2.124, 'grad_norm': 1.7359683513641357, 'learning_rate': 9.402924451665313e-07, 'epoch': 2.51}
+{'loss': 2.0471, 'grad_norm': 1.6466120481491089, 'learning_rate': 9.382615759545085e-07, 'epoch': 2.51}
+{'eval_loss': 2.2566606998443604, 'eval_runtime': 37.6557, 'eval_samples_per_second': 26.556, 'eval_steps_per_second': 1.115, 'epoch': 2.51}
+{'loss': 2.0803, 'grad_norm': 1.6395900249481201, 'learning_rate': 9.362307067424858e-07, 'epoch': 2.51}
+{'loss': 2.0527, 'grad_norm': 1.711512804031372, 'learning_rate': 9.341998375304631e-07, 'epoch': 2.51}
+{'loss': 2.1048, 'grad_norm': 1.7401366233825684, 'learning_rate': 9.321689683184404e-07, 'epoch': 2.51}
+{'loss': 2.0308, 'grad_norm': 1.6765538454055786, 'learning_rate': 9.301380991064176e-07, 'epoch': 2.51}
+{'loss': 2.0293, 'grad_norm': 1.746036410331726, 'learning_rate': 9.281072298943949e-07, 'epoch': 2.52}
+{'loss': 2.0529, 'grad_norm': 1.8194568157196045, 'learning_rate': 9.260763606823721e-07, 'epoch': 2.52}
+{'loss': 2.0729, 'grad_norm': 1.8022900819778442, 'learning_rate': 9.240454914703494e-07, 'epoch': 2.52}
+{'loss': 2.0787, 'grad_norm': 1.8150590658187866, 'learning_rate': 9.220146222583266e-07, 'epoch': 2.52}
+{'loss': 2.0404, 'grad_norm': 1.8815487623214722, 'learning_rate': 9.199837530463039e-07, 'epoch': 2.52}
+{'loss': 2.0722, 'grad_norm': 1.848207950592041, 'learning_rate': 9.179528838342812e-07, 'epoch': 2.52}
+{'eval_loss': 2.2597382068634033, 'eval_runtime': 37.6323, 'eval_samples_per_second': 26.573, 'eval_steps_per_second': 1.116, 'epoch': 2.52}
+{'loss': 2.049, 'grad_norm': 1.9140043258666992, 'learning_rate': 9.159220146222585e-07, 'epoch': 2.52}
+{'loss': 2.0886, 'grad_norm': 1.8262478113174438, 'learning_rate': 9.138911454102356e-07, 'epoch': 2.52}
+{'loss': 1.9929, 'grad_norm': 1.7829474210739136, 'learning_rate': 9.118602761982129e-07, 'epoch': 2.52}
+{'loss': 2.0685, 'grad_norm': 1.8647292852401733, 'learning_rate': 9.098294069861902e-07, 'epoch': 2.52}
+{'loss': 2.081, 'grad_norm': 1.8440719842910767, 'learning_rate': 9.077985377741675e-07, 'epoch': 2.53}
+{'loss': 2.0319, 'grad_norm': 1.7568707466125488, 'learning_rate': 9.057676685621447e-07, 'epoch': 2.53}
+{'loss': 2.0217, 'grad_norm': 1.7564902305603027, 'learning_rate': 9.03736799350122e-07, 'epoch': 2.53}
+{'loss': 2.1118, 'grad_norm': 1.8681811094284058, 'learning_rate': 9.017059301380991e-07, 'epoch': 2.53}
+{'loss': 2.091, 'grad_norm': 1.8719074726104736, 'learning_rate': 8.996750609260764e-07, 'epoch': 2.53}
+{'loss': 2.1151, 'grad_norm': 1.767291784286499, 'learning_rate': 8.976441917140536e-07, 'epoch': 2.53}
+{'eval_loss': 2.258028268814087, 'eval_runtime': 37.1956, 'eval_samples_per_second': 26.885, 'eval_steps_per_second': 1.129, 'epoch': 2.53}
+{'loss': 2.0828, 'grad_norm': 1.8215125799179077, 'learning_rate': 8.956133225020309e-07, 'epoch': 2.53}
+{'loss': 2.1228, 'grad_norm': 1.7443197965621948, 'learning_rate': 8.935824532900082e-07, 'epoch': 2.53}
+{'loss': 2.0347, 'grad_norm': 1.7816938161849976, 'learning_rate': 8.915515840779855e-07, 'epoch': 2.53}
+{'loss': 2.0345, 'grad_norm': 1.7162789106369019, 'learning_rate': 8.895207148659626e-07, 'epoch': 2.54}
+{'loss': 2.0991, 'grad_norm': 1.8393774032592773, 'learning_rate': 8.874898456539399e-07, 'epoch': 2.54}
+{'loss': 2.0881, 'grad_norm': 1.939585566520691, 'learning_rate': 8.854589764419172e-07, 'epoch': 2.54}
+{'loss': 2.0923, 'grad_norm': 1.8126367330551147, 'learning_rate': 8.834281072298945e-07, 'epoch': 2.54}
+{'loss': 2.0236, 'grad_norm': 1.7383280992507935, 'learning_rate': 8.813972380178717e-07, 'epoch': 2.54}
+{'loss': 2.0704, 'grad_norm': 1.907513976097107, 'learning_rate': 8.79366368805849e-07, 'epoch': 2.54}
+{'loss': 2.0646, 'grad_norm': 1.9563409090042114, 'learning_rate': 8.773354995938262e-07, 'epoch': 2.54}
+{'eval_loss': 2.257359266281128, 'eval_runtime': 37.4928, 'eval_samples_per_second': 26.672, 'eval_steps_per_second': 1.12, 'epoch': 2.54}
+{'loss': 2.0423, 'grad_norm': 1.8547786474227905, 'learning_rate': 8.753046303818035e-07, 'epoch': 2.54}
+{'loss': 2.0334, 'grad_norm': 1.82631516456604, 'learning_rate': 8.732737611697807e-07, 'epoch': 2.54}
+{'loss': 2.0453, 'grad_norm': 1.8815655708312988, 'learning_rate': 8.71242891957758e-07, 'epoch': 2.55}
+{'loss': 2.0808, 'grad_norm': 1.8620423078536987, 'learning_rate': 8.692120227457353e-07, 'epoch': 2.55}
+{'loss': 2.1005, 'grad_norm': 1.9535692930221558, 'learning_rate': 8.671811535337126e-07, 'epoch': 2.55}
+{'loss': 2.0746, 'grad_norm': 1.7425551414489746, 'learning_rate': 8.651502843216898e-07, 'epoch': 2.55}
+{'loss': 2.1249, 'grad_norm': 1.7286165952682495, 'learning_rate': 8.63119415109667e-07, 'epoch': 2.55}
+{'loss': 2.0752, 'grad_norm': 1.723883867263794, 'learning_rate': 8.610885458976443e-07, 'epoch': 2.55}
+{'loss': 2.0853, 'grad_norm': 1.70209801197052, 'learning_rate': 8.590576766856216e-07, 'epoch': 2.55}
+{'loss': 2.0409, 'grad_norm': 1.6835055351257324, 'learning_rate': 8.570268074735988e-07, 'epoch': 2.55}
+{'eval_loss': 2.255453586578369, 'eval_runtime': 37.6325, 'eval_samples_per_second': 26.573, 'eval_steps_per_second': 1.116, 'epoch': 2.55}
+{'loss': 2.0441, 'grad_norm': 1.7207258939743042, 'learning_rate': 8.549959382615761e-07, 'epoch': 2.55}
+{'loss': 2.0429, 'grad_norm': 1.7438204288482666, 'learning_rate': 8.529650690495534e-07, 'epoch': 2.56}
+{'loss': 2.0786, 'grad_norm': 1.8339930772781372, 'learning_rate': 8.509341998375305e-07, 'epoch': 2.56}
+{'loss': 2.0234, 'grad_norm': 1.8188937902450562, 'learning_rate': 8.489033306255077e-07, 'epoch': 2.56}
+{'loss': 2.0049, 'grad_norm': 1.80044686794281, 'learning_rate': 8.46872461413485e-07, 'epoch': 2.56}
+{'loss': 2.0451, 'grad_norm': 1.7016304731369019, 'learning_rate': 8.448415922014623e-07, 'epoch': 2.56}
+{'loss': 2.0435, 'grad_norm': 1.7292381525039673, 'learning_rate': 8.428107229894396e-07, 'epoch': 2.56}
+{'loss': 2.0829, 'grad_norm': 1.7187778949737549, 'learning_rate': 8.407798537774168e-07, 'epoch': 2.56}
+{'loss': 2.0624, 'grad_norm': 1.72067129611969, 'learning_rate': 8.38748984565394e-07, 'epoch': 2.56}
+{'loss': 2.0405, 'grad_norm': 1.6796311140060425, 'learning_rate': 8.367181153533713e-07, 'epoch': 2.56}
+{'eval_loss': 2.258481502532959, 'eval_runtime': 37.6071, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 2.56}
+{'loss': 2.0574, 'grad_norm': 1.8476628065109253, 'learning_rate': 8.346872461413486e-07, 'epoch': 2.57}
+{'loss': 2.0563, 'grad_norm': 1.7608051300048828, 'learning_rate': 8.326563769293258e-07, 'epoch': 2.57}
+{'loss': 2.0622, 'grad_norm': 1.7785654067993164, 'learning_rate': 8.306255077173031e-07, 'epoch': 2.57}
+{'loss': 2.12, 'grad_norm': 1.635370135307312, 'learning_rate': 8.285946385052804e-07, 'epoch': 2.57}
+{'loss': 2.0179, 'grad_norm': 1.6680372953414917, 'learning_rate': 8.265637692932575e-07, 'epoch': 2.57}
+{'loss': 2.0843, 'grad_norm': 1.7338871955871582, 'learning_rate': 8.245329000812348e-07, 'epoch': 2.57}
+{'loss': 2.0822, 'grad_norm': 1.7803536653518677, 'learning_rate': 8.225020308692121e-07, 'epoch': 2.57}
+{'loss': 2.0351, 'grad_norm': 1.6386985778808594, 'learning_rate': 8.204711616571894e-07, 'epoch': 2.57}
+{'loss': 2.0561, 'grad_norm': 1.6902209520339966, 'learning_rate': 8.184402924451667e-07, 'epoch': 2.57}
+{'loss': 2.0224, 'grad_norm': 1.7922776937484741, 'learning_rate': 8.164094232331439e-07, 'epoch': 2.58}
+{'eval_loss': 2.2584285736083984, 'eval_runtime': 37.6512, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 2.58}
+{'loss': 2.0628, 'grad_norm': 1.6501495838165283, 'learning_rate': 8.14378554021121e-07, 'epoch': 2.58}
+{'loss': 2.0555, 'grad_norm': 1.670444369316101, 'learning_rate': 8.123476848090983e-07, 'epoch': 2.58}
+{'loss': 2.0573, 'grad_norm': 1.7674179077148438, 'learning_rate': 8.103168155970755e-07, 'epoch': 2.58}
+{'loss': 2.0558, 'grad_norm': 1.8064517974853516, 'learning_rate': 8.082859463850528e-07, 'epoch': 2.58}
+{'loss': 2.0748, 'grad_norm': 1.7687349319458008, 'learning_rate': 8.062550771730301e-07, 'epoch': 2.58}
+{'loss': 2.0659, 'grad_norm': 1.7781639099121094, 'learning_rate': 8.042242079610074e-07, 'epoch': 2.58}
+{'loss': 2.0515, 'grad_norm': 1.787773847579956, 'learning_rate': 8.021933387489846e-07, 'epoch': 2.58}
+{'loss': 2.0484, 'grad_norm': 1.6414470672607422, 'learning_rate': 8.001624695369618e-07, 'epoch': 2.58}
+{'loss': 2.0547, 'grad_norm': 1.7490493059158325, 'learning_rate': 7.981316003249391e-07, 'epoch': 2.59}
+{'loss': 2.1082, 'grad_norm': 1.756772518157959, 'learning_rate': 7.961007311129164e-07, 'epoch': 2.59}
+{'eval_loss': 2.260507345199585, 'eval_runtime': 37.6389, 'eval_samples_per_second': 26.568, 'eval_steps_per_second': 1.116, 'epoch': 2.59}
+{'loss': 2.024, 'grad_norm': 1.8150489330291748, 'learning_rate': 7.940698619008936e-07, 'epoch': 2.59}
+{'loss': 2.0806, 'grad_norm': 1.7770814895629883, 'learning_rate': 7.920389926888709e-07, 'epoch': 2.59}
+{'loss': 2.1222, 'grad_norm': 1.6875802278518677, 'learning_rate': 7.900081234768482e-07, 'epoch': 2.59}
+{'loss': 2.0435, 'grad_norm': 1.7209552526474, 'learning_rate': 7.879772542648254e-07, 'epoch': 2.59}
+{'loss': 2.0719, 'grad_norm': 1.7767529487609863, 'learning_rate': 7.859463850528026e-07, 'epoch': 2.59}
+{'loss': 2.08, 'grad_norm': 1.789781093597412, 'learning_rate': 7.839155158407799e-07, 'epoch': 2.59}
+{'loss': 2.0725, 'grad_norm': 1.8222278356552124, 'learning_rate': 7.818846466287572e-07, 'epoch': 2.59}
+{'loss': 2.0676, 'grad_norm': 1.8403512239456177, 'learning_rate': 7.798537774167345e-07, 'epoch': 2.6}
+{'loss': 2.095, 'grad_norm': 1.7683089971542358, 'learning_rate': 7.778229082047117e-07, 'epoch': 2.6}
+{'loss': 2.0519, 'grad_norm': 1.7845557928085327, 'learning_rate': 7.757920389926889e-07, 'epoch': 2.6}
+{'eval_loss': 2.259427309036255, 'eval_runtime': 37.6244, 'eval_samples_per_second': 26.579, 'eval_steps_per_second': 1.116, 'epoch': 2.6}
+{'loss': 2.0744, 'grad_norm': 1.711220145225525, 'learning_rate': 7.737611697806662e-07, 'epoch': 2.6}
+{'loss': 2.0436, 'grad_norm': 1.7470701932907104, 'learning_rate': 7.717303005686435e-07, 'epoch': 2.6}
+{'loss': 2.0893, 'grad_norm': 1.720141887664795, 'learning_rate': 7.696994313566207e-07, 'epoch': 2.6}
+{'loss': 2.1176, 'grad_norm': 1.7198134660720825, 'learning_rate': 7.67668562144598e-07, 'epoch': 2.6}
+{'loss': 2.0223, 'grad_norm': 1.707548975944519, 'learning_rate': 7.656376929325753e-07, 'epoch': 2.6}
+{'loss': 2.0415, 'grad_norm': 1.6624889373779297, 'learning_rate': 7.636068237205524e-07, 'epoch': 2.6}
+{'loss': 2.0939, 'grad_norm': 1.7898671627044678, 'learning_rate': 7.615759545085296e-07, 'epoch': 2.6}
+{'loss': 2.0328, 'grad_norm': 1.7248762845993042, 'learning_rate': 7.595450852965069e-07, 'epoch': 2.61}
+{'loss': 2.0534, 'grad_norm': 1.6957865953445435, 'learning_rate': 7.575142160844842e-07, 'epoch': 2.61}
+{'loss': 2.0876, 'grad_norm': 1.7699952125549316, 'learning_rate': 7.554833468724615e-07, 'epoch': 2.61}
+{'eval_loss': 2.2574057579040527, 'eval_runtime': 37.6456, 'eval_samples_per_second': 26.564, 'eval_steps_per_second': 1.116, 'epoch': 2.61}
+{'loss': 2.0345, 'grad_norm': 1.6846897602081299, 'learning_rate': 7.534524776604387e-07, 'epoch': 2.61}
+{'loss': 2.0352, 'grad_norm': 1.6784394979476929, 'learning_rate': 7.51421608448416e-07, 'epoch': 2.61}
+{'loss': 2.0875, 'grad_norm': 1.6906050443649292, 'learning_rate': 7.493907392363932e-07, 'epoch': 2.61}
+{'loss': 2.0449, 'grad_norm': 1.6959823369979858, 'learning_rate': 7.473598700243705e-07, 'epoch': 2.61}
+{'loss': 2.0145, 'grad_norm': 1.736377477645874, 'learning_rate': 7.453290008123477e-07, 'epoch': 2.61}
+{'loss': 2.0646, 'grad_norm': 1.6849979162216187, 'learning_rate': 7.43298131600325e-07, 'epoch': 2.61}
+{'loss': 2.0662, 'grad_norm': 1.7110073566436768, 'learning_rate': 7.412672623883023e-07, 'epoch': 2.62}
+{'loss': 2.0584, 'grad_norm': 1.7671022415161133, 'learning_rate': 7.392363931762796e-07, 'epoch': 2.62}
+{'loss': 2.0353, 'grad_norm': 1.7283111810684204, 'learning_rate': 7.372055239642567e-07, 'epoch': 2.62}
+{'loss': 2.0653, 'grad_norm': 1.7102793455123901, 'learning_rate': 7.35174654752234e-07, 'epoch': 2.62}
+{'eval_loss': 2.260683536529541, 'eval_runtime': 37.6608, 'eval_samples_per_second': 26.553, 'eval_steps_per_second': 1.115, 'epoch': 2.62}
+{'loss': 2.0814, 'grad_norm': 1.7589623928070068, 'learning_rate': 7.331437855402113e-07, 'epoch': 2.62}
+{'loss': 2.0888, 'grad_norm': 1.7498409748077393, 'learning_rate': 7.311129163281886e-07, 'epoch': 2.62}
+{'loss': 2.0197, 'grad_norm': 1.86064875125885, 'learning_rate': 7.290820471161658e-07, 'epoch': 2.62}
+{'loss': 2.0842, 'grad_norm': 1.7232275009155273, 'learning_rate': 7.270511779041431e-07, 'epoch': 2.62}
+{'loss': 2.0904, 'grad_norm': 1.6950504779815674, 'learning_rate': 7.250203086921203e-07, 'epoch': 2.62}
+{'loss': 2.0169, 'grad_norm': 1.8517942428588867, 'learning_rate': 7.229894394800976e-07, 'epoch': 2.63}
+{'loss': 2.0481, 'grad_norm': 1.8464243412017822, 'learning_rate': 7.209585702680748e-07, 'epoch': 2.63}
+{'loss': 2.0764, 'grad_norm': 1.8405746221542358, 'learning_rate': 7.189277010560521e-07, 'epoch': 2.63}
+{'loss': 2.0266, 'grad_norm': 1.688383936882019, 'learning_rate': 7.168968318440294e-07, 'epoch': 2.63}
+{'loss': 2.0457, 'grad_norm': 1.6824755668640137, 'learning_rate': 7.148659626320067e-07, 'epoch': 2.63}
+{'eval_loss': 2.2574527263641357, 'eval_runtime': 37.6793, 'eval_samples_per_second': 26.54, 'eval_steps_per_second': 1.115, 'epoch': 2.63}
+{'loss': 2.0428, 'grad_norm': 1.83451509475708, 'learning_rate': 7.128350934199837e-07, 'epoch': 2.63}
+{'loss': 2.0922, 'grad_norm': 1.7692471742630005, 'learning_rate': 7.10804224207961e-07, 'epoch': 2.63}
+{'loss': 2.1042, 'grad_norm': 1.7824894189834595, 'learning_rate': 7.087733549959383e-07, 'epoch': 2.63}
+{'loss': 2.0554, 'grad_norm': 1.6713409423828125, 'learning_rate': 7.067424857839155e-07, 'epoch': 2.63}
+{'loss': 2.0568, 'grad_norm': 1.7059447765350342, 'learning_rate': 7.047116165718928e-07, 'epoch': 2.64}
+{'loss': 2.059, 'grad_norm': 1.7203532457351685, 'learning_rate': 7.026807473598701e-07, 'epoch': 2.64}
+{'loss': 2.0619, 'grad_norm': 1.703857660293579, 'learning_rate': 7.006498781478473e-07, 'epoch': 2.64}
+{'loss': 2.105, 'grad_norm': 1.8244131803512573, 'learning_rate': 6.986190089358245e-07, 'epoch': 2.64}
+{'loss': 2.0362, 'grad_norm': 1.7327303886413574, 'learning_rate': 6.965881397238018e-07, 'epoch': 2.64}
+{'loss': 2.0655, 'grad_norm': 1.789260745048523, 'learning_rate': 6.945572705117791e-07, 'epoch': 2.64}
+{'eval_loss': 2.2560455799102783, 'eval_runtime': 37.2384, 'eval_samples_per_second': 26.854, 'eval_steps_per_second': 1.128, 'epoch': 2.64}
+{'loss': 2.0761, 'grad_norm': 1.7034579515457153, 'learning_rate': 6.925264012997564e-07, 'epoch': 2.64}
+{'loss': 2.075, 'grad_norm': 1.7533824443817139, 'learning_rate': 6.904955320877336e-07, 'epoch': 2.64}
+{'loss': 2.069, 'grad_norm': 1.64005708694458, 'learning_rate': 6.884646628757109e-07, 'epoch': 2.64}
+{'loss': 2.0808, 'grad_norm': 1.7517297267913818, 'learning_rate': 6.864337936636881e-07, 'epoch': 2.65}
+{'loss': 2.1354, 'grad_norm': 1.7645041942596436, 'learning_rate': 6.844029244516654e-07, 'epoch': 2.65}
+{'loss': 2.1083, 'grad_norm': 1.7885507345199585, 'learning_rate': 6.823720552396426e-07, 'epoch': 2.65}
+{'loss': 2.0403, 'grad_norm': 1.788436770439148, 'learning_rate': 6.803411860276199e-07, 'epoch': 2.65}
+{'loss': 2.0841, 'grad_norm': 1.7114753723144531, 'learning_rate': 6.783103168155972e-07, 'epoch': 2.65}
+{'loss': 2.0599, 'grad_norm': 1.649941086769104, 'learning_rate': 6.762794476035745e-07, 'epoch': 2.65}
+{'loss': 2.0602, 'grad_norm': 1.8330531120300293, 'learning_rate': 6.742485783915515e-07, 'epoch': 2.65}
+{'eval_loss': 2.255843162536621, 'eval_runtime': 37.5373, 'eval_samples_per_second': 26.64, 'eval_steps_per_second': 1.119, 'epoch': 2.65}
+{'loss': 2.0846, 'grad_norm': 1.782342553138733, 'learning_rate': 6.722177091795288e-07, 'epoch': 2.65}
+{'loss': 2.0784, 'grad_norm': 1.7427024841308594, 'learning_rate': 6.701868399675061e-07, 'epoch': 2.65}
+{'loss': 2.0773, 'grad_norm': 1.758568525314331, 'learning_rate': 6.681559707554834e-07, 'epoch': 2.66}
+{'loss': 2.0524, 'grad_norm': 1.7590075731277466, 'learning_rate': 6.661251015434606e-07, 'epoch': 2.66}
+{'loss': 2.0358, 'grad_norm': 1.6413167715072632, 'learning_rate': 6.640942323314379e-07, 'epoch': 2.66}
+{'loss': 2.0395, 'grad_norm': 1.7772855758666992, 'learning_rate': 6.620633631194151e-07, 'epoch': 2.66}
+{'loss': 2.0515, 'grad_norm': 1.6550235748291016, 'learning_rate': 6.600324939073924e-07, 'epoch': 2.66}
+{'loss': 2.0783, 'grad_norm': 1.6511247158050537, 'learning_rate': 6.580016246953696e-07, 'epoch': 2.66}
+{'loss': 2.0478, 'grad_norm': 1.738808274269104, 'learning_rate': 6.559707554833469e-07, 'epoch': 2.66}
+{'loss': 2.1023, 'grad_norm': 1.745912790298462, 'learning_rate': 6.539398862713242e-07, 'epoch': 2.66}
+{'eval_loss': 2.2533841133117676, 'eval_runtime': 37.652, 'eval_samples_per_second': 26.559, 'eval_steps_per_second': 1.115, 'epoch': 2.66}
+{'loss': 2.0444, 'grad_norm': 1.746970534324646, 'learning_rate': 6.519090170593015e-07, 'epoch': 2.66}
+{'loss': 2.0981, 'grad_norm': 1.665235996246338, 'learning_rate': 6.498781478472786e-07, 'epoch': 2.67}
+{'loss': 2.0668, 'grad_norm': 1.726520299911499, 'learning_rate': 6.478472786352559e-07, 'epoch': 2.67}
+{'loss': 2.0881, 'grad_norm': 1.7349131107330322, 'learning_rate': 6.458164094232332e-07, 'epoch': 2.67}
+{'loss': 2.0707, 'grad_norm': 1.7621902227401733, 'learning_rate': 6.437855402112105e-07, 'epoch': 2.67}
+{'loss': 2.0147, 'grad_norm': 1.7546563148498535, 'learning_rate': 6.417546709991877e-07, 'epoch': 2.67}
+{'loss': 2.0201, 'grad_norm': 1.6749651432037354, 'learning_rate': 6.39723801787165e-07, 'epoch': 2.67}
+{'loss': 2.1018, 'grad_norm': 1.842773199081421, 'learning_rate': 6.376929325751423e-07, 'epoch': 2.67}
+{'loss': 2.0593, 'grad_norm': 1.6897064447402954, 'learning_rate': 6.356620633631195e-07, 'epoch': 2.67}
+{'loss': 2.048, 'grad_norm': 1.673410177230835, 'learning_rate': 6.336311941510967e-07, 'epoch': 2.67}
+{'eval_loss': 2.255706548690796, 'eval_runtime': 37.6697, 'eval_samples_per_second': 26.547, 'eval_steps_per_second': 1.115, 'epoch': 2.67}
+{'loss': 2.0493, 'grad_norm': 1.7092341184616089, 'learning_rate': 6.31600324939074e-07, 'epoch': 2.68}
+{'loss': 2.0807, 'grad_norm': 1.7543545961380005, 'learning_rate': 6.295694557270513e-07, 'epoch': 2.68}
+{'loss': 2.0928, 'grad_norm': 1.7415651082992554, 'learning_rate': 6.275385865150286e-07, 'epoch': 2.68}
+{'loss': 2.069, 'grad_norm': 1.7642806768417358, 'learning_rate': 6.255077173030058e-07, 'epoch': 2.68}
+{'loss': 2.0645, 'grad_norm': 1.8496332168579102, 'learning_rate': 6.23476848090983e-07, 'epoch': 2.68}
+{'loss': 2.0664, 'grad_norm': 1.7290071249008179, 'learning_rate': 6.214459788789602e-07, 'epoch': 2.68}
+{'loss': 2.0634, 'grad_norm': 1.7635525465011597, 'learning_rate': 6.194151096669375e-07, 'epoch': 2.68}
+{'loss': 2.099, 'grad_norm': 1.8687305450439453, 'learning_rate': 6.173842404549147e-07, 'epoch': 2.68}
+{'loss': 2.0587, 'grad_norm': 1.6824145317077637, 'learning_rate': 6.15353371242892e-07, 'epoch': 2.68}
+{'loss': 2.066, 'grad_norm': 1.7357826232910156, 'learning_rate': 6.133225020308693e-07, 'epoch': 2.68}
+{'eval_loss': 2.259247303009033, 'eval_runtime': 37.6429, 'eval_samples_per_second': 26.565, 'eval_steps_per_second': 1.116, 'epoch': 2.68}
+{'loss': 1.9886, 'grad_norm': 1.7348747253417969, 'learning_rate': 6.112916328188466e-07, 'epoch': 2.69}
+{'loss': 2.0502, 'grad_norm': 1.7115848064422607, 'learning_rate': 6.092607636068238e-07, 'epoch': 2.69}
+{'loss': 2.1202, 'grad_norm': 1.8928382396697998, 'learning_rate': 6.07229894394801e-07, 'epoch': 2.69}
+{'loss': 2.0494, 'grad_norm': 1.7553887367248535, 'learning_rate': 6.051990251827783e-07, 'epoch': 2.69}
+{'loss': 2.0464, 'grad_norm': 1.6838239431381226, 'learning_rate': 6.031681559707556e-07, 'epoch': 2.69}
+{'loss': 2.077, 'grad_norm': 1.6412372589111328, 'learning_rate': 6.011372867587327e-07, 'epoch': 2.69}
+{'loss': 2.0633, 'grad_norm': 1.7251613140106201, 'learning_rate': 5.9910641754671e-07, 'epoch': 2.69}
+{'loss': 2.0464, 'grad_norm': 1.673154592514038, 'learning_rate': 5.970755483346873e-07, 'epoch': 2.69}
+{'loss': 2.0604, 'grad_norm': 1.714897871017456, 'learning_rate': 5.950446791226646e-07, 'epoch': 2.69}
+{'loss': 2.0458, 'grad_norm': 1.6630953550338745, 'learning_rate': 5.930138099106418e-07, 'epoch': 2.7}
+{'eval_loss': 2.258204460144043, 'eval_runtime': 37.6735, 'eval_samples_per_second': 26.544, 'eval_steps_per_second': 1.115, 'epoch': 2.7}
+{'loss': 2.0563, 'grad_norm': 1.788201093673706, 'learning_rate': 5.909829406986191e-07, 'epoch': 2.7}
+{'loss': 2.0445, 'grad_norm': 1.6956599950790405, 'learning_rate': 5.889520714865963e-07, 'epoch': 2.7}
+{'loss': 2.0657, 'grad_norm': 1.8000240325927734, 'learning_rate': 5.869212022745735e-07, 'epoch': 2.7}
+{'loss': 2.0227, 'grad_norm': 1.6709156036376953, 'learning_rate': 5.848903330625508e-07, 'epoch': 2.7}
+{'loss': 2.0649, 'grad_norm': 1.7041480541229248, 'learning_rate': 5.828594638505281e-07, 'epoch': 2.7}
+{'loss': 2.0584, 'grad_norm': 1.681991457939148, 'learning_rate': 5.808285946385054e-07, 'epoch': 2.7}
+{'loss': 2.0601, 'grad_norm': 1.6754175424575806, 'learning_rate': 5.787977254264827e-07, 'epoch': 2.7}
+{'loss': 2.0753, 'grad_norm': 1.670152187347412, 'learning_rate': 5.767668562144598e-07, 'epoch': 2.7}
+{'loss': 2.1072, 'grad_norm': 1.9085122346878052, 'learning_rate': 5.747359870024371e-07, 'epoch': 2.71}
+{'loss': 2.0544, 'grad_norm': 1.732028603553772, 'learning_rate': 5.727051177904144e-07, 'epoch': 2.71}
+{'eval_loss': 2.256103515625, 'eval_runtime': 37.6164, 'eval_samples_per_second': 26.584, 'eval_steps_per_second': 1.117, 'epoch': 2.71}
+{'loss': 2.0625, 'grad_norm': 1.6928179264068604, 'learning_rate': 5.706742485783915e-07, 'epoch': 2.71}
+{'loss': 2.0956, 'grad_norm': 1.7081185579299927, 'learning_rate': 5.686433793663688e-07, 'epoch': 2.71}
+{'loss': 2.0319, 'grad_norm': 1.7593952417373657, 'learning_rate': 5.666125101543461e-07, 'epoch': 2.71}
+{'loss': 2.0239, 'grad_norm': 1.671493411064148, 'learning_rate': 5.645816409423234e-07, 'epoch': 2.71}
+{'loss': 2.1034, 'grad_norm': 1.7410856485366821, 'learning_rate': 5.625507717303006e-07, 'epoch': 2.71}
+{'loss': 2.0751, 'grad_norm': 1.6609998941421509, 'learning_rate': 5.605199025182779e-07, 'epoch': 2.71}
+{'loss': 2.0435, 'grad_norm': 1.69163179397583, 'learning_rate': 5.584890333062551e-07, 'epoch': 2.71}
+{'loss': 2.0347, 'grad_norm': 1.6964845657348633, 'learning_rate': 5.564581640942324e-07, 'epoch': 2.72}
+{'loss': 2.1038, 'grad_norm': 1.7304158210754395, 'learning_rate': 5.544272948822096e-07, 'epoch': 2.72}
+{'loss': 2.0388, 'grad_norm': 1.800003170967102, 'learning_rate': 5.523964256701868e-07, 'epoch': 2.72}
+{'eval_loss': 2.2571470737457275, 'eval_runtime': 37.59, 'eval_samples_per_second': 26.603, 'eval_steps_per_second': 1.117, 'epoch': 2.72}
+{'loss': 2.067, 'grad_norm': 1.864005446434021, 'learning_rate': 5.503655564581641e-07, 'epoch': 2.72}
+{'loss': 2.0864, 'grad_norm': 1.7750674486160278, 'learning_rate': 5.483346872461414e-07, 'epoch': 2.72}
+{'loss': 2.0447, 'grad_norm': 1.6968984603881836, 'learning_rate': 5.463038180341186e-07, 'epoch': 2.72}
+{'loss': 2.0352, 'grad_norm': 1.7180005311965942, 'learning_rate': 5.442729488220959e-07, 'epoch': 2.72}
+{'loss': 2.0434, 'grad_norm': 1.7516576051712036, 'learning_rate': 5.422420796100732e-07, 'epoch': 2.72}
+{'loss': 2.0645, 'grad_norm': 1.9056987762451172, 'learning_rate': 5.402112103980505e-07, 'epoch': 2.72}
+{'loss': 2.0482, 'grad_norm': 1.7287232875823975, 'learning_rate': 5.381803411860276e-07, 'epoch': 2.73}
+{'loss': 2.0823, 'grad_norm': 1.8616390228271484, 'learning_rate': 5.361494719740049e-07, 'epoch': 2.73}
+{'loss': 2.1265, 'grad_norm': 1.8703356981277466, 'learning_rate': 5.341186027619822e-07, 'epoch': 2.73}
+{'loss': 2.0378, 'grad_norm': 1.7286629676818848, 'learning_rate': 5.320877335499594e-07, 'epoch': 2.73}
+{'eval_loss': 2.253248453140259, 'eval_runtime': 37.6358, 'eval_samples_per_second': 26.57, 'eval_steps_per_second': 1.116, 'epoch': 2.73}
+{'loss': 2.0443, 'grad_norm': 1.787998080253601, 'learning_rate': 5.300568643379366e-07, 'epoch': 2.73}
+{'loss': 2.0992, 'grad_norm': 1.6597241163253784, 'learning_rate': 5.280259951259139e-07, 'epoch': 2.73}
+{'loss': 2.0731, 'grad_norm': 1.8476232290267944, 'learning_rate': 5.259951259138912e-07, 'epoch': 2.73}
+{'loss': 2.0355, 'grad_norm': 1.9021683931350708, 'learning_rate': 5.239642567018685e-07, 'epoch': 2.73}
+{'loss': 2.0439, 'grad_norm': 1.7345479726791382, 'learning_rate': 5.219333874898457e-07, 'epoch': 2.73}
+{'loss': 2.0549, 'grad_norm': 1.7782559394836426, 'learning_rate': 5.199025182778229e-07, 'epoch': 2.74}
+{'loss': 2.0626, 'grad_norm': 1.748111367225647, 'learning_rate': 5.178716490658002e-07, 'epoch': 2.74}
+{'loss': 2.0493, 'grad_norm': 1.800083875656128, 'learning_rate': 5.158407798537775e-07, 'epoch': 2.74}
+{'loss': 2.008, 'grad_norm': 1.7340272665023804, 'learning_rate': 5.138099106417547e-07, 'epoch': 2.74}
+{'loss': 1.997, 'grad_norm': 1.7220056056976318, 'learning_rate': 5.11779041429732e-07, 'epoch': 2.74}
+{'eval_loss': 2.2597904205322266, 'eval_runtime': 37.5791, 'eval_samples_per_second': 26.611, 'eval_steps_per_second': 1.118, 'epoch': 2.74}
+{'loss': 2.0519, 'grad_norm': 1.8655527830123901, 'learning_rate': 5.097481722177093e-07, 'epoch': 2.74}
+{'loss': 2.0507, 'grad_norm': 1.8560197353363037, 'learning_rate': 5.077173030056865e-07, 'epoch': 2.74}
+{'loss': 2.0883, 'grad_norm': 1.7275011539459229, 'learning_rate': 5.056864337936637e-07, 'epoch': 2.74}
+{'loss': 2.0961, 'grad_norm': 1.6078879833221436, 'learning_rate': 5.03655564581641e-07, 'epoch': 2.74}
+{'loss': 2.0709, 'grad_norm': 1.7285335063934326, 'learning_rate': 5.016246953696182e-07, 'epoch': 2.75}
+{'loss': 2.1461, 'grad_norm': 1.7641443014144897, 'learning_rate': 4.995938261575955e-07, 'epoch': 2.75}
+{'loss': 2.0512, 'grad_norm': 1.912024974822998, 'learning_rate': 4.975629569455727e-07, 'epoch': 2.75}
+{'loss': 2.0699, 'grad_norm': 1.7245723009109497, 'learning_rate': 4.9553208773355e-07, 'epoch': 2.75}
+{'loss': 2.1216, 'grad_norm': 1.812187910079956, 'learning_rate': 4.935012185215273e-07, 'epoch': 2.75}
+{'loss': 2.0372, 'grad_norm': 1.8732130527496338, 'learning_rate': 4.914703493095046e-07, 'epoch': 2.75}
+{'eval_loss': 2.2572178840637207, 'eval_runtime': 37.23, 'eval_samples_per_second': 26.86, 'eval_steps_per_second': 1.128, 'epoch': 2.75}
+{'loss': 2.0116, 'grad_norm': 1.7887053489685059, 'learning_rate': 4.894394800974818e-07, 'epoch': 2.75}
+{'loss': 2.0472, 'grad_norm': 1.8911319971084595, 'learning_rate': 4.87408610885459e-07, 'epoch': 2.75}
+{'loss': 2.1351, 'grad_norm': 2.1200339794158936, 'learning_rate': 4.853777416734363e-07, 'epoch': 2.75}
+{'loss': 2.0844, 'grad_norm': 1.8970152139663696, 'learning_rate': 4.833468724614136e-07, 'epoch': 2.76}
+{'loss': 2.0532, 'grad_norm': 1.8545712232589722, 'learning_rate': 4.813160032493907e-07, 'epoch': 2.76}
+{'loss': 2.0575, 'grad_norm': 1.9074171781539917, 'learning_rate': 4.79285134037368e-07, 'epoch': 2.76}
+{'loss': 2.0343, 'grad_norm': 1.8330562114715576, 'learning_rate': 4.772542648253453e-07, 'epoch': 2.76}
+{'loss': 2.0522, 'grad_norm': 1.7864097356796265, 'learning_rate': 4.752233956133225e-07, 'epoch': 2.76}
+{'loss': 2.0606, 'grad_norm': 1.8814005851745605, 'learning_rate': 4.731925264012998e-07, 'epoch': 2.76}
+{'loss': 2.1021, 'grad_norm': 1.9236066341400146, 'learning_rate': 4.7116165718927705e-07, 'epoch': 2.76}
+{'eval_loss': 2.254638195037842, 'eval_runtime': 37.4238, 'eval_samples_per_second': 26.721, 'eval_steps_per_second': 1.122, 'epoch': 2.76}
+{'loss': 2.0634, 'grad_norm': 1.8682609796524048, 'learning_rate': 4.6913078797725427e-07, 'epoch': 2.76}
+{'loss': 2.0743, 'grad_norm': 1.8768037557601929, 'learning_rate': 4.6709991876523155e-07, 'epoch': 2.76}
+{'loss': 2.0486, 'grad_norm': 1.713661789894104, 'learning_rate': 4.650690495532088e-07, 'epoch': 2.76}
+{'loss': 2.1075, 'grad_norm': 1.640758991241455, 'learning_rate': 4.6303818034118605e-07, 'epoch': 2.77}
+{'loss': 2.0942, 'grad_norm': 1.8088480234146118, 'learning_rate': 4.610073111291633e-07, 'epoch': 2.77}
+{'loss': 2.0086, 'grad_norm': 1.716711163520813, 'learning_rate': 4.589764419171406e-07, 'epoch': 2.77}
+{'loss': 2.0543, 'grad_norm': 1.756152868270874, 'learning_rate': 4.569455727051178e-07, 'epoch': 2.77}
+{'loss': 2.0267, 'grad_norm': 1.661292552947998, 'learning_rate': 4.549147034930951e-07, 'epoch': 2.77}
+{'loss': 2.0931, 'grad_norm': 1.679482102394104, 'learning_rate': 4.5288383428107237e-07, 'epoch': 2.77}
+{'loss': 2.0698, 'grad_norm': 1.7304980754852295, 'learning_rate': 4.5085296506904954e-07, 'epoch': 2.77}
+{'eval_loss': 2.2532448768615723, 'eval_runtime': 37.5817, 'eval_samples_per_second': 26.609, 'eval_steps_per_second': 1.118, 'epoch': 2.77}
+{'loss': 2.0586, 'grad_norm': 1.6509780883789062, 'learning_rate': 4.488220958570268e-07, 'epoch': 2.77}
+{'loss': 2.0526, 'grad_norm': 1.7228808403015137, 'learning_rate': 4.467912266450041e-07, 'epoch': 2.77}
+{'loss': 2.0394, 'grad_norm': 1.828813910484314, 'learning_rate': 4.447603574329813e-07, 'epoch': 2.78}
+{'loss': 2.0863, 'grad_norm': 1.6602458953857422, 'learning_rate': 4.427294882209586e-07, 'epoch': 2.78}
+{'loss': 2.0334, 'grad_norm': 1.620577096939087, 'learning_rate': 4.4069861900893587e-07, 'epoch': 2.78}
+{'loss': 2.0675, 'grad_norm': 1.84427011013031, 'learning_rate': 4.386677497969131e-07, 'epoch': 2.78}
+{'loss': 2.1299, 'grad_norm': 1.7513396739959717, 'learning_rate': 4.3663688058489037e-07, 'epoch': 2.78}
+{'loss': 2.0645, 'grad_norm': 1.8847347497940063, 'learning_rate': 4.3460601137286764e-07, 'epoch': 2.78}
+{'loss': 2.0957, 'grad_norm': 1.7418041229248047, 'learning_rate': 4.325751421608449e-07, 'epoch': 2.78}
+{'loss': 2.0701, 'grad_norm': 1.7380775213241577, 'learning_rate': 4.3054427294882214e-07, 'epoch': 2.78}
+{'eval_loss': 2.2538836002349854, 'eval_runtime': 37.5974, 'eval_samples_per_second': 26.598, 'eval_steps_per_second': 1.117, 'epoch': 2.78}
+{'loss': 2.0886, 'grad_norm': 1.7167860269546509, 'learning_rate': 4.285134037367994e-07, 'epoch': 2.78}
+{'loss': 2.0513, 'grad_norm': 1.8716496229171753, 'learning_rate': 4.264825345247767e-07, 'epoch': 2.79}
+{'loss': 2.0108, 'grad_norm': 1.724144458770752, 'learning_rate': 4.2445166531275386e-07, 'epoch': 2.79}
+{'loss': 2.0378, 'grad_norm': 1.7521746158599854, 'learning_rate': 4.2242079610073114e-07, 'epoch': 2.79}
+{'loss': 2.008, 'grad_norm': 1.6721038818359375, 'learning_rate': 4.203899268887084e-07, 'epoch': 2.79}
+{'loss': 2.096, 'grad_norm': 1.851208209991455, 'learning_rate': 4.1835905767668564e-07, 'epoch': 2.79}
+{'loss': 2.1199, 'grad_norm': 1.7917810678482056, 'learning_rate': 4.163281884646629e-07, 'epoch': 2.79}
+{'loss': 2.0482, 'grad_norm': 1.737945556640625, 'learning_rate': 4.142973192526402e-07, 'epoch': 2.79}
+{'loss': 2.0904, 'grad_norm': 1.8487318754196167, 'learning_rate': 4.122664500406174e-07, 'epoch': 2.79}
+{'loss': 2.0751, 'grad_norm': 1.8200631141662598, 'learning_rate': 4.102355808285947e-07, 'epoch': 2.79}
+{'eval_loss': 2.250385284423828, 'eval_runtime': 37.6748, 'eval_samples_per_second': 26.543, 'eval_steps_per_second': 1.115, 'epoch': 2.79}
+{'loss': 2.0532, 'grad_norm': 1.8953553438186646, 'learning_rate': 4.0820471161657196e-07, 'epoch': 2.8}
+{'loss': 2.0812, 'grad_norm': 1.7795840501785278, 'learning_rate': 4.0617384240454913e-07, 'epoch': 2.8}
+{'loss': 2.0867, 'grad_norm': 1.809156060218811, 'learning_rate': 4.041429731925264e-07, 'epoch': 2.8}
+{'loss': 2.0149, 'grad_norm': 1.6982206106185913, 'learning_rate': 4.021121039805037e-07, 'epoch': 2.8}
+{'loss': 2.0345, 'grad_norm': 1.7219128608703613, 'learning_rate': 4.000812347684809e-07, 'epoch': 2.8}
+{'loss': 2.047, 'grad_norm': 1.7847216129302979, 'learning_rate': 3.980503655564582e-07, 'epoch': 2.8}
+{'loss': 2.0644, 'grad_norm': 1.832094669342041, 'learning_rate': 3.9601949634443546e-07, 'epoch': 2.8}
+{'loss': 2.0464, 'grad_norm': 1.627561330795288, 'learning_rate': 3.939886271324127e-07, 'epoch': 2.8}
+{'loss': 2.0589, 'grad_norm': 1.7458908557891846, 'learning_rate': 3.9195775792038996e-07, 'epoch': 2.8}
+{'loss': 2.0824, 'grad_norm': 1.7812492847442627, 'learning_rate': 3.8992688870836723e-07, 'epoch': 2.81}
+{'eval_loss': 2.251847982406616, 'eval_runtime': 37.6073, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 2.81}
+{'loss': 2.0833, 'grad_norm': 1.7027316093444824, 'learning_rate': 3.8789601949634446e-07, 'epoch': 2.81}
+{'loss': 2.0501, 'grad_norm': 1.841264009475708, 'learning_rate': 3.8586515028432173e-07, 'epoch': 2.81}
+{'loss': 1.9955, 'grad_norm': 1.7689181566238403, 'learning_rate': 3.83834281072299e-07, 'epoch': 2.81}
+{'loss': 2.0732, 'grad_norm': 1.7147586345672607, 'learning_rate': 3.818034118602762e-07, 'epoch': 2.81}
+{'loss': 2.034, 'grad_norm': 1.7111624479293823, 'learning_rate': 3.7977254264825345e-07, 'epoch': 2.81}
+{'loss': 2.075, 'grad_norm': 1.7972986698150635, 'learning_rate': 3.7774167343623073e-07, 'epoch': 2.81}
+{'loss': 2.0787, 'grad_norm': 1.8272501230239868, 'learning_rate': 3.75710804224208e-07, 'epoch': 2.81}
+{'loss': 2.0984, 'grad_norm': 1.749765157699585, 'learning_rate': 3.7367993501218523e-07, 'epoch': 2.81}
+{'loss': 2.0482, 'grad_norm': 1.735979437828064, 'learning_rate': 3.716490658001625e-07, 'epoch': 2.82}
+{'loss': 2.053, 'grad_norm': 1.7036558389663696, 'learning_rate': 3.696181965881398e-07, 'epoch': 2.82}
+{'eval_loss': 2.248783588409424, 'eval_runtime': 37.6225, 'eval_samples_per_second': 26.58, 'eval_steps_per_second': 1.116, 'epoch': 2.82}
+{'loss': 2.0213, 'grad_norm': 1.6903477907180786, 'learning_rate': 3.67587327376117e-07, 'epoch': 2.82}
+{'loss': 2.0741, 'grad_norm': 1.6715619564056396, 'learning_rate': 3.655564581640943e-07, 'epoch': 2.82}
+{'loss': 2.0629, 'grad_norm': 1.7042230367660522, 'learning_rate': 3.6352558895207155e-07, 'epoch': 2.82}
+{'loss': 2.029, 'grad_norm': 1.6981803178787231, 'learning_rate': 3.614947197400488e-07, 'epoch': 2.82}
+{'loss': 2.0614, 'grad_norm': 1.6821229457855225, 'learning_rate': 3.5946385052802605e-07, 'epoch': 2.82}
+{'loss': 2.0585, 'grad_norm': 1.6905006170272827, 'learning_rate': 3.5743298131600333e-07, 'epoch': 2.82}
+{'loss': 2.052, 'grad_norm': 1.7363934516906738, 'learning_rate': 3.554021121039805e-07, 'epoch': 2.82}
+{'loss': 2.1014, 'grad_norm': 1.755340814590454, 'learning_rate': 3.533712428919578e-07, 'epoch': 2.83}
+{'loss': 2.0546, 'grad_norm': 1.7543216943740845, 'learning_rate': 3.5134037367993505e-07, 'epoch': 2.83}
+{'loss': 2.0589, 'grad_norm': 1.7107030153274536, 'learning_rate': 3.4930950446791227e-07, 'epoch': 2.83}
+{'eval_loss': 2.2511260509490967, 'eval_runtime': 37.6548, 'eval_samples_per_second': 26.557, 'eval_steps_per_second': 1.115, 'epoch': 2.83}
+{'loss': 2.0454, 'grad_norm': 1.7438353300094604, 'learning_rate': 3.4727863525588955e-07, 'epoch': 2.83}
+{'loss': 2.052, 'grad_norm': 1.744206428527832, 'learning_rate': 3.452477660438668e-07, 'epoch': 2.83}
+{'loss': 2.0895, 'grad_norm': 1.7698065042495728, 'learning_rate': 3.4321689683184405e-07, 'epoch': 2.83}
+{'loss': 2.0574, 'grad_norm': 1.7390556335449219, 'learning_rate': 3.411860276198213e-07, 'epoch': 2.83}
+{'loss': 2.037, 'grad_norm': 1.7391782999038696, 'learning_rate': 3.391551584077986e-07, 'epoch': 2.83}
+{'loss': 2.0812, 'grad_norm': 1.7983324527740479, 'learning_rate': 3.3712428919577577e-07, 'epoch': 2.83}
+{'loss': 2.0745, 'grad_norm': 1.7081520557403564, 'learning_rate': 3.3509341998375304e-07, 'epoch': 2.84}
+{'loss': 2.027, 'grad_norm': 1.8323163986206055, 'learning_rate': 3.330625507717303e-07, 'epoch': 2.84}
+{'loss': 2.046, 'grad_norm': 1.6954594850540161, 'learning_rate': 3.3103168155970754e-07, 'epoch': 2.84}
+{'loss': 2.1137, 'grad_norm': 1.8515114784240723, 'learning_rate': 3.290008123476848e-07, 'epoch': 2.84}
+{'eval_loss': 2.2513270378112793, 'eval_runtime': 37.627, 'eval_samples_per_second': 26.577, 'eval_steps_per_second': 1.116, 'epoch': 2.84}
+{'loss': 2.1106, 'grad_norm': 1.76674222946167, 'learning_rate': 3.269699431356621e-07, 'epoch': 2.84}
+{'loss': 2.0407, 'grad_norm': 1.7156572341918945, 'learning_rate': 3.249390739236393e-07, 'epoch': 2.84}
+{'loss': 2.0159, 'grad_norm': 1.668441653251648, 'learning_rate': 3.229082047116166e-07, 'epoch': 2.84}
+{'loss': 2.0968, 'grad_norm': 1.721892237663269, 'learning_rate': 3.2087733549959387e-07, 'epoch': 2.84}
+{'loss': 2.0856, 'grad_norm': 1.6764564514160156, 'learning_rate': 3.1884646628757114e-07, 'epoch': 2.84}
+{'loss': 2.0677, 'grad_norm': 1.7293834686279297, 'learning_rate': 3.1681559707554837e-07, 'epoch': 2.84}
+{'loss': 2.0678, 'grad_norm': 1.6313735246658325, 'learning_rate': 3.1478472786352564e-07, 'epoch': 2.85}
+{'loss': 2.0302, 'grad_norm': 1.6623470783233643, 'learning_rate': 3.127538586515029e-07, 'epoch': 2.85}
+{'loss': 2.0511, 'grad_norm': 1.776845932006836, 'learning_rate': 3.107229894394801e-07, 'epoch': 2.85}
+{'loss': 2.0516, 'grad_norm': 1.641475796699524, 'learning_rate': 3.0869212022745736e-07, 'epoch': 2.85}
+{'eval_loss': 2.24954891204834, 'eval_runtime': 37.6761, 'eval_samples_per_second': 26.542, 'eval_steps_per_second': 1.115, 'epoch': 2.85}
+{'loss': 2.005, 'grad_norm': 1.661555290222168, 'learning_rate': 3.0666125101543464e-07, 'epoch': 2.85}
+{'loss': 2.0568, 'grad_norm': 1.7229926586151123, 'learning_rate': 3.046303818034119e-07, 'epoch': 2.85}
+{'loss': 2.1176, 'grad_norm': 1.7893255949020386, 'learning_rate': 3.0259951259138914e-07, 'epoch': 2.85}
+{'loss': 2.08, 'grad_norm': 1.7256083488464355, 'learning_rate': 3.0056864337936636e-07, 'epoch': 2.85}
+{'loss': 1.9761, 'grad_norm': 1.653363585472107, 'learning_rate': 2.9853777416734364e-07, 'epoch': 2.85}
+{'loss': 2.0563, 'grad_norm': 1.62579345703125, 'learning_rate': 2.965069049553209e-07, 'epoch': 2.86}
+{'loss': 2.0494, 'grad_norm': 1.6705138683319092, 'learning_rate': 2.9447603574329814e-07, 'epoch': 2.86}
+{'loss': 2.0291, 'grad_norm': 1.8702675104141235, 'learning_rate': 2.924451665312754e-07, 'epoch': 2.86}
+{'loss': 2.0451, 'grad_norm': 1.7308520078659058, 'learning_rate': 2.904142973192527e-07, 'epoch': 2.86}
+{'loss': 1.9907, 'grad_norm': 2.0739548206329346, 'learning_rate': 2.883834281072299e-07, 'epoch': 2.86}
+{'eval_loss': 2.250498056411743, 'eval_runtime': 37.3108, 'eval_samples_per_second': 26.802, 'eval_steps_per_second': 1.126, 'epoch': 2.86}
+{'loss': 2.0357, 'grad_norm': 1.7827465534210205, 'learning_rate': 2.863525588952072e-07, 'epoch': 2.86}
+{'loss': 2.0291, 'grad_norm': 1.6933009624481201, 'learning_rate': 2.843216896831844e-07, 'epoch': 2.86}
+{'loss': 2.007, 'grad_norm': 1.8686507940292358, 'learning_rate': 2.822908204711617e-07, 'epoch': 2.86}
+{'loss': 2.0844, 'grad_norm': 1.7763125896453857, 'learning_rate': 2.8025995125913896e-07, 'epoch': 2.86}
+{'loss': 2.0432, 'grad_norm': 1.6537609100341797, 'learning_rate': 2.782290820471162e-07, 'epoch': 2.87}
+{'loss': 2.0908, 'grad_norm': 1.7602957487106323, 'learning_rate': 2.761982128350934e-07, 'epoch': 2.87}
+{'loss': 2.0553, 'grad_norm': 1.8036450147628784, 'learning_rate': 2.741673436230707e-07, 'epoch': 2.87}
+{'loss': 2.0674, 'grad_norm': 1.7014726400375366, 'learning_rate': 2.7213647441104796e-07, 'epoch': 2.87}
+{'loss': 2.0571, 'grad_norm': 1.78612220287323, 'learning_rate': 2.7010560519902523e-07, 'epoch': 2.87}
+{'loss': 1.9952, 'grad_norm': 1.8486040830612183, 'learning_rate': 2.6807473598700246e-07, 'epoch': 2.87}
+{'eval_loss': 2.2524545192718506, 'eval_runtime': 37.528, 'eval_samples_per_second': 26.647, 'eval_steps_per_second': 1.119, 'epoch': 2.87}
+{'loss': 2.0702, 'grad_norm': 1.7947912216186523, 'learning_rate': 2.660438667749797e-07, 'epoch': 2.87}
+{'loss': 2.0234, 'grad_norm': 1.830117106437683, 'learning_rate': 2.6401299756295696e-07, 'epoch': 2.87}
+{'loss': 2.0462, 'grad_norm': 1.8081024885177612, 'learning_rate': 2.6198212835093423e-07, 'epoch': 2.87}
+{'loss': 2.0246, 'grad_norm': 1.7568098306655884, 'learning_rate': 2.5995125913891145e-07, 'epoch': 2.88}
+{'loss': 2.0002, 'grad_norm': 1.6624633073806763, 'learning_rate': 2.5792038992688873e-07, 'epoch': 2.88}
+{'loss': 2.0348, 'grad_norm': 2.309088706970215, 'learning_rate': 2.55889520714866e-07, 'epoch': 2.88}
+{'loss': 2.0577, 'grad_norm': 1.813544511795044, 'learning_rate': 2.5385865150284323e-07, 'epoch': 2.88}
+{'loss': 2.0859, 'grad_norm': 1.8680522441864014, 'learning_rate': 2.518277822908205e-07, 'epoch': 2.88}
+{'loss': 2.071, 'grad_norm': 1.960270643234253, 'learning_rate': 2.4979691307879773e-07, 'epoch': 2.88}
+{'loss': 2.0908, 'grad_norm': 1.925106167793274, 'learning_rate': 2.47766043866775e-07, 'epoch': 2.88}
+{'eval_loss': 2.2500455379486084, 'eval_runtime': 37.5989, 'eval_samples_per_second': 26.597, 'eval_steps_per_second': 1.117, 'epoch': 2.88}
+{'loss': 2.0188, 'grad_norm': 1.615283489227295, 'learning_rate': 2.457351746547523e-07, 'epoch': 2.88}
+{'loss': 2.0168, 'grad_norm': 1.7035362720489502, 'learning_rate': 2.437043054427295e-07, 'epoch': 2.88}
+{'loss': 2.0643, 'grad_norm': 2.094534397125244, 'learning_rate': 2.416734362307068e-07, 'epoch': 2.89}
+{'loss': 2.0457, 'grad_norm': 1.7173420190811157, 'learning_rate': 2.39642567018684e-07, 'epoch': 2.89}
+{'loss': 2.0154, 'grad_norm': 1.8083369731903076, 'learning_rate': 2.3761169780666125e-07, 'epoch': 2.89}
+{'loss': 2.0694, 'grad_norm': 1.7967374324798584, 'learning_rate': 2.3558082859463852e-07, 'epoch': 2.89}
+{'loss': 2.0456, 'grad_norm': 1.7772841453552246, 'learning_rate': 2.3354995938261577e-07, 'epoch': 2.89}
+{'loss': 1.9982, 'grad_norm': 1.7881642580032349, 'learning_rate': 2.3151909017059302e-07, 'epoch': 2.89}
+{'loss': 2.0813, 'grad_norm': 1.8740839958190918, 'learning_rate': 2.294882209585703e-07, 'epoch': 2.89}
+{'loss': 2.0739, 'grad_norm': 1.766060471534729, 'learning_rate': 2.2745735174654755e-07, 'epoch': 2.89}
+{'eval_loss': 2.2478573322296143, 'eval_runtime': 37.6623, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 2.89}
+{'loss': 2.0151, 'grad_norm': 1.6251863241195679, 'learning_rate': 2.2542648253452477e-07, 'epoch': 2.89}
+{'loss': 2.0692, 'grad_norm': 1.8327043056488037, 'learning_rate': 2.2339561332250205e-07, 'epoch': 2.9}
+{'loss': 2.0848, 'grad_norm': 1.7864391803741455, 'learning_rate': 2.213647441104793e-07, 'epoch': 2.9}
+{'loss': 2.0658, 'grad_norm': 1.7639362812042236, 'learning_rate': 2.1933387489845655e-07, 'epoch': 2.9}
+{'loss': 2.0403, 'grad_norm': 1.690923810005188, 'learning_rate': 2.1730300568643382e-07, 'epoch': 2.9}
+{'loss': 2.0546, 'grad_norm': 1.8671950101852417, 'learning_rate': 2.1527213647441107e-07, 'epoch': 2.9}
+{'loss': 2.0647, 'grad_norm': 1.829037070274353, 'learning_rate': 2.1324126726238835e-07, 'epoch': 2.9}
+{'loss': 2.058, 'grad_norm': 1.7587724924087524, 'learning_rate': 2.1121039805036557e-07, 'epoch': 2.9}
+{'loss': 2.0592, 'grad_norm': 1.8511664867401123, 'learning_rate': 2.0917952883834282e-07, 'epoch': 2.9}
+{'loss': 2.0741, 'grad_norm': 1.712025761604309, 'learning_rate': 2.071486596263201e-07, 'epoch': 2.9}
+{'eval_loss': 2.2499945163726807, 'eval_runtime': 37.6976, 'eval_samples_per_second': 26.527, 'eval_steps_per_second': 1.114, 'epoch': 2.9}
+{'loss': 2.0273, 'grad_norm': 1.7630335092544556, 'learning_rate': 2.0511779041429734e-07, 'epoch': 2.91}
+{'loss': 2.0378, 'grad_norm': 1.9621294736862183, 'learning_rate': 2.0308692120227457e-07, 'epoch': 2.91}
+{'loss': 2.0857, 'grad_norm': 1.7197954654693604, 'learning_rate': 2.0105605199025184e-07, 'epoch': 2.91}
+{'loss': 2.0904, 'grad_norm': 1.7680374383926392, 'learning_rate': 1.990251827782291e-07, 'epoch': 2.91}
+{'loss': 2.1079, 'grad_norm': 1.7921113967895508, 'learning_rate': 1.9699431356620634e-07, 'epoch': 2.91}
+{'loss': 2.0124, 'grad_norm': 1.7699004411697388, 'learning_rate': 1.9496344435418362e-07, 'epoch': 2.91}
+{'loss': 2.0763, 'grad_norm': 1.725587010383606, 'learning_rate': 1.9293257514216087e-07, 'epoch': 2.91}
+{'loss': 2.0477, 'grad_norm': 1.7166870832443237, 'learning_rate': 1.909017059301381e-07, 'epoch': 2.91}
+{'loss': 2.0385, 'grad_norm': 1.7358206510543823, 'learning_rate': 1.8887083671811536e-07, 'epoch': 2.91}
+{'loss': 2.0259, 'grad_norm': 1.571472406387329, 'learning_rate': 1.8683996750609261e-07, 'epoch': 2.92}
+{'eval_loss': 2.250495433807373, 'eval_runtime': 37.6755, 'eval_samples_per_second': 26.542, 'eval_steps_per_second': 1.115, 'epoch': 2.92}
+{'loss': 2.0971, 'grad_norm': 1.8056615591049194, 'learning_rate': 1.848090982940699e-07, 'epoch': 2.92}
+{'loss': 2.1033, 'grad_norm': 1.6437890529632568, 'learning_rate': 1.8277822908204714e-07, 'epoch': 2.92}
+{'loss': 2.0276, 'grad_norm': 1.6490331888198853, 'learning_rate': 1.807473598700244e-07, 'epoch': 2.92}
+{'loss': 2.0554, 'grad_norm': 1.6858152151107788, 'learning_rate': 1.7871649065800166e-07, 'epoch': 2.92}
+{'loss': 2.1311, 'grad_norm': 1.8332107067108154, 'learning_rate': 1.766856214459789e-07, 'epoch': 2.92}
+{'loss': 2.0682, 'grad_norm': 1.676621675491333, 'learning_rate': 1.7465475223395614e-07, 'epoch': 2.92}
+{'loss': 2.0607, 'grad_norm': 1.818703055381775, 'learning_rate': 1.726238830219334e-07, 'epoch': 2.92}
+{'loss': 2.0408, 'grad_norm': 1.6856510639190674, 'learning_rate': 1.7059301380991066e-07, 'epoch': 2.92}
+{'loss': 2.0468, 'grad_norm': 1.715989112854004, 'learning_rate': 1.6856214459788788e-07, 'epoch': 2.92}
+{'loss': 2.0027, 'grad_norm': 1.6786718368530273, 'learning_rate': 1.6653127538586516e-07, 'epoch': 2.93}
+{'eval_loss': 2.2489452362060547, 'eval_runtime': 37.6622, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 2.93}
+{'loss': 2.0938, 'grad_norm': 1.6483887434005737, 'learning_rate': 1.645004061738424e-07, 'epoch': 2.93}
+{'loss': 2.0224, 'grad_norm': 1.7190922498703003, 'learning_rate': 1.6246953696181966e-07, 'epoch': 2.93}
+{'loss': 2.0619, 'grad_norm': 1.6773396730422974, 'learning_rate': 1.6043866774979693e-07, 'epoch': 2.93}
+{'loss': 2.0803, 'grad_norm': 1.7429447174072266, 'learning_rate': 1.5840779853777418e-07, 'epoch': 2.93}
+{'loss': 2.0488, 'grad_norm': 1.6694252490997314, 'learning_rate': 1.5637692932575146e-07, 'epoch': 2.93}
+{'loss': 2.026, 'grad_norm': 1.7682044506072998, 'learning_rate': 1.5434606011372868e-07, 'epoch': 2.93}
+{'loss': 2.0998, 'grad_norm': 1.7037934064865112, 'learning_rate': 1.5231519090170596e-07, 'epoch': 2.93}
+{'loss': 2.0697, 'grad_norm': 1.6925784349441528, 'learning_rate': 1.5028432168968318e-07, 'epoch': 2.93}
+{'loss': 2.0618, 'grad_norm': 1.7463994026184082, 'learning_rate': 1.4825345247766046e-07, 'epoch': 2.94}
+{'loss': 2.087, 'grad_norm': 1.6645357608795166, 'learning_rate': 1.462225832656377e-07, 'epoch': 2.94}
+{'eval_loss': 2.2523369789123535, 'eval_runtime': 37.6842, 'eval_samples_per_second': 26.536, 'eval_steps_per_second': 1.115, 'epoch': 2.94}
+{'loss': 2.0296, 'grad_norm': 1.7431193590164185, 'learning_rate': 1.4419171405361496e-07, 'epoch': 2.94}
+{'loss': 2.0584, 'grad_norm': 1.9372023344039917, 'learning_rate': 1.421608448415922e-07, 'epoch': 2.94}
+{'loss': 2.0783, 'grad_norm': 1.7728925943374634, 'learning_rate': 1.4012997562956948e-07, 'epoch': 2.94}
+{'loss': 2.0895, 'grad_norm': 1.7102652788162231, 'learning_rate': 1.380991064175467e-07, 'epoch': 2.94}
+{'loss': 2.0735, 'grad_norm': 1.738862156867981, 'learning_rate': 1.3606823720552398e-07, 'epoch': 2.94}
+{'loss': 2.0955, 'grad_norm': 1.714490532875061, 'learning_rate': 1.3403736799350123e-07, 'epoch': 2.94}
+{'loss': 2.0581, 'grad_norm': 1.7781708240509033, 'learning_rate': 1.3200649878147848e-07, 'epoch': 2.94}
+{'loss': 2.0803, 'grad_norm': 1.7060110569000244, 'learning_rate': 1.2997562956945573e-07, 'epoch': 2.95}
+{'loss': 2.0984, 'grad_norm': 1.7197345495224, 'learning_rate': 1.27944760357433e-07, 'epoch': 2.95}
+{'loss': 2.0857, 'grad_norm': 1.6833561658859253, 'learning_rate': 1.2591389114541025e-07, 'epoch': 2.95}
+{'eval_loss': 2.24818754196167, 'eval_runtime': 37.6773, 'eval_samples_per_second': 26.541, 'eval_steps_per_second': 1.115, 'epoch': 2.95}
+{'loss': 2.0373, 'grad_norm': 1.7047430276870728, 'learning_rate': 1.238830219333875e-07, 'epoch': 2.95}
+{'loss': 2.0076, 'grad_norm': 1.6307530403137207, 'learning_rate': 1.2185215272136475e-07, 'epoch': 2.95}
+{'loss': 2.0312, 'grad_norm': 1.7032685279846191, 'learning_rate': 1.19821283509342e-07, 'epoch': 2.95}
+{'loss': 2.0665, 'grad_norm': 1.7993203401565552, 'learning_rate': 1.1779041429731926e-07, 'epoch': 2.95}
+{'loss': 2.0941, 'grad_norm': 1.8202964067459106, 'learning_rate': 1.1575954508529651e-07, 'epoch': 2.95}
+{'loss': 2.0348, 'grad_norm': 1.7729878425598145, 'learning_rate': 1.1372867587327377e-07, 'epoch': 2.95}
+{'loss': 2.0659, 'grad_norm': 1.7626960277557373, 'learning_rate': 1.1169780666125102e-07, 'epoch': 2.96}
+{'loss': 2.102, 'grad_norm': 1.6994094848632812, 'learning_rate': 1.0966693744922827e-07, 'epoch': 2.96}
+{'loss': 2.0494, 'grad_norm': 1.749183177947998, 'learning_rate': 1.0763606823720554e-07, 'epoch': 2.96}
+{'loss': 2.0327, 'grad_norm': 1.7438490390777588, 'learning_rate': 1.0560519902518278e-07, 'epoch': 2.96}
+{'eval_loss': 2.2510454654693604, 'eval_runtime': 37.6779, 'eval_samples_per_second': 26.541, 'eval_steps_per_second': 1.115, 'epoch': 2.96}
+{'loss': 2.0548, 'grad_norm': 1.6868462562561035, 'learning_rate': 1.0357432981316005e-07, 'epoch': 2.96}
+{'loss': 2.0775, 'grad_norm': 1.7100577354431152, 'learning_rate': 1.0154346060113728e-07, 'epoch': 2.96}
+{'loss': 2.1048, 'grad_norm': 1.693933129310608, 'learning_rate': 9.951259138911455e-08, 'epoch': 2.96}
+{'loss': 2.0443, 'grad_norm': 1.7240110635757446, 'learning_rate': 9.748172217709181e-08, 'epoch': 2.96}
+{'loss': 2.0604, 'grad_norm': 1.6436755657196045, 'learning_rate': 9.545085296506904e-08, 'epoch': 2.96}
+{'loss': 2.041, 'grad_norm': 1.656276822090149, 'learning_rate': 9.341998375304631e-08, 'epoch': 2.97}
+{'loss': 2.0485, 'grad_norm': 1.7004998922348022, 'learning_rate': 9.138911454102357e-08, 'epoch': 2.97}
+{'loss': 2.0527, 'grad_norm': 1.7413005828857422, 'learning_rate': 8.935824532900083e-08, 'epoch': 2.97}
+{'loss': 2.0974, 'grad_norm': 1.847664475440979, 'learning_rate': 8.732737611697807e-08, 'epoch': 2.97}
+{'loss': 2.0622, 'grad_norm': 1.7132785320281982, 'learning_rate': 8.529650690495533e-08, 'epoch': 2.97}
+{'eval_loss': 2.247624397277832, 'eval_runtime': 37.3352, 'eval_samples_per_second': 26.784, 'eval_steps_per_second': 1.125, 'epoch': 2.97}
+{'loss': 1.9951, 'grad_norm': 1.7159314155578613, 'learning_rate': 8.326563769293258e-08, 'epoch': 2.97}
+{'loss': 2.0674, 'grad_norm': 1.7080117464065552, 'learning_rate': 8.123476848090983e-08, 'epoch': 2.97}
+{'loss': 2.0918, 'grad_norm': 1.7069841623306274, 'learning_rate': 7.920389926888709e-08, 'epoch': 2.97}
+{'loss': 2.0813, 'grad_norm': 1.7847354412078857, 'learning_rate': 7.717303005686434e-08, 'epoch': 2.97}
+{'loss': 2.0688, 'grad_norm': 1.8135604858398438, 'learning_rate': 7.514216084484159e-08, 'epoch': 2.98}
+{'loss': 2.114, 'grad_norm': 1.6478151082992554, 'learning_rate': 7.311129163281885e-08, 'epoch': 2.98}
+{'loss': 2.067, 'grad_norm': 1.730008602142334, 'learning_rate': 7.10804224207961e-08, 'epoch': 2.98}
+{'loss': 2.093, 'grad_norm': 1.7251269817352295, 'learning_rate': 6.904955320877335e-08, 'epoch': 2.98}
+{'loss': 2.057, 'grad_norm': 1.7725977897644043, 'learning_rate': 6.701868399675061e-08, 'epoch': 2.98}
+{'loss': 2.0647, 'grad_norm': 1.7002766132354736, 'learning_rate': 6.498781478472786e-08, 'epoch': 2.98}
+{'eval_loss': 2.248101234436035, 'eval_runtime': 37.4837, 'eval_samples_per_second': 26.678, 'eval_steps_per_second': 1.12, 'epoch': 2.98}
+{'loss': 2.0493, 'grad_norm': 1.6549758911132812, 'learning_rate': 6.295694557270513e-08, 'epoch': 2.98}
+{'loss': 2.1303, 'grad_norm': 1.8163100481033325, 'learning_rate': 6.092607636068238e-08, 'epoch': 2.98}
+{'loss': 2.0601, 'grad_norm': 1.665936827659607, 'learning_rate': 5.889520714865963e-08, 'epoch': 2.98}
+{'loss': 2.0751, 'grad_norm': 1.7451826333999634, 'learning_rate': 5.686433793663689e-08, 'epoch': 2.99}
+{'loss': 2.0459, 'grad_norm': 1.7198565006256104, 'learning_rate': 5.4833468724614136e-08, 'epoch': 2.99}
+{'loss': 2.1205, 'grad_norm': 1.6741929054260254, 'learning_rate': 5.280259951259139e-08, 'epoch': 2.99}
+{'loss': 2.0563, 'grad_norm': 1.697405219078064, 'learning_rate': 5.077173030056864e-08, 'epoch': 2.99}
+{'loss': 2.0174, 'grad_norm': 1.9162192344665527, 'learning_rate': 4.8740861088545904e-08, 'epoch': 2.99}
+{'loss': 2.0233, 'grad_norm': 1.7104955911636353, 'learning_rate': 4.6709991876523154e-08, 'epoch': 2.99}
+{'loss': 2.1121, 'grad_norm': 1.726912260055542, 'learning_rate': 4.4679122664500416e-08, 'epoch': 2.99}
+{'eval_loss': 2.2502334117889404, 'eval_runtime': 37.5635, 'eval_samples_per_second': 26.622, 'eval_steps_per_second': 1.118, 'epoch': 2.99}
+{'loss': 2.1188, 'grad_norm': 1.801538348197937, 'learning_rate': 4.2648253452477665e-08, 'epoch': 2.99}
+{'loss': 2.0566, 'grad_norm': 1.7431614398956299, 'learning_rate': 4.0617384240454915e-08, 'epoch': 2.99}
+{'loss': 2.0882, 'grad_norm': 1.695623755455017, 'learning_rate': 3.858651502843217e-08, 'epoch': 3.0}
+{'loss': 2.0751, 'grad_norm': 1.680382490158081, 'learning_rate': 3.6555645816409427e-08, 'epoch': 3.0}
+{'loss': 2.0655, 'grad_norm': 1.6881738901138306, 'learning_rate': 3.4524776604386676e-08, 'epoch': 3.0}
+{'loss': 2.1018, 'grad_norm': 1.7483725547790527, 'learning_rate': 3.249390739236393e-08, 'epoch': 3.0}
+{'train_runtime': 42690.2251, 'train_samples_per_second': 1.154, 'train_steps_per_second': 0.064, 'train_loss': 2.144901419156476, 'epoch': 3.0}
diff --git a/wandb/run-20241118_085831-h3p12015/files/wandb-metadata.json b/wandb/run-20241118_085831-h3p12015/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..5aa9d73f221bb11a426f901e7bbc67798d3305d5
--- /dev/null
+++ b/wandb/run-20241118_085831-h3p12015/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-18T13:58:31.942865Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py",
+  "codePath":  "train/train_ftp.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_ftp.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1786847916032"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241118_085831-h3p12015/files/wandb-summary.json b/wandb/run-20241118_085831-h3p12015/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..5f89c6607f5f4555b687ab82300fa51f5eaa7be8
--- /dev/null
+++ b/wandb/run-20241118_085831-h3p12015/files/wandb-summary.json
@@ -0,0 +1 @@
+{"eval/loss":2.2502334117889404,"total_flos":8.528958544014213e+17,"train/loss":2.1018,"train_runtime":42690.2251,"eval/samples_per_second":26.622,"train/epoch":2.9983561643835617,"_runtime":43009.544258871,"_timestamp":1.7319813213380916e+09,"eval/runtime":37.5635,"train_loss":2.144901419156476,"train/grad_norm":1.7483725547790527,"train_samples_per_second":1.154,"eval/steps_per_second":1.118,"_wandb":{"runtime":43009},"_step":3009,"train/global_step":2736,"train/learning_rate":3.249390739236393e-08,"train_steps_per_second":0.064}
\ No newline at end of file
diff --git a/wandb/run-20241118_085831-h3p12015/logs/debug-internal.log b/wandb/run-20241118_085831-h3p12015/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..15d615c9708647130f53b4bc9b183bcbd44ef75b
--- /dev/null
+++ b/wandb/run-20241118_085831-h3p12015/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-18T08:58:31.94497778-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-18T08:58:31.94499085-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241118_085831-h3p12015/logs/debug-core.log"}
+{"time":"2024-11-18T08:58:32.053907362-05:00","level":"INFO","msg":"created new stream","id":"h3p12015"}
+{"time":"2024-11-18T08:58:32.054050223-05:00","level":"INFO","msg":"stream: started","id":"h3p12015"}
+{"time":"2024-11-18T08:58:32.054124934-05:00","level":"INFO","msg":"sender: started","stream_id":"h3p12015"}
+{"time":"2024-11-18T08:58:32.054060593-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"h3p12015"}}
+{"time":"2024-11-18T08:58:32.054119184-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"h3p12015"}}
+{"time":"2024-11-18T08:58:32.470429939-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-18T20:55:21.831092462-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-18T20:55:22.036272347-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-18T20:55:22.662145198-05:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2024-11-18T20:55:22.669393924-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-18T20:55:24.000755515-05:00","level":"INFO","msg":"stream: closing","id":"h3p12015"}
+{"time":"2024-11-18T20:55:24.000802396-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"h3p12015"}}
+{"time":"2024-11-18T20:55:24.000829436-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"h3p12015"}}
+{"time":"2024-11-18T20:55:24.000904607-05:00","level":"INFO","msg":"sender: closed","stream_id":"h3p12015"}
+{"time":"2024-11-18T20:55:24.000954217-05:00","level":"INFO","msg":"stream: closed","id":"h3p12015"}
diff --git a/wandb/run-20241118_085831-h3p12015/logs/debug.log b/wandb/run-20241118_085831-h3p12015/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..5482e6b28853e99337320398b599f429b434b66f
--- /dev/null
+++ b/wandb/run-20241118_085831-h3p12015/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-18 08:58:31,938 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Configure stats pid to 2672319
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_ftp.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py'}
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241118_085831-h3p12015/logs/debug.log
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241118_085831-h3p12015/logs/debug-internal.log
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_init.py:init():621] calling init triggers
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_init.py:init():671] starting backend
+2024-11-18 08:58:31,939 INFO    MainThread:2672319 [wandb_init.py:init():675] sending inform_init request
+2024-11-18 08:58:31,942 INFO    MainThread:2672319 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-18 08:58:31,942 INFO    MainThread:2672319 [wandb_init.py:init():688] backend started and connected
+2024-11-18 08:58:31,947 INFO    MainThread:2672319 [wandb_init.py:init():783] updated telemetry
+2024-11-18 08:58:31,971 INFO    MainThread:2672319 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-18 08:58:32,467 INFO    MainThread:2672319 [wandb_init.py:init():867] starting run threads in backend
+2024-11-18 08:58:32,553 INFO    MainThread:2672319 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-18 08:58:32,553 INFO    MainThread:2672319 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-18 08:58:32,553 INFO    MainThread:2672319 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-18 08:58:32,554 INFO    MainThread:2672319 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-18 08:58:32,555 INFO    MainThread:2672319 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-18 08:58:32,555 INFO    MainThread:2672319 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nondeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-18 09:03:51,116 INFO    MainThread:2672319 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_nondeterministic_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_nondeterministic_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-18 09:03:51,118 INFO    MainThread:2672319 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f4e9deda4c0>>
+2024-11-18 09:03:51,118 INFO    MainThread:2672319 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-11-18 20:55:21,632 INFO    MainThread:2672319 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-shuffle/h3p12015
+2024-11-18 20:55:21,660 INFO    MainThread:2672319 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-18 20:55:21,660 INFO    MainThread:2672319 [wandb_run.py:_restore():2408] restore
+2024-11-18 20:55:21,661 INFO    MainThread:2672319 [wandb_run.py:_restore():2414] restore done
+2024-11-18 20:55:23,821 INFO    MainThread:2672319 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-18 20:55:23,822 INFO    MainThread:2672319 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-18 20:55:23,959 INFO    MainThread:2672319 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241129_235322-bxqdruiw/run-bxqdruiw.wandb b/wandb/run-20241129_235322-bxqdruiw/run-bxqdruiw.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..b88b43c99fcb8fd56cee784d85b1c29fef099bdc
--- /dev/null
+++ b/wandb/run-20241129_235322-bxqdruiw/run-bxqdruiw.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:06ea744344e2ea6c04aba69ed8742674fb91e5d319ca5706c92ceb6cf6352961
+size 327680
diff --git a/wandb/run-20241130_000215-17dv9j80/files/config.yaml b/wandb/run-20241130_000215-17dv9j80/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..b54696c29677df2553b20c9a8899f95fbd8e3158
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/files/config.yaml
@@ -0,0 +1,537 @@
+_name_or_path:
+    value: gpt2
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": train/loss
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/learning_rate
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/epoch
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/runtime
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/loss
+              "5": 1
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+activation_function:
+    value: gelu_new
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - GPT2LMHeadModel
+attn_pdrop:
+    value: 0.1
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 50256
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+embd_pdrop:
+    value: 0.1
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 50256
+epoch:
+    value: 3
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+layer_norm_epsilon:
+    value: 1e-05
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+model/num_parameters:
+    value: 124439808
+model_type:
+    value: gpt2
+mp_parameters:
+    value: ""
+n_ctx:
+    value: 1024
+n_embd:
+    value: 768
+n_head:
+    value: 12
+n_inner:
+    value: null
+n_layer:
+    value: 12
+n_positions:
+    value: 1024
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 3
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/GPT2/babylm_reverse_full_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: reverse_full
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+reorder_and_upcast_attn:
+    value: false
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+resid_pdrop:
+    value: 0.1
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+run_name:
+    value: ./checkpoints/GPT2/babylm_reverse_full_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+scale_attn_by_inverse_layer_idx:
+    value: false
+scale_attn_weights:
+    value: true
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+summary_activation:
+    value: null
+summary_first_dropout:
+    value: 0.1
+summary_proj_to_labels:
+    value: true
+summary_type:
+    value: cls_index
+summary_use_proj:
+    value: true
+suppress_tokens:
+    value: null
+task_specific_params:
+    value:
+        text-generation:
+            do_sample: true
+            max_length: 50
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: null
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 50257
+warmup_ratio:
+    value: 0.1
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241130_000215-17dv9j80/files/output.log b/wandb/run-20241130_000215-17dv9j80/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..aa3e463b9362a5e5a527de1f9e9581e445ec2509
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/files/output.log
@@ -0,0 +1,3229 @@
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:34<00:00, 530.15 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-30 00:02:51,675] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-30 00:02:54,839] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-30 00:02:54,840] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 2.588865280151367 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                                                                                                                                                   
+{'loss': 4.8965, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.8874, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9421, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9245, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9212, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9089, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.8587, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9277, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9186, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9121, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                                                                                                                                                   
+{'eval_loss': 4.68359375, 'eval_runtime': 4.1062, 'eval_samples_per_second': 243.537, 'eval_steps_per_second': 10.229, 'epoch': 0.01}
+{'loss': 4.931, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.8971, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9733, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9108, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9486, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8685, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8717, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.9141, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8379, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8984, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'eval_loss': 4.68359375, 'eval_runtime': 4.1208, 'eval_samples_per_second': 242.671, 'eval_steps_per_second': 10.192, 'epoch': 0.02}
+{'loss': 4.9427, 'grad_norm': 30.16912269592285, 'learning_rate': 1.7123287671232876e-08, 'epoch': 0.02}
+{'loss': 4.9284, 'grad_norm': 28.59295654296875, 'learning_rate': 3.424657534246575e-08, 'epoch': 0.02}
+{'loss': 4.8685, 'grad_norm': 29.37101173400879, 'learning_rate': 5.136986301369863e-08, 'epoch': 0.02}
+{'loss': 4.8926, 'grad_norm': 28.423633575439453, 'learning_rate': 6.84931506849315e-08, 'epoch': 0.02}
+{'loss': 4.901, 'grad_norm': 29.825456619262695, 'learning_rate': 8.561643835616439e-08, 'epoch': 0.03}
+{'loss': 4.8965, 'grad_norm': 29.393815994262695, 'learning_rate': 1.0273972602739726e-07, 'epoch': 0.03}
+{'loss': 4.8802, 'grad_norm': 29.393815994262695, 'learning_rate': 1.0273972602739726e-07, 'epoch': 0.03}
+{'loss': 4.9043, 'grad_norm': 28.9859676361084, 'learning_rate': 1.1986301369863014e-07, 'epoch': 0.03}
+{'loss': 4.9277, 'grad_norm': 29.083433151245117, 'learning_rate': 1.36986301369863e-07, 'epoch': 0.03}
+{'loss': 4.9186, 'grad_norm': 28.765758514404297, 'learning_rate': 1.541095890410959e-07, 'epoch': 0.03}
+{'eval_loss': 4.68359375, 'eval_runtime': 4.1346, 'eval_samples_per_second': 241.863, 'eval_steps_per_second': 10.158, 'epoch': 0.03}
+{'loss': 4.8822, 'grad_norm': 29.022106170654297, 'learning_rate': 1.7123287671232878e-07, 'epoch': 0.03}
+{'loss': 4.918, 'grad_norm': 29.408340454101562, 'learning_rate': 1.8835616438356165e-07, 'epoch': 0.03}
+{'loss': 4.931, 'grad_norm': 29.43667221069336, 'learning_rate': 2.0547945205479452e-07, 'epoch': 0.03}
+{'loss': 4.8984, 'grad_norm': 29.85565948486328, 'learning_rate': 2.226027397260274e-07, 'epoch': 0.03}
+{'loss': 4.9043, 'grad_norm': 28.932682037353516, 'learning_rate': 2.397260273972603e-07, 'epoch': 0.04}
+{'loss': 4.8138, 'grad_norm': 29.196674346923828, 'learning_rate': 2.568493150684932e-07, 'epoch': 0.04}
+{'loss': 4.9414, 'grad_norm': 28.26259422302246, 'learning_rate': 2.73972602739726e-07, 'epoch': 0.04}
+{'loss': 4.8978, 'grad_norm': 29.001834869384766, 'learning_rate': 2.910958904109589e-07, 'epoch': 0.04}
+{'loss': 4.901, 'grad_norm': 28.73653221130371, 'learning_rate': 3.082191780821918e-07, 'epoch': 0.04}
+{'loss': 4.9173, 'grad_norm': 29.217676162719727, 'learning_rate': 3.2534246575342466e-07, 'epoch': 0.04}
+{'eval_loss': 4.68359375, 'eval_runtime': 4.1199, 'eval_samples_per_second': 242.723, 'eval_steps_per_second': 10.194, 'epoch': 0.04}
+{'loss': 4.8854, 'grad_norm': 28.081037521362305, 'learning_rate': 3.4246575342465755e-07, 'epoch': 0.04}
+{'loss': 4.8613, 'grad_norm': 29.70398712158203, 'learning_rate': 3.595890410958904e-07, 'epoch': 0.04}
+{'loss': 4.9368, 'grad_norm': 28.858152389526367, 'learning_rate': 3.767123287671233e-07, 'epoch': 0.04}
+{'loss': 4.877, 'grad_norm': 28.6164608001709, 'learning_rate': 3.938356164383562e-07, 'epoch': 0.05}
+{'loss': 4.8535, 'grad_norm': 29.167837142944336, 'learning_rate': 4.1095890410958903e-07, 'epoch': 0.05}
+{'loss': 4.8574, 'grad_norm': 28.699222564697266, 'learning_rate': 4.2808219178082193e-07, 'epoch': 0.05}
+{'loss': 4.8841, 'grad_norm': 28.24156379699707, 'learning_rate': 4.452054794520548e-07, 'epoch': 0.05}
+{'loss': 4.9108, 'grad_norm': 28.590009689331055, 'learning_rate': 4.6232876712328767e-07, 'epoch': 0.05}
+{'loss': 4.8763, 'grad_norm': 28.80278778076172, 'learning_rate': 4.794520547945206e-07, 'epoch': 0.05}
+{'loss': 4.8568, 'grad_norm': 28.784629821777344, 'learning_rate': 4.965753424657534e-07, 'epoch': 0.05}
+{'eval_loss': 4.6796875, 'eval_runtime': 4.1458, 'eval_samples_per_second': 241.209, 'eval_steps_per_second': 10.131, 'epoch': 0.05}
+{'loss': 4.8763, 'grad_norm': 29.524450302124023, 'learning_rate': 5.136986301369864e-07, 'epoch': 0.05}
+{'loss': 4.9173, 'grad_norm': 27.7666072845459, 'learning_rate': 5.308219178082192e-07, 'epoch': 0.05}
+{'loss': 4.8197, 'grad_norm': 27.628225326538086, 'learning_rate': 5.47945205479452e-07, 'epoch': 0.05}
+{'loss': 4.86, 'grad_norm': 27.49188232421875, 'learning_rate': 5.65068493150685e-07, 'epoch': 0.06}
+{'loss': 4.8574, 'grad_norm': 27.39209747314453, 'learning_rate': 5.821917808219178e-07, 'epoch': 0.06}
+{'loss': 4.8398, 'grad_norm': 27.31622886657715, 'learning_rate': 5.993150684931507e-07, 'epoch': 0.06}
+{'loss': 4.8418, 'grad_norm': 27.913440704345703, 'learning_rate': 6.164383561643836e-07, 'epoch': 0.06}
+{'loss': 4.8099, 'grad_norm': 27.46649742126465, 'learning_rate': 6.335616438356165e-07, 'epoch': 0.06}
+{'loss': 4.8926, 'grad_norm': 27.192646026611328, 'learning_rate': 6.506849315068493e-07, 'epoch': 0.06}
+{'loss': 4.8646, 'grad_norm': 27.239757537841797, 'learning_rate': 6.678082191780823e-07, 'epoch': 0.06}
+{'eval_loss': 4.671875, 'eval_runtime': 4.1276, 'eval_samples_per_second': 242.273, 'eval_steps_per_second': 10.175, 'epoch': 0.06}
+{'loss': 4.8301, 'grad_norm': 27.21328353881836, 'learning_rate': 6.849315068493151e-07, 'epoch': 0.06}
+{'loss': 4.8197, 'grad_norm': 28.09337615966797, 'learning_rate': 7.020547945205481e-07, 'epoch': 0.06}
+{'loss': 4.8633, 'grad_norm': 27.461557388305664, 'learning_rate': 7.191780821917808e-07, 'epoch': 0.06}
+{'loss': 4.8757, 'grad_norm': 27.043638229370117, 'learning_rate': 7.363013698630137e-07, 'epoch': 0.07}
+{'loss': 4.7565, 'grad_norm': 27.188438415527344, 'learning_rate': 7.534246575342466e-07, 'epoch': 0.07}
+{'loss': 4.7207, 'grad_norm': 25.18043327331543, 'learning_rate': 7.705479452054795e-07, 'epoch': 0.07}
+{'loss': 4.7637, 'grad_norm': 24.167320251464844, 'learning_rate': 7.876712328767124e-07, 'epoch': 0.07}
+{'loss': 4.7428, 'grad_norm': 24.536035537719727, 'learning_rate': 8.047945205479453e-07, 'epoch': 0.07}
+{'loss': 4.7598, 'grad_norm': 23.992860794067383, 'learning_rate': 8.219178082191781e-07, 'epoch': 0.07}
+{'loss': 4.7891, 'grad_norm': 23.296764373779297, 'learning_rate': 8.39041095890411e-07, 'epoch': 0.07}
+{'eval_loss': 4.66015625, 'eval_runtime': 4.1233, 'eval_samples_per_second': 242.522, 'eval_steps_per_second': 10.186, 'epoch': 0.07}
+{'loss': 4.7474, 'grad_norm': 23.912097930908203, 'learning_rate': 8.561643835616439e-07, 'epoch': 0.07}
+{'loss': 4.6842, 'grad_norm': 24.323015213012695, 'learning_rate': 8.732876712328768e-07, 'epoch': 0.07}
+{'loss': 4.7669, 'grad_norm': 23.89862060546875, 'learning_rate': 8.904109589041097e-07, 'epoch': 0.07}
+{'loss': 4.7826, 'grad_norm': 23.863611221313477, 'learning_rate': 9.075342465753426e-07, 'epoch': 0.08}
+{'loss': 4.7161, 'grad_norm': 24.182933807373047, 'learning_rate': 9.246575342465753e-07, 'epoch': 0.08}
+{'loss': 4.7409, 'grad_norm': 23.879119873046875, 'learning_rate': 9.417808219178083e-07, 'epoch': 0.08}
+{'loss': 4.7077, 'grad_norm': 23.962772369384766, 'learning_rate': 9.589041095890411e-07, 'epoch': 0.08}
+{'loss': 4.7871, 'grad_norm': 22.323827743530273, 'learning_rate': 9.76027397260274e-07, 'epoch': 0.08}
+{'loss': 4.6829, 'grad_norm': 23.46446418762207, 'learning_rate': 9.931506849315068e-07, 'epoch': 0.08}
+{'loss': 4.737, 'grad_norm': 22.89508056640625, 'learning_rate': 1.0102739726027399e-06, 'epoch': 0.08}
+{'eval_loss': 4.64453125, 'eval_runtime': 4.1622, 'eval_samples_per_second': 240.257, 'eval_steps_per_second': 10.091, 'epoch': 0.08}
+{'loss': 4.6602, 'grad_norm': 23.175701141357422, 'learning_rate': 1.0273972602739727e-06, 'epoch': 0.08}
+{'loss': 4.6445, 'grad_norm': 23.081178665161133, 'learning_rate': 1.0445205479452056e-06, 'epoch': 0.08}
+{'loss': 4.7116, 'grad_norm': 22.23419761657715, 'learning_rate': 1.0616438356164384e-06, 'epoch': 0.09}
+{'loss': 4.6745, 'grad_norm': 22.100217819213867, 'learning_rate': 1.0787671232876712e-06, 'epoch': 0.09}
+{'loss': 4.6504, 'grad_norm': 22.163944244384766, 'learning_rate': 1.095890410958904e-06, 'epoch': 0.09}
+{'loss': 4.6751, 'grad_norm': 21.48394012451172, 'learning_rate': 1.1130136986301371e-06, 'epoch': 0.09}
+{'loss': 4.5964, 'grad_norm': 19.960100173950195, 'learning_rate': 1.13013698630137e-06, 'epoch': 0.09}
+{'loss': 4.6074, 'grad_norm': 19.83652687072754, 'learning_rate': 1.1472602739726028e-06, 'epoch': 0.09}
+{'loss': 4.5833, 'grad_norm': 18.64439582824707, 'learning_rate': 1.1643835616438357e-06, 'epoch': 0.09}
+{'loss': 4.6048, 'grad_norm': 19.08234214782715, 'learning_rate': 1.1815068493150685e-06, 'epoch': 0.09}
+{'eval_loss': 4.59765625, 'eval_runtime': 4.1307, 'eval_samples_per_second': 242.091, 'eval_steps_per_second': 10.168, 'epoch': 0.09}
+{'loss': 4.5762, 'grad_norm': 18.67677116394043, 'learning_rate': 1.1986301369863014e-06, 'epoch': 0.09}
+{'loss': 4.5859, 'grad_norm': 18.444488525390625, 'learning_rate': 1.2157534246575344e-06, 'epoch': 0.09}
+{'loss': 4.5723, 'grad_norm': 18.354753494262695, 'learning_rate': 1.2328767123287673e-06, 'epoch': 0.1}
+{'loss': 4.6055, 'grad_norm': 19.007854461669922, 'learning_rate': 1.25e-06, 'epoch': 0.1}
+{'loss': 4.5801, 'grad_norm': 18.63313865661621, 'learning_rate': 1.267123287671233e-06, 'epoch': 0.1}
+{'loss': 4.5417, 'grad_norm': 18.622264862060547, 'learning_rate': 1.284246575342466e-06, 'epoch': 0.1}
+{'loss': 4.6042, 'grad_norm': 18.35482406616211, 'learning_rate': 1.3013698630136986e-06, 'epoch': 0.1}
+{'loss': 4.4889, 'grad_norm': 18.58621597290039, 'learning_rate': 1.3184931506849317e-06, 'epoch': 0.1}
+{'loss': 4.5443, 'grad_norm': 18.111108779907227, 'learning_rate': 1.3356164383561645e-06, 'epoch': 0.1}
+{'loss': 4.5371, 'grad_norm': 18.246448516845703, 'learning_rate': 1.3527397260273976e-06, 'epoch': 0.1}
+{'eval_loss': 4.5546875, 'eval_runtime': 4.134, 'eval_samples_per_second': 241.897, 'eval_steps_per_second': 10.16, 'epoch': 0.1}
+{'loss': 4.5612, 'grad_norm': 18.038116455078125, 'learning_rate': 1.3698630136986302e-06, 'epoch': 0.1}
+{'loss': 4.5462, 'grad_norm': 17.7731990814209, 'learning_rate': 1.386986301369863e-06, 'epoch': 0.1}
+{'loss': 4.4674, 'grad_norm': 18.295631408691406, 'learning_rate': 1.4041095890410961e-06, 'epoch': 0.11}
+{'loss': 4.5436, 'grad_norm': 18.19074249267578, 'learning_rate': 1.421232876712329e-06, 'epoch': 0.11}
+{'loss': 4.5195, 'grad_norm': 17.699708938598633, 'learning_rate': 1.4383561643835616e-06, 'epoch': 0.11}
+{'loss': 4.5273, 'grad_norm': 17.902395248413086, 'learning_rate': 1.4554794520547946e-06, 'epoch': 0.11}
+{'loss': 4.5345, 'grad_norm': 17.683364868164062, 'learning_rate': 1.4726027397260275e-06, 'epoch': 0.11}
+{'loss': 4.5521, 'grad_norm': 17.549537658691406, 'learning_rate': 1.4897260273972605e-06, 'epoch': 0.11}
+{'loss': 4.4323, 'grad_norm': 17.091402053833008, 'learning_rate': 1.5068493150684932e-06, 'epoch': 0.11}
+{'loss': 4.5397, 'grad_norm': 16.12431526184082, 'learning_rate': 1.5239726027397262e-06, 'epoch': 0.11}
+{'eval_loss': 4.4765625, 'eval_runtime': 4.1358, 'eval_samples_per_second': 241.794, 'eval_steps_per_second': 10.155, 'epoch': 0.11}
+{'loss': 4.4382, 'grad_norm': 17.101848602294922, 'learning_rate': 1.541095890410959e-06, 'epoch': 0.11}
+{'loss': 4.5143, 'grad_norm': 16.901782989501953, 'learning_rate': 1.5582191780821921e-06, 'epoch': 0.12}
+{'loss': 4.4128, 'grad_norm': 17.06763458251953, 'learning_rate': 1.5753424657534248e-06, 'epoch': 0.12}
+{'loss': 4.4766, 'grad_norm': 16.444059371948242, 'learning_rate': 1.5924657534246576e-06, 'epoch': 0.12}
+{'loss': 4.3926, 'grad_norm': 16.35099983215332, 'learning_rate': 1.6095890410958907e-06, 'epoch': 0.12}
+{'loss': 4.526, 'grad_norm': 15.998469352722168, 'learning_rate': 1.6267123287671235e-06, 'epoch': 0.12}
+{'loss': 4.4622, 'grad_norm': 15.560609817504883, 'learning_rate': 1.6438356164383561e-06, 'epoch': 0.12}
+{'loss': 4.4121, 'grad_norm': 15.555099487304688, 'learning_rate': 1.6609589041095892e-06, 'epoch': 0.12}
+{'loss': 4.4264, 'grad_norm': 15.503929138183594, 'learning_rate': 1.678082191780822e-06, 'epoch': 0.12}
+{'loss': 4.474, 'grad_norm': 15.720124244689941, 'learning_rate': 1.695205479452055e-06, 'epoch': 0.12}
+{'eval_loss': 4.42578125, 'eval_runtime': 4.1223, 'eval_samples_per_second': 242.585, 'eval_steps_per_second': 10.189, 'epoch': 0.12}
+{'loss': 4.4785, 'grad_norm': 14.989177703857422, 'learning_rate': 1.7123287671232877e-06, 'epoch': 0.12}
+{'loss': 4.4102, 'grad_norm': 14.74954891204834, 'learning_rate': 1.7294520547945206e-06, 'epoch': 0.13}
+{'loss': 4.36, 'grad_norm': 14.84698486328125, 'learning_rate': 1.7465753424657536e-06, 'epoch': 0.13}
+{'loss': 4.3535, 'grad_norm': 14.358044624328613, 'learning_rate': 1.7636986301369865e-06, 'epoch': 0.13}
+{'loss': 4.3861, 'grad_norm': 14.444458961486816, 'learning_rate': 1.7808219178082193e-06, 'epoch': 0.13}
+{'loss': 4.4173, 'grad_norm': 13.993863105773926, 'learning_rate': 1.7979452054794521e-06, 'epoch': 0.13}
+{'loss': 4.3783, 'grad_norm': 14.15036392211914, 'learning_rate': 1.8150684931506852e-06, 'epoch': 0.13}
+{'loss': 4.3978, 'grad_norm': 14.485227584838867, 'learning_rate': 1.832191780821918e-06, 'epoch': 0.13}
+{'loss': 4.3763, 'grad_norm': 13.377803802490234, 'learning_rate': 1.8493150684931507e-06, 'epoch': 0.13}
+{'loss': 4.4049, 'grad_norm': 14.080109596252441, 'learning_rate': 1.8664383561643837e-06, 'epoch': 0.13}
+{'eval_loss': 4.38671875, 'eval_runtime': 4.1625, 'eval_samples_per_second': 240.239, 'eval_steps_per_second': 10.09, 'epoch': 0.13}
+{'loss': 4.3698, 'grad_norm': 13.884775161743164, 'learning_rate': 1.8835616438356166e-06, 'epoch': 0.13}
+{'loss': 4.4336, 'grad_norm': 13.835641860961914, 'learning_rate': 1.9006849315068496e-06, 'epoch': 0.14}
+{'loss': 4.4238, 'grad_norm': 13.117879867553711, 'learning_rate': 1.9178082191780823e-06, 'epoch': 0.14}
+{'loss': 4.3418, 'grad_norm': 13.131446838378906, 'learning_rate': 1.9349315068493153e-06, 'epoch': 0.14}
+{'loss': 4.3926, 'grad_norm': 14.01999282836914, 'learning_rate': 1.952054794520548e-06, 'epoch': 0.14}
+{'loss': 4.3438, 'grad_norm': 13.264242172241211, 'learning_rate': 1.969178082191781e-06, 'epoch': 0.14}
+{'loss': 4.2721, 'grad_norm': 13.304494857788086, 'learning_rate': 1.9863013698630136e-06, 'epoch': 0.14}
+{'loss': 4.4447, 'grad_norm': 13.446965217590332, 'learning_rate': 2.0034246575342467e-06, 'epoch': 0.14}
+{'loss': 4.306, 'grad_norm': 13.120650291442871, 'learning_rate': 2.0205479452054797e-06, 'epoch': 0.14}
+{'loss': 4.3548, 'grad_norm': 13.046858787536621, 'learning_rate': 2.037671232876713e-06, 'epoch': 0.14}
+{'eval_loss': 4.35546875, 'eval_runtime': 4.1383, 'eval_samples_per_second': 241.646, 'eval_steps_per_second': 10.149, 'epoch': 0.14}
+{'loss': 4.276, 'grad_norm': 13.194605827331543, 'learning_rate': 2.0547945205479454e-06, 'epoch': 0.14}
+{'loss': 4.2962, 'grad_norm': 12.112948417663574, 'learning_rate': 2.071917808219178e-06, 'epoch': 0.15}
+{'loss': 4.4173, 'grad_norm': 13.06917953491211, 'learning_rate': 2.089041095890411e-06, 'epoch': 0.15}
+{'loss': 4.3086, 'grad_norm': 12.025338172912598, 'learning_rate': 2.106164383561644e-06, 'epoch': 0.15}
+{'loss': 4.2656, 'grad_norm': 12.244928359985352, 'learning_rate': 2.123287671232877e-06, 'epoch': 0.15}
+{'loss': 4.2917, 'grad_norm': 12.087234497070312, 'learning_rate': 2.14041095890411e-06, 'epoch': 0.15}
+{'loss': 4.2806, 'grad_norm': 11.852676391601562, 'learning_rate': 2.1575342465753425e-06, 'epoch': 0.15}
+{'loss': 4.3053, 'grad_norm': 12.458406448364258, 'learning_rate': 2.1746575342465755e-06, 'epoch': 0.15}
+{'loss': 4.3659, 'grad_norm': 12.383668899536133, 'learning_rate': 2.191780821917808e-06, 'epoch': 0.15}
+{'loss': 4.2845, 'grad_norm': 11.715237617492676, 'learning_rate': 2.2089041095890412e-06, 'epoch': 0.15}
+{'eval_loss': 4.31640625, 'eval_runtime': 4.1328, 'eval_samples_per_second': 241.966, 'eval_steps_per_second': 10.163, 'epoch': 0.15}
+{'loss': 4.1797, 'grad_norm': 11.133694648742676, 'learning_rate': 2.2260273972602743e-06, 'epoch': 0.16}
+{'loss': 4.2832, 'grad_norm': 11.584345817565918, 'learning_rate': 2.243150684931507e-06, 'epoch': 0.16}
+{'loss': 4.3151, 'grad_norm': 11.65048885345459, 'learning_rate': 2.26027397260274e-06, 'epoch': 0.16}
+{'loss': 4.2728, 'grad_norm': 11.939409255981445, 'learning_rate': 2.2773972602739726e-06, 'epoch': 0.16}
+{'loss': 4.2559, 'grad_norm': 11.664063453674316, 'learning_rate': 2.2945205479452057e-06, 'epoch': 0.16}
+{'loss': 4.1807, 'grad_norm': 11.734474182128906, 'learning_rate': 2.3116438356164387e-06, 'epoch': 0.16}
+{'loss': 4.3444, 'grad_norm': 11.6502685546875, 'learning_rate': 2.3287671232876713e-06, 'epoch': 0.16}
+{'loss': 4.3223, 'grad_norm': 11.856484413146973, 'learning_rate': 2.3458904109589044e-06, 'epoch': 0.16}
+{'loss': 4.2689, 'grad_norm': 11.322278022766113, 'learning_rate': 2.363013698630137e-06, 'epoch': 0.16}
+{'loss': 4.2793, 'grad_norm': 11.690977096557617, 'learning_rate': 2.38013698630137e-06, 'epoch': 0.16}
+{'eval_loss': 4.28125, 'eval_runtime': 4.1682, 'eval_samples_per_second': 239.911, 'eval_steps_per_second': 10.076, 'epoch': 0.16}
+{'loss': 4.2318, 'grad_norm': 11.293115615844727, 'learning_rate': 2.3972602739726027e-06, 'epoch': 0.17}
+{'loss': 4.2624, 'grad_norm': 10.597649574279785, 'learning_rate': 2.4143835616438358e-06, 'epoch': 0.17}
+{'loss': 4.2363, 'grad_norm': 11.04495906829834, 'learning_rate': 2.431506849315069e-06, 'epoch': 0.17}
+{'loss': 4.2357, 'grad_norm': 10.39896011352539, 'learning_rate': 2.4486301369863015e-06, 'epoch': 0.17}
+{'loss': 4.2324, 'grad_norm': 9.928808212280273, 'learning_rate': 2.4657534246575345e-06, 'epoch': 0.17}
+{'loss': 4.2741, 'grad_norm': 10.755949020385742, 'learning_rate': 2.482876712328767e-06, 'epoch': 0.17}
+{'loss': 4.1751, 'grad_norm': 9.508179664611816, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 4.2415, 'grad_norm': 10.022868156433105, 'learning_rate': 2.5171232876712333e-06, 'epoch': 0.17}
+{'loss': 4.2923, 'grad_norm': 10.105929374694824, 'learning_rate': 2.534246575342466e-06, 'epoch': 0.17}
+{'loss': 4.2878, 'grad_norm': 10.555767059326172, 'learning_rate': 2.551369863013699e-06, 'epoch': 0.17}
+{'eval_loss': 4.25, 'eval_runtime': 4.146, 'eval_samples_per_second': 241.195, 'eval_steps_per_second': 10.13, 'epoch': 0.17}
+{'loss': 4.2161, 'grad_norm': 9.456923484802246, 'learning_rate': 2.568493150684932e-06, 'epoch': 0.18}
+{'loss': 4.1628, 'grad_norm': 10.50710391998291, 'learning_rate': 2.585616438356164e-06, 'epoch': 0.18}
+{'loss': 4.2279, 'grad_norm': 9.807251930236816, 'learning_rate': 2.6027397260273973e-06, 'epoch': 0.18}
+{'loss': 4.1471, 'grad_norm': 9.74703311920166, 'learning_rate': 2.6198630136986303e-06, 'epoch': 0.18}
+{'loss': 4.2676, 'grad_norm': 9.387231826782227, 'learning_rate': 2.6369863013698634e-06, 'epoch': 0.18}
+{'loss': 4.2383, 'grad_norm': 9.643336296081543, 'learning_rate': 2.654109589041096e-06, 'epoch': 0.18}
+{'loss': 4.1602, 'grad_norm': 10.263619422912598, 'learning_rate': 2.671232876712329e-06, 'epoch': 0.18}
+{'loss': 4.2721, 'grad_norm': 10.200366973876953, 'learning_rate': 2.688356164383562e-06, 'epoch': 0.18}
+{'loss': 4.1172, 'grad_norm': 9.883759498596191, 'learning_rate': 2.705479452054795e-06, 'epoch': 0.18}
+{'loss': 4.2988, 'grad_norm': 9.842406272888184, 'learning_rate': 2.7226027397260274e-06, 'epoch': 0.18}
+{'eval_loss': 4.21875, 'eval_runtime': 4.1374, 'eval_samples_per_second': 241.698, 'eval_steps_per_second': 10.151, 'epoch': 0.18}
+{'loss': 4.2363, 'grad_norm': 9.587005615234375, 'learning_rate': 2.7397260273972604e-06, 'epoch': 0.19}
+{'loss': 4.2376, 'grad_norm': 9.50483226776123, 'learning_rate': 2.7568493150684935e-06, 'epoch': 0.19}
+{'loss': 4.2454, 'grad_norm': 10.415629386901855, 'learning_rate': 2.773972602739726e-06, 'epoch': 0.19}
+{'loss': 4.1289, 'grad_norm': 9.242981910705566, 'learning_rate': 2.791095890410959e-06, 'epoch': 0.19}
+{'loss': 4.1387, 'grad_norm': 9.645852088928223, 'learning_rate': 2.8082191780821922e-06, 'epoch': 0.19}
+{'loss': 4.1403, 'grad_norm': 8.961231231689453, 'learning_rate': 2.8253424657534253e-06, 'epoch': 0.19}
+{'loss': 4.1514, 'grad_norm': 9.79644775390625, 'learning_rate': 2.842465753424658e-06, 'epoch': 0.19}
+{'loss': 4.1641, 'grad_norm': 9.369246482849121, 'learning_rate': 2.8595890410958905e-06, 'epoch': 0.19}
+{'loss': 4.1868, 'grad_norm': 9.61331558227539, 'learning_rate': 2.876712328767123e-06, 'epoch': 0.19}
+{'loss': 4.1432, 'grad_norm': 9.08060073852539, 'learning_rate': 2.8938356164383562e-06, 'epoch': 0.2}
+{'eval_loss': 4.1953125, 'eval_runtime': 4.1691, 'eval_samples_per_second': 239.86, 'eval_steps_per_second': 10.074, 'epoch': 0.2}
+{'loss': 4.1917, 'grad_norm': 8.620512962341309, 'learning_rate': 2.9109589041095893e-06, 'epoch': 0.2}
+{'loss': 4.1595, 'grad_norm': 8.493586540222168, 'learning_rate': 2.9280821917808223e-06, 'epoch': 0.2}
+{'loss': 4.1393, 'grad_norm': 8.612478256225586, 'learning_rate': 2.945205479452055e-06, 'epoch': 0.2}
+{'loss': 4.1283, 'grad_norm': 8.767659187316895, 'learning_rate': 2.962328767123288e-06, 'epoch': 0.2}
+{'loss': 4.1117, 'grad_norm': 8.23145580291748, 'learning_rate': 2.979452054794521e-06, 'epoch': 0.2}
+{'loss': 4.11, 'grad_norm': 8.652944564819336, 'learning_rate': 2.9965753424657533e-06, 'epoch': 0.2}
+{'loss': 4.1292, 'grad_norm': 8.409905433654785, 'learning_rate': 3.0136986301369864e-06, 'epoch': 0.2}
+{'loss': 4.1211, 'grad_norm': 8.760334968566895, 'learning_rate': 3.0308219178082194e-06, 'epoch': 0.2}
+{'loss': 4.1849, 'grad_norm': 8.793366432189941, 'learning_rate': 3.0479452054794525e-06, 'epoch': 0.2}
+{'loss': 4.0592, 'grad_norm': 8.562535285949707, 'learning_rate': 3.065068493150685e-06, 'epoch': 0.21}
+{'eval_loss': 4.171875, 'eval_runtime': 4.1366, 'eval_samples_per_second': 241.744, 'eval_steps_per_second': 10.153, 'epoch': 0.21}
+{'loss': 4.0423, 'grad_norm': 8.196942329406738, 'learning_rate': 3.082191780821918e-06, 'epoch': 0.21}
+{'loss': 4.0371, 'grad_norm': 7.889317512512207, 'learning_rate': 3.099315068493151e-06, 'epoch': 0.21}
+{'loss': 4.0589, 'grad_norm': 8.561248779296875, 'learning_rate': 3.1164383561643843e-06, 'epoch': 0.21}
+{'loss': 4.0426, 'grad_norm': 8.337886810302734, 'learning_rate': 3.1335616438356165e-06, 'epoch': 0.21}
+{'loss': 3.9941, 'grad_norm': 7.96150541305542, 'learning_rate': 3.1506849315068495e-06, 'epoch': 0.21}
+{'loss': 4.0778, 'grad_norm': 8.447320938110352, 'learning_rate': 3.167808219178082e-06, 'epoch': 0.21}
+{'loss': 4.1016, 'grad_norm': 7.828139781951904, 'learning_rate': 3.184931506849315e-06, 'epoch': 0.21}
+{'loss': 4.0576, 'grad_norm': 7.91950798034668, 'learning_rate': 3.2020547945205483e-06, 'epoch': 0.21}
+{'loss': 4.0739, 'grad_norm': 8.642852783203125, 'learning_rate': 3.2191780821917813e-06, 'epoch': 0.21}
+{'loss': 4.0944, 'grad_norm': 8.33453369140625, 'learning_rate': 3.236301369863014e-06, 'epoch': 0.22}
+{'eval_loss': 4.14453125, 'eval_runtime': 4.1492, 'eval_samples_per_second': 241.012, 'eval_steps_per_second': 10.122, 'epoch': 0.22}
+{'loss': 4.1445, 'grad_norm': 7.90278434753418, 'learning_rate': 3.253424657534247e-06, 'epoch': 0.22}
+{'loss': 4.152, 'grad_norm': 8.006811141967773, 'learning_rate': 3.2705479452054796e-06, 'epoch': 0.22}
+{'loss': 4.0918, 'grad_norm': 8.486872673034668, 'learning_rate': 3.2876712328767123e-06, 'epoch': 0.22}
+{'loss': 4.1602, 'grad_norm': 7.889510154724121, 'learning_rate': 3.3047945205479453e-06, 'epoch': 0.22}
+{'loss': 4.016, 'grad_norm': 8.157393455505371, 'learning_rate': 3.3219178082191784e-06, 'epoch': 0.22}
+{'loss': 4.0866, 'grad_norm': 7.8345842361450195, 'learning_rate': 3.3390410958904114e-06, 'epoch': 0.22}
+{'loss': 4.0824, 'grad_norm': 7.384395599365234, 'learning_rate': 3.356164383561644e-06, 'epoch': 0.22}
+{'loss': 4.0801, 'grad_norm': 7.450700759887695, 'learning_rate': 3.373287671232877e-06, 'epoch': 0.22}
+{'loss': 4.0785, 'grad_norm': 7.184561252593994, 'learning_rate': 3.39041095890411e-06, 'epoch': 0.22}
+{'loss': 4.0983, 'grad_norm': 7.710848808288574, 'learning_rate': 3.4075342465753424e-06, 'epoch': 0.23}
+{'eval_loss': 4.125, 'eval_runtime': 4.1366, 'eval_samples_per_second': 241.744, 'eval_steps_per_second': 10.153, 'epoch': 0.23}
+{'loss': 4.0498, 'grad_norm': 7.679266929626465, 'learning_rate': 3.4246575342465754e-06, 'epoch': 0.23}
+{'loss': 4.0798, 'grad_norm': 7.396859645843506, 'learning_rate': 3.4417808219178085e-06, 'epoch': 0.23}
+{'loss': 4.0371, 'grad_norm': 8.06267261505127, 'learning_rate': 3.458904109589041e-06, 'epoch': 0.23}
+{'loss': 4.111, 'grad_norm': 7.807827472686768, 'learning_rate': 3.476027397260274e-06, 'epoch': 0.23}
+{'loss': 4.098, 'grad_norm': 7.338776111602783, 'learning_rate': 3.4931506849315072e-06, 'epoch': 0.23}
+{'loss': 4.0368, 'grad_norm': 7.337118148803711, 'learning_rate': 3.5102739726027403e-06, 'epoch': 0.23}
+{'loss': 4.0775, 'grad_norm': 7.35460901260376, 'learning_rate': 3.527397260273973e-06, 'epoch': 0.23}
+{'loss': 4.0628, 'grad_norm': 7.588443756103516, 'learning_rate': 3.5445205479452056e-06, 'epoch': 0.23}
+{'loss': 4.0921, 'grad_norm': 7.283291339874268, 'learning_rate': 3.5616438356164386e-06, 'epoch': 0.24}
+{'loss': 4.0169, 'grad_norm': 7.951315879821777, 'learning_rate': 3.5787671232876712e-06, 'epoch': 0.24}
+{'eval_loss': 4.1015625, 'eval_runtime': 4.1361, 'eval_samples_per_second': 241.773, 'eval_steps_per_second': 10.154, 'epoch': 0.24}
+{'loss': 4.0885, 'grad_norm': 6.982937335968018, 'learning_rate': 3.5958904109589043e-06, 'epoch': 0.24}
+{'loss': 4.001, 'grad_norm': 7.253655433654785, 'learning_rate': 3.6130136986301373e-06, 'epoch': 0.24}
+{'loss': 4.098, 'grad_norm': 6.960956573486328, 'learning_rate': 3.6301369863013704e-06, 'epoch': 0.24}
+{'loss': 4.0202, 'grad_norm': 6.784556865692139, 'learning_rate': 3.647260273972603e-06, 'epoch': 0.24}
+{'loss': 4.0824, 'grad_norm': 6.773897647857666, 'learning_rate': 3.664383561643836e-06, 'epoch': 0.24}
+{'loss': 4.0902, 'grad_norm': 7.073527812957764, 'learning_rate': 3.6815068493150687e-06, 'epoch': 0.24}
+{'loss': 3.9954, 'grad_norm': 7.669946670532227, 'learning_rate': 3.6986301369863014e-06, 'epoch': 0.24}
+{'loss': 4.0456, 'grad_norm': 6.824738502502441, 'learning_rate': 3.7157534246575344e-06, 'epoch': 0.24}
+{'loss': 3.9782, 'grad_norm': 7.616833686828613, 'learning_rate': 3.7328767123287675e-06, 'epoch': 0.25}
+{'loss': 4.0078, 'grad_norm': 7.397879600524902, 'learning_rate': 3.7500000000000005e-06, 'epoch': 0.25}
+{'eval_loss': 4.07421875, 'eval_runtime': 4.1698, 'eval_samples_per_second': 239.821, 'eval_steps_per_second': 10.072, 'epoch': 0.25}
+{'loss': 4.0352, 'grad_norm': 7.591618537902832, 'learning_rate': 3.767123287671233e-06, 'epoch': 0.25}
+{'loss': 4.0137, 'grad_norm': 6.374880790710449, 'learning_rate': 3.784246575342466e-06, 'epoch': 0.25}
+{'loss': 4.0296, 'grad_norm': 6.960234642028809, 'learning_rate': 3.8013698630136993e-06, 'epoch': 0.25}
+{'loss': 3.9935, 'grad_norm': 6.779566764831543, 'learning_rate': 3.818493150684932e-06, 'epoch': 0.25}
+{'loss': 3.974, 'grad_norm': 6.612168788909912, 'learning_rate': 3.8356164383561645e-06, 'epoch': 0.25}
+{'loss': 3.9964, 'grad_norm': 6.657203197479248, 'learning_rate': 3.852739726027397e-06, 'epoch': 0.25}
+{'loss': 4.0439, 'grad_norm': 6.276165008544922, 'learning_rate': 3.869863013698631e-06, 'epoch': 0.25}
+{'loss': 3.9782, 'grad_norm': 5.882382392883301, 'learning_rate': 3.886986301369863e-06, 'epoch': 0.25}
+{'loss': 4.0316, 'grad_norm': 6.11745023727417, 'learning_rate': 3.904109589041096e-06, 'epoch': 0.26}
+{'loss': 3.9915, 'grad_norm': 6.5392656326293945, 'learning_rate': 3.921232876712329e-06, 'epoch': 0.26}
+{'eval_loss': 4.0546875, 'eval_runtime': 4.1343, 'eval_samples_per_second': 241.88, 'eval_steps_per_second': 10.159, 'epoch': 0.26}
+{'loss': 3.9385, 'grad_norm': 6.206476211547852, 'learning_rate': 3.938356164383562e-06, 'epoch': 0.26}
+{'loss': 3.9785, 'grad_norm': 6.090269565582275, 'learning_rate': 3.9554794520547955e-06, 'epoch': 0.26}
+{'loss': 4.0117, 'grad_norm': 7.20045280456543, 'learning_rate': 3.972602739726027e-06, 'epoch': 0.26}
+{'loss': 4.0501, 'grad_norm': 6.169981956481934, 'learning_rate': 3.989726027397261e-06, 'epoch': 0.26}
+{'loss': 3.9398, 'grad_norm': 6.894737243652344, 'learning_rate': 4.006849315068493e-06, 'epoch': 0.26}
+{'loss': 4.0169, 'grad_norm': 5.912604331970215, 'learning_rate': 4.023972602739726e-06, 'epoch': 0.26}
+{'loss': 4.0094, 'grad_norm': 5.764235973358154, 'learning_rate': 4.0410958904109595e-06, 'epoch': 0.26}
+{'loss': 4.0335, 'grad_norm': 6.38284158706665, 'learning_rate': 4.058219178082192e-06, 'epoch': 0.27}
+{'loss': 4.0091, 'grad_norm': 6.09063720703125, 'learning_rate': 4.075342465753426e-06, 'epoch': 0.27}
+{'loss': 3.9352, 'grad_norm': 6.499085426330566, 'learning_rate': 4.092465753424658e-06, 'epoch': 0.27}
+{'eval_loss': 4.03515625, 'eval_runtime': 4.1487, 'eval_samples_per_second': 241.041, 'eval_steps_per_second': 10.124, 'epoch': 0.27}
+{'loss': 3.9456, 'grad_norm': 6.140304088592529, 'learning_rate': 4.109589041095891e-06, 'epoch': 0.27}
+{'loss': 3.9626, 'grad_norm': 6.659559726715088, 'learning_rate': 4.1267123287671235e-06, 'epoch': 0.27}
+{'loss': 3.9723, 'grad_norm': 6.473063945770264, 'learning_rate': 4.143835616438356e-06, 'epoch': 0.27}
+{'loss': 3.973, 'grad_norm': 6.217690944671631, 'learning_rate': 4.16095890410959e-06, 'epoch': 0.27}
+{'loss': 3.9128, 'grad_norm': 6.568310260772705, 'learning_rate': 4.178082191780822e-06, 'epoch': 0.27}
+{'loss': 4.0433, 'grad_norm': 6.157414436340332, 'learning_rate': 4.195205479452055e-06, 'epoch': 0.27}
+{'loss': 3.9294, 'grad_norm': 6.064939498901367, 'learning_rate': 4.212328767123288e-06, 'epoch': 0.27}
+{'loss': 3.9893, 'grad_norm': 5.4238104820251465, 'learning_rate': 4.229452054794521e-06, 'epoch': 0.28}
+{'loss': 3.9515, 'grad_norm': 5.336057186126709, 'learning_rate': 4.246575342465754e-06, 'epoch': 0.28}
+{'loss': 3.9352, 'grad_norm': 5.595287799835205, 'learning_rate': 4.263698630136986e-06, 'epoch': 0.28}
+{'eval_loss': 4.015625, 'eval_runtime': 4.1527, 'eval_samples_per_second': 240.806, 'eval_steps_per_second': 10.114, 'epoch': 0.28}
+{'loss': 3.9567, 'grad_norm': 5.319255352020264, 'learning_rate': 4.28082191780822e-06, 'epoch': 0.28}
+{'loss': 3.9753, 'grad_norm': 5.77924108505249, 'learning_rate': 4.297945205479452e-06, 'epoch': 0.28}
+{'loss': 3.973, 'grad_norm': 5.911022663116455, 'learning_rate': 4.315068493150685e-06, 'epoch': 0.28}
+{'loss': 3.9219, 'grad_norm': 5.734246730804443, 'learning_rate': 4.3321917808219185e-06, 'epoch': 0.28}
+{'loss': 3.9294, 'grad_norm': 6.58404541015625, 'learning_rate': 4.349315068493151e-06, 'epoch': 0.28}
+{'loss': 3.9378, 'grad_norm': 6.353537082672119, 'learning_rate': 4.3664383561643846e-06, 'epoch': 0.28}
+{'loss': 3.9857, 'grad_norm': 6.257997989654541, 'learning_rate': 4.383561643835616e-06, 'epoch': 0.28}
+{'loss': 3.9609, 'grad_norm': 6.178806304931641, 'learning_rate': 4.40068493150685e-06, 'epoch': 0.29}
+{'loss': 3.8581, 'grad_norm': 5.626409530639648, 'learning_rate': 4.4178082191780825e-06, 'epoch': 0.29}
+{'loss': 3.9225, 'grad_norm': 5.974967002868652, 'learning_rate': 4.434931506849315e-06, 'epoch': 0.29}
+{'eval_loss': 3.998046875, 'eval_runtime': 4.1385, 'eval_samples_per_second': 241.634, 'eval_steps_per_second': 10.149, 'epoch': 0.29}
+{'loss': 3.9502, 'grad_norm': 5.211088180541992, 'learning_rate': 4.4520547945205486e-06, 'epoch': 0.29}
+{'loss': 3.9626, 'grad_norm': 5.593132495880127, 'learning_rate': 4.469178082191781e-06, 'epoch': 0.29}
+{'loss': 3.9583, 'grad_norm': 5.038020133972168, 'learning_rate': 4.486301369863014e-06, 'epoch': 0.29}
+{'loss': 3.8626, 'grad_norm': 5.281350612640381, 'learning_rate': 4.503424657534247e-06, 'epoch': 0.29}
+{'loss': 3.8838, 'grad_norm': 5.458635330200195, 'learning_rate': 4.52054794520548e-06, 'epoch': 0.29}
+{'loss': 3.9342, 'grad_norm': 5.40903377532959, 'learning_rate': 4.537671232876713e-06, 'epoch': 0.29}
+{'loss': 3.9329, 'grad_norm': 4.869696617126465, 'learning_rate': 4.554794520547945e-06, 'epoch': 0.29}
+{'loss': 3.9251, 'grad_norm': 5.256195545196533, 'learning_rate': 4.571917808219179e-06, 'epoch': 0.3}
+{'loss': 3.8743, 'grad_norm': 5.779631614685059, 'learning_rate': 4.589041095890411e-06, 'epoch': 0.3}
+{'loss': 3.9079, 'grad_norm': 5.470967769622803, 'learning_rate': 4.606164383561644e-06, 'epoch': 0.3}
+{'eval_loss': 3.982421875, 'eval_runtime': 4.1519, 'eval_samples_per_second': 240.852, 'eval_steps_per_second': 10.116, 'epoch': 0.3}
+{'loss': 3.9183, 'grad_norm': 5.507876396179199, 'learning_rate': 4.6232876712328774e-06, 'epoch': 0.3}
+{'loss': 3.9297, 'grad_norm': 4.4915032386779785, 'learning_rate': 4.64041095890411e-06, 'epoch': 0.3}
+{'loss': 3.9336, 'grad_norm': 4.973710536956787, 'learning_rate': 4.657534246575343e-06, 'epoch': 0.3}
+{'loss': 3.8913, 'grad_norm': 5.517408847808838, 'learning_rate': 4.674657534246575e-06, 'epoch': 0.3}
+{'loss': 3.8451, 'grad_norm': 5.916828155517578, 'learning_rate': 4.691780821917809e-06, 'epoch': 0.3}
+{'loss': 3.8763, 'grad_norm': 5.783418655395508, 'learning_rate': 4.7089041095890414e-06, 'epoch': 0.3}
+{'loss': 3.8428, 'grad_norm': 5.192783832550049, 'learning_rate': 4.726027397260274e-06, 'epoch': 0.31}
+{'loss': 3.8893, 'grad_norm': 5.042906761169434, 'learning_rate': 4.7431506849315075e-06, 'epoch': 0.31}
+{'loss': 3.8789, 'grad_norm': 5.250149726867676, 'learning_rate': 4.76027397260274e-06, 'epoch': 0.31}
+{'loss': 3.82, 'grad_norm': 5.194881916046143, 'learning_rate': 4.777397260273973e-06, 'epoch': 0.31}
+{'eval_loss': 3.96875, 'eval_runtime': 4.1471, 'eval_samples_per_second': 241.132, 'eval_steps_per_second': 10.128, 'epoch': 0.31}
+{'loss': 3.862, 'grad_norm': 4.694105625152588, 'learning_rate': 4.7945205479452054e-06, 'epoch': 0.31}
+{'loss': 3.9043, 'grad_norm': 4.866695880889893, 'learning_rate': 4.811643835616439e-06, 'epoch': 0.31}
+{'loss': 3.903, 'grad_norm': 4.576431751251221, 'learning_rate': 4.8287671232876716e-06, 'epoch': 0.31}
+{'loss': 3.903, 'grad_norm': 4.538954257965088, 'learning_rate': 4.845890410958904e-06, 'epoch': 0.31}
+{'loss': 3.929, 'grad_norm': 4.409848213195801, 'learning_rate': 4.863013698630138e-06, 'epoch': 0.31}
+{'loss': 3.8483, 'grad_norm': 5.081052303314209, 'learning_rate': 4.88013698630137e-06, 'epoch': 0.31}
+{'loss': 3.8372, 'grad_norm': 5.138649940490723, 'learning_rate': 4.897260273972603e-06, 'epoch': 0.32}
+{'loss': 3.8444, 'grad_norm': 5.35964822769165, 'learning_rate': 4.914383561643836e-06, 'epoch': 0.32}
+{'loss': 3.9368, 'grad_norm': 5.844059467315674, 'learning_rate': 4.931506849315069e-06, 'epoch': 0.32}
+{'loss': 3.763, 'grad_norm': 5.457741737365723, 'learning_rate': 4.948630136986302e-06, 'epoch': 0.32}
+{'eval_loss': 3.953125, 'eval_runtime': 4.1365, 'eval_samples_per_second': 241.753, 'eval_steps_per_second': 10.154, 'epoch': 0.32}
+{'loss': 3.8005, 'grad_norm': 5.132448673248291, 'learning_rate': 4.965753424657534e-06, 'epoch': 0.32}
+{'loss': 3.8236, 'grad_norm': 4.90869140625, 'learning_rate': 4.982876712328768e-06, 'epoch': 0.32}
+{'loss': 3.8451, 'grad_norm': 4.242934226989746, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'loss': 3.8929, 'grad_norm': 4.430821895599365, 'learning_rate': 4.998096688237534e-06, 'epoch': 0.32}
+{'loss': 3.8346, 'grad_norm': 4.497922420501709, 'learning_rate': 4.996193376475067e-06, 'epoch': 0.32}
+{'loss': 3.915, 'grad_norm': 4.7510271072387695, 'learning_rate': 4.9942900647126005e-06, 'epoch': 0.32}
+{'loss': 3.8613, 'grad_norm': 4.352152347564697, 'learning_rate': 4.992386752950134e-06, 'epoch': 0.33}
+{'loss': 3.7633, 'grad_norm': 4.628121852874756, 'learning_rate': 4.990483441187667e-06, 'epoch': 0.33}
+{'loss': 3.7884, 'grad_norm': 4.596912384033203, 'learning_rate': 4.9885801294252e-06, 'epoch': 0.33}
+{'loss': 3.8626, 'grad_norm': 4.603427410125732, 'learning_rate': 4.986676817662733e-06, 'epoch': 0.33}
+{'eval_loss': 3.94140625, 'eval_runtime': 4.1252, 'eval_samples_per_second': 242.412, 'eval_steps_per_second': 10.181, 'epoch': 0.33}
+{'loss': 3.7705, 'grad_norm': 4.46985387802124, 'learning_rate': 4.9847735059002665e-06, 'epoch': 0.33}
+{'loss': 3.793, 'grad_norm': 4.8262715339660645, 'learning_rate': 4.9828701941378e-06, 'epoch': 0.33}
+{'loss': 3.7679, 'grad_norm': 4.1862874031066895, 'learning_rate': 4.980966882375333e-06, 'epoch': 0.33}
+{'loss': 3.8363, 'grad_norm': 4.944184303283691, 'learning_rate': 4.979063570612867e-06, 'epoch': 0.33}
+{'loss': 3.8353, 'grad_norm': 5.232294082641602, 'learning_rate': 4.9771602588504e-06, 'epoch': 0.33}
+{'loss': 3.818, 'grad_norm': 4.3264288902282715, 'learning_rate': 4.975256947087933e-06, 'epoch': 0.33}
+{'loss': 3.7887, 'grad_norm': 4.417157173156738, 'learning_rate': 4.973353635325467e-06, 'epoch': 0.34}
+{'loss': 3.8822, 'grad_norm': 3.971194267272949, 'learning_rate': 4.971450323563e-06, 'epoch': 0.34}
+{'loss': 3.8275, 'grad_norm': 4.246622085571289, 'learning_rate': 4.969547011800533e-06, 'epoch': 0.34}
+{'loss': 3.8307, 'grad_norm': 3.716900110244751, 'learning_rate': 4.967643700038067e-06, 'epoch': 0.34}
+{'eval_loss': 3.927734375, 'eval_runtime': 4.1566, 'eval_samples_per_second': 240.58, 'eval_steps_per_second': 10.104, 'epoch': 0.34}
+{'loss': 3.7747, 'grad_norm': 4.423438549041748, 'learning_rate': 4.9657403882756e-06, 'epoch': 0.34}
+{'loss': 3.8639, 'grad_norm': 3.717132091522217, 'learning_rate': 4.9638370765131335e-06, 'epoch': 0.34}
+{'loss': 3.8298, 'grad_norm': 4.143261909484863, 'learning_rate': 4.961933764750667e-06, 'epoch': 0.34}
+{'loss': 3.7764, 'grad_norm': 4.343096733093262, 'learning_rate': 4.9600304529882e-06, 'epoch': 0.34}
+{'loss': 3.8073, 'grad_norm': 3.927640438079834, 'learning_rate': 4.9581271412257335e-06, 'epoch': 0.34}
+{'loss': 3.8337, 'grad_norm': 4.380320072174072, 'learning_rate': 4.956223829463266e-06, 'epoch': 0.35}
+{'loss': 3.8089, 'grad_norm': 4.250761032104492, 'learning_rate': 4.954320517700799e-06, 'epoch': 0.35}
+{'loss': 3.8441, 'grad_norm': 3.9923319816589355, 'learning_rate': 4.952417205938333e-06, 'epoch': 0.35}
+{'loss': 3.7598, 'grad_norm': 4.631264686584473, 'learning_rate': 4.950513894175866e-06, 'epoch': 0.35}
+{'loss': 3.807, 'grad_norm': 4.20836067199707, 'learning_rate': 4.9486105824133995e-06, 'epoch': 0.35}
+{'eval_loss': 3.91796875, 'eval_runtime': 4.147, 'eval_samples_per_second': 241.141, 'eval_steps_per_second': 10.128, 'epoch': 0.35}
+{'loss': 3.7793, 'grad_norm': 4.07650089263916, 'learning_rate': 4.946707270650933e-06, 'epoch': 0.35}
+{'loss': 3.778, 'grad_norm': 4.385585308074951, 'learning_rate': 4.944803958888466e-06, 'epoch': 0.35}
+{'loss': 3.7393, 'grad_norm': 3.984354019165039, 'learning_rate': 4.942900647126e-06, 'epoch': 0.35}
+{'loss': 3.6725, 'grad_norm': 3.7997732162475586, 'learning_rate': 4.940997335363533e-06, 'epoch': 0.35}
+{'loss': 3.8171, 'grad_norm': 4.168695449829102, 'learning_rate': 4.939094023601066e-06, 'epoch': 0.35}
+{'loss': 3.7822, 'grad_norm': 3.7494657039642334, 'learning_rate': 4.9371907118386e-06, 'epoch': 0.36}
+{'loss': 3.7083, 'grad_norm': 4.045839309692383, 'learning_rate': 4.935287400076133e-06, 'epoch': 0.36}
+{'loss': 3.7542, 'grad_norm': 4.731752395629883, 'learning_rate': 4.933384088313666e-06, 'epoch': 0.36}
+{'loss': 3.8356, 'grad_norm': 3.539783477783203, 'learning_rate': 4.9314807765512e-06, 'epoch': 0.36}
+{'loss': 3.7552, 'grad_norm': 3.235812187194824, 'learning_rate': 4.929577464788733e-06, 'epoch': 0.36}
+{'eval_loss': 3.908203125, 'eval_runtime': 4.139, 'eval_samples_per_second': 241.602, 'eval_steps_per_second': 10.147, 'epoch': 0.36}
+{'loss': 3.7923, 'grad_norm': 3.8763043880462646, 'learning_rate': 4.9276741530262665e-06, 'epoch': 0.36}
+{'loss': 3.8271, 'grad_norm': 4.093810081481934, 'learning_rate': 4.9257708412638e-06, 'epoch': 0.36}
+{'loss': 3.7288, 'grad_norm': 4.090394496917725, 'learning_rate': 4.923867529501332e-06, 'epoch': 0.36}
+{'loss': 3.7529, 'grad_norm': 4.371332168579102, 'learning_rate': 4.921964217738866e-06, 'epoch': 0.36}
+{'loss': 3.8112, 'grad_norm': 3.7062346935272217, 'learning_rate': 4.920060905976399e-06, 'epoch': 0.36}
+{'loss': 3.8652, 'grad_norm': 4.104618549346924, 'learning_rate': 4.9181575942139325e-06, 'epoch': 0.37}
+{'loss': 3.7171, 'grad_norm': 4.223094940185547, 'learning_rate': 4.916254282451466e-06, 'epoch': 0.37}
+{'loss': 3.8109, 'grad_norm': 3.9500792026519775, 'learning_rate': 4.914350970688999e-06, 'epoch': 0.37}
+{'loss': 3.751, 'grad_norm': 3.4333627223968506, 'learning_rate': 4.9124476589265325e-06, 'epoch': 0.37}
+{'loss': 3.7682, 'grad_norm': 4.043675422668457, 'learning_rate': 4.910544347164066e-06, 'epoch': 0.37}
+{'eval_loss': 3.8984375, 'eval_runtime': 4.1651, 'eval_samples_per_second': 240.091, 'eval_steps_per_second': 10.084, 'epoch': 0.37}
+{'loss': 3.723, 'grad_norm': 3.935551643371582, 'learning_rate': 4.908641035401599e-06, 'epoch': 0.37}
+{'loss': 3.7956, 'grad_norm': 3.6891887187957764, 'learning_rate': 4.906737723639133e-06, 'epoch': 0.37}
+{'loss': 3.7503, 'grad_norm': 3.305863380432129, 'learning_rate': 4.904834411876665e-06, 'epoch': 0.37}
+{'loss': 3.737, 'grad_norm': 3.3404412269592285, 'learning_rate': 4.902931100114199e-06, 'epoch': 0.37}
+{'loss': 3.7806, 'grad_norm': 3.512803316116333, 'learning_rate': 4.901027788351733e-06, 'epoch': 0.37}
+{'loss': 3.7744, 'grad_norm': 3.6465883255004883, 'learning_rate': 4.899124476589266e-06, 'epoch': 0.38}
+{'loss': 3.763, 'grad_norm': 3.771326780319214, 'learning_rate': 4.8972211648267994e-06, 'epoch': 0.38}
+{'loss': 3.6898, 'grad_norm': 4.165717124938965, 'learning_rate': 4.895317853064333e-06, 'epoch': 0.38}
+{'loss': 3.7715, 'grad_norm': 4.309667110443115, 'learning_rate': 4.893414541301866e-06, 'epoch': 0.38}
+{'loss': 3.8213, 'grad_norm': 3.6194007396698, 'learning_rate': 4.891511229539399e-06, 'epoch': 0.38}
+{'eval_loss': 3.890625, 'eval_runtime': 4.1338, 'eval_samples_per_second': 241.907, 'eval_steps_per_second': 10.16, 'epoch': 0.38}
+{'loss': 3.667, 'grad_norm': 4.431604385375977, 'learning_rate': 4.889607917776932e-06, 'epoch': 0.38}
+{'loss': 3.8311, 'grad_norm': 3.4398553371429443, 'learning_rate': 4.887704606014465e-06, 'epoch': 0.38}
+{'loss': 3.8271, 'grad_norm': 3.954711675643921, 'learning_rate': 4.885801294251999e-06, 'epoch': 0.38}
+{'loss': 3.7337, 'grad_norm': 4.224588394165039, 'learning_rate': 4.883897982489532e-06, 'epoch': 0.38}
+{'loss': 3.7874, 'grad_norm': 3.792917013168335, 'learning_rate': 4.8819946707270655e-06, 'epoch': 0.39}
+{'loss': 3.7155, 'grad_norm': 3.3725054264068604, 'learning_rate': 4.880091358964599e-06, 'epoch': 0.39}
+{'loss': 3.7178, 'grad_norm': 3.7749717235565186, 'learning_rate': 4.878188047202132e-06, 'epoch': 0.39}
+{'loss': 3.6442, 'grad_norm': 3.568408489227295, 'learning_rate': 4.876284735439666e-06, 'epoch': 0.39}
+{'loss': 3.7627, 'grad_norm': 3.1765329837799072, 'learning_rate': 4.874381423677199e-06, 'epoch': 0.39}
+{'loss': 3.804, 'grad_norm': 4.075412273406982, 'learning_rate': 4.8724781119147315e-06, 'epoch': 0.39}
+{'eval_loss': 3.884765625, 'eval_runtime': 4.1475, 'eval_samples_per_second': 241.107, 'eval_steps_per_second': 10.126, 'epoch': 0.39}
+{'loss': 3.7181, 'grad_norm': 3.348027467727661, 'learning_rate': 4.870574800152265e-06, 'epoch': 0.39}
+{'loss': 3.6927, 'grad_norm': 3.357118606567383, 'learning_rate': 4.868671488389798e-06, 'epoch': 0.39}
+{'loss': 3.7533, 'grad_norm': 3.106145143508911, 'learning_rate': 4.8667681766273316e-06, 'epoch': 0.39}
+{'loss': 3.7467, 'grad_norm': 3.3781445026397705, 'learning_rate': 4.864864864864866e-06, 'epoch': 0.39}
+{'loss': 3.7285, 'grad_norm': 3.4042465686798096, 'learning_rate': 4.862961553102399e-06, 'epoch': 0.4}
+{'loss': 3.8311, 'grad_norm': 3.398768663406372, 'learning_rate': 4.8610582413399325e-06, 'epoch': 0.4}
+{'loss': 3.7477, 'grad_norm': 4.0277533531188965, 'learning_rate': 4.859154929577465e-06, 'epoch': 0.4}
+{'loss': 3.6631, 'grad_norm': 4.456433296203613, 'learning_rate': 4.857251617814998e-06, 'epoch': 0.4}
+{'loss': 3.6823, 'grad_norm': 4.5835371017456055, 'learning_rate': 4.855348306052532e-06, 'epoch': 0.4}
+{'loss': 3.7428, 'grad_norm': 3.1597559452056885, 'learning_rate': 4.853444994290065e-06, 'epoch': 0.4}
+{'eval_loss': 3.873046875, 'eval_runtime': 4.1723, 'eval_samples_per_second': 239.677, 'eval_steps_per_second': 10.066, 'epoch': 0.4}
+{'loss': 3.7669, 'grad_norm': 4.324642658233643, 'learning_rate': 4.8515416825275985e-06, 'epoch': 0.4}
+{'loss': 3.7454, 'grad_norm': 3.634185552597046, 'learning_rate': 4.849638370765132e-06, 'epoch': 0.4}
+{'loss': 3.748, 'grad_norm': 2.8727779388427734, 'learning_rate': 4.847735059002665e-06, 'epoch': 0.4}
+{'loss': 3.7715, 'grad_norm': 3.207620620727539, 'learning_rate': 4.8458317472401985e-06, 'epoch': 0.4}
+{'loss': 3.7321, 'grad_norm': 2.949099540710449, 'learning_rate': 4.843928435477732e-06, 'epoch': 0.41}
+{'loss': 3.6943, 'grad_norm': 3.1072330474853516, 'learning_rate': 4.842025123715265e-06, 'epoch': 0.41}
+{'loss': 3.7822, 'grad_norm': 2.9790422916412354, 'learning_rate': 4.840121811952798e-06, 'epoch': 0.41}
+{'loss': 3.7061, 'grad_norm': 3.115546703338623, 'learning_rate': 4.838218500190331e-06, 'epoch': 0.41}
+{'loss': 3.7064, 'grad_norm': 3.097785711288452, 'learning_rate': 4.8363151884278645e-06, 'epoch': 0.41}
+{'loss': 3.7272, 'grad_norm': 3.0913054943084717, 'learning_rate': 4.834411876665398e-06, 'epoch': 0.41}
+{'eval_loss': 3.865234375, 'eval_runtime': 4.1388, 'eval_samples_per_second': 241.618, 'eval_steps_per_second': 10.148, 'epoch': 0.41}
+{'loss': 3.6742, 'grad_norm': 4.068288803100586, 'learning_rate': 4.832508564902931e-06, 'epoch': 0.41}
+{'loss': 3.7275, 'grad_norm': 3.5098636150360107, 'learning_rate': 4.830605253140465e-06, 'epoch': 0.41}
+{'loss': 3.7249, 'grad_norm': 3.911729097366333, 'learning_rate': 4.828701941377998e-06, 'epoch': 0.41}
+{'loss': 3.7467, 'grad_norm': 3.7495014667510986, 'learning_rate': 4.826798629615531e-06, 'epoch': 0.41}
+{'loss': 3.6676, 'grad_norm': 3.431957960128784, 'learning_rate': 4.824895317853065e-06, 'epoch': 0.42}
+{'loss': 3.7907, 'grad_norm': 3.494743585586548, 'learning_rate': 4.822992006090598e-06, 'epoch': 0.42}
+{'loss': 3.6735, 'grad_norm': 3.1539509296417236, 'learning_rate': 4.821088694328131e-06, 'epoch': 0.42}
+{'loss': 3.7067, 'grad_norm': 2.9406585693359375, 'learning_rate': 4.819185382565665e-06, 'epoch': 0.42}
+{'loss': 3.7223, 'grad_norm': 3.7239904403686523, 'learning_rate': 4.817282070803198e-06, 'epoch': 0.42}
+{'loss': 3.7357, 'grad_norm': 3.4507744312286377, 'learning_rate': 4.8153787590407315e-06, 'epoch': 0.42}
+{'eval_loss': 3.859375, 'eval_runtime': 4.1473, 'eval_samples_per_second': 241.119, 'eval_steps_per_second': 10.127, 'epoch': 0.42}
+{'loss': 3.6849, 'grad_norm': 3.231067419052124, 'learning_rate': 4.813475447278265e-06, 'epoch': 0.42}
+{'loss': 3.7692, 'grad_norm': 2.9477291107177734, 'learning_rate': 4.811572135515798e-06, 'epoch': 0.42}
+{'loss': 3.6579, 'grad_norm': 3.1943483352661133, 'learning_rate': 4.809668823753332e-06, 'epoch': 0.42}
+{'loss': 3.6543, 'grad_norm': 2.8586723804473877, 'learning_rate': 4.807765511990864e-06, 'epoch': 0.43}
+{'loss': 3.6979, 'grad_norm': 3.0857934951782227, 'learning_rate': 4.8058622002283975e-06, 'epoch': 0.43}
+{'loss': 3.7493, 'grad_norm': 3.0669591426849365, 'learning_rate': 4.803958888465931e-06, 'epoch': 0.43}
+{'loss': 3.7292, 'grad_norm': 2.9027628898620605, 'learning_rate': 4.802055576703464e-06, 'epoch': 0.43}
+{'loss': 3.7285, 'grad_norm': 3.0289859771728516, 'learning_rate': 4.8001522649409976e-06, 'epoch': 0.43}
+{'loss': 3.5654, 'grad_norm': 3.3671464920043945, 'learning_rate': 4.798248953178531e-06, 'epoch': 0.43}
+{'loss': 3.5898, 'grad_norm': 4.005543231964111, 'learning_rate': 4.796345641416064e-06, 'epoch': 0.43}
+{'eval_loss': 3.8515625, 'eval_runtime': 4.1559, 'eval_samples_per_second': 240.621, 'eval_steps_per_second': 10.106, 'epoch': 0.43}
+{'loss': 3.6751, 'grad_norm': 3.534534215927124, 'learning_rate': 4.794442329653598e-06, 'epoch': 0.43}
+{'loss': 3.6921, 'grad_norm': 3.6198623180389404, 'learning_rate': 4.792539017891131e-06, 'epoch': 0.43}
+{'loss': 3.6956, 'grad_norm': 3.030489206314087, 'learning_rate': 4.790635706128664e-06, 'epoch': 0.43}
+{'loss': 3.6667, 'grad_norm': 3.0816571712493896, 'learning_rate': 4.788732394366197e-06, 'epoch': 0.44}
+{'loss': 3.641, 'grad_norm': 2.8785510063171387, 'learning_rate': 4.786829082603731e-06, 'epoch': 0.44}
+{'loss': 3.6924, 'grad_norm': 2.7415945529937744, 'learning_rate': 4.7849257708412645e-06, 'epoch': 0.44}
+{'loss': 3.6924, 'grad_norm': 3.0690910816192627, 'learning_rate': 4.783022459078798e-06, 'epoch': 0.44}
+{'loss': 3.6533, 'grad_norm': 3.2930166721343994, 'learning_rate': 4.781119147316331e-06, 'epoch': 0.44}
+{'loss': 3.7119, 'grad_norm': 3.306593656539917, 'learning_rate': 4.7792158355538645e-06, 'epoch': 0.44}
+{'loss': 3.7028, 'grad_norm': 2.8968679904937744, 'learning_rate': 4.777312523791398e-06, 'epoch': 0.44}
+{'eval_loss': 3.84765625, 'eval_runtime': 4.1416, 'eval_samples_per_second': 241.453, 'eval_steps_per_second': 10.141, 'epoch': 0.44}
+{'loss': 3.6686, 'grad_norm': 3.1076738834381104, 'learning_rate': 4.77540921202893e-06, 'epoch': 0.44}
+{'loss': 3.693, 'grad_norm': 3.407099962234497, 'learning_rate': 4.773505900266464e-06, 'epoch': 0.44}
+{'loss': 3.6204, 'grad_norm': 3.8109993934631348, 'learning_rate': 4.771602588503997e-06, 'epoch': 0.44}
+{'loss': 3.6855, 'grad_norm': 3.0616817474365234, 'learning_rate': 4.7696992767415305e-06, 'epoch': 0.45}
+{'loss': 3.6195, 'grad_norm': 3.5211493968963623, 'learning_rate': 4.767795964979064e-06, 'epoch': 0.45}
+{'loss': 3.6527, 'grad_norm': 3.011019706726074, 'learning_rate': 4.765892653216597e-06, 'epoch': 0.45}
+{'loss': 3.7503, 'grad_norm': 3.236741304397583, 'learning_rate': 4.763989341454131e-06, 'epoch': 0.45}
+{'loss': 3.6764, 'grad_norm': 3.3627099990844727, 'learning_rate': 4.762086029691664e-06, 'epoch': 0.45}
+{'loss': 3.6436, 'grad_norm': 3.3514864444732666, 'learning_rate': 4.760182717929197e-06, 'epoch': 0.45}
+{'loss': 3.5977, 'grad_norm': 2.974891424179077, 'learning_rate': 4.758279406166731e-06, 'epoch': 0.45}
+{'eval_loss': 3.841796875, 'eval_runtime': 4.1456, 'eval_samples_per_second': 241.219, 'eval_steps_per_second': 10.131, 'epoch': 0.45}
+{'loss': 3.6839, 'grad_norm': 2.939649820327759, 'learning_rate': 4.756376094404263e-06, 'epoch': 0.45}
+{'loss': 3.6576, 'grad_norm': 2.7867443561553955, 'learning_rate': 4.7544727826417966e-06, 'epoch': 0.45}
+{'loss': 3.6611, 'grad_norm': 2.9067537784576416, 'learning_rate': 4.75256947087933e-06, 'epoch': 0.46}
+{'loss': 3.6729, 'grad_norm': 3.0865960121154785, 'learning_rate': 4.750666159116863e-06, 'epoch': 0.46}
+{'loss': 3.5225, 'grad_norm': 4.090546607971191, 'learning_rate': 4.7487628473543975e-06, 'epoch': 0.46}
+{'loss': 3.7334, 'grad_norm': 3.517911434173584, 'learning_rate': 4.746859535591931e-06, 'epoch': 0.46}
+{'loss': 3.624, 'grad_norm': 3.4972429275512695, 'learning_rate': 4.744956223829464e-06, 'epoch': 0.46}
+{'loss': 3.668, 'grad_norm': 3.034024477005005, 'learning_rate': 4.743052912066997e-06, 'epoch': 0.46}
+{'loss': 3.6924, 'grad_norm': 3.03364896774292, 'learning_rate': 4.74114960030453e-06, 'epoch': 0.46}
+{'loss': 3.6725, 'grad_norm': 3.0793607234954834, 'learning_rate': 4.7392462885420635e-06, 'epoch': 0.46}
+{'eval_loss': 3.833984375, 'eval_runtime': 4.1542, 'eval_samples_per_second': 240.718, 'eval_steps_per_second': 10.11, 'epoch': 0.46}
+{'loss': 3.6745, 'grad_norm': 2.8559556007385254, 'learning_rate': 4.737342976779597e-06, 'epoch': 0.46}
+{'loss': 3.6396, 'grad_norm': 2.8081600666046143, 'learning_rate': 4.73543966501713e-06, 'epoch': 0.46}
+{'loss': 3.68, 'grad_norm': 2.533031940460205, 'learning_rate': 4.7335363532546636e-06, 'epoch': 0.47}
+{'loss': 3.6439, 'grad_norm': 2.979897975921631, 'learning_rate': 4.731633041492197e-06, 'epoch': 0.47}
+{'loss': 3.6934, 'grad_norm': 2.9386487007141113, 'learning_rate': 4.72972972972973e-06, 'epoch': 0.47}
+{'loss': 3.5967, 'grad_norm': 2.9094901084899902, 'learning_rate': 4.727826417967264e-06, 'epoch': 0.47}
+{'loss': 3.6735, 'grad_norm': 2.7640554904937744, 'learning_rate': 4.725923106204797e-06, 'epoch': 0.47}
+{'loss': 3.6602, 'grad_norm': 3.489274740219116, 'learning_rate': 4.72401979444233e-06, 'epoch': 0.47}
+{'loss': 3.6338, 'grad_norm': 3.1564724445343018, 'learning_rate': 4.722116482679863e-06, 'epoch': 0.47}
+{'loss': 3.6283, 'grad_norm': 3.357306480407715, 'learning_rate': 4.720213170917396e-06, 'epoch': 0.47}
+{'eval_loss': 3.828125, 'eval_runtime': 4.1399, 'eval_samples_per_second': 241.549, 'eval_steps_per_second': 10.145, 'epoch': 0.47}
+{'loss': 3.6243, 'grad_norm': 2.924771547317505, 'learning_rate': 4.71830985915493e-06, 'epoch': 0.47}
+{'loss': 3.64, 'grad_norm': 2.8196492195129395, 'learning_rate': 4.716406547392463e-06, 'epoch': 0.47}
+{'loss': 3.6549, 'grad_norm': 2.7702200412750244, 'learning_rate': 4.714503235629996e-06, 'epoch': 0.48}
+{'loss': 3.6393, 'grad_norm': 2.5587234497070312, 'learning_rate': 4.71259992386753e-06, 'epoch': 0.48}
+{'loss': 3.6859, 'grad_norm': 2.7626521587371826, 'learning_rate': 4.710696612105063e-06, 'epoch': 0.48}
+{'loss': 3.6169, 'grad_norm': 2.9976184368133545, 'learning_rate': 4.708793300342596e-06, 'epoch': 0.48}
+{'loss': 3.667, 'grad_norm': 2.9959638118743896, 'learning_rate': 4.70688998858013e-06, 'epoch': 0.48}
+{'loss': 3.7217, 'grad_norm': 2.7934701442718506, 'learning_rate': 4.704986676817663e-06, 'epoch': 0.48}
+{'loss': 3.6152, 'grad_norm': 2.968851089477539, 'learning_rate': 4.7030833650551965e-06, 'epoch': 0.48}
+{'loss': 3.6914, 'grad_norm': 3.132674217224121, 'learning_rate': 4.70118005329273e-06, 'epoch': 0.48}
+{'eval_loss': 3.8203125, 'eval_runtime': 4.1644, 'eval_samples_per_second': 240.13, 'eval_steps_per_second': 10.085, 'epoch': 0.48}
+{'loss': 3.543, 'grad_norm': 3.742128849029541, 'learning_rate': 4.699276741530263e-06, 'epoch': 0.48}
+{'loss': 3.6686, 'grad_norm': 3.1236624717712402, 'learning_rate': 4.697373429767797e-06, 'epoch': 0.48}
+{'loss': 3.6019, 'grad_norm': 2.8154406547546387, 'learning_rate': 4.69547011800533e-06, 'epoch': 0.49}
+{'loss': 3.5758, 'grad_norm': 3.795708179473877, 'learning_rate': 4.693566806242863e-06, 'epoch': 0.49}
+{'loss': 3.6514, 'grad_norm': 3.2824771404266357, 'learning_rate': 4.691663494480397e-06, 'epoch': 0.49}
+{'loss': 3.6488, 'grad_norm': 2.986593723297119, 'learning_rate': 4.689760182717929e-06, 'epoch': 0.49}
+{'loss': 3.5859, 'grad_norm': 3.0034587383270264, 'learning_rate': 4.6878568709554626e-06, 'epoch': 0.49}
+{'loss': 3.6781, 'grad_norm': 2.824251174926758, 'learning_rate': 4.685953559192996e-06, 'epoch': 0.49}
+{'loss': 3.6273, 'grad_norm': 2.8868818283081055, 'learning_rate': 4.684050247430529e-06, 'epoch': 0.49}
+{'loss': 3.5303, 'grad_norm': 2.8160603046417236, 'learning_rate': 4.682146935668063e-06, 'epoch': 0.49}
+{'eval_loss': 3.814453125, 'eval_runtime': 4.1464, 'eval_samples_per_second': 241.173, 'eval_steps_per_second': 10.129, 'epoch': 0.49}
+{'loss': 3.6292, 'grad_norm': 2.529841899871826, 'learning_rate': 4.680243623905596e-06, 'epoch': 0.49}
+{'loss': 3.6208, 'grad_norm': 2.6436219215393066, 'learning_rate': 4.678340312143129e-06, 'epoch': 0.5}
+{'loss': 3.6712, 'grad_norm': 2.88997745513916, 'learning_rate': 4.676437000380663e-06, 'epoch': 0.5}
+{'loss': 3.6325, 'grad_norm': 2.931640386581421, 'learning_rate': 4.674533688618196e-06, 'epoch': 0.5}
+{'loss': 3.6439, 'grad_norm': 3.008547306060791, 'learning_rate': 4.6726303768557295e-06, 'epoch': 0.5}
+{'loss': 3.6328, 'grad_norm': 2.872143268585205, 'learning_rate': 4.670727065093263e-06, 'epoch': 0.5}
+{'loss': 3.6133, 'grad_norm': 3.1651737689971924, 'learning_rate': 4.668823753330796e-06, 'epoch': 0.5}
+{'loss': 3.6159, 'grad_norm': 2.8470230102539062, 'learning_rate': 4.6669204415683295e-06, 'epoch': 0.5}
+{'loss': 3.7057, 'grad_norm': 2.9968042373657227, 'learning_rate': 4.665017129805863e-06, 'epoch': 0.5}
+{'loss': 3.5941, 'grad_norm': 2.928286552429199, 'learning_rate': 4.663113818043396e-06, 'epoch': 0.5}
+{'eval_loss': 3.80859375, 'eval_runtime': 4.1393, 'eval_samples_per_second': 241.589, 'eval_steps_per_second': 10.147, 'epoch': 0.5}
+{'loss': 3.7051, 'grad_norm': 2.6233177185058594, 'learning_rate': 4.66121050628093e-06, 'epoch': 0.5}
+{'loss': 3.5592, 'grad_norm': 3.2650692462921143, 'learning_rate': 4.659307194518463e-06, 'epoch': 0.51}
+{'loss': 3.6608, 'grad_norm': 2.609466314315796, 'learning_rate': 4.6574038827559955e-06, 'epoch': 0.51}
+{'loss': 3.4912, 'grad_norm': 3.1176373958587646, 'learning_rate': 4.655500570993529e-06, 'epoch': 0.51}
+{'loss': 3.6299, 'grad_norm': 3.0296473503112793, 'learning_rate': 4.653597259231062e-06, 'epoch': 0.51}
+{'loss': 3.6104, 'grad_norm': 2.778071403503418, 'learning_rate': 4.651693947468596e-06, 'epoch': 0.51}
+{'loss': 3.6709, 'grad_norm': 3.3288204669952393, 'learning_rate': 4.649790635706129e-06, 'epoch': 0.51}
+{'loss': 3.623, 'grad_norm': 3.1015591621398926, 'learning_rate': 4.647887323943662e-06, 'epoch': 0.51}
+{'loss': 3.5267, 'grad_norm': 2.8283016681671143, 'learning_rate': 4.645984012181196e-06, 'epoch': 0.51}
+{'loss': 3.6025, 'grad_norm': 3.171468496322632, 'learning_rate': 4.644080700418729e-06, 'epoch': 0.51}
+{'eval_loss': 3.8046875, 'eval_runtime': 4.1719, 'eval_samples_per_second': 239.701, 'eval_steps_per_second': 10.067, 'epoch': 0.51}
+{'loss': 3.5641, 'grad_norm': 3.0006110668182373, 'learning_rate': 4.642177388656262e-06, 'epoch': 0.51}
+{'loss': 3.6855, 'grad_norm': 2.9025111198425293, 'learning_rate': 4.640274076893796e-06, 'epoch': 0.52}
+{'loss': 3.599, 'grad_norm': 2.788209915161133, 'learning_rate': 4.638370765131328e-06, 'epoch': 0.52}
+{'loss': 3.6257, 'grad_norm': 2.839104413986206, 'learning_rate': 4.636467453368862e-06, 'epoch': 0.52}
+{'loss': 3.5602, 'grad_norm': 2.943566083908081, 'learning_rate': 4.634564141606396e-06, 'epoch': 0.52}
+{'loss': 3.5902, 'grad_norm': 2.792548418045044, 'learning_rate': 4.632660829843929e-06, 'epoch': 0.52}
+{'loss': 3.6481, 'grad_norm': 2.653015375137329, 'learning_rate': 4.630757518081463e-06, 'epoch': 0.52}
+{'loss': 3.6605, 'grad_norm': 2.9719669818878174, 'learning_rate': 4.628854206318996e-06, 'epoch': 0.52}
+{'loss': 3.6012, 'grad_norm': 2.965965747833252, 'learning_rate': 4.626950894556529e-06, 'epoch': 0.52}
+{'loss': 3.6247, 'grad_norm': 2.9162983894348145, 'learning_rate': 4.625047582794062e-06, 'epoch': 0.52}
+{'eval_loss': 3.798828125, 'eval_runtime': 4.1428, 'eval_samples_per_second': 241.38, 'eval_steps_per_second': 10.138, 'epoch': 0.52}
+{'loss': 3.6084, 'grad_norm': 2.7437174320220947, 'learning_rate': 4.623144271031595e-06, 'epoch': 0.52}
+{'loss': 3.5911, 'grad_norm': 2.482367515563965, 'learning_rate': 4.6212409592691286e-06, 'epoch': 0.53}
+{'loss': 3.6546, 'grad_norm': 2.4651453495025635, 'learning_rate': 4.619337647506662e-06, 'epoch': 0.53}
+{'loss': 3.6689, 'grad_norm': 3.031205415725708, 'learning_rate': 4.617434335744195e-06, 'epoch': 0.53}
+{'loss': 3.6322, 'grad_norm': 2.5098931789398193, 'learning_rate': 4.615531023981729e-06, 'epoch': 0.53}
+{'loss': 3.5465, 'grad_norm': 3.023923397064209, 'learning_rate': 4.613627712219262e-06, 'epoch': 0.53}
+{'loss': 3.6592, 'grad_norm': 2.421895742416382, 'learning_rate': 4.611724400456795e-06, 'epoch': 0.53}
+{'loss': 3.6156, 'grad_norm': 2.562891721725464, 'learning_rate': 4.609821088694329e-06, 'epoch': 0.53}
+{'loss': 3.555, 'grad_norm': 2.7057979106903076, 'learning_rate': 4.607917776931862e-06, 'epoch': 0.53}
+{'loss': 3.5788, 'grad_norm': 2.947094678878784, 'learning_rate': 4.606014465169395e-06, 'epoch': 0.53}
+{'eval_loss': 3.79296875, 'eval_runtime': 4.1417, 'eval_samples_per_second': 241.45, 'eval_steps_per_second': 10.141, 'epoch': 0.53}
+{'loss': 3.5915, 'grad_norm': 3.0515825748443604, 'learning_rate': 4.604111153406928e-06, 'epoch': 0.54}
+{'loss': 3.6162, 'grad_norm': 2.867192268371582, 'learning_rate': 4.602207841644461e-06, 'epoch': 0.54}
+{'loss': 3.4167, 'grad_norm': 3.3040592670440674, 'learning_rate': 4.600304529881995e-06, 'epoch': 0.54}
+{'loss': 3.5856, 'grad_norm': 2.823427438735962, 'learning_rate': 4.598401218119528e-06, 'epoch': 0.54}
+{'loss': 3.5762, 'grad_norm': 2.7701706886291504, 'learning_rate': 4.5964979063570614e-06, 'epoch': 0.54}
+{'loss': 3.5947, 'grad_norm': 2.8749961853027344, 'learning_rate': 4.594594594594596e-06, 'epoch': 0.54}
+{'loss': 3.5599, 'grad_norm': 2.726846694946289, 'learning_rate': 4.592691282832128e-06, 'epoch': 0.54}
+{'loss': 3.568, 'grad_norm': 2.5176239013671875, 'learning_rate': 4.5907879710696615e-06, 'epoch': 0.54}
+{'loss': 3.6133, 'grad_norm': 2.8029606342315674, 'learning_rate': 4.588884659307195e-06, 'epoch': 0.54}
+{'loss': 3.5693, 'grad_norm': 2.718780040740967, 'learning_rate': 4.586981347544728e-06, 'epoch': 0.54}
+{'eval_loss': 3.7890625, 'eval_runtime': 4.1621, 'eval_samples_per_second': 240.264, 'eval_steps_per_second': 10.091, 'epoch': 0.54}
+{'loss': 3.6296, 'grad_norm': 2.628092050552368, 'learning_rate': 4.585078035782262e-06, 'epoch': 0.55}
+{'loss': 3.5889, 'grad_norm': 2.8167407512664795, 'learning_rate': 4.583174724019795e-06, 'epoch': 0.55}
+{'loss': 3.5645, 'grad_norm': 2.4941961765289307, 'learning_rate': 4.581271412257328e-06, 'epoch': 0.55}
+{'loss': 3.5651, 'grad_norm': 2.547931432723999, 'learning_rate': 4.579368100494862e-06, 'epoch': 0.55}
+{'loss': 3.4958, 'grad_norm': 2.615732431411743, 'learning_rate': 4.577464788732395e-06, 'epoch': 0.55}
+{'loss': 3.5739, 'grad_norm': 2.7219104766845703, 'learning_rate': 4.575561476969928e-06, 'epoch': 0.55}
+{'loss': 3.6211, 'grad_norm': 3.379485607147217, 'learning_rate': 4.573658165207461e-06, 'epoch': 0.55}
+{'loss': 3.5654, 'grad_norm': 3.6274845600128174, 'learning_rate': 4.571754853444994e-06, 'epoch': 0.55}
+{'loss': 3.613, 'grad_norm': 3.24364972114563, 'learning_rate': 4.569851541682528e-06, 'epoch': 0.55}
+{'loss': 3.6286, 'grad_norm': 2.468672037124634, 'learning_rate': 4.567948229920061e-06, 'epoch': 0.55}
+{'eval_loss': 3.78515625, 'eval_runtime': 4.1515, 'eval_samples_per_second': 240.876, 'eval_steps_per_second': 10.117, 'epoch': 0.55}
+{'loss': 3.5856, 'grad_norm': 2.660947561264038, 'learning_rate': 4.566044918157594e-06, 'epoch': 0.56}
+{'loss': 3.5781, 'grad_norm': 2.6489205360412598, 'learning_rate': 4.564141606395128e-06, 'epoch': 0.56}
+{'loss': 3.5726, 'grad_norm': 2.3728952407836914, 'learning_rate': 4.562238294632661e-06, 'epoch': 0.56}
+{'loss': 3.5436, 'grad_norm': 3.0301108360290527, 'learning_rate': 4.5603349828701945e-06, 'epoch': 0.56}
+{'loss': 3.5889, 'grad_norm': 2.485471487045288, 'learning_rate': 4.558431671107728e-06, 'epoch': 0.56}
+{'loss': 3.5742, 'grad_norm': 2.416407346725464, 'learning_rate': 4.556528359345261e-06, 'epoch': 0.56}
+{'loss': 3.5918, 'grad_norm': 2.6763384342193604, 'learning_rate': 4.5546250475827946e-06, 'epoch': 0.56}
+{'loss': 3.5482, 'grad_norm': 2.6793289184570312, 'learning_rate': 4.552721735820328e-06, 'epoch': 0.56}
+{'loss': 3.6045, 'grad_norm': 2.780501127243042, 'learning_rate': 4.550818424057861e-06, 'epoch': 0.56}
+{'loss': 3.5469, 'grad_norm': 3.098129987716675, 'learning_rate': 4.548915112295395e-06, 'epoch': 0.56}
+{'eval_loss': 3.779296875, 'eval_runtime': 4.1488, 'eval_samples_per_second': 241.032, 'eval_steps_per_second': 10.123, 'epoch': 0.56}
+{'loss': 3.5465, 'grad_norm': 2.6224491596221924, 'learning_rate': 4.547011800532928e-06, 'epoch': 0.57}
+{'loss': 3.5804, 'grad_norm': 4.224526405334473, 'learning_rate': 4.545108488770461e-06, 'epoch': 0.57}
+{'loss': 3.5508, 'grad_norm': 3.1456127166748047, 'learning_rate': 4.543205177007995e-06, 'epoch': 0.57}
+{'loss': 3.54, 'grad_norm': 2.499838352203369, 'learning_rate': 4.541301865245527e-06, 'epoch': 0.57}
+{'loss': 3.5557, 'grad_norm': 2.860779047012329, 'learning_rate': 4.539398553483061e-06, 'epoch': 0.57}
+{'loss': 3.571, 'grad_norm': 2.2750163078308105, 'learning_rate': 4.537495241720594e-06, 'epoch': 0.57}
+{'loss': 3.5758, 'grad_norm': 2.603501319885254, 'learning_rate': 4.535591929958127e-06, 'epoch': 0.57}
+{'loss': 3.5918, 'grad_norm': 2.5585365295410156, 'learning_rate': 4.533688618195661e-06, 'epoch': 0.57}
+{'loss': 3.6367, 'grad_norm': 2.5328314304351807, 'learning_rate': 4.531785306433194e-06, 'epoch': 0.57}
+{'loss': 3.6514, 'grad_norm': 2.935396432876587, 'learning_rate': 4.529881994670727e-06, 'epoch': 0.58}
+{'eval_loss': 3.77734375, 'eval_runtime': 4.1647, 'eval_samples_per_second': 240.112, 'eval_steps_per_second': 10.085, 'epoch': 0.58}
+{'loss': 3.502, 'grad_norm': 2.651754856109619, 'learning_rate': 4.527978682908261e-06, 'epoch': 0.58}
+{'loss': 3.4925, 'grad_norm': 2.644172430038452, 'learning_rate': 4.526075371145794e-06, 'epoch': 0.58}
+{'loss': 3.64, 'grad_norm': 2.3167243003845215, 'learning_rate': 4.5241720593833275e-06, 'epoch': 0.58}
+{'loss': 3.5996, 'grad_norm': 2.4639101028442383, 'learning_rate': 4.52226874762086e-06, 'epoch': 0.58}
+{'loss': 3.5596, 'grad_norm': 2.849698543548584, 'learning_rate': 4.520365435858393e-06, 'epoch': 0.58}
+{'loss': 3.498, 'grad_norm': 3.0709266662597656, 'learning_rate': 4.518462124095928e-06, 'epoch': 0.58}
+{'loss': 3.543, 'grad_norm': 3.143216609954834, 'learning_rate': 4.516558812333461e-06, 'epoch': 0.58}
+{'loss': 3.5892, 'grad_norm': 2.577590227127075, 'learning_rate': 4.514655500570994e-06, 'epoch': 0.58}
+{'loss': 3.5482, 'grad_norm': 2.39808988571167, 'learning_rate': 4.512752188808528e-06, 'epoch': 0.58}
+{'loss': 3.5469, 'grad_norm': 2.1561696529388428, 'learning_rate': 4.510848877046061e-06, 'epoch': 0.59}
+{'eval_loss': 3.775390625, 'eval_runtime': 4.1456, 'eval_samples_per_second': 241.219, 'eval_steps_per_second': 10.131, 'epoch': 0.59}
+{'loss': 3.5749, 'grad_norm': 2.5761008262634277, 'learning_rate': 4.5089455652835936e-06, 'epoch': 0.59}
+{'loss': 3.5667, 'grad_norm': 2.307636022567749, 'learning_rate': 4.507042253521127e-06, 'epoch': 0.59}
+{'loss': 3.4795, 'grad_norm': 2.767770290374756, 'learning_rate': 4.50513894175866e-06, 'epoch': 0.59}
+{'loss': 3.668, 'grad_norm': 3.303701162338257, 'learning_rate': 4.503235629996194e-06, 'epoch': 0.59}
+{'loss': 3.5537, 'grad_norm': 2.533231735229492, 'learning_rate': 4.501332318233727e-06, 'epoch': 0.59}
+{'loss': 3.5091, 'grad_norm': 2.417332410812378, 'learning_rate': 4.49942900647126e-06, 'epoch': 0.59}
+{'loss': 3.5365, 'grad_norm': 2.6145179271698, 'learning_rate': 4.497525694708794e-06, 'epoch': 0.59}
+{'loss': 3.5677, 'grad_norm': 2.1518678665161133, 'learning_rate': 4.495622382946327e-06, 'epoch': 0.59}
+{'loss': 3.5531, 'grad_norm': 3.438493013381958, 'learning_rate': 4.4937190711838605e-06, 'epoch': 0.59}
+{'loss': 3.4967, 'grad_norm': 3.1626641750335693, 'learning_rate': 4.491815759421394e-06, 'epoch': 0.6}
+{'eval_loss': 3.76953125, 'eval_runtime': 4.1618, 'eval_samples_per_second': 240.281, 'eval_steps_per_second': 10.092, 'epoch': 0.6}
+{'loss': 3.6413, 'grad_norm': 3.213334560394287, 'learning_rate': 4.489912447658926e-06, 'epoch': 0.6}
+{'loss': 3.5026, 'grad_norm': 3.2477831840515137, 'learning_rate': 4.48800913589646e-06, 'epoch': 0.6}
+{'loss': 3.5843, 'grad_norm': 3.2792110443115234, 'learning_rate': 4.486105824133993e-06, 'epoch': 0.6}
+{'loss': 3.724, 'grad_norm': 3.4095993041992188, 'learning_rate': 4.4842025123715264e-06, 'epoch': 0.6}
+{'loss': 3.4697, 'grad_norm': 2.711484670639038, 'learning_rate': 4.48229920060906e-06, 'epoch': 0.6}
+{'loss': 3.5547, 'grad_norm': 2.646984100341797, 'learning_rate': 4.480395888846594e-06, 'epoch': 0.6}
+{'loss': 3.4867, 'grad_norm': 2.7883307933807373, 'learning_rate': 4.478492577084127e-06, 'epoch': 0.6}
+{'loss': 3.5534, 'grad_norm': 2.727867841720581, 'learning_rate': 4.47658926532166e-06, 'epoch': 0.6}
+{'loss': 3.5146, 'grad_norm': 2.5108227729797363, 'learning_rate': 4.474685953559193e-06, 'epoch': 0.61}
+{'loss': 3.6374, 'grad_norm': 2.5788209438323975, 'learning_rate': 4.472782641796727e-06, 'epoch': 0.61}
+{'eval_loss': 3.765625, 'eval_runtime': 4.1553, 'eval_samples_per_second': 240.656, 'eval_steps_per_second': 10.108, 'epoch': 0.61}
+{'loss': 3.5186, 'grad_norm': 2.588895797729492, 'learning_rate': 4.47087933003426e-06, 'epoch': 0.61}
+{'loss': 3.5505, 'grad_norm': 2.4963786602020264, 'learning_rate': 4.468976018271793e-06, 'epoch': 0.61}
+{'loss': 3.6699, 'grad_norm': 3.2397565841674805, 'learning_rate': 4.467072706509327e-06, 'epoch': 0.61}
+{'loss': 3.6146, 'grad_norm': 2.8592069149017334, 'learning_rate': 4.46516939474686e-06, 'epoch': 0.61}
+{'loss': 3.5967, 'grad_norm': 2.625358819961548, 'learning_rate': 4.463266082984393e-06, 'epoch': 0.61}
+{'loss': 3.5257, 'grad_norm': 2.6005191802978516, 'learning_rate': 4.461362771221927e-06, 'epoch': 0.61}
+{'loss': 3.4538, 'grad_norm': 3.0744271278381348, 'learning_rate': 4.45945945945946e-06, 'epoch': 0.61}
+{'loss': 3.571, 'grad_norm': 3.617461681365967, 'learning_rate': 4.457556147696993e-06, 'epoch': 0.61}
+{'loss': 3.4749, 'grad_norm': 2.658567190170288, 'learning_rate': 4.455652835934526e-06, 'epoch': 0.62}
+{'loss': 3.5264, 'grad_norm': 2.296816349029541, 'learning_rate': 4.453749524172059e-06, 'epoch': 0.62}
+{'eval_loss': 3.763671875, 'eval_runtime': 4.1421, 'eval_samples_per_second': 241.424, 'eval_steps_per_second': 10.14, 'epoch': 0.62}
+{'loss': 3.5182, 'grad_norm': 2.794438123703003, 'learning_rate': 4.451846212409593e-06, 'epoch': 0.62}
+{'loss': 3.5137, 'grad_norm': 2.571150541305542, 'learning_rate': 4.449942900647126e-06, 'epoch': 0.62}
+{'loss': 3.556, 'grad_norm': 2.428497791290283, 'learning_rate': 4.4480395888846595e-06, 'epoch': 0.62}
+{'loss': 3.5231, 'grad_norm': 2.515223503112793, 'learning_rate': 4.446136277122193e-06, 'epoch': 0.62}
+{'loss': 3.5801, 'grad_norm': 2.2818140983581543, 'learning_rate': 4.444232965359726e-06, 'epoch': 0.62}
+{'loss': 3.5404, 'grad_norm': 2.6199190616607666, 'learning_rate': 4.4423296535972596e-06, 'epoch': 0.62}
+{'loss': 3.5488, 'grad_norm': 2.106353521347046, 'learning_rate': 4.440426341834793e-06, 'epoch': 0.62}
+{'loss': 3.5241, 'grad_norm': 2.469054937362671, 'learning_rate': 4.438523030072326e-06, 'epoch': 0.62}
+{'loss': 3.4805, 'grad_norm': 2.501918077468872, 'learning_rate': 4.43661971830986e-06, 'epoch': 0.63}
+{'loss': 3.5254, 'grad_norm': 2.4821629524230957, 'learning_rate': 4.434716406547393e-06, 'epoch': 0.63}
+{'eval_loss': 3.755859375, 'eval_runtime': 4.1676, 'eval_samples_per_second': 239.947, 'eval_steps_per_second': 10.078, 'epoch': 0.63}
+{'loss': 3.5433, 'grad_norm': 2.4463400840759277, 'learning_rate': 4.432813094784926e-06, 'epoch': 0.63}
+{'loss': 3.529, 'grad_norm': 2.900999069213867, 'learning_rate': 4.43090978302246e-06, 'epoch': 0.63}
+{'loss': 3.5228, 'grad_norm': 2.48978328704834, 'learning_rate': 4.429006471259993e-06, 'epoch': 0.63}
+{'loss': 3.5384, 'grad_norm': 2.571950674057007, 'learning_rate': 4.4271031594975265e-06, 'epoch': 0.63}
+{'loss': 3.5319, 'grad_norm': 2.4665236473083496, 'learning_rate': 4.425199847735059e-06, 'epoch': 0.63}
+{'loss': 3.5436, 'grad_norm': 2.3713619709014893, 'learning_rate': 4.423296535972592e-06, 'epoch': 0.63}
+{'loss': 3.6172, 'grad_norm': 2.582700729370117, 'learning_rate': 4.421393224210126e-06, 'epoch': 0.63}
+{'loss': 3.4753, 'grad_norm': 2.5389864444732666, 'learning_rate': 4.419489912447659e-06, 'epoch': 0.63}
+{'loss': 3.4993, 'grad_norm': 2.3221051692962646, 'learning_rate': 4.4175866006851924e-06, 'epoch': 0.64}
+{'loss': 3.5137, 'grad_norm': 2.669867753982544, 'learning_rate': 4.415683288922726e-06, 'epoch': 0.64}
+{'eval_loss': 3.755859375, 'eval_runtime': 4.1489, 'eval_samples_per_second': 241.027, 'eval_steps_per_second': 10.123, 'epoch': 0.64}
+{'loss': 3.5928, 'grad_norm': 2.692188024520874, 'learning_rate': 4.413779977160259e-06, 'epoch': 0.64}
+{'loss': 3.5068, 'grad_norm': 2.5387065410614014, 'learning_rate': 4.4118766653977925e-06, 'epoch': 0.64}
+{'loss': 3.4867, 'grad_norm': 2.2120471000671387, 'learning_rate': 4.409973353635326e-06, 'epoch': 0.64}
+{'loss': 3.4535, 'grad_norm': 2.507500410079956, 'learning_rate': 4.408070041872859e-06, 'epoch': 0.64}
+{'loss': 3.527, 'grad_norm': 3.1892216205596924, 'learning_rate': 4.406166730110393e-06, 'epoch': 0.64}
+{'loss': 3.5345, 'grad_norm': 3.10502028465271, 'learning_rate': 4.404263418347925e-06, 'epoch': 0.64}
+{'loss': 3.5244, 'grad_norm': 2.7407138347625732, 'learning_rate': 4.402360106585459e-06, 'epoch': 0.64}
+{'loss': 3.4961, 'grad_norm': 2.672600269317627, 'learning_rate': 4.400456794822993e-06, 'epoch': 0.65}
+{'loss': 3.5446, 'grad_norm': 2.6176397800445557, 'learning_rate': 4.398553483060526e-06, 'epoch': 0.65}
+{'loss': 3.4596, 'grad_norm': 2.4269440174102783, 'learning_rate': 4.396650171298059e-06, 'epoch': 0.65}
+{'eval_loss': 3.755859375, 'eval_runtime': 4.1379, 'eval_samples_per_second': 241.667, 'eval_steps_per_second': 10.15, 'epoch': 0.65}
+{'loss': 3.4727, 'grad_norm': 2.808553695678711, 'learning_rate': 4.394746859535593e-06, 'epoch': 0.65}
+{'loss': 3.4401, 'grad_norm': 2.76383376121521, 'learning_rate': 4.392843547773125e-06, 'epoch': 0.65}
+{'loss': 3.5234, 'grad_norm': 2.3500139713287354, 'learning_rate': 4.390940236010659e-06, 'epoch': 0.65}
+{'loss': 3.5404, 'grad_norm': 2.5650694370269775, 'learning_rate': 4.389036924248192e-06, 'epoch': 0.65}
+{'loss': 3.5088, 'grad_norm': 2.4200217723846436, 'learning_rate': 4.387133612485725e-06, 'epoch': 0.65}
+{'loss': 3.5625, 'grad_norm': 2.8592491149902344, 'learning_rate': 4.385230300723259e-06, 'epoch': 0.65}
+{'loss': 3.5163, 'grad_norm': 2.581484794616699, 'learning_rate': 4.383326988960792e-06, 'epoch': 0.65}
+{'loss': 3.4948, 'grad_norm': 2.3166465759277344, 'learning_rate': 4.3814236771983255e-06, 'epoch': 0.66}
+{'loss': 3.4792, 'grad_norm': 2.6588516235351562, 'learning_rate': 4.379520365435859e-06, 'epoch': 0.66}
+{'loss': 3.5202, 'grad_norm': 2.4381508827209473, 'learning_rate': 4.377617053673392e-06, 'epoch': 0.66}
+{'eval_loss': 3.751953125, 'eval_runtime': 4.1708, 'eval_samples_per_second': 239.765, 'eval_steps_per_second': 10.07, 'epoch': 0.66}
+{'loss': 3.4141, 'grad_norm': 3.1000845432281494, 'learning_rate': 4.3757137419109256e-06, 'epoch': 0.66}
+{'loss': 3.5117, 'grad_norm': 2.6709935665130615, 'learning_rate': 4.373810430148459e-06, 'epoch': 0.66}
+{'loss': 3.4609, 'grad_norm': 2.507702350616455, 'learning_rate': 4.3719071183859914e-06, 'epoch': 0.66}
+{'loss': 3.3506, 'grad_norm': 3.120718240737915, 'learning_rate': 4.370003806623525e-06, 'epoch': 0.66}
+{'loss': 3.5876, 'grad_norm': 2.6100687980651855, 'learning_rate': 4.368100494861058e-06, 'epoch': 0.66}
+{'loss': 3.5752, 'grad_norm': 2.5753071308135986, 'learning_rate': 4.3661971830985915e-06, 'epoch': 0.66}
+{'loss': 3.5931, 'grad_norm': 2.8545665740966797, 'learning_rate': 4.364293871336126e-06, 'epoch': 0.66}
+{'loss': 3.4775, 'grad_norm': 2.3148956298828125, 'learning_rate': 4.362390559573659e-06, 'epoch': 0.67}
+{'loss': 3.6074, 'grad_norm': 2.332581043243408, 'learning_rate': 4.3604872478111925e-06, 'epoch': 0.67}
+{'loss': 3.5544, 'grad_norm': 2.2173142433166504, 'learning_rate': 4.358583936048725e-06, 'epoch': 0.67}
+{'eval_loss': 3.75, 'eval_runtime': 4.1381, 'eval_samples_per_second': 241.656, 'eval_steps_per_second': 10.15, 'epoch': 0.67}
+{'loss': 3.5602, 'grad_norm': 2.181791305541992, 'learning_rate': 4.356680624286258e-06, 'epoch': 0.67}
+{'loss': 3.4948, 'grad_norm': 2.489750623703003, 'learning_rate': 4.354777312523792e-06, 'epoch': 0.67}
+{'loss': 3.5101, 'grad_norm': 2.981144666671753, 'learning_rate': 4.352874000761325e-06, 'epoch': 0.67}
+{'loss': 3.487, 'grad_norm': 2.79996919631958, 'learning_rate': 4.3509706889988584e-06, 'epoch': 0.67}
+{'loss': 3.4674, 'grad_norm': 2.6373257637023926, 'learning_rate': 4.349067377236392e-06, 'epoch': 0.67}
+{'loss': 3.5413, 'grad_norm': 2.0446102619171143, 'learning_rate': 4.347164065473925e-06, 'epoch': 0.67}
+{'loss': 3.5651, 'grad_norm': 2.4229929447174072, 'learning_rate': 4.3452607537114585e-06, 'epoch': 0.67}
+{'loss': 3.5055, 'grad_norm': 2.2536885738372803, 'learning_rate': 4.343357441948992e-06, 'epoch': 0.68}
+{'loss': 3.5329, 'grad_norm': 2.1774561405181885, 'learning_rate': 4.341454130186525e-06, 'epoch': 0.68}
+{'loss': 3.5605, 'grad_norm': 2.3319852352142334, 'learning_rate': 4.339550818424058e-06, 'epoch': 0.68}
+{'eval_loss': 3.748046875, 'eval_runtime': 4.1568, 'eval_samples_per_second': 240.567, 'eval_steps_per_second': 10.104, 'epoch': 0.68}
+{'loss': 3.5114, 'grad_norm': 2.7777767181396484, 'learning_rate': 4.337647506661591e-06, 'epoch': 0.68}
+{'loss': 3.4769, 'grad_norm': 2.641447067260742, 'learning_rate': 4.3357441948991245e-06, 'epoch': 0.68}
+{'loss': 3.4974, 'grad_norm': 2.3622961044311523, 'learning_rate': 4.333840883136658e-06, 'epoch': 0.68}
+{'loss': 3.515, 'grad_norm': 2.274057626724243, 'learning_rate': 4.331937571374191e-06, 'epoch': 0.68}
+{'loss': 3.5563, 'grad_norm': 2.4404962062835693, 'learning_rate': 4.3300342596117246e-06, 'epoch': 0.68}
+{'loss': 3.4658, 'grad_norm': 3.2644591331481934, 'learning_rate': 4.328130947849258e-06, 'epoch': 0.68}
+{'loss': 3.4538, 'grad_norm': 2.461930990219116, 'learning_rate': 4.326227636086791e-06, 'epoch': 0.69}
+{'loss': 3.571, 'grad_norm': 2.6526942253112793, 'learning_rate': 4.324324324324325e-06, 'epoch': 0.69}
+{'loss': 3.5176, 'grad_norm': 2.5849504470825195, 'learning_rate': 4.322421012561858e-06, 'epoch': 0.69}
+{'loss': 3.5251, 'grad_norm': 2.626326084136963, 'learning_rate': 4.320517700799391e-06, 'epoch': 0.69}
+{'eval_loss': 3.7421875, 'eval_runtime': 4.1659, 'eval_samples_per_second': 240.043, 'eval_steps_per_second': 10.082, 'epoch': 0.69}
+{'loss': 3.5111, 'grad_norm': 2.749297857284546, 'learning_rate': 4.318614389036925e-06, 'epoch': 0.69}
+{'loss': 3.583, 'grad_norm': 2.25390887260437, 'learning_rate': 4.316711077274458e-06, 'epoch': 0.69}
+{'loss': 3.5521, 'grad_norm': 2.419158697128296, 'learning_rate': 4.3148077655119915e-06, 'epoch': 0.69}
+{'loss': 3.4469, 'grad_norm': 2.4827499389648438, 'learning_rate': 4.312904453749525e-06, 'epoch': 0.69}
+{'loss': 3.4476, 'grad_norm': 2.65647292137146, 'learning_rate': 4.311001141987058e-06, 'epoch': 0.69}
+{'loss': 3.5316, 'grad_norm': 2.564831018447876, 'learning_rate': 4.3090978302245916e-06, 'epoch': 0.69}
+{'loss': 3.5316, 'grad_norm': 2.760284662246704, 'learning_rate': 4.307194518462124e-06, 'epoch': 0.7}
+{'loss': 3.5475, 'grad_norm': 2.6949832439422607, 'learning_rate': 4.3052912066996574e-06, 'epoch': 0.7}
+{'loss': 3.5443, 'grad_norm': 2.8492228984832764, 'learning_rate': 4.303387894937191e-06, 'epoch': 0.7}
+{'loss': 3.502, 'grad_norm': 2.7709836959838867, 'learning_rate': 4.301484583174724e-06, 'epoch': 0.7}
+{'eval_loss': 3.740234375, 'eval_runtime': 4.1395, 'eval_samples_per_second': 241.572, 'eval_steps_per_second': 10.146, 'epoch': 0.7}
+{'loss': 3.5413, 'grad_norm': 2.296661615371704, 'learning_rate': 4.2995812714122575e-06, 'epoch': 0.7}
+{'loss': 3.4303, 'grad_norm': 2.6867592334747314, 'learning_rate': 4.297677959649791e-06, 'epoch': 0.7}
+{'loss': 3.5257, 'grad_norm': 2.3421499729156494, 'learning_rate': 4.295774647887324e-06, 'epoch': 0.7}
+{'loss': 3.4544, 'grad_norm': 2.4317922592163086, 'learning_rate': 4.293871336124858e-06, 'epoch': 0.7}
+{'loss': 3.4606, 'grad_norm': 2.342031955718994, 'learning_rate': 4.291968024362391e-06, 'epoch': 0.7}
+{'loss': 3.4557, 'grad_norm': 2.750532865524292, 'learning_rate': 4.290064712599924e-06, 'epoch': 0.7}
+{'loss': 3.4528, 'grad_norm': 3.232280731201172, 'learning_rate': 4.288161400837458e-06, 'epoch': 0.71}
+{'loss': 3.4443, 'grad_norm': 3.012835741043091, 'learning_rate': 4.286258089074991e-06, 'epoch': 0.71}
+{'loss': 3.5465, 'grad_norm': 2.508838415145874, 'learning_rate': 4.284354777312524e-06, 'epoch': 0.71}
+{'loss': 3.5218, 'grad_norm': 2.316330909729004, 'learning_rate': 4.282451465550058e-06, 'epoch': 0.71}
+{'eval_loss': 3.740234375, 'eval_runtime': 4.1658, 'eval_samples_per_second': 240.049, 'eval_steps_per_second': 10.082, 'epoch': 0.71}
+{'loss': 3.4733, 'grad_norm': 2.464216470718384, 'learning_rate': 4.280548153787591e-06, 'epoch': 0.71}
+{'loss': 3.4945, 'grad_norm': 2.448035717010498, 'learning_rate': 4.2786448420251245e-06, 'epoch': 0.71}
+{'loss': 3.4242, 'grad_norm': 2.104576587677002, 'learning_rate': 4.276741530262658e-06, 'epoch': 0.71}
+{'loss': 3.5163, 'grad_norm': 2.456481695175171, 'learning_rate': 4.27483821850019e-06, 'epoch': 0.71}
+{'loss': 3.5387, 'grad_norm': 2.9323840141296387, 'learning_rate': 4.272934906737724e-06, 'epoch': 0.71}
+{'loss': 3.5042, 'grad_norm': 2.305387258529663, 'learning_rate': 4.271031594975257e-06, 'epoch': 0.71}
+{'loss': 3.5049, 'grad_norm': 2.9375765323638916, 'learning_rate': 4.2691282832127905e-06, 'epoch': 0.72}
+{'loss': 3.4215, 'grad_norm': 2.7584216594696045, 'learning_rate': 4.267224971450324e-06, 'epoch': 0.72}
+{'loss': 3.3604, 'grad_norm': 3.077714204788208, 'learning_rate': 4.265321659687857e-06, 'epoch': 0.72}
+{'loss': 3.5199, 'grad_norm': 2.0940592288970947, 'learning_rate': 4.2634183479253906e-06, 'epoch': 0.72}
+{'eval_loss': 3.732421875, 'eval_runtime': 4.158, 'eval_samples_per_second': 240.502, 'eval_steps_per_second': 10.101, 'epoch': 0.72}
+{'loss': 3.4225, 'grad_norm': 2.7419540882110596, 'learning_rate': 4.261515036162924e-06, 'epoch': 0.72}
+{'loss': 3.5036, 'grad_norm': 2.5576109886169434, 'learning_rate': 4.259611724400457e-06, 'epoch': 0.72}
+{'loss': 3.5068, 'grad_norm': 2.4982845783233643, 'learning_rate': 4.257708412637991e-06, 'epoch': 0.72}
+{'loss': 3.5394, 'grad_norm': 2.5642709732055664, 'learning_rate': 4.255805100875523e-06, 'epoch': 0.72}
+{'loss': 3.4336, 'grad_norm': 2.6389455795288086, 'learning_rate': 4.2539017891130565e-06, 'epoch': 0.72}
+{'loss': 3.5046, 'grad_norm': 2.4587061405181885, 'learning_rate': 4.25199847735059e-06, 'epoch': 0.73}
+{'loss': 3.5358, 'grad_norm': 2.3974716663360596, 'learning_rate': 4.250095165588123e-06, 'epoch': 0.73}
+{'loss': 3.431, 'grad_norm': 2.361396312713623, 'learning_rate': 4.2481918538256575e-06, 'epoch': 0.73}
+{'loss': 3.4362, 'grad_norm': 2.444572925567627, 'learning_rate': 4.246288542063191e-06, 'epoch': 0.73}
+{'loss': 3.4603, 'grad_norm': 2.018773317337036, 'learning_rate': 4.244385230300724e-06, 'epoch': 0.73}
+{'eval_loss': 3.732421875, 'eval_runtime': 4.1349, 'eval_samples_per_second': 241.844, 'eval_steps_per_second': 10.157, 'epoch': 0.73}
+{'loss': 3.4691, 'grad_norm': 2.4457461833953857, 'learning_rate': 4.242481918538257e-06, 'epoch': 0.73}
+{'loss': 3.5228, 'grad_norm': 2.2337779998779297, 'learning_rate': 4.24057860677579e-06, 'epoch': 0.73}
+{'loss': 3.4736, 'grad_norm': 2.186309814453125, 'learning_rate': 4.2386752950133234e-06, 'epoch': 0.73}
+{'loss': 3.4785, 'grad_norm': 2.2441718578338623, 'learning_rate': 4.236771983250857e-06, 'epoch': 0.73}
+{'loss': 3.4303, 'grad_norm': 2.4049232006073, 'learning_rate': 4.23486867148839e-06, 'epoch': 0.73}
+{'loss': 3.3708, 'grad_norm': 2.7505483627319336, 'learning_rate': 4.2329653597259235e-06, 'epoch': 0.74}
+{'loss': 3.4518, 'grad_norm': 2.3279261589050293, 'learning_rate': 4.231062047963457e-06, 'epoch': 0.74}
+{'loss': 3.514, 'grad_norm': 2.348280668258667, 'learning_rate': 4.22915873620099e-06, 'epoch': 0.74}
+{'loss': 3.4674, 'grad_norm': 2.2716784477233887, 'learning_rate': 4.227255424438524e-06, 'epoch': 0.74}
+{'loss': 3.4557, 'grad_norm': 2.4578042030334473, 'learning_rate': 4.225352112676057e-06, 'epoch': 0.74}
+{'eval_loss': 3.732421875, 'eval_runtime': 4.1626, 'eval_samples_per_second': 240.235, 'eval_steps_per_second': 10.09, 'epoch': 0.74}
+{'loss': 3.4408, 'grad_norm': 2.0328805446624756, 'learning_rate': 4.2234488009135895e-06, 'epoch': 0.74}
+{'loss': 3.4652, 'grad_norm': 2.461744785308838, 'learning_rate': 4.221545489151123e-06, 'epoch': 0.74}
+{'loss': 3.4795, 'grad_norm': 2.694507360458374, 'learning_rate': 4.219642177388656e-06, 'epoch': 0.74}
+{'loss': 3.5208, 'grad_norm': 2.9556000232696533, 'learning_rate': 4.2177388656261896e-06, 'epoch': 0.74}
+{'loss': 3.4206, 'grad_norm': 2.7808175086975098, 'learning_rate': 4.215835553863723e-06, 'epoch': 0.74}
+{'loss': 3.4945, 'grad_norm': 2.4671943187713623, 'learning_rate': 4.213932242101256e-06, 'epoch': 0.75}
+{'loss': 3.4466, 'grad_norm': 2.2514824867248535, 'learning_rate': 4.21202893033879e-06, 'epoch': 0.75}
+{'loss': 3.3799, 'grad_norm': 2.682344436645508, 'learning_rate': 4.210125618576323e-06, 'epoch': 0.75}
+{'loss': 3.5039, 'grad_norm': 2.3638081550598145, 'learning_rate': 4.208222306813856e-06, 'epoch': 0.75}
+{'loss': 3.4508, 'grad_norm': 2.4907102584838867, 'learning_rate': 4.20631899505139e-06, 'epoch': 0.75}
+{'eval_loss': 3.7265625, 'eval_runtime': 4.1579, 'eval_samples_per_second': 240.507, 'eval_steps_per_second': 10.101, 'epoch': 0.75}
+{'loss': 3.5016, 'grad_norm': 2.355571985244751, 'learning_rate': 4.204415683288923e-06, 'epoch': 0.75}
+{'loss': 3.404, 'grad_norm': 2.3387081623077393, 'learning_rate': 4.2025123715264565e-06, 'epoch': 0.75}
+{'loss': 3.4118, 'grad_norm': 2.5599162578582764, 'learning_rate': 4.20060905976399e-06, 'epoch': 0.75}
+{'loss': 3.4059, 'grad_norm': 2.2927963733673096, 'learning_rate': 4.198705748001523e-06, 'epoch': 0.75}
+{'loss': 3.5042, 'grad_norm': 2.6425466537475586, 'learning_rate': 4.1968024362390566e-06, 'epoch': 0.76}
+{'loss': 3.3916, 'grad_norm': 2.3947994709014893, 'learning_rate': 4.19489912447659e-06, 'epoch': 0.76}
+{'loss': 3.3883, 'grad_norm': 2.1027214527130127, 'learning_rate': 4.192995812714123e-06, 'epoch': 0.76}
+{'loss': 3.4896, 'grad_norm': 2.43750262260437, 'learning_rate': 4.191092500951656e-06, 'epoch': 0.76}
+{'loss': 3.4219, 'grad_norm': 2.48332142829895, 'learning_rate': 4.189189189189189e-06, 'epoch': 0.76}
+{'loss': 3.5439, 'grad_norm': 2.3302464485168457, 'learning_rate': 4.1872858774267225e-06, 'epoch': 0.76}
+{'eval_loss': 3.724609375, 'eval_runtime': 4.1386, 'eval_samples_per_second': 241.629, 'eval_steps_per_second': 10.148, 'epoch': 0.76}
+{'loss': 3.5033, 'grad_norm': 2.2579197883605957, 'learning_rate': 4.185382565664256e-06, 'epoch': 0.76}
+{'loss': 3.4876, 'grad_norm': 2.825324773788452, 'learning_rate': 4.183479253901789e-06, 'epoch': 0.76}
+{'loss': 3.4596, 'grad_norm': 2.355560064315796, 'learning_rate': 4.181575942139323e-06, 'epoch': 0.76}
+{'loss': 3.571, 'grad_norm': 2.3747801780700684, 'learning_rate': 4.179672630376856e-06, 'epoch': 0.76}
+{'loss': 3.4352, 'grad_norm': 2.201169490814209, 'learning_rate': 4.177769318614389e-06, 'epoch': 0.77}
+{'loss': 3.4883, 'grad_norm': 2.3996572494506836, 'learning_rate': 4.175866006851923e-06, 'epoch': 0.77}
+{'loss': 3.4531, 'grad_norm': 2.204357862472534, 'learning_rate': 4.173962695089456e-06, 'epoch': 0.77}
+{'loss': 3.4245, 'grad_norm': 2.4894771575927734, 'learning_rate': 4.1720593833269894e-06, 'epoch': 0.77}
+{'loss': 3.4027, 'grad_norm': 3.254054307937622, 'learning_rate': 4.170156071564523e-06, 'epoch': 0.77}
+{'loss': 3.4395, 'grad_norm': 2.5928213596343994, 'learning_rate': 4.168252759802056e-06, 'epoch': 0.77}
+{'eval_loss': 3.724609375, 'eval_runtime': 4.161, 'eval_samples_per_second': 240.326, 'eval_steps_per_second': 10.094, 'epoch': 0.77}
+{'loss': 3.4561, 'grad_norm': 2.1779606342315674, 'learning_rate': 4.1663494480395895e-06, 'epoch': 0.77}
+{'loss': 3.4401, 'grad_norm': 2.2615556716918945, 'learning_rate': 4.164446136277123e-06, 'epoch': 0.77}
+{'loss': 3.4255, 'grad_norm': 2.2158820629119873, 'learning_rate': 4.162542824514656e-06, 'epoch': 0.77}
+{'loss': 3.4251, 'grad_norm': 2.5060784816741943, 'learning_rate': 4.16063951275219e-06, 'epoch': 0.77}
+{'loss': 3.4723, 'grad_norm': 2.3986854553222656, 'learning_rate': 4.158736200989722e-06, 'epoch': 0.78}
+{'loss': 3.3535, 'grad_norm': 2.287714958190918, 'learning_rate': 4.1568328892272555e-06, 'epoch': 0.78}
+{'loss': 3.4489, 'grad_norm': 2.8674538135528564, 'learning_rate': 4.154929577464789e-06, 'epoch': 0.78}
+{'loss': 3.4746, 'grad_norm': 2.94952654838562, 'learning_rate': 4.153026265702322e-06, 'epoch': 0.78}
+{'loss': 3.4281, 'grad_norm': 2.6678802967071533, 'learning_rate': 4.1511229539398556e-06, 'epoch': 0.78}
+{'loss': 3.5085, 'grad_norm': 2.4534366130828857, 'learning_rate': 4.149219642177389e-06, 'epoch': 0.78}
+{'eval_loss': 3.720703125, 'eval_runtime': 4.1514, 'eval_samples_per_second': 240.884, 'eval_steps_per_second': 10.117, 'epoch': 0.78}
+{'loss': 3.4408, 'grad_norm': 2.293856143951416, 'learning_rate': 4.147316330414922e-06, 'epoch': 0.78}
+{'loss': 3.3737, 'grad_norm': 2.8237500190734863, 'learning_rate': 4.145413018652456e-06, 'epoch': 0.78}
+{'loss': 3.5042, 'grad_norm': 2.3214669227600098, 'learning_rate': 4.143509706889989e-06, 'epoch': 0.78}
+{'loss': 3.4707, 'grad_norm': 2.0181972980499268, 'learning_rate': 4.141606395127522e-06, 'epoch': 0.78}
+{'loss': 3.4014, 'grad_norm': 1.9487265348434448, 'learning_rate': 4.139703083365056e-06, 'epoch': 0.79}
+{'loss': 3.3783, 'grad_norm': 2.2468206882476807, 'learning_rate': 4.137799771602588e-06, 'epoch': 0.79}
+{'loss': 3.4538, 'grad_norm': 2.400597095489502, 'learning_rate': 4.135896459840122e-06, 'epoch': 0.79}
+{'loss': 3.36, 'grad_norm': 2.3715014457702637, 'learning_rate': 4.133993148077656e-06, 'epoch': 0.79}
+{'loss': 3.388, 'grad_norm': 2.36151123046875, 'learning_rate': 4.132089836315189e-06, 'epoch': 0.79}
+{'loss': 3.4202, 'grad_norm': 2.388267993927002, 'learning_rate': 4.1301865245527226e-06, 'epoch': 0.79}
+{'eval_loss': 3.72265625, 'eval_runtime': 4.1471, 'eval_samples_per_second': 241.131, 'eval_steps_per_second': 10.128, 'epoch': 0.79}
+{'loss': 3.4056, 'grad_norm': 2.559394359588623, 'learning_rate': 4.128283212790256e-06, 'epoch': 0.79}
+{'loss': 3.3275, 'grad_norm': 2.830885171890259, 'learning_rate': 4.1263799010277884e-06, 'epoch': 0.79}
+{'loss': 3.4652, 'grad_norm': 2.5351474285125732, 'learning_rate': 4.124476589265322e-06, 'epoch': 0.79}
+{'loss': 3.3646, 'grad_norm': 2.6000499725341797, 'learning_rate': 4.122573277502855e-06, 'epoch': 0.8}
+{'loss': 3.5199, 'grad_norm': 2.3748114109039307, 'learning_rate': 4.1206699657403885e-06, 'epoch': 0.8}
+{'loss': 3.4785, 'grad_norm': 2.334688901901245, 'learning_rate': 4.118766653977922e-06, 'epoch': 0.8}
+{'loss': 3.4577, 'grad_norm': 2.150707483291626, 'learning_rate': 4.116863342215455e-06, 'epoch': 0.8}
+{'loss': 3.4333, 'grad_norm': 2.373493194580078, 'learning_rate': 4.114960030452989e-06, 'epoch': 0.8}
+{'loss': 3.4746, 'grad_norm': 1.9662752151489258, 'learning_rate': 4.113056718690522e-06, 'epoch': 0.8}
+{'loss': 3.4561, 'grad_norm': 2.318068027496338, 'learning_rate': 4.111153406928055e-06, 'epoch': 0.8}
+{'eval_loss': 3.72265625, 'eval_runtime': 4.167, 'eval_samples_per_second': 239.983, 'eval_steps_per_second': 10.079, 'epoch': 0.8}
+{'loss': 3.4632, 'grad_norm': 2.157238006591797, 'learning_rate': 4.109250095165589e-06, 'epoch': 0.8}
+{'loss': 3.4977, 'grad_norm': 2.32051157951355, 'learning_rate': 4.107346783403122e-06, 'epoch': 0.8}
+{'loss': 3.5062, 'grad_norm': 2.4903838634490967, 'learning_rate': 4.105443471640655e-06, 'epoch': 0.8}
+{'loss': 3.4701, 'grad_norm': 2.213608503341675, 'learning_rate': 4.103540159878188e-06, 'epoch': 0.81}
+{'loss': 3.4626, 'grad_norm': 2.4707367420196533, 'learning_rate': 4.101636848115721e-06, 'epoch': 0.81}
+{'loss': 3.3851, 'grad_norm': 2.0827624797821045, 'learning_rate': 4.099733536353255e-06, 'epoch': 0.81}
+{'loss': 3.4951, 'grad_norm': 2.54604434967041, 'learning_rate': 4.097830224590788e-06, 'epoch': 0.81}
+{'loss': 3.3737, 'grad_norm': 2.4485831260681152, 'learning_rate': 4.095926912828322e-06, 'epoch': 0.81}
+{'loss': 3.3822, 'grad_norm': 2.6411044597625732, 'learning_rate': 4.094023601065855e-06, 'epoch': 0.81}
+{'loss': 3.4766, 'grad_norm': 2.4699854850769043, 'learning_rate': 4.092120289303388e-06, 'epoch': 0.81}
+{'eval_loss': 3.71875, 'eval_runtime': 4.1417, 'eval_samples_per_second': 241.446, 'eval_steps_per_second': 10.141, 'epoch': 0.81}
+{'loss': 3.3965, 'grad_norm': 2.9570813179016113, 'learning_rate': 4.0902169775409215e-06, 'epoch': 0.81}
+{'loss': 3.3675, 'grad_norm': 2.119001626968384, 'learning_rate': 4.088313665778455e-06, 'epoch': 0.81}
+{'loss': 3.3786, 'grad_norm': 2.1163361072540283, 'learning_rate': 4.086410354015988e-06, 'epoch': 0.81}
+{'loss': 3.5228, 'grad_norm': 2.4368951320648193, 'learning_rate': 4.0845070422535216e-06, 'epoch': 0.82}
+{'loss': 3.4528, 'grad_norm': 2.30934476852417, 'learning_rate': 4.082603730491055e-06, 'epoch': 0.82}
+{'loss': 3.4303, 'grad_norm': 2.0556232929229736, 'learning_rate': 4.080700418728588e-06, 'epoch': 0.82}
+{'loss': 3.3975, 'grad_norm': 2.31750226020813, 'learning_rate': 4.078797106966122e-06, 'epoch': 0.82}
+{'loss': 3.4069, 'grad_norm': 2.3126258850097656, 'learning_rate': 4.076893795203655e-06, 'epoch': 0.82}
+{'loss': 3.4854, 'grad_norm': 2.267817497253418, 'learning_rate': 4.074990483441188e-06, 'epoch': 0.82}
+{'loss': 3.4554, 'grad_norm': 2.0442566871643066, 'learning_rate': 4.073087171678721e-06, 'epoch': 0.82}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1557, 'eval_samples_per_second': 240.633, 'eval_steps_per_second': 10.107, 'epoch': 0.82}
+{'loss': 3.4762, 'grad_norm': 2.208076238632202, 'learning_rate': 4.071183859916254e-06, 'epoch': 0.82}
+{'loss': 3.4528, 'grad_norm': 2.031564235687256, 'learning_rate': 4.069280548153788e-06, 'epoch': 0.82}
+{'loss': 3.4443, 'grad_norm': 2.629911422729492, 'learning_rate': 4.067377236391321e-06, 'epoch': 0.82}
+{'loss': 3.4437, 'grad_norm': 2.4553351402282715, 'learning_rate': 4.065473924628854e-06, 'epoch': 0.83}
+{'loss': 3.4046, 'grad_norm': 2.358517646789551, 'learning_rate': 4.063570612866388e-06, 'epoch': 0.83}
+{'loss': 3.403, 'grad_norm': 2.228590250015259, 'learning_rate': 4.061667301103921e-06, 'epoch': 0.83}
+{'loss': 3.474, 'grad_norm': 2.159874439239502, 'learning_rate': 4.0597639893414544e-06, 'epoch': 0.83}
+{'loss': 3.4639, 'grad_norm': 2.187267780303955, 'learning_rate': 4.057860677578988e-06, 'epoch': 0.83}
+{'loss': 3.3887, 'grad_norm': 2.3304708003997803, 'learning_rate': 4.055957365816521e-06, 'epoch': 0.83}
+{'loss': 3.4274, 'grad_norm': 2.559537410736084, 'learning_rate': 4.0540540540540545e-06, 'epoch': 0.83}
+{'eval_loss': 3.712890625, 'eval_runtime': 4.1714, 'eval_samples_per_second': 239.728, 'eval_steps_per_second': 10.069, 'epoch': 0.83}
+{'loss': 3.4232, 'grad_norm': 2.306874990463257, 'learning_rate': 4.052150742291588e-06, 'epoch': 0.83}
+{'loss': 3.4023, 'grad_norm': 2.33233904838562, 'learning_rate': 4.050247430529121e-06, 'epoch': 0.83}
+{'loss': 3.4707, 'grad_norm': 2.351752758026123, 'learning_rate': 4.048344118766655e-06, 'epoch': 0.84}
+{'loss': 3.4915, 'grad_norm': 2.388274908065796, 'learning_rate': 4.046440807004188e-06, 'epoch': 0.84}
+{'loss': 3.4648, 'grad_norm': 2.2055726051330566, 'learning_rate': 4.044537495241721e-06, 'epoch': 0.84}
+{'loss': 3.36, 'grad_norm': 2.1681768894195557, 'learning_rate': 4.042634183479255e-06, 'epoch': 0.84}
+{'loss': 3.3597, 'grad_norm': 2.4221060276031494, 'learning_rate': 4.040730871716787e-06, 'epoch': 0.84}
+{'loss': 3.3844, 'grad_norm': 2.5180020332336426, 'learning_rate': 4.038827559954321e-06, 'epoch': 0.84}
+{'loss': 3.3672, 'grad_norm': 2.2891178131103516, 'learning_rate': 4.036924248191854e-06, 'epoch': 0.84}
+{'loss': 3.3506, 'grad_norm': 2.548278331756592, 'learning_rate': 4.035020936429387e-06, 'epoch': 0.84}
+{'eval_loss': 3.71875, 'eval_runtime': 4.1392, 'eval_samples_per_second': 241.592, 'eval_steps_per_second': 10.147, 'epoch': 0.84}
+{'loss': 3.4105, 'grad_norm': 2.373504638671875, 'learning_rate': 4.033117624666921e-06, 'epoch': 0.84}
+{'loss': 3.5251, 'grad_norm': 2.6214144229888916, 'learning_rate': 4.031214312904454e-06, 'epoch': 0.84}
+{'loss': 3.3522, 'grad_norm': 2.318876028060913, 'learning_rate': 4.029311001141987e-06, 'epoch': 0.85}
+{'loss': 3.4443, 'grad_norm': 2.209153652191162, 'learning_rate': 4.027407689379521e-06, 'epoch': 0.85}
+{'loss': 3.3434, 'grad_norm': 2.1270229816436768, 'learning_rate': 4.025504377617054e-06, 'epoch': 0.85}
+{'loss': 3.3968, 'grad_norm': 2.3078837394714355, 'learning_rate': 4.0236010658545875e-06, 'epoch': 0.85}
+{'loss': 3.4466, 'grad_norm': 2.368231773376465, 'learning_rate': 4.02169775409212e-06, 'epoch': 0.85}
+{'loss': 3.4007, 'grad_norm': 2.1086552143096924, 'learning_rate': 4.019794442329653e-06, 'epoch': 0.85}
+{'loss': 3.4382, 'grad_norm': 2.15785813331604, 'learning_rate': 4.0178911305671876e-06, 'epoch': 0.85}
+{'loss': 3.4069, 'grad_norm': 2.4733972549438477, 'learning_rate': 4.015987818804721e-06, 'epoch': 0.85}
+{'eval_loss': 3.71484375, 'eval_runtime': 4.1512, 'eval_samples_per_second': 240.894, 'eval_steps_per_second': 10.118, 'epoch': 0.85}
+{'loss': 3.5195, 'grad_norm': 2.4576146602630615, 'learning_rate': 4.014084507042254e-06, 'epoch': 0.85}
+{'loss': 3.4163, 'grad_norm': 2.2093467712402344, 'learning_rate': 4.012181195279788e-06, 'epoch': 0.85}
+{'loss': 3.4798, 'grad_norm': 2.343280792236328, 'learning_rate': 4.010277883517321e-06, 'epoch': 0.86}
+{'loss': 3.4131, 'grad_norm': 2.309993028640747, 'learning_rate': 4.0083745717548535e-06, 'epoch': 0.86}
+{'loss': 3.3675, 'grad_norm': 2.4120872020721436, 'learning_rate': 4.006471259992387e-06, 'epoch': 0.86}
+{'loss': 3.3711, 'grad_norm': 1.977956771850586, 'learning_rate': 4.00456794822992e-06, 'epoch': 0.86}
+{'loss': 3.459, 'grad_norm': 2.368643283843994, 'learning_rate': 4.002664636467454e-06, 'epoch': 0.86}
+{'loss': 3.3893, 'grad_norm': 2.2912826538085938, 'learning_rate': 4.000761324704987e-06, 'epoch': 0.86}
+{'loss': 3.3473, 'grad_norm': 2.3115127086639404, 'learning_rate': 3.99885801294252e-06, 'epoch': 0.86}
+{'loss': 3.3997, 'grad_norm': 2.0204660892486572, 'learning_rate': 3.996954701180054e-06, 'epoch': 0.86}
+{'eval_loss': 3.712890625, 'eval_runtime': 4.1579, 'eval_samples_per_second': 240.507, 'eval_steps_per_second': 10.101, 'epoch': 0.86}
+{'loss': 3.4199, 'grad_norm': 2.058776617050171, 'learning_rate': 3.995051389417587e-06, 'epoch': 0.86}
+{'loss': 3.4993, 'grad_norm': 2.0032758712768555, 'learning_rate': 3.9931480776551204e-06, 'epoch': 0.86}
+{'loss': 3.3965, 'grad_norm': 2.3611245155334473, 'learning_rate': 3.991244765892654e-06, 'epoch': 0.87}
+{'loss': 3.3477, 'grad_norm': 2.7272307872772217, 'learning_rate': 3.989341454130186e-06, 'epoch': 0.87}
+{'loss': 3.4688, 'grad_norm': 2.414125919342041, 'learning_rate': 3.98743814236772e-06, 'epoch': 0.87}
+{'loss': 3.3564, 'grad_norm': 2.651477098464966, 'learning_rate': 3.985534830605253e-06, 'epoch': 0.87}
+{'loss': 3.3955, 'grad_norm': 2.2053422927856445, 'learning_rate': 3.983631518842786e-06, 'epoch': 0.87}
+{'loss': 3.3656, 'grad_norm': 2.5424914360046387, 'learning_rate': 3.98172820708032e-06, 'epoch': 0.87}
+{'loss': 3.4053, 'grad_norm': 2.2291276454925537, 'learning_rate': 3.979824895317854e-06, 'epoch': 0.87}
+{'loss': 3.3649, 'grad_norm': 2.3180370330810547, 'learning_rate': 3.977921583555387e-06, 'epoch': 0.87}
+{'eval_loss': 3.712890625, 'eval_runtime': 4.14, 'eval_samples_per_second': 241.547, 'eval_steps_per_second': 10.145, 'epoch': 0.87}
+{'loss': 3.3317, 'grad_norm': 1.986760139465332, 'learning_rate': 3.97601827179292e-06, 'epoch': 0.87}
+{'loss': 3.3955, 'grad_norm': 2.4201231002807617, 'learning_rate': 3.974114960030453e-06, 'epoch': 0.88}
+{'loss': 3.473, 'grad_norm': 2.4157257080078125, 'learning_rate': 3.9722116482679866e-06, 'epoch': 0.88}
+{'loss': 3.4209, 'grad_norm': 2.113570213317871, 'learning_rate': 3.97030833650552e-06, 'epoch': 0.88}
+{'loss': 3.3968, 'grad_norm': 2.130782127380371, 'learning_rate': 3.968405024743053e-06, 'epoch': 0.88}
+{'loss': 3.4613, 'grad_norm': 2.1336846351623535, 'learning_rate': 3.966501712980587e-06, 'epoch': 0.88}
+{'loss': 3.4404, 'grad_norm': 2.133664608001709, 'learning_rate': 3.96459840121812e-06, 'epoch': 0.88}
+{'loss': 3.5114, 'grad_norm': 2.3124542236328125, 'learning_rate': 3.962695089455653e-06, 'epoch': 0.88}
+{'loss': 3.3724, 'grad_norm': 2.407600164413452, 'learning_rate': 3.960791777693187e-06, 'epoch': 0.88}
+{'loss': 3.5127, 'grad_norm': 2.3092520236968994, 'learning_rate': 3.95888846593072e-06, 'epoch': 0.88}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.169, 'eval_samples_per_second': 239.868, 'eval_steps_per_second': 10.074, 'epoch': 0.88}
+{'loss': 3.3708, 'grad_norm': 2.1580326557159424, 'learning_rate': 3.956985154168253e-06, 'epoch': 0.88}
+{'loss': 3.4268, 'grad_norm': 2.115298271179199, 'learning_rate': 3.955081842405786e-06, 'epoch': 0.89}
+{'loss': 3.4297, 'grad_norm': 2.0676517486572266, 'learning_rate': 3.953178530643319e-06, 'epoch': 0.89}
+{'loss': 3.4688, 'grad_norm': 2.514216423034668, 'learning_rate': 3.951275218880853e-06, 'epoch': 0.89}
+{'loss': 3.4121, 'grad_norm': 2.0890040397644043, 'learning_rate': 3.949371907118386e-06, 'epoch': 0.89}
+{'loss': 3.416, 'grad_norm': 2.1609270572662354, 'learning_rate': 3.9474685953559194e-06, 'epoch': 0.89}
+{'loss': 3.4495, 'grad_norm': 2.557131767272949, 'learning_rate': 3.945565283593453e-06, 'epoch': 0.89}
+{'loss': 3.2998, 'grad_norm': 2.3581948280334473, 'learning_rate': 3.943661971830986e-06, 'epoch': 0.89}
+{'loss': 3.3604, 'grad_norm': 2.2877719402313232, 'learning_rate': 3.9417586600685195e-06, 'epoch': 0.89}
+{'loss': 3.2979, 'grad_norm': 2.109707832336426, 'learning_rate': 3.939855348306053e-06, 'epoch': 0.89}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1505, 'eval_samples_per_second': 240.933, 'eval_steps_per_second': 10.119, 'epoch': 0.89}
+{'loss': 3.5065, 'grad_norm': 2.0795397758483887, 'learning_rate': 3.937952036543586e-06, 'epoch': 0.89}
+{'loss': 3.46, 'grad_norm': 2.278395652770996, 'learning_rate': 3.93604872478112e-06, 'epoch': 0.9}
+{'loss': 3.4121, 'grad_norm': 2.1978230476379395, 'learning_rate': 3.934145413018653e-06, 'epoch': 0.9}
+{'loss': 3.3675, 'grad_norm': 2.2131876945495605, 'learning_rate': 3.932242101256186e-06, 'epoch': 0.9}
+{'loss': 3.4238, 'grad_norm': 1.9883785247802734, 'learning_rate': 3.93033878949372e-06, 'epoch': 0.9}
+{'loss': 3.3763, 'grad_norm': 2.068986415863037, 'learning_rate': 3.928435477731253e-06, 'epoch': 0.9}
+{'loss': 3.3434, 'grad_norm': 2.1188416481018066, 'learning_rate': 3.9265321659687864e-06, 'epoch': 0.9}
+{'loss': 3.4756, 'grad_norm': 2.1236648559570312, 'learning_rate': 3.924628854206319e-06, 'epoch': 0.9}
+{'loss': 3.4173, 'grad_norm': 2.165980577468872, 'learning_rate': 3.922725542443852e-06, 'epoch': 0.9}
+{'loss': 3.348, 'grad_norm': 2.4664065837860107, 'learning_rate': 3.920822230681386e-06, 'epoch': 0.9}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1426, 'eval_samples_per_second': 241.392, 'eval_steps_per_second': 10.138, 'epoch': 0.9}
+{'loss': 3.4437, 'grad_norm': 2.206648111343384, 'learning_rate': 3.918918918918919e-06, 'epoch': 0.9}
+{'loss': 3.4408, 'grad_norm': 2.1268062591552734, 'learning_rate': 3.917015607156452e-06, 'epoch': 0.91}
+{'loss': 3.387, 'grad_norm': 2.4516093730926514, 'learning_rate': 3.915112295393986e-06, 'epoch': 0.91}
+{'loss': 3.3877, 'grad_norm': 2.2228496074676514, 'learning_rate': 3.913208983631519e-06, 'epoch': 0.91}
+{'loss': 3.4525, 'grad_norm': 2.1444778442382812, 'learning_rate': 3.9113056718690525e-06, 'epoch': 0.91}
+{'loss': 3.3942, 'grad_norm': 2.316632032394409, 'learning_rate': 3.909402360106586e-06, 'epoch': 0.91}
+{'loss': 3.5036, 'grad_norm': 2.0349581241607666, 'learning_rate': 3.907499048344119e-06, 'epoch': 0.91}
+{'loss': 3.4814, 'grad_norm': 2.0937447547912598, 'learning_rate': 3.905595736581652e-06, 'epoch': 0.91}
+{'loss': 3.4424, 'grad_norm': 2.0983731746673584, 'learning_rate': 3.903692424819186e-06, 'epoch': 0.91}
+{'loss': 3.349, 'grad_norm': 2.541477680206299, 'learning_rate': 3.901789113056719e-06, 'epoch': 0.91}
+{'eval_loss': 3.701171875, 'eval_runtime': 4.1695, 'eval_samples_per_second': 239.834, 'eval_steps_per_second': 10.073, 'epoch': 0.91}
+{'loss': 3.4059, 'grad_norm': 2.0924646854400635, 'learning_rate': 3.899885801294253e-06, 'epoch': 0.92}
+{'loss': 3.4131, 'grad_norm': 2.2684414386749268, 'learning_rate': 3.897982489531786e-06, 'epoch': 0.92}
+{'loss': 3.3831, 'grad_norm': 2.2870445251464844, 'learning_rate': 3.896079177769319e-06, 'epoch': 0.92}
+{'loss': 3.3258, 'grad_norm': 2.1603055000305176, 'learning_rate': 3.894175866006853e-06, 'epoch': 0.92}
+{'loss': 3.4258, 'grad_norm': 2.1423323154449463, 'learning_rate': 3.892272554244385e-06, 'epoch': 0.92}
+{'loss': 3.3799, 'grad_norm': 1.882167100906372, 'learning_rate': 3.890369242481919e-06, 'epoch': 0.92}
+{'loss': 3.3216, 'grad_norm': 2.2411203384399414, 'learning_rate': 3.888465930719452e-06, 'epoch': 0.92}
+{'loss': 3.3646, 'grad_norm': 1.972553014755249, 'learning_rate': 3.886562618956985e-06, 'epoch': 0.92}
+{'loss': 3.3828, 'grad_norm': 2.5254838466644287, 'learning_rate': 3.884659307194519e-06, 'epoch': 0.92}
+{'loss': 3.3044, 'grad_norm': 1.9873790740966797, 'learning_rate': 3.882755995432052e-06, 'epoch': 0.92}
+{'eval_loss': 3.705078125, 'eval_runtime': 4.1581, 'eval_samples_per_second': 240.496, 'eval_steps_per_second': 10.101, 'epoch': 0.92}
+{'loss': 3.3714, 'grad_norm': 2.399163246154785, 'learning_rate': 3.8808526836695854e-06, 'epoch': 0.93}
+{'loss': 3.3737, 'grad_norm': 2.0440425872802734, 'learning_rate': 3.878949371907119e-06, 'epoch': 0.93}
+{'loss': 3.4401, 'grad_norm': 1.980358600616455, 'learning_rate': 3.877046060144652e-06, 'epoch': 0.93}
+{'loss': 3.4202, 'grad_norm': 2.3318283557891846, 'learning_rate': 3.8751427483821855e-06, 'epoch': 0.93}
+{'loss': 3.4108, 'grad_norm': 2.228451728820801, 'learning_rate': 3.873239436619718e-06, 'epoch': 0.93}
+{'loss': 3.4587, 'grad_norm': 2.7171132564544678, 'learning_rate': 3.871336124857251e-06, 'epoch': 0.93}
+{'loss': 3.3411, 'grad_norm': 2.1673166751861572, 'learning_rate': 3.869432813094785e-06, 'epoch': 0.93}
+{'loss': 3.4176, 'grad_norm': 2.3130111694335938, 'learning_rate': 3.867529501332318e-06, 'epoch': 0.93}
+{'loss': 3.3896, 'grad_norm': 2.3114986419677734, 'learning_rate': 3.8656261895698515e-06, 'epoch': 0.93}
+{'loss': 3.4108, 'grad_norm': 1.9622228145599365, 'learning_rate': 3.863722877807386e-06, 'epoch': 0.93}
+{'eval_loss': 3.705078125, 'eval_runtime': 4.1459, 'eval_samples_per_second': 241.201, 'eval_steps_per_second': 10.13, 'epoch': 0.93}
+{'loss': 3.3802, 'grad_norm': 2.3882462978363037, 'learning_rate': 3.861819566044919e-06, 'epoch': 0.94}
+{'loss': 3.404, 'grad_norm': 1.9997570514678955, 'learning_rate': 3.859916254282452e-06, 'epoch': 0.94}
+{'loss': 3.3099, 'grad_norm': 2.448120594024658, 'learning_rate': 3.858012942519985e-06, 'epoch': 0.94}
+{'loss': 3.3385, 'grad_norm': 2.1261794567108154, 'learning_rate': 3.856109630757518e-06, 'epoch': 0.94}
+{'loss': 3.4661, 'grad_norm': 2.4184303283691406, 'learning_rate': 3.854206318995052e-06, 'epoch': 0.94}
+{'loss': 3.4505, 'grad_norm': 2.3060946464538574, 'learning_rate': 3.852303007232585e-06, 'epoch': 0.94}
+{'loss': 3.4678, 'grad_norm': 1.9916865825653076, 'learning_rate': 3.850399695470118e-06, 'epoch': 0.94}
+{'loss': 3.3193, 'grad_norm': 2.6193907260894775, 'learning_rate': 3.848496383707652e-06, 'epoch': 0.94}
+{'loss': 3.446, 'grad_norm': 2.073305606842041, 'learning_rate': 3.846593071945185e-06, 'epoch': 0.94}
+{'loss': 3.3822, 'grad_norm': 2.085432291030884, 'learning_rate': 3.8446897601827185e-06, 'epoch': 0.95}
+{'eval_loss': 3.701171875, 'eval_runtime': 4.1569, 'eval_samples_per_second': 240.564, 'eval_steps_per_second': 10.104, 'epoch': 0.95}
+{'loss': 3.3818, 'grad_norm': 2.1648612022399902, 'learning_rate': 3.842786448420252e-06, 'epoch': 0.95}
+{'loss': 3.3018, 'grad_norm': 2.2895987033843994, 'learning_rate': 3.840883136657785e-06, 'epoch': 0.95}
+{'loss': 3.348, 'grad_norm': 2.140458106994629, 'learning_rate': 3.838979824895318e-06, 'epoch': 0.95}
+{'loss': 3.4268, 'grad_norm': 2.263922929763794, 'learning_rate': 3.837076513132851e-06, 'epoch': 0.95}
+{'loss': 3.3877, 'grad_norm': 2.1145365238189697, 'learning_rate': 3.8351732013703844e-06, 'epoch': 0.95}
+{'loss': 3.3617, 'grad_norm': 2.239649772644043, 'learning_rate': 3.833269889607918e-06, 'epoch': 0.95}
+{'loss': 3.359, 'grad_norm': 2.061182737350464, 'learning_rate': 3.831366577845451e-06, 'epoch': 0.95}
+{'loss': 3.3958, 'grad_norm': 3.01503586769104, 'learning_rate': 3.8294632660829845e-06, 'epoch': 0.95}
+{'loss': 3.3353, 'grad_norm': 2.275408983230591, 'learning_rate': 3.827559954320518e-06, 'epoch': 0.95}
+{'loss': 3.4733, 'grad_norm': 2.420912027359009, 'learning_rate': 3.825656642558051e-06, 'epoch': 0.96}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.143, 'eval_samples_per_second': 241.372, 'eval_steps_per_second': 10.138, 'epoch': 0.96}
+{'loss': 3.4131, 'grad_norm': 2.1808600425720215, 'learning_rate': 3.823753330795585e-06, 'epoch': 0.96}
+{'loss': 3.3037, 'grad_norm': 2.402526378631592, 'learning_rate': 3.821850019033118e-06, 'epoch': 0.96}
+{'loss': 3.2832, 'grad_norm': 2.5197412967681885, 'learning_rate': 3.819946707270651e-06, 'epoch': 0.96}
+{'loss': 3.3789, 'grad_norm': 2.152719736099243, 'learning_rate': 3.818043395508185e-06, 'epoch': 0.96}
+{'loss': 3.363, 'grad_norm': 2.397434949874878, 'learning_rate': 3.816140083745718e-06, 'epoch': 0.96}
+{'loss': 3.3714, 'grad_norm': 2.2311346530914307, 'learning_rate': 3.8142367719832514e-06, 'epoch': 0.96}
+{'loss': 3.3766, 'grad_norm': 2.351043462753296, 'learning_rate': 3.8123334602207844e-06, 'epoch': 0.96}
+{'loss': 3.401, 'grad_norm': 2.017184019088745, 'learning_rate': 3.8104301484583177e-06, 'epoch': 0.96}
+{'loss': 3.443, 'grad_norm': 2.1369001865386963, 'learning_rate': 3.808526836695851e-06, 'epoch': 0.96}
+{'loss': 3.4548, 'grad_norm': 2.094552993774414, 'learning_rate': 3.8066235249333845e-06, 'epoch': 0.97}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.1468, 'eval_samples_per_second': 241.147, 'eval_steps_per_second': 10.128, 'epoch': 0.97}
+{'loss': 3.4072, 'grad_norm': 2.343533992767334, 'learning_rate': 3.804720213170918e-06, 'epoch': 0.97}
+{'loss': 3.4492, 'grad_norm': 2.1448726654052734, 'learning_rate': 3.8028169014084508e-06, 'epoch': 0.97}
+{'loss': 3.4157, 'grad_norm': 2.196913003921509, 'learning_rate': 3.800913589645984e-06, 'epoch': 0.97}
+{'loss': 3.3721, 'grad_norm': 2.1422128677368164, 'learning_rate': 3.7990102778835175e-06, 'epoch': 0.97}
+{'loss': 3.3265, 'grad_norm': 1.9832626581192017, 'learning_rate': 3.797106966121051e-06, 'epoch': 0.97}
+{'loss': 3.3991, 'grad_norm': 2.3201286792755127, 'learning_rate': 3.7952036543585842e-06, 'epoch': 0.97}
+{'loss': 3.334, 'grad_norm': 2.205427885055542, 'learning_rate': 3.793300342596117e-06, 'epoch': 0.97}
+{'loss': 3.2936, 'grad_norm': 2.2320444583892822, 'learning_rate': 3.7913970308336505e-06, 'epoch': 0.97}
+{'loss': 3.2422, 'grad_norm': 2.231297492980957, 'learning_rate': 3.789493719071184e-06, 'epoch': 0.97}
+{'loss': 3.3447, 'grad_norm': 2.558528423309326, 'learning_rate': 3.7875904073087177e-06, 'epoch': 0.98}
+{'eval_loss': 3.69921875, 'eval_runtime': 4.1561, 'eval_samples_per_second': 240.609, 'eval_steps_per_second': 10.106, 'epoch': 0.98}
+{'loss': 3.347, 'grad_norm': 2.3942151069641113, 'learning_rate': 3.785687095546251e-06, 'epoch': 0.98}
+{'loss': 3.3542, 'grad_norm': 2.4553117752075195, 'learning_rate': 3.7837837837837844e-06, 'epoch': 0.98}
+{'loss': 3.3226, 'grad_norm': 1.9599242210388184, 'learning_rate': 3.7818804720213178e-06, 'epoch': 0.98}
+{'loss': 3.4059, 'grad_norm': 2.6192402839660645, 'learning_rate': 3.7799771602588507e-06, 'epoch': 0.98}
+{'loss': 3.3688, 'grad_norm': 2.025956153869629, 'learning_rate': 3.778073848496384e-06, 'epoch': 0.98}
+{'loss': 3.2891, 'grad_norm': 1.9735900163650513, 'learning_rate': 3.7761705367339174e-06, 'epoch': 0.98}
+{'loss': 3.29, 'grad_norm': 2.302882671356201, 'learning_rate': 3.7742672249714508e-06, 'epoch': 0.98}
+{'loss': 3.3633, 'grad_norm': 2.0220346450805664, 'learning_rate': 3.772363913208984e-06, 'epoch': 0.98}
+{'loss': 3.4375, 'grad_norm': 2.090249538421631, 'learning_rate': 3.770460601446517e-06, 'epoch': 0.99}
+{'loss': 3.3457, 'grad_norm': 2.5899085998535156, 'learning_rate': 3.7685572896840504e-06, 'epoch': 0.99}
+{'eval_loss': 3.6953125, 'eval_runtime': 4.1391, 'eval_samples_per_second': 241.6, 'eval_steps_per_second': 10.147, 'epoch': 0.99}
+{'loss': 3.346, 'grad_norm': 2.345975399017334, 'learning_rate': 3.766653977921584e-06, 'epoch': 0.99}
+{'loss': 3.3896, 'grad_norm': 2.118443489074707, 'learning_rate': 3.764750666159117e-06, 'epoch': 0.99}
+{'loss': 3.4189, 'grad_norm': 2.0484912395477295, 'learning_rate': 3.7628473543966505e-06, 'epoch': 0.99}
+{'loss': 3.3441, 'grad_norm': 2.697289228439331, 'learning_rate': 3.7609440426341835e-06, 'epoch': 0.99}
+{'loss': 3.3626, 'grad_norm': 2.4703216552734375, 'learning_rate': 3.759040730871717e-06, 'epoch': 0.99}
+{'loss': 3.418, 'grad_norm': 1.9437828063964844, 'learning_rate': 3.75713741910925e-06, 'epoch': 0.99}
+{'loss': 3.4535, 'grad_norm': 2.057933807373047, 'learning_rate': 3.7552341073467836e-06, 'epoch': 0.99}
+{'loss': 3.3753, 'grad_norm': 2.0196213722229004, 'learning_rate': 3.753330795584317e-06, 'epoch': 0.99}
+{'loss': 3.3164, 'grad_norm': 2.1721293926239014, 'learning_rate': 3.75142748382185e-06, 'epoch': 1.0}
+{'loss': 3.3672, 'grad_norm': 2.0099613666534424, 'learning_rate': 3.749524172059384e-06, 'epoch': 1.0}
+{'eval_loss': 3.6953125, 'eval_runtime': 4.1598, 'eval_samples_per_second': 240.397, 'eval_steps_per_second': 10.097, 'epoch': 1.0}
+{'loss': 3.3786, 'grad_norm': 1.9468945264816284, 'learning_rate': 3.747620860296917e-06, 'epoch': 1.0}
+{'loss': 3.3932, 'grad_norm': 2.463714838027954, 'learning_rate': 3.7457175485344504e-06, 'epoch': 1.0}
+{'loss': 3.3896, 'grad_norm': 2.1436820030212402, 'learning_rate': 3.7438142367719837e-06, 'epoch': 1.0}
+{'loss': 3.3122, 'grad_norm': 2.127875566482544, 'learning_rate': 3.741910925009517e-06, 'epoch': 1.0}
+{'loss': 3.2432, 'grad_norm': 2.2775816917419434, 'learning_rate': 3.7400076132470505e-06, 'epoch': 1.0}
+{'loss': 3.3519, 'grad_norm': 2.1303882598876953, 'learning_rate': 3.7381043014845834e-06, 'epoch': 1.0}
+{'loss': 3.4284, 'grad_norm': 1.864615559577942, 'learning_rate': 3.7362009897221168e-06, 'epoch': 1.0}
+{'loss': 3.3802, 'grad_norm': 2.2940673828125, 'learning_rate': 3.73429767795965e-06, 'epoch': 1.0}
+{'loss': 3.3763, 'grad_norm': 2.1947579383850098, 'learning_rate': 3.7323943661971835e-06, 'epoch': 1.01}
+{'loss': 3.3372, 'grad_norm': 2.3066606521606445, 'learning_rate': 3.730491054434717e-06, 'epoch': 1.01}
+{'eval_loss': 3.693359375, 'eval_runtime': 4.1479, 'eval_samples_per_second': 241.088, 'eval_steps_per_second': 10.126, 'epoch': 1.01}
+{'loss': 3.3825, 'grad_norm': 1.9817203283309937, 'learning_rate': 3.72858774267225e-06, 'epoch': 1.01}
+{'loss': 3.3831, 'grad_norm': 2.0627360343933105, 'learning_rate': 3.726684430909783e-06, 'epoch': 1.01}
+{'loss': 3.3483, 'grad_norm': 2.1381490230560303, 'learning_rate': 3.7247811191473165e-06, 'epoch': 1.01}
+{'loss': 3.4137, 'grad_norm': 2.0230963230133057, 'learning_rate': 3.72287780738485e-06, 'epoch': 1.01}
+{'loss': 3.3597, 'grad_norm': 2.1900525093078613, 'learning_rate': 3.7209744956223832e-06, 'epoch': 1.01}
+{'loss': 3.4414, 'grad_norm': 1.9948296546936035, 'learning_rate': 3.719071183859916e-06, 'epoch': 1.01}
+{'loss': 3.3473, 'grad_norm': 2.1029038429260254, 'learning_rate': 3.7171678720974495e-06, 'epoch': 1.01}
+{'loss': 3.2992, 'grad_norm': 2.2422478199005127, 'learning_rate': 3.715264560334983e-06, 'epoch': 1.01}
+{'loss': 3.3994, 'grad_norm': 2.050920009613037, 'learning_rate': 3.7133612485725163e-06, 'epoch': 1.02}
+{'loss': 3.3757, 'grad_norm': 2.4464735984802246, 'learning_rate': 3.71145793681005e-06, 'epoch': 1.02}
+{'eval_loss': 3.69140625, 'eval_runtime': 4.1401, 'eval_samples_per_second': 241.542, 'eval_steps_per_second': 10.145, 'epoch': 1.02}
+{'loss': 3.3271, 'grad_norm': 2.253464698791504, 'learning_rate': 3.7095546250475834e-06, 'epoch': 1.02}
+{'loss': 3.3936, 'grad_norm': 2.133359432220459, 'learning_rate': 3.7076513132851168e-06, 'epoch': 1.02}
+{'loss': 3.3721, 'grad_norm': 2.0192856788635254, 'learning_rate': 3.7057480015226497e-06, 'epoch': 1.02}
+{'loss': 3.3981, 'grad_norm': 1.896056890487671, 'learning_rate': 3.703844689760183e-06, 'epoch': 1.02}
+{'loss': 3.4264, 'grad_norm': 1.8373007774353027, 'learning_rate': 3.7019413779977164e-06, 'epoch': 1.02}
+{'loss': 3.3691, 'grad_norm': 1.879560947418213, 'learning_rate': 3.70003806623525e-06, 'epoch': 1.02}
+{'loss': 3.3656, 'grad_norm': 2.065648078918457, 'learning_rate': 3.698134754472783e-06, 'epoch': 1.02}
+{'loss': 3.3828, 'grad_norm': 2.5502266883850098, 'learning_rate': 3.696231442710316e-06, 'epoch': 1.03}
+{'loss': 3.3965, 'grad_norm': 2.0427205562591553, 'learning_rate': 3.6943281309478495e-06, 'epoch': 1.03}
+{'loss': 3.3304, 'grad_norm': 2.2399404048919678, 'learning_rate': 3.692424819185383e-06, 'epoch': 1.03}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.157, 'eval_samples_per_second': 240.556, 'eval_steps_per_second': 10.103, 'epoch': 1.03}
+{'loss': 3.3721, 'grad_norm': 2.1746201515197754, 'learning_rate': 3.690521507422916e-06, 'epoch': 1.03}
+{'loss': 3.3831, 'grad_norm': 2.3915092945098877, 'learning_rate': 3.6886181956604496e-06, 'epoch': 1.03}
+{'loss': 3.3962, 'grad_norm': 2.063000440597534, 'learning_rate': 3.686714883897983e-06, 'epoch': 1.03}
+{'loss': 3.4251, 'grad_norm': 2.1260409355163574, 'learning_rate': 3.684811572135516e-06, 'epoch': 1.03}
+{'loss': 3.361, 'grad_norm': 2.487170696258545, 'learning_rate': 3.6829082603730492e-06, 'epoch': 1.03}
+{'loss': 3.277, 'grad_norm': 2.2783522605895996, 'learning_rate': 3.6810049486105826e-06, 'epoch': 1.03}
+{'loss': 3.3597, 'grad_norm': 2.08294677734375, 'learning_rate': 3.679101636848116e-06, 'epoch': 1.03}
+{'loss': 3.32, 'grad_norm': 2.403909206390381, 'learning_rate': 3.6771983250856493e-06, 'epoch': 1.04}
+{'loss': 3.3737, 'grad_norm': 2.123685598373413, 'learning_rate': 3.6752950133231822e-06, 'epoch': 1.04}
+{'loss': 3.3128, 'grad_norm': 2.008040189743042, 'learning_rate': 3.6733917015607156e-06, 'epoch': 1.04}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1442, 'eval_samples_per_second': 241.301, 'eval_steps_per_second': 10.135, 'epoch': 1.04}
+{'loss': 3.3447, 'grad_norm': 2.127093553543091, 'learning_rate': 3.6714883897982494e-06, 'epoch': 1.04}
+{'loss': 3.363, 'grad_norm': 2.0451178550720215, 'learning_rate': 3.6695850780357828e-06, 'epoch': 1.04}
+{'loss': 3.3659, 'grad_norm': 2.2082371711730957, 'learning_rate': 3.667681766273316e-06, 'epoch': 1.04}
+{'loss': 3.2826, 'grad_norm': 1.9953079223632812, 'learning_rate': 3.6657784545108495e-06, 'epoch': 1.04}
+{'loss': 3.3477, 'grad_norm': 2.098158359527588, 'learning_rate': 3.6638751427483824e-06, 'epoch': 1.04}
+{'loss': 3.3073, 'grad_norm': 2.208136796951294, 'learning_rate': 3.6619718309859158e-06, 'epoch': 1.04}
+{'loss': 3.4085, 'grad_norm': 1.9980523586273193, 'learning_rate': 3.660068519223449e-06, 'epoch': 1.04}
+{'loss': 3.3473, 'grad_norm': 1.9749480485916138, 'learning_rate': 3.6581652074609825e-06, 'epoch': 1.05}
+{'loss': 3.292, 'grad_norm': 2.2851085662841797, 'learning_rate': 3.656261895698516e-06, 'epoch': 1.05}
+{'loss': 3.3818, 'grad_norm': 2.206800699234009, 'learning_rate': 3.6543585839360492e-06, 'epoch': 1.05}
+{'eval_loss': 3.693359375, 'eval_runtime': 4.138, 'eval_samples_per_second': 241.661, 'eval_steps_per_second': 10.15, 'epoch': 1.05}
+{'loss': 3.3633, 'grad_norm': 2.184039354324341, 'learning_rate': 3.652455272173582e-06, 'epoch': 1.05}
+{'loss': 3.3337, 'grad_norm': 1.912466049194336, 'learning_rate': 3.6505519604111155e-06, 'epoch': 1.05}
+{'loss': 3.3701, 'grad_norm': 2.0958974361419678, 'learning_rate': 3.648648648648649e-06, 'epoch': 1.05}
+{'loss': 3.2917, 'grad_norm': 1.9966627359390259, 'learning_rate': 3.6467453368861823e-06, 'epoch': 1.05}
+{'loss': 3.3978, 'grad_norm': 2.1516835689544678, 'learning_rate': 3.6448420251237156e-06, 'epoch': 1.05}
+{'loss': 3.4141, 'grad_norm': 2.145671844482422, 'learning_rate': 3.6429387133612486e-06, 'epoch': 1.05}
+{'loss': 3.4176, 'grad_norm': 2.2709109783172607, 'learning_rate': 3.641035401598782e-06, 'epoch': 1.05}
+{'loss': 3.3213, 'grad_norm': 2.2038824558258057, 'learning_rate': 3.6391320898363153e-06, 'epoch': 1.06}
+{'loss': 3.4001, 'grad_norm': 2.0946147441864014, 'learning_rate': 3.6372287780738487e-06, 'epoch': 1.06}
+{'loss': 3.2956, 'grad_norm': 2.6565604209899902, 'learning_rate': 3.635325466311382e-06, 'epoch': 1.06}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1546, 'eval_samples_per_second': 240.696, 'eval_steps_per_second': 10.109, 'epoch': 1.06}
+{'loss': 3.3018, 'grad_norm': 2.067537546157837, 'learning_rate': 3.633422154548916e-06, 'epoch': 1.06}
+{'loss': 3.3102, 'grad_norm': 2.1585826873779297, 'learning_rate': 3.6315188427864487e-06, 'epoch': 1.06}
+{'loss': 3.2982, 'grad_norm': 2.125187635421753, 'learning_rate': 3.629615531023982e-06, 'epoch': 1.06}
+{'loss': 3.389, 'grad_norm': 2.1667678356170654, 'learning_rate': 3.6277122192615155e-06, 'epoch': 1.06}
+{'loss': 3.3079, 'grad_norm': 1.8298428058624268, 'learning_rate': 3.625808907499049e-06, 'epoch': 1.06}
+{'loss': 3.3291, 'grad_norm': 1.9712876081466675, 'learning_rate': 3.623905595736582e-06, 'epoch': 1.06}
+{'loss': 3.3353, 'grad_norm': 1.9863256216049194, 'learning_rate': 3.6220022839741156e-06, 'epoch': 1.07}
+{'loss': 3.3262, 'grad_norm': 1.8877553939819336, 'learning_rate': 3.6200989722116485e-06, 'epoch': 1.07}
+{'loss': 3.3229, 'grad_norm': 2.2796528339385986, 'learning_rate': 3.618195660449182e-06, 'epoch': 1.07}
+{'loss': 3.4538, 'grad_norm': 2.5018885135650635, 'learning_rate': 3.6162923486867152e-06, 'epoch': 1.07}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1427, 'eval_samples_per_second': 241.388, 'eval_steps_per_second': 10.138, 'epoch': 1.07}
+{'loss': 3.3773, 'grad_norm': 1.886599063873291, 'learning_rate': 3.6143890369242486e-06, 'epoch': 1.07}
+{'loss': 3.3018, 'grad_norm': 2.616353988647461, 'learning_rate': 3.612485725161782e-06, 'epoch': 1.07}
+{'loss': 3.4294, 'grad_norm': 2.1355223655700684, 'learning_rate': 3.610582413399315e-06, 'epoch': 1.07}
+{'loss': 3.3574, 'grad_norm': 2.271564483642578, 'learning_rate': 3.6086791016368482e-06, 'epoch': 1.07}
+{'loss': 3.2715, 'grad_norm': 2.097379207611084, 'learning_rate': 3.6067757898743816e-06, 'epoch': 1.07}
+{'loss': 3.3672, 'grad_norm': 1.9406524896621704, 'learning_rate': 3.604872478111915e-06, 'epoch': 1.07}
+{'loss': 3.4072, 'grad_norm': 1.956139326095581, 'learning_rate': 3.6029691663494483e-06, 'epoch': 1.08}
+{'loss': 3.3398, 'grad_norm': 1.976495385169983, 'learning_rate': 3.6010658545869813e-06, 'epoch': 1.08}
+{'loss': 3.3734, 'grad_norm': 1.8282862901687622, 'learning_rate': 3.5991625428245146e-06, 'epoch': 1.08}
+{'loss': 3.3063, 'grad_norm': 1.941964030265808, 'learning_rate': 3.597259231062048e-06, 'epoch': 1.08}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1415, 'eval_samples_per_second': 241.457, 'eval_steps_per_second': 10.141, 'epoch': 1.08}
+{'loss': 3.3519, 'grad_norm': 2.222368001937866, 'learning_rate': 3.5953559192995818e-06, 'epoch': 1.08}
+{'loss': 3.3122, 'grad_norm': 1.9531476497650146, 'learning_rate': 3.593452607537115e-06, 'epoch': 1.08}
+{'loss': 3.4538, 'grad_norm': 2.4463047981262207, 'learning_rate': 3.5915492957746485e-06, 'epoch': 1.08}
+{'loss': 3.1855, 'grad_norm': 2.427551507949829, 'learning_rate': 3.589645984012182e-06, 'epoch': 1.08}
+{'loss': 3.3477, 'grad_norm': 2.2947089672088623, 'learning_rate': 3.587742672249715e-06, 'epoch': 1.08}
+{'loss': 3.4401, 'grad_norm': 2.421536684036255, 'learning_rate': 3.585839360487248e-06, 'epoch': 1.08}
+{'loss': 3.3369, 'grad_norm': 2.184518814086914, 'learning_rate': 3.5839360487247815e-06, 'epoch': 1.09}
+{'loss': 3.3213, 'grad_norm': 1.9388364553451538, 'learning_rate': 3.582032736962315e-06, 'epoch': 1.09}
+{'loss': 3.3428, 'grad_norm': 2.602396011352539, 'learning_rate': 3.5801294251998483e-06, 'epoch': 1.09}
+{'loss': 3.3789, 'grad_norm': 2.2130589485168457, 'learning_rate': 3.578226113437381e-06, 'epoch': 1.09}
+{'eval_loss': 3.685546875, 'eval_runtime': 4.1503, 'eval_samples_per_second': 240.945, 'eval_steps_per_second': 10.12, 'epoch': 1.09}
+{'loss': 3.3848, 'grad_norm': 2.376038074493408, 'learning_rate': 3.5763228016749146e-06, 'epoch': 1.09}
+{'loss': 3.3721, 'grad_norm': 2.2654964923858643, 'learning_rate': 3.574419489912448e-06, 'epoch': 1.09}
+{'loss': 3.3001, 'grad_norm': 2.3999860286712646, 'learning_rate': 3.5725161781499813e-06, 'epoch': 1.09}
+{'loss': 3.4209, 'grad_norm': 2.3409903049468994, 'learning_rate': 3.5706128663875147e-06, 'epoch': 1.09}
+{'loss': 3.363, 'grad_norm': 2.223054885864258, 'learning_rate': 3.5687095546250476e-06, 'epoch': 1.09}
+{'loss': 3.3906, 'grad_norm': 2.5353293418884277, 'learning_rate': 3.566806242862581e-06, 'epoch': 1.1}
+{'loss': 3.4049, 'grad_norm': 2.068087100982666, 'learning_rate': 3.5649029311001143e-06, 'epoch': 1.1}
+{'loss': 3.2767, 'grad_norm': 2.278376817703247, 'learning_rate': 3.5629996193376477e-06, 'epoch': 1.1}
+{'loss': 3.3802, 'grad_norm': 2.4272539615631104, 'learning_rate': 3.561096307575181e-06, 'epoch': 1.1}
+{'loss': 3.252, 'grad_norm': 2.0041847229003906, 'learning_rate': 3.559192995812714e-06, 'epoch': 1.1}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1393, 'eval_samples_per_second': 241.586, 'eval_steps_per_second': 10.147, 'epoch': 1.1}
+{'loss': 3.2975, 'grad_norm': 1.9639604091644287, 'learning_rate': 3.557289684050248e-06, 'epoch': 1.1}
+{'loss': 3.277, 'grad_norm': 2.4308578968048096, 'learning_rate': 3.555386372287781e-06, 'epoch': 1.1}
+{'loss': 3.3604, 'grad_norm': 2.3683013916015625, 'learning_rate': 3.5534830605253145e-06, 'epoch': 1.1}
+{'loss': 3.4652, 'grad_norm': 2.204345941543579, 'learning_rate': 3.551579748762848e-06, 'epoch': 1.1}
+{'loss': 3.262, 'grad_norm': 1.9746699333190918, 'learning_rate': 3.5496764370003812e-06, 'epoch': 1.1}
+{'loss': 3.4281, 'grad_norm': 2.376690149307251, 'learning_rate': 3.5477731252379146e-06, 'epoch': 1.11}
+{'loss': 3.3594, 'grad_norm': 1.872040867805481, 'learning_rate': 3.5458698134754475e-06, 'epoch': 1.11}
+{'loss': 3.2747, 'grad_norm': 2.1904561519622803, 'learning_rate': 3.543966501712981e-06, 'epoch': 1.11}
+{'loss': 3.3691, 'grad_norm': 2.169731616973877, 'learning_rate': 3.5420631899505142e-06, 'epoch': 1.11}
+{'loss': 3.2878, 'grad_norm': 2.280107021331787, 'learning_rate': 3.5401598781880476e-06, 'epoch': 1.11}
+{'eval_loss': 3.68359375, 'eval_runtime': 4.145, 'eval_samples_per_second': 241.257, 'eval_steps_per_second': 10.133, 'epoch': 1.11}
+{'loss': 3.3213, 'grad_norm': 2.037350654602051, 'learning_rate': 3.538256566425581e-06, 'epoch': 1.11}
+{'loss': 3.3711, 'grad_norm': 2.0929417610168457, 'learning_rate': 3.536353254663114e-06, 'epoch': 1.11}
+{'loss': 3.3789, 'grad_norm': 1.9051223993301392, 'learning_rate': 3.5344499429006473e-06, 'epoch': 1.11}
+{'loss': 3.2718, 'grad_norm': 2.1235015392303467, 'learning_rate': 3.5325466311381806e-06, 'epoch': 1.11}
+{'loss': 3.2507, 'grad_norm': 2.4121105670928955, 'learning_rate': 3.530643319375714e-06, 'epoch': 1.11}
+{'loss': 3.3379, 'grad_norm': 2.1146554946899414, 'learning_rate': 3.5287400076132474e-06, 'epoch': 1.12}
+{'loss': 3.3652, 'grad_norm': 2.0063278675079346, 'learning_rate': 3.5268366958507803e-06, 'epoch': 1.12}
+{'loss': 3.3288, 'grad_norm': 1.905705451965332, 'learning_rate': 3.5249333840883137e-06, 'epoch': 1.12}
+{'loss': 3.3262, 'grad_norm': 1.8558846712112427, 'learning_rate': 3.523030072325847e-06, 'epoch': 1.12}
+{'loss': 3.2891, 'grad_norm': 2.1276121139526367, 'learning_rate': 3.5211267605633804e-06, 'epoch': 1.12}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1492, 'eval_samples_per_second': 241.009, 'eval_steps_per_second': 10.122, 'epoch': 1.12}
+{'loss': 3.3522, 'grad_norm': 2.190657377243042, 'learning_rate': 3.519223448800914e-06, 'epoch': 1.12}
+{'loss': 3.3916, 'grad_norm': 2.0744214057922363, 'learning_rate': 3.5173201370384475e-06, 'epoch': 1.12}
+{'loss': 3.2738, 'grad_norm': 1.8922032117843628, 'learning_rate': 3.515416825275981e-06, 'epoch': 1.12}
+{'loss': 3.3073, 'grad_norm': 1.9364773035049438, 'learning_rate': 3.513513513513514e-06, 'epoch': 1.12}
+{'loss': 3.359, 'grad_norm': 2.0635344982147217, 'learning_rate': 3.511610201751047e-06, 'epoch': 1.12}
+{'loss': 3.3867, 'grad_norm': 2.3753795623779297, 'learning_rate': 3.5097068899885806e-06, 'epoch': 1.13}
+{'loss': 3.3275, 'grad_norm': 2.02921462059021, 'learning_rate': 3.507803578226114e-06, 'epoch': 1.13}
+{'loss': 3.2891, 'grad_norm': 2.128537654876709, 'learning_rate': 3.5059002664636473e-06, 'epoch': 1.13}
+{'loss': 3.2516, 'grad_norm': 2.2885398864746094, 'learning_rate': 3.5039969547011802e-06, 'epoch': 1.13}
+{'loss': 3.3789, 'grad_norm': 2.0686957836151123, 'learning_rate': 3.5020936429387136e-06, 'epoch': 1.13}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1448, 'eval_samples_per_second': 241.267, 'eval_steps_per_second': 10.133, 'epoch': 1.13}
+{'loss': 3.3831, 'grad_norm': 1.9630563259124756, 'learning_rate': 3.500190331176247e-06, 'epoch': 1.13}
+{'loss': 3.3073, 'grad_norm': 2.231139898300171, 'learning_rate': 3.4982870194137803e-06, 'epoch': 1.13}
+{'loss': 3.333, 'grad_norm': 1.985342025756836, 'learning_rate': 3.4963837076513137e-06, 'epoch': 1.13}
+{'loss': 3.3607, 'grad_norm': 1.954171061515808, 'learning_rate': 3.4944803958888466e-06, 'epoch': 1.13}
+{'loss': 3.2435, 'grad_norm': 2.3049230575561523, 'learning_rate': 3.49257708412638e-06, 'epoch': 1.14}
+{'loss': 3.306, 'grad_norm': 2.140242338180542, 'learning_rate': 3.4906737723639133e-06, 'epoch': 1.14}
+{'loss': 3.3405, 'grad_norm': 2.1615240573883057, 'learning_rate': 3.4887704606014467e-06, 'epoch': 1.14}
+{'loss': 3.3711, 'grad_norm': 1.9609400033950806, 'learning_rate': 3.48686714883898e-06, 'epoch': 1.14}
+{'loss': 3.3698, 'grad_norm': 2.227020502090454, 'learning_rate': 3.484963837076513e-06, 'epoch': 1.14}
+{'loss': 3.3239, 'grad_norm': 1.9914494752883911, 'learning_rate': 3.4830605253140464e-06, 'epoch': 1.14}
+{'eval_loss': 3.685546875, 'eval_runtime': 4.1488, 'eval_samples_per_second': 241.032, 'eval_steps_per_second': 10.123, 'epoch': 1.14}
+{'loss': 3.291, 'grad_norm': 2.0760691165924072, 'learning_rate': 3.4811572135515797e-06, 'epoch': 1.14}
+{'loss': 3.2809, 'grad_norm': 1.792625069618225, 'learning_rate': 3.4792539017891135e-06, 'epoch': 1.14}
+{'loss': 3.4232, 'grad_norm': 2.1174514293670654, 'learning_rate': 3.477350590026647e-06, 'epoch': 1.14}
+{'loss': 3.3805, 'grad_norm': 2.099573850631714, 'learning_rate': 3.4754472782641802e-06, 'epoch': 1.14}
+{'loss': 3.2738, 'grad_norm': 2.4272115230560303, 'learning_rate': 3.4735439665017136e-06, 'epoch': 1.15}
+{'loss': 3.2682, 'grad_norm': 2.1474709510803223, 'learning_rate': 3.4716406547392465e-06, 'epoch': 1.15}
+{'loss': 3.3359, 'grad_norm': 2.139598846435547, 'learning_rate': 3.46973734297678e-06, 'epoch': 1.15}
+{'loss': 3.4046, 'grad_norm': 2.444221019744873, 'learning_rate': 3.4678340312143133e-06, 'epoch': 1.15}
+{'loss': 3.3613, 'grad_norm': 2.085291624069214, 'learning_rate': 3.4659307194518466e-06, 'epoch': 1.15}
+{'loss': 3.3001, 'grad_norm': 1.9758003950119019, 'learning_rate': 3.46402740768938e-06, 'epoch': 1.15}
+{'eval_loss': 3.68359375, 'eval_runtime': 4.1454, 'eval_samples_per_second': 241.232, 'eval_steps_per_second': 10.132, 'epoch': 1.15}
+{'loss': 3.2842, 'grad_norm': 2.036555528640747, 'learning_rate': 3.462124095926913e-06, 'epoch': 1.15}
+{'loss': 3.3727, 'grad_norm': 1.9497945308685303, 'learning_rate': 3.4602207841644463e-06, 'epoch': 1.15}
+{'loss': 3.2699, 'grad_norm': 2.7246172428131104, 'learning_rate': 3.4583174724019797e-06, 'epoch': 1.15}
+{'loss': 3.333, 'grad_norm': 2.048652172088623, 'learning_rate': 3.456414160639513e-06, 'epoch': 1.15}
+{'loss': 3.3477, 'grad_norm': 2.3009800910949707, 'learning_rate': 3.4545108488770464e-06, 'epoch': 1.16}
+{'loss': 3.3607, 'grad_norm': 1.9110585451126099, 'learning_rate': 3.4526075371145793e-06, 'epoch': 1.16}
+{'loss': 3.3245, 'grad_norm': 2.051349639892578, 'learning_rate': 3.4507042253521127e-06, 'epoch': 1.16}
+{'loss': 3.32, 'grad_norm': 2.1111397743225098, 'learning_rate': 3.448800913589646e-06, 'epoch': 1.16}
+{'loss': 3.2529, 'grad_norm': 2.083754062652588, 'learning_rate': 3.4468976018271794e-06, 'epoch': 1.16}
+{'loss': 3.3363, 'grad_norm': 2.2416763305664062, 'learning_rate': 3.4449942900647128e-06, 'epoch': 1.16}
+{'eval_loss': 3.6796875, 'eval_runtime': 4.1385, 'eval_samples_per_second': 241.633, 'eval_steps_per_second': 10.149, 'epoch': 1.16}
+{'loss': 3.3278, 'grad_norm': 2.332594156265259, 'learning_rate': 3.443090978302246e-06, 'epoch': 1.16}
+{'loss': 3.3428, 'grad_norm': 2.101107597351074, 'learning_rate': 3.44118766653978e-06, 'epoch': 1.16}
+{'loss': 3.3701, 'grad_norm': 2.0217885971069336, 'learning_rate': 3.439284354777313e-06, 'epoch': 1.16}
+{'loss': 3.2826, 'grad_norm': 2.102320432662964, 'learning_rate': 3.4373810430148462e-06, 'epoch': 1.16}
+{'loss': 3.4255, 'grad_norm': 2.3937695026397705, 'learning_rate': 3.4354777312523796e-06, 'epoch': 1.17}
+{'loss': 3.2741, 'grad_norm': 1.945979356765747, 'learning_rate': 3.433574419489913e-06, 'epoch': 1.17}
+{'loss': 3.3125, 'grad_norm': 2.049694061279297, 'learning_rate': 3.4316711077274463e-06, 'epoch': 1.17}
+{'loss': 3.4264, 'grad_norm': 2.078270435333252, 'learning_rate': 3.4297677959649792e-06, 'epoch': 1.17}
+{'loss': 3.3138, 'grad_norm': 1.9332451820373535, 'learning_rate': 3.4278644842025126e-06, 'epoch': 1.17}
+{'loss': 3.3271, 'grad_norm': 2.284250020980835, 'learning_rate': 3.425961172440046e-06, 'epoch': 1.17}
+{'eval_loss': 3.67578125, 'eval_runtime': 4.151, 'eval_samples_per_second': 240.903, 'eval_steps_per_second': 10.118, 'epoch': 1.17}
+{'loss': 3.2562, 'grad_norm': 2.0577023029327393, 'learning_rate': 3.4240578606775793e-06, 'epoch': 1.17}
+{'loss': 3.3984, 'grad_norm': 2.1050870418548584, 'learning_rate': 3.4221545489151127e-06, 'epoch': 1.17}
+{'loss': 3.2526, 'grad_norm': 2.413719654083252, 'learning_rate': 3.4202512371526456e-06, 'epoch': 1.17}
+{'loss': 3.3125, 'grad_norm': 2.092827796936035, 'learning_rate': 3.418347925390179e-06, 'epoch': 1.18}
+{'loss': 3.2702, 'grad_norm': 2.276250123977661, 'learning_rate': 3.4164446136277124e-06, 'epoch': 1.18}
+{'loss': 3.335, 'grad_norm': 2.1944661140441895, 'learning_rate': 3.4145413018652457e-06, 'epoch': 1.18}
+{'loss': 3.3564, 'grad_norm': 2.2625975608825684, 'learning_rate': 3.412637990102779e-06, 'epoch': 1.18}
+{'loss': 3.2751, 'grad_norm': 2.0079851150512695, 'learning_rate': 3.4107346783403125e-06, 'epoch': 1.18}
+{'loss': 3.2933, 'grad_norm': 1.9666017293930054, 'learning_rate': 3.4088313665778454e-06, 'epoch': 1.18}
+{'loss': 3.2227, 'grad_norm': 2.108999729156494, 'learning_rate': 3.4069280548153788e-06, 'epoch': 1.18}
+{'eval_loss': 3.6796875, 'eval_runtime': 4.1448, 'eval_samples_per_second': 241.269, 'eval_steps_per_second': 10.133, 'epoch': 1.18}
+{'loss': 3.3285, 'grad_norm': 2.2502431869506836, 'learning_rate': 3.405024743052912e-06, 'epoch': 1.18}
+{'loss': 3.3698, 'grad_norm': 2.0225284099578857, 'learning_rate': 3.403121431290446e-06, 'epoch': 1.18}
+{'loss': 3.3014, 'grad_norm': 2.0326755046844482, 'learning_rate': 3.4012181195279793e-06, 'epoch': 1.18}
+{'loss': 3.3252, 'grad_norm': 2.012049436569214, 'learning_rate': 3.3993148077655126e-06, 'epoch': 1.19}
+{'loss': 3.2988, 'grad_norm': 2.072080612182617, 'learning_rate': 3.3974114960030456e-06, 'epoch': 1.19}
+{'loss': 3.3594, 'grad_norm': 1.947417974472046, 'learning_rate': 3.395508184240579e-06, 'epoch': 1.19}
+{'loss': 3.3646, 'grad_norm': 1.905739665031433, 'learning_rate': 3.3936048724781123e-06, 'epoch': 1.19}
+{'loss': 3.2529, 'grad_norm': 2.0522899627685547, 'learning_rate': 3.3917015607156457e-06, 'epoch': 1.19}
+{'loss': 3.3516, 'grad_norm': 2.149545907974243, 'learning_rate': 3.389798248953179e-06, 'epoch': 1.19}
+{'loss': 3.307, 'grad_norm': 1.7584747076034546, 'learning_rate': 3.387894937190712e-06, 'epoch': 1.19}
+{'eval_loss': 3.677734375, 'eval_runtime': 4.1325, 'eval_samples_per_second': 241.983, 'eval_steps_per_second': 10.163, 'epoch': 1.19}
+{'loss': 3.3024, 'grad_norm': 2.1573996543884277, 'learning_rate': 3.3859916254282453e-06, 'epoch': 1.19}
+{'loss': 3.3034, 'grad_norm': 2.094390869140625, 'learning_rate': 3.3840883136657787e-06, 'epoch': 1.19}
+{'loss': 3.2777, 'grad_norm': 1.8432281017303467, 'learning_rate': 3.382185001903312e-06, 'epoch': 1.19}
+{'loss': 3.2887, 'grad_norm': 2.04949951171875, 'learning_rate': 3.3802816901408454e-06, 'epoch': 1.2}
+{'loss': 3.3626, 'grad_norm': 2.438610553741455, 'learning_rate': 3.3783783783783788e-06, 'epoch': 1.2}
+{'loss': 3.3145, 'grad_norm': 2.259124755859375, 'learning_rate': 3.3764750666159117e-06, 'epoch': 1.2}
+{'loss': 3.2855, 'grad_norm': 1.9157744646072388, 'learning_rate': 3.374571754853445e-06, 'epoch': 1.2}
+{'loss': 3.3434, 'grad_norm': 2.3439717292785645, 'learning_rate': 3.3726684430909784e-06, 'epoch': 1.2}
+{'loss': 3.3258, 'grad_norm': 2.0226097106933594, 'learning_rate': 3.370765131328512e-06, 'epoch': 1.2}
+{'loss': 3.3841, 'grad_norm': 2.044956922531128, 'learning_rate': 3.368861819566045e-06, 'epoch': 1.2}
+{'eval_loss': 3.67578125, 'eval_runtime': 4.1493, 'eval_samples_per_second': 241.007, 'eval_steps_per_second': 10.122, 'epoch': 1.2}
+{'loss': 3.3636, 'grad_norm': 2.3890671730041504, 'learning_rate': 3.366958507803578e-06, 'epoch': 1.2}
+{'loss': 3.3682, 'grad_norm': 1.891776204109192, 'learning_rate': 3.365055196041112e-06, 'epoch': 1.2}
+{'loss': 3.2845, 'grad_norm': 2.0950608253479004, 'learning_rate': 3.3631518842786452e-06, 'epoch': 1.2}
+{'loss': 3.3789, 'grad_norm': 1.9147884845733643, 'learning_rate': 3.3612485725161786e-06, 'epoch': 1.21}
+{'loss': 3.2663, 'grad_norm': 2.170095682144165, 'learning_rate': 3.359345260753712e-06, 'epoch': 1.21}
+{'loss': 3.3646, 'grad_norm': 2.0069656372070312, 'learning_rate': 3.3574419489912453e-06, 'epoch': 1.21}
+{'loss': 3.248, 'grad_norm': 2.05621075630188, 'learning_rate': 3.3555386372287783e-06, 'epoch': 1.21}
+{'loss': 3.333, 'grad_norm': 1.8555580377578735, 'learning_rate': 3.3536353254663116e-06, 'epoch': 1.21}
+{'loss': 3.2822, 'grad_norm': 2.135728359222412, 'learning_rate': 3.351732013703845e-06, 'epoch': 1.21}
+{'loss': 3.3112, 'grad_norm': 2.0564048290252686, 'learning_rate': 3.3498287019413784e-06, 'epoch': 1.21}
+{'eval_loss': 3.677734375, 'eval_runtime': 4.1396, 'eval_samples_per_second': 241.569, 'eval_steps_per_second': 10.146, 'epoch': 1.21}
+{'loss': 3.2546, 'grad_norm': 1.9993890523910522, 'learning_rate': 3.3479253901789117e-06, 'epoch': 1.21}
+{'loss': 3.3493, 'grad_norm': 1.9819304943084717, 'learning_rate': 3.346022078416445e-06, 'epoch': 1.21}
+{'loss': 3.3656, 'grad_norm': 2.0668954849243164, 'learning_rate': 3.344118766653978e-06, 'epoch': 1.22}
+{'loss': 3.3548, 'grad_norm': 2.276203155517578, 'learning_rate': 3.3422154548915114e-06, 'epoch': 1.22}
+{'loss': 3.2412, 'grad_norm': 1.9099308252334595, 'learning_rate': 3.3403121431290448e-06, 'epoch': 1.22}
+{'loss': 3.3154, 'grad_norm': 1.826433539390564, 'learning_rate': 3.338408831366578e-06, 'epoch': 1.22}
+{'loss': 3.3926, 'grad_norm': 2.196422576904297, 'learning_rate': 3.3365055196041115e-06, 'epoch': 1.22}
+{'loss': 3.3418, 'grad_norm': 1.7905267477035522, 'learning_rate': 3.3346022078416444e-06, 'epoch': 1.22}
+{'loss': 3.3014, 'grad_norm': 2.171786069869995, 'learning_rate': 3.3326988960791778e-06, 'epoch': 1.22}
+{'loss': 3.3395, 'grad_norm': 2.2465813159942627, 'learning_rate': 3.330795584316711e-06, 'epoch': 1.22}
+{'eval_loss': 3.671875, 'eval_runtime': 4.1399, 'eval_samples_per_second': 241.554, 'eval_steps_per_second': 10.145, 'epoch': 1.22}
+{'loss': 3.3721, 'grad_norm': 2.432220220565796, 'learning_rate': 3.3288922725542445e-06, 'epoch': 1.22}
+{'loss': 3.3542, 'grad_norm': 1.8144478797912598, 'learning_rate': 3.326988960791778e-06, 'epoch': 1.22}
+{'loss': 3.2536, 'grad_norm': 2.1174473762512207, 'learning_rate': 3.3250856490293117e-06, 'epoch': 1.23}
+{'loss': 3.3226, 'grad_norm': 2.2481372356414795, 'learning_rate': 3.323182337266845e-06, 'epoch': 1.23}
+{'loss': 3.2982, 'grad_norm': 2.4847023487091064, 'learning_rate': 3.321279025504378e-06, 'epoch': 1.23}
+{'loss': 3.2594, 'grad_norm': 1.9327625036239624, 'learning_rate': 3.3193757137419113e-06, 'epoch': 1.23}
+{'loss': 3.3529, 'grad_norm': 1.8406983613967896, 'learning_rate': 3.3174724019794447e-06, 'epoch': 1.23}
+{'loss': 3.2643, 'grad_norm': 1.9506452083587646, 'learning_rate': 3.315569090216978e-06, 'epoch': 1.23}
+{'loss': 3.3018, 'grad_norm': 1.9197546243667603, 'learning_rate': 3.3136657784545114e-06, 'epoch': 1.23}
+{'loss': 3.3294, 'grad_norm': 2.441368579864502, 'learning_rate': 3.3117624666920443e-06, 'epoch': 1.23}
+{'eval_loss': 3.677734375, 'eval_runtime': 4.1529, 'eval_samples_per_second': 240.797, 'eval_steps_per_second': 10.113, 'epoch': 1.23}
+{'loss': 3.3467, 'grad_norm': 2.1018309593200684, 'learning_rate': 3.3098591549295777e-06, 'epoch': 1.23}
+{'loss': 3.2861, 'grad_norm': 2.159730911254883, 'learning_rate': 3.307955843167111e-06, 'epoch': 1.23}
+{'loss': 3.2061, 'grad_norm': 2.483971118927002, 'learning_rate': 3.3060525314046444e-06, 'epoch': 1.24}
+{'loss': 3.2839, 'grad_norm': 2.3170604705810547, 'learning_rate': 3.304149219642178e-06, 'epoch': 1.24}
+{'loss': 3.277, 'grad_norm': 1.8907369375228882, 'learning_rate': 3.3022459078797107e-06, 'epoch': 1.24}
+{'loss': 3.249, 'grad_norm': 2.3354055881500244, 'learning_rate': 3.300342596117244e-06, 'epoch': 1.24}
+{'loss': 3.3112, 'grad_norm': 2.2010977268218994, 'learning_rate': 3.2984392843547775e-06, 'epoch': 1.24}
+{'loss': 3.2897, 'grad_norm': 2.4158248901367188, 'learning_rate': 3.296535972592311e-06, 'epoch': 1.24}
+{'loss': 3.251, 'grad_norm': 2.1262567043304443, 'learning_rate': 3.294632660829844e-06, 'epoch': 1.24}
+{'loss': 3.3389, 'grad_norm': 1.8726449012756348, 'learning_rate': 3.292729349067377e-06, 'epoch': 1.24}
+{'eval_loss': 3.67578125, 'eval_runtime': 4.1396, 'eval_samples_per_second': 241.567, 'eval_steps_per_second': 10.146, 'epoch': 1.24}
+{'loss': 3.2959, 'grad_norm': 2.0521256923675537, 'learning_rate': 3.2908260373049105e-06, 'epoch': 1.24}
+{'loss': 3.1712, 'grad_norm': 1.906166911125183, 'learning_rate': 3.288922725542444e-06, 'epoch': 1.24}
+{'loss': 3.2454, 'grad_norm': 2.1119003295898438, 'learning_rate': 3.2870194137799776e-06, 'epoch': 1.25}
+{'loss': 3.3063, 'grad_norm': 1.6506520509719849, 'learning_rate': 3.285116102017511e-06, 'epoch': 1.25}
+{'loss': 3.2852, 'grad_norm': 1.8888493776321411, 'learning_rate': 3.2832127902550444e-06, 'epoch': 1.25}
+{'loss': 3.2956, 'grad_norm': 2.080308198928833, 'learning_rate': 3.2813094784925777e-06, 'epoch': 1.25}
+{'loss': 3.3389, 'grad_norm': 2.16361141204834, 'learning_rate': 3.2794061667301107e-06, 'epoch': 1.25}
+{'loss': 3.2139, 'grad_norm': 2.127847671508789, 'learning_rate': 3.277502854967644e-06, 'epoch': 1.25}
+{'loss': 3.2939, 'grad_norm': 1.957388162612915, 'learning_rate': 3.2755995432051774e-06, 'epoch': 1.25}
+{'loss': 3.334, 'grad_norm': 2.0011677742004395, 'learning_rate': 3.2736962314427107e-06, 'epoch': 1.25}
+{'eval_loss': 3.66796875, 'eval_runtime': 4.1346, 'eval_samples_per_second': 241.86, 'eval_steps_per_second': 10.158, 'epoch': 1.25}
+{'loss': 3.3239, 'grad_norm': 2.136674165725708, 'learning_rate': 3.271792919680244e-06, 'epoch': 1.25}
+{'loss': 3.3053, 'grad_norm': 2.15291428565979, 'learning_rate': 3.269889607917777e-06, 'epoch': 1.26}
+{'loss': 3.2448, 'grad_norm': 2.175503969192505, 'learning_rate': 3.2679862961553104e-06, 'epoch': 1.26}
+{'loss': 3.248, 'grad_norm': 2.155571222305298, 'learning_rate': 3.2660829843928438e-06, 'epoch': 1.26}
+{'loss': 3.3008, 'grad_norm': 1.95098078250885, 'learning_rate': 3.264179672630377e-06, 'epoch': 1.26}
+{'loss': 3.2936, 'grad_norm': 1.776137351989746, 'learning_rate': 3.2622763608679105e-06, 'epoch': 1.26}
+{'loss': 3.2477, 'grad_norm': 2.093628406524658, 'learning_rate': 3.2603730491054434e-06, 'epoch': 1.26}
+{'loss': 3.3802, 'grad_norm': 2.522075653076172, 'learning_rate': 3.258469737342977e-06, 'epoch': 1.26}
+{'loss': 3.2598, 'grad_norm': 2.132145404815674, 'learning_rate': 3.25656642558051e-06, 'epoch': 1.26}
+{'loss': 3.2565, 'grad_norm': 2.2759199142456055, 'learning_rate': 3.2546631138180435e-06, 'epoch': 1.26}
+{'eval_loss': 3.669921875, 'eval_runtime': 4.1583, 'eval_samples_per_second': 240.486, 'eval_steps_per_second': 10.1, 'epoch': 1.26}
+{'loss': 3.2878, 'grad_norm': 2.15877628326416, 'learning_rate': 3.252759802055577e-06, 'epoch': 1.26}
+{'loss': 3.3405, 'grad_norm': 2.1464807987213135, 'learning_rate': 3.25085649029311e-06, 'epoch': 1.27}
+{'loss': 3.3464, 'grad_norm': 1.9771815538406372, 'learning_rate': 3.248953178530644e-06, 'epoch': 1.27}
+{'loss': 3.3275, 'grad_norm': 1.9709159135818481, 'learning_rate': 3.247049866768177e-06, 'epoch': 1.27}
+{'loss': 3.2799, 'grad_norm': 2.1311683654785156, 'learning_rate': 3.2451465550057103e-06, 'epoch': 1.27}
+{'loss': 3.3083, 'grad_norm': 1.8117153644561768, 'learning_rate': 3.2432432432432437e-06, 'epoch': 1.27}
+{'loss': 3.3499, 'grad_norm': 2.1147687435150146, 'learning_rate': 3.241339931480777e-06, 'epoch': 1.27}
+{'loss': 3.235, 'grad_norm': 2.02327561378479, 'learning_rate': 3.2394366197183104e-06, 'epoch': 1.27}
+{'loss': 3.2552, 'grad_norm': 2.2056243419647217, 'learning_rate': 3.2375333079558434e-06, 'epoch': 1.27}
+{'loss': 3.2357, 'grad_norm': 2.3627991676330566, 'learning_rate': 3.2356299961933767e-06, 'epoch': 1.27}
+{'eval_loss': 3.669921875, 'eval_runtime': 4.1318, 'eval_samples_per_second': 242.026, 'eval_steps_per_second': 10.165, 'epoch': 1.27}
+{'loss': 3.2744, 'grad_norm': 1.919779658317566, 'learning_rate': 3.23372668443091e-06, 'epoch': 1.27}
+{'loss': 3.3594, 'grad_norm': 2.3844828605651855, 'learning_rate': 3.2318233726684435e-06, 'epoch': 1.28}
+{'loss': 3.2975, 'grad_norm': 1.808179497718811, 'learning_rate': 3.229920060905977e-06, 'epoch': 1.28}
+{'loss': 3.2861, 'grad_norm': 2.0678062438964844, 'learning_rate': 3.2280167491435098e-06, 'epoch': 1.28}
+{'loss': 3.3473, 'grad_norm': 2.0677223205566406, 'learning_rate': 3.226113437381043e-06, 'epoch': 1.28}
+{'loss': 3.307, 'grad_norm': 1.9920755624771118, 'learning_rate': 3.2242101256185765e-06, 'epoch': 1.28}
+{'loss': 3.2689, 'grad_norm': 2.1167142391204834, 'learning_rate': 3.22230681385611e-06, 'epoch': 1.28}
+{'loss': 3.2845, 'grad_norm': 1.9393305778503418, 'learning_rate': 3.220403502093643e-06, 'epoch': 1.28}
+{'loss': 3.2809, 'grad_norm': 2.096073865890503, 'learning_rate': 3.218500190331176e-06, 'epoch': 1.28}
+{'loss': 3.2516, 'grad_norm': 1.811828374862671, 'learning_rate': 3.2165968785687095e-06, 'epoch': 1.28}
+{'eval_loss': 3.66796875, 'eval_runtime': 4.1496, 'eval_samples_per_second': 240.987, 'eval_steps_per_second': 10.121, 'epoch': 1.28}
+{'loss': 3.3294, 'grad_norm': 1.9169787168502808, 'learning_rate': 3.214693566806243e-06, 'epoch': 1.29}
+{'loss': 3.3421, 'grad_norm': 1.8688565492630005, 'learning_rate': 3.2127902550437762e-06, 'epoch': 1.29}
+{'loss': 3.3193, 'grad_norm': 1.8325130939483643, 'learning_rate': 3.21088694328131e-06, 'epoch': 1.29}
+{'loss': 3.3464, 'grad_norm': 2.3039722442626953, 'learning_rate': 3.2089836315188434e-06, 'epoch': 1.29}
+{'loss': 3.3587, 'grad_norm': 2.2662062644958496, 'learning_rate': 3.2070803197563767e-06, 'epoch': 1.29}
+{'loss': 3.3656, 'grad_norm': 2.134999990463257, 'learning_rate': 3.2051770079939097e-06, 'epoch': 1.29}
+{'loss': 3.2083, 'grad_norm': 2.0998401641845703, 'learning_rate': 3.203273696231443e-06, 'epoch': 1.29}
+{'loss': 3.3219, 'grad_norm': 1.8862576484680176, 'learning_rate': 3.2013703844689764e-06, 'epoch': 1.29}
+{'loss': 3.3105, 'grad_norm': 2.477720260620117, 'learning_rate': 3.1994670727065098e-06, 'epoch': 1.29}
+{'loss': 3.2507, 'grad_norm': 1.9691215753555298, 'learning_rate': 3.197563760944043e-06, 'epoch': 1.29}
+{'eval_loss': 3.666015625, 'eval_runtime': 4.1466, 'eval_samples_per_second': 241.159, 'eval_steps_per_second': 10.129, 'epoch': 1.29}
+{'loss': 3.2256, 'grad_norm': 1.8282983303070068, 'learning_rate': 3.195660449181576e-06, 'epoch': 1.3}
+{'loss': 3.2646, 'grad_norm': 1.950931191444397, 'learning_rate': 3.1937571374191094e-06, 'epoch': 1.3}
+{'loss': 3.3848, 'grad_norm': 2.063769578933716, 'learning_rate': 3.191853825656643e-06, 'epoch': 1.3}
+{'loss': 3.3031, 'grad_norm': 1.81049382686615, 'learning_rate': 3.189950513894176e-06, 'epoch': 1.3}
+{'loss': 3.2861, 'grad_norm': 2.1307661533355713, 'learning_rate': 3.1880472021317095e-06, 'epoch': 1.3}
+{'loss': 3.2331, 'grad_norm': 2.2641496658325195, 'learning_rate': 3.1861438903692425e-06, 'epoch': 1.3}
+{'loss': 3.2822, 'grad_norm': 2.0139172077178955, 'learning_rate': 3.184240578606776e-06, 'epoch': 1.3}
+{'loss': 3.2712, 'grad_norm': 2.033790349960327, 'learning_rate': 3.182337266844309e-06, 'epoch': 1.3}
+{'loss': 3.3242, 'grad_norm': 2.0265588760375977, 'learning_rate': 3.1804339550818426e-06, 'epoch': 1.3}
+{'loss': 3.3294, 'grad_norm': 2.054743766784668, 'learning_rate': 3.178530643319376e-06, 'epoch': 1.3}
+{'eval_loss': 3.66796875, 'eval_runtime': 4.1399, 'eval_samples_per_second': 241.55, 'eval_steps_per_second': 10.145, 'epoch': 1.3}
+{'loss': 3.3005, 'grad_norm': 2.1065444946289062, 'learning_rate': 3.176627331556909e-06, 'epoch': 1.31}
+{'loss': 3.2425, 'grad_norm': 1.9000508785247803, 'learning_rate': 3.1747240197944422e-06, 'epoch': 1.31}
+{'loss': 3.2311, 'grad_norm': 2.1465530395507812, 'learning_rate': 3.172820708031976e-06, 'epoch': 1.31}
+{'loss': 3.2751, 'grad_norm': 1.7788006067276, 'learning_rate': 3.1709173962695094e-06, 'epoch': 1.31}
+{'loss': 3.2965, 'grad_norm': 2.164029121398926, 'learning_rate': 3.1690140845070427e-06, 'epoch': 1.31}
+{'loss': 3.2907, 'grad_norm': 1.8247809410095215, 'learning_rate': 3.167110772744576e-06, 'epoch': 1.31}
+{'loss': 3.318, 'grad_norm': 2.184144973754883, 'learning_rate': 3.1652074609821095e-06, 'epoch': 1.31}
+{'loss': 3.224, 'grad_norm': 2.2192628383636475, 'learning_rate': 3.1633041492196424e-06, 'epoch': 1.31}
+{'loss': 3.3301, 'grad_norm': 2.045027256011963, 'learning_rate': 3.1614008374571758e-06, 'epoch': 1.31}
+{'loss': 3.2321, 'grad_norm': 2.5951595306396484, 'learning_rate': 3.159497525694709e-06, 'epoch': 1.31}
+{'eval_loss': 3.666015625, 'eval_runtime': 4.1517, 'eval_samples_per_second': 240.866, 'eval_steps_per_second': 10.116, 'epoch': 1.31}
+{'loss': 3.2891, 'grad_norm': 1.8962723016738892, 'learning_rate': 3.1575942139322425e-06, 'epoch': 1.32}
+{'loss': 3.2725, 'grad_norm': 2.1368796825408936, 'learning_rate': 3.155690902169776e-06, 'epoch': 1.32}
+{'loss': 3.2386, 'grad_norm': 2.235273599624634, 'learning_rate': 3.1537875904073088e-06, 'epoch': 1.32}
+{'loss': 3.2861, 'grad_norm': 2.3763136863708496, 'learning_rate': 3.151884278644842e-06, 'epoch': 1.32}
+{'loss': 3.2214, 'grad_norm': 1.9123448133468628, 'learning_rate': 3.1499809668823755e-06, 'epoch': 1.32}
+{'loss': 3.2272, 'grad_norm': 2.0349249839782715, 'learning_rate': 3.148077655119909e-06, 'epoch': 1.32}
+{'loss': 3.196, 'grad_norm': 1.8374139070510864, 'learning_rate': 3.1461743433574422e-06, 'epoch': 1.32}
+{'loss': 3.25, 'grad_norm': 1.815068006515503, 'learning_rate': 3.144271031594975e-06, 'epoch': 1.32}
+{'loss': 3.2272, 'grad_norm': 2.077929735183716, 'learning_rate': 3.1423677198325085e-06, 'epoch': 1.32}
+{'loss': 3.2028, 'grad_norm': 2.013972520828247, 'learning_rate': 3.140464408070042e-06, 'epoch': 1.33}
+{'eval_loss': 3.66796875, 'eval_runtime': 4.1459, 'eval_samples_per_second': 241.202, 'eval_steps_per_second': 10.13, 'epoch': 1.33}
+{'loss': 3.3063, 'grad_norm': 2.042055606842041, 'learning_rate': 3.1385610963075753e-06, 'epoch': 1.33}
+{'loss': 3.3506, 'grad_norm': 2.036172389984131, 'learning_rate': 3.1366577845451086e-06, 'epoch': 1.33}
+{'loss': 3.2533, 'grad_norm': 2.0794525146484375, 'learning_rate': 3.134754472782642e-06, 'epoch': 1.33}
+{'loss': 3.2428, 'grad_norm': 2.713799238204956, 'learning_rate': 3.1328511610201758e-06, 'epoch': 1.33}
+{'loss': 3.3258, 'grad_norm': 1.941321611404419, 'learning_rate': 3.1309478492577087e-06, 'epoch': 1.33}
+{'loss': 3.3913, 'grad_norm': 2.3346996307373047, 'learning_rate': 3.129044537495242e-06, 'epoch': 1.33}
+{'loss': 3.2646, 'grad_norm': 2.028733253479004, 'learning_rate': 3.1271412257327754e-06, 'epoch': 1.33}
+{'loss': 3.2513, 'grad_norm': 2.056777000427246, 'learning_rate': 3.125237913970309e-06, 'epoch': 1.33}
+{'loss': 3.1842, 'grad_norm': 1.8467650413513184, 'learning_rate': 3.123334602207842e-06, 'epoch': 1.33}
+{'loss': 3.2809, 'grad_norm': 2.104775905609131, 'learning_rate': 3.121431290445375e-06, 'epoch': 1.34}
+{'eval_loss': 3.666015625, 'eval_runtime': 4.1436, 'eval_samples_per_second': 241.336, 'eval_steps_per_second': 10.136, 'epoch': 1.34}
+{'loss': 3.3493, 'grad_norm': 1.9256384372711182, 'learning_rate': 3.1195279786829085e-06, 'epoch': 1.34}
+{'loss': 3.2832, 'grad_norm': 2.0872445106506348, 'learning_rate': 3.117624666920442e-06, 'epoch': 1.34}
+{'loss': 3.2874, 'grad_norm': 1.978943943977356, 'learning_rate': 3.115721355157975e-06, 'epoch': 1.34}
+{'loss': 3.2952, 'grad_norm': 2.051835536956787, 'learning_rate': 3.1138180433955085e-06, 'epoch': 1.34}
+{'loss': 3.3027, 'grad_norm': 1.9528661966323853, 'learning_rate': 3.1119147316330415e-06, 'epoch': 1.34}
+{'loss': 3.2682, 'grad_norm': 2.0351388454437256, 'learning_rate': 3.110011419870575e-06, 'epoch': 1.34}
+{'loss': 3.265, 'grad_norm': 1.6917097568511963, 'learning_rate': 3.1081081081081082e-06, 'epoch': 1.34}
+{'loss': 3.2516, 'grad_norm': 2.0665335655212402, 'learning_rate': 3.1062047963456416e-06, 'epoch': 1.34}
+{'loss': 3.3359, 'grad_norm': 2.1675667762756348, 'learning_rate': 3.104301484583175e-06, 'epoch': 1.34}
+{'loss': 3.2259, 'grad_norm': 2.1461071968078613, 'learning_rate': 3.1023981728207083e-06, 'epoch': 1.35}
+{'eval_loss': 3.662109375, 'eval_runtime': 4.1524, 'eval_samples_per_second': 240.824, 'eval_steps_per_second': 10.115, 'epoch': 1.35}
+{'loss': 3.332, 'grad_norm': 2.18349027633667, 'learning_rate': 3.1004948610582412e-06, 'epoch': 1.35}
+{'loss': 3.2643, 'grad_norm': 1.9878578186035156, 'learning_rate': 3.0985915492957746e-06, 'epoch': 1.35}
+{'loss': 3.3249, 'grad_norm': 1.9677318334579468, 'learning_rate': 3.096688237533308e-06, 'epoch': 1.35}
+{'loss': 3.2627, 'grad_norm': 1.8521770238876343, 'learning_rate': 3.0947849257708418e-06, 'epoch': 1.35}
+{'loss': 3.3184, 'grad_norm': 2.025420665740967, 'learning_rate': 3.092881614008375e-06, 'epoch': 1.35}
+{'loss': 3.2415, 'grad_norm': 1.87210214138031, 'learning_rate': 3.0909783022459085e-06, 'epoch': 1.35}
+{'loss': 3.2269, 'grad_norm': 1.9928628206253052, 'learning_rate': 3.0890749904834414e-06, 'epoch': 1.35}
+{'loss': 3.2663, 'grad_norm': 1.9689871072769165, 'learning_rate': 3.0871716787209748e-06, 'epoch': 1.35}
+{'loss': 3.2204, 'grad_norm': 2.049541473388672, 'learning_rate': 3.085268366958508e-06, 'epoch': 1.35}
+{'loss': 3.2786, 'grad_norm': 2.037959098815918, 'learning_rate': 3.0833650551960415e-06, 'epoch': 1.36}
+{'eval_loss': 3.666015625, 'eval_runtime': 4.1456, 'eval_samples_per_second': 241.22, 'eval_steps_per_second': 10.131, 'epoch': 1.36}
+{'loss': 3.2109, 'grad_norm': 1.8969618082046509, 'learning_rate': 3.081461743433575e-06, 'epoch': 1.36}
+{'loss': 3.237, 'grad_norm': 1.8606306314468384, 'learning_rate': 3.079558431671108e-06, 'epoch': 1.36}
+{'loss': 3.2441, 'grad_norm': 2.1229732036590576, 'learning_rate': 3.077655119908641e-06, 'epoch': 1.36}
+{'loss': 3.3053, 'grad_norm': 1.9567999839782715, 'learning_rate': 3.0757518081461745e-06, 'epoch': 1.36}
+{'loss': 3.2754, 'grad_norm': 2.3134498596191406, 'learning_rate': 3.073848496383708e-06, 'epoch': 1.36}
+{'loss': 3.3203, 'grad_norm': 1.931203007698059, 'learning_rate': 3.0719451846212413e-06, 'epoch': 1.36}
+{'loss': 3.2829, 'grad_norm': 1.984643578529358, 'learning_rate': 3.0700418728587746e-06, 'epoch': 1.36}
+{'loss': 3.3206, 'grad_norm': 2.111278772354126, 'learning_rate': 3.0681385610963076e-06, 'epoch': 1.36}
+{'loss': 3.4059, 'grad_norm': 2.0605950355529785, 'learning_rate': 3.066235249333841e-06, 'epoch': 1.37}
+{'loss': 3.2432, 'grad_norm': 2.0464766025543213, 'learning_rate': 3.0643319375713743e-06, 'epoch': 1.37}
+{'eval_loss': 3.662109375, 'eval_runtime': 4.1376, 'eval_samples_per_second': 241.685, 'eval_steps_per_second': 10.151, 'epoch': 1.37}
+{'loss': 3.3044, 'grad_norm': 1.858854055404663, 'learning_rate': 3.0624286258089076e-06, 'epoch': 1.37}
+{'loss': 3.2474, 'grad_norm': 2.2541933059692383, 'learning_rate': 3.060525314046441e-06, 'epoch': 1.37}
+{'loss': 3.2145, 'grad_norm': 1.725915551185608, 'learning_rate': 3.058622002283974e-06, 'epoch': 1.37}
+{'loss': 3.43, 'grad_norm': 2.6286275386810303, 'learning_rate': 3.0567186905215077e-06, 'epoch': 1.37}
+{'loss': 3.3138, 'grad_norm': 2.0387072563171387, 'learning_rate': 3.054815378759041e-06, 'epoch': 1.37}
+{'loss': 3.263, 'grad_norm': 2.0810937881469727, 'learning_rate': 3.0529120669965745e-06, 'epoch': 1.37}
+{'loss': 3.29, 'grad_norm': 2.117994785308838, 'learning_rate': 3.051008755234108e-06, 'epoch': 1.37}
+{'loss': 3.2988, 'grad_norm': 2.086996078491211, 'learning_rate': 3.049105443471641e-06, 'epoch': 1.37}
+{'loss': 3.3115, 'grad_norm': 2.2771646976470947, 'learning_rate': 3.0472021317091745e-06, 'epoch': 1.38}
+{'loss': 3.2344, 'grad_norm': 1.7547415494918823, 'learning_rate': 3.0452988199467075e-06, 'epoch': 1.38}
+{'eval_loss': 3.6640625, 'eval_runtime': 4.1534, 'eval_samples_per_second': 240.766, 'eval_steps_per_second': 10.112, 'epoch': 1.38}
+{'loss': 3.2939, 'grad_norm': 1.9802602529525757, 'learning_rate': 3.043395508184241e-06, 'epoch': 1.38}
+{'loss': 3.2708, 'grad_norm': 1.6729698181152344, 'learning_rate': 3.041492196421774e-06, 'epoch': 1.38}
+{'loss': 3.3281, 'grad_norm': 2.049394130706787, 'learning_rate': 3.0395888846593076e-06, 'epoch': 1.38}
+{'loss': 3.2454, 'grad_norm': 2.4019012451171875, 'learning_rate': 3.037685572896841e-06, 'epoch': 1.38}
+{'loss': 3.1566, 'grad_norm': 2.021726369857788, 'learning_rate': 3.035782261134374e-06, 'epoch': 1.38}
+{'loss': 3.3285, 'grad_norm': 2.0126118659973145, 'learning_rate': 3.0338789493719072e-06, 'epoch': 1.38}
+{'loss': 3.2816, 'grad_norm': 1.9730947017669678, 'learning_rate': 3.0319756376094406e-06, 'epoch': 1.38}
+{'loss': 3.2295, 'grad_norm': 2.351491928100586, 'learning_rate': 3.030072325846974e-06, 'epoch': 1.38}
+{'loss': 3.2383, 'grad_norm': 2.005239486694336, 'learning_rate': 3.0281690140845073e-06, 'epoch': 1.39}
+{'loss': 3.3923, 'grad_norm': 2.144907236099243, 'learning_rate': 3.0262657023220403e-06, 'epoch': 1.39}
+{'eval_loss': 3.662109375, 'eval_runtime': 4.1377, 'eval_samples_per_second': 241.68, 'eval_steps_per_second': 10.151, 'epoch': 1.39}
+{'loss': 3.2799, 'grad_norm': 1.7970366477966309, 'learning_rate': 3.0243623905595736e-06, 'epoch': 1.39}
+{'loss': 3.2461, 'grad_norm': 1.8556004762649536, 'learning_rate': 3.022459078797107e-06, 'epoch': 1.39}
+{'loss': 3.2406, 'grad_norm': 1.8848085403442383, 'learning_rate': 3.0205557670346404e-06, 'epoch': 1.39}
+{'loss': 3.2702, 'grad_norm': 2.2364346981048584, 'learning_rate': 3.018652455272174e-06, 'epoch': 1.39}
+{'loss': 3.2165, 'grad_norm': 1.903548002243042, 'learning_rate': 3.0167491435097075e-06, 'epoch': 1.39}
+{'loss': 3.2962, 'grad_norm': 1.9296085834503174, 'learning_rate': 3.014845831747241e-06, 'epoch': 1.39}
+{'loss': 3.3177, 'grad_norm': 2.0492043495178223, 'learning_rate': 3.012942519984774e-06, 'epoch': 1.39}
+{'loss': 3.2419, 'grad_norm': 2.040332794189453, 'learning_rate': 3.011039208222307e-06, 'epoch': 1.39}
+{'loss': 3.2181, 'grad_norm': 2.070256233215332, 'learning_rate': 3.0091358964598405e-06, 'epoch': 1.4}
+{'loss': 3.2783, 'grad_norm': 1.8805562257766724, 'learning_rate': 3.007232584697374e-06, 'epoch': 1.4}
+{'eval_loss': 3.658203125, 'eval_runtime': 4.1399, 'eval_samples_per_second': 241.551, 'eval_steps_per_second': 10.145, 'epoch': 1.4}
+{'loss': 3.2721, 'grad_norm': 1.8979939222335815, 'learning_rate': 3.0053292729349073e-06, 'epoch': 1.4}
+{'loss': 3.3327, 'grad_norm': 1.9464031457901, 'learning_rate': 3.00342596117244e-06, 'epoch': 1.4}
+{'loss': 3.2939, 'grad_norm': 1.8480571508407593, 'learning_rate': 3.0015226494099736e-06, 'epoch': 1.4}
+{'loss': 3.2051, 'grad_norm': 2.157301664352417, 'learning_rate': 2.999619337647507e-06, 'epoch': 1.4}
+{'loss': 3.2826, 'grad_norm': 2.1139681339263916, 'learning_rate': 2.9977160258850403e-06, 'epoch': 1.4}
+{'loss': 3.2712, 'grad_norm': 1.9660955667495728, 'learning_rate': 2.9958127141225736e-06, 'epoch': 1.4}
+{'loss': 3.2318, 'grad_norm': 2.0083673000335693, 'learning_rate': 2.9939094023601066e-06, 'epoch': 1.4}
+{'loss': 3.2998, 'grad_norm': 2.034971237182617, 'learning_rate': 2.99200609059764e-06, 'epoch': 1.41}
+{'loss': 3.2673, 'grad_norm': 2.014864444732666, 'learning_rate': 2.9901027788351733e-06, 'epoch': 1.41}
+{'loss': 3.2738, 'grad_norm': 2.07112193107605, 'learning_rate': 2.9881994670727067e-06, 'epoch': 1.41}
+{'eval_loss': 3.6640625, 'eval_runtime': 4.1591, 'eval_samples_per_second': 240.437, 'eval_steps_per_second': 10.098, 'epoch': 1.41}
+{'loss': 3.3545, 'grad_norm': 2.13686466217041, 'learning_rate': 2.98629615531024e-06, 'epoch': 1.41}
+{'loss': 3.2829, 'grad_norm': 2.430250406265259, 'learning_rate': 2.984392843547773e-06, 'epoch': 1.41}
+{'loss': 3.3021, 'grad_norm': 2.3945086002349854, 'learning_rate': 2.9824895317853063e-06, 'epoch': 1.41}
+{'loss': 3.2995, 'grad_norm': 2.1416847705841064, 'learning_rate': 2.98058622002284e-06, 'epoch': 1.41}
+{'loss': 3.2858, 'grad_norm': 2.074568271636963, 'learning_rate': 2.9786829082603735e-06, 'epoch': 1.41}
+{'loss': 3.2975, 'grad_norm': 2.100438117980957, 'learning_rate': 2.976779596497907e-06, 'epoch': 1.41}
+{'loss': 3.3151, 'grad_norm': 1.8848217725753784, 'learning_rate': 2.97487628473544e-06, 'epoch': 1.41}
+{'loss': 3.1979, 'grad_norm': 2.0862343311309814, 'learning_rate': 2.9729729729729736e-06, 'epoch': 1.42}
+{'loss': 3.1214, 'grad_norm': 2.60312819480896, 'learning_rate': 2.9710696612105065e-06, 'epoch': 1.42}
+{'loss': 3.3171, 'grad_norm': 1.8897595405578613, 'learning_rate': 2.96916634944804e-06, 'epoch': 1.42}
+{'eval_loss': 3.658203125, 'eval_runtime': 4.1405, 'eval_samples_per_second': 241.517, 'eval_steps_per_second': 10.144, 'epoch': 1.42}
+{'loss': 3.3818, 'grad_norm': 2.073328733444214, 'learning_rate': 2.9672630376855732e-06, 'epoch': 1.42}
+{'loss': 3.1598, 'grad_norm': 1.901371955871582, 'learning_rate': 2.9653597259231066e-06, 'epoch': 1.42}
+{'loss': 3.2386, 'grad_norm': 2.0589237213134766, 'learning_rate': 2.96345641416064e-06, 'epoch': 1.42}
+{'loss': 3.236, 'grad_norm': 2.4424071311950684, 'learning_rate': 2.961553102398173e-06, 'epoch': 1.42}
+{'loss': 3.3971, 'grad_norm': 2.0658793449401855, 'learning_rate': 2.9596497906357063e-06, 'epoch': 1.42}
+{'loss': 3.2689, 'grad_norm': 1.9884942770004272, 'learning_rate': 2.9577464788732396e-06, 'epoch': 1.42}
+{'loss': 3.2246, 'grad_norm': 1.8284364938735962, 'learning_rate': 2.955843167110773e-06, 'epoch': 1.42}
+{'loss': 3.2887, 'grad_norm': 2.072050094604492, 'learning_rate': 2.9539398553483064e-06, 'epoch': 1.43}
+{'loss': 3.2865, 'grad_norm': 2.0392203330993652, 'learning_rate': 2.9520365435858393e-06, 'epoch': 1.43}
+{'loss': 3.2555, 'grad_norm': 1.7879059314727783, 'learning_rate': 2.9501332318233727e-06, 'epoch': 1.43}
+{'eval_loss': 3.6640625, 'eval_runtime': 4.1514, 'eval_samples_per_second': 240.88, 'eval_steps_per_second': 10.117, 'epoch': 1.43}
+{'loss': 3.1732, 'grad_norm': 1.9935094118118286, 'learning_rate': 2.948229920060906e-06, 'epoch': 1.43}
+{'loss': 3.2253, 'grad_norm': 1.997782826423645, 'learning_rate': 2.9463266082984394e-06, 'epoch': 1.43}
+{'loss': 3.293, 'grad_norm': 1.95462965965271, 'learning_rate': 2.9444232965359727e-06, 'epoch': 1.43}
+{'loss': 3.2572, 'grad_norm': 2.2202672958374023, 'learning_rate': 2.9425199847735057e-06, 'epoch': 1.43}
+{'loss': 3.2096, 'grad_norm': 1.8383654356002808, 'learning_rate': 2.94061667301104e-06, 'epoch': 1.43}
+{'loss': 3.2204, 'grad_norm': 1.9031492471694946, 'learning_rate': 2.938713361248573e-06, 'epoch': 1.43}
+{'loss': 3.2295, 'grad_norm': 1.906493902206421, 'learning_rate': 2.936810049486106e-06, 'epoch': 1.44}
+{'loss': 3.207, 'grad_norm': 1.8650033473968506, 'learning_rate': 2.9349067377236396e-06, 'epoch': 1.44}
+{'loss': 3.2897, 'grad_norm': 1.925479531288147, 'learning_rate': 2.933003425961173e-06, 'epoch': 1.44}
+{'loss': 3.278, 'grad_norm': 1.933139681816101, 'learning_rate': 2.9311001141987063e-06, 'epoch': 1.44}
+{'eval_loss': 3.662109375, 'eval_runtime': 4.1526, 'eval_samples_per_second': 240.813, 'eval_steps_per_second': 10.114, 'epoch': 1.44}
+{'loss': 3.224, 'grad_norm': 2.098170042037964, 'learning_rate': 2.9291968024362392e-06, 'epoch': 1.44}
+{'loss': 3.2738, 'grad_norm': 2.2187390327453613, 'learning_rate': 2.9272934906737726e-06, 'epoch': 1.44}
+{'loss': 3.2171, 'grad_norm': 2.1492042541503906, 'learning_rate': 2.925390178911306e-06, 'epoch': 1.44}
+{'loss': 3.2028, 'grad_norm': 2.26332950592041, 'learning_rate': 2.9234868671488393e-06, 'epoch': 1.44}
+{'loss': 3.2035, 'grad_norm': 2.1276376247406006, 'learning_rate': 2.9215835553863727e-06, 'epoch': 1.44}
+{'loss': 3.209, 'grad_norm': 1.7597166299819946, 'learning_rate': 2.9196802436239056e-06, 'epoch': 1.44}
+{'loss': 3.3493, 'grad_norm': 2.323180913925171, 'learning_rate': 2.917776931861439e-06, 'epoch': 1.45}
+{'loss': 3.2777, 'grad_norm': 1.9199113845825195, 'learning_rate': 2.9158736200989723e-06, 'epoch': 1.45}
+{'loss': 3.222, 'grad_norm': 2.1596477031707764, 'learning_rate': 2.9139703083365057e-06, 'epoch': 1.45}
+{'loss': 3.2777, 'grad_norm': 2.138195514678955, 'learning_rate': 2.912066996574039e-06, 'epoch': 1.45}
+{'eval_loss': 3.6640625, 'eval_runtime': 4.1425, 'eval_samples_per_second': 241.401, 'eval_steps_per_second': 10.139, 'epoch': 1.45}
+{'loss': 3.25, 'grad_norm': 2.1003594398498535, 'learning_rate': 2.910163684811572e-06, 'epoch': 1.45}
+{'loss': 3.2575, 'grad_norm': 2.060316562652588, 'learning_rate': 2.9082603730491054e-06, 'epoch': 1.45}
+{'loss': 3.3314, 'grad_norm': 2.29105806350708, 'learning_rate': 2.9063570612866387e-06, 'epoch': 1.45}
+{'loss': 3.18, 'grad_norm': 1.7190531492233276, 'learning_rate': 2.904453749524172e-06, 'epoch': 1.45}
+{'loss': 3.2663, 'grad_norm': 1.7134464979171753, 'learning_rate': 2.902550437761706e-06, 'epoch': 1.45}
+{'loss': 3.2516, 'grad_norm': 1.8330780267715454, 'learning_rate': 2.9006471259992392e-06, 'epoch': 1.45}
+{'loss': 3.252, 'grad_norm': 2.243292808532715, 'learning_rate': 2.8987438142367726e-06, 'epoch': 1.46}
+{'loss': 3.2673, 'grad_norm': 2.7404332160949707, 'learning_rate': 2.8968405024743055e-06, 'epoch': 1.46}
+{'loss': 3.2458, 'grad_norm': 1.7157769203186035, 'learning_rate': 2.894937190711839e-06, 'epoch': 1.46}
+{'loss': 3.2689, 'grad_norm': 1.9030126333236694, 'learning_rate': 2.8930338789493723e-06, 'epoch': 1.46}
+{'eval_loss': 3.662109375, 'eval_runtime': 4.1452, 'eval_samples_per_second': 241.243, 'eval_steps_per_second': 10.132, 'epoch': 1.46}
+{'loss': 3.3128, 'grad_norm': 2.0250000953674316, 'learning_rate': 2.8911305671869056e-06, 'epoch': 1.46}
+{'loss': 3.2539, 'grad_norm': 1.9588731527328491, 'learning_rate': 2.889227255424439e-06, 'epoch': 1.46}
+{'loss': 3.2835, 'grad_norm': 1.7325202226638794, 'learning_rate': 2.887323943661972e-06, 'epoch': 1.46}
+{'loss': 3.3024, 'grad_norm': 2.052743434906006, 'learning_rate': 2.8854206318995053e-06, 'epoch': 1.46}
+{'loss': 3.2259, 'grad_norm': 2.021211624145508, 'learning_rate': 2.8835173201370386e-06, 'epoch': 1.46}
+{'loss': 3.237, 'grad_norm': 2.0927979946136475, 'learning_rate': 2.881614008374572e-06, 'epoch': 1.46}
+{'loss': 3.2467, 'grad_norm': 2.0009989738464355, 'learning_rate': 2.8797106966121054e-06, 'epoch': 1.47}
+{'loss': 3.3193, 'grad_norm': 2.2731833457946777, 'learning_rate': 2.8778073848496383e-06, 'epoch': 1.47}
+{'loss': 3.2861, 'grad_norm': 2.195486068725586, 'learning_rate': 2.8759040730871717e-06, 'epoch': 1.47}
+{'loss': 3.3018, 'grad_norm': 2.047250509262085, 'learning_rate': 2.874000761324705e-06, 'epoch': 1.47}
+{'eval_loss': 3.65234375, 'eval_runtime': 4.1493, 'eval_samples_per_second': 241.007, 'eval_steps_per_second': 10.122, 'epoch': 1.47}
+{'loss': 3.1784, 'grad_norm': 2.307312250137329, 'learning_rate': 2.8720974495622384e-06, 'epoch': 1.47}
+{'loss': 3.2588, 'grad_norm': 2.1634442806243896, 'learning_rate': 2.8701941377997718e-06, 'epoch': 1.47}
+{'loss': 3.2337, 'grad_norm': 2.2684569358825684, 'learning_rate': 2.8682908260373047e-06, 'epoch': 1.47}
+{'loss': 3.2617, 'grad_norm': 1.917928695678711, 'learning_rate': 2.866387514274838e-06, 'epoch': 1.47}
+{'loss': 3.3174, 'grad_norm': 2.068885087966919, 'learning_rate': 2.864484202512372e-06, 'epoch': 1.47}
+{'loss': 3.3102, 'grad_norm': 2.0929551124572754, 'learning_rate': 2.8625808907499052e-06, 'epoch': 1.48}
+{'loss': 3.2435, 'grad_norm': 2.2062339782714844, 'learning_rate': 2.8606775789874386e-06, 'epoch': 1.48}
+{'loss': 3.1855, 'grad_norm': 1.8590538501739502, 'learning_rate': 2.858774267224972e-06, 'epoch': 1.48}
+{'loss': 3.2474, 'grad_norm': 2.180643320083618, 'learning_rate': 2.8568709554625053e-06, 'epoch': 1.48}
+{'loss': 3.3226, 'grad_norm': 2.098726272583008, 'learning_rate': 2.8549676437000382e-06, 'epoch': 1.48}
+{'eval_loss': 3.658203125, 'eval_runtime': 4.1367, 'eval_samples_per_second': 241.741, 'eval_steps_per_second': 10.153, 'epoch': 1.48}
+{'loss': 3.2243, 'grad_norm': 2.365455150604248, 'learning_rate': 2.8530643319375716e-06, 'epoch': 1.48}
+{'loss': 3.2682, 'grad_norm': 2.3193581104278564, 'learning_rate': 2.851161020175105e-06, 'epoch': 1.48}
+{'loss': 3.2507, 'grad_norm': 1.921138048171997, 'learning_rate': 2.8492577084126383e-06, 'epoch': 1.48}
+{'loss': 3.2998, 'grad_norm': 2.3343405723571777, 'learning_rate': 2.8473543966501717e-06, 'epoch': 1.48}
+{'loss': 3.3154, 'grad_norm': 2.444985866546631, 'learning_rate': 2.8454510848877046e-06, 'epoch': 1.48}
+{'loss': 3.2093, 'grad_norm': 2.014585256576538, 'learning_rate': 2.843547773125238e-06, 'epoch': 1.49}
+{'loss': 3.2728, 'grad_norm': 2.0297183990478516, 'learning_rate': 2.8416444613627714e-06, 'epoch': 1.49}
+{'loss': 3.2952, 'grad_norm': 1.792457938194275, 'learning_rate': 2.8397411496003047e-06, 'epoch': 1.49}
+{'loss': 3.2975, 'grad_norm': 2.29563307762146, 'learning_rate': 2.837837837837838e-06, 'epoch': 1.49}
+{'loss': 3.2708, 'grad_norm': 2.0875866413116455, 'learning_rate': 2.835934526075371e-06, 'epoch': 1.49}
+{'eval_loss': 3.650390625, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.926, 'eval_steps_per_second': 10.119, 'epoch': 1.49}
+{'loss': 3.3262, 'grad_norm': 1.9670345783233643, 'learning_rate': 2.8340312143129044e-06, 'epoch': 1.49}
+{'loss': 3.1523, 'grad_norm': 2.133782148361206, 'learning_rate': 2.8321279025504377e-06, 'epoch': 1.49}
+{'loss': 3.238, 'grad_norm': 1.9887292385101318, 'learning_rate': 2.830224590787971e-06, 'epoch': 1.49}
+{'loss': 3.3236, 'grad_norm': 2.0636978149414062, 'learning_rate': 2.8283212790255045e-06, 'epoch': 1.49}
+{'loss': 3.3333, 'grad_norm': 1.6337485313415527, 'learning_rate': 2.8264179672630383e-06, 'epoch': 1.49}
+{'loss': 3.2611, 'grad_norm': 1.8864853382110596, 'learning_rate': 2.8245146555005716e-06, 'epoch': 1.5}
+{'loss': 3.14, 'grad_norm': 1.8672046661376953, 'learning_rate': 2.8226113437381046e-06, 'epoch': 1.5}
+{'loss': 3.278, 'grad_norm': 1.9501616954803467, 'learning_rate': 2.820708031975638e-06, 'epoch': 1.5}
+{'loss': 3.2572, 'grad_norm': 1.7743587493896484, 'learning_rate': 2.8188047202131713e-06, 'epoch': 1.5}
+{'loss': 3.1299, 'grad_norm': 1.938265085220337, 'learning_rate': 2.8169014084507046e-06, 'epoch': 1.5}
+{'eval_loss': 3.654296875, 'eval_runtime': 4.1569, 'eval_samples_per_second': 240.566, 'eval_steps_per_second': 10.104, 'epoch': 1.5}
+{'loss': 3.3317, 'grad_norm': 1.9491708278656006, 'learning_rate': 2.814998096688238e-06, 'epoch': 1.5}
+{'loss': 3.2702, 'grad_norm': 1.996960997581482, 'learning_rate': 2.813094784925771e-06, 'epoch': 1.5}
+{'loss': 3.2786, 'grad_norm': 2.0943539142608643, 'learning_rate': 2.8111914731633043e-06, 'epoch': 1.5}
+{'loss': 3.207, 'grad_norm': 2.0211105346679688, 'learning_rate': 2.8092881614008377e-06, 'epoch': 1.5}
+{'loss': 3.277, 'grad_norm': 2.0901527404785156, 'learning_rate': 2.807384849638371e-06, 'epoch': 1.5}
+{'loss': 3.2868, 'grad_norm': 1.8443974256515503, 'learning_rate': 2.8054815378759044e-06, 'epoch': 1.51}
+{'loss': 3.2604, 'grad_norm': 2.129263162612915, 'learning_rate': 2.8035782261134378e-06, 'epoch': 1.51}
+{'loss': 3.3086, 'grad_norm': 2.075714111328125, 'learning_rate': 2.8016749143509707e-06, 'epoch': 1.51}
+{'loss': 3.2952, 'grad_norm': 1.9622756242752075, 'learning_rate': 2.799771602588504e-06, 'epoch': 1.51}
+{'loss': 3.2008, 'grad_norm': 2.056318521499634, 'learning_rate': 2.7978682908260374e-06, 'epoch': 1.51}
+{'eval_loss': 3.65625, 'eval_runtime': 4.1411, 'eval_samples_per_second': 241.484, 'eval_steps_per_second': 10.142, 'epoch': 1.51}
+{'loss': 3.2308, 'grad_norm': 1.9712257385253906, 'learning_rate': 2.795964979063571e-06, 'epoch': 1.51}
+{'loss': 3.223, 'grad_norm': 2.0505731105804443, 'learning_rate': 2.794061667301104e-06, 'epoch': 1.51}
+{'loss': 3.2497, 'grad_norm': 2.046220541000366, 'learning_rate': 2.792158355538637e-06, 'epoch': 1.51}
+{'loss': 3.3138, 'grad_norm': 1.9277243614196777, 'learning_rate': 2.7902550437761705e-06, 'epoch': 1.51}
+{'loss': 3.2048, 'grad_norm': 1.9664779901504517, 'learning_rate': 2.7883517320137042e-06, 'epoch': 1.52}
+{'loss': 3.1917, 'grad_norm': 1.8344252109527588, 'learning_rate': 2.7864484202512376e-06, 'epoch': 1.52}
+{'loss': 3.2725, 'grad_norm': 1.8651248216629028, 'learning_rate': 2.784545108488771e-06, 'epoch': 1.52}
+{'loss': 3.2767, 'grad_norm': 1.7875653505325317, 'learning_rate': 2.7826417967263043e-06, 'epoch': 1.52}
+{'loss': 3.2041, 'grad_norm': 2.0652658939361572, 'learning_rate': 2.7807384849638373e-06, 'epoch': 1.52}
+{'loss': 3.2673, 'grad_norm': 1.7675641775131226, 'learning_rate': 2.7788351732013706e-06, 'epoch': 1.52}
+{'eval_loss': 3.654296875, 'eval_runtime': 4.1504, 'eval_samples_per_second': 240.938, 'eval_steps_per_second': 10.119, 'epoch': 1.52}
+{'loss': 3.2259, 'grad_norm': 1.823868751525879, 'learning_rate': 2.776931861438904e-06, 'epoch': 1.52}
+{'loss': 3.2744, 'grad_norm': 1.946589708328247, 'learning_rate': 2.7750285496764374e-06, 'epoch': 1.52}
+{'loss': 3.2191, 'grad_norm': 1.9495164155960083, 'learning_rate': 2.7731252379139707e-06, 'epoch': 1.52}
+{'loss': 3.2357, 'grad_norm': 1.9966986179351807, 'learning_rate': 2.771221926151504e-06, 'epoch': 1.52}
+{'loss': 3.3132, 'grad_norm': 2.1763017177581787, 'learning_rate': 2.769318614389037e-06, 'epoch': 1.53}
+{'loss': 3.194, 'grad_norm': 2.0314323902130127, 'learning_rate': 2.7674153026265704e-06, 'epoch': 1.53}
+{'loss': 3.2744, 'grad_norm': 2.0142557621002197, 'learning_rate': 2.7655119908641037e-06, 'epoch': 1.53}
+{'loss': 3.2689, 'grad_norm': 1.8448214530944824, 'learning_rate': 2.763608679101637e-06, 'epoch': 1.53}
+{'loss': 3.2253, 'grad_norm': 1.9354896545410156, 'learning_rate': 2.7617053673391705e-06, 'epoch': 1.53}
+{'loss': 3.1608, 'grad_norm': 2.0100953578948975, 'learning_rate': 2.7598020555767034e-06, 'epoch': 1.53}
+{'eval_loss': 3.650390625, 'eval_runtime': 4.1417, 'eval_samples_per_second': 241.444, 'eval_steps_per_second': 10.141, 'epoch': 1.53}
+{'loss': 3.2116, 'grad_norm': 1.9999440908432007, 'learning_rate': 2.7578987438142368e-06, 'epoch': 1.53}
+{'loss': 3.2637, 'grad_norm': 1.9982064962387085, 'learning_rate': 2.75599543205177e-06, 'epoch': 1.53}
+{'loss': 3.2435, 'grad_norm': 2.069822311401367, 'learning_rate': 2.7540921202893035e-06, 'epoch': 1.53}
+{'loss': 3.2441, 'grad_norm': 2.1589579582214355, 'learning_rate': 2.752188808526837e-06, 'epoch': 1.53}
+{'loss': 3.2292, 'grad_norm': 2.0484535694122314, 'learning_rate': 2.75028549676437e-06, 'epoch': 1.54}
+{'loss': 3.2331, 'grad_norm': 1.9594433307647705, 'learning_rate': 2.7483821850019036e-06, 'epoch': 1.54}
+{'loss': 3.3786, 'grad_norm': 2.230707883834839, 'learning_rate': 2.746478873239437e-06, 'epoch': 1.54}
+{'loss': 3.2057, 'grad_norm': 1.887604832649231, 'learning_rate': 2.7445755614769703e-06, 'epoch': 1.54}
+{'loss': 3.1631, 'grad_norm': 1.8733848333358765, 'learning_rate': 2.7426722497145037e-06, 'epoch': 1.54}
+{'loss': 3.3304, 'grad_norm': 2.1611180305480957, 'learning_rate': 2.740768937952037e-06, 'epoch': 1.54}
+{'eval_loss': 3.654296875, 'eval_runtime': 4.1405, 'eval_samples_per_second': 241.514, 'eval_steps_per_second': 10.144, 'epoch': 1.54}
+{'loss': 3.2858, 'grad_norm': 2.0005686283111572, 'learning_rate': 2.7388656261895704e-06, 'epoch': 1.54}
+{'loss': 3.2301, 'grad_norm': 2.1549160480499268, 'learning_rate': 2.7369623144271033e-06, 'epoch': 1.54}
+{'loss': 3.3385, 'grad_norm': 2.036116361618042, 'learning_rate': 2.7350590026646367e-06, 'epoch': 1.54}
+{'loss': 3.2812, 'grad_norm': 1.8162806034088135, 'learning_rate': 2.73315569090217e-06, 'epoch': 1.54}
+{'loss': 3.2507, 'grad_norm': 1.9245342016220093, 'learning_rate': 2.7312523791397034e-06, 'epoch': 1.55}
+{'loss': 3.279, 'grad_norm': 1.9719682931900024, 'learning_rate': 2.7293490673772368e-06, 'epoch': 1.55}
+{'loss': 3.2314, 'grad_norm': 2.006460189819336, 'learning_rate': 2.7274457556147697e-06, 'epoch': 1.55}
+{'loss': 3.2119, 'grad_norm': 2.000556468963623, 'learning_rate': 2.725542443852303e-06, 'epoch': 1.55}
+{'loss': 3.2507, 'grad_norm': 2.0664093494415283, 'learning_rate': 2.7236391320898365e-06, 'epoch': 1.55}
+{'loss': 3.208, 'grad_norm': 2.4212512969970703, 'learning_rate': 2.72173582032737e-06, 'epoch': 1.55}
+{'eval_loss': 3.65234375, 'eval_runtime': 4.1525, 'eval_samples_per_second': 240.821, 'eval_steps_per_second': 10.114, 'epoch': 1.55}
+{'loss': 3.221, 'grad_norm': 2.1112987995147705, 'learning_rate': 2.719832508564903e-06, 'epoch': 1.55}
+{'loss': 3.2432, 'grad_norm': 2.383613109588623, 'learning_rate': 2.717929196802436e-06, 'epoch': 1.55}
+{'loss': 3.2949, 'grad_norm': 1.8514323234558105, 'learning_rate': 2.7160258850399695e-06, 'epoch': 1.55}
+{'loss': 3.3092, 'grad_norm': 2.401059150695801, 'learning_rate': 2.714122573277503e-06, 'epoch': 1.56}
+{'loss': 3.2526, 'grad_norm': 2.130086898803711, 'learning_rate': 2.712219261515036e-06, 'epoch': 1.56}
+{'loss': 3.1927, 'grad_norm': 2.5098438262939453, 'learning_rate': 2.71031594975257e-06, 'epoch': 1.56}
+{'loss': 3.3164, 'grad_norm': 2.3147451877593994, 'learning_rate': 2.7084126379901034e-06, 'epoch': 1.56}
+{'loss': 3.2965, 'grad_norm': 1.9903699159622192, 'learning_rate': 2.7065093262276367e-06, 'epoch': 1.56}
+{'loss': 3.2477, 'grad_norm': 1.9846694469451904, 'learning_rate': 2.7046060144651697e-06, 'epoch': 1.56}
+{'loss': 3.1836, 'grad_norm': 1.8695948123931885, 'learning_rate': 2.702702702702703e-06, 'epoch': 1.56}
+{'eval_loss': 3.650390625, 'eval_runtime': 4.1417, 'eval_samples_per_second': 241.446, 'eval_steps_per_second': 10.141, 'epoch': 1.56}
+{'loss': 3.2695, 'grad_norm': 1.9414305686950684, 'learning_rate': 2.7007993909402364e-06, 'epoch': 1.56}
+{'loss': 3.2412, 'grad_norm': 2.6509838104248047, 'learning_rate': 2.6988960791777697e-06, 'epoch': 1.56}
+{'loss': 3.2956, 'grad_norm': 2.001868963241577, 'learning_rate': 2.696992767415303e-06, 'epoch': 1.56}
+{'loss': 3.2064, 'grad_norm': 2.393383502960205, 'learning_rate': 2.695089455652836e-06, 'epoch': 1.57}
+{'loss': 3.2171, 'grad_norm': 2.3023364543914795, 'learning_rate': 2.6931861438903694e-06, 'epoch': 1.57}
+{'loss': 3.113, 'grad_norm': 2.1562037467956543, 'learning_rate': 2.6912828321279028e-06, 'epoch': 1.57}
+{'loss': 3.3092, 'grad_norm': 1.7666397094726562, 'learning_rate': 2.689379520365436e-06, 'epoch': 1.57}
+{'loss': 3.2464, 'grad_norm': 1.9439549446105957, 'learning_rate': 2.6874762086029695e-06, 'epoch': 1.57}
+{'loss': 3.2474, 'grad_norm': 1.881754994392395, 'learning_rate': 2.6855728968405024e-06, 'epoch': 1.57}
+{'loss': 3.2308, 'grad_norm': 1.959984540939331, 'learning_rate': 2.683669585078036e-06, 'epoch': 1.57}
+{'eval_loss': 3.654296875, 'eval_runtime': 4.1417, 'eval_samples_per_second': 241.445, 'eval_steps_per_second': 10.141, 'epoch': 1.57}
+{'loss': 3.2249, 'grad_norm': 1.9625314474105835, 'learning_rate': 2.681766273315569e-06, 'epoch': 1.57}
+{'loss': 3.2503, 'grad_norm': 2.03049898147583, 'learning_rate': 2.6798629615531025e-06, 'epoch': 1.57}
+{'loss': 3.2533, 'grad_norm': 1.86879301071167, 'learning_rate': 2.677959649790636e-06, 'epoch': 1.57}
+{'loss': 3.1758, 'grad_norm': 2.2451860904693604, 'learning_rate': 2.676056338028169e-06, 'epoch': 1.58}
+{'loss': 3.2214, 'grad_norm': 2.4428231716156006, 'learning_rate': 2.674153026265702e-06, 'epoch': 1.58}
+{'loss': 3.1074, 'grad_norm': 1.8396906852722168, 'learning_rate': 2.672249714503236e-06, 'epoch': 1.58}
+{'loss': 3.2275, 'grad_norm': 1.8018461465835571, 'learning_rate': 2.6703464027407693e-06, 'epoch': 1.58}
+{'loss': 3.2008, 'grad_norm': 2.0486905574798584, 'learning_rate': 2.6684430909783027e-06, 'epoch': 1.58}
+{'loss': 3.1862, 'grad_norm': 1.7366970777511597, 'learning_rate': 2.666539779215836e-06, 'epoch': 1.58}
+{'loss': 3.2565, 'grad_norm': 2.3782036304473877, 'learning_rate': 2.6646364674533694e-06, 'epoch': 1.58}
+{'eval_loss': 3.65234375, 'eval_runtime': 4.1598, 'eval_samples_per_second': 240.398, 'eval_steps_per_second': 10.097, 'epoch': 1.58}
+{'loss': 3.278, 'grad_norm': 2.278170108795166, 'learning_rate': 2.6627331556909024e-06, 'epoch': 1.58}
+{'loss': 3.2467, 'grad_norm': 1.7998851537704468, 'learning_rate': 2.6608298439284357e-06, 'epoch': 1.58}
+{'loss': 3.1911, 'grad_norm': 1.8604815006256104, 'learning_rate': 2.658926532165969e-06, 'epoch': 1.59}
+{'loss': 3.3825, 'grad_norm': 2.1693525314331055, 'learning_rate': 2.6570232204035024e-06, 'epoch': 1.59}
+{'loss': 3.2428, 'grad_norm': 1.8064444065093994, 'learning_rate': 2.655119908641036e-06, 'epoch': 1.59}
+{'loss': 3.265, 'grad_norm': 2.1084530353546143, 'learning_rate': 2.6532165968785687e-06, 'epoch': 1.59}
+{'loss': 3.2786, 'grad_norm': 2.0770833492279053, 'learning_rate': 2.651313285116102e-06, 'epoch': 1.59}
+{'loss': 3.2155, 'grad_norm': 2.0800819396972656, 'learning_rate': 2.6494099733536355e-06, 'epoch': 1.59}
+{'loss': 3.3574, 'grad_norm': 1.918218731880188, 'learning_rate': 2.647506661591169e-06, 'epoch': 1.59}
+{'loss': 3.223, 'grad_norm': 2.1142380237579346, 'learning_rate': 2.645603349828702e-06, 'epoch': 1.59}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1386, 'eval_samples_per_second': 241.629, 'eval_steps_per_second': 10.148, 'epoch': 1.59}
+{'loss': 3.2233, 'grad_norm': 2.0197081565856934, 'learning_rate': 2.643700038066235e-06, 'epoch': 1.59}
+{'loss': 3.2272, 'grad_norm': 2.3235487937927246, 'learning_rate': 2.6417967263037685e-06, 'epoch': 1.59}
+{'loss': 3.2461, 'grad_norm': 1.872149109840393, 'learning_rate': 2.639893414541302e-06, 'epoch': 1.6}
+{'loss': 3.2236, 'grad_norm': 1.7162957191467285, 'learning_rate': 2.6379901027788352e-06, 'epoch': 1.6}
+{'loss': 3.2663, 'grad_norm': 1.931341290473938, 'learning_rate': 2.6360867910163686e-06, 'epoch': 1.6}
+{'loss': 3.2373, 'grad_norm': 2.0502378940582275, 'learning_rate': 2.6341834792539024e-06, 'epoch': 1.6}
+{'loss': 3.1702, 'grad_norm': 2.1455767154693604, 'learning_rate': 2.6322801674914357e-06, 'epoch': 1.6}
+{'loss': 3.2383, 'grad_norm': 2.121677875518799, 'learning_rate': 2.6303768557289687e-06, 'epoch': 1.6}
+{'loss': 3.1354, 'grad_norm': 1.8509947061538696, 'learning_rate': 2.628473543966502e-06, 'epoch': 1.6}
+{'loss': 3.2913, 'grad_norm': 2.309238910675049, 'learning_rate': 2.6265702322040354e-06, 'epoch': 1.6}
+{'eval_loss': 3.65234375, 'eval_runtime': 4.1475, 'eval_samples_per_second': 241.107, 'eval_steps_per_second': 10.127, 'epoch': 1.6}
+{'loss': 3.2871, 'grad_norm': 2.1478731632232666, 'learning_rate': 2.6246669204415688e-06, 'epoch': 1.6}
+{'loss': 3.2497, 'grad_norm': 2.073101758956909, 'learning_rate': 2.622763608679102e-06, 'epoch': 1.6}
+{'loss': 3.2168, 'grad_norm': 1.8783191442489624, 'learning_rate': 2.620860296916635e-06, 'epoch': 1.61}
+{'loss': 3.2738, 'grad_norm': 1.9254626035690308, 'learning_rate': 2.6189569851541684e-06, 'epoch': 1.61}
+{'loss': 3.2796, 'grad_norm': 2.1813836097717285, 'learning_rate': 2.617053673391702e-06, 'epoch': 1.61}
+{'loss': 3.2314, 'grad_norm': 1.8628662824630737, 'learning_rate': 2.615150361629235e-06, 'epoch': 1.61}
+{'loss': 3.1836, 'grad_norm': 2.073615550994873, 'learning_rate': 2.6132470498667685e-06, 'epoch': 1.61}
+{'loss': 3.2598, 'grad_norm': 1.9503133296966553, 'learning_rate': 2.6113437381043015e-06, 'epoch': 1.61}
+{'loss': 3.2493, 'grad_norm': 1.8231854438781738, 'learning_rate': 2.609440426341835e-06, 'epoch': 1.61}
+{'loss': 3.2236, 'grad_norm': 1.9829891920089722, 'learning_rate': 2.607537114579368e-06, 'epoch': 1.61}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1513, 'eval_samples_per_second': 240.888, 'eval_steps_per_second': 10.117, 'epoch': 1.61}
+{'loss': 3.3206, 'grad_norm': 2.1083781719207764, 'learning_rate': 2.6056338028169015e-06, 'epoch': 1.61}
+{'loss': 3.2572, 'grad_norm': 1.8033252954483032, 'learning_rate': 2.603730491054435e-06, 'epoch': 1.61}
+{'loss': 3.2497, 'grad_norm': 1.8715119361877441, 'learning_rate': 2.601827179291968e-06, 'epoch': 1.62}
+{'loss': 3.1442, 'grad_norm': 2.2049148082733154, 'learning_rate': 2.599923867529501e-06, 'epoch': 1.62}
+{'loss': 3.2793, 'grad_norm': 2.340269088745117, 'learning_rate': 2.5980205557670346e-06, 'epoch': 1.62}
+{'loss': 3.2227, 'grad_norm': 1.7312415838241577, 'learning_rate': 2.5961172440045684e-06, 'epoch': 1.62}
+{'loss': 3.1842, 'grad_norm': 2.020216464996338, 'learning_rate': 2.5942139322421017e-06, 'epoch': 1.62}
+{'loss': 3.2952, 'grad_norm': 2.0205581188201904, 'learning_rate': 2.592310620479635e-06, 'epoch': 1.62}
+{'loss': 3.2842, 'grad_norm': 1.8965963125228882, 'learning_rate': 2.5904073087171684e-06, 'epoch': 1.62}
+{'loss': 3.2142, 'grad_norm': 1.745875597000122, 'learning_rate': 2.5885039969547014e-06, 'epoch': 1.62}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1416, 'eval_samples_per_second': 241.453, 'eval_steps_per_second': 10.141, 'epoch': 1.62}
+{'loss': 3.208, 'grad_norm': 1.9065837860107422, 'learning_rate': 2.5866006851922347e-06, 'epoch': 1.62}
+{'loss': 3.2624, 'grad_norm': 1.948838233947754, 'learning_rate': 2.584697373429768e-06, 'epoch': 1.63}
+{'loss': 3.237, 'grad_norm': 2.023031711578369, 'learning_rate': 2.5827940616673015e-06, 'epoch': 1.63}
+{'loss': 3.2152, 'grad_norm': 1.8740043640136719, 'learning_rate': 2.580890749904835e-06, 'epoch': 1.63}
+{'loss': 3.1924, 'grad_norm': 1.8744436502456665, 'learning_rate': 2.5789874381423678e-06, 'epoch': 1.63}
+{'loss': 3.3291, 'grad_norm': 2.4514834880828857, 'learning_rate': 2.577084126379901e-06, 'epoch': 1.63}
+{'loss': 3.2819, 'grad_norm': 1.8208905458450317, 'learning_rate': 2.5751808146174345e-06, 'epoch': 1.63}
+{'loss': 3.2598, 'grad_norm': 2.3325934410095215, 'learning_rate': 2.573277502854968e-06, 'epoch': 1.63}
+{'loss': 3.1745, 'grad_norm': 2.119990587234497, 'learning_rate': 2.5713741910925012e-06, 'epoch': 1.63}
+{'loss': 3.2848, 'grad_norm': 1.9559130668640137, 'learning_rate': 2.569470879330034e-06, 'epoch': 1.63}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1509, 'eval_samples_per_second': 240.911, 'eval_steps_per_second': 10.118, 'epoch': 1.63}
+{'loss': 3.1862, 'grad_norm': 2.1434552669525146, 'learning_rate': 2.5675675675675675e-06, 'epoch': 1.63}
+{'loss': 3.3044, 'grad_norm': 2.044886827468872, 'learning_rate': 2.565664255805101e-06, 'epoch': 1.64}
+{'loss': 3.2432, 'grad_norm': 2.425013303756714, 'learning_rate': 2.5637609440426343e-06, 'epoch': 1.64}
+{'loss': 3.2624, 'grad_norm': 2.0056233406066895, 'learning_rate': 2.5618576322801676e-06, 'epoch': 1.64}
+{'loss': 3.1885, 'grad_norm': 2.0667507648468018, 'learning_rate': 2.5599543205177006e-06, 'epoch': 1.64}
+{'loss': 3.1738, 'grad_norm': 2.0520741939544678, 'learning_rate': 2.558051008755234e-06, 'epoch': 1.64}
+{'loss': 3.248, 'grad_norm': 1.91856849193573, 'learning_rate': 2.5561476969927677e-06, 'epoch': 1.64}
+{'loss': 3.3174, 'grad_norm': 1.9895280599594116, 'learning_rate': 2.554244385230301e-06, 'epoch': 1.64}
+{'loss': 3.2161, 'grad_norm': 2.1674251556396484, 'learning_rate': 2.5523410734678344e-06, 'epoch': 1.64}
+{'loss': 3.3083, 'grad_norm': 1.975319743156433, 'learning_rate': 2.550437761705368e-06, 'epoch': 1.64}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1442, 'eval_samples_per_second': 241.299, 'eval_steps_per_second': 10.135, 'epoch': 1.64}
+{'loss': 3.2891, 'grad_norm': 2.156195878982544, 'learning_rate': 2.548534449942901e-06, 'epoch': 1.64}
+{'loss': 3.2764, 'grad_norm': 2.1014537811279297, 'learning_rate': 2.546631138180434e-06, 'epoch': 1.65}
+{'loss': 3.2363, 'grad_norm': 1.7850358486175537, 'learning_rate': 2.5447278264179675e-06, 'epoch': 1.65}
+{'loss': 3.1647, 'grad_norm': 1.9006603956222534, 'learning_rate': 2.542824514655501e-06, 'epoch': 1.65}
+{'loss': 3.2067, 'grad_norm': 2.0657594203948975, 'learning_rate': 2.540921202893034e-06, 'epoch': 1.65}
+{'loss': 3.1803, 'grad_norm': 2.0711727142333984, 'learning_rate': 2.5390178911305675e-06, 'epoch': 1.65}
+{'loss': 3.3083, 'grad_norm': 1.6794627904891968, 'learning_rate': 2.5371145793681005e-06, 'epoch': 1.65}
+{'loss': 3.3538, 'grad_norm': 2.0773732662200928, 'learning_rate': 2.535211267605634e-06, 'epoch': 1.65}
+{'loss': 3.2865, 'grad_norm': 1.9858237504959106, 'learning_rate': 2.533307955843167e-06, 'epoch': 1.65}
+{'loss': 3.2568, 'grad_norm': 1.8985779285430908, 'learning_rate': 2.5314046440807006e-06, 'epoch': 1.65}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1394, 'eval_samples_per_second': 241.583, 'eval_steps_per_second': 10.146, 'epoch': 1.65}
+{'loss': 3.3099, 'grad_norm': 1.8362776041030884, 'learning_rate': 2.529501332318234e-06, 'epoch': 1.65}
+{'loss': 3.2269, 'grad_norm': 1.9261678457260132, 'learning_rate': 2.5275980205557673e-06, 'epoch': 1.66}
+{'loss': 3.2327, 'grad_norm': 1.7320338487625122, 'learning_rate': 2.5256947087933002e-06, 'epoch': 1.66}
+{'loss': 3.1807, 'grad_norm': 2.1512911319732666, 'learning_rate': 2.5237913970308336e-06, 'epoch': 1.66}
+{'loss': 3.1921, 'grad_norm': 1.8907639980316162, 'learning_rate': 2.521888085268367e-06, 'epoch': 1.66}
+{'loss': 3.1667, 'grad_norm': 2.0265719890594482, 'learning_rate': 2.5199847735059003e-06, 'epoch': 1.66}
+{'loss': 3.109, 'grad_norm': 1.9866578578948975, 'learning_rate': 2.518081461743434e-06, 'epoch': 1.66}
+{'loss': 3.137, 'grad_norm': 1.902856469154358, 'learning_rate': 2.5161781499809675e-06, 'epoch': 1.66}
+{'loss': 3.2376, 'grad_norm': 2.0641627311706543, 'learning_rate': 2.5142748382185004e-06, 'epoch': 1.66}
+{'loss': 3.2695, 'grad_norm': 1.9164804220199585, 'learning_rate': 2.5123715264560338e-06, 'epoch': 1.66}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1589, 'eval_samples_per_second': 240.448, 'eval_steps_per_second': 10.099, 'epoch': 1.66}
+{'loss': 3.2061, 'grad_norm': 2.1322240829467773, 'learning_rate': 2.510468214693567e-06, 'epoch': 1.67}
+{'loss': 3.1729, 'grad_norm': 1.8847934007644653, 'learning_rate': 2.5085649029311005e-06, 'epoch': 1.67}
+{'loss': 3.2699, 'grad_norm': 1.8856528997421265, 'learning_rate': 2.506661591168634e-06, 'epoch': 1.67}
+{'loss': 3.2028, 'grad_norm': 1.8975610733032227, 'learning_rate': 2.504758279406167e-06, 'epoch': 1.67}
+{'loss': 3.2568, 'grad_norm': 2.0384016036987305, 'learning_rate': 2.5028549676437e-06, 'epoch': 1.67}
+{'loss': 3.1641, 'grad_norm': 1.8417431116104126, 'learning_rate': 2.5009516558812335e-06, 'epoch': 1.67}
+{'loss': 3.2008, 'grad_norm': 1.941260814666748, 'learning_rate': 2.499048344118767e-06, 'epoch': 1.67}
+{'loss': 3.2725, 'grad_norm': 2.076889991760254, 'learning_rate': 2.4971450323563002e-06, 'epoch': 1.67}
+{'loss': 3.2038, 'grad_norm': 1.8722535371780396, 'learning_rate': 2.4952417205938336e-06, 'epoch': 1.67}
+{'loss': 3.2347, 'grad_norm': 1.8449352979660034, 'learning_rate': 2.4933384088313666e-06, 'epoch': 1.67}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1557, 'eval_samples_per_second': 240.631, 'eval_steps_per_second': 10.106, 'epoch': 1.67}
+{'loss': 3.2103, 'grad_norm': 1.8023961782455444, 'learning_rate': 2.4914350970689e-06, 'epoch': 1.68}
+{'loss': 3.263, 'grad_norm': 1.9168474674224854, 'learning_rate': 2.4895317853064337e-06, 'epoch': 1.68}
+{'loss': 3.2126, 'grad_norm': 1.6641079187393188, 'learning_rate': 2.4876284735439666e-06, 'epoch': 1.68}
+{'loss': 3.2158, 'grad_norm': 1.9106402397155762, 'learning_rate': 2.4857251617815e-06, 'epoch': 1.68}
+{'loss': 3.4176, 'grad_norm': 2.439546585083008, 'learning_rate': 2.4838218500190334e-06, 'epoch': 1.68}
+{'loss': 3.1966, 'grad_norm': 1.7572177648544312, 'learning_rate': 2.4819185382565667e-06, 'epoch': 1.68}
+{'loss': 3.2812, 'grad_norm': 2.1835076808929443, 'learning_rate': 2.4800152264941e-06, 'epoch': 1.68}
+{'loss': 3.2334, 'grad_norm': 2.348848819732666, 'learning_rate': 2.478111914731633e-06, 'epoch': 1.68}
+{'loss': 3.2344, 'grad_norm': 1.9864060878753662, 'learning_rate': 2.4762086029691664e-06, 'epoch': 1.68}
+{'loss': 3.2044, 'grad_norm': 2.060912609100342, 'learning_rate': 2.4743052912066998e-06, 'epoch': 1.68}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1386, 'eval_samples_per_second': 241.629, 'eval_steps_per_second': 10.148, 'epoch': 1.68}
+{'loss': 3.1159, 'grad_norm': 1.8819020986557007, 'learning_rate': 2.472401979444233e-06, 'epoch': 1.69}
+{'loss': 3.1973, 'grad_norm': 2.373553991317749, 'learning_rate': 2.4704986676817665e-06, 'epoch': 1.69}
+{'loss': 3.2842, 'grad_norm': 1.9695138931274414, 'learning_rate': 2.4685953559193e-06, 'epoch': 1.69}
+{'loss': 3.1634, 'grad_norm': 1.866182804107666, 'learning_rate': 2.466692044156833e-06, 'epoch': 1.69}
+{'loss': 3.1576, 'grad_norm': 1.9513092041015625, 'learning_rate': 2.4647887323943666e-06, 'epoch': 1.69}
+{'loss': 3.1797, 'grad_norm': 1.9065364599227905, 'learning_rate': 2.4628854206319e-06, 'epoch': 1.69}
+{'loss': 3.097, 'grad_norm': 1.7861469984054565, 'learning_rate': 2.460982108869433e-06, 'epoch': 1.69}
+{'loss': 3.1608, 'grad_norm': 2.0495822429656982, 'learning_rate': 2.4590787971069662e-06, 'epoch': 1.69}
+{'loss': 3.1273, 'grad_norm': 1.844017744064331, 'learning_rate': 2.4571754853444996e-06, 'epoch': 1.69}
+{'loss': 3.2191, 'grad_norm': 1.9235637187957764, 'learning_rate': 2.455272173582033e-06, 'epoch': 1.69}
+{'eval_loss': 3.650390625, 'eval_runtime': 4.1548, 'eval_samples_per_second': 240.683, 'eval_steps_per_second': 10.109, 'epoch': 1.69}
+{'loss': 3.2559, 'grad_norm': 2.0516841411590576, 'learning_rate': 2.4533688618195663e-06, 'epoch': 1.7}
+{'loss': 3.2402, 'grad_norm': 1.9809794425964355, 'learning_rate': 2.4514655500570997e-06, 'epoch': 1.7}
+{'loss': 3.2835, 'grad_norm': 1.8614728450775146, 'learning_rate': 2.449562238294633e-06, 'epoch': 1.7}
+{'loss': 3.3337, 'grad_norm': 1.938012719154358, 'learning_rate': 2.4476589265321664e-06, 'epoch': 1.7}
+{'loss': 3.2233, 'grad_norm': 1.874330997467041, 'learning_rate': 2.4457556147696993e-06, 'epoch': 1.7}
+{'loss': 3.2223, 'grad_norm': 1.5998523235321045, 'learning_rate': 2.4438523030072327e-06, 'epoch': 1.7}
+{'loss': 3.2783, 'grad_norm': 2.0285871028900146, 'learning_rate': 2.441948991244766e-06, 'epoch': 1.7}
+{'loss': 3.1924, 'grad_norm': 2.1181766986846924, 'learning_rate': 2.4400456794822994e-06, 'epoch': 1.7}
+{'loss': 3.224, 'grad_norm': 1.8475080728530884, 'learning_rate': 2.438142367719833e-06, 'epoch': 1.7}
+{'loss': 3.2881, 'grad_norm': 1.9236334562301636, 'learning_rate': 2.4362390559573657e-06, 'epoch': 1.71}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1429, 'eval_samples_per_second': 241.377, 'eval_steps_per_second': 10.138, 'epoch': 1.71}
+{'loss': 3.248, 'grad_norm': 1.8990278244018555, 'learning_rate': 2.434335744194899e-06, 'epoch': 1.71}
+{'loss': 3.2168, 'grad_norm': 2.0457918643951416, 'learning_rate': 2.432432432432433e-06, 'epoch': 1.71}
+{'loss': 3.1471, 'grad_norm': 1.967434287071228, 'learning_rate': 2.4305291206699662e-06, 'epoch': 1.71}
+{'loss': 3.2611, 'grad_norm': 1.8359966278076172, 'learning_rate': 2.428625808907499e-06, 'epoch': 1.71}
+{'loss': 3.2031, 'grad_norm': 1.8967393636703491, 'learning_rate': 2.4267224971450325e-06, 'epoch': 1.71}
+{'loss': 3.1761, 'grad_norm': 1.7773230075836182, 'learning_rate': 2.424819185382566e-06, 'epoch': 1.71}
+{'loss': 3.222, 'grad_norm': 2.091749668121338, 'learning_rate': 2.4229158736200993e-06, 'epoch': 1.71}
+{'loss': 3.2467, 'grad_norm': 2.0335285663604736, 'learning_rate': 2.4210125618576326e-06, 'epoch': 1.71}
+{'loss': 3.1322, 'grad_norm': 2.4242351055145264, 'learning_rate': 2.4191092500951656e-06, 'epoch': 1.71}
+{'loss': 3.2067, 'grad_norm': 1.9627435207366943, 'learning_rate': 2.417205938332699e-06, 'epoch': 1.72}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1427, 'eval_samples_per_second': 241.391, 'eval_steps_per_second': 10.138, 'epoch': 1.72}
+{'loss': 3.2428, 'grad_norm': 1.9977538585662842, 'learning_rate': 2.4153026265702323e-06, 'epoch': 1.72}
+{'loss': 3.252, 'grad_norm': 2.0889577865600586, 'learning_rate': 2.4133993148077657e-06, 'epoch': 1.72}
+{'loss': 3.1634, 'grad_norm': 1.8521283864974976, 'learning_rate': 2.411496003045299e-06, 'epoch': 1.72}
+{'loss': 3.1885, 'grad_norm': 1.8539963960647583, 'learning_rate': 2.4095926912828324e-06, 'epoch': 1.72}
+{'loss': 3.2633, 'grad_norm': 2.2058463096618652, 'learning_rate': 2.4076893795203658e-06, 'epoch': 1.72}
+{'loss': 3.2126, 'grad_norm': 1.8325114250183105, 'learning_rate': 2.405786067757899e-06, 'epoch': 1.72}
+{'loss': 3.1549, 'grad_norm': 1.6969026327133179, 'learning_rate': 2.403882755995432e-06, 'epoch': 1.72}
+{'loss': 3.1813, 'grad_norm': 1.6590139865875244, 'learning_rate': 2.4019794442329654e-06, 'epoch': 1.72}
+{'loss': 3.1273, 'grad_norm': 2.2419662475585938, 'learning_rate': 2.4000761324704988e-06, 'epoch': 1.72}
+{'loss': 3.3135, 'grad_norm': 1.9565740823745728, 'learning_rate': 2.398172820708032e-06, 'epoch': 1.73}
+{'eval_loss': 3.650390625, 'eval_runtime': 4.1557, 'eval_samples_per_second': 240.632, 'eval_steps_per_second': 10.107, 'epoch': 1.73}
+{'loss': 3.2995, 'grad_norm': 2.3797905445098877, 'learning_rate': 2.3962695089455655e-06, 'epoch': 1.73}
+{'loss': 3.2363, 'grad_norm': 1.8908600807189941, 'learning_rate': 2.3943661971830984e-06, 'epoch': 1.73}
+{'loss': 3.1309, 'grad_norm': 1.8625155687332153, 'learning_rate': 2.3924628854206322e-06, 'epoch': 1.73}
+{'loss': 3.1973, 'grad_norm': 1.765021800994873, 'learning_rate': 2.3905595736581656e-06, 'epoch': 1.73}
+{'loss': 3.2692, 'grad_norm': 1.9132983684539795, 'learning_rate': 2.388656261895699e-06, 'epoch': 1.73}
+{'loss': 3.1934, 'grad_norm': 2.016497850418091, 'learning_rate': 2.386752950133232e-06, 'epoch': 1.73}
+{'loss': 3.2399, 'grad_norm': 1.6341679096221924, 'learning_rate': 2.3848496383707653e-06, 'epoch': 1.73}
+{'loss': 3.1859, 'grad_norm': 2.033264398574829, 'learning_rate': 2.3829463266082986e-06, 'epoch': 1.73}
+{'loss': 3.2998, 'grad_norm': 2.046170234680176, 'learning_rate': 2.381043014845832e-06, 'epoch': 1.73}
+{'loss': 3.2311, 'grad_norm': 1.9162256717681885, 'learning_rate': 2.3791397030833653e-06, 'epoch': 1.74}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1434, 'eval_samples_per_second': 241.348, 'eval_steps_per_second': 10.137, 'epoch': 1.74}
+{'loss': 3.2152, 'grad_norm': 1.877810001373291, 'learning_rate': 2.3772363913208983e-06, 'epoch': 1.74}
+{'loss': 3.2933, 'grad_norm': 1.9162142276763916, 'learning_rate': 2.3753330795584316e-06, 'epoch': 1.74}
+{'loss': 3.1829, 'grad_norm': 1.9296154975891113, 'learning_rate': 2.3734297677959654e-06, 'epoch': 1.74}
+{'loss': 3.2594, 'grad_norm': 2.0955324172973633, 'learning_rate': 2.3715264560334984e-06, 'epoch': 1.74}
+{'loss': 3.3037, 'grad_norm': 1.6110817193984985, 'learning_rate': 2.3696231442710317e-06, 'epoch': 1.74}
+{'loss': 3.1702, 'grad_norm': 2.0374038219451904, 'learning_rate': 2.367719832508565e-06, 'epoch': 1.74}
+{'loss': 3.2038, 'grad_norm': 1.9835286140441895, 'learning_rate': 2.3658165207460985e-06, 'epoch': 1.74}
+{'loss': 3.2256, 'grad_norm': 1.844897747039795, 'learning_rate': 2.363913208983632e-06, 'epoch': 1.74}
+{'loss': 3.1689, 'grad_norm': 1.7731870412826538, 'learning_rate': 2.362009897221165e-06, 'epoch': 1.75}
+{'loss': 3.3148, 'grad_norm': 2.581207752227783, 'learning_rate': 2.360106585458698e-06, 'epoch': 1.75}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1582, 'eval_samples_per_second': 240.49, 'eval_steps_per_second': 10.101, 'epoch': 1.75}
+{'loss': 3.1966, 'grad_norm': 1.722790002822876, 'learning_rate': 2.3582032736962315e-06, 'epoch': 1.75}
+{'loss': 3.1849, 'grad_norm': 2.03273344039917, 'learning_rate': 2.356299961933765e-06, 'epoch': 1.75}
+{'loss': 3.1807, 'grad_norm': 1.9750475883483887, 'learning_rate': 2.354396650171298e-06, 'epoch': 1.75}
+{'loss': 3.2344, 'grad_norm': 1.9365589618682861, 'learning_rate': 2.3524933384088316e-06, 'epoch': 1.75}
+{'loss': 3.1722, 'grad_norm': 1.7627919912338257, 'learning_rate': 2.350590026646365e-06, 'epoch': 1.75}
+{'loss': 3.2588, 'grad_norm': 1.9252915382385254, 'learning_rate': 2.3486867148838983e-06, 'epoch': 1.75}
+{'loss': 3.2025, 'grad_norm': 1.789446234703064, 'learning_rate': 2.3467834031214317e-06, 'epoch': 1.75}
+{'loss': 3.265, 'grad_norm': 1.7552456855773926, 'learning_rate': 2.3448800913589646e-06, 'epoch': 1.75}
+{'loss': 3.2064, 'grad_norm': 1.8491263389587402, 'learning_rate': 2.342976779596498e-06, 'epoch': 1.76}
+{'loss': 3.2744, 'grad_norm': 1.7523819208145142, 'learning_rate': 2.3410734678340313e-06, 'epoch': 1.76}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1593, 'eval_samples_per_second': 240.422, 'eval_steps_per_second': 10.098, 'epoch': 1.76}
+{'loss': 3.2705, 'grad_norm': 2.0673651695251465, 'learning_rate': 2.3391701560715647e-06, 'epoch': 1.76}
+{'loss': 3.1807, 'grad_norm': 2.0483503341674805, 'learning_rate': 2.337266844309098e-06, 'epoch': 1.76}
+{'loss': 3.2542, 'grad_norm': 1.7485264539718628, 'learning_rate': 2.3353635325466314e-06, 'epoch': 1.76}
+{'loss': 3.21, 'grad_norm': 1.7502684593200684, 'learning_rate': 2.3334602207841648e-06, 'epoch': 1.76}
+{'loss': 3.2292, 'grad_norm': 1.8854730129241943, 'learning_rate': 2.331556909021698e-06, 'epoch': 1.76}
+{'loss': 3.3092, 'grad_norm': 1.9633129835128784, 'learning_rate': 2.3296535972592315e-06, 'epoch': 1.76}
+{'loss': 3.2679, 'grad_norm': 1.838419795036316, 'learning_rate': 2.3277502854967644e-06, 'epoch': 1.76}
+{'loss': 3.2448, 'grad_norm': 1.9568142890930176, 'learning_rate': 2.325846973734298e-06, 'epoch': 1.76}
+{'loss': 3.2116, 'grad_norm': 1.6497455835342407, 'learning_rate': 2.323943661971831e-06, 'epoch': 1.77}
+{'loss': 3.2103, 'grad_norm': 1.9957691431045532, 'learning_rate': 2.3220403502093645e-06, 'epoch': 1.77}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1464, 'eval_samples_per_second': 241.17, 'eval_steps_per_second': 10.129, 'epoch': 1.77}
+{'loss': 3.1283, 'grad_norm': 1.675334095954895, 'learning_rate': 2.320137038446898e-06, 'epoch': 1.77}
+{'loss': 3.1797, 'grad_norm': 1.7769272327423096, 'learning_rate': 2.318233726684431e-06, 'epoch': 1.77}
+{'loss': 3.2656, 'grad_norm': 1.8143808841705322, 'learning_rate': 2.3163304149219646e-06, 'epoch': 1.77}
+{'loss': 3.264, 'grad_norm': 2.024044990539551, 'learning_rate': 2.314427103159498e-06, 'epoch': 1.77}
+{'loss': 3.1901, 'grad_norm': 1.6242204904556274, 'learning_rate': 2.312523791397031e-06, 'epoch': 1.77}
+{'loss': 3.1178, 'grad_norm': 1.8086520433425903, 'learning_rate': 2.3106204796345643e-06, 'epoch': 1.77}
+{'loss': 3.1924, 'grad_norm': 1.813407063484192, 'learning_rate': 2.3087171678720976e-06, 'epoch': 1.77}
+{'loss': 3.2298, 'grad_norm': 1.7533856630325317, 'learning_rate': 2.306813856109631e-06, 'epoch': 1.78}
+{'loss': 3.1318, 'grad_norm': 1.7339903116226196, 'learning_rate': 2.3049105443471644e-06, 'epoch': 1.78}
+{'loss': 3.2728, 'grad_norm': 2.310335874557495, 'learning_rate': 2.3030072325846973e-06, 'epoch': 1.78}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1538, 'eval_samples_per_second': 240.746, 'eval_steps_per_second': 10.111, 'epoch': 1.78}
+{'loss': 3.2585, 'grad_norm': 1.8884164094924927, 'learning_rate': 2.3011039208222307e-06, 'epoch': 1.78}
+{'loss': 3.1888, 'grad_norm': 1.808115005493164, 'learning_rate': 2.299200609059764e-06, 'epoch': 1.78}
+{'loss': 3.138, 'grad_norm': 2.063253402709961, 'learning_rate': 2.297297297297298e-06, 'epoch': 1.78}
+{'loss': 3.2487, 'grad_norm': 2.0655112266540527, 'learning_rate': 2.2953939855348308e-06, 'epoch': 1.78}
+{'loss': 3.2406, 'grad_norm': 2.139209270477295, 'learning_rate': 2.293490673772364e-06, 'epoch': 1.78}
+{'loss': 3.2627, 'grad_norm': 1.8831665515899658, 'learning_rate': 2.2915873620098975e-06, 'epoch': 1.78}
+{'loss': 3.2493, 'grad_norm': 1.8894376754760742, 'learning_rate': 2.289684050247431e-06, 'epoch': 1.78}
+{'loss': 3.2223, 'grad_norm': 1.9777843952178955, 'learning_rate': 2.287780738484964e-06, 'epoch': 1.79}
+{'loss': 3.3307, 'grad_norm': 2.062502384185791, 'learning_rate': 2.285877426722497e-06, 'epoch': 1.79}
+{'loss': 3.1686, 'grad_norm': 1.9327651262283325, 'learning_rate': 2.2839741149600305e-06, 'epoch': 1.79}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1519, 'eval_samples_per_second': 240.851, 'eval_steps_per_second': 10.116, 'epoch': 1.79}
+{'loss': 3.1849, 'grad_norm': 2.041614055633545, 'learning_rate': 2.282070803197564e-06, 'epoch': 1.79}
+{'loss': 3.2656, 'grad_norm': 2.0117578506469727, 'learning_rate': 2.2801674914350972e-06, 'epoch': 1.79}
+{'loss': 3.1595, 'grad_norm': 2.0837862491607666, 'learning_rate': 2.2782641796726306e-06, 'epoch': 1.79}
+{'loss': 3.2318, 'grad_norm': 1.9472877979278564, 'learning_rate': 2.276360867910164e-06, 'epoch': 1.79}
+{'loss': 3.1904, 'grad_norm': 1.8544695377349854, 'learning_rate': 2.2744575561476973e-06, 'epoch': 1.79}
+{'loss': 3.1696, 'grad_norm': 1.69501793384552, 'learning_rate': 2.2725542443852307e-06, 'epoch': 1.79}
+{'loss': 3.18, 'grad_norm': 1.7987627983093262, 'learning_rate': 2.2706509326227636e-06, 'epoch': 1.79}
+{'loss': 3.2168, 'grad_norm': 1.866960883140564, 'learning_rate': 2.268747620860297e-06, 'epoch': 1.8}
+{'loss': 3.2559, 'grad_norm': 1.7941508293151855, 'learning_rate': 2.2668443090978303e-06, 'epoch': 1.8}
+{'loss': 3.2135, 'grad_norm': 1.813937783241272, 'learning_rate': 2.2649409973353637e-06, 'epoch': 1.8}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1409, 'eval_samples_per_second': 241.495, 'eval_steps_per_second': 10.143, 'epoch': 1.8}
+{'loss': 3.193, 'grad_norm': 1.9924689531326294, 'learning_rate': 2.263037685572897e-06, 'epoch': 1.8}
+{'loss': 3.1982, 'grad_norm': 2.007061004638672, 'learning_rate': 2.26113437381043e-06, 'epoch': 1.8}
+{'loss': 3.0866, 'grad_norm': 2.1181373596191406, 'learning_rate': 2.259231062047964e-06, 'epoch': 1.8}
+{'loss': 3.2829, 'grad_norm': 2.1245510578155518, 'learning_rate': 2.257327750285497e-06, 'epoch': 1.8}
+{'loss': 3.1123, 'grad_norm': 2.1457529067993164, 'learning_rate': 2.2554244385230305e-06, 'epoch': 1.8}
+{'loss': 3.2598, 'grad_norm': 2.0224597454071045, 'learning_rate': 2.2535211267605635e-06, 'epoch': 1.8}
+{'loss': 3.1247, 'grad_norm': 1.6945661306381226, 'learning_rate': 2.251617814998097e-06, 'epoch': 1.8}
+{'loss': 3.1676, 'grad_norm': 1.8466178178787231, 'learning_rate': 2.24971450323563e-06, 'epoch': 1.81}
+{'loss': 3.1816, 'grad_norm': 1.8218779563903809, 'learning_rate': 2.2478111914731636e-06, 'epoch': 1.81}
+{'loss': 3.1995, 'grad_norm': 1.6368985176086426, 'learning_rate': 2.245907879710697e-06, 'epoch': 1.81}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1516, 'eval_samples_per_second': 240.873, 'eval_steps_per_second': 10.117, 'epoch': 1.81}
+{'loss': 3.1673, 'grad_norm': 2.0235607624053955, 'learning_rate': 2.24400456794823e-06, 'epoch': 1.81}
+{'loss': 3.1484, 'grad_norm': 1.9549304246902466, 'learning_rate': 2.2421012561857632e-06, 'epoch': 1.81}
+{'loss': 3.2109, 'grad_norm': 1.9439090490341187, 'learning_rate': 2.240197944423297e-06, 'epoch': 1.81}
+{'loss': 3.1849, 'grad_norm': 1.9785548448562622, 'learning_rate': 2.23829463266083e-06, 'epoch': 1.81}
+{'loss': 3.3324, 'grad_norm': 2.2383129596710205, 'learning_rate': 2.2363913208983633e-06, 'epoch': 1.81}
+{'loss': 3.1963, 'grad_norm': 2.1194264888763428, 'learning_rate': 2.2344880091358967e-06, 'epoch': 1.81}
+{'loss': 3.1172, 'grad_norm': 1.677179217338562, 'learning_rate': 2.23258469737343e-06, 'epoch': 1.82}
+{'loss': 3.2269, 'grad_norm': 2.134129047393799, 'learning_rate': 2.2306813856109634e-06, 'epoch': 1.82}
+{'loss': 3.123, 'grad_norm': 1.79979407787323, 'learning_rate': 2.2287780738484963e-06, 'epoch': 1.82}
+{'loss': 3.2119, 'grad_norm': 1.9517327547073364, 'learning_rate': 2.2268747620860297e-06, 'epoch': 1.82}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1542, 'eval_samples_per_second': 240.723, 'eval_steps_per_second': 10.11, 'epoch': 1.82}
+{'loss': 3.3096, 'grad_norm': 2.1340508460998535, 'learning_rate': 2.224971450323563e-06, 'epoch': 1.82}
+{'loss': 3.1953, 'grad_norm': 1.9157367944717407, 'learning_rate': 2.2230681385610964e-06, 'epoch': 1.82}
+{'loss': 3.1331, 'grad_norm': 1.7958896160125732, 'learning_rate': 2.2211648267986298e-06, 'epoch': 1.82}
+{'loss': 3.2021, 'grad_norm': 1.8275184631347656, 'learning_rate': 2.219261515036163e-06, 'epoch': 1.82}
+{'loss': 3.1901, 'grad_norm': 2.1210029125213623, 'learning_rate': 2.2173582032736965e-06, 'epoch': 1.82}
+{'loss': 3.2796, 'grad_norm': 1.779466152191162, 'learning_rate': 2.21545489151123e-06, 'epoch': 1.82}
+{'loss': 3.2643, 'grad_norm': 1.751222848892212, 'learning_rate': 2.2135515797487632e-06, 'epoch': 1.83}
+{'loss': 3.2236, 'grad_norm': 1.8669891357421875, 'learning_rate': 2.211648267986296e-06, 'epoch': 1.83}
+{'loss': 3.2295, 'grad_norm': 1.6498878002166748, 'learning_rate': 2.2097449562238295e-06, 'epoch': 1.83}
+{'loss': 3.1829, 'grad_norm': 1.9798072576522827, 'learning_rate': 2.207841644461363e-06, 'epoch': 1.83}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1441, 'eval_samples_per_second': 241.305, 'eval_steps_per_second': 10.135, 'epoch': 1.83}
+{'loss': 3.2201, 'grad_norm': 1.5564117431640625, 'learning_rate': 2.2059383326988963e-06, 'epoch': 1.83}
+{'loss': 3.2044, 'grad_norm': 1.9088335037231445, 'learning_rate': 2.2040350209364296e-06, 'epoch': 1.83}
+{'loss': 3.2839, 'grad_norm': 1.7812387943267822, 'learning_rate': 2.2021317091739626e-06, 'epoch': 1.83}
+{'loss': 3.1885, 'grad_norm': 2.1343774795532227, 'learning_rate': 2.2002283974114963e-06, 'epoch': 1.83}
+{'loss': 3.2035, 'grad_norm': 1.9625252485275269, 'learning_rate': 2.1983250856490297e-06, 'epoch': 1.83}
+{'loss': 3.1872, 'grad_norm': 1.6598777770996094, 'learning_rate': 2.1964217738865626e-06, 'epoch': 1.83}
+{'loss': 3.1195, 'grad_norm': 1.9663543701171875, 'learning_rate': 2.194518462124096e-06, 'epoch': 1.84}
+{'loss': 3.208, 'grad_norm': 1.6270285844802856, 'learning_rate': 2.1926151503616294e-06, 'epoch': 1.84}
+{'loss': 3.2428, 'grad_norm': 2.05244517326355, 'learning_rate': 2.1907118385991627e-06, 'epoch': 1.84}
+{'loss': 3.168, 'grad_norm': 2.0423707962036133, 'learning_rate': 2.188808526836696e-06, 'epoch': 1.84}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1595, 'eval_samples_per_second': 240.414, 'eval_steps_per_second': 10.097, 'epoch': 1.84}
+{'loss': 3.2503, 'grad_norm': 1.7790791988372803, 'learning_rate': 2.1869052150742295e-06, 'epoch': 1.84}
+{'loss': 3.2236, 'grad_norm': 1.6248847246170044, 'learning_rate': 2.1850019033117624e-06, 'epoch': 1.84}
+{'loss': 3.0778, 'grad_norm': 1.9878649711608887, 'learning_rate': 2.1830985915492958e-06, 'epoch': 1.84}
+{'loss': 3.2363, 'grad_norm': 1.8648184537887573, 'learning_rate': 2.1811952797868295e-06, 'epoch': 1.84}
+{'loss': 3.1413, 'grad_norm': 1.7400881052017212, 'learning_rate': 2.1792919680243625e-06, 'epoch': 1.84}
+{'loss': 3.2699, 'grad_norm': 1.7321465015411377, 'learning_rate': 2.177388656261896e-06, 'epoch': 1.84}
+{'loss': 3.1855, 'grad_norm': 1.9138243198394775, 'learning_rate': 2.1754853444994292e-06, 'epoch': 1.85}
+{'loss': 3.2412, 'grad_norm': 2.327192783355713, 'learning_rate': 2.1735820327369626e-06, 'epoch': 1.85}
+{'loss': 3.1309, 'grad_norm': 2.0197062492370605, 'learning_rate': 2.171678720974496e-06, 'epoch': 1.85}
+{'loss': 3.1813, 'grad_norm': 1.556031346321106, 'learning_rate': 2.169775409212029e-06, 'epoch': 1.85}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1437, 'eval_samples_per_second': 241.331, 'eval_steps_per_second': 10.136, 'epoch': 1.85}
+{'loss': 3.2236, 'grad_norm': 1.663265585899353, 'learning_rate': 2.1678720974495622e-06, 'epoch': 1.85}
+{'loss': 3.1706, 'grad_norm': 2.0160884857177734, 'learning_rate': 2.1659687856870956e-06, 'epoch': 1.85}
+{'loss': 3.2546, 'grad_norm': 2.051419496536255, 'learning_rate': 2.164065473924629e-06, 'epoch': 1.85}
+{'loss': 3.1729, 'grad_norm': 1.8352196216583252, 'learning_rate': 2.1621621621621623e-06, 'epoch': 1.85}
+{'loss': 3.2458, 'grad_norm': 1.6749670505523682, 'learning_rate': 2.1602588503996957e-06, 'epoch': 1.85}
+{'loss': 3.1989, 'grad_norm': 1.9035749435424805, 'learning_rate': 2.158355538637229e-06, 'epoch': 1.86}
+{'loss': 3.222, 'grad_norm': 2.073476791381836, 'learning_rate': 2.1564522268747624e-06, 'epoch': 1.86}
+{'loss': 3.1377, 'grad_norm': 1.6556861400604248, 'learning_rate': 2.1545489151122958e-06, 'epoch': 1.86}
+{'loss': 3.2633, 'grad_norm': 2.127944231033325, 'learning_rate': 2.1526456033498287e-06, 'epoch': 1.86}
+{'loss': 3.1292, 'grad_norm': 1.9961295127868652, 'learning_rate': 2.150742291587362e-06, 'epoch': 1.86}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1427, 'eval_samples_per_second': 241.388, 'eval_steps_per_second': 10.138, 'epoch': 1.86}
+{'loss': 3.2324, 'grad_norm': 1.987585186958313, 'learning_rate': 2.1488389798248954e-06, 'epoch': 1.86}
+{'loss': 3.2171, 'grad_norm': 2.0916526317596436, 'learning_rate': 2.146935668062429e-06, 'epoch': 1.86}
+{'loss': 3.2393, 'grad_norm': 2.045536994934082, 'learning_rate': 2.145032356299962e-06, 'epoch': 1.86}
+{'loss': 3.2415, 'grad_norm': 2.0446395874023438, 'learning_rate': 2.1431290445374955e-06, 'epoch': 1.86}
+{'loss': 3.2035, 'grad_norm': 1.94218909740448, 'learning_rate': 2.141225732775029e-06, 'epoch': 1.86}
+{'loss': 3.208, 'grad_norm': 1.615470290184021, 'learning_rate': 2.1393224210125623e-06, 'epoch': 1.87}
+{'loss': 3.1943, 'grad_norm': 1.6009889841079712, 'learning_rate': 2.137419109250095e-06, 'epoch': 1.87}
+{'loss': 3.2441, 'grad_norm': 1.5993356704711914, 'learning_rate': 2.1355157974876286e-06, 'epoch': 1.87}
+{'loss': 3.2559, 'grad_norm': 1.7573338747024536, 'learning_rate': 2.133612485725162e-06, 'epoch': 1.87}
+{'loss': 3.2386, 'grad_norm': 1.7350910902023315, 'learning_rate': 2.1317091739626953e-06, 'epoch': 1.87}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1626, 'eval_samples_per_second': 240.236, 'eval_steps_per_second': 10.09, 'epoch': 1.87}
+{'loss': 3.1396, 'grad_norm': 2.06758189201355, 'learning_rate': 2.1298058622002286e-06, 'epoch': 1.87}
+{'loss': 3.2295, 'grad_norm': 1.8610234260559082, 'learning_rate': 2.1279025504377616e-06, 'epoch': 1.87}
+{'loss': 3.2653, 'grad_norm': 2.186884641647339, 'learning_rate': 2.125999238675295e-06, 'epoch': 1.87}
+{'loss': 3.2285, 'grad_norm': 1.8101534843444824, 'learning_rate': 2.1240959269128287e-06, 'epoch': 1.87}
+{'loss': 3.1891, 'grad_norm': 2.2333157062530518, 'learning_rate': 2.122192615150362e-06, 'epoch': 1.87}
+{'loss': 3.1283, 'grad_norm': 2.210052728652954, 'learning_rate': 2.120289303387895e-06, 'epoch': 1.88}
+{'loss': 3.3268, 'grad_norm': 2.061724901199341, 'learning_rate': 2.1183859916254284e-06, 'epoch': 1.88}
+{'loss': 3.096, 'grad_norm': 1.7145249843597412, 'learning_rate': 2.1164826798629618e-06, 'epoch': 1.88}
+{'loss': 3.2295, 'grad_norm': 1.9503834247589111, 'learning_rate': 2.114579368100495e-06, 'epoch': 1.88}
+{'loss': 3.2819, 'grad_norm': 1.912591814994812, 'learning_rate': 2.1126760563380285e-06, 'epoch': 1.88}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1466, 'eval_samples_per_second': 241.162, 'eval_steps_per_second': 10.129, 'epoch': 1.88}
+{'loss': 3.2663, 'grad_norm': 1.7892396450042725, 'learning_rate': 2.1107727445755614e-06, 'epoch': 1.88}
+{'loss': 3.2998, 'grad_norm': 1.8349649906158447, 'learning_rate': 2.1088694328130948e-06, 'epoch': 1.88}
+{'loss': 3.2594, 'grad_norm': 2.041588306427002, 'learning_rate': 2.106966121050628e-06, 'epoch': 1.88}
+{'loss': 3.1934, 'grad_norm': 1.76432466506958, 'learning_rate': 2.1050628092881615e-06, 'epoch': 1.88}
+{'loss': 3.2435, 'grad_norm': 1.8455071449279785, 'learning_rate': 2.103159497525695e-06, 'epoch': 1.88}
+{'loss': 3.2223, 'grad_norm': 1.9094449281692505, 'learning_rate': 2.1012561857632282e-06, 'epoch': 1.89}
+{'loss': 3.2061, 'grad_norm': 2.107456922531128, 'learning_rate': 2.0993528740007616e-06, 'epoch': 1.89}
+{'loss': 3.2705, 'grad_norm': 1.9201889038085938, 'learning_rate': 2.097449562238295e-06, 'epoch': 1.89}
+{'loss': 3.1725, 'grad_norm': 1.8872672319412231, 'learning_rate': 2.095546250475828e-06, 'epoch': 1.89}
+{'loss': 3.2477, 'grad_norm': 1.8871798515319824, 'learning_rate': 2.0936429387133613e-06, 'epoch': 1.89}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1385, 'eval_samples_per_second': 241.636, 'eval_steps_per_second': 10.149, 'epoch': 1.89}
+{'loss': 3.1859, 'grad_norm': 1.9076786041259766, 'learning_rate': 2.0917396269508946e-06, 'epoch': 1.89}
+{'loss': 3.2656, 'grad_norm': 1.9123016595840454, 'learning_rate': 2.089836315188428e-06, 'epoch': 1.89}
+{'loss': 3.2259, 'grad_norm': 1.7632966041564941, 'learning_rate': 2.0879330034259614e-06, 'epoch': 1.89}
+{'loss': 3.165, 'grad_norm': 1.7911314964294434, 'learning_rate': 2.0860296916634947e-06, 'epoch': 1.89}
+{'loss': 3.222, 'grad_norm': 1.8827452659606934, 'learning_rate': 2.084126379901028e-06, 'epoch': 1.9}
+{'loss': 3.222, 'grad_norm': 1.9366949796676636, 'learning_rate': 2.0822230681385614e-06, 'epoch': 1.9}
+{'loss': 3.1598, 'grad_norm': 1.9969637393951416, 'learning_rate': 2.080319756376095e-06, 'epoch': 1.9}
+{'loss': 3.1836, 'grad_norm': 1.7303682565689087, 'learning_rate': 2.0784164446136277e-06, 'epoch': 1.9}
+{'loss': 3.2956, 'grad_norm': 2.0547540187835693, 'learning_rate': 2.076513132851161e-06, 'epoch': 1.9}
+{'loss': 3.2676, 'grad_norm': 2.015623092651367, 'learning_rate': 2.0746098210886945e-06, 'epoch': 1.9}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1533, 'eval_samples_per_second': 240.774, 'eval_steps_per_second': 10.113, 'epoch': 1.9}
+{'loss': 3.2148, 'grad_norm': 1.8549041748046875, 'learning_rate': 2.072706509326228e-06, 'epoch': 1.9}
+{'loss': 3.1654, 'grad_norm': 1.734477162361145, 'learning_rate': 2.070803197563761e-06, 'epoch': 1.9}
+{'loss': 3.2334, 'grad_norm': 1.8280842304229736, 'learning_rate': 2.068899885801294e-06, 'epoch': 1.9}
+{'loss': 3.234, 'grad_norm': 1.9799071550369263, 'learning_rate': 2.066996574038828e-06, 'epoch': 1.9}
+{'loss': 3.2135, 'grad_norm': 1.8559061288833618, 'learning_rate': 2.0650932622763613e-06, 'epoch': 1.91}
+{'loss': 3.1745, 'grad_norm': 2.2101006507873535, 'learning_rate': 2.0631899505138942e-06, 'epoch': 1.91}
+{'loss': 3.2477, 'grad_norm': 1.8080283403396606, 'learning_rate': 2.0612866387514276e-06, 'epoch': 1.91}
+{'loss': 3.1514, 'grad_norm': 2.121907949447632, 'learning_rate': 2.059383326988961e-06, 'epoch': 1.91}
+{'loss': 3.1188, 'grad_norm': 1.912772297859192, 'learning_rate': 2.0574800152264943e-06, 'epoch': 1.91}
+{'loss': 3.193, 'grad_norm': 1.8444464206695557, 'learning_rate': 2.0555767034640277e-06, 'epoch': 1.91}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1495, 'eval_samples_per_second': 240.993, 'eval_steps_per_second': 10.122, 'epoch': 1.91}
+{'loss': 3.2279, 'grad_norm': 1.802457571029663, 'learning_rate': 2.053673391701561e-06, 'epoch': 1.91}
+{'loss': 3.2129, 'grad_norm': 1.865195870399475, 'learning_rate': 2.051770079939094e-06, 'epoch': 1.91}
+{'loss': 3.1458, 'grad_norm': 1.841015338897705, 'learning_rate': 2.0498667681766273e-06, 'epoch': 1.91}
+{'loss': 3.1742, 'grad_norm': 1.7035020589828491, 'learning_rate': 2.047963456414161e-06, 'epoch': 1.91}
+{'loss': 3.2402, 'grad_norm': 1.6850981712341309, 'learning_rate': 2.046060144651694e-06, 'epoch': 1.92}
+{'loss': 3.1523, 'grad_norm': 1.7749958038330078, 'learning_rate': 2.0441568328892274e-06, 'epoch': 1.92}
+{'loss': 3.2142, 'grad_norm': 1.8153249025344849, 'learning_rate': 2.0422535211267608e-06, 'epoch': 1.92}
+{'loss': 3.1562, 'grad_norm': 1.649128794670105, 'learning_rate': 2.040350209364294e-06, 'epoch': 1.92}
+{'loss': 3.2354, 'grad_norm': 1.6718659400939941, 'learning_rate': 2.0384468976018275e-06, 'epoch': 1.92}
+{'loss': 3.2103, 'grad_norm': 2.008450984954834, 'learning_rate': 2.0365435858393604e-06, 'epoch': 1.92}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1422, 'eval_samples_per_second': 241.42, 'eval_steps_per_second': 10.14, 'epoch': 1.92}
+{'loss': 3.1624, 'grad_norm': 1.592341423034668, 'learning_rate': 2.034640274076894e-06, 'epoch': 1.92}
+{'loss': 3.2409, 'grad_norm': 1.6026451587677002, 'learning_rate': 2.032736962314427e-06, 'epoch': 1.92}
+{'loss': 3.1051, 'grad_norm': 1.9285480976104736, 'learning_rate': 2.0308336505519605e-06, 'epoch': 1.92}
+{'loss': 3.167, 'grad_norm': 2.1674046516418457, 'learning_rate': 2.028930338789494e-06, 'epoch': 1.93}
+{'loss': 3.1637, 'grad_norm': 1.868817687034607, 'learning_rate': 2.0270270270270273e-06, 'epoch': 1.93}
+{'loss': 3.1162, 'grad_norm': 2.1300461292266846, 'learning_rate': 2.0251237152645606e-06, 'epoch': 1.93}
+{'loss': 3.1608, 'grad_norm': 1.797696828842163, 'learning_rate': 2.023220403502094e-06, 'epoch': 1.93}
+{'loss': 3.1178, 'grad_norm': 1.7770915031433105, 'learning_rate': 2.0213170917396273e-06, 'epoch': 1.93}
+{'loss': 3.2438, 'grad_norm': 1.9839133024215698, 'learning_rate': 2.0194137799771603e-06, 'epoch': 1.93}
+{'loss': 3.1439, 'grad_norm': 1.666290521621704, 'learning_rate': 2.0175104682146937e-06, 'epoch': 1.93}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1518, 'eval_samples_per_second': 240.861, 'eval_steps_per_second': 10.116, 'epoch': 1.93}
+{'loss': 3.2135, 'grad_norm': 1.6649179458618164, 'learning_rate': 2.015607156452227e-06, 'epoch': 1.93}
+{'loss': 3.2956, 'grad_norm': 2.0055885314941406, 'learning_rate': 2.0137038446897604e-06, 'epoch': 1.93}
+{'loss': 3.1901, 'grad_norm': 1.7260771989822388, 'learning_rate': 2.0118005329272937e-06, 'epoch': 1.93}
+{'loss': 3.1683, 'grad_norm': 2.0543673038482666, 'learning_rate': 2.0098972211648267e-06, 'epoch': 1.94}
+{'loss': 3.1426, 'grad_norm': 1.625646948814392, 'learning_rate': 2.0079939094023605e-06, 'epoch': 1.94}
+{'loss': 3.2354, 'grad_norm': 1.8094419240951538, 'learning_rate': 2.006090597639894e-06, 'epoch': 1.94}
+{'loss': 3.1549, 'grad_norm': 1.9404958486557007, 'learning_rate': 2.0041872858774268e-06, 'epoch': 1.94}
+{'loss': 3.1201, 'grad_norm': 2.0880370140075684, 'learning_rate': 2.00228397411496e-06, 'epoch': 1.94}
+{'loss': 3.2523, 'grad_norm': 1.8836488723754883, 'learning_rate': 2.0003806623524935e-06, 'epoch': 1.94}
+{'loss': 3.1517, 'grad_norm': 1.6426180601119995, 'learning_rate': 1.998477350590027e-06, 'epoch': 1.94}
+{'eval_loss': 3.6484375, 'eval_runtime': 4.1435, 'eval_samples_per_second': 241.34, 'eval_steps_per_second': 10.136, 'epoch': 1.94}
+{'loss': 3.18, 'grad_norm': 1.6889238357543945, 'learning_rate': 1.9965740388275602e-06, 'epoch': 1.94}
+{'loss': 3.2142, 'grad_norm': 1.8250148296356201, 'learning_rate': 1.994670727065093e-06, 'epoch': 1.94}
+{'loss': 3.1921, 'grad_norm': 1.9730141162872314, 'learning_rate': 1.9927674153026265e-06, 'epoch': 1.94}
+{'loss': 3.1048, 'grad_norm': 1.6075934171676636, 'learning_rate': 1.99086410354016e-06, 'epoch': 1.95}
+{'loss': 3.21, 'grad_norm': 1.868147850036621, 'learning_rate': 1.9889607917776937e-06, 'epoch': 1.95}
+{'loss': 3.2018, 'grad_norm': 1.8810526132583618, 'learning_rate': 1.9870574800152266e-06, 'epoch': 1.95}
+{'loss': 3.1367, 'grad_norm': 1.6127463579177856, 'learning_rate': 1.98515416825276e-06, 'epoch': 1.95}
+{'loss': 3.1387, 'grad_norm': 1.7804843187332153, 'learning_rate': 1.9832508564902933e-06, 'epoch': 1.95}
+{'loss': 3.2161, 'grad_norm': 1.8046178817749023, 'learning_rate': 1.9813475447278267e-06, 'epoch': 1.95}
+{'loss': 3.1305, 'grad_norm': 2.3568499088287354, 'learning_rate': 1.97944423296536e-06, 'epoch': 1.95}
+{'eval_loss': 3.646484375, 'eval_runtime': 4.1479, 'eval_samples_per_second': 241.087, 'eval_steps_per_second': 10.126, 'epoch': 1.95}
+{'loss': 3.166, 'grad_norm': 1.7730177640914917, 'learning_rate': 1.977540921202893e-06, 'epoch': 1.95}
+{'loss': 3.1423, 'grad_norm': 1.9129012823104858, 'learning_rate': 1.9756376094404264e-06, 'epoch': 1.95}
+{'loss': 3.1683, 'grad_norm': 1.789021611213684, 'learning_rate': 1.9737342976779597e-06, 'epoch': 1.95}
+{'loss': 3.2786, 'grad_norm': 1.94975745677948, 'learning_rate': 1.971830985915493e-06, 'epoch': 1.96}
+{'loss': 3.2686, 'grad_norm': 1.8473222255706787, 'learning_rate': 1.9699276741530264e-06, 'epoch': 1.96}
+{'loss': 3.2188, 'grad_norm': 1.8409981727600098, 'learning_rate': 1.96802436239056e-06, 'epoch': 1.96}
+{'loss': 3.2695, 'grad_norm': 1.9823945760726929, 'learning_rate': 1.966121050628093e-06, 'epoch': 1.96}
+{'loss': 3.2087, 'grad_norm': 1.9109114408493042, 'learning_rate': 1.9642177388656265e-06, 'epoch': 1.96}
+{'loss': 3.2061, 'grad_norm': 1.7149251699447632, 'learning_rate': 1.9623144271031595e-06, 'epoch': 1.96}
+{'loss': 3.1969, 'grad_norm': 1.971314787864685, 'learning_rate': 1.960411115340693e-06, 'epoch': 1.96}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1517, 'eval_samples_per_second': 240.863, 'eval_steps_per_second': 10.116, 'epoch': 1.96}
+{'loss': 3.2171, 'grad_norm': 1.7544583082199097, 'learning_rate': 1.958507803578226e-06, 'epoch': 1.96}
+{'loss': 3.2018, 'grad_norm': 2.091371536254883, 'learning_rate': 1.9566044918157596e-06, 'epoch': 1.96}
+{'loss': 3.0918, 'grad_norm': 2.3425605297088623, 'learning_rate': 1.954701180053293e-06, 'epoch': 1.97}
+{'loss': 3.2441, 'grad_norm': 1.9185150861740112, 'learning_rate': 1.952797868290826e-06, 'epoch': 1.97}
+{'loss': 3.1361, 'grad_norm': 2.008540153503418, 'learning_rate': 1.9508945565283596e-06, 'epoch': 1.97}
+{'loss': 3.1257, 'grad_norm': 2.028355121612549, 'learning_rate': 1.948991244765893e-06, 'epoch': 1.97}
+{'loss': 3.0628, 'grad_norm': 2.0548064708709717, 'learning_rate': 1.9470879330034264e-06, 'epoch': 1.97}
+{'loss': 3.1257, 'grad_norm': 2.0094611644744873, 'learning_rate': 1.9451846212409593e-06, 'epoch': 1.97}
+{'loss': 3.1442, 'grad_norm': 1.6314884424209595, 'learning_rate': 1.9432813094784927e-06, 'epoch': 1.97}
+{'loss': 3.1742, 'grad_norm': 1.7924786806106567, 'learning_rate': 1.941377997716026e-06, 'epoch': 1.97}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1345, 'eval_samples_per_second': 241.866, 'eval_steps_per_second': 10.158, 'epoch': 1.97}
+{'loss': 3.1432, 'grad_norm': 1.8838471174240112, 'learning_rate': 1.9394746859535594e-06, 'epoch': 1.97}
+{'loss': 3.1875, 'grad_norm': 1.7419564723968506, 'learning_rate': 1.9375713741910928e-06, 'epoch': 1.97}
+{'loss': 3.2477, 'grad_norm': 2.104942798614502, 'learning_rate': 1.9356680624286257e-06, 'epoch': 1.98}
+{'loss': 3.238, 'grad_norm': 1.9141870737075806, 'learning_rate': 1.933764750666159e-06, 'epoch': 1.98}
+{'loss': 3.2858, 'grad_norm': 2.3001723289489746, 'learning_rate': 1.931861438903693e-06, 'epoch': 1.98}
+{'loss': 3.1361, 'grad_norm': 1.6872813701629639, 'learning_rate': 1.929958127141226e-06, 'epoch': 1.98}
+{'loss': 3.221, 'grad_norm': 1.881941795349121, 'learning_rate': 1.928054815378759e-06, 'epoch': 1.98}
+{'loss': 3.3073, 'grad_norm': 2.014479875564575, 'learning_rate': 1.9261515036162925e-06, 'epoch': 1.98}
+{'loss': 3.1787, 'grad_norm': 1.7800226211547852, 'learning_rate': 1.924248191853826e-06, 'epoch': 1.98}
+{'loss': 3.2262, 'grad_norm': 1.954562783241272, 'learning_rate': 1.9223448800913592e-06, 'epoch': 1.98}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1487, 'eval_samples_per_second': 241.037, 'eval_steps_per_second': 10.124, 'epoch': 1.98}
+{'loss': 3.266, 'grad_norm': 2.046623945236206, 'learning_rate': 1.9204415683288926e-06, 'epoch': 1.98}
+{'loss': 3.2152, 'grad_norm': 1.9626072645187378, 'learning_rate': 1.9185382565664255e-06, 'epoch': 1.98}
+{'loss': 3.224, 'grad_norm': 1.917523980140686, 'learning_rate': 1.916634944803959e-06, 'epoch': 1.99}
+{'loss': 3.2168, 'grad_norm': 1.6973316669464111, 'learning_rate': 1.9147316330414923e-06, 'epoch': 1.99}
+{'loss': 3.2054, 'grad_norm': 1.771909475326538, 'learning_rate': 1.9128283212790256e-06, 'epoch': 1.99}
+{'loss': 3.1377, 'grad_norm': 1.8936870098114014, 'learning_rate': 1.910925009516559e-06, 'epoch': 1.99}
+{'loss': 3.1315, 'grad_norm': 2.137120008468628, 'learning_rate': 1.9090216977540924e-06, 'epoch': 1.99}
+{'loss': 3.1341, 'grad_norm': 1.9213354587554932, 'learning_rate': 1.9071183859916257e-06, 'epoch': 1.99}
+{'loss': 3.1966, 'grad_norm': 2.017261028289795, 'learning_rate': 1.9052150742291589e-06, 'epoch': 1.99}
+{'loss': 3.1559, 'grad_norm': 1.7615883350372314, 'learning_rate': 1.9033117624666922e-06, 'epoch': 1.99}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1455, 'eval_samples_per_second': 241.223, 'eval_steps_per_second': 10.131, 'epoch': 1.99}
+{'loss': 3.1419, 'grad_norm': 1.6414841413497925, 'learning_rate': 1.9014084507042254e-06, 'epoch': 1.99}
+{'loss': 3.1465, 'grad_norm': 1.6471439599990845, 'learning_rate': 1.8995051389417587e-06, 'epoch': 1.99}
+{'loss': 3.2295, 'grad_norm': 1.8727996349334717, 'learning_rate': 1.8976018271792921e-06, 'epoch': 2.0}
+{'loss': 3.1455, 'grad_norm': 2.0787220001220703, 'learning_rate': 1.8956985154168253e-06, 'epoch': 2.0}
+{'loss': 3.1572, 'grad_norm': 2.0070858001708984, 'learning_rate': 1.8937952036543588e-06, 'epoch': 2.0}
+{'loss': 3.2513, 'grad_norm': 1.831766128540039, 'learning_rate': 1.8918918918918922e-06, 'epoch': 2.0}
+{'loss': 3.0596, 'grad_norm': 1.8413729667663574, 'learning_rate': 1.8899885801294253e-06, 'epoch': 2.0}
+{'loss': 3.1979, 'grad_norm': 1.903730869293213, 'learning_rate': 1.8880852683669587e-06, 'epoch': 2.0}
+{'loss': 3.2796, 'grad_norm': 1.7548425197601318, 'learning_rate': 1.886181956604492e-06, 'epoch': 2.0}
+{'loss': 3.1943, 'grad_norm': 1.6581475734710693, 'learning_rate': 1.8842786448420252e-06, 'epoch': 2.0}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1432, 'eval_samples_per_second': 241.357, 'eval_steps_per_second': 10.137, 'epoch': 2.0}
+{'loss': 3.1979, 'grad_norm': 1.8360995054244995, 'learning_rate': 1.8823753330795586e-06, 'epoch': 2.0}
+{'loss': 3.2445, 'grad_norm': 2.0347824096679688, 'learning_rate': 1.8804720213170917e-06, 'epoch': 2.01}
+{'loss': 3.1214, 'grad_norm': 1.944488763809204, 'learning_rate': 1.878568709554625e-06, 'epoch': 2.01}
+{'loss': 3.1507, 'grad_norm': 1.7301838397979736, 'learning_rate': 1.8766653977921585e-06, 'epoch': 2.01}
+{'loss': 3.1696, 'grad_norm': 1.864267349243164, 'learning_rate': 1.874762086029692e-06, 'epoch': 2.01}
+{'loss': 3.208, 'grad_norm': 1.9165304899215698, 'learning_rate': 1.8728587742672252e-06, 'epoch': 2.01}
+{'loss': 3.1221, 'grad_norm': 1.5797442197799683, 'learning_rate': 1.8709554625047585e-06, 'epoch': 2.01}
+{'loss': 3.2357, 'grad_norm': 1.6168376207351685, 'learning_rate': 1.8690521507422917e-06, 'epoch': 2.01}
+{'loss': 3.2705, 'grad_norm': 1.7838406562805176, 'learning_rate': 1.867148838979825e-06, 'epoch': 2.01}
+{'loss': 3.1419, 'grad_norm': 1.861064076423645, 'learning_rate': 1.8652455272173584e-06, 'epoch': 2.01}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1561, 'eval_samples_per_second': 240.608, 'eval_steps_per_second': 10.106, 'epoch': 2.01}
+{'loss': 3.2087, 'grad_norm': 1.9214617013931274, 'learning_rate': 1.8633422154548916e-06, 'epoch': 2.01}
+{'loss': 3.224, 'grad_norm': 2.233921527862549, 'learning_rate': 1.861438903692425e-06, 'epoch': 2.02}
+{'loss': 3.1937, 'grad_norm': 2.057917594909668, 'learning_rate': 1.859535591929958e-06, 'epoch': 2.02}
+{'loss': 3.139, 'grad_norm': 1.6797130107879639, 'learning_rate': 1.8576322801674915e-06, 'epoch': 2.02}
+{'loss': 3.123, 'grad_norm': 1.7696411609649658, 'learning_rate': 1.855728968405025e-06, 'epoch': 2.02}
+{'loss': 3.2178, 'grad_norm': 1.8816264867782593, 'learning_rate': 1.8538256566425584e-06, 'epoch': 2.02}
+{'loss': 3.238, 'grad_norm': 2.0953686237335205, 'learning_rate': 1.8519223448800915e-06, 'epoch': 2.02}
+{'loss': 3.1683, 'grad_norm': 1.7168186902999878, 'learning_rate': 1.850019033117625e-06, 'epoch': 2.02}
+{'loss': 3.2051, 'grad_norm': 1.9347575902938843, 'learning_rate': 1.848115721355158e-06, 'epoch': 2.02}
+{'loss': 3.1611, 'grad_norm': 1.8883609771728516, 'learning_rate': 1.8462124095926914e-06, 'epoch': 2.02}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1545, 'eval_samples_per_second': 240.705, 'eval_steps_per_second': 10.11, 'epoch': 2.02}
+{'loss': 3.2425, 'grad_norm': 1.9234721660614014, 'learning_rate': 1.8443090978302248e-06, 'epoch': 2.02}
+{'loss': 3.109, 'grad_norm': 1.805853247642517, 'learning_rate': 1.842405786067758e-06, 'epoch': 2.03}
+{'loss': 3.1732, 'grad_norm': 1.8596364259719849, 'learning_rate': 1.8405024743052913e-06, 'epoch': 2.03}
+{'loss': 3.2207, 'grad_norm': 1.7817872762680054, 'learning_rate': 1.8385991625428247e-06, 'epoch': 2.03}
+{'loss': 3.168, 'grad_norm': 1.5012768507003784, 'learning_rate': 1.8366958507803578e-06, 'epoch': 2.03}
+{'loss': 3.1247, 'grad_norm': 2.026113510131836, 'learning_rate': 1.8347925390178914e-06, 'epoch': 2.03}
+{'loss': 3.2207, 'grad_norm': 1.9766290187835693, 'learning_rate': 1.8328892272554247e-06, 'epoch': 2.03}
+{'loss': 3.181, 'grad_norm': 1.9764853715896606, 'learning_rate': 1.8309859154929579e-06, 'epoch': 2.03}
+{'loss': 3.1488, 'grad_norm': 1.8635907173156738, 'learning_rate': 1.8290826037304913e-06, 'epoch': 2.03}
+{'loss': 3.1908, 'grad_norm': 1.6666123867034912, 'learning_rate': 1.8271792919680246e-06, 'epoch': 2.03}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1409, 'eval_samples_per_second': 241.491, 'eval_steps_per_second': 10.143, 'epoch': 2.03}
+{'loss': 3.1305, 'grad_norm': 1.7477290630340576, 'learning_rate': 1.8252759802055578e-06, 'epoch': 2.03}
+{'loss': 3.2728, 'grad_norm': 1.6805226802825928, 'learning_rate': 1.8233726684430911e-06, 'epoch': 2.04}
+{'loss': 3.1009, 'grad_norm': 1.7890129089355469, 'learning_rate': 1.8214693566806243e-06, 'epoch': 2.04}
+{'loss': 3.1729, 'grad_norm': 1.7291203737258911, 'learning_rate': 1.8195660449181576e-06, 'epoch': 2.04}
+{'loss': 3.2041, 'grad_norm': 1.8233853578567505, 'learning_rate': 1.817662733155691e-06, 'epoch': 2.04}
+{'loss': 3.1253, 'grad_norm': 1.868496060371399, 'learning_rate': 1.8157594213932244e-06, 'epoch': 2.04}
+{'loss': 3.2253, 'grad_norm': 1.9591121673583984, 'learning_rate': 1.8138561096307577e-06, 'epoch': 2.04}
+{'loss': 3.2904, 'grad_norm': 1.889899730682373, 'learning_rate': 1.811952797868291e-06, 'epoch': 2.04}
+{'loss': 3.1621, 'grad_norm': 1.7010811567306519, 'learning_rate': 1.8100494861058242e-06, 'epoch': 2.04}
+{'loss': 3.3255, 'grad_norm': 2.0371668338775635, 'learning_rate': 1.8081461743433576e-06, 'epoch': 2.04}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1572, 'eval_samples_per_second': 240.549, 'eval_steps_per_second': 10.103, 'epoch': 2.04}
+{'loss': 3.2188, 'grad_norm': 1.812311053276062, 'learning_rate': 1.806242862580891e-06, 'epoch': 2.05}
+{'loss': 3.1836, 'grad_norm': 1.8051224946975708, 'learning_rate': 1.8043395508184241e-06, 'epoch': 2.05}
+{'loss': 3.2842, 'grad_norm': 1.7649704217910767, 'learning_rate': 1.8024362390559575e-06, 'epoch': 2.05}
+{'loss': 3.1553, 'grad_norm': 1.7147035598754883, 'learning_rate': 1.8005329272934906e-06, 'epoch': 2.05}
+{'loss': 3.1878, 'grad_norm': 1.9300541877746582, 'learning_rate': 1.798629615531024e-06, 'epoch': 2.05}
+{'loss': 3.1712, 'grad_norm': 1.8041765689849854, 'learning_rate': 1.7967263037685576e-06, 'epoch': 2.05}
+{'loss': 3.2402, 'grad_norm': 1.9343056678771973, 'learning_rate': 1.794822992006091e-06, 'epoch': 2.05}
+{'loss': 3.1576, 'grad_norm': 1.9950543642044067, 'learning_rate': 1.792919680243624e-06, 'epoch': 2.05}
+{'loss': 3.126, 'grad_norm': 1.7552316188812256, 'learning_rate': 1.7910163684811574e-06, 'epoch': 2.05}
+{'loss': 3.179, 'grad_norm': 2.185560941696167, 'learning_rate': 1.7891130567186906e-06, 'epoch': 2.05}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1366, 'eval_samples_per_second': 241.747, 'eval_steps_per_second': 10.153, 'epoch': 2.05}
+{'loss': 3.2292, 'grad_norm': 1.7981635332107544, 'learning_rate': 1.787209744956224e-06, 'epoch': 2.06}
+{'loss': 3.1963, 'grad_norm': 1.8421108722686768, 'learning_rate': 1.7853064331937573e-06, 'epoch': 2.06}
+{'loss': 3.2646, 'grad_norm': 1.7927112579345703, 'learning_rate': 1.7834031214312905e-06, 'epoch': 2.06}
+{'loss': 3.1654, 'grad_norm': 1.7495962381362915, 'learning_rate': 1.7814998096688238e-06, 'epoch': 2.06}
+{'loss': 3.1315, 'grad_norm': 1.6960276365280151, 'learning_rate': 1.779596497906357e-06, 'epoch': 2.06}
+{'loss': 3.1751, 'grad_norm': 1.945344090461731, 'learning_rate': 1.7776931861438906e-06, 'epoch': 2.06}
+{'loss': 3.1663, 'grad_norm': 1.9943114519119263, 'learning_rate': 1.775789874381424e-06, 'epoch': 2.06}
+{'loss': 3.1816, 'grad_norm': 1.7107137441635132, 'learning_rate': 1.7738865626189573e-06, 'epoch': 2.06}
+{'loss': 3.0954, 'grad_norm': 1.7055948972702026, 'learning_rate': 1.7719832508564904e-06, 'epoch': 2.06}
+{'loss': 3.182, 'grad_norm': 1.8684171438217163, 'learning_rate': 1.7700799390940238e-06, 'epoch': 2.06}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1449, 'eval_samples_per_second': 241.261, 'eval_steps_per_second': 10.133, 'epoch': 2.06}
+{'loss': 3.251, 'grad_norm': 1.981880784034729, 'learning_rate': 1.768176627331557e-06, 'epoch': 2.07}
+{'loss': 3.2227, 'grad_norm': 2.099231243133545, 'learning_rate': 1.7662733155690903e-06, 'epoch': 2.07}
+{'loss': 3.2204, 'grad_norm': 1.9324396848678589, 'learning_rate': 1.7643700038066237e-06, 'epoch': 2.07}
+{'loss': 3.1875, 'grad_norm': 2.007941246032715, 'learning_rate': 1.7624666920441568e-06, 'epoch': 2.07}
+{'loss': 3.2461, 'grad_norm': 1.7539421319961548, 'learning_rate': 1.7605633802816902e-06, 'epoch': 2.07}
+{'loss': 3.1328, 'grad_norm': 2.09881854057312, 'learning_rate': 1.7586600685192238e-06, 'epoch': 2.07}
+{'loss': 3.1777, 'grad_norm': 1.9812638759613037, 'learning_rate': 1.756756756756757e-06, 'epoch': 2.07}
+{'loss': 3.083, 'grad_norm': 1.8390752077102661, 'learning_rate': 1.7548534449942903e-06, 'epoch': 2.07}
+{'loss': 3.2253, 'grad_norm': 1.8314505815505981, 'learning_rate': 1.7529501332318236e-06, 'epoch': 2.07}
+{'loss': 3.2308, 'grad_norm': 1.7088443040847778, 'learning_rate': 1.7510468214693568e-06, 'epoch': 2.07}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1478, 'eval_samples_per_second': 241.091, 'eval_steps_per_second': 10.126, 'epoch': 2.07}
+{'loss': 3.1647, 'grad_norm': 1.9642471075057983, 'learning_rate': 1.7491435097068902e-06, 'epoch': 2.08}
+{'loss': 3.1735, 'grad_norm': 1.8871756792068481, 'learning_rate': 1.7472401979444233e-06, 'epoch': 2.08}
+{'loss': 3.2965, 'grad_norm': 2.208871603012085, 'learning_rate': 1.7453368861819567e-06, 'epoch': 2.08}
+{'loss': 3.222, 'grad_norm': 1.9839965105056763, 'learning_rate': 1.74343357441949e-06, 'epoch': 2.08}
+{'loss': 3.1501, 'grad_norm': 1.961743950843811, 'learning_rate': 1.7415302626570232e-06, 'epoch': 2.08}
+{'loss': 3.1826, 'grad_norm': 1.6998594999313354, 'learning_rate': 1.7396269508945568e-06, 'epoch': 2.08}
+{'loss': 3.1387, 'grad_norm': 1.8141133785247803, 'learning_rate': 1.7377236391320901e-06, 'epoch': 2.08}
+{'loss': 3.1696, 'grad_norm': 2.061168670654297, 'learning_rate': 1.7358203273696233e-06, 'epoch': 2.08}
+{'loss': 3.1865, 'grad_norm': 1.6808655261993408, 'learning_rate': 1.7339170156071566e-06, 'epoch': 2.08}
+{'loss': 3.1279, 'grad_norm': 1.8965932130813599, 'learning_rate': 1.73201370384469e-06, 'epoch': 2.09}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1381, 'eval_samples_per_second': 241.658, 'eval_steps_per_second': 10.15, 'epoch': 2.09}
+{'loss': 3.1615, 'grad_norm': 1.903174638748169, 'learning_rate': 1.7301103920822231e-06, 'epoch': 2.09}
+{'loss': 3.2614, 'grad_norm': 1.8932507038116455, 'learning_rate': 1.7282070803197565e-06, 'epoch': 2.09}
+{'loss': 3.221, 'grad_norm': 2.011420965194702, 'learning_rate': 1.7263037685572897e-06, 'epoch': 2.09}
+{'loss': 3.1663, 'grad_norm': 1.8127026557922363, 'learning_rate': 1.724400456794823e-06, 'epoch': 2.09}
+{'loss': 3.2142, 'grad_norm': 1.8565834760665894, 'learning_rate': 1.7224971450323564e-06, 'epoch': 2.09}
+{'loss': 3.2301, 'grad_norm': 1.765903353691101, 'learning_rate': 1.72059383326989e-06, 'epoch': 2.09}
+{'loss': 3.1348, 'grad_norm': 1.793534517288208, 'learning_rate': 1.7186905215074231e-06, 'epoch': 2.09}
+{'loss': 3.207, 'grad_norm': 1.7026714086532593, 'learning_rate': 1.7167872097449565e-06, 'epoch': 2.09}
+{'loss': 3.1973, 'grad_norm': 1.752025842666626, 'learning_rate': 1.7148838979824896e-06, 'epoch': 2.09}
+{'loss': 3.1725, 'grad_norm': 1.8491729497909546, 'learning_rate': 1.712980586220023e-06, 'epoch': 2.1}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1508, 'eval_samples_per_second': 240.918, 'eval_steps_per_second': 10.119, 'epoch': 2.1}
+{'loss': 3.2262, 'grad_norm': 2.1874890327453613, 'learning_rate': 1.7110772744575563e-06, 'epoch': 2.1}
+{'loss': 3.1045, 'grad_norm': 2.21181058883667, 'learning_rate': 1.7091739626950895e-06, 'epoch': 2.1}
+{'loss': 3.2139, 'grad_norm': 1.7196146249771118, 'learning_rate': 1.7072706509326229e-06, 'epoch': 2.1}
+{'loss': 3.154, 'grad_norm': 1.7601934671401978, 'learning_rate': 1.7053673391701562e-06, 'epoch': 2.1}
+{'loss': 3.1947, 'grad_norm': 1.6607195138931274, 'learning_rate': 1.7034640274076894e-06, 'epoch': 2.1}
+{'loss': 3.1927, 'grad_norm': 1.8361515998840332, 'learning_rate': 1.701560715645223e-06, 'epoch': 2.1}
+{'loss': 3.1143, 'grad_norm': 1.7653363943099976, 'learning_rate': 1.6996574038827563e-06, 'epoch': 2.1}
+{'loss': 3.1455, 'grad_norm': 1.6349401473999023, 'learning_rate': 1.6977540921202895e-06, 'epoch': 2.1}
+{'loss': 3.2285, 'grad_norm': 1.73183274269104, 'learning_rate': 1.6958507803578228e-06, 'epoch': 2.1}
+{'loss': 3.2145, 'grad_norm': 1.685487151145935, 'learning_rate': 1.693947468595356e-06, 'epoch': 2.11}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1478, 'eval_samples_per_second': 241.09, 'eval_steps_per_second': 10.126, 'epoch': 2.11}
+{'loss': 3.1667, 'grad_norm': 2.1863412857055664, 'learning_rate': 1.6920441568328893e-06, 'epoch': 2.11}
+{'loss': 3.252, 'grad_norm': 1.9797734022140503, 'learning_rate': 1.6901408450704227e-06, 'epoch': 2.11}
+{'loss': 3.1273, 'grad_norm': 1.7736116647720337, 'learning_rate': 1.6882375333079559e-06, 'epoch': 2.11}
+{'loss': 3.1279, 'grad_norm': 1.4933615922927856, 'learning_rate': 1.6863342215454892e-06, 'epoch': 2.11}
+{'loss': 3.1875, 'grad_norm': 1.639786958694458, 'learning_rate': 1.6844309097830226e-06, 'epoch': 2.11}
+{'loss': 3.1393, 'grad_norm': 1.734946608543396, 'learning_rate': 1.682527598020556e-06, 'epoch': 2.11}
+{'loss': 3.1657, 'grad_norm': 1.7404931783676147, 'learning_rate': 1.6806242862580893e-06, 'epoch': 2.11}
+{'loss': 3.196, 'grad_norm': 1.6575233936309814, 'learning_rate': 1.6787209744956227e-06, 'epoch': 2.11}
+{'loss': 3.2132, 'grad_norm': 1.758803129196167, 'learning_rate': 1.6768176627331558e-06, 'epoch': 2.12}
+{'loss': 3.2145, 'grad_norm': 1.9502044916152954, 'learning_rate': 1.6749143509706892e-06, 'epoch': 2.12}
+{'eval_loss': 3.640625, 'eval_runtime': 4.141, 'eval_samples_per_second': 241.486, 'eval_steps_per_second': 10.142, 'epoch': 2.12}
+{'loss': 3.2409, 'grad_norm': 1.6410685777664185, 'learning_rate': 1.6730110392082225e-06, 'epoch': 2.12}
+{'loss': 3.2204, 'grad_norm': 1.6954554319381714, 'learning_rate': 1.6711077274457557e-06, 'epoch': 2.12}
+{'loss': 3.1217, 'grad_norm': 1.644676923751831, 'learning_rate': 1.669204415683289e-06, 'epoch': 2.12}
+{'loss': 3.167, 'grad_norm': 2.022813558578491, 'learning_rate': 1.6673011039208222e-06, 'epoch': 2.12}
+{'loss': 3.2588, 'grad_norm': 1.7652486562728882, 'learning_rate': 1.6653977921583556e-06, 'epoch': 2.12}
+{'loss': 3.1982, 'grad_norm': 1.773810625076294, 'learning_rate': 1.663494480395889e-06, 'epoch': 2.12}
+{'loss': 3.1605, 'grad_norm': 1.6931777000427246, 'learning_rate': 1.6615911686334225e-06, 'epoch': 2.12}
+{'loss': 3.1585, 'grad_norm': 1.7573728561401367, 'learning_rate': 1.6596878568709557e-06, 'epoch': 2.12}
+{'loss': 3.1175, 'grad_norm': 2.1308093070983887, 'learning_rate': 1.657784545108489e-06, 'epoch': 2.13}
+{'loss': 3.1589, 'grad_norm': 1.8855773210525513, 'learning_rate': 1.6558812333460222e-06, 'epoch': 2.13}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1541, 'eval_samples_per_second': 240.724, 'eval_steps_per_second': 10.11, 'epoch': 2.13}
+{'loss': 3.1523, 'grad_norm': 1.9570759534835815, 'learning_rate': 1.6539779215835555e-06, 'epoch': 2.13}
+{'loss': 3.2074, 'grad_norm': 1.776808738708496, 'learning_rate': 1.652074609821089e-06, 'epoch': 2.13}
+{'loss': 3.1367, 'grad_norm': 1.662793517112732, 'learning_rate': 1.650171298058622e-06, 'epoch': 2.13}
+{'loss': 3.1146, 'grad_norm': 1.7790932655334473, 'learning_rate': 1.6482679862961554e-06, 'epoch': 2.13}
+{'loss': 3.1924, 'grad_norm': 1.723317265510559, 'learning_rate': 1.6463646745336886e-06, 'epoch': 2.13}
+{'loss': 3.1559, 'grad_norm': 1.9795923233032227, 'learning_rate': 1.644461362771222e-06, 'epoch': 2.13}
+{'loss': 3.2721, 'grad_norm': 2.351330280303955, 'learning_rate': 1.6425580510087555e-06, 'epoch': 2.13}
+{'loss': 3.1572, 'grad_norm': 1.8882791996002197, 'learning_rate': 1.6406547392462889e-06, 'epoch': 2.13}
+{'loss': 3.2142, 'grad_norm': 1.8575060367584229, 'learning_rate': 1.638751427483822e-06, 'epoch': 2.14}
+{'loss': 3.1839, 'grad_norm': 1.738213062286377, 'learning_rate': 1.6368481157213554e-06, 'epoch': 2.14}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1393, 'eval_samples_per_second': 241.587, 'eval_steps_per_second': 10.147, 'epoch': 2.14}
+{'loss': 3.2493, 'grad_norm': 1.6314122676849365, 'learning_rate': 1.6349448039588885e-06, 'epoch': 2.14}
+{'loss': 3.1904, 'grad_norm': 1.7161922454833984, 'learning_rate': 1.6330414921964219e-06, 'epoch': 2.14}
+{'loss': 3.1842, 'grad_norm': 1.9048019647598267, 'learning_rate': 1.6311381804339553e-06, 'epoch': 2.14}
+{'loss': 3.2959, 'grad_norm': 1.9644900560379028, 'learning_rate': 1.6292348686714884e-06, 'epoch': 2.14}
+{'loss': 3.2288, 'grad_norm': 2.1036999225616455, 'learning_rate': 1.6273315569090218e-06, 'epoch': 2.14}
+{'loss': 3.2005, 'grad_norm': 1.691749930381775, 'learning_rate': 1.625428245146555e-06, 'epoch': 2.14}
+{'loss': 3.238, 'grad_norm': 1.7935504913330078, 'learning_rate': 1.6235249333840885e-06, 'epoch': 2.14}
+{'loss': 3.1527, 'grad_norm': 1.711021065711975, 'learning_rate': 1.6216216216216219e-06, 'epoch': 2.14}
+{'loss': 3.18, 'grad_norm': 1.8745427131652832, 'learning_rate': 1.6197183098591552e-06, 'epoch': 2.15}
+{'loss': 3.0986, 'grad_norm': 2.0547592639923096, 'learning_rate': 1.6178149980966884e-06, 'epoch': 2.15}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1403, 'eval_samples_per_second': 241.531, 'eval_steps_per_second': 10.144, 'epoch': 2.15}
+{'loss': 3.166, 'grad_norm': 1.8499277830123901, 'learning_rate': 1.6159116863342217e-06, 'epoch': 2.15}
+{'loss': 3.2741, 'grad_norm': 1.5757441520690918, 'learning_rate': 1.6140083745717549e-06, 'epoch': 2.15}
+{'loss': 3.2109, 'grad_norm': 1.7650268077850342, 'learning_rate': 1.6121050628092882e-06, 'epoch': 2.15}
+{'loss': 3.2324, 'grad_norm': 1.8130429983139038, 'learning_rate': 1.6102017510468216e-06, 'epoch': 2.15}
+{'loss': 3.1595, 'grad_norm': 1.740172266960144, 'learning_rate': 1.6082984392843548e-06, 'epoch': 2.15}
+{'loss': 3.1784, 'grad_norm': 1.658812165260315, 'learning_rate': 1.6063951275218881e-06, 'epoch': 2.15}
+{'loss': 3.1709, 'grad_norm': 1.7456307411193848, 'learning_rate': 1.6044918157594217e-06, 'epoch': 2.15}
+{'loss': 3.2051, 'grad_norm': 1.9209201335906982, 'learning_rate': 1.6025885039969548e-06, 'epoch': 2.16}
+{'loss': 3.1449, 'grad_norm': 1.6983320713043213, 'learning_rate': 1.6006851922344882e-06, 'epoch': 2.16}
+{'loss': 3.2064, 'grad_norm': 2.0041050910949707, 'learning_rate': 1.5987818804720216e-06, 'epoch': 2.16}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1491, 'eval_samples_per_second': 241.018, 'eval_steps_per_second': 10.123, 'epoch': 2.16}
+{'loss': 3.0859, 'grad_norm': 1.7790888547897339, 'learning_rate': 1.5968785687095547e-06, 'epoch': 2.16}
+{'loss': 3.1104, 'grad_norm': 1.9081666469573975, 'learning_rate': 1.594975256947088e-06, 'epoch': 2.16}
+{'loss': 3.2419, 'grad_norm': 2.105943202972412, 'learning_rate': 1.5930719451846212e-06, 'epoch': 2.16}
+{'loss': 3.2448, 'grad_norm': 1.8885350227355957, 'learning_rate': 1.5911686334221546e-06, 'epoch': 2.16}
+{'loss': 3.1357, 'grad_norm': 1.8062324523925781, 'learning_rate': 1.589265321659688e-06, 'epoch': 2.16}
+{'loss': 3.1191, 'grad_norm': 1.677665114402771, 'learning_rate': 1.5873620098972211e-06, 'epoch': 2.16}
+{'loss': 3.1924, 'grad_norm': 1.7905337810516357, 'learning_rate': 1.5854586981347547e-06, 'epoch': 2.16}
+{'loss': 3.0423, 'grad_norm': 1.9373902082443237, 'learning_rate': 1.583555386372288e-06, 'epoch': 2.17}
+{'loss': 3.1995, 'grad_norm': 1.8031507730484009, 'learning_rate': 1.5816520746098212e-06, 'epoch': 2.17}
+{'loss': 3.1738, 'grad_norm': 1.653223991394043, 'learning_rate': 1.5797487628473546e-06, 'epoch': 2.17}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1445, 'eval_samples_per_second': 241.282, 'eval_steps_per_second': 10.134, 'epoch': 2.17}
+{'loss': 3.2533, 'grad_norm': 1.8600647449493408, 'learning_rate': 1.577845451084888e-06, 'epoch': 2.17}
+{'loss': 3.1497, 'grad_norm': 1.6654250621795654, 'learning_rate': 1.575942139322421e-06, 'epoch': 2.17}
+{'loss': 3.1868, 'grad_norm': 1.9981776475906372, 'learning_rate': 1.5740388275599544e-06, 'epoch': 2.17}
+{'loss': 3.1328, 'grad_norm': 1.8860044479370117, 'learning_rate': 1.5721355157974876e-06, 'epoch': 2.17}
+{'loss': 3.0544, 'grad_norm': 1.94156813621521, 'learning_rate': 1.570232204035021e-06, 'epoch': 2.17}
+{'loss': 3.1631, 'grad_norm': 1.951202154159546, 'learning_rate': 1.5683288922725543e-06, 'epoch': 2.17}
+{'loss': 3.1872, 'grad_norm': 1.592634916305542, 'learning_rate': 1.5664255805100879e-06, 'epoch': 2.17}
+{'loss': 3.208, 'grad_norm': 2.0033769607543945, 'learning_rate': 1.564522268747621e-06, 'epoch': 2.18}
+{'loss': 3.1914, 'grad_norm': 2.070265769958496, 'learning_rate': 1.5626189569851544e-06, 'epoch': 2.18}
+{'loss': 3.1283, 'grad_norm': 1.687087059020996, 'learning_rate': 1.5607156452226875e-06, 'epoch': 2.18}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1422, 'eval_samples_per_second': 241.418, 'eval_steps_per_second': 10.14, 'epoch': 2.18}
+{'loss': 3.1208, 'grad_norm': 1.9478565454483032, 'learning_rate': 1.558812333460221e-06, 'epoch': 2.18}
+{'loss': 3.2256, 'grad_norm': 1.6520200967788696, 'learning_rate': 1.5569090216977543e-06, 'epoch': 2.18}
+{'loss': 3.2145, 'grad_norm': 1.5397666692733765, 'learning_rate': 1.5550057099352874e-06, 'epoch': 2.18}
+{'loss': 3.2357, 'grad_norm': 1.7754067182540894, 'learning_rate': 1.5531023981728208e-06, 'epoch': 2.18}
+{'loss': 3.195, 'grad_norm': 1.9005372524261475, 'learning_rate': 1.5511990864103542e-06, 'epoch': 2.18}
+{'loss': 3.168, 'grad_norm': 1.7708812952041626, 'learning_rate': 1.5492957746478873e-06, 'epoch': 2.18}
+{'loss': 3.1374, 'grad_norm': 1.6960957050323486, 'learning_rate': 1.5473924628854209e-06, 'epoch': 2.18}
+{'loss': 3.1839, 'grad_norm': 1.919000267982483, 'learning_rate': 1.5454891511229542e-06, 'epoch': 2.19}
+{'loss': 3.2002, 'grad_norm': 1.6175577640533447, 'learning_rate': 1.5435858393604874e-06, 'epoch': 2.19}
+{'loss': 3.1064, 'grad_norm': 1.772445559501648, 'learning_rate': 1.5416825275980208e-06, 'epoch': 2.19}
+{'eval_loss': 3.64453125, 'eval_runtime': 4.1516, 'eval_samples_per_second': 240.868, 'eval_steps_per_second': 10.116, 'epoch': 2.19}
+{'loss': 3.1481, 'grad_norm': 1.9552116394042969, 'learning_rate': 1.539779215835554e-06, 'epoch': 2.19}
+{'loss': 3.0882, 'grad_norm': 1.7581021785736084, 'learning_rate': 1.5378759040730873e-06, 'epoch': 2.19}
+{'loss': 3.2201, 'grad_norm': 2.4947831630706787, 'learning_rate': 1.5359725923106206e-06, 'epoch': 2.19}
+{'loss': 3.1579, 'grad_norm': 1.6959606409072876, 'learning_rate': 1.5340692805481538e-06, 'epoch': 2.19}
+{'loss': 3.2021, 'grad_norm': 1.9101650714874268, 'learning_rate': 1.5321659687856871e-06, 'epoch': 2.19}
+{'loss': 3.1253, 'grad_norm': 1.8523163795471191, 'learning_rate': 1.5302626570232205e-06, 'epoch': 2.19}
+{'loss': 3.2487, 'grad_norm': 1.8621611595153809, 'learning_rate': 1.5283593452607539e-06, 'epoch': 2.2}
+{'loss': 3.1178, 'grad_norm': 2.0094337463378906, 'learning_rate': 1.5264560334982872e-06, 'epoch': 2.2}
+{'loss': 3.1383, 'grad_norm': 2.0477373600006104, 'learning_rate': 1.5245527217358206e-06, 'epoch': 2.2}
+{'loss': 3.1706, 'grad_norm': 1.737402319908142, 'learning_rate': 1.5226494099733537e-06, 'epoch': 2.2}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1379, 'eval_samples_per_second': 241.668, 'eval_steps_per_second': 10.15, 'epoch': 2.2}
+{'loss': 3.1989, 'grad_norm': 1.6985002756118774, 'learning_rate': 1.520746098210887e-06, 'epoch': 2.2}
+{'loss': 3.1663, 'grad_norm': 1.995266079902649, 'learning_rate': 1.5188427864484205e-06, 'epoch': 2.2}
+{'loss': 3.1266, 'grad_norm': 1.755674958229065, 'learning_rate': 1.5169394746859536e-06, 'epoch': 2.2}
+{'loss': 3.1436, 'grad_norm': 1.8799408674240112, 'learning_rate': 1.515036162923487e-06, 'epoch': 2.2}
+{'loss': 3.1719, 'grad_norm': 1.6557810306549072, 'learning_rate': 1.5131328511610201e-06, 'epoch': 2.2}
+{'loss': 3.2087, 'grad_norm': 1.6323357820510864, 'learning_rate': 1.5112295393985535e-06, 'epoch': 2.2}
+{'loss': 3.1146, 'grad_norm': 1.6083217859268188, 'learning_rate': 1.509326227636087e-06, 'epoch': 2.21}
+{'loss': 3.1383, 'grad_norm': 1.6126370429992676, 'learning_rate': 1.5074229158736204e-06, 'epoch': 2.21}
+{'loss': 3.2054, 'grad_norm': 1.732489824295044, 'learning_rate': 1.5055196041111536e-06, 'epoch': 2.21}
+{'loss': 3.1755, 'grad_norm': 1.748113751411438, 'learning_rate': 1.503616292348687e-06, 'epoch': 2.21}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1473, 'eval_samples_per_second': 241.122, 'eval_steps_per_second': 10.127, 'epoch': 2.21}
+{'loss': 3.1419, 'grad_norm': 1.782179832458496, 'learning_rate': 1.50171298058622e-06, 'epoch': 2.21}
+{'loss': 3.1527, 'grad_norm': 1.6832327842712402, 'learning_rate': 1.4998096688237535e-06, 'epoch': 2.21}
+{'loss': 3.1826, 'grad_norm': 1.5784441232681274, 'learning_rate': 1.4979063570612868e-06, 'epoch': 2.21}
+{'loss': 3.1084, 'grad_norm': 1.847562313079834, 'learning_rate': 1.49600304529882e-06, 'epoch': 2.21}
+{'loss': 3.1546, 'grad_norm': 1.944881558418274, 'learning_rate': 1.4940997335363533e-06, 'epoch': 2.21}
+{'loss': 3.1748, 'grad_norm': 1.8371984958648682, 'learning_rate': 1.4921964217738865e-06, 'epoch': 2.21}
+{'loss': 3.1413, 'grad_norm': 1.9471356868743896, 'learning_rate': 1.49029311001142e-06, 'epoch': 2.22}
+{'loss': 3.1335, 'grad_norm': 1.8017687797546387, 'learning_rate': 1.4883897982489534e-06, 'epoch': 2.22}
+{'loss': 3.1328, 'grad_norm': 2.3022260665893555, 'learning_rate': 1.4864864864864868e-06, 'epoch': 2.22}
+{'loss': 3.1647, 'grad_norm': 1.784985899925232, 'learning_rate': 1.48458317472402e-06, 'epoch': 2.22}
+{'eval_loss': 3.640625, 'eval_runtime': 4.144, 'eval_samples_per_second': 241.312, 'eval_steps_per_second': 10.135, 'epoch': 2.22}
+{'loss': 3.0798, 'grad_norm': 1.859269142150879, 'learning_rate': 1.4826798629615533e-06, 'epoch': 2.22}
+{'loss': 3.1742, 'grad_norm': 1.596991777420044, 'learning_rate': 1.4807765511990864e-06, 'epoch': 2.22}
+{'loss': 3.252, 'grad_norm': 1.8081670999526978, 'learning_rate': 1.4788732394366198e-06, 'epoch': 2.22}
+{'loss': 3.1237, 'grad_norm': 1.8411803245544434, 'learning_rate': 1.4769699276741532e-06, 'epoch': 2.22}
+{'loss': 3.1566, 'grad_norm': 1.9286693334579468, 'learning_rate': 1.4750666159116863e-06, 'epoch': 2.22}
+{'loss': 3.1143, 'grad_norm': 1.802065134048462, 'learning_rate': 1.4731633041492197e-06, 'epoch': 2.22}
+{'loss': 3.2585, 'grad_norm': 1.697450041770935, 'learning_rate': 1.4712599923867528e-06, 'epoch': 2.23}
+{'loss': 3.2194, 'grad_norm': 1.9713093042373657, 'learning_rate': 1.4693566806242864e-06, 'epoch': 2.23}
+{'loss': 3.2077, 'grad_norm': 1.8213194608688354, 'learning_rate': 1.4674533688618198e-06, 'epoch': 2.23}
+{'loss': 3.1556, 'grad_norm': 1.9017524719238281, 'learning_rate': 1.4655500570993531e-06, 'epoch': 2.23}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1383, 'eval_samples_per_second': 241.642, 'eval_steps_per_second': 10.149, 'epoch': 2.23}
+{'loss': 3.1738, 'grad_norm': 1.8320077657699585, 'learning_rate': 1.4636467453368863e-06, 'epoch': 2.23}
+{'loss': 3.1735, 'grad_norm': 1.7509862184524536, 'learning_rate': 1.4617434335744197e-06, 'epoch': 2.23}
+{'loss': 3.1442, 'grad_norm': 1.762615442276001, 'learning_rate': 1.4598401218119528e-06, 'epoch': 2.23}
+{'loss': 3.2142, 'grad_norm': 1.8858669996261597, 'learning_rate': 1.4579368100494862e-06, 'epoch': 2.23}
+{'loss': 3.1283, 'grad_norm': 1.6758235692977905, 'learning_rate': 1.4560334982870195e-06, 'epoch': 2.23}
+{'loss': 3.2666, 'grad_norm': 1.9416818618774414, 'learning_rate': 1.4541301865245527e-06, 'epoch': 2.24}
+{'loss': 3.1351, 'grad_norm': 1.8326990604400635, 'learning_rate': 1.452226874762086e-06, 'epoch': 2.24}
+{'loss': 3.2513, 'grad_norm': 2.3719756603240967, 'learning_rate': 1.4503235629996196e-06, 'epoch': 2.24}
+{'loss': 3.1426, 'grad_norm': 1.8081326484680176, 'learning_rate': 1.4484202512371528e-06, 'epoch': 2.24}
+{'loss': 3.2083, 'grad_norm': 1.8167775869369507, 'learning_rate': 1.4465169394746861e-06, 'epoch': 2.24}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.149, 'eval_samples_per_second': 241.023, 'eval_steps_per_second': 10.123, 'epoch': 2.24}
+{'loss': 3.1768, 'grad_norm': 1.627294659614563, 'learning_rate': 1.4446136277122195e-06, 'epoch': 2.24}
+{'loss': 3.2012, 'grad_norm': 1.879260540008545, 'learning_rate': 1.4427103159497526e-06, 'epoch': 2.24}
+{'loss': 3.1872, 'grad_norm': 1.763584017753601, 'learning_rate': 1.440807004187286e-06, 'epoch': 2.24}
+{'loss': 3.167, 'grad_norm': 1.9972665309906006, 'learning_rate': 1.4389036924248192e-06, 'epoch': 2.24}
+{'loss': 3.1621, 'grad_norm': 1.888502597808838, 'learning_rate': 1.4370003806623525e-06, 'epoch': 2.24}
+{'loss': 3.1934, 'grad_norm': 1.837327003479004, 'learning_rate': 1.4350970688998859e-06, 'epoch': 2.25}
+{'loss': 3.1761, 'grad_norm': 1.9235867261886597, 'learning_rate': 1.433193757137419e-06, 'epoch': 2.25}
+{'loss': 3.1813, 'grad_norm': 1.6569383144378662, 'learning_rate': 1.4312904453749526e-06, 'epoch': 2.25}
+{'loss': 3.112, 'grad_norm': 1.8487975597381592, 'learning_rate': 1.429387133612486e-06, 'epoch': 2.25}
+{'loss': 3.1452, 'grad_norm': 1.8371015787124634, 'learning_rate': 1.4274838218500191e-06, 'epoch': 2.25}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1365, 'eval_samples_per_second': 241.75, 'eval_steps_per_second': 10.154, 'epoch': 2.25}
+{'loss': 3.1383, 'grad_norm': 1.7314807176589966, 'learning_rate': 1.4255805100875525e-06, 'epoch': 2.25}
+{'loss': 3.1621, 'grad_norm': 1.738497018814087, 'learning_rate': 1.4236771983250858e-06, 'epoch': 2.25}
+{'loss': 3.1351, 'grad_norm': 2.0292654037475586, 'learning_rate': 1.421773886562619e-06, 'epoch': 2.25}
+{'loss': 3.1699, 'grad_norm': 1.9987373352050781, 'learning_rate': 1.4198705748001524e-06, 'epoch': 2.25}
+{'loss': 3.2096, 'grad_norm': 1.6240644454956055, 'learning_rate': 1.4179672630376855e-06, 'epoch': 2.25}
+{'loss': 3.1829, 'grad_norm': 1.995317816734314, 'learning_rate': 1.4160639512752189e-06, 'epoch': 2.26}
+{'loss': 3.1657, 'grad_norm': 1.6027929782867432, 'learning_rate': 1.4141606395127522e-06, 'epoch': 2.26}
+{'loss': 3.1768, 'grad_norm': 1.934901237487793, 'learning_rate': 1.4122573277502858e-06, 'epoch': 2.26}
+{'loss': 3.1322, 'grad_norm': 1.7048068046569824, 'learning_rate': 1.410354015987819e-06, 'epoch': 2.26}
+{'loss': 3.1318, 'grad_norm': 1.665759563446045, 'learning_rate': 1.4084507042253523e-06, 'epoch': 2.26}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.142, 'eval_samples_per_second': 241.432, 'eval_steps_per_second': 10.14, 'epoch': 2.26}
+{'loss': 3.1855, 'grad_norm': 1.8448642492294312, 'learning_rate': 1.4065473924628855e-06, 'epoch': 2.26}
+{'loss': 3.2096, 'grad_norm': 1.8806265592575073, 'learning_rate': 1.4046440807004188e-06, 'epoch': 2.26}
+{'loss': 3.3076, 'grad_norm': 2.3042361736297607, 'learning_rate': 1.4027407689379522e-06, 'epoch': 2.26}
+{'loss': 3.1325, 'grad_norm': 2.028200149536133, 'learning_rate': 1.4008374571754854e-06, 'epoch': 2.26}
+{'loss': 3.2025, 'grad_norm': 1.6602530479431152, 'learning_rate': 1.3989341454130187e-06, 'epoch': 2.27}
+{'loss': 3.1452, 'grad_norm': 2.1818950176239014, 'learning_rate': 1.397030833650552e-06, 'epoch': 2.27}
+{'loss': 3.068, 'grad_norm': 1.9585124254226685, 'learning_rate': 1.3951275218880852e-06, 'epoch': 2.27}
+{'loss': 3.1286, 'grad_norm': 1.7295281887054443, 'learning_rate': 1.3932242101256188e-06, 'epoch': 2.27}
+{'loss': 3.2201, 'grad_norm': 1.7831971645355225, 'learning_rate': 1.3913208983631522e-06, 'epoch': 2.27}
+{'loss': 3.2285, 'grad_norm': 1.7468265295028687, 'learning_rate': 1.3894175866006853e-06, 'epoch': 2.27}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1588, 'eval_samples_per_second': 240.454, 'eval_steps_per_second': 10.099, 'epoch': 2.27}
+{'loss': 3.1178, 'grad_norm': 1.7171567678451538, 'learning_rate': 1.3875142748382187e-06, 'epoch': 2.27}
+{'loss': 3.208, 'grad_norm': 1.8475133180618286, 'learning_rate': 1.385610963075752e-06, 'epoch': 2.27}
+{'loss': 3.1953, 'grad_norm': 1.910703182220459, 'learning_rate': 1.3837076513132852e-06, 'epoch': 2.27}
+{'loss': 3.1683, 'grad_norm': 1.7014884948730469, 'learning_rate': 1.3818043395508186e-06, 'epoch': 2.27}
+{'loss': 3.2122, 'grad_norm': 1.796393871307373, 'learning_rate': 1.3799010277883517e-06, 'epoch': 2.28}
+{'loss': 3.1699, 'grad_norm': 1.9479564428329468, 'learning_rate': 1.377997716025885e-06, 'epoch': 2.28}
+{'loss': 3.0426, 'grad_norm': 1.781650185585022, 'learning_rate': 1.3760944042634184e-06, 'epoch': 2.28}
+{'loss': 3.222, 'grad_norm': 1.8909344673156738, 'learning_rate': 1.3741910925009518e-06, 'epoch': 2.28}
+{'loss': 3.2031, 'grad_norm': 1.5464636087417603, 'learning_rate': 1.3722877807384852e-06, 'epoch': 2.28}
+{'loss': 3.1299, 'grad_norm': 1.66059148311615, 'learning_rate': 1.3703844689760185e-06, 'epoch': 2.28}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1397, 'eval_samples_per_second': 241.561, 'eval_steps_per_second': 10.146, 'epoch': 2.28}
+{'loss': 3.1732, 'grad_norm': 1.8451014757156372, 'learning_rate': 1.3684811572135517e-06, 'epoch': 2.28}
+{'loss': 3.1774, 'grad_norm': 1.63559889793396, 'learning_rate': 1.366577845451085e-06, 'epoch': 2.28}
+{'loss': 3.1465, 'grad_norm': 1.7369784116744995, 'learning_rate': 1.3646745336886184e-06, 'epoch': 2.28}
+{'loss': 3.2673, 'grad_norm': 1.7941546440124512, 'learning_rate': 1.3627712219261515e-06, 'epoch': 2.28}
+{'loss': 3.2021, 'grad_norm': 1.8965522050857544, 'learning_rate': 1.360867910163685e-06, 'epoch': 2.29}
+{'loss': 3.1676, 'grad_norm': 1.8858550786972046, 'learning_rate': 1.358964598401218e-06, 'epoch': 2.29}
+{'loss': 3.1416, 'grad_norm': 1.9329419136047363, 'learning_rate': 1.3570612866387514e-06, 'epoch': 2.29}
+{'loss': 3.1637, 'grad_norm': 1.7767044305801392, 'learning_rate': 1.355157974876285e-06, 'epoch': 2.29}
+{'loss': 3.1442, 'grad_norm': 1.9143636226654053, 'learning_rate': 1.3532546631138184e-06, 'epoch': 2.29}
+{'loss': 3.2012, 'grad_norm': 1.6806895732879639, 'learning_rate': 1.3513513513513515e-06, 'epoch': 2.29}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1556, 'eval_samples_per_second': 240.64, 'eval_steps_per_second': 10.107, 'epoch': 2.29}
+{'loss': 3.1572, 'grad_norm': 1.5843067169189453, 'learning_rate': 1.3494480395888849e-06, 'epoch': 2.29}
+{'loss': 3.1305, 'grad_norm': 1.9759316444396973, 'learning_rate': 1.347544727826418e-06, 'epoch': 2.29}
+{'loss': 3.1383, 'grad_norm': 1.7570464611053467, 'learning_rate': 1.3456414160639514e-06, 'epoch': 2.29}
+{'loss': 3.1465, 'grad_norm': 2.011293411254883, 'learning_rate': 1.3437381043014847e-06, 'epoch': 2.29}
+{'loss': 3.1146, 'grad_norm': 1.9636609554290771, 'learning_rate': 1.341834792539018e-06, 'epoch': 2.3}
+{'loss': 3.207, 'grad_norm': 2.133021354675293, 'learning_rate': 1.3399314807765513e-06, 'epoch': 2.3}
+{'loss': 3.1813, 'grad_norm': 1.7940094470977783, 'learning_rate': 1.3380281690140844e-06, 'epoch': 2.3}
+{'loss': 3.1683, 'grad_norm': 2.077655076980591, 'learning_rate': 1.336124857251618e-06, 'epoch': 2.3}
+{'loss': 3.1761, 'grad_norm': 2.1168105602264404, 'learning_rate': 1.3342215454891513e-06, 'epoch': 2.3}
+{'loss': 3.1982, 'grad_norm': 1.887184739112854, 'learning_rate': 1.3323182337266847e-06, 'epoch': 2.3}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1686, 'eval_samples_per_second': 239.891, 'eval_steps_per_second': 10.075, 'epoch': 2.3}
+{'loss': 3.1032, 'grad_norm': 1.8801113367080688, 'learning_rate': 1.3304149219642179e-06, 'epoch': 2.3}
+{'loss': 3.1758, 'grad_norm': 1.8923308849334717, 'learning_rate': 1.3285116102017512e-06, 'epoch': 2.3}
+{'loss': 3.1214, 'grad_norm': 1.678471565246582, 'learning_rate': 1.3266082984392844e-06, 'epoch': 2.3}
+{'loss': 3.2516, 'grad_norm': 1.8913936614990234, 'learning_rate': 1.3247049866768177e-06, 'epoch': 2.31}
+{'loss': 3.2201, 'grad_norm': 1.8655377626419067, 'learning_rate': 1.322801674914351e-06, 'epoch': 2.31}
+{'loss': 3.1729, 'grad_norm': 1.8102378845214844, 'learning_rate': 1.3208983631518843e-06, 'epoch': 2.31}
+{'loss': 3.1468, 'grad_norm': 2.0884697437286377, 'learning_rate': 1.3189950513894176e-06, 'epoch': 2.31}
+{'loss': 3.1725, 'grad_norm': 1.630356788635254, 'learning_rate': 1.3170917396269512e-06, 'epoch': 2.31}
+{'loss': 3.1227, 'grad_norm': 1.883493423461914, 'learning_rate': 1.3151884278644843e-06, 'epoch': 2.31}
+{'loss': 3.1172, 'grad_norm': 1.8443851470947266, 'learning_rate': 1.3132851161020177e-06, 'epoch': 2.31}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1364, 'eval_samples_per_second': 241.755, 'eval_steps_per_second': 10.154, 'epoch': 2.31}
+{'loss': 3.1585, 'grad_norm': 1.9229353666305542, 'learning_rate': 1.311381804339551e-06, 'epoch': 2.31}
+{'loss': 3.1107, 'grad_norm': 1.9421401023864746, 'learning_rate': 1.3094784925770842e-06, 'epoch': 2.31}
+{'loss': 3.1335, 'grad_norm': 1.6812071800231934, 'learning_rate': 1.3075751808146176e-06, 'epoch': 2.31}
+{'loss': 3.2581, 'grad_norm': 1.8625198602676392, 'learning_rate': 1.3056718690521507e-06, 'epoch': 2.32}
+{'loss': 3.168, 'grad_norm': 1.7567028999328613, 'learning_rate': 1.303768557289684e-06, 'epoch': 2.32}
+{'loss': 3.2409, 'grad_norm': 1.7827354669570923, 'learning_rate': 1.3018652455272175e-06, 'epoch': 2.32}
+{'loss': 3.1162, 'grad_norm': 1.9256796836853027, 'learning_rate': 1.2999619337647506e-06, 'epoch': 2.32}
+{'loss': 3.2106, 'grad_norm': 1.705298662185669, 'learning_rate': 1.2980586220022842e-06, 'epoch': 2.32}
+{'loss': 3.0768, 'grad_norm': 1.8333451747894287, 'learning_rate': 1.2961553102398175e-06, 'epoch': 2.32}
+{'loss': 3.1729, 'grad_norm': 1.6817877292633057, 'learning_rate': 1.2942519984773507e-06, 'epoch': 2.32}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1518, 'eval_samples_per_second': 240.858, 'eval_steps_per_second': 10.116, 'epoch': 2.32}
+{'loss': 3.1735, 'grad_norm': 1.8319065570831299, 'learning_rate': 1.292348686714884e-06, 'epoch': 2.32}
+{'loss': 3.2812, 'grad_norm': 2.4942805767059326, 'learning_rate': 1.2904453749524174e-06, 'epoch': 2.32}
+{'loss': 3.1462, 'grad_norm': 1.8064595460891724, 'learning_rate': 1.2885420631899506e-06, 'epoch': 2.32}
+{'loss': 3.1283, 'grad_norm': 1.8767328262329102, 'learning_rate': 1.286638751427484e-06, 'epoch': 2.33}
+{'loss': 3.2533, 'grad_norm': 2.0125277042388916, 'learning_rate': 1.284735439665017e-06, 'epoch': 2.33}
+{'loss': 3.1341, 'grad_norm': 1.9818086624145508, 'learning_rate': 1.2828321279025504e-06, 'epoch': 2.33}
+{'loss': 3.1647, 'grad_norm': 1.5539923906326294, 'learning_rate': 1.2809288161400838e-06, 'epoch': 2.33}
+{'loss': 3.2699, 'grad_norm': 1.9079136848449707, 'learning_rate': 1.279025504377617e-06, 'epoch': 2.33}
+{'loss': 3.1979, 'grad_norm': 1.9236515760421753, 'learning_rate': 1.2771221926151505e-06, 'epoch': 2.33}
+{'loss': 3.1214, 'grad_norm': 1.6839287281036377, 'learning_rate': 1.275218880852684e-06, 'epoch': 2.33}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1659, 'eval_samples_per_second': 240.042, 'eval_steps_per_second': 10.082, 'epoch': 2.33}
+{'loss': 3.2194, 'grad_norm': 1.8415402173995972, 'learning_rate': 1.273315569090217e-06, 'epoch': 2.33}
+{'loss': 3.2184, 'grad_norm': 1.9782449007034302, 'learning_rate': 1.2714122573277504e-06, 'epoch': 2.33}
+{'loss': 3.1683, 'grad_norm': 1.9882183074951172, 'learning_rate': 1.2695089455652838e-06, 'epoch': 2.33}
+{'loss': 3.252, 'grad_norm': 1.751279354095459, 'learning_rate': 1.267605633802817e-06, 'epoch': 2.34}
+{'loss': 3.1533, 'grad_norm': 1.9796847105026245, 'learning_rate': 1.2657023220403503e-06, 'epoch': 2.34}
+{'loss': 3.2184, 'grad_norm': 1.732252836227417, 'learning_rate': 1.2637990102778836e-06, 'epoch': 2.34}
+{'loss': 3.2161, 'grad_norm': 1.8623878955841064, 'learning_rate': 1.2618956985154168e-06, 'epoch': 2.34}
+{'loss': 3.2031, 'grad_norm': 1.7945971488952637, 'learning_rate': 1.2599923867529502e-06, 'epoch': 2.34}
+{'loss': 3.1351, 'grad_norm': 1.4809848070144653, 'learning_rate': 1.2580890749904837e-06, 'epoch': 2.34}
+{'loss': 3.2269, 'grad_norm': 2.0787148475646973, 'learning_rate': 1.2561857632280169e-06, 'epoch': 2.34}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.136, 'eval_samples_per_second': 241.781, 'eval_steps_per_second': 10.155, 'epoch': 2.34}
+{'loss': 3.2354, 'grad_norm': 2.0088725090026855, 'learning_rate': 1.2542824514655502e-06, 'epoch': 2.34}
+{'loss': 3.1309, 'grad_norm': 1.714342474937439, 'learning_rate': 1.2523791397030834e-06, 'epoch': 2.34}
+{'loss': 3.1745, 'grad_norm': 1.803478717803955, 'learning_rate': 1.2504758279406168e-06, 'epoch': 2.35}
+{'loss': 3.1823, 'grad_norm': 1.8525351285934448, 'learning_rate': 1.2485725161781501e-06, 'epoch': 2.35}
+{'loss': 3.1182, 'grad_norm': 2.1436190605163574, 'learning_rate': 1.2466692044156833e-06, 'epoch': 2.35}
+{'loss': 3.1927, 'grad_norm': 1.9697163105010986, 'learning_rate': 1.2447658926532168e-06, 'epoch': 2.35}
+{'loss': 3.1543, 'grad_norm': 1.8963507413864136, 'learning_rate': 1.24286258089075e-06, 'epoch': 2.35}
+{'loss': 3.2546, 'grad_norm': 1.9440865516662598, 'learning_rate': 1.2409592691282834e-06, 'epoch': 2.35}
+{'loss': 3.1556, 'grad_norm': 1.833486557006836, 'learning_rate': 1.2390559573658165e-06, 'epoch': 2.35}
+{'loss': 3.1725, 'grad_norm': 2.134162187576294, 'learning_rate': 1.2371526456033499e-06, 'epoch': 2.35}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.924, 'eval_steps_per_second': 10.119, 'epoch': 2.35}
+{'loss': 3.0007, 'grad_norm': 1.9446842670440674, 'learning_rate': 1.2352493338408832e-06, 'epoch': 2.35}
+{'loss': 3.2233, 'grad_norm': 1.7506667375564575, 'learning_rate': 1.2333460220784166e-06, 'epoch': 2.35}
+{'loss': 3.1051, 'grad_norm': 1.7768712043762207, 'learning_rate': 1.23144271031595e-06, 'epoch': 2.36}
+{'loss': 3.1081, 'grad_norm': 1.5241663455963135, 'learning_rate': 1.2295393985534831e-06, 'epoch': 2.36}
+{'loss': 3.1527, 'grad_norm': 1.7372244596481323, 'learning_rate': 1.2276360867910165e-06, 'epoch': 2.36}
+{'loss': 3.1895, 'grad_norm': 1.7436057329177856, 'learning_rate': 1.2257327750285498e-06, 'epoch': 2.36}
+{'loss': 3.127, 'grad_norm': 1.7864543199539185, 'learning_rate': 1.2238294632660832e-06, 'epoch': 2.36}
+{'loss': 3.138, 'grad_norm': 2.129697799682617, 'learning_rate': 1.2219261515036164e-06, 'epoch': 2.36}
+{'loss': 3.1823, 'grad_norm': 1.851753830909729, 'learning_rate': 1.2200228397411497e-06, 'epoch': 2.36}
+{'loss': 3.2308, 'grad_norm': 1.902711033821106, 'learning_rate': 1.2181195279786829e-06, 'epoch': 2.36}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1598, 'eval_samples_per_second': 240.393, 'eval_steps_per_second': 10.097, 'epoch': 2.36}
+{'loss': 3.2861, 'grad_norm': 1.8295226097106934, 'learning_rate': 1.2162162162162164e-06, 'epoch': 2.36}
+{'loss': 3.0911, 'grad_norm': 1.7280468940734863, 'learning_rate': 1.2143129044537496e-06, 'epoch': 2.36}
+{'loss': 3.1927, 'grad_norm': 1.8602111339569092, 'learning_rate': 1.212409592691283e-06, 'epoch': 2.37}
+{'loss': 3.1006, 'grad_norm': 1.8292407989501953, 'learning_rate': 1.2105062809288163e-06, 'epoch': 2.37}
+{'loss': 3.0905, 'grad_norm': 1.9770311117172241, 'learning_rate': 1.2086029691663495e-06, 'epoch': 2.37}
+{'loss': 3.2256, 'grad_norm': 1.8226250410079956, 'learning_rate': 1.2066996574038828e-06, 'epoch': 2.37}
+{'loss': 3.1341, 'grad_norm': 1.8925633430480957, 'learning_rate': 1.2047963456414162e-06, 'epoch': 2.37}
+{'loss': 3.1354, 'grad_norm': 1.8968138694763184, 'learning_rate': 1.2028930338789496e-06, 'epoch': 2.37}
+{'loss': 3.1761, 'grad_norm': 1.8696826696395874, 'learning_rate': 1.2009897221164827e-06, 'epoch': 2.37}
+{'loss': 3.2038, 'grad_norm': 1.6614950895309448, 'learning_rate': 1.199086410354016e-06, 'epoch': 2.37}
+{'eval_loss': 3.642578125, 'eval_runtime': 4.1376, 'eval_samples_per_second': 241.687, 'eval_steps_per_second': 10.151, 'epoch': 2.37}
+{'loss': 3.0928, 'grad_norm': 1.7763619422912598, 'learning_rate': 1.1971830985915492e-06, 'epoch': 2.37}
+{'loss': 3.0999, 'grad_norm': 1.8556956052780151, 'learning_rate': 1.1952797868290828e-06, 'epoch': 2.37}
+{'loss': 3.1969, 'grad_norm': 1.9734585285186768, 'learning_rate': 1.193376475066616e-06, 'epoch': 2.38}
+{'loss': 3.1074, 'grad_norm': 1.7802342176437378, 'learning_rate': 1.1914731633041493e-06, 'epoch': 2.38}
+{'loss': 3.182, 'grad_norm': 2.020779848098755, 'learning_rate': 1.1895698515416827e-06, 'epoch': 2.38}
+{'loss': 3.0605, 'grad_norm': 1.8607722520828247, 'learning_rate': 1.1876665397792158e-06, 'epoch': 2.38}
+{'loss': 3.2705, 'grad_norm': 2.1025354862213135, 'learning_rate': 1.1857632280167492e-06, 'epoch': 2.38}
+{'loss': 3.2077, 'grad_norm': 1.7449917793273926, 'learning_rate': 1.1838599162542825e-06, 'epoch': 2.38}
+{'loss': 3.1875, 'grad_norm': 1.7495077848434448, 'learning_rate': 1.181956604491816e-06, 'epoch': 2.38}
+{'loss': 3.1273, 'grad_norm': 1.7734264135360718, 'learning_rate': 1.180053292729349e-06, 'epoch': 2.38}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1511, 'eval_samples_per_second': 240.897, 'eval_steps_per_second': 10.118, 'epoch': 2.38}
+{'loss': 3.2148, 'grad_norm': 1.6411774158477783, 'learning_rate': 1.1781499809668824e-06, 'epoch': 2.38}
+{'loss': 3.1803, 'grad_norm': 2.0326473712921143, 'learning_rate': 1.1762466692044158e-06, 'epoch': 2.39}
+{'loss': 3.0706, 'grad_norm': 1.68866765499115, 'learning_rate': 1.1743433574419491e-06, 'epoch': 2.39}
+{'loss': 3.0798, 'grad_norm': 1.9683177471160889, 'learning_rate': 1.1724400456794823e-06, 'epoch': 2.39}
+{'loss': 3.2178, 'grad_norm': 1.9170558452606201, 'learning_rate': 1.1705367339170157e-06, 'epoch': 2.39}
+{'loss': 3.1576, 'grad_norm': 2.05830454826355, 'learning_rate': 1.168633422154549e-06, 'epoch': 2.39}
+{'loss': 3.2386, 'grad_norm': 2.193904161453247, 'learning_rate': 1.1667301103920824e-06, 'epoch': 2.39}
+{'loss': 3.2158, 'grad_norm': 1.7608217000961304, 'learning_rate': 1.1648267986296157e-06, 'epoch': 2.39}
+{'loss': 3.1328, 'grad_norm': 1.6937419176101685, 'learning_rate': 1.162923486867149e-06, 'epoch': 2.39}
+{'loss': 3.1071, 'grad_norm': 1.5695329904556274, 'learning_rate': 1.1610201751046823e-06, 'epoch': 2.39}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1487, 'eval_samples_per_second': 241.038, 'eval_steps_per_second': 10.124, 'epoch': 2.39}
+{'loss': 3.1243, 'grad_norm': 1.8069700002670288, 'learning_rate': 1.1591168633422154e-06, 'epoch': 2.39}
+{'loss': 3.11, 'grad_norm': 1.6163315773010254, 'learning_rate': 1.157213551579749e-06, 'epoch': 2.4}
+{'loss': 3.1146, 'grad_norm': 1.5748100280761719, 'learning_rate': 1.1553102398172821e-06, 'epoch': 2.4}
+{'loss': 3.1624, 'grad_norm': 1.6600630283355713, 'learning_rate': 1.1534069280548155e-06, 'epoch': 2.4}
+{'loss': 3.2393, 'grad_norm': 1.7082806825637817, 'learning_rate': 1.1515036162923487e-06, 'epoch': 2.4}
+{'loss': 3.1497, 'grad_norm': 1.688054084777832, 'learning_rate': 1.149600304529882e-06, 'epoch': 2.4}
+{'loss': 3.1543, 'grad_norm': 1.5750166177749634, 'learning_rate': 1.1476969927674154e-06, 'epoch': 2.4}
+{'loss': 3.1488, 'grad_norm': 1.9019476175308228, 'learning_rate': 1.1457936810049487e-06, 'epoch': 2.4}
+{'loss': 3.2269, 'grad_norm': 2.0053744316101074, 'learning_rate': 1.143890369242482e-06, 'epoch': 2.4}
+{'loss': 3.1038, 'grad_norm': 1.7908432483673096, 'learning_rate': 1.1419870574800153e-06, 'epoch': 2.4}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1372, 'eval_samples_per_second': 241.708, 'eval_steps_per_second': 10.152, 'epoch': 2.4}
+{'loss': 3.1699, 'grad_norm': 1.8358196020126343, 'learning_rate': 1.1400837457175486e-06, 'epoch': 2.4}
+{'loss': 3.2188, 'grad_norm': 1.6720317602157593, 'learning_rate': 1.138180433955082e-06, 'epoch': 2.41}
+{'loss': 3.0716, 'grad_norm': 1.9429218769073486, 'learning_rate': 1.1362771221926153e-06, 'epoch': 2.41}
+{'loss': 3.1143, 'grad_norm': 1.8397369384765625, 'learning_rate': 1.1343738104301485e-06, 'epoch': 2.41}
+{'loss': 3.2419, 'grad_norm': 2.0084192752838135, 'learning_rate': 1.1324704986676819e-06, 'epoch': 2.41}
+{'loss': 3.2656, 'grad_norm': 2.006535768508911, 'learning_rate': 1.130567186905215e-06, 'epoch': 2.41}
+{'loss': 3.1712, 'grad_norm': 2.1682047843933105, 'learning_rate': 1.1286638751427486e-06, 'epoch': 2.41}
+{'loss': 3.2253, 'grad_norm': 1.905346393585205, 'learning_rate': 1.1267605633802817e-06, 'epoch': 2.41}
+{'loss': 3.1943, 'grad_norm': 1.7836389541625977, 'learning_rate': 1.124857251617815e-06, 'epoch': 2.41}
+{'loss': 3.1172, 'grad_norm': 2.0302727222442627, 'learning_rate': 1.1229539398553485e-06, 'epoch': 2.41}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1731, 'eval_samples_per_second': 239.628, 'eval_steps_per_second': 10.064, 'epoch': 2.41}
+{'loss': 3.1589, 'grad_norm': 1.7858588695526123, 'learning_rate': 1.1210506280928816e-06, 'epoch': 2.41}
+{'loss': 3.1696, 'grad_norm': 2.025298833847046, 'learning_rate': 1.119147316330415e-06, 'epoch': 2.42}
+{'loss': 3.1846, 'grad_norm': 2.1868820190429688, 'learning_rate': 1.1172440045679483e-06, 'epoch': 2.42}
+{'loss': 3.111, 'grad_norm': 1.6728546619415283, 'learning_rate': 1.1153406928054817e-06, 'epoch': 2.42}
+{'loss': 3.1367, 'grad_norm': 1.601845383644104, 'learning_rate': 1.1134373810430148e-06, 'epoch': 2.42}
+{'loss': 3.2301, 'grad_norm': 1.7380598783493042, 'learning_rate': 1.1115340692805482e-06, 'epoch': 2.42}
+{'loss': 3.1898, 'grad_norm': 1.9965977668762207, 'learning_rate': 1.1096307575180816e-06, 'epoch': 2.42}
+{'loss': 3.1445, 'grad_norm': 1.780503273010254, 'learning_rate': 1.107727445755615e-06, 'epoch': 2.42}
+{'loss': 3.1084, 'grad_norm': 1.7955676317214966, 'learning_rate': 1.105824133993148e-06, 'epoch': 2.42}
+{'loss': 3.1475, 'grad_norm': 1.9003498554229736, 'learning_rate': 1.1039208222306814e-06, 'epoch': 2.42}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1471, 'eval_samples_per_second': 241.13, 'eval_steps_per_second': 10.127, 'epoch': 2.42}
+{'loss': 3.181, 'grad_norm': 1.9093594551086426, 'learning_rate': 1.1020175104682148e-06, 'epoch': 2.43}
+{'loss': 3.0996, 'grad_norm': 1.7035356760025024, 'learning_rate': 1.1001141987057482e-06, 'epoch': 2.43}
+{'loss': 3.1761, 'grad_norm': 1.6328887939453125, 'learning_rate': 1.0982108869432813e-06, 'epoch': 2.43}
+{'loss': 3.1729, 'grad_norm': 2.104067087173462, 'learning_rate': 1.0963075751808147e-06, 'epoch': 2.43}
+{'loss': 3.0996, 'grad_norm': 1.7972267866134644, 'learning_rate': 1.094404263418348e-06, 'epoch': 2.43}
+{'loss': 3.221, 'grad_norm': 1.6635292768478394, 'learning_rate': 1.0925009516558812e-06, 'epoch': 2.43}
+{'loss': 3.112, 'grad_norm': 1.6266605854034424, 'learning_rate': 1.0905976398934148e-06, 'epoch': 2.43}
+{'loss': 3.1536, 'grad_norm': 1.6991093158721924, 'learning_rate': 1.088694328130948e-06, 'epoch': 2.43}
+{'loss': 3.1826, 'grad_norm': 1.503572702407837, 'learning_rate': 1.0867910163684813e-06, 'epoch': 2.43}
+{'loss': 3.0905, 'grad_norm': 1.8813925981521606, 'learning_rate': 1.0848877046060144e-06, 'epoch': 2.43}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.135, 'eval_samples_per_second': 241.838, 'eval_steps_per_second': 10.157, 'epoch': 2.43}
+{'loss': 3.1406, 'grad_norm': 1.9283314943313599, 'learning_rate': 1.0829843928435478e-06, 'epoch': 2.44}
+{'loss': 3.1699, 'grad_norm': 2.0138745307922363, 'learning_rate': 1.0810810810810812e-06, 'epoch': 2.44}
+{'loss': 3.1107, 'grad_norm': 1.844030499458313, 'learning_rate': 1.0791777693186145e-06, 'epoch': 2.44}
+{'loss': 3.1354, 'grad_norm': 1.8649578094482422, 'learning_rate': 1.0772744575561479e-06, 'epoch': 2.44}
+{'loss': 3.1735, 'grad_norm': 1.8349696397781372, 'learning_rate': 1.075371145793681e-06, 'epoch': 2.44}
+{'loss': 3.0944, 'grad_norm': 1.7081549167633057, 'learning_rate': 1.0734678340312144e-06, 'epoch': 2.44}
+{'loss': 3.1325, 'grad_norm': 1.8525888919830322, 'learning_rate': 1.0715645222687478e-06, 'epoch': 2.44}
+{'loss': 3.0999, 'grad_norm': 1.7789322137832642, 'learning_rate': 1.0696612105062811e-06, 'epoch': 2.44}
+{'loss': 3.096, 'grad_norm': 1.8590368032455444, 'learning_rate': 1.0677578987438143e-06, 'epoch': 2.44}
+{'loss': 3.0921, 'grad_norm': 1.7785494327545166, 'learning_rate': 1.0658545869813476e-06, 'epoch': 2.44}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1621, 'eval_samples_per_second': 240.265, 'eval_steps_per_second': 10.091, 'epoch': 2.44}
+{'loss': 3.1794, 'grad_norm': 1.5019681453704834, 'learning_rate': 1.0639512752188808e-06, 'epoch': 2.45}
+{'loss': 3.1471, 'grad_norm': 1.6495180130004883, 'learning_rate': 1.0620479634564144e-06, 'epoch': 2.45}
+{'loss': 3.1729, 'grad_norm': 1.630581021308899, 'learning_rate': 1.0601446516939475e-06, 'epoch': 2.45}
+{'loss': 3.099, 'grad_norm': 1.8996201753616333, 'learning_rate': 1.0582413399314809e-06, 'epoch': 2.45}
+{'loss': 3.1117, 'grad_norm': 1.8723684549331665, 'learning_rate': 1.0563380281690142e-06, 'epoch': 2.45}
+{'loss': 3.1084, 'grad_norm': 1.7120102643966675, 'learning_rate': 1.0544347164065474e-06, 'epoch': 2.45}
+{'loss': 3.1449, 'grad_norm': 1.6419239044189453, 'learning_rate': 1.0525314046440808e-06, 'epoch': 2.45}
+{'loss': 3.1452, 'grad_norm': 1.7263365983963013, 'learning_rate': 1.0506280928816141e-06, 'epoch': 2.45}
+{'loss': 3.097, 'grad_norm': 1.8096739053726196, 'learning_rate': 1.0487247811191475e-06, 'epoch': 2.45}
+{'loss': 3.2633, 'grad_norm': 1.7177879810333252, 'learning_rate': 1.0468214693566806e-06, 'epoch': 2.46}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1338, 'eval_samples_per_second': 241.907, 'eval_steps_per_second': 10.16, 'epoch': 2.46}
+{'loss': 3.1885, 'grad_norm': 1.8105307817459106, 'learning_rate': 1.044918157594214e-06, 'epoch': 2.46}
+{'loss': 3.2025, 'grad_norm': 1.6094801425933838, 'learning_rate': 1.0430148458317474e-06, 'epoch': 2.46}
+{'loss': 3.1331, 'grad_norm': 1.7416239976882935, 'learning_rate': 1.0411115340692807e-06, 'epoch': 2.46}
+{'loss': 3.1842, 'grad_norm': 1.92591392993927, 'learning_rate': 1.0392082223068139e-06, 'epoch': 2.46}
+{'loss': 3.1286, 'grad_norm': 1.6293481588363647, 'learning_rate': 1.0373049105443472e-06, 'epoch': 2.46}
+{'loss': 3.234, 'grad_norm': 1.8425140380859375, 'learning_rate': 1.0354015987818806e-06, 'epoch': 2.46}
+{'loss': 3.1934, 'grad_norm': 2.001504898071289, 'learning_rate': 1.033498287019414e-06, 'epoch': 2.46}
+{'loss': 3.0579, 'grad_norm': 1.9766873121261597, 'learning_rate': 1.0315949752569471e-06, 'epoch': 2.46}
+{'loss': 3.1149, 'grad_norm': 1.8308054208755493, 'learning_rate': 1.0296916634944805e-06, 'epoch': 2.46}
+{'loss': 3.1745, 'grad_norm': 1.7931054830551147, 'learning_rate': 1.0277883517320138e-06, 'epoch': 2.47}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1408, 'eval_samples_per_second': 241.499, 'eval_steps_per_second': 10.143, 'epoch': 2.47}
+{'loss': 3.1794, 'grad_norm': 1.9510304927825928, 'learning_rate': 1.025885039969547e-06, 'epoch': 2.47}
+{'loss': 3.1842, 'grad_norm': 1.7232670783996582, 'learning_rate': 1.0239817282070806e-06, 'epoch': 2.47}
+{'loss': 3.0599, 'grad_norm': 2.0184550285339355, 'learning_rate': 1.0220784164446137e-06, 'epoch': 2.47}
+{'loss': 3.1279, 'grad_norm': 1.7678418159484863, 'learning_rate': 1.020175104682147e-06, 'epoch': 2.47}
+{'loss': 3.126, 'grad_norm': 1.5449600219726562, 'learning_rate': 1.0182717929196802e-06, 'epoch': 2.47}
+{'loss': 3.1296, 'grad_norm': 1.9141528606414795, 'learning_rate': 1.0163684811572136e-06, 'epoch': 2.47}
+{'loss': 3.2357, 'grad_norm': 1.831519603729248, 'learning_rate': 1.014465169394747e-06, 'epoch': 2.47}
+{'loss': 3.154, 'grad_norm': 1.7216747999191284, 'learning_rate': 1.0125618576322803e-06, 'epoch': 2.47}
+{'loss': 3.0954, 'grad_norm': 1.5892894268035889, 'learning_rate': 1.0106585458698137e-06, 'epoch': 2.47}
+{'loss': 3.1484, 'grad_norm': 1.7134205102920532, 'learning_rate': 1.0087552341073468e-06, 'epoch': 2.48}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1708, 'eval_samples_per_second': 239.762, 'eval_steps_per_second': 10.07, 'epoch': 2.48}
+{'loss': 3.0983, 'grad_norm': 1.562654733657837, 'learning_rate': 1.0068519223448802e-06, 'epoch': 2.48}
+{'loss': 3.0859, 'grad_norm': 1.5872652530670166, 'learning_rate': 1.0049486105824133e-06, 'epoch': 2.48}
+{'loss': 3.1566, 'grad_norm': 1.7733054161071777, 'learning_rate': 1.003045298819947e-06, 'epoch': 2.48}
+{'loss': 3.0837, 'grad_norm': 1.8799269199371338, 'learning_rate': 1.00114198705748e-06, 'epoch': 2.48}
+{'loss': 3.1693, 'grad_norm': 1.9735883474349976, 'learning_rate': 9.992386752950134e-07, 'epoch': 2.48}
+{'loss': 3.165, 'grad_norm': 2.021367311477661, 'learning_rate': 9.973353635325466e-07, 'epoch': 2.48}
+{'loss': 3.1348, 'grad_norm': 1.8735100030899048, 'learning_rate': 9.9543205177008e-07, 'epoch': 2.48}
+{'loss': 3.2324, 'grad_norm': 1.8854072093963623, 'learning_rate': 9.935287400076133e-07, 'epoch': 2.48}
+{'loss': 3.1628, 'grad_norm': 1.63895583152771, 'learning_rate': 9.916254282451467e-07, 'epoch': 2.48}
+{'loss': 3.1748, 'grad_norm': 1.9578444957733154, 'learning_rate': 9.8972211648268e-07, 'epoch': 2.49}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1454, 'eval_samples_per_second': 241.234, 'eval_steps_per_second': 10.132, 'epoch': 2.49}
+{'loss': 3.1865, 'grad_norm': 1.885254979133606, 'learning_rate': 9.878188047202132e-07, 'epoch': 2.49}
+{'loss': 3.138, 'grad_norm': 1.902657151222229, 'learning_rate': 9.859154929577465e-07, 'epoch': 2.49}
+{'loss': 3.0915, 'grad_norm': 1.9374018907546997, 'learning_rate': 9.8401218119528e-07, 'epoch': 2.49}
+{'loss': 3.1227, 'grad_norm': 1.8274192810058594, 'learning_rate': 9.821088694328133e-07, 'epoch': 2.49}
+{'loss': 3.1598, 'grad_norm': 1.8677167892456055, 'learning_rate': 9.802055576703464e-07, 'epoch': 2.49}
+{'loss': 3.193, 'grad_norm': 1.6768237352371216, 'learning_rate': 9.783022459078798e-07, 'epoch': 2.49}
+{'loss': 3.1699, 'grad_norm': 1.8713634014129639, 'learning_rate': 9.76398934145413e-07, 'epoch': 2.49}
+{'loss': 3.1631, 'grad_norm': 1.7211412191390991, 'learning_rate': 9.744956223829465e-07, 'epoch': 2.49}
+{'loss': 3.082, 'grad_norm': 1.8073285818099976, 'learning_rate': 9.725923106204797e-07, 'epoch': 2.5}
+{'loss': 3.1351, 'grad_norm': 1.6839581727981567, 'learning_rate': 9.70688998858013e-07, 'epoch': 2.5}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1331, 'eval_samples_per_second': 241.949, 'eval_steps_per_second': 10.162, 'epoch': 2.5}
+{'loss': 3.1335, 'grad_norm': 1.8675813674926758, 'learning_rate': 9.687856870955464e-07, 'epoch': 2.5}
+{'loss': 3.1139, 'grad_norm': 1.5094499588012695, 'learning_rate': 9.668823753330795e-07, 'epoch': 2.5}
+{'loss': 3.2028, 'grad_norm': 1.8501218557357788, 'learning_rate': 9.64979063570613e-07, 'epoch': 2.5}
+{'loss': 3.1807, 'grad_norm': 1.8764591217041016, 'learning_rate': 9.630757518081463e-07, 'epoch': 2.5}
+{'loss': 3.0872, 'grad_norm': 1.8207441568374634, 'learning_rate': 9.611724400456796e-07, 'epoch': 2.5}
+{'loss': 3.181, 'grad_norm': 1.7598923444747925, 'learning_rate': 9.592691282832128e-07, 'epoch': 2.5}
+{'loss': 3.1494, 'grad_norm': 2.1736538410186768, 'learning_rate': 9.573658165207461e-07, 'epoch': 2.5}
+{'loss': 3.1077, 'grad_norm': 2.110323190689087, 'learning_rate': 9.554625047582795e-07, 'epoch': 2.5}
+{'loss': 3.2044, 'grad_norm': 2.026092529296875, 'learning_rate': 9.535591929958129e-07, 'epoch': 2.51}
+{'loss': 3.1729, 'grad_norm': 1.7412855625152588, 'learning_rate': 9.516558812333461e-07, 'epoch': 2.51}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1618, 'eval_samples_per_second': 240.282, 'eval_steps_per_second': 10.092, 'epoch': 2.51}
+{'loss': 3.1172, 'grad_norm': 1.8464131355285645, 'learning_rate': 9.497525694708794e-07, 'epoch': 2.51}
+{'loss': 3.1263, 'grad_norm': 1.8171073198318481, 'learning_rate': 9.478492577084126e-07, 'epoch': 2.51}
+{'loss': 3.0996, 'grad_norm': 1.794445514678955, 'learning_rate': 9.459459459459461e-07, 'epoch': 2.51}
+{'loss': 3.1149, 'grad_norm': 1.8376238346099854, 'learning_rate': 9.440426341834794e-07, 'epoch': 2.51}
+{'loss': 3.154, 'grad_norm': 1.7676390409469604, 'learning_rate': 9.421393224210126e-07, 'epoch': 2.51}
+{'loss': 3.124, 'grad_norm': 1.7631577253341675, 'learning_rate': 9.402360106585459e-07, 'epoch': 2.51}
+{'loss': 3.14, 'grad_norm': 1.892234206199646, 'learning_rate': 9.383326988960792e-07, 'epoch': 2.51}
+{'loss': 3.2539, 'grad_norm': 1.8300892114639282, 'learning_rate': 9.364293871336126e-07, 'epoch': 2.51}
+{'loss': 3.1188, 'grad_norm': 1.8161643743515015, 'learning_rate': 9.345260753711458e-07, 'epoch': 2.52}
+{'loss': 3.1133, 'grad_norm': 1.8688995838165283, 'learning_rate': 9.326227636086792e-07, 'epoch': 2.52}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1358, 'eval_samples_per_second': 241.793, 'eval_steps_per_second': 10.155, 'epoch': 2.52}
+{'loss': 3.1764, 'grad_norm': 1.732265830039978, 'learning_rate': 9.307194518462125e-07, 'epoch': 2.52}
+{'loss': 3.221, 'grad_norm': 1.9166966676712036, 'learning_rate': 9.288161400837457e-07, 'epoch': 2.52}
+{'loss': 3.1803, 'grad_norm': 1.7997268438339233, 'learning_rate': 9.269128283212792e-07, 'epoch': 2.52}
+{'loss': 3.1357, 'grad_norm': 1.7946805953979492, 'learning_rate': 9.250095165588125e-07, 'epoch': 2.52}
+{'loss': 3.1263, 'grad_norm': 1.5794939994812012, 'learning_rate': 9.231062047963457e-07, 'epoch': 2.52}
+{'loss': 3.1354, 'grad_norm': 1.8655081987380981, 'learning_rate': 9.21202893033879e-07, 'epoch': 2.52}
+{'loss': 3.194, 'grad_norm': 1.7586344480514526, 'learning_rate': 9.192995812714123e-07, 'epoch': 2.52}
+{'loss': 3.1211, 'grad_norm': 2.0959160327911377, 'learning_rate': 9.173962695089457e-07, 'epoch': 2.52}
+{'loss': 3.152, 'grad_norm': 1.9772660732269287, 'learning_rate': 9.154929577464789e-07, 'epoch': 2.53}
+{'loss': 3.1211, 'grad_norm': 1.6803905963897705, 'learning_rate': 9.135896459840123e-07, 'epoch': 2.53}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.1505, 'eval_samples_per_second': 240.933, 'eval_steps_per_second': 10.119, 'epoch': 2.53}
+{'loss': 3.1159, 'grad_norm': 1.7544015645980835, 'learning_rate': 9.116863342215456e-07, 'epoch': 2.53}
+{'loss': 3.0863, 'grad_norm': 1.8921715021133423, 'learning_rate': 9.097830224590788e-07, 'epoch': 2.53}
+{'loss': 3.1449, 'grad_norm': 1.8411675691604614, 'learning_rate': 9.078797106966122e-07, 'epoch': 2.53}
+{'loss': 3.1465, 'grad_norm': 1.7337950468063354, 'learning_rate': 9.059763989341455e-07, 'epoch': 2.53}
+{'loss': 3.182, 'grad_norm': 1.6965638399124146, 'learning_rate': 9.040730871716788e-07, 'epoch': 2.53}
+{'loss': 3.1634, 'grad_norm': 1.7797625064849854, 'learning_rate': 9.021697754092121e-07, 'epoch': 2.53}
+{'loss': 3.21, 'grad_norm': 1.9388151168823242, 'learning_rate': 9.002664636467453e-07, 'epoch': 2.53}
+{'loss': 3.1589, 'grad_norm': 1.666135549545288, 'learning_rate': 8.983631518842788e-07, 'epoch': 2.54}
+{'loss': 3.0807, 'grad_norm': 1.726119041442871, 'learning_rate': 8.96459840121812e-07, 'epoch': 2.54}
+{'loss': 3.1702, 'grad_norm': 1.766326904296875, 'learning_rate': 8.945565283593453e-07, 'epoch': 2.54}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1696, 'eval_samples_per_second': 239.831, 'eval_steps_per_second': 10.073, 'epoch': 2.54}
+{'loss': 3.1676, 'grad_norm': 1.8671404123306274, 'learning_rate': 8.926532165968787e-07, 'epoch': 2.54}
+{'loss': 3.1986, 'grad_norm': 1.9516017436981201, 'learning_rate': 8.907499048344119e-07, 'epoch': 2.54}
+{'loss': 3.1637, 'grad_norm': 1.7885704040527344, 'learning_rate': 8.888465930719453e-07, 'epoch': 2.54}
+{'loss': 3.082, 'grad_norm': 1.8919031620025635, 'learning_rate': 8.869432813094786e-07, 'epoch': 2.54}
+{'loss': 3.1504, 'grad_norm': 1.9122674465179443, 'learning_rate': 8.850399695470119e-07, 'epoch': 2.54}
+{'loss': 3.1989, 'grad_norm': 1.4664082527160645, 'learning_rate': 8.831366577845452e-07, 'epoch': 2.54}
+{'loss': 3.1162, 'grad_norm': 1.737480878829956, 'learning_rate': 8.812333460220784e-07, 'epoch': 2.54}
+{'loss': 3.1006, 'grad_norm': 2.011545181274414, 'learning_rate': 8.793300342596119e-07, 'epoch': 2.55}
+{'loss': 3.1839, 'grad_norm': 1.9937191009521484, 'learning_rate': 8.774267224971451e-07, 'epoch': 2.55}
+{'loss': 3.1279, 'grad_norm': 1.8558658361434937, 'learning_rate': 8.755234107346784e-07, 'epoch': 2.55}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1353, 'eval_samples_per_second': 241.821, 'eval_steps_per_second': 10.157, 'epoch': 2.55}
+{'loss': 3.209, 'grad_norm': 1.5042126178741455, 'learning_rate': 8.736200989722117e-07, 'epoch': 2.55}
+{'loss': 3.1243, 'grad_norm': 1.9002983570098877, 'learning_rate': 8.71716787209745e-07, 'epoch': 2.55}
+{'loss': 3.1237, 'grad_norm': 1.9214458465576172, 'learning_rate': 8.698134754472784e-07, 'epoch': 2.55}
+{'loss': 3.2028, 'grad_norm': 1.8923636674880981, 'learning_rate': 8.679101636848116e-07, 'epoch': 2.55}
+{'loss': 3.1152, 'grad_norm': 1.7846394777297974, 'learning_rate': 8.66006851922345e-07, 'epoch': 2.55}
+{'loss': 3.1436, 'grad_norm': 1.8436143398284912, 'learning_rate': 8.641035401598783e-07, 'epoch': 2.55}
+{'loss': 3.1504, 'grad_norm': 1.9063150882720947, 'learning_rate': 8.622002283974115e-07, 'epoch': 2.55}
+{'loss': 3.1396, 'grad_norm': 2.191540479660034, 'learning_rate': 8.60296916634945e-07, 'epoch': 2.56}
+{'loss': 3.1729, 'grad_norm': 1.7575798034667969, 'learning_rate': 8.583936048724782e-07, 'epoch': 2.56}
+{'loss': 3.1462, 'grad_norm': 1.6094028949737549, 'learning_rate': 8.564902931100115e-07, 'epoch': 2.56}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1614, 'eval_samples_per_second': 240.305, 'eval_steps_per_second': 10.093, 'epoch': 2.56}
+{'loss': 3.0986, 'grad_norm': 2.090057373046875, 'learning_rate': 8.545869813475448e-07, 'epoch': 2.56}
+{'loss': 3.1055, 'grad_norm': 1.801568865776062, 'learning_rate': 8.526836695850781e-07, 'epoch': 2.56}
+{'loss': 3.1917, 'grad_norm': 1.9385466575622559, 'learning_rate': 8.507803578226115e-07, 'epoch': 2.56}
+{'loss': 3.1068, 'grad_norm': 1.6816649436950684, 'learning_rate': 8.488770460601447e-07, 'epoch': 2.56}
+{'loss': 3.1312, 'grad_norm': 2.0253169536590576, 'learning_rate': 8.46973734297678e-07, 'epoch': 2.56}
+{'loss': 3.1589, 'grad_norm': 1.6909898519515991, 'learning_rate': 8.450704225352114e-07, 'epoch': 2.56}
+{'loss': 3.141, 'grad_norm': 1.8045134544372559, 'learning_rate': 8.431671107727446e-07, 'epoch': 2.56}
+{'loss': 3.1214, 'grad_norm': 1.641364336013794, 'learning_rate': 8.41263799010278e-07, 'epoch': 2.57}
+{'loss': 3.1852, 'grad_norm': 1.5707298517227173, 'learning_rate': 8.393604872478113e-07, 'epoch': 2.57}
+{'loss': 3.1546, 'grad_norm': 1.7441874742507935, 'learning_rate': 8.374571754853446e-07, 'epoch': 2.57}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.157, 'eval_samples_per_second': 240.559, 'eval_steps_per_second': 10.103, 'epoch': 2.57}
+{'loss': 3.1725, 'grad_norm': 1.8729228973388672, 'learning_rate': 8.355538637228778e-07, 'epoch': 2.57}
+{'loss': 3.195, 'grad_norm': 1.5821648836135864, 'learning_rate': 8.336505519604111e-07, 'epoch': 2.57}
+{'loss': 3.1702, 'grad_norm': 1.5873624086380005, 'learning_rate': 8.317472401979445e-07, 'epoch': 2.57}
+{'loss': 3.1634, 'grad_norm': 1.7898955345153809, 'learning_rate': 8.298439284354778e-07, 'epoch': 2.57}
+{'loss': 3.1943, 'grad_norm': 1.612815022468567, 'learning_rate': 8.279406166730111e-07, 'epoch': 2.57}
+{'loss': 3.0755, 'grad_norm': 1.9944593906402588, 'learning_rate': 8.260373049105444e-07, 'epoch': 2.57}
+{'loss': 3.1979, 'grad_norm': 1.948145866394043, 'learning_rate': 8.241339931480777e-07, 'epoch': 2.58}
+{'loss': 3.07, 'grad_norm': 1.854590654373169, 'learning_rate': 8.22230681385611e-07, 'epoch': 2.58}
+{'loss': 3.1768, 'grad_norm': 1.7910394668579102, 'learning_rate': 8.203273696231444e-07, 'epoch': 2.58}
+{'loss': 3.1468, 'grad_norm': 1.444525122642517, 'learning_rate': 8.184240578606777e-07, 'epoch': 2.58}
+{'eval_loss': 3.630859375, 'eval_runtime': 4.1345, 'eval_samples_per_second': 241.867, 'eval_steps_per_second': 10.158, 'epoch': 2.58}
+{'loss': 3.1494, 'grad_norm': 1.5902085304260254, 'learning_rate': 8.165207460982109e-07, 'epoch': 2.58}
+{'loss': 3.1637, 'grad_norm': 1.9457182884216309, 'learning_rate': 8.146174343357442e-07, 'epoch': 2.58}
+{'loss': 3.2389, 'grad_norm': 1.8176887035369873, 'learning_rate': 8.127141225732775e-07, 'epoch': 2.58}
+{'loss': 3.0951, 'grad_norm': 1.9288904666900635, 'learning_rate': 8.108108108108109e-07, 'epoch': 2.58}
+{'loss': 3.168, 'grad_norm': 1.8045917749404907, 'learning_rate': 8.089074990483442e-07, 'epoch': 2.58}
+{'loss': 3.1429, 'grad_norm': 1.6937055587768555, 'learning_rate': 8.070041872858774e-07, 'epoch': 2.58}
+{'loss': 3.1283, 'grad_norm': 1.882969617843628, 'learning_rate': 8.051008755234108e-07, 'epoch': 2.59}
+{'loss': 3.1322, 'grad_norm': 1.5816317796707153, 'learning_rate': 8.031975637609441e-07, 'epoch': 2.59}
+{'loss': 3.0247, 'grad_norm': 1.9935165643692017, 'learning_rate': 8.012942519984774e-07, 'epoch': 2.59}
+{'loss': 3.1478, 'grad_norm': 1.8974765539169312, 'learning_rate': 7.993909402360108e-07, 'epoch': 2.59}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.1538, 'eval_samples_per_second': 240.745, 'eval_steps_per_second': 10.111, 'epoch': 2.59}
+{'loss': 3.1732, 'grad_norm': 1.6700822114944458, 'learning_rate': 7.97487628473544e-07, 'epoch': 2.59}
+{'loss': 3.1126, 'grad_norm': 1.8242727518081665, 'learning_rate': 7.955843167110773e-07, 'epoch': 2.59}
+{'loss': 3.1937, 'grad_norm': 1.9647022485733032, 'learning_rate': 7.936810049486106e-07, 'epoch': 2.59}
+{'loss': 3.165, 'grad_norm': 1.8180493116378784, 'learning_rate': 7.91777693186144e-07, 'epoch': 2.59}
+{'loss': 3.1517, 'grad_norm': 1.733964443206787, 'learning_rate': 7.898743814236773e-07, 'epoch': 2.59}
+{'loss': 3.1263, 'grad_norm': 1.6630557775497437, 'learning_rate': 7.879710696612105e-07, 'epoch': 2.59}
+{'loss': 3.0999, 'grad_norm': 1.8939876556396484, 'learning_rate': 7.860677578987438e-07, 'epoch': 2.6}
+{'loss': 3.1403, 'grad_norm': 1.7999879121780396, 'learning_rate': 7.841644461362772e-07, 'epoch': 2.6}
+{'loss': 3.1855, 'grad_norm': 1.604314923286438, 'learning_rate': 7.822611343738105e-07, 'epoch': 2.6}
+{'loss': 3.1494, 'grad_norm': 1.9208219051361084, 'learning_rate': 7.803578226113438e-07, 'epoch': 2.6}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1469, 'eval_samples_per_second': 241.145, 'eval_steps_per_second': 10.128, 'epoch': 2.6}
+{'loss': 3.1579, 'grad_norm': 1.8474630117416382, 'learning_rate': 7.784545108488771e-07, 'epoch': 2.6}
+{'loss': 3.1436, 'grad_norm': 1.7839280366897583, 'learning_rate': 7.765511990864104e-07, 'epoch': 2.6}
+{'loss': 3.0921, 'grad_norm': 1.5134624242782593, 'learning_rate': 7.746478873239437e-07, 'epoch': 2.6}
+{'loss': 3.1647, 'grad_norm': 1.7897144556045532, 'learning_rate': 7.727445755614771e-07, 'epoch': 2.6}
+{'loss': 3.2191, 'grad_norm': 1.9216952323913574, 'learning_rate': 7.708412637990104e-07, 'epoch': 2.6}
+{'loss': 3.1289, 'grad_norm': 1.8728584051132202, 'learning_rate': 7.689379520365436e-07, 'epoch': 2.61}
+{'loss': 3.0794, 'grad_norm': 2.0606119632720947, 'learning_rate': 7.670346402740769e-07, 'epoch': 2.61}
+{'loss': 3.1497, 'grad_norm': 1.8558028936386108, 'learning_rate': 7.651313285116103e-07, 'epoch': 2.61}
+{'loss': 3.1764, 'grad_norm': 1.8205759525299072, 'learning_rate': 7.632280167491436e-07, 'epoch': 2.61}
+{'loss': 3.1872, 'grad_norm': 1.7789546251296997, 'learning_rate': 7.613247049866769e-07, 'epoch': 2.61}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1338, 'eval_samples_per_second': 241.908, 'eval_steps_per_second': 10.16, 'epoch': 2.61}
+{'loss': 3.1175, 'grad_norm': 1.6823962926864624, 'learning_rate': 7.594213932242102e-07, 'epoch': 2.61}
+{'loss': 3.1387, 'grad_norm': 1.9465960264205933, 'learning_rate': 7.575180814617435e-07, 'epoch': 2.61}
+{'loss': 3.1501, 'grad_norm': 1.937121868133545, 'learning_rate': 7.556147696992767e-07, 'epoch': 2.61}
+{'loss': 3.1755, 'grad_norm': 1.6958656311035156, 'learning_rate': 7.537114579368102e-07, 'epoch': 2.61}
+{'loss': 3.1338, 'grad_norm': 1.726192831993103, 'learning_rate': 7.518081461743435e-07, 'epoch': 2.61}
+{'loss': 3.1637, 'grad_norm': 1.6957751512527466, 'learning_rate': 7.499048344118767e-07, 'epoch': 2.62}
+{'loss': 3.1618, 'grad_norm': 1.7088662385940552, 'learning_rate': 7.4800152264941e-07, 'epoch': 2.62}
+{'loss': 3.083, 'grad_norm': 1.9426079988479614, 'learning_rate': 7.460982108869432e-07, 'epoch': 2.62}
+{'loss': 3.0664, 'grad_norm': 2.1113579273223877, 'learning_rate': 7.441948991244767e-07, 'epoch': 2.62}
+{'loss': 3.2194, 'grad_norm': 1.836835503578186, 'learning_rate': 7.4229158736201e-07, 'epoch': 2.62}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.1565, 'eval_samples_per_second': 240.585, 'eval_steps_per_second': 10.105, 'epoch': 2.62}
+{'loss': 3.1608, 'grad_norm': 1.9459079504013062, 'learning_rate': 7.403882755995432e-07, 'epoch': 2.62}
+{'loss': 3.1715, 'grad_norm': 1.9159787893295288, 'learning_rate': 7.384849638370766e-07, 'epoch': 2.62}
+{'loss': 3.0918, 'grad_norm': 1.756575345993042, 'learning_rate': 7.365816520746098e-07, 'epoch': 2.62}
+{'loss': 3.2096, 'grad_norm': 2.0257863998413086, 'learning_rate': 7.346783403121432e-07, 'epoch': 2.62}
+{'loss': 3.0716, 'grad_norm': 1.8497796058654785, 'learning_rate': 7.327750285496766e-07, 'epoch': 2.62}
+{'loss': 3.1559, 'grad_norm': 2.0470845699310303, 'learning_rate': 7.308717167872098e-07, 'epoch': 2.63}
+{'loss': 3.1598, 'grad_norm': 1.7949812412261963, 'learning_rate': 7.289684050247431e-07, 'epoch': 2.63}
+{'loss': 3.1406, 'grad_norm': 1.914735198020935, 'learning_rate': 7.270650932622763e-07, 'epoch': 2.63}
+{'loss': 3.2259, 'grad_norm': 1.818974494934082, 'learning_rate': 7.251617814998098e-07, 'epoch': 2.63}
+{'loss': 3.1302, 'grad_norm': 1.7927836179733276, 'learning_rate': 7.232584697373431e-07, 'epoch': 2.63}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.147, 'eval_samples_per_second': 241.136, 'eval_steps_per_second': 10.128, 'epoch': 2.63}
+{'loss': 3.2318, 'grad_norm': 1.8932710886001587, 'learning_rate': 7.213551579748763e-07, 'epoch': 2.63}
+{'loss': 3.1868, 'grad_norm': 1.6212940216064453, 'learning_rate': 7.194518462124096e-07, 'epoch': 2.63}
+{'loss': 3.11, 'grad_norm': 1.7146620750427246, 'learning_rate': 7.175485344499429e-07, 'epoch': 2.63}
+{'loss': 3.1201, 'grad_norm': 1.680559515953064, 'learning_rate': 7.156452226874763e-07, 'epoch': 2.63}
+{'loss': 3.1266, 'grad_norm': 1.692850112915039, 'learning_rate': 7.137419109250096e-07, 'epoch': 2.63}
+{'loss': 3.1383, 'grad_norm': 1.7850346565246582, 'learning_rate': 7.118385991625429e-07, 'epoch': 2.64}
+{'loss': 3.1263, 'grad_norm': 1.6769015789031982, 'learning_rate': 7.099352874000762e-07, 'epoch': 2.64}
+{'loss': 3.1999, 'grad_norm': 1.7500989437103271, 'learning_rate': 7.080319756376094e-07, 'epoch': 2.64}
+{'loss': 3.223, 'grad_norm': 1.8553494215011597, 'learning_rate': 7.061286638751429e-07, 'epoch': 2.64}
+{'loss': 3.1312, 'grad_norm': 1.8316210508346558, 'learning_rate': 7.042253521126762e-07, 'epoch': 2.64}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1377, 'eval_samples_per_second': 241.683, 'eval_steps_per_second': 10.151, 'epoch': 2.64}
+{'loss': 3.1374, 'grad_norm': 1.770485281944275, 'learning_rate': 7.023220403502094e-07, 'epoch': 2.64}
+{'loss': 3.1969, 'grad_norm': 1.7814245223999023, 'learning_rate': 7.004187285877427e-07, 'epoch': 2.64}
+{'loss': 3.2526, 'grad_norm': 1.860683560371399, 'learning_rate': 6.98515416825276e-07, 'epoch': 2.64}
+{'loss': 3.1745, 'grad_norm': 1.6812387704849243, 'learning_rate': 6.966121050628094e-07, 'epoch': 2.64}
+{'loss': 3.1126, 'grad_norm': 1.7287486791610718, 'learning_rate': 6.947087933003427e-07, 'epoch': 2.65}
+{'loss': 3.1637, 'grad_norm': 1.8620870113372803, 'learning_rate': 6.92805481537876e-07, 'epoch': 2.65}
+{'loss': 3.1631, 'grad_norm': 1.8316740989685059, 'learning_rate': 6.909021697754093e-07, 'epoch': 2.65}
+{'loss': 3.1761, 'grad_norm': 1.758880615234375, 'learning_rate': 6.889988580129425e-07, 'epoch': 2.65}
+{'loss': 3.1077, 'grad_norm': 1.7254672050476074, 'learning_rate': 6.870955462504759e-07, 'epoch': 2.65}
+{'loss': 3.1172, 'grad_norm': 1.7840949296951294, 'learning_rate': 6.851922344880093e-07, 'epoch': 2.65}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1751, 'eval_samples_per_second': 239.518, 'eval_steps_per_second': 10.06, 'epoch': 2.65}
+{'loss': 3.2142, 'grad_norm': 2.097445487976074, 'learning_rate': 6.832889227255425e-07, 'epoch': 2.65}
+{'loss': 3.1471, 'grad_norm': 1.524717926979065, 'learning_rate': 6.813856109630758e-07, 'epoch': 2.65}
+{'loss': 3.1367, 'grad_norm': 1.6864696741104126, 'learning_rate': 6.79482299200609e-07, 'epoch': 2.65}
+{'loss': 3.1022, 'grad_norm': 1.7532403469085693, 'learning_rate': 6.775789874381425e-07, 'epoch': 2.65}
+{'loss': 3.1589, 'grad_norm': 1.6754995584487915, 'learning_rate': 6.756756756756758e-07, 'epoch': 2.66}
+{'loss': 3.1999, 'grad_norm': 1.946874976158142, 'learning_rate': 6.73772363913209e-07, 'epoch': 2.66}
+{'loss': 3.1803, 'grad_norm': 1.5810966491699219, 'learning_rate': 6.718690521507424e-07, 'epoch': 2.66}
+{'loss': 3.1595, 'grad_norm': 1.6068753004074097, 'learning_rate': 6.699657403882756e-07, 'epoch': 2.66}
+{'loss': 3.1465, 'grad_norm': 1.993540644645691, 'learning_rate': 6.68062428625809e-07, 'epoch': 2.66}
+{'loss': 3.1592, 'grad_norm': 1.685423493385315, 'learning_rate': 6.661591168633424e-07, 'epoch': 2.66}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1374, 'eval_samples_per_second': 241.701, 'eval_steps_per_second': 10.151, 'epoch': 2.66}
+{'loss': 3.0918, 'grad_norm': 1.6771612167358398, 'learning_rate': 6.642558051008756e-07, 'epoch': 2.66}
+{'loss': 3.1462, 'grad_norm': 1.7485202550888062, 'learning_rate': 6.623524933384089e-07, 'epoch': 2.66}
+{'loss': 3.1546, 'grad_norm': 1.8101776838302612, 'learning_rate': 6.604491815759421e-07, 'epoch': 2.66}
+{'loss': 3.1185, 'grad_norm': 1.7802554368972778, 'learning_rate': 6.585458698134756e-07, 'epoch': 2.66}
+{'loss': 3.1266, 'grad_norm': 1.6848865747451782, 'learning_rate': 6.566425580510089e-07, 'epoch': 2.67}
+{'loss': 3.1302, 'grad_norm': 1.8314852714538574, 'learning_rate': 6.547392462885421e-07, 'epoch': 2.67}
+{'loss': 3.1683, 'grad_norm': 1.7345850467681885, 'learning_rate': 6.528359345260754e-07, 'epoch': 2.67}
+{'loss': 3.1234, 'grad_norm': 1.714282751083374, 'learning_rate': 6.509326227636087e-07, 'epoch': 2.67}
+{'loss': 3.1833, 'grad_norm': 1.7382296323776245, 'learning_rate': 6.490293110011421e-07, 'epoch': 2.67}
+{'loss': 3.1605, 'grad_norm': 1.7965316772460938, 'learning_rate': 6.471259992386753e-07, 'epoch': 2.67}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1421, 'eval_samples_per_second': 241.422, 'eval_steps_per_second': 10.14, 'epoch': 2.67}
+{'loss': 3.151, 'grad_norm': 1.7418532371520996, 'learning_rate': 6.452226874762087e-07, 'epoch': 2.67}
+{'loss': 3.2367, 'grad_norm': 1.996217966079712, 'learning_rate': 6.43319375713742e-07, 'epoch': 2.67}
+{'loss': 3.1442, 'grad_norm': 1.7102385759353638, 'learning_rate': 6.414160639512752e-07, 'epoch': 2.67}
+{'loss': 3.2087, 'grad_norm': 1.6713204383850098, 'learning_rate': 6.395127521888085e-07, 'epoch': 2.67}
+{'loss': 3.0973, 'grad_norm': 1.785130500793457, 'learning_rate': 6.37609440426342e-07, 'epoch': 2.68}
+{'loss': 3.1917, 'grad_norm': 1.7257453203201294, 'learning_rate': 6.357061286638752e-07, 'epoch': 2.68}
+{'loss': 3.2467, 'grad_norm': 1.8560817241668701, 'learning_rate': 6.338028169014085e-07, 'epoch': 2.68}
+{'loss': 3.2158, 'grad_norm': 1.995324730873108, 'learning_rate': 6.318995051389418e-07, 'epoch': 2.68}
+{'loss': 3.18, 'grad_norm': 1.8441827297210693, 'learning_rate': 6.299961933764751e-07, 'epoch': 2.68}
+{'loss': 3.1546, 'grad_norm': 1.76594877243042, 'learning_rate': 6.280928816140084e-07, 'epoch': 2.68}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1545, 'eval_samples_per_second': 240.7, 'eval_steps_per_second': 10.109, 'epoch': 2.68}
+{'loss': 3.0918, 'grad_norm': 1.712931513786316, 'learning_rate': 6.261895698515417e-07, 'epoch': 2.68}
+{'loss': 3.2448, 'grad_norm': 1.8075332641601562, 'learning_rate': 6.242862580890751e-07, 'epoch': 2.68}
+{'loss': 3.1771, 'grad_norm': 1.625847578048706, 'learning_rate': 6.223829463266084e-07, 'epoch': 2.68}
+{'loss': 3.1572, 'grad_norm': 1.661041498184204, 'learning_rate': 6.204796345641417e-07, 'epoch': 2.69}
+{'loss': 3.1738, 'grad_norm': 1.6845263242721558, 'learning_rate': 6.185763228016749e-07, 'epoch': 2.69}
+{'loss': 3.234, 'grad_norm': 1.9905540943145752, 'learning_rate': 6.166730110392083e-07, 'epoch': 2.69}
+{'loss': 3.1146, 'grad_norm': 2.032433032989502, 'learning_rate': 6.147696992767416e-07, 'epoch': 2.69}
+{'loss': 3.1709, 'grad_norm': 1.9379993677139282, 'learning_rate': 6.128663875142749e-07, 'epoch': 2.69}
+{'loss': 3.3245, 'grad_norm': 2.4739863872528076, 'learning_rate': 6.109630757518082e-07, 'epoch': 2.69}
+{'loss': 3.1429, 'grad_norm': 1.6661078929901123, 'learning_rate': 6.090597639893414e-07, 'epoch': 2.69}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1415, 'eval_samples_per_second': 241.456, 'eval_steps_per_second': 10.141, 'epoch': 2.69}
+{'loss': 3.1507, 'grad_norm': 1.8282389640808105, 'learning_rate': 6.071564522268748e-07, 'epoch': 2.69}
+{'loss': 3.1484, 'grad_norm': 1.70726478099823, 'learning_rate': 6.052531404644082e-07, 'epoch': 2.69}
+{'loss': 3.1165, 'grad_norm': 1.7781678438186646, 'learning_rate': 6.033498287019414e-07, 'epoch': 2.69}
+{'loss': 3.1484, 'grad_norm': 1.8514097929000854, 'learning_rate': 6.014465169394748e-07, 'epoch': 2.7}
+{'loss': 3.1286, 'grad_norm': 1.7254992723464966, 'learning_rate': 5.99543205177008e-07, 'epoch': 2.7}
+{'loss': 3.1855, 'grad_norm': 1.5986136198043823, 'learning_rate': 5.976398934145414e-07, 'epoch': 2.7}
+{'loss': 3.1771, 'grad_norm': 1.7102704048156738, 'learning_rate': 5.957365816520747e-07, 'epoch': 2.7}
+{'loss': 3.1605, 'grad_norm': 1.7345114946365356, 'learning_rate': 5.938332698896079e-07, 'epoch': 2.7}
+{'loss': 3.1989, 'grad_norm': 1.771409511566162, 'learning_rate': 5.919299581271413e-07, 'epoch': 2.7}
+{'loss': 3.1514, 'grad_norm': 1.548507571220398, 'learning_rate': 5.900266463646745e-07, 'epoch': 2.7}
+{'eval_loss': 3.640625, 'eval_runtime': 4.1531, 'eval_samples_per_second': 240.786, 'eval_steps_per_second': 10.113, 'epoch': 2.7}
+{'loss': 3.1683, 'grad_norm': 1.647485613822937, 'learning_rate': 5.881233346022079e-07, 'epoch': 2.7}
+{'loss': 3.0794, 'grad_norm': 2.014587163925171, 'learning_rate': 5.862200228397411e-07, 'epoch': 2.7}
+{'loss': 3.1338, 'grad_norm': 1.835250735282898, 'learning_rate': 5.843167110772745e-07, 'epoch': 2.7}
+{'loss': 3.2285, 'grad_norm': 2.1925113201141357, 'learning_rate': 5.824133993148079e-07, 'epoch': 2.71}
+{'loss': 3.1813, 'grad_norm': 1.8869514465332031, 'learning_rate': 5.805100875523411e-07, 'epoch': 2.71}
+{'loss': 3.2474, 'grad_norm': 2.0305685997009277, 'learning_rate': 5.786067757898745e-07, 'epoch': 2.71}
+{'loss': 3.2337, 'grad_norm': 1.755265712738037, 'learning_rate': 5.767034640274078e-07, 'epoch': 2.71}
+{'loss': 3.0501, 'grad_norm': 1.6210583448410034, 'learning_rate': 5.74800152264941e-07, 'epoch': 2.71}
+{'loss': 3.124, 'grad_norm': 1.8563801050186157, 'learning_rate': 5.728968405024744e-07, 'epoch': 2.71}
+{'loss': 3.1348, 'grad_norm': 1.822953701019287, 'learning_rate': 5.709935287400076e-07, 'epoch': 2.71}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1633, 'eval_samples_per_second': 240.192, 'eval_steps_per_second': 10.088, 'epoch': 2.71}
+{'loss': 3.1273, 'grad_norm': 1.7401405572891235, 'learning_rate': 5.69090216977541e-07, 'epoch': 2.71}
+{'loss': 3.1283, 'grad_norm': 1.7953671216964722, 'learning_rate': 5.671869052150742e-07, 'epoch': 2.71}
+{'loss': 3.152, 'grad_norm': 1.7034783363342285, 'learning_rate': 5.652835934526075e-07, 'epoch': 2.71}
+{'loss': 3.1458, 'grad_norm': 1.7318909168243408, 'learning_rate': 5.633802816901409e-07, 'epoch': 2.72}
+{'loss': 3.0547, 'grad_norm': 1.7796772718429565, 'learning_rate': 5.614769699276742e-07, 'epoch': 2.72}
+{'loss': 3.2223, 'grad_norm': 1.6916834115982056, 'learning_rate': 5.595736581652075e-07, 'epoch': 2.72}
+{'loss': 3.0693, 'grad_norm': 1.8823891878128052, 'learning_rate': 5.576703464027408e-07, 'epoch': 2.72}
+{'loss': 3.194, 'grad_norm': 1.7371456623077393, 'learning_rate': 5.557670346402741e-07, 'epoch': 2.72}
+{'loss': 3.2171, 'grad_norm': 1.6887025833129883, 'learning_rate': 5.538637228778075e-07, 'epoch': 2.72}
+{'loss': 3.2035, 'grad_norm': 1.5605108737945557, 'learning_rate': 5.519604111153407e-07, 'epoch': 2.72}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1375, 'eval_samples_per_second': 241.692, 'eval_steps_per_second': 10.151, 'epoch': 2.72}
+{'loss': 3.1351, 'grad_norm': 1.799968957901001, 'learning_rate': 5.500570993528741e-07, 'epoch': 2.72}
+{'loss': 3.2093, 'grad_norm': 1.6091893911361694, 'learning_rate': 5.481537875904073e-07, 'epoch': 2.72}
+{'loss': 3.1868, 'grad_norm': 1.779345989227295, 'learning_rate': 5.462504758279406e-07, 'epoch': 2.73}
+{'loss': 3.1787, 'grad_norm': 1.7403210401535034, 'learning_rate': 5.44347164065474e-07, 'epoch': 2.73}
+{'loss': 3.166, 'grad_norm': 1.7207549810409546, 'learning_rate': 5.424438523030072e-07, 'epoch': 2.73}
+{'loss': 3.1367, 'grad_norm': 1.850907325744629, 'learning_rate': 5.405405405405406e-07, 'epoch': 2.73}
+{'loss': 3.0999, 'grad_norm': 2.029989242553711, 'learning_rate': 5.386372287780739e-07, 'epoch': 2.73}
+{'loss': 3.2109, 'grad_norm': 2.1576051712036133, 'learning_rate': 5.367339170156072e-07, 'epoch': 2.73}
+{'loss': 3.1012, 'grad_norm': 1.8574914932250977, 'learning_rate': 5.348306052531406e-07, 'epoch': 2.73}
+{'loss': 3.0872, 'grad_norm': 1.8245776891708374, 'learning_rate': 5.329272934906738e-07, 'epoch': 2.73}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1535, 'eval_samples_per_second': 240.759, 'eval_steps_per_second': 10.112, 'epoch': 2.73}
+{'loss': 3.1061, 'grad_norm': 1.7235229015350342, 'learning_rate': 5.310239817282072e-07, 'epoch': 2.73}
+{'loss': 3.1468, 'grad_norm': 1.7187235355377197, 'learning_rate': 5.291206699657404e-07, 'epoch': 2.73}
+{'loss': 3.1273, 'grad_norm': 1.8313885927200317, 'learning_rate': 5.272173582032737e-07, 'epoch': 2.74}
+{'loss': 3.1217, 'grad_norm': 1.700782299041748, 'learning_rate': 5.253140464408071e-07, 'epoch': 2.74}
+{'loss': 3.1562, 'grad_norm': 1.9005523920059204, 'learning_rate': 5.234107346783403e-07, 'epoch': 2.74}
+{'loss': 3.1367, 'grad_norm': 1.703352451324463, 'learning_rate': 5.215074229158737e-07, 'epoch': 2.74}
+{'loss': 3.0921, 'grad_norm': 1.476720929145813, 'learning_rate': 5.196041111534069e-07, 'epoch': 2.74}
+{'loss': 3.1507, 'grad_norm': 1.8919273614883423, 'learning_rate': 5.177007993909403e-07, 'epoch': 2.74}
+{'loss': 3.1628, 'grad_norm': 1.5735516548156738, 'learning_rate': 5.157974876284736e-07, 'epoch': 2.74}
+{'loss': 3.1738, 'grad_norm': 1.7183787822723389, 'learning_rate': 5.138941758660069e-07, 'epoch': 2.74}
+{'eval_loss': 3.638671875, 'eval_runtime': 4.1518, 'eval_samples_per_second': 240.861, 'eval_steps_per_second': 10.116, 'epoch': 2.74}
+{'loss': 3.1823, 'grad_norm': 1.9524736404418945, 'learning_rate': 5.119908641035403e-07, 'epoch': 2.74}
+{'loss': 3.2311, 'grad_norm': 1.7600306272506714, 'learning_rate': 5.100875523410735e-07, 'epoch': 2.74}
+{'loss': 3.1439, 'grad_norm': 1.7188066244125366, 'learning_rate': 5.081842405786068e-07, 'epoch': 2.75}
+{'loss': 3.2031, 'grad_norm': 2.1396114826202393, 'learning_rate': 5.062809288161402e-07, 'epoch': 2.75}
+{'loss': 3.138, 'grad_norm': 1.6484895944595337, 'learning_rate': 5.043776170536734e-07, 'epoch': 2.75}
+{'loss': 3.1787, 'grad_norm': 1.7985618114471436, 'learning_rate': 5.024743052912067e-07, 'epoch': 2.75}
+{'loss': 3.2106, 'grad_norm': 1.9741028547286987, 'learning_rate': 5.0057099352874e-07, 'epoch': 2.75}
+{'loss': 3.2122, 'grad_norm': 1.807167887687683, 'learning_rate': 4.986676817662733e-07, 'epoch': 2.75}
+{'loss': 3.0732, 'grad_norm': 1.8167895078659058, 'learning_rate': 4.967643700038067e-07, 'epoch': 2.75}
+{'loss': 3.1462, 'grad_norm': 1.6932700872421265, 'learning_rate': 4.9486105824134e-07, 'epoch': 2.75}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1373, 'eval_samples_per_second': 241.706, 'eval_steps_per_second': 10.152, 'epoch': 2.75}
+{'loss': 3.1719, 'grad_norm': 1.5723979473114014, 'learning_rate': 4.929577464788733e-07, 'epoch': 2.75}
+{'loss': 3.1504, 'grad_norm': 2.157299518585205, 'learning_rate': 4.910544347164066e-07, 'epoch': 2.76}
+{'loss': 3.1608, 'grad_norm': 1.570729374885559, 'learning_rate': 4.891511229539399e-07, 'epoch': 2.76}
+{'loss': 3.1751, 'grad_norm': 1.7386674880981445, 'learning_rate': 4.872478111914733e-07, 'epoch': 2.76}
+{'loss': 3.1416, 'grad_norm': 1.8868207931518555, 'learning_rate': 4.853444994290065e-07, 'epoch': 2.76}
+{'loss': 3.1348, 'grad_norm': 1.8484647274017334, 'learning_rate': 4.834411876665398e-07, 'epoch': 2.76}
+{'loss': 3.1852, 'grad_norm': 1.7663341760635376, 'learning_rate': 4.815378759040731e-07, 'epoch': 2.76}
+{'loss': 3.1689, 'grad_norm': 1.693742275238037, 'learning_rate': 4.796345641416064e-07, 'epoch': 2.76}
+{'loss': 3.2048, 'grad_norm': 1.946272611618042, 'learning_rate': 4.777312523791397e-07, 'epoch': 2.76}
+{'loss': 3.099, 'grad_norm': 1.6411828994750977, 'learning_rate': 4.7582794061667306e-07, 'epoch': 2.76}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.153, 'eval_samples_per_second': 240.788, 'eval_steps_per_second': 10.113, 'epoch': 2.76}
+{'loss': 3.1914, 'grad_norm': 1.608435869216919, 'learning_rate': 4.739246288542063e-07, 'epoch': 2.76}
+{'loss': 3.1419, 'grad_norm': 2.1732842922210693, 'learning_rate': 4.720213170917397e-07, 'epoch': 2.77}
+{'loss': 3.1689, 'grad_norm': 1.6130346059799194, 'learning_rate': 4.7011800532927293e-07, 'epoch': 2.77}
+{'loss': 3.125, 'grad_norm': 1.9902592897415161, 'learning_rate': 4.682146935668063e-07, 'epoch': 2.77}
+{'loss': 3.1748, 'grad_norm': 1.8069703578948975, 'learning_rate': 4.663113818043396e-07, 'epoch': 2.77}
+{'loss': 3.1296, 'grad_norm': 1.711248517036438, 'learning_rate': 4.6440807004187286e-07, 'epoch': 2.77}
+{'loss': 3.2383, 'grad_norm': 1.6878844499588013, 'learning_rate': 4.625047582794062e-07, 'epoch': 2.77}
+{'loss': 3.07, 'grad_norm': 1.8217428922653198, 'learning_rate': 4.606014465169395e-07, 'epoch': 2.77}
+{'loss': 3.1706, 'grad_norm': 1.8487049341201782, 'learning_rate': 4.5869813475447284e-07, 'epoch': 2.77}
+{'loss': 3.1621, 'grad_norm': 1.756631851196289, 'learning_rate': 4.5679482299200615e-07, 'epoch': 2.77}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1432, 'eval_samples_per_second': 241.361, 'eval_steps_per_second': 10.137, 'epoch': 2.77}
+{'loss': 3.0065, 'grad_norm': 2.1012580394744873, 'learning_rate': 4.548915112295394e-07, 'epoch': 2.77}
+{'loss': 3.1286, 'grad_norm': 1.7916666269302368, 'learning_rate': 4.529881994670728e-07, 'epoch': 2.78}
+{'loss': 3.1191, 'grad_norm': 1.7707818746566772, 'learning_rate': 4.5108488770460603e-07, 'epoch': 2.78}
+{'loss': 3.209, 'grad_norm': 1.7998555898666382, 'learning_rate': 4.491815759421394e-07, 'epoch': 2.78}
+{'loss': 3.1699, 'grad_norm': 1.7697805166244507, 'learning_rate': 4.4727826417967265e-07, 'epoch': 2.78}
+{'loss': 3.0804, 'grad_norm': 1.8118668794631958, 'learning_rate': 4.4537495241720596e-07, 'epoch': 2.78}
+{'loss': 3.1396, 'grad_norm': 1.7296996116638184, 'learning_rate': 4.434716406547393e-07, 'epoch': 2.78}
+{'loss': 3.1458, 'grad_norm': 1.6347030401229858, 'learning_rate': 4.415683288922726e-07, 'epoch': 2.78}
+{'loss': 3.1504, 'grad_norm': 1.8681410551071167, 'learning_rate': 4.3966501712980594e-07, 'epoch': 2.78}
+{'loss': 3.2038, 'grad_norm': 1.9366319179534912, 'learning_rate': 4.377617053673392e-07, 'epoch': 2.78}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1379, 'eval_samples_per_second': 241.67, 'eval_steps_per_second': 10.15, 'epoch': 2.78}
+{'loss': 3.1462, 'grad_norm': 1.8869510889053345, 'learning_rate': 4.358583936048725e-07, 'epoch': 2.78}
+{'loss': 3.1982, 'grad_norm': 1.870978593826294, 'learning_rate': 4.339550818424058e-07, 'epoch': 2.79}
+{'loss': 3.1742, 'grad_norm': 1.765819787979126, 'learning_rate': 4.3205177007993913e-07, 'epoch': 2.79}
+{'loss': 3.2419, 'grad_norm': 1.6344609260559082, 'learning_rate': 4.301484583174725e-07, 'epoch': 2.79}
+{'loss': 3.1973, 'grad_norm': 2.0006866455078125, 'learning_rate': 4.2824514655500575e-07, 'epoch': 2.79}
+{'loss': 3.0625, 'grad_norm': 1.7777661085128784, 'learning_rate': 4.2634183479253906e-07, 'epoch': 2.79}
+{'loss': 3.1484, 'grad_norm': 1.6400606632232666, 'learning_rate': 4.2443852303007237e-07, 'epoch': 2.79}
+{'loss': 3.2692, 'grad_norm': 1.9581806659698486, 'learning_rate': 4.225352112676057e-07, 'epoch': 2.79}
+{'loss': 3.124, 'grad_norm': 1.8403542041778564, 'learning_rate': 4.20631899505139e-07, 'epoch': 2.79}
+{'loss': 3.1315, 'grad_norm': 1.8716528415679932, 'learning_rate': 4.187285877426723e-07, 'epoch': 2.79}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1527, 'eval_samples_per_second': 240.808, 'eval_steps_per_second': 10.114, 'epoch': 2.79}
+{'loss': 3.1266, 'grad_norm': 1.728779911994934, 'learning_rate': 4.1682527598020555e-07, 'epoch': 2.8}
+{'loss': 3.1872, 'grad_norm': 1.5848662853240967, 'learning_rate': 4.149219642177389e-07, 'epoch': 2.8}
+{'loss': 3.2077, 'grad_norm': 1.8721098899841309, 'learning_rate': 4.130186524552722e-07, 'epoch': 2.8}
+{'loss': 3.0964, 'grad_norm': 1.711654543876648, 'learning_rate': 4.111153406928055e-07, 'epoch': 2.8}
+{'loss': 3.1165, 'grad_norm': 1.6812392473220825, 'learning_rate': 4.0921202893033884e-07, 'epoch': 2.8}
+{'loss': 3.1533, 'grad_norm': 1.6167713403701782, 'learning_rate': 4.073087171678721e-07, 'epoch': 2.8}
+{'loss': 3.1227, 'grad_norm': 2.0166468620300293, 'learning_rate': 4.0540540540540546e-07, 'epoch': 2.8}
+{'loss': 3.1605, 'grad_norm': 1.65977144241333, 'learning_rate': 4.035020936429387e-07, 'epoch': 2.8}
+{'loss': 3.1169, 'grad_norm': 1.7908536195755005, 'learning_rate': 4.0159878188047203e-07, 'epoch': 2.8}
+{'loss': 3.1354, 'grad_norm': 1.9410241842269897, 'learning_rate': 3.996954701180054e-07, 'epoch': 2.8}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1416, 'eval_samples_per_second': 241.453, 'eval_steps_per_second': 10.141, 'epoch': 2.8}
+{'loss': 3.1237, 'grad_norm': 1.818830966949463, 'learning_rate': 3.9779215835553865e-07, 'epoch': 2.81}
+{'loss': 3.0921, 'grad_norm': 1.855037808418274, 'learning_rate': 3.95888846593072e-07, 'epoch': 2.81}
+{'loss': 3.2773, 'grad_norm': 2.1048266887664795, 'learning_rate': 3.9398553483060527e-07, 'epoch': 2.81}
+{'loss': 3.0827, 'grad_norm': 1.7626595497131348, 'learning_rate': 3.920822230681386e-07, 'epoch': 2.81}
+{'loss': 3.1543, 'grad_norm': 1.741995930671692, 'learning_rate': 3.901789113056719e-07, 'epoch': 2.81}
+{'loss': 3.1774, 'grad_norm': 1.630627989768982, 'learning_rate': 3.882755995432052e-07, 'epoch': 2.81}
+{'loss': 3.1331, 'grad_norm': 1.8000043630599976, 'learning_rate': 3.8637228778073856e-07, 'epoch': 2.81}
+{'loss': 3.1569, 'grad_norm': 1.7560685873031616, 'learning_rate': 3.844689760182718e-07, 'epoch': 2.81}
+{'loss': 3.1742, 'grad_norm': 1.617315411567688, 'learning_rate': 3.825656642558051e-07, 'epoch': 2.81}
+{'loss': 3.1156, 'grad_norm': 1.7856674194335938, 'learning_rate': 3.8066235249333844e-07, 'epoch': 2.81}
+{'eval_loss': 3.63671875, 'eval_runtime': 4.1343, 'eval_samples_per_second': 241.877, 'eval_steps_per_second': 10.159, 'epoch': 2.81}
+{'loss': 3.166, 'grad_norm': 2.2264604568481445, 'learning_rate': 3.7875904073087175e-07, 'epoch': 2.82}
+{'loss': 3.2288, 'grad_norm': 1.9362205266952515, 'learning_rate': 3.768557289684051e-07, 'epoch': 2.82}
+{'loss': 3.1634, 'grad_norm': 1.6864663362503052, 'learning_rate': 3.7495241720593836e-07, 'epoch': 2.82}
+{'loss': 3.1217, 'grad_norm': 1.561404824256897, 'learning_rate': 3.730491054434716e-07, 'epoch': 2.82}
+{'loss': 3.1051, 'grad_norm': 1.9048776626586914, 'learning_rate': 3.71145793681005e-07, 'epoch': 2.82}
+{'loss': 3.1719, 'grad_norm': 1.8111416101455688, 'learning_rate': 3.692424819185383e-07, 'epoch': 2.82}
+{'loss': 3.1351, 'grad_norm': 1.8214359283447266, 'learning_rate': 3.673391701560716e-07, 'epoch': 2.82}
+{'loss': 3.1038, 'grad_norm': 1.745583176612854, 'learning_rate': 3.654358583936049e-07, 'epoch': 2.82}
+{'loss': 3.0579, 'grad_norm': 1.9239591360092163, 'learning_rate': 3.6353254663113817e-07, 'epoch': 2.82}
+{'loss': 3.1667, 'grad_norm': 1.6528892517089844, 'learning_rate': 3.6162923486867153e-07, 'epoch': 2.82}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1707, 'eval_samples_per_second': 239.771, 'eval_steps_per_second': 10.07, 'epoch': 2.82}
+{'loss': 3.1979, 'grad_norm': 1.607405424118042, 'learning_rate': 3.597259231062048e-07, 'epoch': 2.83}
+{'loss': 3.1364, 'grad_norm': 1.706239938735962, 'learning_rate': 3.5782261134373815e-07, 'epoch': 2.83}
+{'loss': 3.1221, 'grad_norm': 1.6531376838684082, 'learning_rate': 3.5591929958127146e-07, 'epoch': 2.83}
+{'loss': 3.2383, 'grad_norm': 2.212373733520508, 'learning_rate': 3.540159878188047e-07, 'epoch': 2.83}
+{'loss': 3.0863, 'grad_norm': 1.7629430294036865, 'learning_rate': 3.521126760563381e-07, 'epoch': 2.83}
+{'loss': 3.1947, 'grad_norm': 1.8419290781021118, 'learning_rate': 3.5020936429387134e-07, 'epoch': 2.83}
+{'loss': 3.2943, 'grad_norm': 1.989354133605957, 'learning_rate': 3.483060525314047e-07, 'epoch': 2.83}
+{'loss': 3.1302, 'grad_norm': 1.6988935470581055, 'learning_rate': 3.46402740768938e-07, 'epoch': 2.83}
+{'loss': 3.0996, 'grad_norm': 1.8382043838500977, 'learning_rate': 3.4449942900647127e-07, 'epoch': 2.83}
+{'loss': 3.1328, 'grad_norm': 1.7708510160446167, 'learning_rate': 3.4259611724400463e-07, 'epoch': 2.84}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.1374, 'eval_samples_per_second': 241.696, 'eval_steps_per_second': 10.151, 'epoch': 2.84}
+{'loss': 3.0758, 'grad_norm': 1.9117071628570557, 'learning_rate': 3.406928054815379e-07, 'epoch': 2.84}
+{'loss': 3.0423, 'grad_norm': 1.9405899047851562, 'learning_rate': 3.3878949371907125e-07, 'epoch': 2.84}
+{'loss': 3.1432, 'grad_norm': 1.7798871994018555, 'learning_rate': 3.368861819566045e-07, 'epoch': 2.84}
+{'loss': 3.166, 'grad_norm': 1.8180781602859497, 'learning_rate': 3.349828701941378e-07, 'epoch': 2.84}
+{'loss': 3.2109, 'grad_norm': 2.17136549949646, 'learning_rate': 3.330795584316712e-07, 'epoch': 2.84}
+{'loss': 3.1217, 'grad_norm': 1.899662971496582, 'learning_rate': 3.3117624666920443e-07, 'epoch': 2.84}
+{'loss': 3.1836, 'grad_norm': 1.9438036680221558, 'learning_rate': 3.292729349067378e-07, 'epoch': 2.84}
+{'loss': 3.1149, 'grad_norm': 1.597489595413208, 'learning_rate': 3.2736962314427105e-07, 'epoch': 2.84}
+{'loss': 3.1699, 'grad_norm': 1.8405108451843262, 'learning_rate': 3.2546631138180436e-07, 'epoch': 2.84}
+{'loss': 3.1445, 'grad_norm': 1.6183834075927734, 'learning_rate': 3.2356299961933767e-07, 'epoch': 2.85}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.1387, 'eval_samples_per_second': 241.623, 'eval_steps_per_second': 10.148, 'epoch': 2.85}
+{'loss': 3.1699, 'grad_norm': 1.8498481512069702, 'learning_rate': 3.21659687856871e-07, 'epoch': 2.85}
+{'loss': 3.2412, 'grad_norm': 1.935116171836853, 'learning_rate': 3.1975637609440424e-07, 'epoch': 2.85}
+{'loss': 3.1247, 'grad_norm': 1.9924157857894897, 'learning_rate': 3.178530643319376e-07, 'epoch': 2.85}
+{'loss': 3.1927, 'grad_norm': 1.6568100452423096, 'learning_rate': 3.159497525694709e-07, 'epoch': 2.85}
+{'loss': 3.208, 'grad_norm': 1.7061930894851685, 'learning_rate': 3.140464408070042e-07, 'epoch': 2.85}
+{'loss': 3.1396, 'grad_norm': 1.7606827020645142, 'learning_rate': 3.1214312904453753e-07, 'epoch': 2.85}
+{'loss': 3.0231, 'grad_norm': 2.0470306873321533, 'learning_rate': 3.1023981728207084e-07, 'epoch': 2.85}
+{'loss': 3.1185, 'grad_norm': 1.948312520980835, 'learning_rate': 3.0833650551960415e-07, 'epoch': 2.85}
+{'loss': 3.0934, 'grad_norm': 1.7024492025375366, 'learning_rate': 3.0643319375713746e-07, 'epoch': 2.85}
+{'loss': 3.099, 'grad_norm': 1.698108434677124, 'learning_rate': 3.045298819946707e-07, 'epoch': 2.86}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1588, 'eval_samples_per_second': 240.456, 'eval_steps_per_second': 10.099, 'epoch': 2.86}
+{'loss': 3.1247, 'grad_norm': 1.9304368495941162, 'learning_rate': 3.026265702322041e-07, 'epoch': 2.86}
+{'loss': 3.1094, 'grad_norm': 1.7653566598892212, 'learning_rate': 3.007232584697374e-07, 'epoch': 2.86}
+{'loss': 3.2158, 'grad_norm': 1.859291672706604, 'learning_rate': 2.988199467072707e-07, 'epoch': 2.86}
+{'loss': 3.1292, 'grad_norm': 1.661866307258606, 'learning_rate': 2.9691663494480396e-07, 'epoch': 2.86}
+{'loss': 3.1305, 'grad_norm': 1.84648859500885, 'learning_rate': 2.9501332318233727e-07, 'epoch': 2.86}
+{'loss': 3.068, 'grad_norm': 1.801048994064331, 'learning_rate': 2.931100114198706e-07, 'epoch': 2.86}
+{'loss': 3.1201, 'grad_norm': 1.7577356100082397, 'learning_rate': 2.9120669965740394e-07, 'epoch': 2.86}
+{'loss': 3.1377, 'grad_norm': 1.9109543561935425, 'learning_rate': 2.8930338789493725e-07, 'epoch': 2.86}
+{'loss': 3.1956, 'grad_norm': 1.8555048704147339, 'learning_rate': 2.874000761324705e-07, 'epoch': 2.86}
+{'loss': 3.2152, 'grad_norm': 1.6580088138580322, 'learning_rate': 2.854967643700038e-07, 'epoch': 2.87}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1311, 'eval_samples_per_second': 242.067, 'eval_steps_per_second': 10.167, 'epoch': 2.87}
+{'loss': 3.1139, 'grad_norm': 1.9146921634674072, 'learning_rate': 2.835934526075371e-07, 'epoch': 2.87}
+{'loss': 3.1227, 'grad_norm': 1.6663908958435059, 'learning_rate': 2.8169014084507043e-07, 'epoch': 2.87}
+{'loss': 3.2067, 'grad_norm': 1.6853572130203247, 'learning_rate': 2.7978682908260374e-07, 'epoch': 2.87}
+{'loss': 3.1706, 'grad_norm': 1.763517141342163, 'learning_rate': 2.7788351732013705e-07, 'epoch': 2.87}
+{'loss': 3.126, 'grad_norm': 1.7591631412506104, 'learning_rate': 2.7598020555767036e-07, 'epoch': 2.87}
+{'loss': 3.1527, 'grad_norm': 2.057422637939453, 'learning_rate': 2.7407689379520367e-07, 'epoch': 2.87}
+{'loss': 3.0947, 'grad_norm': 1.9076007604599, 'learning_rate': 2.72173582032737e-07, 'epoch': 2.87}
+{'loss': 3.1263, 'grad_norm': 1.75095796585083, 'learning_rate': 2.702702702702703e-07, 'epoch': 2.87}
+{'loss': 3.1615, 'grad_norm': 1.718035340309143, 'learning_rate': 2.683669585078036e-07, 'epoch': 2.88}
+{'loss': 3.1032, 'grad_norm': 1.6225218772888184, 'learning_rate': 2.664636467453369e-07, 'epoch': 2.88}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1449, 'eval_samples_per_second': 241.261, 'eval_steps_per_second': 10.133, 'epoch': 2.88}
+{'loss': 3.1234, 'grad_norm': 1.7014039754867554, 'learning_rate': 2.645603349828702e-07, 'epoch': 2.88}
+{'loss': 3.1523, 'grad_norm': 1.755232334136963, 'learning_rate': 2.6265702322040353e-07, 'epoch': 2.88}
+{'loss': 3.1484, 'grad_norm': 2.0947835445404053, 'learning_rate': 2.6075371145793684e-07, 'epoch': 2.88}
+{'loss': 3.1924, 'grad_norm': 1.7892009019851685, 'learning_rate': 2.5885039969547015e-07, 'epoch': 2.88}
+{'loss': 3.18, 'grad_norm': 1.6234650611877441, 'learning_rate': 2.5694708793300346e-07, 'epoch': 2.88}
+{'loss': 3.1846, 'grad_norm': 1.7326288223266602, 'learning_rate': 2.5504377617053677e-07, 'epoch': 2.88}
+{'loss': 3.1003, 'grad_norm': 1.6902996301651, 'learning_rate': 2.531404644080701e-07, 'epoch': 2.88}
+{'loss': 3.1758, 'grad_norm': 1.95909583568573, 'learning_rate': 2.5123715264560333e-07, 'epoch': 2.88}
+{'loss': 3.2165, 'grad_norm': 1.7539654970169067, 'learning_rate': 2.4933384088313664e-07, 'epoch': 2.89}
+{'loss': 3.1494, 'grad_norm': 1.679072380065918, 'learning_rate': 2.4743052912067e-07, 'epoch': 2.89}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1671, 'eval_samples_per_second': 239.974, 'eval_steps_per_second': 10.079, 'epoch': 2.89}
+{'loss': 3.1595, 'grad_norm': 1.8147828578948975, 'learning_rate': 2.455272173582033e-07, 'epoch': 2.89}
+{'loss': 3.2096, 'grad_norm': 2.0277717113494873, 'learning_rate': 2.436239055957366e-07, 'epoch': 2.89}
+{'loss': 3.2087, 'grad_norm': 1.8442842960357666, 'learning_rate': 2.417205938332699e-07, 'epoch': 2.89}
+{'loss': 3.14, 'grad_norm': 2.125136137008667, 'learning_rate': 2.398172820708032e-07, 'epoch': 2.89}
+{'loss': 3.1729, 'grad_norm': 1.7962175607681274, 'learning_rate': 2.3791397030833653e-07, 'epoch': 2.89}
+{'loss': 3.0996, 'grad_norm': 1.6943066120147705, 'learning_rate': 2.3601065854586984e-07, 'epoch': 2.89}
+{'loss': 3.1927, 'grad_norm': 1.538163185119629, 'learning_rate': 2.3410734678340315e-07, 'epoch': 2.89}
+{'loss': 3.1826, 'grad_norm': 2.306854724884033, 'learning_rate': 2.3220403502093643e-07, 'epoch': 2.89}
+{'loss': 3.099, 'grad_norm': 1.8147163391113281, 'learning_rate': 2.3030072325846974e-07, 'epoch': 2.9}
+{'loss': 3.1139, 'grad_norm': 1.6245719194412231, 'learning_rate': 2.2839741149600308e-07, 'epoch': 2.9}
+{'eval_loss': 3.6328125, 'eval_runtime': 4.132, 'eval_samples_per_second': 242.014, 'eval_steps_per_second': 10.165, 'epoch': 2.9}
+{'loss': 3.0312, 'grad_norm': 1.7612422704696655, 'learning_rate': 2.264940997335364e-07, 'epoch': 2.9}
+{'loss': 3.3385, 'grad_norm': 2.087825298309326, 'learning_rate': 2.245907879710697e-07, 'epoch': 2.9}
+{'loss': 3.1045, 'grad_norm': 1.6771732568740845, 'learning_rate': 2.2268747620860298e-07, 'epoch': 2.9}
+{'loss': 3.1364, 'grad_norm': 2.0601654052734375, 'learning_rate': 2.207841644461363e-07, 'epoch': 2.9}
+{'loss': 3.2067, 'grad_norm': 1.8101475238800049, 'learning_rate': 2.188808526836696e-07, 'epoch': 2.9}
+{'loss': 3.11, 'grad_norm': 1.8658305406570435, 'learning_rate': 2.169775409212029e-07, 'epoch': 2.9}
+{'loss': 3.1536, 'grad_norm': 1.6723365783691406, 'learning_rate': 2.1507422915873625e-07, 'epoch': 2.9}
+{'loss': 3.1299, 'grad_norm': 1.7049357891082764, 'learning_rate': 2.1317091739626953e-07, 'epoch': 2.9}
+{'loss': 3.2624, 'grad_norm': 1.9801489114761353, 'learning_rate': 2.1126760563380284e-07, 'epoch': 2.91}
+{'loss': 3.1973, 'grad_norm': 1.7891788482666016, 'learning_rate': 2.0936429387133615e-07, 'epoch': 2.91}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1488, 'eval_samples_per_second': 241.036, 'eval_steps_per_second': 10.123, 'epoch': 2.91}
+{'loss': 3.1715, 'grad_norm': 1.7363005876541138, 'learning_rate': 2.0746098210886946e-07, 'epoch': 2.91}
+{'loss': 3.126, 'grad_norm': 1.7702968120574951, 'learning_rate': 2.0555767034640274e-07, 'epoch': 2.91}
+{'loss': 3.1842, 'grad_norm': 1.7729823589324951, 'learning_rate': 2.0365435858393605e-07, 'epoch': 2.91}
+{'loss': 3.2334, 'grad_norm': 1.7888903617858887, 'learning_rate': 2.0175104682146936e-07, 'epoch': 2.91}
+{'loss': 3.18, 'grad_norm': 1.7409659624099731, 'learning_rate': 1.998477350590027e-07, 'epoch': 2.91}
+{'loss': 3.1491, 'grad_norm': 1.929719090461731, 'learning_rate': 1.97944423296536e-07, 'epoch': 2.91}
+{'loss': 3.1045, 'grad_norm': 1.8398990631103516, 'learning_rate': 1.960411115340693e-07, 'epoch': 2.91}
+{'loss': 3.1344, 'grad_norm': 1.8702242374420166, 'learning_rate': 1.941377997716026e-07, 'epoch': 2.92}
+{'loss': 3.2624, 'grad_norm': 1.5727719068527222, 'learning_rate': 1.922344880091359e-07, 'epoch': 2.92}
+{'loss': 3.1175, 'grad_norm': 1.6388331651687622, 'learning_rate': 1.9033117624666922e-07, 'epoch': 2.92}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1578, 'eval_samples_per_second': 240.514, 'eval_steps_per_second': 10.102, 'epoch': 2.92}
+{'loss': 3.2067, 'grad_norm': 1.9394186735153198, 'learning_rate': 1.8842786448420255e-07, 'epoch': 2.92}
+{'loss': 3.1253, 'grad_norm': 1.5989646911621094, 'learning_rate': 1.865245527217358e-07, 'epoch': 2.92}
+{'loss': 3.2829, 'grad_norm': 1.6589144468307495, 'learning_rate': 1.8462124095926915e-07, 'epoch': 2.92}
+{'loss': 3.0635, 'grad_norm': 2.055586814880371, 'learning_rate': 1.8271792919680246e-07, 'epoch': 2.92}
+{'loss': 3.153, 'grad_norm': 1.6673446893692017, 'learning_rate': 1.8081461743433577e-07, 'epoch': 2.92}
+{'loss': 3.1299, 'grad_norm': 1.9640512466430664, 'learning_rate': 1.7891130567186908e-07, 'epoch': 2.92}
+{'loss': 3.0879, 'grad_norm': 1.7351340055465698, 'learning_rate': 1.7700799390940236e-07, 'epoch': 2.92}
+{'loss': 3.1624, 'grad_norm': 1.690428376197815, 'learning_rate': 1.7510468214693567e-07, 'epoch': 2.93}
+{'loss': 3.1868, 'grad_norm': 1.8074358701705933, 'learning_rate': 1.73201370384469e-07, 'epoch': 2.93}
+{'loss': 3.1263, 'grad_norm': 1.8585914373397827, 'learning_rate': 1.7129805862200231e-07, 'epoch': 2.93}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1324, 'eval_samples_per_second': 241.987, 'eval_steps_per_second': 10.163, 'epoch': 2.93}
+{'loss': 3.026, 'grad_norm': 1.8081493377685547, 'learning_rate': 1.6939474685953562e-07, 'epoch': 2.93}
+{'loss': 3.1305, 'grad_norm': 1.7151918411254883, 'learning_rate': 1.674914350970689e-07, 'epoch': 2.93}
+{'loss': 3.0983, 'grad_norm': 1.8180447816848755, 'learning_rate': 1.6558812333460222e-07, 'epoch': 2.93}
+{'loss': 3.2116, 'grad_norm': 1.634171962738037, 'learning_rate': 1.6368481157213553e-07, 'epoch': 2.93}
+{'loss': 3.126, 'grad_norm': 1.6910141706466675, 'learning_rate': 1.6178149980966884e-07, 'epoch': 2.93}
+{'loss': 3.2106, 'grad_norm': 1.6736887693405151, 'learning_rate': 1.5987818804720212e-07, 'epoch': 2.93}
+{'loss': 3.2396, 'grad_norm': 2.064589738845825, 'learning_rate': 1.5797487628473546e-07, 'epoch': 2.93}
+{'loss': 3.1709, 'grad_norm': 1.8322999477386475, 'learning_rate': 1.5607156452226877e-07, 'epoch': 2.94}
+{'loss': 3.195, 'grad_norm': 1.7701271772384644, 'learning_rate': 1.5416825275980208e-07, 'epoch': 2.94}
+{'loss': 3.1354, 'grad_norm': 1.6066988706588745, 'learning_rate': 1.5226494099733536e-07, 'epoch': 2.94}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1586, 'eval_samples_per_second': 240.465, 'eval_steps_per_second': 10.1, 'epoch': 2.94}
+{'loss': 3.1348, 'grad_norm': 1.6682279109954834, 'learning_rate': 1.503616292348687e-07, 'epoch': 2.94}
+{'loss': 3.1084, 'grad_norm': 1.6587589979171753, 'learning_rate': 1.4845831747240198e-07, 'epoch': 2.94}
+{'loss': 3.0729, 'grad_norm': 1.7454181909561157, 'learning_rate': 1.465550057099353e-07, 'epoch': 2.94}
+{'loss': 3.1003, 'grad_norm': 1.6507174968719482, 'learning_rate': 1.4465169394746862e-07, 'epoch': 2.94}
+{'loss': 3.182, 'grad_norm': 1.7276960611343384, 'learning_rate': 1.427483821850019e-07, 'epoch': 2.94}
+{'loss': 3.1488, 'grad_norm': 1.7429596185684204, 'learning_rate': 1.4084507042253522e-07, 'epoch': 2.94}
+{'loss': 3.1904, 'grad_norm': 1.8910810947418213, 'learning_rate': 1.3894175866006853e-07, 'epoch': 2.95}
+{'loss': 3.2012, 'grad_norm': 1.7960723638534546, 'learning_rate': 1.3703844689760184e-07, 'epoch': 2.95}
+{'loss': 3.0895, 'grad_norm': 1.9539295434951782, 'learning_rate': 1.3513513513513515e-07, 'epoch': 2.95}
+{'loss': 3.2002, 'grad_norm': 1.9707436561584473, 'learning_rate': 1.3323182337266846e-07, 'epoch': 2.95}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1435, 'eval_samples_per_second': 241.343, 'eval_steps_per_second': 10.136, 'epoch': 2.95}
+{'loss': 3.1999, 'grad_norm': 1.5756075382232666, 'learning_rate': 1.3132851161020176e-07, 'epoch': 2.95}
+{'loss': 3.0895, 'grad_norm': 1.7061960697174072, 'learning_rate': 1.2942519984773507e-07, 'epoch': 2.95}
+{'loss': 3.1761, 'grad_norm': 1.8593775033950806, 'learning_rate': 1.2752188808526838e-07, 'epoch': 2.95}
+{'loss': 3.0355, 'grad_norm': 1.8280140161514282, 'learning_rate': 1.2561857632280167e-07, 'epoch': 2.95}
+{'loss': 3.1641, 'grad_norm': 1.814475178718567, 'learning_rate': 1.23715264560335e-07, 'epoch': 2.95}
+{'loss': 3.1943, 'grad_norm': 1.6925386190414429, 'learning_rate': 1.218119527978683e-07, 'epoch': 2.95}
+{'loss': 3.1849, 'grad_norm': 1.824397325515747, 'learning_rate': 1.199086410354016e-07, 'epoch': 2.96}
+{'loss': 3.127, 'grad_norm': 1.8842377662658691, 'learning_rate': 1.1800532927293492e-07, 'epoch': 2.96}
+{'loss': 3.1862, 'grad_norm': 1.6942428350448608, 'learning_rate': 1.1610201751046822e-07, 'epoch': 2.96}
+{'loss': 3.1624, 'grad_norm': 1.9098950624465942, 'learning_rate': 1.1419870574800154e-07, 'epoch': 2.96}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1314, 'eval_samples_per_second': 242.048, 'eval_steps_per_second': 10.166, 'epoch': 2.96}
+{'loss': 3.2103, 'grad_norm': 1.9142680168151855, 'learning_rate': 1.1229539398553485e-07, 'epoch': 2.96}
+{'loss': 3.098, 'grad_norm': 1.583695888519287, 'learning_rate': 1.1039208222306814e-07, 'epoch': 2.96}
+{'loss': 3.1195, 'grad_norm': 1.7606728076934814, 'learning_rate': 1.0848877046060145e-07, 'epoch': 2.96}
+{'loss': 3.2061, 'grad_norm': 1.6925686597824097, 'learning_rate': 1.0658545869813476e-07, 'epoch': 2.96}
+{'loss': 3.1227, 'grad_norm': 1.7346036434173584, 'learning_rate': 1.0468214693566807e-07, 'epoch': 2.96}
+{'loss': 3.1367, 'grad_norm': 1.8378686904907227, 'learning_rate': 1.0277883517320137e-07, 'epoch': 2.96}
+{'loss': 3.1185, 'grad_norm': 1.6345934867858887, 'learning_rate': 1.0087552341073468e-07, 'epoch': 2.97}
+{'loss': 3.1172, 'grad_norm': 1.8827111721038818, 'learning_rate': 9.8972211648268e-08, 'epoch': 2.97}
+{'loss': 3.1009, 'grad_norm': 1.9410688877105713, 'learning_rate': 9.70688998858013e-08, 'epoch': 2.97}
+{'loss': 3.1751, 'grad_norm': 1.6131352186203003, 'learning_rate': 9.516558812333461e-08, 'epoch': 2.97}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1659, 'eval_samples_per_second': 240.042, 'eval_steps_per_second': 10.082, 'epoch': 2.97}
+{'loss': 3.1283, 'grad_norm': 1.8583027124404907, 'learning_rate': 9.32622763608679e-08, 'epoch': 2.97}
+{'loss': 3.125, 'grad_norm': 1.640865445137024, 'learning_rate': 9.135896459840123e-08, 'epoch': 2.97}
+{'loss': 3.1403, 'grad_norm': 1.5655250549316406, 'learning_rate': 8.945565283593454e-08, 'epoch': 2.97}
+{'loss': 3.234, 'grad_norm': 2.05843186378479, 'learning_rate': 8.755234107346783e-08, 'epoch': 2.97}
+{'loss': 3.1185, 'grad_norm': 1.7251613140106201, 'learning_rate': 8.564902931100116e-08, 'epoch': 2.97}
+{'loss': 3.1865, 'grad_norm': 2.0464885234832764, 'learning_rate': 8.374571754853445e-08, 'epoch': 2.97}
+{'loss': 3.127, 'grad_norm': 2.0274124145507812, 'learning_rate': 8.184240578606776e-08, 'epoch': 2.98}
+{'loss': 3.127, 'grad_norm': 1.814153790473938, 'learning_rate': 7.993909402360106e-08, 'epoch': 2.98}
+{'loss': 3.2191, 'grad_norm': 1.8659749031066895, 'learning_rate': 7.803578226113438e-08, 'epoch': 2.98}
+{'loss': 3.1152, 'grad_norm': 1.6577637195587158, 'learning_rate': 7.613247049866768e-08, 'epoch': 2.98}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1417, 'eval_samples_per_second': 241.447, 'eval_steps_per_second': 10.141, 'epoch': 2.98}
+{'loss': 3.154, 'grad_norm': 1.5536534786224365, 'learning_rate': 7.422915873620099e-08, 'epoch': 2.98}
+{'loss': 3.2572, 'grad_norm': 1.6271265745162964, 'learning_rate': 7.232584697373431e-08, 'epoch': 2.98}
+{'loss': 3.2122, 'grad_norm': 1.859850287437439, 'learning_rate': 7.042253521126761e-08, 'epoch': 2.98}
+{'loss': 3.1468, 'grad_norm': 1.8697084188461304, 'learning_rate': 6.851922344880092e-08, 'epoch': 2.98}
+{'loss': 3.1497, 'grad_norm': 1.8708100318908691, 'learning_rate': 6.661591168633423e-08, 'epoch': 2.98}
+{'loss': 3.0999, 'grad_norm': 1.7151036262512207, 'learning_rate': 6.471259992386754e-08, 'epoch': 2.99}
+{'loss': 3.1123, 'grad_norm': 1.7834219932556152, 'learning_rate': 6.280928816140083e-08, 'epoch': 2.99}
+{'loss': 3.0492, 'grad_norm': 1.591760277748108, 'learning_rate': 6.090597639893416e-08, 'epoch': 2.99}
+{'loss': 3.1081, 'grad_norm': 1.661691665649414, 'learning_rate': 5.900266463646746e-08, 'epoch': 2.99}
+{'loss': 3.069, 'grad_norm': 1.7372400760650635, 'learning_rate': 5.709935287400077e-08, 'epoch': 2.99}
+{'eval_loss': 3.634765625, 'eval_runtime': 4.1308, 'eval_samples_per_second': 242.084, 'eval_steps_per_second': 10.168, 'epoch': 2.99}
+{'loss': 3.1374, 'grad_norm': 1.562301516532898, 'learning_rate': 5.519604111153407e-08, 'epoch': 2.99}
+{'loss': 3.1462, 'grad_norm': 1.6297352313995361, 'learning_rate': 5.329272934906738e-08, 'epoch': 2.99}
+{'loss': 3.1689, 'grad_norm': 1.6831480264663696, 'learning_rate': 5.1389417586600685e-08, 'epoch': 2.99}
+{'loss': 3.1364, 'grad_norm': 1.801497220993042, 'learning_rate': 4.9486105824134e-08, 'epoch': 2.99}
+{'loss': 3.1273, 'grad_norm': 1.760927677154541, 'learning_rate': 4.7582794061667304e-08, 'epoch': 2.99}
+{'loss': 3.1038, 'grad_norm': 1.6062519550323486, 'learning_rate': 4.5679482299200614e-08, 'epoch': 3.0}
+{'loss': 3.2119, 'grad_norm': 2.035909414291382, 'learning_rate': 4.377617053673392e-08, 'epoch': 3.0}
+{'loss': 3.1302, 'grad_norm': 1.7153323888778687, 'learning_rate': 4.187285877426723e-08, 'epoch': 3.0}
+{'loss': 3.137, 'grad_norm': 1.5309349298477173, 'learning_rate': 3.996954701180053e-08, 'epoch': 3.0}
+{'train_runtime': 3992.3069, 'train_samples_per_second': 13.165, 'train_steps_per_second': 0.731, 'train_loss': 3.4074492356515003, 'epoch': 3.0}
diff --git a/wandb/run-20241130_000215-17dv9j80/files/wandb-metadata.json b/wandb/run-20241130_000215-17dv9j80/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..0091783dc623781c953a02a160bb93bf1f2d5129
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-30T05:02:15.792542Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py",
+  "codePath":  "train/train_gpt2.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_gpt2.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1720042741760"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241130_000215-17dv9j80/files/wandb-summary.json b/wandb/run-20241130_000215-17dv9j80/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..90e4d2d59b275c7ced86435c07bbce0578a8b03e
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train_runtime":3992.3069,"train/global_step":2919,"train/learning_rate":3.996954701180053e-08,"_wandb":{"runtime":4038},"_step":3210,"eval/loss":3.634765625,"train/epoch":2.9984591679506933,"train/grad_norm":1.5309349298477173,"eval/runtime":4.1308,"train_loss":3.4074492356515003,"train_samples_per_second":13.165,"eval/steps_per_second":10.168,"eval/samples_per_second":242.084,"_runtime":4038.479257829,"total_flos":2.7457611890688e+16,"train_steps_per_second":0.731,"_timestamp":1.732946974271589e+09,"train/loss":3.137}
\ No newline at end of file
diff --git a/wandb/run-20241130_000215-17dv9j80/logs/debug-core.log b/wandb/run-20241130_000215-17dv9j80/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..62e61c0c6c180f8664c6ed8f25df3e0a1925634e
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/logs/debug-core.log
@@ -0,0 +1,48 @@
+{"time":"2024-11-30T00:02:15.43919014-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpfxiydl8b/port-3202670.txt","pid":3202670,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T00:02:15.43922475-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T00:02:15.439836425-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3202670}
+{"time":"2024-11-30T00:02:15.439846565-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":37429,"Zone":""}}
+{"time":"2024-11-30T00:02:15.632296184-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T00:02:15.681936363-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp5eoxp00d/port-3202671.txt","pid":3202671,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T00:02:15.681981264-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T00:02:15.682650898-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3202671}
+{"time":"2024-11-30T00:02:15.682654198-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":39289,"Zone":""}}
+{"time":"2024-11-30T00:02:15.695032898-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpa4jjd7lq/port-3202672.txt","pid":3202672,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T00:02:15.695066058-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T00:02:15.695489741-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3202672}
+{"time":"2024-11-30T00:02:15.695490871-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":46685,"Zone":""}}
+{"time":"2024-11-30T00:02:15.7950238-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"17dv9j80","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T00:02:15.874379653-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T00:02:15.889274741-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T00:02:15.901708191-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"17dv9j80","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T00:02:16.03872354-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"1ukwn3io","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T00:02:16.044422161-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"vhpvop7p","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T00:02:16.147433705-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"1ukwn3io","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T00:02:16.151918478-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"vhpvop7p","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:36.762761611-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"1ukwn3io","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T01:09:36.763050493-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"1ukwn3io","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T01:09:36.950902049-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"17dv9j80","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T01:09:36.95108413-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"17dv9j80","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T01:09:37.02988911-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"vhpvop7p","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:37.030192602-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"vhpvop7p","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:37.103918974-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T01:09:37.103967854-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T01:09:37.103977894-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T01:09:37.103976534-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T01:09:37.104044235-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T01:09:37.104050445-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:47204"}
+{"time":"2024-11-30T01:09:37.104054935-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T01:09:37.326316888-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:37.326393019-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:37.326401189-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T01:09:37.326461509-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:37.32657525-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:37.32658221-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:48724"}
+{"time":"2024-11-30T01:09:37.32658777-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T01:09:37.333587882-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T01:09:37.333634223-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T01:09:37.333641543-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T01:09:37.333693383-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T01:09:37.333893955-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T01:09:37.333901745-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:45844"}
+{"time":"2024-11-30T01:09:37.333912245-05:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20241130_000215-17dv9j80/logs/debug-internal.log b/wandb/run-20241130_000215-17dv9j80/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..7746398ddb784359b3791e0e5c697c89f1719018
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-30T00:02:15.795285992-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-30T00:02:15.795302242-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_000215-17dv9j80/logs/debug-core.log"}
+{"time":"2024-11-30T00:02:15.90165783-05:00","level":"INFO","msg":"created new stream","id":"17dv9j80"}
+{"time":"2024-11-30T00:02:15.901702221-05:00","level":"INFO","msg":"stream: started","id":"17dv9j80"}
+{"time":"2024-11-30T00:02:15.901774971-05:00","level":"INFO","msg":"sender: started","stream_id":"17dv9j80"}
+{"time":"2024-11-30T00:02:15.901774681-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"17dv9j80"}}
+{"time":"2024-11-30T00:02:15.901749061-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"17dv9j80"}}
+{"time":"2024-11-30T00:02:16.117813611-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-30T01:09:34.277021918-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-30T01:09:34.277907995-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-30T01:09:35.277530576-05:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"saving job artifact","runtime_seconds":0.589721723}],"total_operations":1}}
+{"time":"2024-11-30T01:09:35.796362779-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-30T01:09:36.950952869-05:00","level":"INFO","msg":"stream: closing","id":"17dv9j80"}
+{"time":"2024-11-30T01:09:36.950977619-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"17dv9j80"}}
+{"time":"2024-11-30T01:09:36.95099889-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"17dv9j80"}}
+{"time":"2024-11-30T01:09:36.95101612-05:00","level":"INFO","msg":"sender: closed","stream_id":"17dv9j80"}
+{"time":"2024-11-30T01:09:36.95107479-05:00","level":"INFO","msg":"stream: closed","id":"17dv9j80"}
diff --git a/wandb/run-20241130_000215-17dv9j80/logs/debug.log b/wandb/run-20241130_000215-17dv9j80/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..e7a47e1da24979b4bd96b2b3e411292592494a79
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Configure stats pid to 3202670
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_gpt2.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py'}
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_000215-17dv9j80/logs/debug.log
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_000215-17dv9j80/logs/debug-internal.log
+2024-11-30 00:02:15,790 INFO    MainThread:3202670 [wandb_init.py:init():621] calling init triggers
+2024-11-30 00:02:15,791 INFO    MainThread:3202670 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-30 00:02:15,791 INFO    MainThread:3202670 [wandb_init.py:init():671] starting backend
+2024-11-30 00:02:15,791 INFO    MainThread:3202670 [wandb_init.py:init():675] sending inform_init request
+2024-11-30 00:02:15,791 INFO    MainThread:3202670 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-30 00:02:15,792 INFO    MainThread:3202670 [wandb_init.py:init():688] backend started and connected
+2024-11-30 00:02:15,795 INFO    MainThread:3202670 [wandb_init.py:init():783] updated telemetry
+2024-11-30 00:02:15,813 INFO    MainThread:3202670 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-30 00:02:16,114 INFO    MainThread:3202670 [wandb_init.py:init():867] starting run threads in backend
+2024-11-30 00:02:16,202 INFO    MainThread:3202670 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-30 00:02:16,203 INFO    MainThread:3202670 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-30 00:02:16,203 INFO    MainThread:3202670 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-30 00:02:16,203 INFO    MainThread:3202670 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-30 00:02:16,204 INFO    MainThread:3202670 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-30 00:02:16,205 INFO    MainThread:3202670 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-30 00:03:01,967 INFO    MainThread:3202670 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 50257, 'n_positions': 1024, 'n_embd': 768, 'n_layer': 12, 'n_head': 12, 'n_inner': None, 'activation_function': 'gelu_new', 'resid_pdrop': 0.1, 'embd_pdrop': 0.1, 'attn_pdrop': 0.1, 'layer_norm_epsilon': 1e-05, 'initializer_range': 0.02, 'summary_type': 'cls_index', 'summary_use_proj': True, 'summary_activation': None, 'summary_first_dropout': 0.1, 'summary_proj_to_labels': True, 'scale_attn_weights': True, 'use_cache': True, 'scale_attn_by_inverse_layer_idx': False, 'reorder_and_upcast_attn': False, 'bos_token_id': 50256, 'eos_token_id': 50256, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': None, 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['GPT2LMHeadModel'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'pad_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': {'text-generation': {'do_sample': True, 'max_length': 50}}, 'problem_type': None, '_name_or_path': 'gpt2', 'transformers_version': '4.45.1', 'model_type': 'gpt2', 'n_ctx': 1024, 'output_dir': './checkpoints/GPT2/babylm_reverse_full_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/GPT2/babylm_reverse_full_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-30 00:03:01,968 INFO    MainThread:3202670 [wandb_config.py:__setitem__():154] config set model/num_parameters = 124439808 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7ff6efe3e5e0>>
+2024-11-30 00:03:01,968 INFO    MainThread:3202670 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 124439808 None
+2024-11-30 01:09:34,273 INFO    MainThread:3202670 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-reverse/17dv9j80
+2024-11-30 01:09:34,276 INFO    MainThread:3202670 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-30 01:09:34,276 INFO    MainThread:3202670 [wandb_run.py:_restore():2408] restore
+2024-11-30 01:09:34,276 INFO    MainThread:3202670 [wandb_run.py:_restore():2414] restore done
+2024-11-30 01:09:36,945 INFO    MainThread:3202670 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-30 01:09:36,946 INFO    MainThread:3202670 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-30 01:09:36,950 INFO    MainThread:3202670 [wandb_run.py:_footer_sync_info():3934] logging synced files