diff --git a/wandb/run-20241030_010759-dim9v1es/files/config.yaml b/wandb/run-20241030_010759-dim9v1es/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f8546482f67cbb9041af9d756594322c485d67a9
--- /dev/null
+++ b/wandb/run-20241030_010759-dim9v1es/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 7
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_010759-dim9v1es/files/output.log b/wandb/run-20241030_010759-dim9v1es/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..1777f063b107f651dddc063d1d3a3fa80015bf9e
--- /dev/null
+++ b/wandb/run-20241030_010759-dim9v1es/files/output.log
@@ -0,0 +1,4 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 162, in <module>
+    dataset_name = f"babylm_{args.perturbation}_{args.train_zset}_seed{args.seed}"
+AttributeError: 'Namespace' object has no attribute 'train_zset'
diff --git a/wandb/run-20241030_010759-dim9v1es/run-dim9v1es.wandb b/wandb/run-20241030_010759-dim9v1es/run-dim9v1es.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..dad6090d6afd44ed6fb5917ef37f84366a79372e
Binary files /dev/null and b/wandb/run-20241030_010759-dim9v1es/run-dim9v1es.wandb differ
diff --git a/wandb/run-20241030_011509-46hc4g2h/logs/debug-internal.log b/wandb/run-20241030_011509-46hc4g2h/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..31e60fb88775f28ec98dc7490c1abc69a976de9c
--- /dev/null
+++ b/wandb/run-20241030_011509-46hc4g2h/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T01:15:09.556689441-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:15:09.556707271-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011509-46hc4g2h/logs/debug-core.log"}
+{"time":"2024-10-30T01:15:09.662171735-04:00","level":"INFO","msg":"created new stream","id":"46hc4g2h"}
+{"time":"2024-10-30T01:15:09.662202115-04:00","level":"INFO","msg":"stream: started","id":"46hc4g2h"}
+{"time":"2024-10-30T01:15:09.662224815-04:00","level":"INFO","msg":"sender: started","stream_id":"46hc4g2h"}
+{"time":"2024-10-30T01:15:09.662216935-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"46hc4g2h"}}
+{"time":"2024-10-30T01:15:09.662203965-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"46hc4g2h"}}
+{"time":"2024-10-30T01:15:09.829266444-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241030_011509-46hc4g2h/logs/debug.log b/wandb/run-20241030_011509-46hc4g2h/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..8bb2133f342e1120e910d5d6086cae05c369ef00
--- /dev/null
+++ b/wandb/run-20241030_011509-46hc4g2h/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Configure stats pid to 324928
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011509-46hc4g2h/logs/debug.log
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011509-46hc4g2h/logs/debug-internal.log
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_init.py:init():621] calling init triggers
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_init.py:init():671] starting backend
+2024-10-30 01:15:09,552 INFO    MainThread:324928 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 01:15:09,554 INFO    MainThread:324928 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 01:15:09,554 INFO    MainThread:324928 [wandb_init.py:init():688] backend started and connected
+2024-10-30 01:15:09,558 INFO    MainThread:324928 [wandb_init.py:init():783] updated telemetry
+2024-10-30 01:15:09,594 INFO    MainThread:324928 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 01:15:09,825 INFO    MainThread:324928 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 01:15:09,928 INFO    MainThread:324928 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 01:15:09,928 INFO    MainThread:324928 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 01:15:09,929 INFO    MainThread:324928 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 01:15:09,929 INFO    MainThread:324928 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 01:15:09,931 INFO    MainThread:324928 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 01:15:09,931 INFO    MainThread:324928 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0}
diff --git a/wandb/run-20241030_012617-0h15y3p4/logs/debug-internal.log b/wandb/run-20241030_012617-0h15y3p4/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..b6b38b14b6d2f48cf76584a8bb45a638739f8004
--- /dev/null
+++ b/wandb/run-20241030_012617-0h15y3p4/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2024-10-30T01:26:17.390480352-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:26:17.390492292-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_012617-0h15y3p4/logs/debug-core.log"}
+{"time":"2024-10-30T01:26:17.497198871-04:00","level":"INFO","msg":"created new stream","id":"0h15y3p4"}
+{"time":"2024-10-30T01:26:17.497231081-04:00","level":"INFO","msg":"stream: started","id":"0h15y3p4"}
+{"time":"2024-10-30T01:26:17.498386319-04:00","level":"INFO","msg":"sender: started","stream_id":"0h15y3p4"}
+{"time":"2024-10-30T01:26:17.498411899-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"0h15y3p4"}}
+{"time":"2024-10-30T01:26:17.498470659-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"0h15y3p4"}}
+{"time":"2024-10-30T01:26:17.697892892-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T01:26:32.054557486-04:00","level":"INFO","msg":"stream: closing","id":"0h15y3p4"}
+{"time":"2024-10-30T01:26:32.054592926-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T01:26:32.055079549-04:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20241030_112700-j5l8vh9z/files/config.yaml b/wandb/run-20241030_112700-j5l8vh9z/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..9eb308beefafe67d93cdcbb581ca11ae60246ed2
--- /dev/null
+++ b/wandb/run-20241030_112700-j5l8vh9z/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_112700-j5l8vh9z/files/requirements.txt b/wandb/run-20241030_112700-j5l8vh9z/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_112700-j5l8vh9z/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_112700-j5l8vh9z/files/wandb-summary.json b/wandb/run-20241030_112700-j5l8vh9z/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..04b2e8f6eb4447e0a30c904e74100cacb4dc8a48
--- /dev/null
+++ b/wandb/run-20241030_112700-j5l8vh9z/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":93}}
\ No newline at end of file
diff --git a/wandb/run-20241030_225833-frh96rd1/files/wandb-metadata.json b/wandb/run-20241030_225833-frh96rd1/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..28f712224dcce51479a269a152ce23d62be1849c
--- /dev/null
+++ b/wandb/run-20241030_225833-frh96rd1/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T02:58:33.401365Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1710970519552"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_225833-frh96rd1/logs/debug-internal.log b/wandb/run-20241030_225833-frh96rd1/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..04404c910ade9c7d499bb147aed2fef1fc48f900
--- /dev/null
+++ b/wandb/run-20241030_225833-frh96rd1/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T22:58:33.403200163-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T22:58:33.403213043-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-frh96rd1/logs/debug-core.log"}
+{"time":"2024-10-30T22:58:33.510780385-04:00","level":"INFO","msg":"created new stream","id":"frh96rd1"}
+{"time":"2024-10-30T22:58:33.510819765-04:00","level":"INFO","msg":"stream: started","id":"frh96rd1"}
+{"time":"2024-10-30T22:58:33.510841375-04:00","level":"INFO","msg":"sender: started","stream_id":"frh96rd1"}
+{"time":"2024-10-30T22:58:33.510849875-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"frh96rd1"}}
+{"time":"2024-10-30T22:58:33.510823865-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"frh96rd1"}}
+{"time":"2024-10-30T22:58:33.680830326-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241030_225833-frh96rd1/logs/debug.log b/wandb/run-20241030_225833-frh96rd1/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..153b876d46e36ed51820af24bf50000db09a5d24
--- /dev/null
+++ b/wandb/run-20241030_225833-frh96rd1/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Configure stats pid to 451913
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-frh96rd1/logs/debug.log
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-frh96rd1/logs/debug-internal.log
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_init.py:init():621] calling init triggers
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 22:58:33,399 INFO    MainThread:451913 [wandb_init.py:init():671] starting backend
+2024-10-30 22:58:33,400 INFO    MainThread:451913 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 22:58:33,400 INFO    MainThread:451913 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 22:58:33,401 INFO    MainThread:451913 [wandb_init.py:init():688] backend started and connected
+2024-10-30 22:58:33,403 INFO    MainThread:451913 [wandb_init.py:init():783] updated telemetry
+2024-10-30 22:58:33,443 INFO    MainThread:451913 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 22:58:33,677 INFO    MainThread:451913 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 22:58:33,841 INFO    MainThread:451913 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 22:58:33,841 INFO    MainThread:451913 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 22:58:33,841 INFO    MainThread:451913 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 22:58:33,842 INFO    MainThread:451913 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 22:58:33,844 INFO    MainThread:451913 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 22:58:33,844 INFO    MainThread:451913 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
diff --git a/wandb/run-20241031_000839-cu7972v5/files/output.log b/wandb/run-20241031_000839-cu7972v5/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..08acd0fc351b8ea7f63c4fbeb6eb8f23787ad618
--- /dev/null
+++ b/wandb/run-20241031_000839-cu7972v5/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.23s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 00:09:00,035] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 00:09:09,768] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.32434344291687 seconds
diff --git a/wandb/run-20241031_000839-cu7972v5/files/requirements.txt b/wandb/run-20241031_000839-cu7972v5/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241031_000839-cu7972v5/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241031_000839-cu7972v5/files/wandb-metadata.json b/wandb/run-20241031_000839-cu7972v5/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..6dee27bd4ad5c61b7f01d032b09a120a4af5eb3a
--- /dev/null
+++ b/wandb/run-20241031_000839-cu7972v5/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T04:08:39.234664Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1727270539264"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_000839-cu7972v5/logs/debug-internal.log b/wandb/run-20241031_000839-cu7972v5/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..792bc66f5bdaa1f2ce2b14ac6fe6ed3b168ee200
--- /dev/null
+++ b/wandb/run-20241031_000839-cu7972v5/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-31T00:08:39.237073048-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T00:08:39.237089559-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-cu7972v5/logs/debug-core.log"}
+{"time":"2024-10-31T00:08:39.341923634-04:00","level":"INFO","msg":"created new stream","id":"cu7972v5"}
+{"time":"2024-10-31T00:08:39.341944484-04:00","level":"INFO","msg":"stream: started","id":"cu7972v5"}
+{"time":"2024-10-31T00:08:39.341969834-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"cu7972v5"}}
+{"time":"2024-10-31T00:08:39.341961834-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"cu7972v5"}}
+{"time":"2024-10-31T00:08:39.341998404-04:00","level":"INFO","msg":"sender: started","stream_id":"cu7972v5"}
+{"time":"2024-10-31T00:08:39.509463672-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_000839-cu7972v5/logs/debug.log b/wandb/run-20241031_000839-cu7972v5/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..5627596166b293a7523760b2d968b3fd37f15290
--- /dev/null
+++ b/wandb/run-20241031_000839-cu7972v5/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Configure stats pid to 477298
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-cu7972v5/logs/debug.log
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-cu7972v5/logs/debug-internal.log
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_init.py:init():621] calling init triggers
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_init.py:init():671] starting backend
+2024-10-31 00:08:39,232 INFO    MainThread:477298 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 00:08:39,234 INFO    MainThread:477298 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 00:08:39,234 INFO    MainThread:477298 [wandb_init.py:init():688] backend started and connected
+2024-10-31 00:08:39,239 INFO    MainThread:477298 [wandb_init.py:init():783] updated telemetry
+2024-10-31 00:08:39,268 INFO    MainThread:477298 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 00:08:39,506 INFO    MainThread:477298 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 00:08:39,612 INFO    MainThread:477298 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 00:08:39,612 INFO    MainThread:477298 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 00:08:39,612 INFO    MainThread:477298 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 00:08:39,612 INFO    MainThread:477298 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 00:08:39,613 INFO    MainThread:477298 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 00:08:39,614 INFO    MainThread:477298 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 1e-05}
diff --git a/wandb/run-20241031_000839-cu7972v5/run-cu7972v5.wandb b/wandb/run-20241031_000839-cu7972v5/run-cu7972v5.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..0903350354c4561a673bc320d52abad0cc7b8d80
Binary files /dev/null and b/wandb/run-20241031_000839-cu7972v5/run-cu7972v5.wandb differ
diff --git a/wandb/run-20241031_001055-32u9qnul/logs/debug-internal.log b/wandb/run-20241031_001055-32u9qnul/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..7d5ec623c0105879a8c1dd7ff936eef82f05ebd6
--- /dev/null
+++ b/wandb/run-20241031_001055-32u9qnul/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-31T00:10:55.97661836-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T00:10:55.97666224-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_001055-32u9qnul/logs/debug-core.log"}
+{"time":"2024-10-31T00:10:56.085295995-04:00","level":"INFO","msg":"created new stream","id":"32u9qnul"}
+{"time":"2024-10-31T00:10:56.085346146-04:00","level":"INFO","msg":"stream: started","id":"32u9qnul"}
+{"time":"2024-10-31T00:10:56.085429147-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"32u9qnul"}}
+{"time":"2024-10-31T00:10:56.085619888-04:00","level":"INFO","msg":"sender: started","stream_id":"32u9qnul"}
+{"time":"2024-10-31T00:10:56.085632288-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"32u9qnul"}}
+{"time":"2024-10-31T00:10:56.308225083-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_001055-32u9qnul/logs/debug.log b/wandb/run-20241031_001055-32u9qnul/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d88c2c107d622e77474f32ed102df5677ff3e15d
--- /dev/null
+++ b/wandb/run-20241031_001055-32u9qnul/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-31 00:10:55,970 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 00:10:55,970 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Configure stats pid to 479383
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_001055-32u9qnul/logs/debug.log
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_001055-32u9qnul/logs/debug-internal.log
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_init.py:init():621] calling init triggers
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_init.py:init():671] starting backend
+2024-10-31 00:10:55,971 INFO    MainThread:479383 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 00:10:55,972 INFO    MainThread:479383 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 00:10:55,973 INFO    MainThread:479383 [wandb_init.py:init():688] backend started and connected
+2024-10-31 00:10:55,976 INFO    MainThread:479383 [wandb_init.py:init():783] updated telemetry
+2024-10-31 00:10:56,016 INFO    MainThread:479383 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 00:10:56,304 INFO    MainThread:479383 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 00:10:56,408 INFO    MainThread:479383 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 00:10:56,408 INFO    MainThread:479383 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 00:10:56,409 INFO    MainThread:479383 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 00:10:56,409 INFO    MainThread:479383 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 00:10:56,410 INFO    MainThread:479383 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 00:10:56,410 INFO    MainThread:479383 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 1e-05}
diff --git a/wandb/run-20241031_002020-u516mysu/files/output.log b/wandb/run-20241031_002020-u516mysu/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..6e7cdf5184c21b9fc5dea6d562a849559af3ed9b
--- /dev/null
+++ b/wandb/run-20241031_002020-u516mysu/files/output.log
@@ -0,0 +1,3234 @@
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:33<00:00, 76.65s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.84s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 00:23:02,494] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 00:23:12,347] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-10-31 00:23:12,348] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.354977130889893 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                       
+{'loss': 2.7565, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.0}
+{'loss': 2.8049, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.0}
+{'loss': 2.7883, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7843, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7828, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7493, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7948, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7614, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.02}
+{'loss': 2.7626, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.02}
+{'loss': 2.7527, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.02}
+                                                                                                                                                                                       
+{'eval_loss': 2.819758176803589, 'eval_runtime': 12.732, 'eval_samples_per_second': 47.125, 'eval_steps_per_second': 1.021, 'epoch': 0.02}
+{'loss': 2.7977, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.02}
+{'loss': 2.7658, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.02}
+{'loss': 2.7787, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.03}
+{'loss': 2.7744, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.03}
+{'loss': 2.7916, 'grad_norm': 6.1797637939453125, 'learning_rate': 9.996577686516086e-06, 'epoch': 0.03}
+{'loss': 2.9056, 'grad_norm': 6.1797637939453125, 'learning_rate': 9.996577686516086e-06, 'epoch': 0.03}
+{'loss': 2.8788, 'grad_norm': 6.1797637939453125, 'learning_rate': 9.996577686516086e-06, 'epoch': 0.03}
+{'loss': 2.846, 'grad_norm': 8.62702751159668, 'learning_rate': 9.993155373032171e-06, 'epoch': 0.04}
+{'loss': 2.8139, 'grad_norm': 8.62702751159668, 'learning_rate': 9.993155373032171e-06, 'epoch': 0.04}
+{'loss': 2.8291, 'grad_norm': 13.071187973022461, 'learning_rate': 9.989733059548255e-06, 'epoch': 0.04}
+{'eval_loss': 2.6784892082214355, 'eval_runtime': 11.5129, 'eval_samples_per_second': 52.115, 'eval_steps_per_second': 1.129, 'epoch': 0.04}
+{'loss': 2.5838, 'grad_norm': 4.9502973556518555, 'learning_rate': 9.98631074606434e-06, 'epoch': 0.04}
+{'loss': 2.5536, 'grad_norm': 5.078000068664551, 'learning_rate': 9.982888432580425e-06, 'epoch': 0.05}
+{'loss': 2.5032, 'grad_norm': 4.00687837600708, 'learning_rate': 9.97946611909651e-06, 'epoch': 0.05}
+{'loss': 2.4646, 'grad_norm': 2.1005747318267822, 'learning_rate': 9.976043805612596e-06, 'epoch': 0.05}
+{'loss': 2.4043, 'grad_norm': 3.219055414199829, 'learning_rate': 9.972621492128681e-06, 'epoch': 0.05}
+{'loss': 2.3942, 'grad_norm': 2.56182861328125, 'learning_rate': 9.969199178644764e-06, 'epoch': 0.05}
+{'loss': 2.3439, 'grad_norm': 2.1377060413360596, 'learning_rate': 9.96577686516085e-06, 'epoch': 0.06}
+{'loss': 2.3072, 'grad_norm': 1.9808000326156616, 'learning_rate': 9.962354551676935e-06, 'epoch': 0.06}
+{'loss': 2.2741, 'grad_norm': 2.109482526779175, 'learning_rate': 9.95893223819302e-06, 'epoch': 0.06}
+{'loss': 2.2898, 'grad_norm': 2.011914014816284, 'learning_rate': 9.955509924709105e-06, 'epoch': 0.06}
+{'eval_loss': 2.406985282897949, 'eval_runtime': 11.5252, 'eval_samples_per_second': 52.06, 'eval_steps_per_second': 1.128, 'epoch': 0.06}
+{'loss': 2.2403, 'grad_norm': 1.9126638174057007, 'learning_rate': 9.952087611225189e-06, 'epoch': 0.06}
+{'loss': 2.2729, 'grad_norm': 1.525390625, 'learning_rate': 9.948665297741274e-06, 'epoch': 0.07}
+{'loss': 2.1765, 'grad_norm': 1.936896562576294, 'learning_rate': 9.945242984257358e-06, 'epoch': 0.07}
+{'loss': 2.2047, 'grad_norm': 1.4145543575286865, 'learning_rate': 9.941820670773443e-06, 'epoch': 0.07}
+{'loss': 2.2306, 'grad_norm': 1.926740050315857, 'learning_rate': 9.938398357289528e-06, 'epoch': 0.07}
+{'loss': 2.1525, 'grad_norm': 1.5743354558944702, 'learning_rate': 9.934976043805613e-06, 'epoch': 0.07}
+{'loss': 2.1714, 'grad_norm': 1.6154619455337524, 'learning_rate': 9.931553730321698e-06, 'epoch': 0.08}
+{'loss': 2.1464, 'grad_norm': 1.479170560836792, 'learning_rate': 9.928131416837784e-06, 'epoch': 0.08}
+{'loss': 2.1614, 'grad_norm': 1.7521082162857056, 'learning_rate': 9.924709103353867e-06, 'epoch': 0.08}
+{'loss': 2.1165, 'grad_norm': 1.2604440450668335, 'learning_rate': 9.921286789869952e-06, 'epoch': 0.08}
+{'eval_loss': 2.283534288406372, 'eval_runtime': 11.5464, 'eval_samples_per_second': 51.964, 'eval_steps_per_second': 1.126, 'epoch': 0.08}
+{'loss': 2.1063, 'grad_norm': 1.760428547859192, 'learning_rate': 9.917864476386038e-06, 'epoch': 0.08}
+{'loss': 2.1081, 'grad_norm': 1.3595600128173828, 'learning_rate': 9.914442162902123e-06, 'epoch': 0.09}
+{'loss': 2.0945, 'grad_norm': 1.596917748451233, 'learning_rate': 9.911019849418208e-06, 'epoch': 0.09}
+{'loss': 2.0686, 'grad_norm': 1.5434746742248535, 'learning_rate': 9.907597535934292e-06, 'epoch': 0.09}
+{'loss': 2.0551, 'grad_norm': 1.598423957824707, 'learning_rate': 9.904175222450377e-06, 'epoch': 0.09}
+{'loss': 2.0591, 'grad_norm': 1.463916301727295, 'learning_rate': 9.900752908966462e-06, 'epoch': 0.09}
+{'loss': 2.0511, 'grad_norm': 1.537718415260315, 'learning_rate': 9.897330595482547e-06, 'epoch': 0.1}
+{'loss': 2.0383, 'grad_norm': 1.3747578859329224, 'learning_rate': 9.893908281998632e-06, 'epoch': 0.1}
+{'loss': 2.0041, 'grad_norm': 1.7563447952270508, 'learning_rate': 9.890485968514718e-06, 'epoch': 0.1}
+{'loss': 1.9816, 'grad_norm': 1.3160673379898071, 'learning_rate': 9.887063655030801e-06, 'epoch': 0.1}
+{'eval_loss': 2.191260576248169, 'eval_runtime': 11.5736, 'eval_samples_per_second': 51.842, 'eval_steps_per_second': 1.123, 'epoch': 0.1}
+{'loss': 1.9923, 'grad_norm': 1.487395167350769, 'learning_rate': 9.883641341546886e-06, 'epoch': 0.1}
+{'loss': 1.9466, 'grad_norm': 1.5179674625396729, 'learning_rate': 9.880219028062972e-06, 'epoch': 0.11}
+{'loss': 2.016, 'grad_norm': 1.9810514450073242, 'learning_rate': 9.876796714579057e-06, 'epoch': 0.11}
+{'loss': 2.0085, 'grad_norm': 1.412829041481018, 'learning_rate': 9.873374401095142e-06, 'epoch': 0.11}
+{'loss': 1.906, 'grad_norm': 1.9325978755950928, 'learning_rate': 9.869952087611226e-06, 'epoch': 0.11}
+{'loss': 1.9184, 'grad_norm': 2.2793362140655518, 'learning_rate': 9.866529774127311e-06, 'epoch': 0.11}
+{'loss': 1.9301, 'grad_norm': 1.8720020055770874, 'learning_rate': 9.863107460643394e-06, 'epoch': 0.12}
+{'loss': 1.9344, 'grad_norm': 1.7990520000457764, 'learning_rate': 9.85968514715948e-06, 'epoch': 0.12}
+{'loss': 1.9399, 'grad_norm': 1.5782197713851929, 'learning_rate': 9.856262833675565e-06, 'epoch': 0.12}
+{'loss': 1.979, 'grad_norm': 1.805352807044983, 'learning_rate': 9.85284052019165e-06, 'epoch': 0.12}
+{'eval_loss': 2.1375184059143066, 'eval_runtime': 11.5623, 'eval_samples_per_second': 51.893, 'eval_steps_per_second': 1.124, 'epoch': 0.12}
+{'loss': 1.9293, 'grad_norm': 1.588333249092102, 'learning_rate': 9.849418206707735e-06, 'epoch': 0.13}
+{'loss': 1.8848, 'grad_norm': 1.6649425029754639, 'learning_rate': 9.84599589322382e-06, 'epoch': 0.13}
+{'loss': 1.8881, 'grad_norm': 1.4570835828781128, 'learning_rate': 9.842573579739904e-06, 'epoch': 0.13}
+{'loss': 1.868, 'grad_norm': 1.4331777095794678, 'learning_rate': 9.83915126625599e-06, 'epoch': 0.13}
+{'loss': 1.9344, 'grad_norm': 1.4526387453079224, 'learning_rate': 9.835728952772074e-06, 'epoch': 0.13}
+{'loss': 1.8928, 'grad_norm': 1.4616210460662842, 'learning_rate': 9.83230663928816e-06, 'epoch': 0.14}
+{'loss': 1.8694, 'grad_norm': 1.3716508150100708, 'learning_rate': 9.828884325804245e-06, 'epoch': 0.14}
+{'loss': 1.8935, 'grad_norm': 1.6844018697738647, 'learning_rate': 9.825462012320328e-06, 'epoch': 0.14}
+{'loss': 1.8554, 'grad_norm': 1.7120686769485474, 'learning_rate': 9.822039698836414e-06, 'epoch': 0.14}
+{'loss': 1.8473, 'grad_norm': 1.5361689329147339, 'learning_rate': 9.818617385352499e-06, 'epoch': 0.14}
+{'eval_loss': 2.091588020324707, 'eval_runtime': 11.5484, 'eval_samples_per_second': 51.955, 'eval_steps_per_second': 1.126, 'epoch': 0.14}
+{'loss': 1.8404, 'grad_norm': 1.4621905088424683, 'learning_rate': 9.815195071868584e-06, 'epoch': 0.15}
+{'loss': 1.8937, 'grad_norm': 1.5154014825820923, 'learning_rate': 9.81177275838467e-06, 'epoch': 0.15}
+{'loss': 1.8149, 'grad_norm': 1.5281707048416138, 'learning_rate': 9.808350444900755e-06, 'epoch': 0.15}
+{'loss': 1.8417, 'grad_norm': 1.601805329322815, 'learning_rate': 9.804928131416838e-06, 'epoch': 0.15}
+{'loss': 1.892, 'grad_norm': 1.6145535707473755, 'learning_rate': 9.801505817932923e-06, 'epoch': 0.15}
+{'loss': 1.7885, 'grad_norm': 1.6231586933135986, 'learning_rate': 9.798083504449008e-06, 'epoch': 0.16}
+{'loss': 1.8566, 'grad_norm': 1.5678925514221191, 'learning_rate': 9.794661190965094e-06, 'epoch': 0.16}
+{'loss': 1.7805, 'grad_norm': 1.5488324165344238, 'learning_rate': 9.791238877481179e-06, 'epoch': 0.16}
+{'loss': 1.837, 'grad_norm': 1.6501226425170898, 'learning_rate': 9.787816563997264e-06, 'epoch': 0.16}
+{'loss': 1.8269, 'grad_norm': 1.4611889123916626, 'learning_rate': 9.784394250513348e-06, 'epoch': 0.16}
+{'eval_loss': 2.0485873222351074, 'eval_runtime': 11.573, 'eval_samples_per_second': 51.845, 'eval_steps_per_second': 1.123, 'epoch': 0.16}
+{'loss': 1.8109, 'grad_norm': 1.7701787948608398, 'learning_rate': 9.780971937029433e-06, 'epoch': 0.17}
+{'loss': 1.7938, 'grad_norm': 1.5409489870071411, 'learning_rate': 9.777549623545518e-06, 'epoch': 0.17}
+{'loss': 1.8376, 'grad_norm': 1.6740890741348267, 'learning_rate': 9.774127310061603e-06, 'epoch': 0.17}
+{'loss': 1.7915, 'grad_norm': 1.6790544986724854, 'learning_rate': 9.770704996577687e-06, 'epoch': 0.17}
+{'loss': 1.8485, 'grad_norm': 1.6788363456726074, 'learning_rate': 9.767282683093772e-06, 'epoch': 0.17}
+{'loss': 1.7744, 'grad_norm': 1.7361646890640259, 'learning_rate': 9.763860369609857e-06, 'epoch': 0.18}
+{'loss': 1.7421, 'grad_norm': 1.731917381286621, 'learning_rate': 9.76043805612594e-06, 'epoch': 0.18}
+{'loss': 1.8365, 'grad_norm': 1.9362797737121582, 'learning_rate': 9.757015742642026e-06, 'epoch': 0.18}
+{'loss': 1.776, 'grad_norm': 1.5285993814468384, 'learning_rate': 9.753593429158111e-06, 'epoch': 0.18}
+{'loss': 1.7818, 'grad_norm': 1.8190257549285889, 'learning_rate': 9.750171115674196e-06, 'epoch': 0.18}
+{'eval_loss': 2.0257537364959717, 'eval_runtime': 11.5712, 'eval_samples_per_second': 51.853, 'eval_steps_per_second': 1.123, 'epoch': 0.18}
+{'loss': 1.8259, 'grad_norm': 1.6703358888626099, 'learning_rate': 9.746748802190282e-06, 'epoch': 0.19}
+{'loss': 1.7608, 'grad_norm': 1.725071668624878, 'learning_rate': 9.743326488706367e-06, 'epoch': 0.19}
+{'loss': 1.7272, 'grad_norm': 2.2880349159240723, 'learning_rate': 9.73990417522245e-06, 'epoch': 0.19}
+{'loss': 1.766, 'grad_norm': 2.3657495975494385, 'learning_rate': 9.736481861738536e-06, 'epoch': 0.19}
+{'loss': 1.7482, 'grad_norm': 2.039174795150757, 'learning_rate': 9.733059548254621e-06, 'epoch': 0.2}
+{'loss': 1.775, 'grad_norm': 2.4551377296447754, 'learning_rate': 9.729637234770706e-06, 'epoch': 0.2}
+{'loss': 1.7511, 'grad_norm': 1.9539812803268433, 'learning_rate': 9.726214921286791e-06, 'epoch': 0.2}
+{'loss': 1.7289, 'grad_norm': 1.8554261922836304, 'learning_rate': 9.722792607802875e-06, 'epoch': 0.2}
+{'loss': 1.7118, 'grad_norm': 1.7257161140441895, 'learning_rate': 9.71937029431896e-06, 'epoch': 0.2}
+{'loss': 1.7746, 'grad_norm': 1.8136224746704102, 'learning_rate': 9.715947980835045e-06, 'epoch': 0.21}
+{'eval_loss': 2.01245379447937, 'eval_runtime': 11.5794, 'eval_samples_per_second': 51.816, 'eval_steps_per_second': 1.123, 'epoch': 0.21}
+{'loss': 1.7013, 'grad_norm': 1.5336761474609375, 'learning_rate': 9.71252566735113e-06, 'epoch': 0.21}
+{'loss': 1.6697, 'grad_norm': 1.5770657062530518, 'learning_rate': 9.709103353867216e-06, 'epoch': 0.21}
+{'loss': 1.6888, 'grad_norm': 1.8232876062393188, 'learning_rate': 9.705681040383301e-06, 'epoch': 0.21}
+{'loss': 1.6859, 'grad_norm': 1.6440538167953491, 'learning_rate': 9.702258726899384e-06, 'epoch': 0.21}
+{'loss': 1.7107, 'grad_norm': 1.6845941543579102, 'learning_rate': 9.69883641341547e-06, 'epoch': 0.22}
+{'loss': 1.7725, 'grad_norm': 1.523012638092041, 'learning_rate': 9.695414099931555e-06, 'epoch': 0.22}
+{'loss': 1.752, 'grad_norm': 1.759718894958496, 'learning_rate': 9.69199178644764e-06, 'epoch': 0.22}
+{'loss': 1.6974, 'grad_norm': 1.6653850078582764, 'learning_rate': 9.688569472963725e-06, 'epoch': 0.22}
+{'loss': 1.7127, 'grad_norm': 1.6187405586242676, 'learning_rate': 9.685147159479809e-06, 'epoch': 0.22}
+{'loss': 1.721, 'grad_norm': 1.6530336141586304, 'learning_rate': 9.681724845995894e-06, 'epoch': 0.23}
+{'eval_loss': 1.9625529050827026, 'eval_runtime': 11.585, 'eval_samples_per_second': 51.791, 'eval_steps_per_second': 1.122, 'epoch': 0.23}
+{'loss': 1.703, 'grad_norm': 1.5784275531768799, 'learning_rate': 9.678302532511978e-06, 'epoch': 0.23}
+{'loss': 1.7383, 'grad_norm': 1.7383252382278442, 'learning_rate': 9.674880219028063e-06, 'epoch': 0.23}
+{'loss': 1.7129, 'grad_norm': 1.653887391090393, 'learning_rate': 9.671457905544148e-06, 'epoch': 0.23}
+{'loss': 1.7221, 'grad_norm': 1.593307614326477, 'learning_rate': 9.668035592060233e-06, 'epoch': 0.23}
+{'loss': 1.7149, 'grad_norm': 1.5951002836227417, 'learning_rate': 9.664613278576319e-06, 'epoch': 0.24}
+{'loss': 1.6878, 'grad_norm': 1.6146341562271118, 'learning_rate': 9.661190965092404e-06, 'epoch': 0.24}
+{'loss': 1.7273, 'grad_norm': 1.6133919954299927, 'learning_rate': 9.657768651608487e-06, 'epoch': 0.24}
+{'loss': 1.732, 'grad_norm': 1.5665290355682373, 'learning_rate': 9.654346338124573e-06, 'epoch': 0.24}
+{'loss': 1.6852, 'grad_norm': 1.5974215269088745, 'learning_rate': 9.650924024640658e-06, 'epoch': 0.24}
+{'loss': 1.7124, 'grad_norm': 1.6961357593536377, 'learning_rate': 9.647501711156743e-06, 'epoch': 0.25}
+{'eval_loss': 1.9605649709701538, 'eval_runtime': 11.5528, 'eval_samples_per_second': 51.935, 'eval_steps_per_second': 1.125, 'epoch': 0.25}
+{'loss': 1.7093, 'grad_norm': 1.8582565784454346, 'learning_rate': 9.644079397672828e-06, 'epoch': 0.25}
+{'loss': 1.672, 'grad_norm': 1.8211114406585693, 'learning_rate': 9.640657084188912e-06, 'epoch': 0.25}
+{'loss': 1.6487, 'grad_norm': 1.8057682514190674, 'learning_rate': 9.637234770704997e-06, 'epoch': 0.25}
+{'loss': 1.6912, 'grad_norm': 1.789255142211914, 'learning_rate': 9.633812457221082e-06, 'epoch': 0.25}
+{'loss': 1.7049, 'grad_norm': 1.7063173055648804, 'learning_rate': 9.630390143737167e-06, 'epoch': 0.26}
+{'loss': 1.6917, 'grad_norm': 1.7666181325912476, 'learning_rate': 9.626967830253253e-06, 'epoch': 0.26}
+{'loss': 1.6926, 'grad_norm': 1.6027381420135498, 'learning_rate': 9.623545516769338e-06, 'epoch': 0.26}
+{'loss': 1.6971, 'grad_norm': 1.7890328168869019, 'learning_rate': 9.620123203285421e-06, 'epoch': 0.26}
+{'loss': 1.7115, 'grad_norm': 1.7839510440826416, 'learning_rate': 9.616700889801507e-06, 'epoch': 0.26}
+{'loss': 1.6987, 'grad_norm': 1.8918147087097168, 'learning_rate': 9.613278576317592e-06, 'epoch': 0.27}
+{'eval_loss': 1.9412747621536255, 'eval_runtime': 11.5882, 'eval_samples_per_second': 51.777, 'eval_steps_per_second': 1.122, 'epoch': 0.27}
+{'loss': 1.6662, 'grad_norm': 1.7631324529647827, 'learning_rate': 9.609856262833677e-06, 'epoch': 0.27}
+{'loss': 1.6675, 'grad_norm': 2.174980640411377, 'learning_rate': 9.606433949349762e-06, 'epoch': 0.27}
+{'loss': 1.6988, 'grad_norm': 1.7615394592285156, 'learning_rate': 9.603011635865846e-06, 'epoch': 0.27}
+{'loss': 1.6769, 'grad_norm': 2.0186052322387695, 'learning_rate': 9.599589322381931e-06, 'epoch': 0.28}
+{'loss': 1.6736, 'grad_norm': 1.776448130607605, 'learning_rate': 9.596167008898016e-06, 'epoch': 0.28}
+{'loss': 1.6914, 'grad_norm': 1.8620680570602417, 'learning_rate': 9.592744695414101e-06, 'epoch': 0.28}
+{'loss': 1.6665, 'grad_norm': 1.8049830198287964, 'learning_rate': 9.589322381930185e-06, 'epoch': 0.28}
+{'loss': 1.644, 'grad_norm': 1.7983930110931396, 'learning_rate': 9.58590006844627e-06, 'epoch': 0.28}
+{'loss': 1.6839, 'grad_norm': 1.8264933824539185, 'learning_rate': 9.582477754962355e-06, 'epoch': 0.29}
+{'loss': 1.6259, 'grad_norm': 1.7106965780258179, 'learning_rate': 9.57905544147844e-06, 'epoch': 0.29}
+{'eval_loss': 1.9413529634475708, 'eval_runtime': 11.5493, 'eval_samples_per_second': 51.951, 'eval_steps_per_second': 1.126, 'epoch': 0.29}
+{'loss': 1.6961, 'grad_norm': 1.8042426109313965, 'learning_rate': 9.575633127994524e-06, 'epoch': 0.29}
+{'loss': 1.6634, 'grad_norm': 1.8907548189163208, 'learning_rate': 9.57221081451061e-06, 'epoch': 0.29}
+{'loss': 1.6631, 'grad_norm': 1.6419144868850708, 'learning_rate': 9.568788501026695e-06, 'epoch': 0.29}
+{'loss': 1.6623, 'grad_norm': 1.8232085704803467, 'learning_rate': 9.56536618754278e-06, 'epoch': 0.3}
+{'loss': 1.678, 'grad_norm': 1.6701021194458008, 'learning_rate': 9.561943874058865e-06, 'epoch': 0.3}
+{'loss': 1.6691, 'grad_norm': 1.820931077003479, 'learning_rate': 9.558521560574949e-06, 'epoch': 0.3}
+{'loss': 1.6473, 'grad_norm': 1.7637439966201782, 'learning_rate': 9.555099247091034e-06, 'epoch': 0.3}
+{'loss': 1.6475, 'grad_norm': 1.609520673751831, 'learning_rate': 9.551676933607119e-06, 'epoch': 0.3}
+{'loss': 1.609, 'grad_norm': 1.8782225847244263, 'learning_rate': 9.548254620123204e-06, 'epoch': 0.31}
+{'loss': 1.6327, 'grad_norm': 1.820251703262329, 'learning_rate': 9.54483230663929e-06, 'epoch': 0.31}
+{'eval_loss': 1.939896821975708, 'eval_runtime': 11.5842, 'eval_samples_per_second': 51.795, 'eval_steps_per_second': 1.122, 'epoch': 0.31}
+{'loss': 1.6665, 'grad_norm': 1.7478770017623901, 'learning_rate': 9.541409993155375e-06, 'epoch': 0.31}
+{'loss': 1.6726, 'grad_norm': 1.8661694526672363, 'learning_rate': 9.537987679671458e-06, 'epoch': 0.31}
+{'loss': 1.6646, 'grad_norm': 1.7390989065170288, 'learning_rate': 9.534565366187543e-06, 'epoch': 0.31}
+{'loss': 1.6111, 'grad_norm': 1.767043113708496, 'learning_rate': 9.531143052703629e-06, 'epoch': 0.32}
+{'loss': 1.6342, 'grad_norm': 1.7182201147079468, 'learning_rate': 9.527720739219714e-06, 'epoch': 0.32}
+{'loss': 1.5974, 'grad_norm': 1.7105516195297241, 'learning_rate': 9.524298425735799e-06, 'epoch': 0.32}
+{'loss': 1.6459, 'grad_norm': 1.7584987878799438, 'learning_rate': 9.520876112251883e-06, 'epoch': 0.32}
+{'loss': 1.6425, 'grad_norm': 1.8428544998168945, 'learning_rate': 9.517453798767968e-06, 'epoch': 0.32}
+{'loss': 1.6074, 'grad_norm': 1.7310329675674438, 'learning_rate': 9.514031485284053e-06, 'epoch': 0.33}
+{'loss': 1.6133, 'grad_norm': 1.67432701587677, 'learning_rate': 9.510609171800138e-06, 'epoch': 0.33}
+{'eval_loss': 1.918768286705017, 'eval_runtime': 11.5328, 'eval_samples_per_second': 52.026, 'eval_steps_per_second': 1.127, 'epoch': 0.33}
+{'loss': 1.6043, 'grad_norm': 1.6956934928894043, 'learning_rate': 9.507186858316223e-06, 'epoch': 0.33}
+{'loss': 1.5991, 'grad_norm': 1.832574725151062, 'learning_rate': 9.503764544832309e-06, 'epoch': 0.33}
+{'loss': 1.614, 'grad_norm': 1.6831045150756836, 'learning_rate': 9.500342231348392e-06, 'epoch': 0.33}
+{'loss': 1.6227, 'grad_norm': 1.839271903038025, 'learning_rate': 9.496919917864477e-06, 'epoch': 0.34}
+{'loss': 1.6492, 'grad_norm': 1.6821115016937256, 'learning_rate': 9.493497604380561e-06, 'epoch': 0.34}
+{'loss': 1.5908, 'grad_norm': 1.7684911489486694, 'learning_rate': 9.490075290896646e-06, 'epoch': 0.34}
+{'loss': 1.62, 'grad_norm': 1.683332085609436, 'learning_rate': 9.486652977412731e-06, 'epoch': 0.34}
+{'loss': 1.6254, 'grad_norm': 1.6608937978744507, 'learning_rate': 9.483230663928817e-06, 'epoch': 0.34}
+{'loss': 1.6333, 'grad_norm': 1.7810754776000977, 'learning_rate': 9.479808350444902e-06, 'epoch': 0.35}
+{'loss': 1.5839, 'grad_norm': 1.7798162698745728, 'learning_rate': 9.476386036960985e-06, 'epoch': 0.35}
+{'eval_loss': 1.8970288038253784, 'eval_runtime': 11.5416, 'eval_samples_per_second': 51.986, 'eval_steps_per_second': 1.126, 'epoch': 0.35}
+{'loss': 1.619, 'grad_norm': 1.6418513059616089, 'learning_rate': 9.47296372347707e-06, 'epoch': 0.35}
+{'loss': 1.5583, 'grad_norm': 1.6729376316070557, 'learning_rate': 9.469541409993156e-06, 'epoch': 0.35}
+{'loss': 1.6035, 'grad_norm': 1.701267123222351, 'learning_rate': 9.466119096509241e-06, 'epoch': 0.36}
+{'loss': 1.5891, 'grad_norm': 1.722766637802124, 'learning_rate': 9.462696783025326e-06, 'epoch': 0.36}
+{'loss': 1.6523, 'grad_norm': 1.8225903511047363, 'learning_rate': 9.459274469541411e-06, 'epoch': 0.36}
+{'loss': 1.6544, 'grad_norm': 1.6152238845825195, 'learning_rate': 9.455852156057495e-06, 'epoch': 0.36}
+{'loss': 1.5761, 'grad_norm': 1.6428568363189697, 'learning_rate': 9.45242984257358e-06, 'epoch': 0.36}
+{'loss': 1.688, 'grad_norm': 1.7993196249008179, 'learning_rate': 9.449007529089665e-06, 'epoch': 0.37}
+{'loss': 1.6072, 'grad_norm': 1.7976257801055908, 'learning_rate': 9.44558521560575e-06, 'epoch': 0.37}
+{'loss': 1.5698, 'grad_norm': 1.6772748231887817, 'learning_rate': 9.442162902121836e-06, 'epoch': 0.37}
+{'eval_loss': 1.88463294506073, 'eval_runtime': 11.5483, 'eval_samples_per_second': 51.956, 'eval_steps_per_second': 1.126, 'epoch': 0.37}
+{'loss': 1.5894, 'grad_norm': 1.7901654243469238, 'learning_rate': 9.43874058863792e-06, 'epoch': 0.37}
+{'loss': 1.5828, 'grad_norm': 1.8329728841781616, 'learning_rate': 9.435318275154005e-06, 'epoch': 0.37}
+{'loss': 1.607, 'grad_norm': 1.6057639122009277, 'learning_rate': 9.43189596167009e-06, 'epoch': 0.38}
+{'loss': 1.5831, 'grad_norm': 1.799017310142517, 'learning_rate': 9.428473648186175e-06, 'epoch': 0.38}
+{'loss': 1.6377, 'grad_norm': 1.7381985187530518, 'learning_rate': 9.42505133470226e-06, 'epoch': 0.38}
+{'loss': 1.6224, 'grad_norm': 1.7031272649765015, 'learning_rate': 9.421629021218345e-06, 'epoch': 0.38}
+{'loss': 1.6227, 'grad_norm': 1.9160518646240234, 'learning_rate': 9.418206707734429e-06, 'epoch': 0.38}
+{'loss': 1.5905, 'grad_norm': 1.7246360778808594, 'learning_rate': 9.414784394250514e-06, 'epoch': 0.39}
+{'loss': 1.5517, 'grad_norm': 1.6524842977523804, 'learning_rate': 9.4113620807666e-06, 'epoch': 0.39}
+{'loss': 1.6155, 'grad_norm': 1.8180969953536987, 'learning_rate': 9.407939767282683e-06, 'epoch': 0.39}
+{'eval_loss': 1.8801257610321045, 'eval_runtime': 11.6046, 'eval_samples_per_second': 51.704, 'eval_steps_per_second': 1.12, 'epoch': 0.39}
+{'loss': 1.5915, 'grad_norm': 1.8033382892608643, 'learning_rate': 9.404517453798768e-06, 'epoch': 0.39}
+{'loss': 1.6319, 'grad_norm': 1.8536357879638672, 'learning_rate': 9.401095140314853e-06, 'epoch': 0.39}
+{'loss': 1.6077, 'grad_norm': 1.9057669639587402, 'learning_rate': 9.397672826830939e-06, 'epoch': 0.4}
+{'loss': 1.5516, 'grad_norm': 1.5880014896392822, 'learning_rate': 9.394250513347022e-06, 'epoch': 0.4}
+{'loss': 1.5942, 'grad_norm': 1.9142062664031982, 'learning_rate': 9.390828199863107e-06, 'epoch': 0.4}
+{'loss': 1.6021, 'grad_norm': 1.6889700889587402, 'learning_rate': 9.387405886379193e-06, 'epoch': 0.4}
+{'loss': 1.6023, 'grad_norm': 2.047112464904785, 'learning_rate': 9.383983572895278e-06, 'epoch': 0.4}
+{'loss': 1.5759, 'grad_norm': 1.5566980838775635, 'learning_rate': 9.380561259411363e-06, 'epoch': 0.41}
+{'loss': 1.5644, 'grad_norm': 1.7525815963745117, 'learning_rate': 9.377138945927448e-06, 'epoch': 0.41}
+{'loss': 1.5685, 'grad_norm': 1.7166110277175903, 'learning_rate': 9.373716632443532e-06, 'epoch': 0.41}
+{'eval_loss': 1.8875024318695068, 'eval_runtime': 11.5749, 'eval_samples_per_second': 51.836, 'eval_steps_per_second': 1.123, 'epoch': 0.41}
+{'loss': 1.5514, 'grad_norm': 1.6424671411514282, 'learning_rate': 9.370294318959617e-06, 'epoch': 0.41}
+{'loss': 1.6146, 'grad_norm': 1.7902309894561768, 'learning_rate': 9.366872005475702e-06, 'epoch': 0.41}
+{'loss': 1.5764, 'grad_norm': 1.6338855028152466, 'learning_rate': 9.363449691991787e-06, 'epoch': 0.42}
+{'loss': 1.5459, 'grad_norm': 1.6871780157089233, 'learning_rate': 9.360027378507873e-06, 'epoch': 0.42}
+{'loss': 1.6096, 'grad_norm': 1.780729055404663, 'learning_rate': 9.356605065023958e-06, 'epoch': 0.42}
+{'loss': 1.625, 'grad_norm': 1.7016595602035522, 'learning_rate': 9.353182751540041e-06, 'epoch': 0.42}
+{'loss': 1.5323, 'grad_norm': 1.6714407205581665, 'learning_rate': 9.349760438056127e-06, 'epoch': 0.43}
+{'loss': 1.5974, 'grad_norm': 1.816658854484558, 'learning_rate': 9.346338124572212e-06, 'epoch': 0.43}
+{'loss': 1.5683, 'grad_norm': 1.7243119478225708, 'learning_rate': 9.342915811088297e-06, 'epoch': 0.43}
+{'loss': 1.5248, 'grad_norm': 1.691476821899414, 'learning_rate': 9.339493497604382e-06, 'epoch': 0.43}
+{'eval_loss': 1.893720269203186, 'eval_runtime': 11.5849, 'eval_samples_per_second': 51.792, 'eval_steps_per_second': 1.122, 'epoch': 0.43}
+{'loss': 1.5688, 'grad_norm': 1.6350159645080566, 'learning_rate': 9.336071184120466e-06, 'epoch': 0.43}
+{'loss': 1.5668, 'grad_norm': 1.794501781463623, 'learning_rate': 9.332648870636551e-06, 'epoch': 0.44}
+{'loss': 1.5688, 'grad_norm': 1.6851969957351685, 'learning_rate': 9.329226557152636e-06, 'epoch': 0.44}
+{'loss': 1.5761, 'grad_norm': 1.7090944051742554, 'learning_rate': 9.325804243668721e-06, 'epoch': 0.44}
+{'loss': 1.6078, 'grad_norm': 1.803397536277771, 'learning_rate': 9.322381930184807e-06, 'epoch': 0.44}
+{'loss': 1.567, 'grad_norm': 1.6270612478256226, 'learning_rate': 9.318959616700892e-06, 'epoch': 0.44}
+{'loss': 1.5569, 'grad_norm': 1.762703537940979, 'learning_rate': 9.315537303216975e-06, 'epoch': 0.45}
+{'loss': 1.5354, 'grad_norm': 1.7567812204360962, 'learning_rate': 9.31211498973306e-06, 'epoch': 0.45}
+{'loss': 1.5935, 'grad_norm': 1.731166958808899, 'learning_rate': 9.308692676249144e-06, 'epoch': 0.45}
+{'loss': 1.5145, 'grad_norm': 1.7292795181274414, 'learning_rate': 9.30527036276523e-06, 'epoch': 0.45}
+{'eval_loss': 1.8716951608657837, 'eval_runtime': 11.5899, 'eval_samples_per_second': 51.769, 'eval_steps_per_second': 1.122, 'epoch': 0.45}
+{'loss': 1.5406, 'grad_norm': 1.6929880380630493, 'learning_rate': 9.301848049281315e-06, 'epoch': 0.45}
+{'loss': 1.5894, 'grad_norm': 1.801468014717102, 'learning_rate': 9.2984257357974e-06, 'epoch': 0.46}
+{'loss': 1.5251, 'grad_norm': 1.7182228565216064, 'learning_rate': 9.295003422313485e-06, 'epoch': 0.46}
+{'loss': 1.5547, 'grad_norm': 1.792073130607605, 'learning_rate': 9.291581108829569e-06, 'epoch': 0.46}
+{'loss': 1.5817, 'grad_norm': 1.5563468933105469, 'learning_rate': 9.288158795345654e-06, 'epoch': 0.46}
+{'loss': 1.5538, 'grad_norm': 1.6791597604751587, 'learning_rate': 9.284736481861739e-06, 'epoch': 0.46}
+{'loss': 1.5703, 'grad_norm': 1.762486457824707, 'learning_rate': 9.281314168377824e-06, 'epoch': 0.47}
+{'loss': 1.566, 'grad_norm': 1.7008455991744995, 'learning_rate': 9.27789185489391e-06, 'epoch': 0.47}
+{'loss': 1.5664, 'grad_norm': 1.6844075918197632, 'learning_rate': 9.274469541409995e-06, 'epoch': 0.47}
+{'loss': 1.5476, 'grad_norm': 1.652829885482788, 'learning_rate': 9.271047227926078e-06, 'epoch': 0.47}
+{'eval_loss': 1.8583422899246216, 'eval_runtime': 11.5716, 'eval_samples_per_second': 51.851, 'eval_steps_per_second': 1.123, 'epoch': 0.47}
+{'loss': 1.5475, 'grad_norm': 1.9497202634811401, 'learning_rate': 9.267624914442163e-06, 'epoch': 0.47}
+{'loss': 1.5523, 'grad_norm': 1.6864993572235107, 'learning_rate': 9.264202600958249e-06, 'epoch': 0.48}
+{'loss': 1.5983, 'grad_norm': 1.799957036972046, 'learning_rate': 9.260780287474334e-06, 'epoch': 0.48}
+{'loss': 1.5672, 'grad_norm': 1.7269524335861206, 'learning_rate': 9.257357973990419e-06, 'epoch': 0.48}
+{'loss': 1.566, 'grad_norm': 1.7982603311538696, 'learning_rate': 9.253935660506503e-06, 'epoch': 0.48}
+{'loss': 1.5149, 'grad_norm': 1.7147842645645142, 'learning_rate': 9.250513347022588e-06, 'epoch': 0.48}
+{'loss': 1.5331, 'grad_norm': 1.9059771299362183, 'learning_rate': 9.247091033538673e-06, 'epoch': 0.49}
+{'loss': 1.5533, 'grad_norm': 1.6421778202056885, 'learning_rate': 9.243668720054758e-06, 'epoch': 0.49}
+{'loss': 1.5812, 'grad_norm': 1.8115566968917847, 'learning_rate': 9.240246406570844e-06, 'epoch': 0.49}
+{'loss': 1.5368, 'grad_norm': 1.71414053440094, 'learning_rate': 9.236824093086929e-06, 'epoch': 0.49}
+{'eval_loss': 1.8450058698654175, 'eval_runtime': 11.5765, 'eval_samples_per_second': 51.829, 'eval_steps_per_second': 1.123, 'epoch': 0.49}
+{'loss': 1.5277, 'grad_norm': 1.7518280744552612, 'learning_rate': 9.233401779603012e-06, 'epoch': 0.49}
+{'loss': 1.5966, 'grad_norm': 1.9109586477279663, 'learning_rate': 9.229979466119097e-06, 'epoch': 0.5}
+{'loss': 1.5658, 'grad_norm': 1.8415930271148682, 'learning_rate': 9.226557152635181e-06, 'epoch': 0.5}
+{'loss': 1.5521, 'grad_norm': 1.698414921760559, 'learning_rate': 9.223134839151266e-06, 'epoch': 0.5}
+{'loss': 1.5366, 'grad_norm': 1.8144992589950562, 'learning_rate': 9.219712525667351e-06, 'epoch': 0.5}
+{'loss': 1.5728, 'grad_norm': 1.9011387825012207, 'learning_rate': 9.216290212183437e-06, 'epoch': 0.51}
+{'loss': 1.5008, 'grad_norm': 1.7267158031463623, 'learning_rate': 9.212867898699522e-06, 'epoch': 0.51}
+{'loss': 1.5585, 'grad_norm': 2.006924867630005, 'learning_rate': 9.209445585215605e-06, 'epoch': 0.51}
+{'loss': 1.5546, 'grad_norm': 1.962570309638977, 'learning_rate': 9.20602327173169e-06, 'epoch': 0.51}
+{'loss': 1.54, 'grad_norm': 1.660701870918274, 'learning_rate': 9.202600958247776e-06, 'epoch': 0.51}
+{'eval_loss': 1.8429481983184814, 'eval_runtime': 11.5599, 'eval_samples_per_second': 51.904, 'eval_steps_per_second': 1.125, 'epoch': 0.51}
+{'loss': 1.5686, 'grad_norm': 1.9210166931152344, 'learning_rate': 9.199178644763861e-06, 'epoch': 0.52}
+{'loss': 1.5598, 'grad_norm': 1.7330831289291382, 'learning_rate': 9.195756331279946e-06, 'epoch': 0.52}
+{'loss': 1.5008, 'grad_norm': 1.8676742315292358, 'learning_rate': 9.192334017796032e-06, 'epoch': 0.52}
+{'loss': 1.5632, 'grad_norm': 1.7756023406982422, 'learning_rate': 9.188911704312115e-06, 'epoch': 0.52}
+{'loss': 1.5219, 'grad_norm': 1.804625153541565, 'learning_rate': 9.1854893908282e-06, 'epoch': 0.52}
+{'loss': 1.5487, 'grad_norm': 1.7394250631332397, 'learning_rate': 9.182067077344285e-06, 'epoch': 0.53}
+{'loss': 1.5379, 'grad_norm': 1.8839040994644165, 'learning_rate': 9.17864476386037e-06, 'epoch': 0.53}
+{'loss': 1.5267, 'grad_norm': 1.672415018081665, 'learning_rate': 9.175222450376456e-06, 'epoch': 0.53}
+{'loss': 1.5756, 'grad_norm': 1.7170521020889282, 'learning_rate': 9.17180013689254e-06, 'epoch': 0.53}
+{'loss': 1.5473, 'grad_norm': 1.6717047691345215, 'learning_rate': 9.168377823408625e-06, 'epoch': 0.53}
+{'eval_loss': 1.8470137119293213, 'eval_runtime': 11.5845, 'eval_samples_per_second': 51.793, 'eval_steps_per_second': 1.122, 'epoch': 0.53}
+{'loss': 1.5607, 'grad_norm': 1.7385823726654053, 'learning_rate': 9.16495550992471e-06, 'epoch': 0.54}
+{'loss': 1.5313, 'grad_norm': 1.7316575050354004, 'learning_rate': 9.161533196440795e-06, 'epoch': 0.54}
+{'loss': 1.5285, 'grad_norm': 1.9083307981491089, 'learning_rate': 9.15811088295688e-06, 'epoch': 0.54}
+{'loss': 1.4816, 'grad_norm': 1.6674777269363403, 'learning_rate': 9.154688569472966e-06, 'epoch': 0.54}
+{'loss': 1.5611, 'grad_norm': 1.9523667097091675, 'learning_rate': 9.151266255989049e-06, 'epoch': 0.54}
+{'loss': 1.5728, 'grad_norm': 1.6543827056884766, 'learning_rate': 9.147843942505134e-06, 'epoch': 0.55}
+{'loss': 1.5291, 'grad_norm': 2.066275119781494, 'learning_rate': 9.14442162902122e-06, 'epoch': 0.55}
+{'loss': 1.5016, 'grad_norm': 1.7639758586883545, 'learning_rate': 9.140999315537305e-06, 'epoch': 0.55}
+{'loss': 1.542, 'grad_norm': 1.9110621213912964, 'learning_rate': 9.13757700205339e-06, 'epoch': 0.55}
+{'loss': 1.5717, 'grad_norm': 1.8173669576644897, 'learning_rate': 9.134154688569473e-06, 'epoch': 0.55}
+{'eval_loss': 1.8353887796401978, 'eval_runtime': 11.5671, 'eval_samples_per_second': 51.871, 'eval_steps_per_second': 1.124, 'epoch': 0.55}
+{'loss': 1.5058, 'grad_norm': 1.8978588581085205, 'learning_rate': 9.130732375085559e-06, 'epoch': 0.56}
+{'loss': 1.5334, 'grad_norm': 1.8830808401107788, 'learning_rate': 9.127310061601642e-06, 'epoch': 0.56}
+{'loss': 1.5207, 'grad_norm': 1.7604615688323975, 'learning_rate': 9.123887748117727e-06, 'epoch': 0.56}
+{'loss': 1.551, 'grad_norm': 1.8708471059799194, 'learning_rate': 9.120465434633813e-06, 'epoch': 0.56}
+{'loss': 1.5451, 'grad_norm': 1.716362714767456, 'learning_rate': 9.117043121149898e-06, 'epoch': 0.56}
+{'loss': 1.5553, 'grad_norm': 1.7345160245895386, 'learning_rate': 9.113620807665983e-06, 'epoch': 0.57}
+{'loss': 1.5216, 'grad_norm': 1.7571998834609985, 'learning_rate': 9.110198494182068e-06, 'epoch': 0.57}
+{'loss': 1.5245, 'grad_norm': 1.8035378456115723, 'learning_rate': 9.106776180698152e-06, 'epoch': 0.57}
+{'loss': 1.5348, 'grad_norm': 1.7451913356781006, 'learning_rate': 9.103353867214237e-06, 'epoch': 0.57}
+{'loss': 1.5683, 'grad_norm': 1.816619873046875, 'learning_rate': 9.099931553730322e-06, 'epoch': 0.57}
+{'eval_loss': 1.834743857383728, 'eval_runtime': 11.5723, 'eval_samples_per_second': 51.848, 'eval_steps_per_second': 1.123, 'epoch': 0.57}
+{'loss': 1.532, 'grad_norm': 1.755085825920105, 'learning_rate': 9.096509240246408e-06, 'epoch': 0.58}
+{'loss': 1.5879, 'grad_norm': 1.8292875289916992, 'learning_rate': 9.093086926762493e-06, 'epoch': 0.58}
+{'loss': 1.5333, 'grad_norm': 1.7203540802001953, 'learning_rate': 9.089664613278576e-06, 'epoch': 0.58}
+{'loss': 1.5182, 'grad_norm': 1.725608468055725, 'learning_rate': 9.086242299794661e-06, 'epoch': 0.58}
+{'loss': 1.5287, 'grad_norm': 1.6837189197540283, 'learning_rate': 9.082819986310747e-06, 'epoch': 0.59}
+{'loss': 1.5513, 'grad_norm': 1.8320406675338745, 'learning_rate': 9.079397672826832e-06, 'epoch': 0.59}
+{'loss': 1.5472, 'grad_norm': 1.8966392278671265, 'learning_rate': 9.075975359342917e-06, 'epoch': 0.59}
+{'loss': 1.5097, 'grad_norm': 1.9017637968063354, 'learning_rate': 9.072553045859002e-06, 'epoch': 0.59}
+{'loss': 1.5331, 'grad_norm': 1.6671714782714844, 'learning_rate': 9.069130732375086e-06, 'epoch': 0.59}
+{'loss': 1.4973, 'grad_norm': 1.7533379793167114, 'learning_rate': 9.065708418891171e-06, 'epoch': 0.6}
+{'eval_loss': 1.8327176570892334, 'eval_runtime': 11.6002, 'eval_samples_per_second': 51.723, 'eval_steps_per_second': 1.121, 'epoch': 0.6}
+{'loss': 1.5386, 'grad_norm': 1.9420655965805054, 'learning_rate': 9.062286105407256e-06, 'epoch': 0.6}
+{'loss': 1.5828, 'grad_norm': 1.7350447177886963, 'learning_rate': 9.058863791923342e-06, 'epoch': 0.6}
+{'loss': 1.493, 'grad_norm': 1.7154525518417358, 'learning_rate': 9.055441478439427e-06, 'epoch': 0.6}
+{'loss': 1.5168, 'grad_norm': 1.669682264328003, 'learning_rate': 9.05201916495551e-06, 'epoch': 0.6}
+{'loss': 1.553, 'grad_norm': 1.8696577548980713, 'learning_rate': 9.048596851471596e-06, 'epoch': 0.61}
+{'loss': 1.5029, 'grad_norm': 1.8358087539672852, 'learning_rate': 9.045174537987679e-06, 'epoch': 0.61}
+{'loss': 1.5862, 'grad_norm': 1.938984751701355, 'learning_rate': 9.041752224503764e-06, 'epoch': 0.61}
+{'loss': 1.5414, 'grad_norm': 1.8375924825668335, 'learning_rate': 9.03832991101985e-06, 'epoch': 0.61}
+{'loss': 1.5072, 'grad_norm': 1.8657094240188599, 'learning_rate': 9.034907597535935e-06, 'epoch': 0.61}
+{'loss': 1.5057, 'grad_norm': 1.968924641609192, 'learning_rate': 9.03148528405202e-06, 'epoch': 0.62}
+{'eval_loss': 1.8238133192062378, 'eval_runtime': 11.5733, 'eval_samples_per_second': 51.844, 'eval_steps_per_second': 1.123, 'epoch': 0.62}
+{'loss': 1.5107, 'grad_norm': 2.0159287452697754, 'learning_rate': 9.028062970568105e-06, 'epoch': 0.62}
+{'loss': 1.5331, 'grad_norm': 1.8624237775802612, 'learning_rate': 9.024640657084189e-06, 'epoch': 0.62}
+{'loss': 1.5278, 'grad_norm': 1.8260180950164795, 'learning_rate': 9.021218343600274e-06, 'epoch': 0.62}
+{'loss': 1.5178, 'grad_norm': 1.6833287477493286, 'learning_rate': 9.017796030116359e-06, 'epoch': 0.62}
+{'loss': 1.4894, 'grad_norm': 1.8705698251724243, 'learning_rate': 9.014373716632444e-06, 'epoch': 0.63}
+{'loss': 1.5, 'grad_norm': 1.8364710807800293, 'learning_rate': 9.01095140314853e-06, 'epoch': 0.63}
+{'loss': 1.5505, 'grad_norm': 1.7785528898239136, 'learning_rate': 9.007529089664613e-06, 'epoch': 0.63}
+{'loss': 1.5089, 'grad_norm': 1.69590163230896, 'learning_rate': 9.004106776180698e-06, 'epoch': 0.63}
+{'loss': 1.5481, 'grad_norm': 1.8803157806396484, 'learning_rate': 9.000684462696784e-06, 'epoch': 0.63}
+{'loss': 1.4797, 'grad_norm': 1.8478467464447021, 'learning_rate': 8.997262149212869e-06, 'epoch': 0.64}
+{'eval_loss': 1.825398325920105, 'eval_runtime': 11.4871, 'eval_samples_per_second': 52.233, 'eval_steps_per_second': 1.132, 'epoch': 0.64}
+{'loss': 1.4947, 'grad_norm': 1.9193930625915527, 'learning_rate': 8.993839835728954e-06, 'epoch': 0.64}
+{'loss': 1.4938, 'grad_norm': 1.8736834526062012, 'learning_rate': 8.99041752224504e-06, 'epoch': 0.64}
+{'loss': 1.4874, 'grad_norm': 1.8369019031524658, 'learning_rate': 8.986995208761123e-06, 'epoch': 0.64}
+{'loss': 1.5041, 'grad_norm': 1.792969822883606, 'learning_rate': 8.983572895277208e-06, 'epoch': 0.64}
+{'loss': 1.5203, 'grad_norm': 1.7117116451263428, 'learning_rate': 8.980150581793293e-06, 'epoch': 0.65}
+{'loss': 1.4922, 'grad_norm': 1.7517635822296143, 'learning_rate': 8.976728268309378e-06, 'epoch': 0.65}
+{'loss': 1.526, 'grad_norm': 1.6346594095230103, 'learning_rate': 8.973305954825464e-06, 'epoch': 0.65}
+{'loss': 1.55, 'grad_norm': 1.955075979232788, 'learning_rate': 8.969883641341549e-06, 'epoch': 0.65}
+{'loss': 1.5063, 'grad_norm': 1.8449043035507202, 'learning_rate': 8.966461327857632e-06, 'epoch': 0.66}
+{'loss': 1.5037, 'grad_norm': 1.6234263181686401, 'learning_rate': 8.963039014373718e-06, 'epoch': 0.66}
+{'eval_loss': 1.8164091110229492, 'eval_runtime': 11.5203, 'eval_samples_per_second': 52.082, 'eval_steps_per_second': 1.128, 'epoch': 0.66}
+{'loss': 1.5044, 'grad_norm': 1.8798233270645142, 'learning_rate': 8.959616700889803e-06, 'epoch': 0.66}
+{'loss': 1.4483, 'grad_norm': 1.775099754333496, 'learning_rate': 8.956194387405888e-06, 'epoch': 0.66}
+{'loss': 1.5207, 'grad_norm': 1.7476215362548828, 'learning_rate': 8.952772073921972e-06, 'epoch': 0.66}
+{'loss': 1.5204, 'grad_norm': 1.8736799955368042, 'learning_rate': 8.949349760438057e-06, 'epoch': 0.67}
+{'loss': 1.5583, 'grad_norm': 1.6159367561340332, 'learning_rate': 8.945927446954142e-06, 'epoch': 0.67}
+{'loss': 1.5297, 'grad_norm': 1.8807814121246338, 'learning_rate': 8.942505133470225e-06, 'epoch': 0.67}
+{'loss': 1.5016, 'grad_norm': 1.6831296682357788, 'learning_rate': 8.93908281998631e-06, 'epoch': 0.67}
+{'loss': 1.49, 'grad_norm': 1.7821464538574219, 'learning_rate': 8.935660506502396e-06, 'epoch': 0.67}
+{'loss': 1.5068, 'grad_norm': 1.7918822765350342, 'learning_rate': 8.932238193018481e-06, 'epoch': 0.68}
+{'loss': 1.4917, 'grad_norm': 1.707472324371338, 'learning_rate': 8.928815879534566e-06, 'epoch': 0.68}
+{'eval_loss': 1.8170865774154663, 'eval_runtime': 11.5702, 'eval_samples_per_second': 51.857, 'eval_steps_per_second': 1.124, 'epoch': 0.68}
+{'loss': 1.4834, 'grad_norm': 1.6677454710006714, 'learning_rate': 8.925393566050652e-06, 'epoch': 0.68}
+{'loss': 1.498, 'grad_norm': 1.7175582647323608, 'learning_rate': 8.921971252566735e-06, 'epoch': 0.68}
+{'loss': 1.5658, 'grad_norm': 1.6024084091186523, 'learning_rate': 8.91854893908282e-06, 'epoch': 0.68}
+{'loss': 1.5025, 'grad_norm': 1.8929898738861084, 'learning_rate': 8.915126625598906e-06, 'epoch': 0.69}
+{'loss': 1.5112, 'grad_norm': 1.733046054840088, 'learning_rate': 8.91170431211499e-06, 'epoch': 0.69}
+{'loss': 1.5434, 'grad_norm': 2.0251688957214355, 'learning_rate': 8.908281998631076e-06, 'epoch': 0.69}
+{'loss': 1.5095, 'grad_norm': 1.7793411016464233, 'learning_rate': 8.90485968514716e-06, 'epoch': 0.69}
+{'loss': 1.4776, 'grad_norm': 1.85346257686615, 'learning_rate': 8.901437371663245e-06, 'epoch': 0.69}
+{'loss': 1.5255, 'grad_norm': 1.8452894687652588, 'learning_rate': 8.89801505817933e-06, 'epoch': 0.7}
+{'loss': 1.5204, 'grad_norm': 1.772274374961853, 'learning_rate': 8.894592744695415e-06, 'epoch': 0.7}
+{'eval_loss': 1.8178520202636719, 'eval_runtime': 11.5524, 'eval_samples_per_second': 51.937, 'eval_steps_per_second': 1.125, 'epoch': 0.7}
+{'loss': 1.4925, 'grad_norm': 1.8933651447296143, 'learning_rate': 8.8911704312115e-06, 'epoch': 0.7}
+{'loss': 1.495, 'grad_norm': 1.7717126607894897, 'learning_rate': 8.887748117727586e-06, 'epoch': 0.7}
+{'loss': 1.5005, 'grad_norm': 1.7581825256347656, 'learning_rate': 8.88432580424367e-06, 'epoch': 0.7}
+{'loss': 1.4717, 'grad_norm': 1.6740025281906128, 'learning_rate': 8.880903490759754e-06, 'epoch': 0.71}
+{'loss': 1.545, 'grad_norm': 1.6669644117355347, 'learning_rate': 8.87748117727584e-06, 'epoch': 0.71}
+{'loss': 1.5117, 'grad_norm': 1.6408169269561768, 'learning_rate': 8.874058863791925e-06, 'epoch': 0.71}
+{'loss': 1.461, 'grad_norm': 1.6103270053863525, 'learning_rate': 8.87063655030801e-06, 'epoch': 0.71}
+{'loss': 1.4771, 'grad_norm': 1.7314375638961792, 'learning_rate': 8.867214236824094e-06, 'epoch': 0.71}
+{'loss': 1.4446, 'grad_norm': 1.626140832901001, 'learning_rate': 8.863791923340179e-06, 'epoch': 0.72}
+{'loss': 1.4912, 'grad_norm': 1.6456263065338135, 'learning_rate': 8.860369609856262e-06, 'epoch': 0.72}
+{'eval_loss': 1.8042398691177368, 'eval_runtime': 11.5987, 'eval_samples_per_second': 51.73, 'eval_steps_per_second': 1.121, 'epoch': 0.72}
+{'loss': 1.4855, 'grad_norm': 1.7407492399215698, 'learning_rate': 8.856947296372348e-06, 'epoch': 0.72}
+{'loss': 1.491, 'grad_norm': 1.5691184997558594, 'learning_rate': 8.853524982888433e-06, 'epoch': 0.72}
+{'loss': 1.4692, 'grad_norm': 1.8365414142608643, 'learning_rate': 8.850102669404518e-06, 'epoch': 0.72}
+{'loss': 1.5015, 'grad_norm': 1.6168571710586548, 'learning_rate': 8.846680355920603e-06, 'epoch': 0.73}
+{'loss': 1.4797, 'grad_norm': 1.848583698272705, 'learning_rate': 8.843258042436688e-06, 'epoch': 0.73}
+{'loss': 1.5215, 'grad_norm': 1.6835592985153198, 'learning_rate': 8.839835728952772e-06, 'epoch': 0.73}
+{'loss': 1.5243, 'grad_norm': 1.9431469440460205, 'learning_rate': 8.836413415468857e-06, 'epoch': 0.73}
+{'loss': 1.445, 'grad_norm': 1.7618738412857056, 'learning_rate': 8.832991101984942e-06, 'epoch': 0.74}
+{'loss': 1.48, 'grad_norm': 1.80169677734375, 'learning_rate': 8.829568788501028e-06, 'epoch': 0.74}
+{'loss': 1.4309, 'grad_norm': 1.627294659614563, 'learning_rate': 8.826146475017113e-06, 'epoch': 0.74}
+{'eval_loss': 1.8036913871765137, 'eval_runtime': 11.5718, 'eval_samples_per_second': 51.85, 'eval_steps_per_second': 1.123, 'epoch': 0.74}
+{'loss': 1.4842, 'grad_norm': 1.8815252780914307, 'learning_rate': 8.822724161533196e-06, 'epoch': 0.74}
+{'loss': 1.513, 'grad_norm': 1.6483033895492554, 'learning_rate': 8.819301848049282e-06, 'epoch': 0.74}
+{'loss': 1.4461, 'grad_norm': 1.7446346282958984, 'learning_rate': 8.815879534565367e-06, 'epoch': 0.75}
+{'loss': 1.4444, 'grad_norm': 1.8290964365005493, 'learning_rate': 8.812457221081452e-06, 'epoch': 0.75}
+{'loss': 1.4995, 'grad_norm': 1.6049507856369019, 'learning_rate': 8.809034907597537e-06, 'epoch': 0.75}
+{'loss': 1.5137, 'grad_norm': 1.6044186353683472, 'learning_rate': 8.805612594113622e-06, 'epoch': 0.75}
+{'loss': 1.4727, 'grad_norm': 1.6307649612426758, 'learning_rate': 8.802190280629706e-06, 'epoch': 0.75}
+{'loss': 1.4956, 'grad_norm': 1.725856900215149, 'learning_rate': 8.798767967145791e-06, 'epoch': 0.76}
+{'loss': 1.4627, 'grad_norm': 1.5932767391204834, 'learning_rate': 8.795345653661876e-06, 'epoch': 0.76}
+{'loss': 1.4934, 'grad_norm': 1.7740421295166016, 'learning_rate': 8.791923340177962e-06, 'epoch': 0.76}
+{'eval_loss': 1.8098872900009155, 'eval_runtime': 11.5802, 'eval_samples_per_second': 51.813, 'eval_steps_per_second': 1.123, 'epoch': 0.76}
+{'loss': 1.503, 'grad_norm': 1.790043830871582, 'learning_rate': 8.788501026694047e-06, 'epoch': 0.76}
+{'loss': 1.5308, 'grad_norm': 1.6742873191833496, 'learning_rate': 8.78507871321013e-06, 'epoch': 0.76}
+{'loss': 1.4999, 'grad_norm': 1.6686936616897583, 'learning_rate': 8.781656399726216e-06, 'epoch': 0.77}
+{'loss': 1.5031, 'grad_norm': 1.6679552793502808, 'learning_rate': 8.7782340862423e-06, 'epoch': 0.77}
+{'loss': 1.4694, 'grad_norm': 1.6027262210845947, 'learning_rate': 8.774811772758386e-06, 'epoch': 0.77}
+{'loss': 1.4912, 'grad_norm': 1.5943938493728638, 'learning_rate': 8.77138945927447e-06, 'epoch': 0.77}
+{'loss': 1.4576, 'grad_norm': 1.6866058111190796, 'learning_rate': 8.767967145790555e-06, 'epoch': 0.77}
+{'loss': 1.448, 'grad_norm': 1.7176119089126587, 'learning_rate': 8.76454483230664e-06, 'epoch': 0.78}
+{'loss': 1.5035, 'grad_norm': 1.721934199333191, 'learning_rate': 8.761122518822725e-06, 'epoch': 0.78}
+{'loss': 1.5, 'grad_norm': 1.7070645093917847, 'learning_rate': 8.757700205338809e-06, 'epoch': 0.78}
+{'eval_loss': 1.7952059507369995, 'eval_runtime': 11.5915, 'eval_samples_per_second': 51.762, 'eval_steps_per_second': 1.122, 'epoch': 0.78}
+{'loss': 1.4779, 'grad_norm': 1.689699649810791, 'learning_rate': 8.754277891854894e-06, 'epoch': 0.78}
+{'loss': 1.4808, 'grad_norm': 1.5889015197753906, 'learning_rate': 8.75085557837098e-06, 'epoch': 0.78}
+{'loss': 1.4138, 'grad_norm': 1.677080750465393, 'learning_rate': 8.747433264887064e-06, 'epoch': 0.79}
+{'loss': 1.49, 'grad_norm': 1.7732945680618286, 'learning_rate': 8.74401095140315e-06, 'epoch': 0.79}
+{'loss': 1.4776, 'grad_norm': 1.6714978218078613, 'learning_rate': 8.740588637919233e-06, 'epoch': 0.79}
+{'loss': 1.4497, 'grad_norm': 1.6455755233764648, 'learning_rate': 8.737166324435318e-06, 'epoch': 0.79}
+{'loss': 1.4451, 'grad_norm': 1.717803955078125, 'learning_rate': 8.733744010951404e-06, 'epoch': 0.79}
+{'loss': 1.5233, 'grad_norm': 1.6892151832580566, 'learning_rate': 8.730321697467489e-06, 'epoch': 0.8}
+{'loss': 1.453, 'grad_norm': 1.7190802097320557, 'learning_rate': 8.726899383983574e-06, 'epoch': 0.8}
+{'loss': 1.4594, 'grad_norm': 1.6835030317306519, 'learning_rate': 8.72347707049966e-06, 'epoch': 0.8}
+{'eval_loss': 1.8000311851501465, 'eval_runtime': 11.5809, 'eval_samples_per_second': 51.81, 'eval_steps_per_second': 1.123, 'epoch': 0.8}
+{'loss': 1.5258, 'grad_norm': 1.6807873249053955, 'learning_rate': 8.720054757015743e-06, 'epoch': 0.8}
+{'loss': 1.5012, 'grad_norm': 1.6131247282028198, 'learning_rate': 8.716632443531828e-06, 'epoch': 0.8}
+{'loss': 1.4607, 'grad_norm': 1.568951964378357, 'learning_rate': 8.713210130047913e-06, 'epoch': 0.81}
+{'loss': 1.4513, 'grad_norm': 1.6583240032196045, 'learning_rate': 8.709787816563998e-06, 'epoch': 0.81}
+{'loss': 1.4815, 'grad_norm': 1.791106104850769, 'learning_rate': 8.706365503080084e-06, 'epoch': 0.81}
+{'loss': 1.4285, 'grad_norm': 1.7191870212554932, 'learning_rate': 8.702943189596167e-06, 'epoch': 0.81}
+{'loss': 1.4718, 'grad_norm': 1.7353274822235107, 'learning_rate': 8.699520876112252e-06, 'epoch': 0.82}
+{'loss': 1.4832, 'grad_norm': 1.6928690671920776, 'learning_rate': 8.696098562628338e-06, 'epoch': 0.82}
+{'loss': 1.4534, 'grad_norm': 1.6392171382904053, 'learning_rate': 8.692676249144423e-06, 'epoch': 0.82}
+{'loss': 1.496, 'grad_norm': 1.6731233596801758, 'learning_rate': 8.689253935660508e-06, 'epoch': 0.82}
+{'eval_loss': 1.8127620220184326, 'eval_runtime': 11.5806, 'eval_samples_per_second': 51.811, 'eval_steps_per_second': 1.123, 'epoch': 0.82}
+{'loss': 1.4674, 'grad_norm': 1.711434006690979, 'learning_rate': 8.685831622176593e-06, 'epoch': 0.82}
+{'loss': 1.4631, 'grad_norm': 1.583005428314209, 'learning_rate': 8.682409308692677e-06, 'epoch': 0.83}
+{'loss': 1.4273, 'grad_norm': 1.7589558362960815, 'learning_rate': 8.678986995208762e-06, 'epoch': 0.83}
+{'loss': 1.5008, 'grad_norm': 1.680954098701477, 'learning_rate': 8.675564681724846e-06, 'epoch': 0.83}
+{'loss': 1.4613, 'grad_norm': 1.6957844495773315, 'learning_rate': 8.67214236824093e-06, 'epoch': 0.83}
+{'loss': 1.4848, 'grad_norm': 1.6979904174804688, 'learning_rate': 8.668720054757016e-06, 'epoch': 0.83}
+{'loss': 1.5029, 'grad_norm': 1.7172961235046387, 'learning_rate': 8.665297741273101e-06, 'epoch': 0.84}
+{'loss': 1.4536, 'grad_norm': 1.6451997756958008, 'learning_rate': 8.661875427789186e-06, 'epoch': 0.84}
+{'loss': 1.4194, 'grad_norm': 1.7319225072860718, 'learning_rate': 8.65845311430527e-06, 'epoch': 0.84}
+{'loss': 1.4517, 'grad_norm': 1.6582709550857544, 'learning_rate': 8.655030800821355e-06, 'epoch': 0.84}
+{'eval_loss': 1.7986027002334595, 'eval_runtime': 11.5629, 'eval_samples_per_second': 51.89, 'eval_steps_per_second': 1.124, 'epoch': 0.84}
+{'loss': 1.51, 'grad_norm': 1.7980842590332031, 'learning_rate': 8.65160848733744e-06, 'epoch': 0.84}
+{'loss': 1.4587, 'grad_norm': 1.7417950630187988, 'learning_rate': 8.648186173853526e-06, 'epoch': 0.85}
+{'loss': 1.4236, 'grad_norm': 1.5656828880310059, 'learning_rate': 8.644763860369611e-06, 'epoch': 0.85}
+{'loss': 1.5041, 'grad_norm': 1.8500827550888062, 'learning_rate': 8.641341546885696e-06, 'epoch': 0.85}
+{'loss': 1.4699, 'grad_norm': 1.69521164894104, 'learning_rate': 8.63791923340178e-06, 'epoch': 0.85}
+{'loss': 1.4941, 'grad_norm': 1.7117290496826172, 'learning_rate': 8.634496919917865e-06, 'epoch': 0.85}
+{'loss': 1.4587, 'grad_norm': 1.7069835662841797, 'learning_rate': 8.63107460643395e-06, 'epoch': 0.86}
+{'loss': 1.4189, 'grad_norm': 1.6239749193191528, 'learning_rate': 8.627652292950035e-06, 'epoch': 0.86}
+{'loss': 1.4774, 'grad_norm': 1.964701771736145, 'learning_rate': 8.62422997946612e-06, 'epoch': 0.86}
+{'loss': 1.4328, 'grad_norm': 1.598343014717102, 'learning_rate': 8.620807665982204e-06, 'epoch': 0.86}
+{'eval_loss': 1.7827686071395874, 'eval_runtime': 11.5676, 'eval_samples_per_second': 51.869, 'eval_steps_per_second': 1.124, 'epoch': 0.86}
+{'loss': 1.4808, 'grad_norm': 1.7047374248504639, 'learning_rate': 8.61738535249829e-06, 'epoch': 0.86}
+{'loss': 1.4311, 'grad_norm': 1.798877477645874, 'learning_rate': 8.613963039014374e-06, 'epoch': 0.87}
+{'loss': 1.4623, 'grad_norm': 1.711221694946289, 'learning_rate': 8.61054072553046e-06, 'epoch': 0.87}
+{'loss': 1.4617, 'grad_norm': 1.9540292024612427, 'learning_rate': 8.607118412046545e-06, 'epoch': 0.87}
+{'loss': 1.4294, 'grad_norm': 1.7025163173675537, 'learning_rate': 8.60369609856263e-06, 'epoch': 0.87}
+{'loss': 1.4485, 'grad_norm': 1.6208522319793701, 'learning_rate': 8.600273785078714e-06, 'epoch': 0.87}
+{'loss': 1.4962, 'grad_norm': 1.8880665302276611, 'learning_rate': 8.596851471594799e-06, 'epoch': 0.88}
+{'loss': 1.4983, 'grad_norm': 1.7743271589279175, 'learning_rate': 8.593429158110884e-06, 'epoch': 0.88}
+{'loss': 1.5399, 'grad_norm': 1.9077787399291992, 'learning_rate': 8.590006844626968e-06, 'epoch': 0.88}
+{'loss': 1.4451, 'grad_norm': 1.8206349611282349, 'learning_rate': 8.586584531143053e-06, 'epoch': 0.88}
+{'eval_loss': 1.775089144706726, 'eval_runtime': 11.5547, 'eval_samples_per_second': 51.927, 'eval_steps_per_second': 1.125, 'epoch': 0.88}
+{'loss': 1.4614, 'grad_norm': 1.7105926275253296, 'learning_rate': 8.583162217659138e-06, 'epoch': 0.89}
+{'loss': 1.4897, 'grad_norm': 1.7480043172836304, 'learning_rate': 8.579739904175223e-06, 'epoch': 0.89}
+{'loss': 1.4726, 'grad_norm': 1.962239384651184, 'learning_rate': 8.576317590691307e-06, 'epoch': 0.89}
+{'loss': 1.4532, 'grad_norm': 1.8070656061172485, 'learning_rate': 8.572895277207392e-06, 'epoch': 0.89}
+{'loss': 1.4202, 'grad_norm': 1.6851564645767212, 'learning_rate': 8.569472963723477e-06, 'epoch': 0.89}
+{'loss': 1.497, 'grad_norm': 1.6787360906600952, 'learning_rate': 8.566050650239562e-06, 'epoch': 0.9}
+{'loss': 1.4482, 'grad_norm': 1.6352280378341675, 'learning_rate': 8.562628336755648e-06, 'epoch': 0.9}
+{'loss': 1.4611, 'grad_norm': 1.6380099058151245, 'learning_rate': 8.559206023271733e-06, 'epoch': 0.9}
+{'loss': 1.496, 'grad_norm': 1.6743824481964111, 'learning_rate': 8.555783709787816e-06, 'epoch': 0.9}
+{'loss': 1.4754, 'grad_norm': 1.6505906581878662, 'learning_rate': 8.552361396303902e-06, 'epoch': 0.9}
+{'eval_loss': 1.7800203561782837, 'eval_runtime': 11.5741, 'eval_samples_per_second': 51.84, 'eval_steps_per_second': 1.123, 'epoch': 0.9}
+{'loss': 1.4826, 'grad_norm': 1.6843124628067017, 'learning_rate': 8.548939082819987e-06, 'epoch': 0.91}
+{'loss': 1.4605, 'grad_norm': 1.5854352712631226, 'learning_rate': 8.545516769336072e-06, 'epoch': 0.91}
+{'loss': 1.4847, 'grad_norm': 1.6606415510177612, 'learning_rate': 8.542094455852157e-06, 'epoch': 0.91}
+{'loss': 1.5101, 'grad_norm': 1.6687839031219482, 'learning_rate': 8.538672142368243e-06, 'epoch': 0.91}
+{'loss': 1.4798, 'grad_norm': 1.6688401699066162, 'learning_rate': 8.535249828884326e-06, 'epoch': 0.91}
+{'loss': 1.4783, 'grad_norm': 1.729525089263916, 'learning_rate': 8.531827515400411e-06, 'epoch': 0.92}
+{'loss': 1.4354, 'grad_norm': 1.632815957069397, 'learning_rate': 8.528405201916497e-06, 'epoch': 0.92}
+{'loss': 1.4602, 'grad_norm': 1.6669038534164429, 'learning_rate': 8.524982888432582e-06, 'epoch': 0.92}
+{'loss': 1.4301, 'grad_norm': 1.6462351083755493, 'learning_rate': 8.521560574948667e-06, 'epoch': 0.92}
+{'loss': 1.4406, 'grad_norm': 1.5656311511993408, 'learning_rate': 8.51813826146475e-06, 'epoch': 0.92}
+{'eval_loss': 1.7816804647445679, 'eval_runtime': 11.5657, 'eval_samples_per_second': 51.878, 'eval_steps_per_second': 1.124, 'epoch': 0.92}
+{'loss': 1.4704, 'grad_norm': 1.7565734386444092, 'learning_rate': 8.514715947980836e-06, 'epoch': 0.93}
+{'loss': 1.4657, 'grad_norm': 1.6810647249221802, 'learning_rate': 8.511293634496921e-06, 'epoch': 0.93}
+{'loss': 1.5086, 'grad_norm': 1.6947649717330933, 'learning_rate': 8.507871321013006e-06, 'epoch': 0.93}
+{'loss': 1.4637, 'grad_norm': 1.6963921785354614, 'learning_rate': 8.504449007529091e-06, 'epoch': 0.93}
+{'loss': 1.4702, 'grad_norm': 1.6562551259994507, 'learning_rate': 8.501026694045177e-06, 'epoch': 0.93}
+{'loss': 1.4369, 'grad_norm': 1.891895055770874, 'learning_rate': 8.49760438056126e-06, 'epoch': 0.94}
+{'loss': 1.4203, 'grad_norm': 1.5680925846099854, 'learning_rate': 8.494182067077345e-06, 'epoch': 0.94}
+{'loss': 1.5318, 'grad_norm': 1.859710931777954, 'learning_rate': 8.490759753593429e-06, 'epoch': 0.94}
+{'loss': 1.4565, 'grad_norm': 1.7253116369247437, 'learning_rate': 8.487337440109514e-06, 'epoch': 0.94}
+{'loss': 1.4644, 'grad_norm': 1.6088459491729736, 'learning_rate': 8.4839151266256e-06, 'epoch': 0.94}
+{'eval_loss': 1.7752876281738281, 'eval_runtime': 11.4712, 'eval_samples_per_second': 52.305, 'eval_steps_per_second': 1.133, 'epoch': 0.94}
+{'loss': 1.4235, 'grad_norm': 1.562717080116272, 'learning_rate': 8.480492813141685e-06, 'epoch': 0.95}
+{'loss': 1.4559, 'grad_norm': 1.6914734840393066, 'learning_rate': 8.47707049965777e-06, 'epoch': 0.95}
+{'loss': 1.4728, 'grad_norm': 1.5195881128311157, 'learning_rate': 8.473648186173853e-06, 'epoch': 0.95}
+{'loss': 1.4254, 'grad_norm': 1.5947082042694092, 'learning_rate': 8.470225872689938e-06, 'epoch': 0.95}
+{'loss': 1.496, 'grad_norm': 1.7353545427322388, 'learning_rate': 8.466803559206024e-06, 'epoch': 0.95}
+{'loss': 1.4284, 'grad_norm': 1.6287955045700073, 'learning_rate': 8.463381245722109e-06, 'epoch': 0.96}
+{'loss': 1.4533, 'grad_norm': 1.7037458419799805, 'learning_rate': 8.459958932238194e-06, 'epoch': 0.96}
+{'loss': 1.4575, 'grad_norm': 1.6826109886169434, 'learning_rate': 8.45653661875428e-06, 'epoch': 0.96}
+{'loss': 1.4681, 'grad_norm': 1.7119048833847046, 'learning_rate': 8.453114305270363e-06, 'epoch': 0.96}
+{'loss': 1.5028, 'grad_norm': 1.838014841079712, 'learning_rate': 8.449691991786448e-06, 'epoch': 0.97}
+{'eval_loss': 1.7797212600708008, 'eval_runtime': 11.5253, 'eval_samples_per_second': 52.059, 'eval_steps_per_second': 1.128, 'epoch': 0.97}
+{'loss': 1.4965, 'grad_norm': 1.7522461414337158, 'learning_rate': 8.446269678302533e-06, 'epoch': 0.97}
+{'loss': 1.4624, 'grad_norm': 1.6754289865493774, 'learning_rate': 8.442847364818619e-06, 'epoch': 0.97}
+{'loss': 1.4248, 'grad_norm': 1.7087618112564087, 'learning_rate': 8.439425051334704e-06, 'epoch': 0.97}
+{'loss': 1.4089, 'grad_norm': 1.5853718519210815, 'learning_rate': 8.436002737850787e-06, 'epoch': 0.97}
+{'loss': 1.4237, 'grad_norm': 1.654264211654663, 'learning_rate': 8.432580424366873e-06, 'epoch': 0.98}
+{'loss': 1.4803, 'grad_norm': 1.7034865617752075, 'learning_rate': 8.429158110882958e-06, 'epoch': 0.98}
+{'loss': 1.4605, 'grad_norm': 1.6698980331420898, 'learning_rate': 8.425735797399043e-06, 'epoch': 0.98}
+{'loss': 1.3887, 'grad_norm': 1.6998814344406128, 'learning_rate': 8.422313483915128e-06, 'epoch': 0.98}
+{'loss': 1.4375, 'grad_norm': 1.6477159261703491, 'learning_rate': 8.418891170431213e-06, 'epoch': 0.98}
+{'loss': 1.4566, 'grad_norm': 1.6294053792953491, 'learning_rate': 8.415468856947297e-06, 'epoch': 0.99}
+{'eval_loss': 1.7766921520233154, 'eval_runtime': 11.5626, 'eval_samples_per_second': 51.892, 'eval_steps_per_second': 1.124, 'epoch': 0.99}
+{'loss': 1.4224, 'grad_norm': 1.6145596504211426, 'learning_rate': 8.412046543463382e-06, 'epoch': 0.99}
+{'loss': 1.4555, 'grad_norm': 1.7173151969909668, 'learning_rate': 8.408624229979466e-06, 'epoch': 0.99}
+{'loss': 1.4712, 'grad_norm': 1.6866283416748047, 'learning_rate': 8.405201916495551e-06, 'epoch': 0.99}
+{'loss': 1.4796, 'grad_norm': 1.59329354763031, 'learning_rate': 8.401779603011636e-06, 'epoch': 0.99}
+{'loss': 1.4376, 'grad_norm': 1.631989598274231, 'learning_rate': 8.398357289527721e-06, 'epoch': 1.0}
+{'loss': 1.4651, 'grad_norm': 1.6416479349136353, 'learning_rate': 8.394934976043807e-06, 'epoch': 1.0}
+{'loss': 1.4491, 'grad_norm': 1.6392173767089844, 'learning_rate': 8.39151266255989e-06, 'epoch': 1.0}
+{'loss': 1.3461, 'grad_norm': 1.8521831035614014, 'learning_rate': 8.388090349075975e-06, 'epoch': 1.0}
+{'loss': 1.4584, 'grad_norm': 1.8120265007019043, 'learning_rate': 8.38466803559206e-06, 'epoch': 1.0}
+{'loss': 1.4051, 'grad_norm': 1.7665916681289673, 'learning_rate': 8.381245722108146e-06, 'epoch': 1.01}
+{'eval_loss': 1.7718727588653564, 'eval_runtime': 11.5669, 'eval_samples_per_second': 51.872, 'eval_steps_per_second': 1.124, 'epoch': 1.01}
+{'loss': 1.4065, 'grad_norm': 1.816359281539917, 'learning_rate': 8.377823408624231e-06, 'epoch': 1.01}
+{'loss': 1.4533, 'grad_norm': 1.8895745277404785, 'learning_rate': 8.374401095140316e-06, 'epoch': 1.01}
+{'loss': 1.3911, 'grad_norm': 1.7862004041671753, 'learning_rate': 8.3709787816564e-06, 'epoch': 1.01}
+{'loss': 1.4057, 'grad_norm': 1.8400774002075195, 'learning_rate': 8.367556468172485e-06, 'epoch': 1.01}
+{'loss': 1.4126, 'grad_norm': 1.7297072410583496, 'learning_rate': 8.36413415468857e-06, 'epoch': 1.02}
+{'loss': 1.4389, 'grad_norm': 1.9271661043167114, 'learning_rate': 8.360711841204655e-06, 'epoch': 1.02}
+{'loss': 1.4166, 'grad_norm': 1.7919522523880005, 'learning_rate': 8.35728952772074e-06, 'epoch': 1.02}
+{'loss': 1.4068, 'grad_norm': 1.7634689807891846, 'learning_rate': 8.353867214236824e-06, 'epoch': 1.02}
+{'loss': 1.4038, 'grad_norm': 1.8017460107803345, 'learning_rate': 8.35044490075291e-06, 'epoch': 1.02}
+{'loss': 1.4451, 'grad_norm': 1.7042248249053955, 'learning_rate': 8.347022587268995e-06, 'epoch': 1.03}
+{'eval_loss': 1.7727290391921997, 'eval_runtime': 11.5602, 'eval_samples_per_second': 51.902, 'eval_steps_per_second': 1.125, 'epoch': 1.03}
+{'loss': 1.4141, 'grad_norm': 1.7367033958435059, 'learning_rate': 8.34360027378508e-06, 'epoch': 1.03}
+{'loss': 1.4016, 'grad_norm': 1.8175960779190063, 'learning_rate': 8.340177960301165e-06, 'epoch': 1.03}
+{'loss': 1.428, 'grad_norm': 1.8259378671646118, 'learning_rate': 8.33675564681725e-06, 'epoch': 1.03}
+{'loss': 1.373, 'grad_norm': 1.7771408557891846, 'learning_rate': 8.333333333333334e-06, 'epoch': 1.03}
+{'loss': 1.4412, 'grad_norm': 1.866168737411499, 'learning_rate': 8.329911019849419e-06, 'epoch': 1.04}
+{'loss': 1.4558, 'grad_norm': 1.8310283422470093, 'learning_rate': 8.326488706365504e-06, 'epoch': 1.04}
+{'loss': 1.3815, 'grad_norm': 1.9119117259979248, 'learning_rate': 8.32306639288159e-06, 'epoch': 1.04}
+{'loss': 1.4088, 'grad_norm': 1.7339344024658203, 'learning_rate': 8.319644079397675e-06, 'epoch': 1.04}
+{'loss': 1.3937, 'grad_norm': 1.8425650596618652, 'learning_rate': 8.316221765913758e-06, 'epoch': 1.05}
+{'loss': 1.4244, 'grad_norm': 1.8800097703933716, 'learning_rate': 8.312799452429843e-06, 'epoch': 1.05}
+{'eval_loss': 1.7785412073135376, 'eval_runtime': 11.5646, 'eval_samples_per_second': 51.883, 'eval_steps_per_second': 1.124, 'epoch': 1.05}
+{'loss': 1.4354, 'grad_norm': 1.9339478015899658, 'learning_rate': 8.309377138945927e-06, 'epoch': 1.05}
+{'loss': 1.4076, 'grad_norm': 1.8538706302642822, 'learning_rate': 8.305954825462012e-06, 'epoch': 1.05}
+{'loss': 1.4284, 'grad_norm': 1.776126503944397, 'learning_rate': 8.302532511978097e-06, 'epoch': 1.05}
+{'loss': 1.4288, 'grad_norm': 1.9112316370010376, 'learning_rate': 8.299110198494183e-06, 'epoch': 1.06}
+{'loss': 1.388, 'grad_norm': 1.8574649095535278, 'learning_rate': 8.295687885010268e-06, 'epoch': 1.06}
+{'loss': 1.3987, 'grad_norm': 1.865405559539795, 'learning_rate': 8.292265571526353e-06, 'epoch': 1.06}
+{'loss': 1.4121, 'grad_norm': 2.0429141521453857, 'learning_rate': 8.288843258042437e-06, 'epoch': 1.06}
+{'loss': 1.3715, 'grad_norm': 1.932017207145691, 'learning_rate': 8.285420944558522e-06, 'epoch': 1.06}
+{'loss': 1.3836, 'grad_norm': 1.7798006534576416, 'learning_rate': 8.281998631074607e-06, 'epoch': 1.07}
+{'loss': 1.3977, 'grad_norm': 1.840622067451477, 'learning_rate': 8.278576317590692e-06, 'epoch': 1.07}
+{'eval_loss': 1.777988076210022, 'eval_runtime': 11.5568, 'eval_samples_per_second': 51.917, 'eval_steps_per_second': 1.125, 'epoch': 1.07}
+{'loss': 1.451, 'grad_norm': 1.7812023162841797, 'learning_rate': 8.275154004106777e-06, 'epoch': 1.07}
+{'loss': 1.4275, 'grad_norm': 1.9139738082885742, 'learning_rate': 8.271731690622861e-06, 'epoch': 1.07}
+{'loss': 1.4091, 'grad_norm': 1.93687105178833, 'learning_rate': 8.268309377138946e-06, 'epoch': 1.07}
+{'loss': 1.4457, 'grad_norm': 1.735458493232727, 'learning_rate': 8.264887063655031e-06, 'epoch': 1.08}
+{'loss': 1.4045, 'grad_norm': 1.812934160232544, 'learning_rate': 8.261464750171117e-06, 'epoch': 1.08}
+{'loss': 1.3758, 'grad_norm': 1.7493757009506226, 'learning_rate': 8.258042436687202e-06, 'epoch': 1.08}
+{'loss': 1.4131, 'grad_norm': 1.7674890756607056, 'learning_rate': 8.254620123203287e-06, 'epoch': 1.08}
+{'loss': 1.4256, 'grad_norm': 1.7995076179504395, 'learning_rate': 8.25119780971937e-06, 'epoch': 1.08}
+{'loss': 1.4114, 'grad_norm': 1.8441890478134155, 'learning_rate': 8.247775496235456e-06, 'epoch': 1.09}
+{'loss': 1.4076, 'grad_norm': 1.859389305114746, 'learning_rate': 8.244353182751541e-06, 'epoch': 1.09}
+{'eval_loss': 1.7856059074401855, 'eval_runtime': 11.5632, 'eval_samples_per_second': 51.889, 'eval_steps_per_second': 1.124, 'epoch': 1.09}
+{'loss': 1.4094, 'grad_norm': 1.7620924711227417, 'learning_rate': 8.240930869267626e-06, 'epoch': 1.09}
+{'loss': 1.4146, 'grad_norm': 1.714576244354248, 'learning_rate': 8.237508555783711e-06, 'epoch': 1.09}
+{'loss': 1.4497, 'grad_norm': 1.8291822671890259, 'learning_rate': 8.234086242299797e-06, 'epoch': 1.09}
+{'loss': 1.4464, 'grad_norm': 1.6954448223114014, 'learning_rate': 8.23066392881588e-06, 'epoch': 1.1}
+{'loss': 1.3913, 'grad_norm': 1.7521499395370483, 'learning_rate': 8.227241615331964e-06, 'epoch': 1.1}
+{'loss': 1.3576, 'grad_norm': 1.8350398540496826, 'learning_rate': 8.223819301848049e-06, 'epoch': 1.1}
+{'loss': 1.4135, 'grad_norm': 1.85514235496521, 'learning_rate': 8.220396988364134e-06, 'epoch': 1.1}
+{'loss': 1.3831, 'grad_norm': 1.8556125164031982, 'learning_rate': 8.21697467488022e-06, 'epoch': 1.1}
+{'loss': 1.4175, 'grad_norm': 1.8424491882324219, 'learning_rate': 8.213552361396305e-06, 'epoch': 1.11}
+{'loss': 1.3795, 'grad_norm': 1.8406707048416138, 'learning_rate': 8.21013004791239e-06, 'epoch': 1.11}
+{'eval_loss': 1.781378984451294, 'eval_runtime': 11.5832, 'eval_samples_per_second': 51.799, 'eval_steps_per_second': 1.122, 'epoch': 1.11}
+{'loss': 1.3821, 'grad_norm': 1.7959651947021484, 'learning_rate': 8.206707734428473e-06, 'epoch': 1.11}
+{'loss': 1.4026, 'grad_norm': 1.6754769086837769, 'learning_rate': 8.203285420944559e-06, 'epoch': 1.11}
+{'loss': 1.3862, 'grad_norm': 1.6165329217910767, 'learning_rate': 8.199863107460644e-06, 'epoch': 1.11}
+{'loss': 1.4045, 'grad_norm': 1.8208740949630737, 'learning_rate': 8.196440793976729e-06, 'epoch': 1.12}
+{'loss': 1.3994, 'grad_norm': 1.7180184125900269, 'learning_rate': 8.193018480492814e-06, 'epoch': 1.12}
+{'loss': 1.3983, 'grad_norm': 1.7846899032592773, 'learning_rate': 8.1895961670089e-06, 'epoch': 1.12}
+{'loss': 1.4002, 'grad_norm': 1.8227282762527466, 'learning_rate': 8.186173853524983e-06, 'epoch': 1.12}
+{'loss': 1.4083, 'grad_norm': 1.7474290132522583, 'learning_rate': 8.182751540041068e-06, 'epoch': 1.13}
+{'loss': 1.395, 'grad_norm': 1.8708521127700806, 'learning_rate': 8.179329226557153e-06, 'epoch': 1.13}
+{'loss': 1.3814, 'grad_norm': 1.7728831768035889, 'learning_rate': 8.175906913073239e-06, 'epoch': 1.13}
+{'eval_loss': 1.7814701795578003, 'eval_runtime': 11.5784, 'eval_samples_per_second': 51.821, 'eval_steps_per_second': 1.123, 'epoch': 1.13}
+{'loss': 1.4327, 'grad_norm': 1.8012008666992188, 'learning_rate': 8.172484599589324e-06, 'epoch': 1.13}
+{'loss': 1.4433, 'grad_norm': 1.700129508972168, 'learning_rate': 8.169062286105407e-06, 'epoch': 1.13}
+{'loss': 1.3488, 'grad_norm': 1.806028962135315, 'learning_rate': 8.165639972621493e-06, 'epoch': 1.14}
+{'loss': 1.3941, 'grad_norm': 1.713219165802002, 'learning_rate': 8.162217659137578e-06, 'epoch': 1.14}
+{'loss': 1.4184, 'grad_norm': 1.78904128074646, 'learning_rate': 8.158795345653663e-06, 'epoch': 1.14}
+{'loss': 1.3905, 'grad_norm': 1.8383642435073853, 'learning_rate': 8.155373032169748e-06, 'epoch': 1.14}
+{'loss': 1.4512, 'grad_norm': 1.9983012676239014, 'learning_rate': 8.151950718685833e-06, 'epoch': 1.14}
+{'loss': 1.3712, 'grad_norm': 1.7374368906021118, 'learning_rate': 8.148528405201917e-06, 'epoch': 1.15}
+{'loss': 1.4077, 'grad_norm': 1.892745018005371, 'learning_rate': 8.145106091718002e-06, 'epoch': 1.15}
+{'loss': 1.4504, 'grad_norm': 1.7972124814987183, 'learning_rate': 8.141683778234087e-06, 'epoch': 1.15}
+{'eval_loss': 1.7812649011611938, 'eval_runtime': 11.583, 'eval_samples_per_second': 51.8, 'eval_steps_per_second': 1.122, 'epoch': 1.15}
+{'loss': 1.4219, 'grad_norm': 1.8054697513580322, 'learning_rate': 8.138261464750173e-06, 'epoch': 1.15}
+{'loss': 1.4546, 'grad_norm': 1.950580358505249, 'learning_rate': 8.134839151266256e-06, 'epoch': 1.15}
+{'loss': 1.4212, 'grad_norm': 1.6992522478103638, 'learning_rate': 8.131416837782341e-06, 'epoch': 1.16}
+{'loss': 1.4311, 'grad_norm': 1.7935357093811035, 'learning_rate': 8.127994524298427e-06, 'epoch': 1.16}
+{'loss': 1.3899, 'grad_norm': 1.8969616889953613, 'learning_rate': 8.12457221081451e-06, 'epoch': 1.16}
+{'loss': 1.4093, 'grad_norm': 1.8050055503845215, 'learning_rate': 8.121149897330595e-06, 'epoch': 1.16}
+{'loss': 1.4126, 'grad_norm': 1.7940971851348877, 'learning_rate': 8.11772758384668e-06, 'epoch': 1.16}
+{'loss': 1.4536, 'grad_norm': 1.804531216621399, 'learning_rate': 8.114305270362766e-06, 'epoch': 1.17}
+{'loss': 1.4332, 'grad_norm': 1.7540420293807983, 'learning_rate': 8.110882956878851e-06, 'epoch': 1.17}
+{'loss': 1.4364, 'grad_norm': 1.8798784017562866, 'learning_rate': 8.107460643394936e-06, 'epoch': 1.17}
+{'eval_loss': 1.7709681987762451, 'eval_runtime': 11.572, 'eval_samples_per_second': 51.849, 'eval_steps_per_second': 1.123, 'epoch': 1.17}
+{'loss': 1.4257, 'grad_norm': 1.8741904497146606, 'learning_rate': 8.10403832991102e-06, 'epoch': 1.17}
+{'loss': 1.387, 'grad_norm': 1.7396948337554932, 'learning_rate': 8.100616016427105e-06, 'epoch': 1.17}
+{'loss': 1.3855, 'grad_norm': 1.896327257156372, 'learning_rate': 8.09719370294319e-06, 'epoch': 1.18}
+{'loss': 1.3966, 'grad_norm': 1.8121418952941895, 'learning_rate': 8.093771389459275e-06, 'epoch': 1.18}
+{'loss': 1.3913, 'grad_norm': 1.7884790897369385, 'learning_rate': 8.09034907597536e-06, 'epoch': 1.18}
+{'loss': 1.3832, 'grad_norm': 1.793086051940918, 'learning_rate': 8.086926762491444e-06, 'epoch': 1.18}
+{'loss': 1.3856, 'grad_norm': 1.7390550374984741, 'learning_rate': 8.08350444900753e-06, 'epoch': 1.18}
+{'loss': 1.4141, 'grad_norm': 1.832335114479065, 'learning_rate': 8.080082135523615e-06, 'epoch': 1.19}
+{'loss': 1.4338, 'grad_norm': 1.8459804058074951, 'learning_rate': 8.0766598220397e-06, 'epoch': 1.19}
+{'loss': 1.4011, 'grad_norm': 1.7087197303771973, 'learning_rate': 8.073237508555785e-06, 'epoch': 1.19}
+{'eval_loss': 1.7690962553024292, 'eval_runtime': 11.6019, 'eval_samples_per_second': 51.716, 'eval_steps_per_second': 1.121, 'epoch': 1.19}
+{'loss': 1.4039, 'grad_norm': 1.712064504623413, 'learning_rate': 8.06981519507187e-06, 'epoch': 1.19}
+{'loss': 1.3784, 'grad_norm': 1.7331761121749878, 'learning_rate': 8.066392881587954e-06, 'epoch': 1.2}
+{'loss': 1.3616, 'grad_norm': 1.6408500671386719, 'learning_rate': 8.062970568104039e-06, 'epoch': 1.2}
+{'loss': 1.3988, 'grad_norm': 1.7780568599700928, 'learning_rate': 8.059548254620124e-06, 'epoch': 1.2}
+{'loss': 1.4006, 'grad_norm': 1.728901982307434, 'learning_rate': 8.05612594113621e-06, 'epoch': 1.2}
+{'loss': 1.4663, 'grad_norm': 1.8092149496078491, 'learning_rate': 8.052703627652295e-06, 'epoch': 1.2}
+{'loss': 1.3805, 'grad_norm': 1.7996667623519897, 'learning_rate': 8.049281314168378e-06, 'epoch': 1.21}
+{'loss': 1.4228, 'grad_norm': 1.7357498407363892, 'learning_rate': 8.045859000684463e-06, 'epoch': 1.21}
+{'loss': 1.367, 'grad_norm': 1.7935538291931152, 'learning_rate': 8.042436687200547e-06, 'epoch': 1.21}
+{'loss': 1.4049, 'grad_norm': 1.7162868976593018, 'learning_rate': 8.039014373716632e-06, 'epoch': 1.21}
+{'eval_loss': 1.7659603357315063, 'eval_runtime': 11.5792, 'eval_samples_per_second': 51.817, 'eval_steps_per_second': 1.123, 'epoch': 1.21}
+{'loss': 1.3954, 'grad_norm': 1.830643892288208, 'learning_rate': 8.035592060232717e-06, 'epoch': 1.21}
+{'loss': 1.4147, 'grad_norm': 1.8968507051467896, 'learning_rate': 8.032169746748803e-06, 'epoch': 1.22}
+{'loss': 1.3614, 'grad_norm': 1.8285462856292725, 'learning_rate': 8.028747433264888e-06, 'epoch': 1.22}
+{'loss': 1.4037, 'grad_norm': 1.7974096536636353, 'learning_rate': 8.025325119780973e-06, 'epoch': 1.22}
+{'loss': 1.4422, 'grad_norm': 1.7701224088668823, 'learning_rate': 8.021902806297057e-06, 'epoch': 1.22}
+{'loss': 1.4191, 'grad_norm': 1.7343765497207642, 'learning_rate': 8.018480492813142e-06, 'epoch': 1.22}
+{'loss': 1.4178, 'grad_norm': 1.7809021472930908, 'learning_rate': 8.015058179329227e-06, 'epoch': 1.23}
+{'loss': 1.3775, 'grad_norm': 1.763243317604065, 'learning_rate': 8.011635865845312e-06, 'epoch': 1.23}
+{'loss': 1.4032, 'grad_norm': 1.87663733959198, 'learning_rate': 8.008213552361397e-06, 'epoch': 1.23}
+{'loss': 1.407, 'grad_norm': 1.8656351566314697, 'learning_rate': 8.004791238877481e-06, 'epoch': 1.23}
+{'eval_loss': 1.7725154161453247, 'eval_runtime': 11.5572, 'eval_samples_per_second': 51.915, 'eval_steps_per_second': 1.125, 'epoch': 1.23}
+{'loss': 1.3923, 'grad_norm': 1.6899913549423218, 'learning_rate': 8.001368925393566e-06, 'epoch': 1.23}
+{'loss': 1.3582, 'grad_norm': 1.6760445833206177, 'learning_rate': 7.997946611909651e-06, 'epoch': 1.24}
+{'loss': 1.3891, 'grad_norm': 1.6903471946716309, 'learning_rate': 7.994524298425737e-06, 'epoch': 1.24}
+{'loss': 1.4078, 'grad_norm': 1.737961769104004, 'learning_rate': 7.991101984941822e-06, 'epoch': 1.24}
+{'loss': 1.3652, 'grad_norm': 1.7378888130187988, 'learning_rate': 7.987679671457907e-06, 'epoch': 1.24}
+{'loss': 1.4072, 'grad_norm': 1.9511247873306274, 'learning_rate': 7.98425735797399e-06, 'epoch': 1.24}
+{'loss': 1.3768, 'grad_norm': 1.8499304056167603, 'learning_rate': 7.980835044490076e-06, 'epoch': 1.25}
+{'loss': 1.3901, 'grad_norm': 1.6762317419052124, 'learning_rate': 7.977412731006161e-06, 'epoch': 1.25}
+{'loss': 1.4386, 'grad_norm': 1.8912556171417236, 'learning_rate': 7.973990417522246e-06, 'epoch': 1.25}
+{'loss': 1.3742, 'grad_norm': 1.6897720098495483, 'learning_rate': 7.970568104038332e-06, 'epoch': 1.25}
+{'eval_loss': 1.7729675769805908, 'eval_runtime': 11.4659, 'eval_samples_per_second': 52.329, 'eval_steps_per_second': 1.134, 'epoch': 1.25}
+{'loss': 1.4087, 'grad_norm': 1.7596641778945923, 'learning_rate': 7.967145790554415e-06, 'epoch': 1.25}
+{'loss': 1.3652, 'grad_norm': 1.8124538660049438, 'learning_rate': 7.9637234770705e-06, 'epoch': 1.26}
+{'loss': 1.3735, 'grad_norm': 1.8955110311508179, 'learning_rate': 7.960301163586585e-06, 'epoch': 1.26}
+{'loss': 1.4137, 'grad_norm': 1.7048362493515015, 'learning_rate': 7.95687885010267e-06, 'epoch': 1.26}
+{'loss': 1.3488, 'grad_norm': 1.7378458976745605, 'learning_rate': 7.953456536618754e-06, 'epoch': 1.26}
+{'loss': 1.3682, 'grad_norm': 1.725415825843811, 'learning_rate': 7.95003422313484e-06, 'epoch': 1.26}
+{'loss': 1.4308, 'grad_norm': 1.6926075220108032, 'learning_rate': 7.946611909650925e-06, 'epoch': 1.27}
+{'loss': 1.3935, 'grad_norm': 1.8131098747253418, 'learning_rate': 7.94318959616701e-06, 'epoch': 1.27}
+{'loss': 1.4103, 'grad_norm': 1.8446364402770996, 'learning_rate': 7.939767282683093e-06, 'epoch': 1.27}
+{'loss': 1.3721, 'grad_norm': 1.806065559387207, 'learning_rate': 7.936344969199179e-06, 'epoch': 1.27}
+{'eval_loss': 1.779327630996704, 'eval_runtime': 11.5007, 'eval_samples_per_second': 52.171, 'eval_steps_per_second': 1.13, 'epoch': 1.27}
+{'loss': 1.4161, 'grad_norm': 1.80967116355896, 'learning_rate': 7.932922655715264e-06, 'epoch': 1.28}
+{'loss': 1.4014, 'grad_norm': 1.6732299327850342, 'learning_rate': 7.929500342231349e-06, 'epoch': 1.28}
+{'loss': 1.4182, 'grad_norm': 1.876721978187561, 'learning_rate': 7.926078028747434e-06, 'epoch': 1.28}
+{'loss': 1.4163, 'grad_norm': 1.8244991302490234, 'learning_rate': 7.922655715263518e-06, 'epoch': 1.28}
+{'loss': 1.3786, 'grad_norm': 1.7442364692687988, 'learning_rate': 7.919233401779603e-06, 'epoch': 1.28}
+{'loss': 1.4185, 'grad_norm': 1.9975461959838867, 'learning_rate': 7.915811088295688e-06, 'epoch': 1.29}
+{'loss': 1.3956, 'grad_norm': 1.7496089935302734, 'learning_rate': 7.912388774811773e-06, 'epoch': 1.29}
+{'loss': 1.4329, 'grad_norm': 1.849552869796753, 'learning_rate': 7.908966461327859e-06, 'epoch': 1.29}
+{'loss': 1.3846, 'grad_norm': 1.9313443899154663, 'learning_rate': 7.905544147843944e-06, 'epoch': 1.29}
+{'loss': 1.3896, 'grad_norm': 1.8255434036254883, 'learning_rate': 7.902121834360027e-06, 'epoch': 1.29}
+{'eval_loss': 1.7937365770339966, 'eval_runtime': 11.537, 'eval_samples_per_second': 52.007, 'eval_steps_per_second': 1.127, 'epoch': 1.29}
+{'loss': 1.3478, 'grad_norm': 1.8939841985702515, 'learning_rate': 7.898699520876113e-06, 'epoch': 1.3}
+{'loss': 1.4035, 'grad_norm': 1.9258147478103638, 'learning_rate': 7.895277207392198e-06, 'epoch': 1.3}
+{'loss': 1.3939, 'grad_norm': 1.8071728944778442, 'learning_rate': 7.891854893908283e-06, 'epoch': 1.3}
+{'loss': 1.3798, 'grad_norm': 1.8263813257217407, 'learning_rate': 7.888432580424368e-06, 'epoch': 1.3}
+{'loss': 1.4054, 'grad_norm': 1.864050269126892, 'learning_rate': 7.885010266940452e-06, 'epoch': 1.3}
+{'loss': 1.3895, 'grad_norm': 1.9178887605667114, 'learning_rate': 7.881587953456537e-06, 'epoch': 1.31}
+{'loss': 1.4031, 'grad_norm': 1.9532921314239502, 'learning_rate': 7.878165639972622e-06, 'epoch': 1.31}
+{'loss': 1.408, 'grad_norm': 1.8505226373672485, 'learning_rate': 7.874743326488708e-06, 'epoch': 1.31}
+{'loss': 1.3877, 'grad_norm': 1.8620519638061523, 'learning_rate': 7.871321013004793e-06, 'epoch': 1.31}
+{'loss': 1.3737, 'grad_norm': 1.8890854120254517, 'learning_rate': 7.867898699520878e-06, 'epoch': 1.31}
+{'eval_loss': 1.786041259765625, 'eval_runtime': 11.5277, 'eval_samples_per_second': 52.049, 'eval_steps_per_second': 1.128, 'epoch': 1.31}
+{'loss': 1.4104, 'grad_norm': 1.8894968032836914, 'learning_rate': 7.864476386036961e-06, 'epoch': 1.32}
+{'loss': 1.4168, 'grad_norm': 1.7658735513687134, 'learning_rate': 7.861054072553047e-06, 'epoch': 1.32}
+{'loss': 1.3947, 'grad_norm': 1.9612503051757812, 'learning_rate': 7.85763175906913e-06, 'epoch': 1.32}
+{'loss': 1.3437, 'grad_norm': 1.9346323013305664, 'learning_rate': 7.854209445585215e-06, 'epoch': 1.32}
+{'loss': 1.3643, 'grad_norm': 1.8585118055343628, 'learning_rate': 7.8507871321013e-06, 'epoch': 1.32}
+{'loss': 1.3515, 'grad_norm': 1.8826942443847656, 'learning_rate': 7.847364818617386e-06, 'epoch': 1.33}
+{'loss': 1.3845, 'grad_norm': 1.9049742221832275, 'learning_rate': 7.843942505133471e-06, 'epoch': 1.33}
+{'loss': 1.4218, 'grad_norm': 1.8524575233459473, 'learning_rate': 7.840520191649555e-06, 'epoch': 1.33}
+{'loss': 1.4067, 'grad_norm': 1.9093308448791504, 'learning_rate': 7.83709787816564e-06, 'epoch': 1.33}
+{'loss': 1.3307, 'grad_norm': 1.8181167840957642, 'learning_rate': 7.833675564681725e-06, 'epoch': 1.33}
+{'eval_loss': 1.774356484413147, 'eval_runtime': 11.5687, 'eval_samples_per_second': 51.864, 'eval_steps_per_second': 1.124, 'epoch': 1.33}
+{'loss': 1.4273, 'grad_norm': 1.7850829362869263, 'learning_rate': 7.83025325119781e-06, 'epoch': 1.34}
+{'loss': 1.402, 'grad_norm': 1.945141077041626, 'learning_rate': 7.826830937713896e-06, 'epoch': 1.34}
+{'loss': 1.4351, 'grad_norm': 1.921396255493164, 'learning_rate': 7.82340862422998e-06, 'epoch': 1.34}
+{'loss': 1.3749, 'grad_norm': 1.790023922920227, 'learning_rate': 7.819986310746064e-06, 'epoch': 1.34}
+{'loss': 1.4139, 'grad_norm': 1.7816576957702637, 'learning_rate': 7.81656399726215e-06, 'epoch': 1.34}
+{'loss': 1.4065, 'grad_norm': 1.7085036039352417, 'learning_rate': 7.813141683778235e-06, 'epoch': 1.35}
+{'loss': 1.3966, 'grad_norm': 1.7533206939697266, 'learning_rate': 7.80971937029432e-06, 'epoch': 1.35}
+{'loss': 1.4102, 'grad_norm': 1.671600580215454, 'learning_rate': 7.806297056810405e-06, 'epoch': 1.35}
+{'loss': 1.3551, 'grad_norm': 1.6388497352600098, 'learning_rate': 7.80287474332649e-06, 'epoch': 1.35}
+{'loss': 1.3835, 'grad_norm': 1.6197688579559326, 'learning_rate': 7.799452429842574e-06, 'epoch': 1.36}
+{'eval_loss': 1.783026933670044, 'eval_runtime': 11.5716, 'eval_samples_per_second': 51.851, 'eval_steps_per_second': 1.123, 'epoch': 1.36}
+{'loss': 1.3721, 'grad_norm': 1.6382051706314087, 'learning_rate': 7.796030116358659e-06, 'epoch': 1.36}
+{'loss': 1.4112, 'grad_norm': 1.7675039768218994, 'learning_rate': 7.792607802874744e-06, 'epoch': 1.36}
+{'loss': 1.4072, 'grad_norm': 1.7172917127609253, 'learning_rate': 7.78918548939083e-06, 'epoch': 1.36}
+{'loss': 1.3829, 'grad_norm': 1.6738637685775757, 'learning_rate': 7.785763175906915e-06, 'epoch': 1.36}
+{'loss': 1.4118, 'grad_norm': 1.6705608367919922, 'learning_rate': 7.782340862422998e-06, 'epoch': 1.37}
+{'loss': 1.4033, 'grad_norm': 1.6959071159362793, 'learning_rate': 7.778918548939084e-06, 'epoch': 1.37}
+{'loss': 1.4051, 'grad_norm': 1.7622995376586914, 'learning_rate': 7.775496235455169e-06, 'epoch': 1.37}
+{'loss': 1.4357, 'grad_norm': 1.8151453733444214, 'learning_rate': 7.772073921971252e-06, 'epoch': 1.37}
+{'loss': 1.377, 'grad_norm': 1.6461219787597656, 'learning_rate': 7.768651608487337e-06, 'epoch': 1.37}
+{'loss': 1.393, 'grad_norm': 1.8055847883224487, 'learning_rate': 7.765229295003423e-06, 'epoch': 1.38}
+{'eval_loss': 1.7619242668151855, 'eval_runtime': 11.5897, 'eval_samples_per_second': 51.77, 'eval_steps_per_second': 1.122, 'epoch': 1.38}
+{'loss': 1.3928, 'grad_norm': 1.7390257120132446, 'learning_rate': 7.761806981519508e-06, 'epoch': 1.38}
+{'loss': 1.4032, 'grad_norm': 1.792535424232483, 'learning_rate': 7.758384668035593e-06, 'epoch': 1.38}
+{'loss': 1.3767, 'grad_norm': 1.843247890472412, 'learning_rate': 7.754962354551677e-06, 'epoch': 1.38}
+{'loss': 1.4033, 'grad_norm': 1.773824691772461, 'learning_rate': 7.751540041067762e-06, 'epoch': 1.38}
+{'loss': 1.4083, 'grad_norm': 1.7777074575424194, 'learning_rate': 7.748117727583847e-06, 'epoch': 1.39}
+{'loss': 1.4019, 'grad_norm': 1.6767938137054443, 'learning_rate': 7.744695414099932e-06, 'epoch': 1.39}
+{'loss': 1.3601, 'grad_norm': 1.7550296783447266, 'learning_rate': 7.741273100616018e-06, 'epoch': 1.39}
+{'loss': 1.3928, 'grad_norm': 1.6497126817703247, 'learning_rate': 7.737850787132101e-06, 'epoch': 1.39}
+{'loss': 1.4, 'grad_norm': 1.7333984375, 'learning_rate': 7.734428473648186e-06, 'epoch': 1.39}
+{'loss': 1.3708, 'grad_norm': 1.760000228881836, 'learning_rate': 7.731006160164272e-06, 'epoch': 1.4}
+{'eval_loss': 1.7693519592285156, 'eval_runtime': 11.5818, 'eval_samples_per_second': 51.805, 'eval_steps_per_second': 1.122, 'epoch': 1.4}
+{'loss': 1.3622, 'grad_norm': 1.7845803499221802, 'learning_rate': 7.727583846680357e-06, 'epoch': 1.4}
+{'loss': 1.3833, 'grad_norm': 1.6754814386367798, 'learning_rate': 7.724161533196442e-06, 'epoch': 1.4}
+{'loss': 1.3554, 'grad_norm': 1.7401593923568726, 'learning_rate': 7.720739219712527e-06, 'epoch': 1.4}
+{'loss': 1.3659, 'grad_norm': 1.6277763843536377, 'learning_rate': 7.71731690622861e-06, 'epoch': 1.4}
+{'loss': 1.4139, 'grad_norm': 1.8180909156799316, 'learning_rate': 7.713894592744696e-06, 'epoch': 1.41}
+{'loss': 1.4334, 'grad_norm': 1.911455750465393, 'learning_rate': 7.710472279260781e-06, 'epoch': 1.41}
+{'loss': 1.3915, 'grad_norm': 1.676287055015564, 'learning_rate': 7.707049965776866e-06, 'epoch': 1.41}
+{'loss': 1.4109, 'grad_norm': 1.7855033874511719, 'learning_rate': 7.703627652292952e-06, 'epoch': 1.41}
+{'loss': 1.3985, 'grad_norm': 1.733375906944275, 'learning_rate': 7.700205338809035e-06, 'epoch': 1.41}
+{'loss': 1.3249, 'grad_norm': 1.7654222249984741, 'learning_rate': 7.69678302532512e-06, 'epoch': 1.42}
+{'eval_loss': 1.76898193359375, 'eval_runtime': 11.5668, 'eval_samples_per_second': 51.873, 'eval_steps_per_second': 1.124, 'epoch': 1.42}
+{'loss': 1.4205, 'grad_norm': 1.8811041116714478, 'learning_rate': 7.693360711841206e-06, 'epoch': 1.42}
+{'loss': 1.3774, 'grad_norm': 1.7606137990951538, 'learning_rate': 7.68993839835729e-06, 'epoch': 1.42}
+{'loss': 1.4312, 'grad_norm': 1.771894931793213, 'learning_rate': 7.686516084873376e-06, 'epoch': 1.42}
+{'loss': 1.3815, 'grad_norm': 1.7515077590942383, 'learning_rate': 7.683093771389461e-06, 'epoch': 1.43}
+{'loss': 1.3902, 'grad_norm': 1.8033443689346313, 'learning_rate': 7.679671457905545e-06, 'epoch': 1.43}
+{'loss': 1.337, 'grad_norm': 1.7607901096343994, 'learning_rate': 7.67624914442163e-06, 'epoch': 1.43}
+{'loss': 1.3876, 'grad_norm': 1.77700936794281, 'learning_rate': 7.672826830937714e-06, 'epoch': 1.43}
+{'loss': 1.3424, 'grad_norm': 1.7168101072311401, 'learning_rate': 7.669404517453799e-06, 'epoch': 1.43}
+{'loss': 1.3524, 'grad_norm': 1.6709494590759277, 'learning_rate': 7.665982203969884e-06, 'epoch': 1.44}
+{'loss': 1.3842, 'grad_norm': 1.8480712175369263, 'learning_rate': 7.66255989048597e-06, 'epoch': 1.44}
+{'eval_loss': 1.789228916168213, 'eval_runtime': 11.5748, 'eval_samples_per_second': 51.837, 'eval_steps_per_second': 1.123, 'epoch': 1.44}
+{'loss': 1.3809, 'grad_norm': 1.765086054801941, 'learning_rate': 7.659137577002054e-06, 'epoch': 1.44}
+{'loss': 1.3539, 'grad_norm': 1.5964829921722412, 'learning_rate': 7.655715263518138e-06, 'epoch': 1.44}
+{'loss': 1.3702, 'grad_norm': 1.792516827583313, 'learning_rate': 7.652292950034223e-06, 'epoch': 1.44}
+{'loss': 1.4053, 'grad_norm': 1.8533868789672852, 'learning_rate': 7.648870636550308e-06, 'epoch': 1.45}
+{'loss': 1.3622, 'grad_norm': 1.7441412210464478, 'learning_rate': 7.645448323066394e-06, 'epoch': 1.45}
+{'loss': 1.3667, 'grad_norm': 1.8595424890518188, 'learning_rate': 7.642026009582479e-06, 'epoch': 1.45}
+{'loss': 1.4033, 'grad_norm': 1.8778791427612305, 'learning_rate': 7.638603696098564e-06, 'epoch': 1.45}
+{'loss': 1.3631, 'grad_norm': 1.6740795373916626, 'learning_rate': 7.635181382614648e-06, 'epoch': 1.45}
+{'loss': 1.3588, 'grad_norm': 1.7359651327133179, 'learning_rate': 7.631759069130733e-06, 'epoch': 1.46}
+{'loss': 1.3564, 'grad_norm': 1.8202732801437378, 'learning_rate': 7.628336755646818e-06, 'epoch': 1.46}
+{'eval_loss': 1.7778178453445435, 'eval_runtime': 11.5666, 'eval_samples_per_second': 51.874, 'eval_steps_per_second': 1.124, 'epoch': 1.46}
+{'loss': 1.4103, 'grad_norm': 1.7751659154891968, 'learning_rate': 7.624914442162903e-06, 'epoch': 1.46}
+{'loss': 1.3793, 'grad_norm': 1.7821485996246338, 'learning_rate': 7.6214921286789876e-06, 'epoch': 1.46}
+{'loss': 1.3926, 'grad_norm': 1.7055624723434448, 'learning_rate': 7.618069815195073e-06, 'epoch': 1.46}
+{'loss': 1.4015, 'grad_norm': 1.7619719505310059, 'learning_rate': 7.614647501711158e-06, 'epoch': 1.47}
+{'loss': 1.3961, 'grad_norm': 1.7162835597991943, 'learning_rate': 7.611225188227242e-06, 'epoch': 1.47}
+{'loss': 1.3876, 'grad_norm': 1.80312180519104, 'learning_rate': 7.607802874743328e-06, 'epoch': 1.47}
+{'loss': 1.3766, 'grad_norm': 1.7461576461791992, 'learning_rate': 7.604380561259412e-06, 'epoch': 1.47}
+{'loss': 1.3926, 'grad_norm': 1.8222724199295044, 'learning_rate': 7.600958247775497e-06, 'epoch': 1.47}
+{'loss': 1.3994, 'grad_norm': 1.7910268306732178, 'learning_rate': 7.597535934291582e-06, 'epoch': 1.48}
+{'loss': 1.3759, 'grad_norm': 1.653637170791626, 'learning_rate': 7.594113620807667e-06, 'epoch': 1.48}
+{'eval_loss': 1.7785731554031372, 'eval_runtime': 11.5731, 'eval_samples_per_second': 51.844, 'eval_steps_per_second': 1.123, 'epoch': 1.48}
+{'loss': 1.3868, 'grad_norm': 1.8094512224197388, 'learning_rate': 7.590691307323751e-06, 'epoch': 1.48}
+{'loss': 1.3681, 'grad_norm': 1.7497328519821167, 'learning_rate': 7.5872689938398355e-06, 'epoch': 1.48}
+{'loss': 1.3713, 'grad_norm': 1.7247477769851685, 'learning_rate': 7.583846680355921e-06, 'epoch': 1.48}
+{'loss': 1.3664, 'grad_norm': 1.720030665397644, 'learning_rate': 7.580424366872006e-06, 'epoch': 1.49}
+{'loss': 1.4157, 'grad_norm': 1.7563655376434326, 'learning_rate': 7.57700205338809e-06, 'epoch': 1.49}
+{'loss': 1.3713, 'grad_norm': 1.8016128540039062, 'learning_rate': 7.5735797399041756e-06, 'epoch': 1.49}
+{'loss': 1.3744, 'grad_norm': 1.6848995685577393, 'learning_rate': 7.570157426420261e-06, 'epoch': 1.49}
+{'loss': 1.4009, 'grad_norm': 1.7236837148666382, 'learning_rate': 7.566735112936345e-06, 'epoch': 1.49}
+{'loss': 1.3719, 'grad_norm': 1.7139098644256592, 'learning_rate': 7.56331279945243e-06, 'epoch': 1.5}
+{'loss': 1.3779, 'grad_norm': 1.6391007900238037, 'learning_rate': 7.559890485968515e-06, 'epoch': 1.5}
+{'eval_loss': 1.7634317874908447, 'eval_runtime': 11.558, 'eval_samples_per_second': 51.912, 'eval_steps_per_second': 1.125, 'epoch': 1.5}
+{'loss': 1.3567, 'grad_norm': 1.7243907451629639, 'learning_rate': 7.5564681724846e-06, 'epoch': 1.5}
+{'loss': 1.397, 'grad_norm': 1.7790380716323853, 'learning_rate': 7.553045859000685e-06, 'epoch': 1.5}
+{'loss': 1.3898, 'grad_norm': 1.687047004699707, 'learning_rate': 7.54962354551677e-06, 'epoch': 1.51}
+{'loss': 1.3874, 'grad_norm': 1.7913461923599243, 'learning_rate': 7.546201232032855e-06, 'epoch': 1.51}
+{'loss': 1.38, 'grad_norm': 1.705668568611145, 'learning_rate': 7.54277891854894e-06, 'epoch': 1.51}
+{'loss': 1.3685, 'grad_norm': 1.6665557622909546, 'learning_rate': 7.539356605065024e-06, 'epoch': 1.51}
+{'loss': 1.3866, 'grad_norm': 1.732446312904358, 'learning_rate': 7.53593429158111e-06, 'epoch': 1.51}
+{'loss': 1.3832, 'grad_norm': 1.7234299182891846, 'learning_rate': 7.532511978097195e-06, 'epoch': 1.52}
+{'loss': 1.3879, 'grad_norm': 1.757928490638733, 'learning_rate': 7.529089664613279e-06, 'epoch': 1.52}
+{'loss': 1.3468, 'grad_norm': 1.7561352252960205, 'learning_rate': 7.5256673511293644e-06, 'epoch': 1.52}
+{'eval_loss': 1.7524975538253784, 'eval_runtime': 11.576, 'eval_samples_per_second': 51.832, 'eval_steps_per_second': 1.123, 'epoch': 1.52}
+{'loss': 1.3912, 'grad_norm': 1.77122962474823, 'learning_rate': 7.522245037645449e-06, 'epoch': 1.52}
+{'loss': 1.4229, 'grad_norm': 1.8031851053237915, 'learning_rate': 7.518822724161534e-06, 'epoch': 1.52}
+{'loss': 1.3788, 'grad_norm': 1.6996592283248901, 'learning_rate': 7.515400410677619e-06, 'epoch': 1.53}
+{'loss': 1.3866, 'grad_norm': 1.651029109954834, 'learning_rate': 7.511978097193704e-06, 'epoch': 1.53}
+{'loss': 1.4112, 'grad_norm': 1.7889922857284546, 'learning_rate': 7.508555783709789e-06, 'epoch': 1.53}
+{'loss': 1.345, 'grad_norm': 1.7471171617507935, 'learning_rate': 7.505133470225874e-06, 'epoch': 1.53}
+{'loss': 1.3879, 'grad_norm': 1.7174807786941528, 'learning_rate': 7.5017111567419584e-06, 'epoch': 1.53}
+{'loss': 1.3625, 'grad_norm': 1.7463701963424683, 'learning_rate': 7.498288843258043e-06, 'epoch': 1.54}
+{'loss': 1.4099, 'grad_norm': 1.7901593446731567, 'learning_rate': 7.494866529774127e-06, 'epoch': 1.54}
+{'loss': 1.3457, 'grad_norm': 1.6620827913284302, 'learning_rate': 7.491444216290212e-06, 'epoch': 1.54}
+{'eval_loss': 1.7556010484695435, 'eval_runtime': 11.5639, 'eval_samples_per_second': 51.885, 'eval_steps_per_second': 1.124, 'epoch': 1.54}
+{'loss': 1.4246, 'grad_norm': 1.6474971771240234, 'learning_rate': 7.488021902806298e-06, 'epoch': 1.54}
+{'loss': 1.3962, 'grad_norm': 1.7548631429672241, 'learning_rate': 7.484599589322382e-06, 'epoch': 1.54}
+{'loss': 1.3661, 'grad_norm': 1.7757999897003174, 'learning_rate': 7.481177275838467e-06, 'epoch': 1.55}
+{'loss': 1.3695, 'grad_norm': 1.8155200481414795, 'learning_rate': 7.4777549623545524e-06, 'epoch': 1.55}
+{'loss': 1.3945, 'grad_norm': 1.8349003791809082, 'learning_rate': 7.474332648870637e-06, 'epoch': 1.55}
+{'loss': 1.3711, 'grad_norm': 1.772849202156067, 'learning_rate': 7.470910335386722e-06, 'epoch': 1.55}
+{'loss': 1.4347, 'grad_norm': 1.7708172798156738, 'learning_rate': 7.467488021902806e-06, 'epoch': 1.55}
+{'loss': 1.3733, 'grad_norm': 1.7349191904067993, 'learning_rate': 7.464065708418892e-06, 'epoch': 1.56}
+{'loss': 1.375, 'grad_norm': 1.7772223949432373, 'learning_rate': 7.460643394934977e-06, 'epoch': 1.56}
+{'loss': 1.3735, 'grad_norm': 1.6926106214523315, 'learning_rate': 7.457221081451061e-06, 'epoch': 1.56}
+{'eval_loss': 1.748867392539978, 'eval_runtime': 11.489, 'eval_samples_per_second': 52.224, 'eval_steps_per_second': 1.132, 'epoch': 1.56}
+{'loss': 1.3759, 'grad_norm': 1.7573108673095703, 'learning_rate': 7.4537987679671464e-06, 'epoch': 1.56}
+{'loss': 1.3766, 'grad_norm': 1.6725457906723022, 'learning_rate': 7.450376454483232e-06, 'epoch': 1.56}
+{'loss': 1.3658, 'grad_norm': 1.747352123260498, 'learning_rate': 7.446954140999316e-06, 'epoch': 1.57}
+{'loss': 1.3715, 'grad_norm': 1.709015130996704, 'learning_rate': 7.443531827515401e-06, 'epoch': 1.57}
+{'loss': 1.4067, 'grad_norm': 1.667266607284546, 'learning_rate': 7.4401095140314865e-06, 'epoch': 1.57}
+{'loss': 1.3907, 'grad_norm': 1.7596696615219116, 'learning_rate': 7.436687200547571e-06, 'epoch': 1.57}
+{'loss': 1.3828, 'grad_norm': 1.7537333965301514, 'learning_rate': 7.433264887063656e-06, 'epoch': 1.57}
+{'loss': 1.3612, 'grad_norm': 1.856478214263916, 'learning_rate': 7.4298425735797404e-06, 'epoch': 1.58}
+{'loss': 1.3352, 'grad_norm': 1.6708606481552124, 'learning_rate': 7.426420260095826e-06, 'epoch': 1.58}
+{'loss': 1.3491, 'grad_norm': 1.7093780040740967, 'learning_rate': 7.422997946611911e-06, 'epoch': 1.58}
+{'eval_loss': 1.749573826789856, 'eval_runtime': 11.5155, 'eval_samples_per_second': 52.104, 'eval_steps_per_second': 1.129, 'epoch': 1.58}
+{'loss': 1.3597, 'grad_norm': 1.7412079572677612, 'learning_rate': 7.419575633127995e-06, 'epoch': 1.58}
+{'loss': 1.3824, 'grad_norm': 1.6828360557556152, 'learning_rate': 7.4161533196440805e-06, 'epoch': 1.59}
+{'loss': 1.4108, 'grad_norm': 1.766228437423706, 'learning_rate': 7.412731006160166e-06, 'epoch': 1.59}
+{'loss': 1.3802, 'grad_norm': 1.6538199186325073, 'learning_rate': 7.40930869267625e-06, 'epoch': 1.59}
+{'loss': 1.4156, 'grad_norm': 1.8055016994476318, 'learning_rate': 7.4058863791923344e-06, 'epoch': 1.59}
+{'loss': 1.3903, 'grad_norm': 1.657082438468933, 'learning_rate': 7.402464065708419e-06, 'epoch': 1.59}
+{'loss': 1.374, 'grad_norm': 1.728687047958374, 'learning_rate': 7.399041752224504e-06, 'epoch': 1.6}
+{'loss': 1.359, 'grad_norm': 1.607717514038086, 'learning_rate': 7.395619438740589e-06, 'epoch': 1.6}
+{'loss': 1.3542, 'grad_norm': 1.6452686786651611, 'learning_rate': 7.392197125256674e-06, 'epoch': 1.6}
+{'loss': 1.3426, 'grad_norm': 1.7381107807159424, 'learning_rate': 7.388774811772759e-06, 'epoch': 1.6}
+{'eval_loss': 1.7477864027023315, 'eval_runtime': 11.5575, 'eval_samples_per_second': 51.914, 'eval_steps_per_second': 1.125, 'epoch': 1.6}
+{'loss': 1.4228, 'grad_norm': 1.746174693107605, 'learning_rate': 7.385352498288843e-06, 'epoch': 1.6}
+{'loss': 1.3651, 'grad_norm': 1.8191261291503906, 'learning_rate': 7.3819301848049284e-06, 'epoch': 1.61}
+{'loss': 1.3671, 'grad_norm': 1.7547109127044678, 'learning_rate': 7.378507871321014e-06, 'epoch': 1.61}
+{'loss': 1.387, 'grad_norm': 1.680881381034851, 'learning_rate': 7.375085557837098e-06, 'epoch': 1.61}
+{'loss': 1.3838, 'grad_norm': 1.7754991054534912, 'learning_rate': 7.371663244353183e-06, 'epoch': 1.61}
+{'loss': 1.3836, 'grad_norm': 1.7623122930526733, 'learning_rate': 7.3682409308692685e-06, 'epoch': 1.61}
+{'loss': 1.3881, 'grad_norm': 1.790732741355896, 'learning_rate': 7.364818617385353e-06, 'epoch': 1.62}
+{'loss': 1.3774, 'grad_norm': 1.8149549961090088, 'learning_rate': 7.361396303901438e-06, 'epoch': 1.62}
+{'loss': 1.3401, 'grad_norm': 1.6432607173919678, 'learning_rate': 7.357973990417523e-06, 'epoch': 1.62}
+{'loss': 1.3767, 'grad_norm': 1.7624011039733887, 'learning_rate': 7.354551676933608e-06, 'epoch': 1.62}
+{'eval_loss': 1.7437913417816162, 'eval_runtime': 11.5682, 'eval_samples_per_second': 51.866, 'eval_steps_per_second': 1.124, 'epoch': 1.62}
+{'loss': 1.3595, 'grad_norm': 1.6846710443496704, 'learning_rate': 7.351129363449693e-06, 'epoch': 1.62}
+{'loss': 1.3744, 'grad_norm': 1.6694693565368652, 'learning_rate': 7.347707049965777e-06, 'epoch': 1.63}
+{'loss': 1.3732, 'grad_norm': 1.750260829925537, 'learning_rate': 7.3442847364818625e-06, 'epoch': 1.63}
+{'loss': 1.3821, 'grad_norm': 1.6780225038528442, 'learning_rate': 7.340862422997948e-06, 'epoch': 1.63}
+{'loss': 1.3705, 'grad_norm': 1.7060503959655762, 'learning_rate': 7.337440109514032e-06, 'epoch': 1.63}
+{'loss': 1.4037, 'grad_norm': 1.7672611474990845, 'learning_rate': 7.334017796030117e-06, 'epoch': 1.63}
+{'loss': 1.3806, 'grad_norm': 1.7158150672912598, 'learning_rate': 7.3305954825462025e-06, 'epoch': 1.64}
+{'loss': 1.3515, 'grad_norm': 1.7146395444869995, 'learning_rate': 7.327173169062287e-06, 'epoch': 1.64}
+{'loss': 1.3708, 'grad_norm': 1.899463176727295, 'learning_rate': 7.323750855578372e-06, 'epoch': 1.64}
+{'loss': 1.3687, 'grad_norm': 1.729827642440796, 'learning_rate': 7.320328542094457e-06, 'epoch': 1.64}
+{'eval_loss': 1.7496439218521118, 'eval_runtime': 11.5604, 'eval_samples_per_second': 51.901, 'eval_steps_per_second': 1.125, 'epoch': 1.64}
+{'loss': 1.3934, 'grad_norm': 1.728428602218628, 'learning_rate': 7.316906228610541e-06, 'epoch': 1.64}
+{'loss': 1.3471, 'grad_norm': 1.7274848222732544, 'learning_rate': 7.313483915126626e-06, 'epoch': 1.65}
+{'loss': 1.379, 'grad_norm': 1.689069390296936, 'learning_rate': 7.3100616016427104e-06, 'epoch': 1.65}
+{'loss': 1.4145, 'grad_norm': 1.7841715812683105, 'learning_rate': 7.306639288158796e-06, 'epoch': 1.65}
+{'loss': 1.4044, 'grad_norm': 1.7025961875915527, 'learning_rate': 7.30321697467488e-06, 'epoch': 1.65}
+{'loss': 1.4112, 'grad_norm': 1.7464723587036133, 'learning_rate': 7.299794661190965e-06, 'epoch': 1.66}
+{'loss': 1.3589, 'grad_norm': 1.7612565755844116, 'learning_rate': 7.2963723477070505e-06, 'epoch': 1.66}
+{'loss': 1.3568, 'grad_norm': 1.6741943359375, 'learning_rate': 7.292950034223135e-06, 'epoch': 1.66}
+{'loss': 1.3243, 'grad_norm': 1.68824303150177, 'learning_rate': 7.28952772073922e-06, 'epoch': 1.66}
+{'loss': 1.3356, 'grad_norm': 1.6432360410690308, 'learning_rate': 7.286105407255305e-06, 'epoch': 1.66}
+{'eval_loss': 1.7519958019256592, 'eval_runtime': 11.6017, 'eval_samples_per_second': 51.717, 'eval_steps_per_second': 1.121, 'epoch': 1.66}
+{'loss': 1.3617, 'grad_norm': 1.7940356731414795, 'learning_rate': 7.28268309377139e-06, 'epoch': 1.67}
+{'loss': 1.4198, 'grad_norm': 1.8372424840927124, 'learning_rate': 7.279260780287475e-06, 'epoch': 1.67}
+{'loss': 1.344, 'grad_norm': 1.7784656286239624, 'learning_rate': 7.27583846680356e-06, 'epoch': 1.67}
+{'loss': 1.3615, 'grad_norm': 1.7003974914550781, 'learning_rate': 7.2724161533196445e-06, 'epoch': 1.67}
+{'loss': 1.3718, 'grad_norm': 1.7549569606781006, 'learning_rate': 7.26899383983573e-06, 'epoch': 1.67}
+{'loss': 1.3843, 'grad_norm': 1.7725518941879272, 'learning_rate': 7.265571526351815e-06, 'epoch': 1.68}
+{'loss': 1.3563, 'grad_norm': 1.7130433320999146, 'learning_rate': 7.262149212867899e-06, 'epoch': 1.68}
+{'loss': 1.414, 'grad_norm': 1.7661622762680054, 'learning_rate': 7.2587268993839845e-06, 'epoch': 1.68}
+{'loss': 1.3784, 'grad_norm': 1.677129864692688, 'learning_rate': 7.255304585900069e-06, 'epoch': 1.68}
+{'loss': 1.3843, 'grad_norm': 1.6524937152862549, 'learning_rate': 7.251882272416154e-06, 'epoch': 1.68}
+{'eval_loss': 1.7417110204696655, 'eval_runtime': 11.5808, 'eval_samples_per_second': 51.81, 'eval_steps_per_second': 1.123, 'epoch': 1.68}
+{'loss': 1.3389, 'grad_norm': 1.722089171409607, 'learning_rate': 7.248459958932239e-06, 'epoch': 1.69}
+{'loss': 1.3744, 'grad_norm': 1.7751644849777222, 'learning_rate': 7.245037645448324e-06, 'epoch': 1.69}
+{'loss': 1.3432, 'grad_norm': 1.6184362173080444, 'learning_rate': 7.241615331964409e-06, 'epoch': 1.69}
+{'loss': 1.3217, 'grad_norm': 1.6738550662994385, 'learning_rate': 7.238193018480494e-06, 'epoch': 1.69}
+{'loss': 1.3266, 'grad_norm': 1.576699137687683, 'learning_rate': 7.2347707049965785e-06, 'epoch': 1.69}
+{'loss': 1.4197, 'grad_norm': 1.8888065814971924, 'learning_rate': 7.231348391512664e-06, 'epoch': 1.7}
+{'loss': 1.3684, 'grad_norm': 1.7298868894577026, 'learning_rate': 7.227926078028749e-06, 'epoch': 1.7}
+{'loss': 1.3727, 'grad_norm': 1.6872413158416748, 'learning_rate': 7.2245037645448325e-06, 'epoch': 1.7}
+{'loss': 1.3756, 'grad_norm': 1.6857951879501343, 'learning_rate': 7.221081451060918e-06, 'epoch': 1.7}
+{'loss': 1.3809, 'grad_norm': 1.780951738357544, 'learning_rate': 7.217659137577002e-06, 'epoch': 1.7}
+{'eval_loss': 1.7485898733139038, 'eval_runtime': 11.573, 'eval_samples_per_second': 51.845, 'eval_steps_per_second': 1.123, 'epoch': 1.7}
+{'loss': 1.3684, 'grad_norm': 1.729838490486145, 'learning_rate': 7.214236824093087e-06, 'epoch': 1.71}
+{'loss': 1.3178, 'grad_norm': 1.642244815826416, 'learning_rate': 7.210814510609172e-06, 'epoch': 1.71}
+{'loss': 1.374, 'grad_norm': 1.6898455619812012, 'learning_rate': 7.207392197125257e-06, 'epoch': 1.71}
+{'loss': 1.3342, 'grad_norm': 1.623466968536377, 'learning_rate': 7.203969883641342e-06, 'epoch': 1.71}
+{'loss': 1.3593, 'grad_norm': 1.70951509475708, 'learning_rate': 7.2005475701574265e-06, 'epoch': 1.71}
+{'loss': 1.3824, 'grad_norm': 1.735022783279419, 'learning_rate': 7.197125256673512e-06, 'epoch': 1.72}
+{'loss': 1.3704, 'grad_norm': 1.712681531906128, 'learning_rate': 7.193702943189597e-06, 'epoch': 1.72}
+{'loss': 1.361, 'grad_norm': 1.6979129314422607, 'learning_rate': 7.190280629705681e-06, 'epoch': 1.72}
+{'loss': 1.3531, 'grad_norm': 1.7182559967041016, 'learning_rate': 7.1868583162217665e-06, 'epoch': 1.72}
+{'loss': 1.3724, 'grad_norm': 1.7221754789352417, 'learning_rate': 7.183436002737852e-06, 'epoch': 1.72}
+{'eval_loss': 1.7514187097549438, 'eval_runtime': 11.5774, 'eval_samples_per_second': 51.825, 'eval_steps_per_second': 1.123, 'epoch': 1.72}
+{'loss': 1.3639, 'grad_norm': 1.7144752740859985, 'learning_rate': 7.180013689253936e-06, 'epoch': 1.73}
+{'loss': 1.3844, 'grad_norm': 1.5993927717208862, 'learning_rate': 7.176591375770021e-06, 'epoch': 1.73}
+{'loss': 1.3852, 'grad_norm': 1.6073577404022217, 'learning_rate': 7.173169062286106e-06, 'epoch': 1.73}
+{'loss': 1.3486, 'grad_norm': 1.6023763418197632, 'learning_rate': 7.169746748802191e-06, 'epoch': 1.73}
+{'loss': 1.3812, 'grad_norm': 1.7489804029464722, 'learning_rate': 7.166324435318276e-06, 'epoch': 1.74}
+{'loss': 1.3941, 'grad_norm': 1.7357957363128662, 'learning_rate': 7.1629021218343605e-06, 'epoch': 1.74}
+{'loss': 1.3867, 'grad_norm': 1.7067681550979614, 'learning_rate': 7.159479808350446e-06, 'epoch': 1.74}
+{'loss': 1.3757, 'grad_norm': 1.7350611686706543, 'learning_rate': 7.156057494866531e-06, 'epoch': 1.74}
+{'loss': 1.3464, 'grad_norm': 1.6411134004592896, 'learning_rate': 7.152635181382615e-06, 'epoch': 1.74}
+{'loss': 1.3791, 'grad_norm': 1.6446173191070557, 'learning_rate': 7.1492128678987005e-06, 'epoch': 1.75}
+{'eval_loss': 1.7396496534347534, 'eval_runtime': 11.5589, 'eval_samples_per_second': 51.908, 'eval_steps_per_second': 1.125, 'epoch': 1.75}
+{'loss': 1.3436, 'grad_norm': 1.6523274183273315, 'learning_rate': 7.145790554414786e-06, 'epoch': 1.75}
+{'loss': 1.3736, 'grad_norm': 1.7065197229385376, 'learning_rate': 7.14236824093087e-06, 'epoch': 1.75}
+{'loss': 1.3635, 'grad_norm': 1.6517807245254517, 'learning_rate': 7.138945927446955e-06, 'epoch': 1.75}
+{'loss': 1.3636, 'grad_norm': 1.722359538078308, 'learning_rate': 7.135523613963039e-06, 'epoch': 1.75}
+{'loss': 1.3698, 'grad_norm': 1.7653775215148926, 'learning_rate': 7.132101300479124e-06, 'epoch': 1.76}
+{'loss': 1.3575, 'grad_norm': 1.6754584312438965, 'learning_rate': 7.1286789869952085e-06, 'epoch': 1.76}
+{'loss': 1.3708, 'grad_norm': 1.6457147598266602, 'learning_rate': 7.125256673511294e-06, 'epoch': 1.76}
+{'loss': 1.4049, 'grad_norm': 1.6922894716262817, 'learning_rate': 7.121834360027379e-06, 'epoch': 1.76}
+{'loss': 1.3971, 'grad_norm': 1.7229621410369873, 'learning_rate': 7.118412046543463e-06, 'epoch': 1.76}
+{'loss': 1.3807, 'grad_norm': 1.6666935682296753, 'learning_rate': 7.1149897330595485e-06, 'epoch': 1.77}
+{'eval_loss': 1.7532432079315186, 'eval_runtime': 11.577, 'eval_samples_per_second': 51.827, 'eval_steps_per_second': 1.123, 'epoch': 1.77}
+{'loss': 1.3456, 'grad_norm': 1.6069467067718506, 'learning_rate': 7.111567419575634e-06, 'epoch': 1.77}
+{'loss': 1.3768, 'grad_norm': 1.685864806175232, 'learning_rate': 7.108145106091718e-06, 'epoch': 1.77}
+{'loss': 1.3642, 'grad_norm': 1.6248623132705688, 'learning_rate': 7.104722792607803e-06, 'epoch': 1.77}
+{'loss': 1.3286, 'grad_norm': 1.6420865058898926, 'learning_rate': 7.1013004791238886e-06, 'epoch': 1.77}
+{'loss': 1.3814, 'grad_norm': 1.786620020866394, 'learning_rate': 7.097878165639973e-06, 'epoch': 1.78}
+{'loss': 1.3617, 'grad_norm': 1.6559464931488037, 'learning_rate': 7.094455852156058e-06, 'epoch': 1.78}
+{'loss': 1.3643, 'grad_norm': 1.6420234441757202, 'learning_rate': 7.091033538672143e-06, 'epoch': 1.78}
+{'loss': 1.3909, 'grad_norm': 1.6968852281570435, 'learning_rate': 7.087611225188228e-06, 'epoch': 1.78}
+{'loss': 1.3702, 'grad_norm': 1.7652945518493652, 'learning_rate': 7.084188911704313e-06, 'epoch': 1.78}
+{'loss': 1.3772, 'grad_norm': 1.629091501235962, 'learning_rate': 7.080766598220397e-06, 'epoch': 1.79}
+{'eval_loss': 1.7615734338760376, 'eval_runtime': 11.5836, 'eval_samples_per_second': 51.797, 'eval_steps_per_second': 1.122, 'epoch': 1.79}
+{'loss': 1.3616, 'grad_norm': 1.6577755212783813, 'learning_rate': 7.0773442847364826e-06, 'epoch': 1.79}
+{'loss': 1.4013, 'grad_norm': 1.8569213151931763, 'learning_rate': 7.073921971252568e-06, 'epoch': 1.79}
+{'loss': 1.3777, 'grad_norm': 1.640761137008667, 'learning_rate': 7.070499657768652e-06, 'epoch': 1.79}
+{'loss': 1.3534, 'grad_norm': 1.7361154556274414, 'learning_rate': 7.067077344284737e-06, 'epoch': 1.79}
+{'loss': 1.3717, 'grad_norm': 1.7915266752243042, 'learning_rate': 7.063655030800823e-06, 'epoch': 1.8}
+{'loss': 1.3552, 'grad_norm': 1.7069549560546875, 'learning_rate': 7.060232717316907e-06, 'epoch': 1.8}
+{'loss': 1.3454, 'grad_norm': 1.7570596933364868, 'learning_rate': 7.056810403832992e-06, 'epoch': 1.8}
+{'loss': 1.3124, 'grad_norm': 1.7932028770446777, 'learning_rate': 7.053388090349077e-06, 'epoch': 1.8}
+{'loss': 1.3699, 'grad_norm': 1.639732003211975, 'learning_rate': 7.049965776865162e-06, 'epoch': 1.8}
+{'loss': 1.3214, 'grad_norm': 1.6186875104904175, 'learning_rate': 7.046543463381247e-06, 'epoch': 1.81}
+{'eval_loss': 1.7674577236175537, 'eval_runtime': 11.576, 'eval_samples_per_second': 51.831, 'eval_steps_per_second': 1.123, 'epoch': 1.81}
+{'loss': 1.3758, 'grad_norm': 1.675796627998352, 'learning_rate': 7.0431211498973305e-06, 'epoch': 1.81}
+{'loss': 1.3677, 'grad_norm': 1.711273431777954, 'learning_rate': 7.039698836413416e-06, 'epoch': 1.81}
+{'loss': 1.3824, 'grad_norm': 1.7274491786956787, 'learning_rate': 7.0362765229295e-06, 'epoch': 1.81}
+{'loss': 1.3195, 'grad_norm': 1.744575023651123, 'learning_rate': 7.032854209445585e-06, 'epoch': 1.82}
+{'loss': 1.3566, 'grad_norm': 1.8149933815002441, 'learning_rate': 7.0294318959616706e-06, 'epoch': 1.82}
+{'loss': 1.4068, 'grad_norm': 1.8705735206604004, 'learning_rate': 7.026009582477755e-06, 'epoch': 1.82}
+{'loss': 1.344, 'grad_norm': 1.6609857082366943, 'learning_rate': 7.02258726899384e-06, 'epoch': 1.82}
+{'loss': 1.364, 'grad_norm': 1.6513127088546753, 'learning_rate': 7.019164955509925e-06, 'epoch': 1.82}
+{'loss': 1.3617, 'grad_norm': 1.7221088409423828, 'learning_rate': 7.01574264202601e-06, 'epoch': 1.83}
+{'loss': 1.3454, 'grad_norm': 1.6646082401275635, 'learning_rate': 7.012320328542095e-06, 'epoch': 1.83}
+{'eval_loss': 1.772813320159912, 'eval_runtime': 11.5738, 'eval_samples_per_second': 51.841, 'eval_steps_per_second': 1.123, 'epoch': 1.83}
+{'loss': 1.3335, 'grad_norm': 1.6917259693145752, 'learning_rate': 7.00889801505818e-06, 'epoch': 1.83}
+{'loss': 1.4066, 'grad_norm': 1.816017508506775, 'learning_rate': 7.0054757015742646e-06, 'epoch': 1.83}
+{'loss': 1.3427, 'grad_norm': 1.6426056623458862, 'learning_rate': 7.00205338809035e-06, 'epoch': 1.83}
+{'loss': 1.3385, 'grad_norm': 1.6851485967636108, 'learning_rate': 6.998631074606434e-06, 'epoch': 1.84}
+{'loss': 1.3451, 'grad_norm': 1.664237380027771, 'learning_rate': 6.995208761122519e-06, 'epoch': 1.84}
+{'loss': 1.3632, 'grad_norm': 1.6373960971832275, 'learning_rate': 6.991786447638605e-06, 'epoch': 1.84}
+{'loss': 1.3621, 'grad_norm': 1.6268091201782227, 'learning_rate': 6.988364134154689e-06, 'epoch': 1.84}
+{'loss': 1.3906, 'grad_norm': 1.6980078220367432, 'learning_rate': 6.984941820670774e-06, 'epoch': 1.84}
+{'loss': 1.3597, 'grad_norm': 1.696876049041748, 'learning_rate': 6.981519507186859e-06, 'epoch': 1.85}
+{'loss': 1.3702, 'grad_norm': 1.688564419746399, 'learning_rate': 6.978097193702944e-06, 'epoch': 1.85}
+{'eval_loss': 1.7685292959213257, 'eval_runtime': 11.5667, 'eval_samples_per_second': 51.873, 'eval_steps_per_second': 1.124, 'epoch': 1.85}
+{'loss': 1.3551, 'grad_norm': 1.6485185623168945, 'learning_rate': 6.974674880219029e-06, 'epoch': 1.85}
+{'loss': 1.4068, 'grad_norm': 1.66051185131073, 'learning_rate': 6.971252566735114e-06, 'epoch': 1.85}
+{'loss': 1.381, 'grad_norm': 1.646050214767456, 'learning_rate': 6.967830253251199e-06, 'epoch': 1.85}
+{'loss': 1.3657, 'grad_norm': 1.6383873224258423, 'learning_rate': 6.964407939767284e-06, 'epoch': 1.86}
+{'loss': 1.3526, 'grad_norm': 1.671203851699829, 'learning_rate': 6.960985626283368e-06, 'epoch': 1.86}
+{'loss': 1.3596, 'grad_norm': 1.7634494304656982, 'learning_rate': 6.957563312799453e-06, 'epoch': 1.86}
+{'loss': 1.3897, 'grad_norm': 1.753495454788208, 'learning_rate': 6.954140999315537e-06, 'epoch': 1.86}
+{'loss': 1.3151, 'grad_norm': 1.6430292129516602, 'learning_rate': 6.950718685831622e-06, 'epoch': 1.86}
+{'loss': 1.3715, 'grad_norm': 1.7193641662597656, 'learning_rate': 6.947296372347707e-06, 'epoch': 1.87}
+{'loss': 1.3725, 'grad_norm': 1.6700413227081299, 'learning_rate': 6.943874058863792e-06, 'epoch': 1.87}
+{'eval_loss': 1.757381558418274, 'eval_runtime': 11.4716, 'eval_samples_per_second': 52.303, 'eval_steps_per_second': 1.133, 'epoch': 1.87}
+{'loss': 1.3348, 'grad_norm': 1.6725258827209473, 'learning_rate': 6.940451745379877e-06, 'epoch': 1.87}
+{'loss': 1.3583, 'grad_norm': 1.6076489686965942, 'learning_rate': 6.937029431895962e-06, 'epoch': 1.87}
+{'loss': 1.332, 'grad_norm': 1.5985437631607056, 'learning_rate': 6.9336071184120466e-06, 'epoch': 1.87}
+{'loss': 1.3749, 'grad_norm': 1.6971619129180908, 'learning_rate': 6.930184804928132e-06, 'epoch': 1.88}
+{'loss': 1.3896, 'grad_norm': 1.683668851852417, 'learning_rate': 6.926762491444217e-06, 'epoch': 1.88}
+{'loss': 1.38, 'grad_norm': 1.6971855163574219, 'learning_rate': 6.923340177960301e-06, 'epoch': 1.88}
+{'loss': 1.3879, 'grad_norm': 1.66511869430542, 'learning_rate': 6.919917864476387e-06, 'epoch': 1.88}
+{'loss': 1.3626, 'grad_norm': 1.6241310834884644, 'learning_rate': 6.916495550992471e-06, 'epoch': 1.89}
+{'loss': 1.4127, 'grad_norm': 1.822210431098938, 'learning_rate': 6.913073237508556e-06, 'epoch': 1.89}
+{'loss': 1.3618, 'grad_norm': 1.6611442565917969, 'learning_rate': 6.909650924024641e-06, 'epoch': 1.89}
+{'eval_loss': 1.7518141269683838, 'eval_runtime': 11.5288, 'eval_samples_per_second': 52.044, 'eval_steps_per_second': 1.128, 'epoch': 1.89}
+{'loss': 1.3604, 'grad_norm': 1.6549638509750366, 'learning_rate': 6.906228610540726e-06, 'epoch': 1.89}
+{'loss': 1.3748, 'grad_norm': 1.721627950668335, 'learning_rate': 6.902806297056811e-06, 'epoch': 1.89}
+{'loss': 1.368, 'grad_norm': 1.6734508275985718, 'learning_rate': 6.899383983572896e-06, 'epoch': 1.9}
+{'loss': 1.3825, 'grad_norm': 1.7115206718444824, 'learning_rate': 6.895961670088981e-06, 'epoch': 1.9}
+{'loss': 1.3543, 'grad_norm': 1.7170040607452393, 'learning_rate': 6.892539356605066e-06, 'epoch': 1.9}
+{'loss': 1.34, 'grad_norm': 1.6853041648864746, 'learning_rate': 6.889117043121151e-06, 'epoch': 1.9}
+{'loss': 1.35, 'grad_norm': 1.7048468589782715, 'learning_rate': 6.885694729637235e-06, 'epoch': 1.9}
+{'loss': 1.3298, 'grad_norm': 1.6806544065475464, 'learning_rate': 6.882272416153321e-06, 'epoch': 1.91}
+{'loss': 1.3563, 'grad_norm': 1.7149120569229126, 'learning_rate': 6.878850102669406e-06, 'epoch': 1.91}
+{'loss': 1.3219, 'grad_norm': 1.678609848022461, 'learning_rate': 6.87542778918549e-06, 'epoch': 1.91}
+{'eval_loss': 1.7491058111190796, 'eval_runtime': 11.5605, 'eval_samples_per_second': 51.901, 'eval_steps_per_second': 1.125, 'epoch': 1.91}
+{'loss': 1.3698, 'grad_norm': 1.7211828231811523, 'learning_rate': 6.8720054757015754e-06, 'epoch': 1.91}
+{'loss': 1.3537, 'grad_norm': 1.6805682182312012, 'learning_rate': 6.86858316221766e-06, 'epoch': 1.91}
+{'loss': 1.3382, 'grad_norm': 1.6108179092407227, 'learning_rate': 6.865160848733745e-06, 'epoch': 1.92}
+{'loss': 1.3869, 'grad_norm': 1.6790556907653809, 'learning_rate': 6.8617385352498286e-06, 'epoch': 1.92}
+{'loss': 1.3636, 'grad_norm': 1.6019718647003174, 'learning_rate': 6.858316221765914e-06, 'epoch': 1.92}
+{'loss': 1.3487, 'grad_norm': 1.7830740213394165, 'learning_rate': 6.854893908281999e-06, 'epoch': 1.92}
+{'loss': 1.319, 'grad_norm': 1.6276767253875732, 'learning_rate': 6.851471594798083e-06, 'epoch': 1.92}
+{'loss': 1.3204, 'grad_norm': 1.830736517906189, 'learning_rate': 6.848049281314169e-06, 'epoch': 1.93}
+{'loss': 1.3211, 'grad_norm': 1.6866248846054077, 'learning_rate': 6.844626967830254e-06, 'epoch': 1.93}
+{'loss': 1.3506, 'grad_norm': 1.7128500938415527, 'learning_rate': 6.841204654346338e-06, 'epoch': 1.93}
+{'eval_loss': 1.7550365924835205, 'eval_runtime': 11.5463, 'eval_samples_per_second': 51.965, 'eval_steps_per_second': 1.126, 'epoch': 1.93}
+{'loss': 1.3614, 'grad_norm': 1.7107504606246948, 'learning_rate': 6.837782340862423e-06, 'epoch': 1.93}
+{'loss': 1.3954, 'grad_norm': 1.7413177490234375, 'learning_rate': 6.834360027378509e-06, 'epoch': 1.93}
+{'loss': 1.3315, 'grad_norm': 1.707142949104309, 'learning_rate': 6.830937713894593e-06, 'epoch': 1.94}
+{'loss': 1.354, 'grad_norm': 1.6967357397079468, 'learning_rate': 6.827515400410678e-06, 'epoch': 1.94}
+{'loss': 1.3613, 'grad_norm': 1.7622820138931274, 'learning_rate': 6.824093086926763e-06, 'epoch': 1.94}
+{'loss': 1.3357, 'grad_norm': 1.729569673538208, 'learning_rate': 6.820670773442848e-06, 'epoch': 1.94}
+{'loss': 1.3553, 'grad_norm': 1.7925242185592651, 'learning_rate': 6.817248459958933e-06, 'epoch': 1.94}
+{'loss': 1.3503, 'grad_norm': 1.7906535863876343, 'learning_rate': 6.813826146475017e-06, 'epoch': 1.95}
+{'loss': 1.32, 'grad_norm': 1.654712438583374, 'learning_rate': 6.810403832991103e-06, 'epoch': 1.95}
+{'loss': 1.365, 'grad_norm': 1.6888461112976074, 'learning_rate': 6.806981519507188e-06, 'epoch': 1.95}
+{'eval_loss': 1.753606915473938, 'eval_runtime': 11.572, 'eval_samples_per_second': 51.849, 'eval_steps_per_second': 1.123, 'epoch': 1.95}
+{'loss': 1.3496, 'grad_norm': 1.6629304885864258, 'learning_rate': 6.803559206023272e-06, 'epoch': 1.95}
+{'loss': 1.3787, 'grad_norm': 1.70097815990448, 'learning_rate': 6.8001368925393575e-06, 'epoch': 1.95}
+{'loss': 1.3889, 'grad_norm': 1.766242265701294, 'learning_rate': 6.796714579055443e-06, 'epoch': 1.96}
+{'loss': 1.3807, 'grad_norm': 1.747113585472107, 'learning_rate': 6.793292265571527e-06, 'epoch': 1.96}
+{'loss': 1.337, 'grad_norm': 1.8307915925979614, 'learning_rate': 6.789869952087612e-06, 'epoch': 1.96}
+{'loss': 1.3889, 'grad_norm': 1.9157993793487549, 'learning_rate': 6.786447638603697e-06, 'epoch': 1.96}
+{'loss': 1.3382, 'grad_norm': 1.6500869989395142, 'learning_rate': 6.783025325119782e-06, 'epoch': 1.97}
+{'loss': 1.3407, 'grad_norm': 1.7690632343292236, 'learning_rate': 6.779603011635867e-06, 'epoch': 1.97}
+{'loss': 1.3159, 'grad_norm': 1.6937296390533447, 'learning_rate': 6.7761806981519515e-06, 'epoch': 1.97}
+{'loss': 1.3188, 'grad_norm': 1.6156245470046997, 'learning_rate': 6.772758384668037e-06, 'epoch': 1.97}
+{'eval_loss': 1.7462046146392822, 'eval_runtime': 11.558, 'eval_samples_per_second': 51.912, 'eval_steps_per_second': 1.125, 'epoch': 1.97}
+{'loss': 1.3425, 'grad_norm': 1.71920645236969, 'learning_rate': 6.76933607118412e-06, 'epoch': 1.97}
+{'loss': 1.3784, 'grad_norm': 1.8528584241867065, 'learning_rate': 6.765913757700205e-06, 'epoch': 1.98}
+{'loss': 1.383, 'grad_norm': 1.6970210075378418, 'learning_rate': 6.762491444216291e-06, 'epoch': 1.98}
+{'loss': 1.3571, 'grad_norm': 1.6997179985046387, 'learning_rate': 6.759069130732375e-06, 'epoch': 1.98}
+{'loss': 1.3584, 'grad_norm': 1.6711666584014893, 'learning_rate': 6.75564681724846e-06, 'epoch': 1.98}
+{'loss': 1.385, 'grad_norm': 1.6966803073883057, 'learning_rate': 6.7522245037645455e-06, 'epoch': 1.98}
+{'loss': 1.3519, 'grad_norm': 1.6608272790908813, 'learning_rate': 6.74880219028063e-06, 'epoch': 1.99}
+{'loss': 1.372, 'grad_norm': 1.774530053138733, 'learning_rate': 6.745379876796715e-06, 'epoch': 1.99}
+{'loss': 1.3305, 'grad_norm': 1.5947635173797607, 'learning_rate': 6.741957563312799e-06, 'epoch': 1.99}
+{'loss': 1.3326, 'grad_norm': 1.6550719738006592, 'learning_rate': 6.738535249828885e-06, 'epoch': 1.99}
+{'eval_loss': 1.746863603591919, 'eval_runtime': 11.5578, 'eval_samples_per_second': 51.913, 'eval_steps_per_second': 1.125, 'epoch': 1.99}
+{'loss': 1.3276, 'grad_norm': 1.6995645761489868, 'learning_rate': 6.73511293634497e-06, 'epoch': 1.99}
+{'loss': 1.3559, 'grad_norm': 1.634523868560791, 'learning_rate': 6.731690622861054e-06, 'epoch': 2.0}
+{'loss': 1.338, 'grad_norm': 1.780232310295105, 'learning_rate': 6.7282683093771395e-06, 'epoch': 2.0}
+{'loss': 1.306, 'grad_norm': 1.642040491104126, 'learning_rate': 6.724845995893225e-06, 'epoch': 2.0}
+{'loss': 1.2977, 'grad_norm': 2.0549769401550293, 'learning_rate': 6.721423682409309e-06, 'epoch': 2.0}
+{'loss': 1.3008, 'grad_norm': 1.9880398511886597, 'learning_rate': 6.718001368925394e-06, 'epoch': 2.0}
+{'loss': 1.2979, 'grad_norm': 2.0974764823913574, 'learning_rate': 6.7145790554414795e-06, 'epoch': 2.01}
+{'loss': 1.2936, 'grad_norm': 1.9998388290405273, 'learning_rate': 6.711156741957564e-06, 'epoch': 2.01}
+{'loss': 1.2836, 'grad_norm': 2.0441603660583496, 'learning_rate': 6.707734428473649e-06, 'epoch': 2.01}
+{'loss': 1.3015, 'grad_norm': 2.2830514907836914, 'learning_rate': 6.704312114989734e-06, 'epoch': 2.01}
+{'eval_loss': 1.7599165439605713, 'eval_runtime': 11.5732, 'eval_samples_per_second': 51.844, 'eval_steps_per_second': 1.123, 'epoch': 2.01}
+{'loss': 1.2871, 'grad_norm': 2.1470940113067627, 'learning_rate': 6.700889801505819e-06, 'epoch': 2.01}
+{'loss': 1.3034, 'grad_norm': 1.9700088500976562, 'learning_rate': 6.697467488021904e-06, 'epoch': 2.02}
+{'loss': 1.2901, 'grad_norm': 1.9954731464385986, 'learning_rate': 6.694045174537988e-06, 'epoch': 2.02}
+{'loss': 1.3184, 'grad_norm': 2.231743812561035, 'learning_rate': 6.6906228610540735e-06, 'epoch': 2.02}
+{'loss': 1.3027, 'grad_norm': 1.9525556564331055, 'learning_rate': 6.687200547570159e-06, 'epoch': 2.02}
+{'loss': 1.2866, 'grad_norm': 1.9579225778579712, 'learning_rate': 6.683778234086243e-06, 'epoch': 2.02}
+{'loss': 1.2802, 'grad_norm': 2.0187671184539795, 'learning_rate': 6.6803559206023275e-06, 'epoch': 2.03}
+{'loss': 1.287, 'grad_norm': 1.8823647499084473, 'learning_rate': 6.676933607118412e-06, 'epoch': 2.03}
+{'loss': 1.2929, 'grad_norm': 1.9693965911865234, 'learning_rate': 6.673511293634497e-06, 'epoch': 2.03}
+{'loss': 1.2799, 'grad_norm': 2.0165555477142334, 'learning_rate': 6.670088980150582e-06, 'epoch': 2.03}
+{'eval_loss': 1.7712310552597046, 'eval_runtime': 11.5805, 'eval_samples_per_second': 51.811, 'eval_steps_per_second': 1.123, 'epoch': 2.03}
+{'loss': 1.3013, 'grad_norm': 2.030953884124756, 'learning_rate': 6.666666666666667e-06, 'epoch': 2.03}
+{'loss': 1.2767, 'grad_norm': 1.9962588548660278, 'learning_rate': 6.663244353182752e-06, 'epoch': 2.04}
+{'loss': 1.2987, 'grad_norm': 1.938939094543457, 'learning_rate': 6.659822039698837e-06, 'epoch': 2.04}
+{'loss': 1.2867, 'grad_norm': 1.9509025812149048, 'learning_rate': 6.6563997262149215e-06, 'epoch': 2.04}
+{'loss': 1.2776, 'grad_norm': 2.0224404335021973, 'learning_rate': 6.652977412731007e-06, 'epoch': 2.04}
+{'loss': 1.3138, 'grad_norm': 2.015446662902832, 'learning_rate': 6.649555099247091e-06, 'epoch': 2.05}
+{'loss': 1.3074, 'grad_norm': 1.9997626543045044, 'learning_rate': 6.646132785763176e-06, 'epoch': 2.05}
+{'loss': 1.2764, 'grad_norm': 2.072235584259033, 'learning_rate': 6.6427104722792615e-06, 'epoch': 2.05}
+{'loss': 1.2721, 'grad_norm': 2.0161190032958984, 'learning_rate': 6.639288158795346e-06, 'epoch': 2.05}
+{'loss': 1.2918, 'grad_norm': 1.930877447128296, 'learning_rate': 6.635865845311431e-06, 'epoch': 2.05}
+{'eval_loss': 1.7674658298492432, 'eval_runtime': 11.5618, 'eval_samples_per_second': 51.895, 'eval_steps_per_second': 1.124, 'epoch': 2.05}
+{'loss': 1.3163, 'grad_norm': 1.9621827602386475, 'learning_rate': 6.632443531827516e-06, 'epoch': 2.06}
+{'loss': 1.3209, 'grad_norm': 1.9758015871047974, 'learning_rate': 6.629021218343601e-06, 'epoch': 2.06}
+{'loss': 1.2621, 'grad_norm': 1.9894919395446777, 'learning_rate': 6.625598904859686e-06, 'epoch': 2.06}
+{'loss': 1.3048, 'grad_norm': 1.9664411544799805, 'learning_rate': 6.622176591375771e-06, 'epoch': 2.06}
+{'loss': 1.2976, 'grad_norm': 1.9763154983520508, 'learning_rate': 6.6187542778918555e-06, 'epoch': 2.06}
+{'loss': 1.2969, 'grad_norm': 2.0044100284576416, 'learning_rate': 6.615331964407941e-06, 'epoch': 2.07}
+{'loss': 1.3314, 'grad_norm': 2.0378758907318115, 'learning_rate': 6.611909650924025e-06, 'epoch': 2.07}
+{'loss': 1.2714, 'grad_norm': 2.0109899044036865, 'learning_rate': 6.60848733744011e-06, 'epoch': 2.07}
+{'loss': 1.2834, 'grad_norm': 2.01975154876709, 'learning_rate': 6.6050650239561955e-06, 'epoch': 2.07}
+{'loss': 1.2692, 'grad_norm': 2.0406692028045654, 'learning_rate': 6.60164271047228e-06, 'epoch': 2.07}
+{'eval_loss': 1.768245816230774, 'eval_runtime': 11.5828, 'eval_samples_per_second': 51.801, 'eval_steps_per_second': 1.122, 'epoch': 2.07}
+{'loss': 1.3163, 'grad_norm': 2.0583715438842773, 'learning_rate': 6.598220396988365e-06, 'epoch': 2.08}
+{'loss': 1.2924, 'grad_norm': 1.9900455474853516, 'learning_rate': 6.59479808350445e-06, 'epoch': 2.08}
+{'loss': 1.2806, 'grad_norm': 1.8518152236938477, 'learning_rate': 6.591375770020535e-06, 'epoch': 2.08}
+{'loss': 1.295, 'grad_norm': 1.933282494544983, 'learning_rate': 6.587953456536619e-06, 'epoch': 2.08}
+{'loss': 1.3033, 'grad_norm': 2.040656805038452, 'learning_rate': 6.5845311430527035e-06, 'epoch': 2.08}
+{'loss': 1.2826, 'grad_norm': 1.8865857124328613, 'learning_rate': 6.581108829568789e-06, 'epoch': 2.09}
+{'loss': 1.3011, 'grad_norm': 2.018233060836792, 'learning_rate': 6.577686516084874e-06, 'epoch': 2.09}
+{'loss': 1.2878, 'grad_norm': 2.057767391204834, 'learning_rate': 6.574264202600958e-06, 'epoch': 2.09}
+{'loss': 1.2772, 'grad_norm': 2.1073715686798096, 'learning_rate': 6.5708418891170435e-06, 'epoch': 2.09}
+{'loss': 1.3086, 'grad_norm': 1.9636427164077759, 'learning_rate': 6.567419575633128e-06, 'epoch': 2.09}
+{'eval_loss': 1.763227105140686, 'eval_runtime': 11.5688, 'eval_samples_per_second': 51.864, 'eval_steps_per_second': 1.124, 'epoch': 2.09}
+{'loss': 1.3005, 'grad_norm': 1.9989728927612305, 'learning_rate': 6.563997262149213e-06, 'epoch': 2.1}
+{'loss': 1.2767, 'grad_norm': 1.9328322410583496, 'learning_rate': 6.560574948665298e-06, 'epoch': 2.1}
+{'loss': 1.2946, 'grad_norm': 2.0209672451019287, 'learning_rate': 6.557152635181383e-06, 'epoch': 2.1}
+{'loss': 1.2825, 'grad_norm': 1.9869720935821533, 'learning_rate': 6.553730321697468e-06, 'epoch': 2.1}
+{'loss': 1.3072, 'grad_norm': 2.1516265869140625, 'learning_rate': 6.550308008213553e-06, 'epoch': 2.1}
+{'loss': 1.3205, 'grad_norm': 2.1279795169830322, 'learning_rate': 6.5468856947296375e-06, 'epoch': 2.11}
+{'loss': 1.3029, 'grad_norm': 2.08616042137146, 'learning_rate': 6.543463381245723e-06, 'epoch': 2.11}
+{'loss': 1.2833, 'grad_norm': 1.874313235282898, 'learning_rate': 6.540041067761808e-06, 'epoch': 2.11}
+{'loss': 1.288, 'grad_norm': 2.1275417804718018, 'learning_rate': 6.536618754277892e-06, 'epoch': 2.11}
+{'loss': 1.281, 'grad_norm': 1.9591742753982544, 'learning_rate': 6.5331964407939775e-06, 'epoch': 2.11}
+{'eval_loss': 1.7733865976333618, 'eval_runtime': 11.5687, 'eval_samples_per_second': 51.864, 'eval_steps_per_second': 1.124, 'epoch': 2.11}
+{'loss': 1.307, 'grad_norm': 2.0100295543670654, 'learning_rate': 6.529774127310062e-06, 'epoch': 2.12}
+{'loss': 1.2812, 'grad_norm': 2.083301067352295, 'learning_rate': 6.526351813826147e-06, 'epoch': 2.12}
+{'loss': 1.2967, 'grad_norm': 2.136714220046997, 'learning_rate': 6.522929500342232e-06, 'epoch': 2.12}
+{'loss': 1.2942, 'grad_norm': 1.9180880784988403, 'learning_rate': 6.519507186858317e-06, 'epoch': 2.12}
+{'loss': 1.2822, 'grad_norm': 1.8914684057235718, 'learning_rate': 6.516084873374402e-06, 'epoch': 2.13}
+{'loss': 1.271, 'grad_norm': 1.9221206903457642, 'learning_rate': 6.512662559890487e-06, 'epoch': 2.13}
+{'loss': 1.2797, 'grad_norm': 1.884339690208435, 'learning_rate': 6.5092402464065715e-06, 'epoch': 2.13}
+{'loss': 1.285, 'grad_norm': 1.9328253269195557, 'learning_rate': 6.505817932922657e-06, 'epoch': 2.13}
+{'loss': 1.3099, 'grad_norm': 1.9679811000823975, 'learning_rate': 6.502395619438742e-06, 'epoch': 2.13}
+{'loss': 1.2832, 'grad_norm': 1.9394131898880005, 'learning_rate': 6.4989733059548255e-06, 'epoch': 2.14}
+{'eval_loss': 1.7733573913574219, 'eval_runtime': 11.5634, 'eval_samples_per_second': 51.888, 'eval_steps_per_second': 1.124, 'epoch': 2.14}
+{'loss': 1.3179, 'grad_norm': 1.9602495431900024, 'learning_rate': 6.495550992470911e-06, 'epoch': 2.14}
+{'loss': 1.3081, 'grad_norm': 1.9546176195144653, 'learning_rate': 6.492128678986995e-06, 'epoch': 2.14}
+{'loss': 1.3031, 'grad_norm': 2.059267997741699, 'learning_rate': 6.48870636550308e-06, 'epoch': 2.14}
+{'loss': 1.3078, 'grad_norm': 1.9443819522857666, 'learning_rate': 6.485284052019165e-06, 'epoch': 2.14}
+{'loss': 1.2977, 'grad_norm': 2.0251336097717285, 'learning_rate': 6.48186173853525e-06, 'epoch': 2.15}
+{'loss': 1.2717, 'grad_norm': 2.006498336791992, 'learning_rate': 6.478439425051335e-06, 'epoch': 2.15}
+{'loss': 1.3114, 'grad_norm': 2.01568865776062, 'learning_rate': 6.4750171115674195e-06, 'epoch': 2.15}
+{'loss': 1.3068, 'grad_norm': 1.9262936115264893, 'learning_rate': 6.471594798083505e-06, 'epoch': 2.15}
+{'loss': 1.2886, 'grad_norm': 1.8725204467773438, 'learning_rate': 6.46817248459959e-06, 'epoch': 2.15}
+{'loss': 1.2879, 'grad_norm': 1.9420900344848633, 'learning_rate': 6.464750171115674e-06, 'epoch': 2.16}
+{'eval_loss': 1.7657047510147095, 'eval_runtime': 11.5654, 'eval_samples_per_second': 51.879, 'eval_steps_per_second': 1.124, 'epoch': 2.16}
+{'loss': 1.2791, 'grad_norm': 1.9246768951416016, 'learning_rate': 6.4613278576317595e-06, 'epoch': 2.16}
+{'loss': 1.2981, 'grad_norm': 1.9399363994598389, 'learning_rate': 6.457905544147845e-06, 'epoch': 2.16}
+{'loss': 1.307, 'grad_norm': 2.1026995182037354, 'learning_rate': 6.454483230663929e-06, 'epoch': 2.16}
+{'loss': 1.2749, 'grad_norm': 1.9743791818618774, 'learning_rate': 6.451060917180014e-06, 'epoch': 2.16}
+{'loss': 1.2662, 'grad_norm': 1.924703598022461, 'learning_rate': 6.4476386036960996e-06, 'epoch': 2.17}
+{'loss': 1.2819, 'grad_norm': 2.0353565216064453, 'learning_rate': 6.444216290212184e-06, 'epoch': 2.17}
+{'loss': 1.2952, 'grad_norm': 1.9205938577651978, 'learning_rate': 6.440793976728269e-06, 'epoch': 2.17}
+{'loss': 1.2608, 'grad_norm': 1.9390789270401, 'learning_rate': 6.4373716632443535e-06, 'epoch': 2.17}
+{'loss': 1.3069, 'grad_norm': 1.9915727376937866, 'learning_rate': 6.433949349760439e-06, 'epoch': 2.17}
+{'loss': 1.3033, 'grad_norm': 1.9784055948257446, 'learning_rate': 6.430527036276524e-06, 'epoch': 2.18}
+{'eval_loss': 1.766978144645691, 'eval_runtime': 11.4597, 'eval_samples_per_second': 52.358, 'eval_steps_per_second': 1.134, 'epoch': 2.18}
+{'loss': 1.2896, 'grad_norm': 1.9751859903335571, 'learning_rate': 6.427104722792608e-06, 'epoch': 2.18}
+{'loss': 1.2994, 'grad_norm': 2.0825674533843994, 'learning_rate': 6.423682409308694e-06, 'epoch': 2.18}
+{'loss': 1.2982, 'grad_norm': 1.9900386333465576, 'learning_rate': 6.420260095824779e-06, 'epoch': 2.18}
+{'loss': 1.2812, 'grad_norm': 1.9455316066741943, 'learning_rate': 6.416837782340863e-06, 'epoch': 2.18}
+{'loss': 1.3122, 'grad_norm': 2.015085220336914, 'learning_rate': 6.413415468856948e-06, 'epoch': 2.19}
+{'loss': 1.2645, 'grad_norm': 1.9454008340835571, 'learning_rate': 6.409993155373034e-06, 'epoch': 2.19}
+{'loss': 1.2833, 'grad_norm': 1.96971595287323, 'learning_rate': 6.406570841889117e-06, 'epoch': 2.19}
+{'loss': 1.2924, 'grad_norm': 2.0585784912109375, 'learning_rate': 6.403148528405202e-06, 'epoch': 2.19}
+{'loss': 1.3007, 'grad_norm': 1.9784356355667114, 'learning_rate': 6.399726214921287e-06, 'epoch': 2.2}
+{'loss': 1.2792, 'grad_norm': 1.895216464996338, 'learning_rate': 6.396303901437372e-06, 'epoch': 2.2}
+{'eval_loss': 1.7732892036437988, 'eval_runtime': 11.536, 'eval_samples_per_second': 52.011, 'eval_steps_per_second': 1.127, 'epoch': 2.2}
+{'loss': 1.3152, 'grad_norm': 1.9650245904922485, 'learning_rate': 6.392881587953456e-06, 'epoch': 2.2}
+{'loss': 1.2741, 'grad_norm': 1.867751121520996, 'learning_rate': 6.3894592744695415e-06, 'epoch': 2.2}
+{'loss': 1.2977, 'grad_norm': 1.898532748222351, 'learning_rate': 6.386036960985627e-06, 'epoch': 2.2}
+{'loss': 1.2834, 'grad_norm': 2.0161454677581787, 'learning_rate': 6.382614647501711e-06, 'epoch': 2.21}
+{'loss': 1.3042, 'grad_norm': 1.9901831150054932, 'learning_rate': 6.379192334017796e-06, 'epoch': 2.21}
+{'loss': 1.2842, 'grad_norm': 2.035959005355835, 'learning_rate': 6.375770020533882e-06, 'epoch': 2.21}
+{'loss': 1.3012, 'grad_norm': 1.954206943511963, 'learning_rate': 6.372347707049966e-06, 'epoch': 2.21}
+{'loss': 1.2984, 'grad_norm': 2.0214099884033203, 'learning_rate': 6.368925393566051e-06, 'epoch': 2.21}
+{'loss': 1.2754, 'grad_norm': 1.8950446844100952, 'learning_rate': 6.365503080082136e-06, 'epoch': 2.22}
+{'loss': 1.268, 'grad_norm': 1.9321255683898926, 'learning_rate': 6.362080766598221e-06, 'epoch': 2.22}
+{'eval_loss': 1.7779414653778076, 'eval_runtime': 11.5118, 'eval_samples_per_second': 52.12, 'eval_steps_per_second': 1.129, 'epoch': 2.22}
+{'loss': 1.2605, 'grad_norm': 1.9356415271759033, 'learning_rate': 6.358658453114306e-06, 'epoch': 2.22}
+{'loss': 1.3205, 'grad_norm': 1.9941662549972534, 'learning_rate': 6.35523613963039e-06, 'epoch': 2.22}
+{'loss': 1.2688, 'grad_norm': 1.8980990648269653, 'learning_rate': 6.351813826146476e-06, 'epoch': 2.22}
+{'loss': 1.307, 'grad_norm': 1.9815213680267334, 'learning_rate': 6.348391512662561e-06, 'epoch': 2.23}
+{'loss': 1.3165, 'grad_norm': 1.9681426286697388, 'learning_rate': 6.344969199178645e-06, 'epoch': 2.23}
+{'loss': 1.2978, 'grad_norm': 1.8955589532852173, 'learning_rate': 6.34154688569473e-06, 'epoch': 2.23}
+{'loss': 1.2816, 'grad_norm': 1.8980525732040405, 'learning_rate': 6.338124572210816e-06, 'epoch': 2.23}
+{'loss': 1.2859, 'grad_norm': 1.9322586059570312, 'learning_rate': 6.3347022587269e-06, 'epoch': 2.23}
+{'loss': 1.2921, 'grad_norm': 2.0188329219818115, 'learning_rate': 6.331279945242985e-06, 'epoch': 2.24}
+{'loss': 1.2819, 'grad_norm': 2.036729097366333, 'learning_rate': 6.3278576317590704e-06, 'epoch': 2.24}
+{'eval_loss': 1.7756900787353516, 'eval_runtime': 11.5487, 'eval_samples_per_second': 51.954, 'eval_steps_per_second': 1.126, 'epoch': 2.24}
+{'loss': 1.3079, 'grad_norm': 2.0114049911499023, 'learning_rate': 6.324435318275155e-06, 'epoch': 2.24}
+{'loss': 1.3052, 'grad_norm': 1.9420204162597656, 'learning_rate': 6.32101300479124e-06, 'epoch': 2.24}
+{'loss': 1.2574, 'grad_norm': 1.8812222480773926, 'learning_rate': 6.3175906913073235e-06, 'epoch': 2.24}
+{'loss': 1.3217, 'grad_norm': 1.9406449794769287, 'learning_rate': 6.314168377823409e-06, 'epoch': 2.25}
+{'loss': 1.2798, 'grad_norm': 1.848575234413147, 'learning_rate': 6.310746064339493e-06, 'epoch': 2.25}
+{'loss': 1.2784, 'grad_norm': 1.8608273267745972, 'learning_rate': 6.307323750855578e-06, 'epoch': 2.25}
+{'loss': 1.2724, 'grad_norm': 1.9536805152893066, 'learning_rate': 6.303901437371664e-06, 'epoch': 2.25}
+{'loss': 1.2947, 'grad_norm': 1.875322937965393, 'learning_rate': 6.300479123887748e-06, 'epoch': 2.25}
+{'loss': 1.305, 'grad_norm': 1.9503875970840454, 'learning_rate': 6.297056810403833e-06, 'epoch': 2.26}
+{'loss': 1.2717, 'grad_norm': 2.0289671421051025, 'learning_rate': 6.293634496919918e-06, 'epoch': 2.26}
+{'eval_loss': 1.7762378454208374, 'eval_runtime': 11.5522, 'eval_samples_per_second': 51.938, 'eval_steps_per_second': 1.125, 'epoch': 2.26}
+{'loss': 1.2931, 'grad_norm': 1.9488869905471802, 'learning_rate': 6.290212183436003e-06, 'epoch': 2.26}
+{'loss': 1.3319, 'grad_norm': 2.0372748374938965, 'learning_rate': 6.286789869952088e-06, 'epoch': 2.26}
+{'loss': 1.2813, 'grad_norm': 2.020646572113037, 'learning_rate': 6.283367556468173e-06, 'epoch': 2.26}
+{'loss': 1.2437, 'grad_norm': 1.9209367036819458, 'learning_rate': 6.279945242984258e-06, 'epoch': 2.27}
+{'loss': 1.3065, 'grad_norm': 1.9242253303527832, 'learning_rate': 6.276522929500343e-06, 'epoch': 2.27}
+{'loss': 1.3001, 'grad_norm': 2.0383851528167725, 'learning_rate': 6.273100616016428e-06, 'epoch': 2.27}
+{'loss': 1.3062, 'grad_norm': 1.9758474826812744, 'learning_rate': 6.269678302532512e-06, 'epoch': 2.27}
+{'loss': 1.3139, 'grad_norm': 1.9845656156539917, 'learning_rate': 6.266255989048598e-06, 'epoch': 2.28}
+{'loss': 1.2709, 'grad_norm': 2.0538055896759033, 'learning_rate': 6.262833675564682e-06, 'epoch': 2.28}
+{'loss': 1.314, 'grad_norm': 1.8816543817520142, 'learning_rate': 6.259411362080767e-06, 'epoch': 2.28}
+{'eval_loss': 1.778422474861145, 'eval_runtime': 11.5624, 'eval_samples_per_second': 51.892, 'eval_steps_per_second': 1.124, 'epoch': 2.28}
+{'loss': 1.2776, 'grad_norm': 1.9816572666168213, 'learning_rate': 6.2559890485968524e-06, 'epoch': 2.28}
+{'loss': 1.2912, 'grad_norm': 1.9996846914291382, 'learning_rate': 6.252566735112937e-06, 'epoch': 2.28}
+{'loss': 1.3196, 'grad_norm': 2.060234785079956, 'learning_rate': 6.249144421629022e-06, 'epoch': 2.29}
+{'loss': 1.2859, 'grad_norm': 1.9763563871383667, 'learning_rate': 6.245722108145107e-06, 'epoch': 2.29}
+{'loss': 1.2879, 'grad_norm': 2.080697536468506, 'learning_rate': 6.242299794661192e-06, 'epoch': 2.29}
+{'loss': 1.281, 'grad_norm': 1.935325026512146, 'learning_rate': 6.238877481177277e-06, 'epoch': 2.29}
+{'loss': 1.297, 'grad_norm': 1.957603096961975, 'learning_rate': 6.235455167693362e-06, 'epoch': 2.29}
+{'loss': 1.2652, 'grad_norm': 1.993009090423584, 'learning_rate': 6.2320328542094464e-06, 'epoch': 2.3}
+{'loss': 1.3083, 'grad_norm': 1.996012806892395, 'learning_rate': 6.228610540725532e-06, 'epoch': 2.3}
+{'loss': 1.2904, 'grad_norm': 1.9973663091659546, 'learning_rate': 6.225188227241615e-06, 'epoch': 2.3}
+{'eval_loss': 1.7768371105194092, 'eval_runtime': 11.577, 'eval_samples_per_second': 51.827, 'eval_steps_per_second': 1.123, 'epoch': 2.3}
+{'loss': 1.2708, 'grad_norm': 1.9693608283996582, 'learning_rate': 6.2217659137577e-06, 'epoch': 2.3}
+{'loss': 1.2944, 'grad_norm': 2.0185887813568115, 'learning_rate': 6.218343600273785e-06, 'epoch': 2.3}
+{'loss': 1.3004, 'grad_norm': 1.9946861267089844, 'learning_rate': 6.21492128678987e-06, 'epoch': 2.31}
+{'loss': 1.3026, 'grad_norm': 1.9895142316818237, 'learning_rate': 6.211498973305955e-06, 'epoch': 2.31}
+{'loss': 1.2818, 'grad_norm': 1.8801298141479492, 'learning_rate': 6.20807665982204e-06, 'epoch': 2.31}
+{'loss': 1.269, 'grad_norm': 1.8796682357788086, 'learning_rate': 6.204654346338125e-06, 'epoch': 2.31}
+{'loss': 1.2825, 'grad_norm': 1.8680733442306519, 'learning_rate': 6.20123203285421e-06, 'epoch': 2.31}
+{'loss': 1.315, 'grad_norm': 1.9514236450195312, 'learning_rate': 6.197809719370294e-06, 'epoch': 2.32}
+{'loss': 1.2843, 'grad_norm': 1.9246772527694702, 'learning_rate': 6.19438740588638e-06, 'epoch': 2.32}
+{'loss': 1.2774, 'grad_norm': 1.9558664560317993, 'learning_rate': 6.190965092402465e-06, 'epoch': 2.32}
+{'eval_loss': 1.7841839790344238, 'eval_runtime': 11.5777, 'eval_samples_per_second': 51.824, 'eval_steps_per_second': 1.123, 'epoch': 2.32}
+{'loss': 1.2896, 'grad_norm': 1.9577685594558716, 'learning_rate': 6.187542778918549e-06, 'epoch': 2.32}
+{'loss': 1.3039, 'grad_norm': 1.9791218042373657, 'learning_rate': 6.1841204654346344e-06, 'epoch': 2.32}
+{'loss': 1.3029, 'grad_norm': 2.028852701187134, 'learning_rate': 6.180698151950719e-06, 'epoch': 2.33}
+{'loss': 1.2728, 'grad_norm': 1.9625234603881836, 'learning_rate': 6.177275838466804e-06, 'epoch': 2.33}
+{'loss': 1.339, 'grad_norm': 1.9985756874084473, 'learning_rate': 6.173853524982889e-06, 'epoch': 2.33}
+{'loss': 1.3064, 'grad_norm': 1.9169198274612427, 'learning_rate': 6.170431211498974e-06, 'epoch': 2.33}
+{'loss': 1.2814, 'grad_norm': 2.0485401153564453, 'learning_rate': 6.167008898015059e-06, 'epoch': 2.33}
+{'loss': 1.3104, 'grad_norm': 2.0109732151031494, 'learning_rate': 6.163586584531144e-06, 'epoch': 2.34}
+{'loss': 1.3351, 'grad_norm': 2.0229923725128174, 'learning_rate': 6.1601642710472284e-06, 'epoch': 2.34}
+{'loss': 1.2952, 'grad_norm': 1.8967278003692627, 'learning_rate': 6.156741957563314e-06, 'epoch': 2.34}
+{'eval_loss': 1.7874773740768433, 'eval_runtime': 11.5558, 'eval_samples_per_second': 51.922, 'eval_steps_per_second': 1.125, 'epoch': 2.34}
+{'loss': 1.347, 'grad_norm': 2.0451407432556152, 'learning_rate': 6.153319644079399e-06, 'epoch': 2.34}
+{'loss': 1.2783, 'grad_norm': 1.8780237436294556, 'learning_rate': 6.149897330595483e-06, 'epoch': 2.34}
+{'loss': 1.2856, 'grad_norm': 1.9833388328552246, 'learning_rate': 6.1464750171115685e-06, 'epoch': 2.35}
+{'loss': 1.2826, 'grad_norm': 1.9096965789794922, 'learning_rate': 6.143052703627653e-06, 'epoch': 2.35}
+{'loss': 1.3402, 'grad_norm': 2.0168678760528564, 'learning_rate': 6.139630390143738e-06, 'epoch': 2.35}
+{'loss': 1.2751, 'grad_norm': 1.945473074913025, 'learning_rate': 6.136208076659822e-06, 'epoch': 2.35}
+{'loss': 1.3011, 'grad_norm': 1.9381805658340454, 'learning_rate': 6.132785763175907e-06, 'epoch': 2.36}
+{'loss': 1.2948, 'grad_norm': 1.9066202640533447, 'learning_rate': 6.129363449691992e-06, 'epoch': 2.36}
+{'loss': 1.3131, 'grad_norm': 1.9557102918624878, 'learning_rate': 6.125941136208076e-06, 'epoch': 2.36}
+{'loss': 1.2798, 'grad_norm': 1.914062738418579, 'learning_rate': 6.122518822724162e-06, 'epoch': 2.36}
+{'eval_loss': 1.7760778665542603, 'eval_runtime': 11.5841, 'eval_samples_per_second': 51.795, 'eval_steps_per_second': 1.122, 'epoch': 2.36}
+{'loss': 1.2955, 'grad_norm': 1.9762825965881348, 'learning_rate': 6.119096509240247e-06, 'epoch': 2.36}
+{'loss': 1.2742, 'grad_norm': 1.9520883560180664, 'learning_rate': 6.115674195756331e-06, 'epoch': 2.37}
+{'loss': 1.2681, 'grad_norm': 1.960553526878357, 'learning_rate': 6.1122518822724164e-06, 'epoch': 2.37}
+{'loss': 1.2949, 'grad_norm': 2.0454978942871094, 'learning_rate': 6.108829568788502e-06, 'epoch': 2.37}
+{'loss': 1.2838, 'grad_norm': 1.9580190181732178, 'learning_rate': 6.105407255304586e-06, 'epoch': 2.37}
+{'loss': 1.2885, 'grad_norm': 1.9761435985565186, 'learning_rate': 6.101984941820671e-06, 'epoch': 2.37}
+{'loss': 1.291, 'grad_norm': 1.9318013191223145, 'learning_rate': 6.098562628336756e-06, 'epoch': 2.38}
+{'loss': 1.2774, 'grad_norm': 1.9330613613128662, 'learning_rate': 6.095140314852841e-06, 'epoch': 2.38}
+{'loss': 1.3214, 'grad_norm': 1.978652000427246, 'learning_rate': 6.091718001368926e-06, 'epoch': 2.38}
+{'loss': 1.3057, 'grad_norm': 1.8991252183914185, 'learning_rate': 6.0882956878850104e-06, 'epoch': 2.38}
+{'eval_loss': 1.7677030563354492, 'eval_runtime': 11.5823, 'eval_samples_per_second': 51.803, 'eval_steps_per_second': 1.122, 'epoch': 2.38}
+{'loss': 1.2942, 'grad_norm': 1.9537147283554077, 'learning_rate': 6.084873374401096e-06, 'epoch': 2.38}
+{'loss': 1.2735, 'grad_norm': 1.9820423126220703, 'learning_rate': 6.081451060917181e-06, 'epoch': 2.39}
+{'loss': 1.2535, 'grad_norm': 1.9344972372055054, 'learning_rate': 6.078028747433265e-06, 'epoch': 2.39}
+{'loss': 1.3247, 'grad_norm': 2.0177271366119385, 'learning_rate': 6.0746064339493505e-06, 'epoch': 2.39}
+{'loss': 1.2979, 'grad_norm': 2.0559985637664795, 'learning_rate': 6.071184120465436e-06, 'epoch': 2.39}
+{'loss': 1.2881, 'grad_norm': 1.9063133001327515, 'learning_rate': 6.06776180698152e-06, 'epoch': 2.39}
+{'loss': 1.2715, 'grad_norm': 1.9037760496139526, 'learning_rate': 6.064339493497605e-06, 'epoch': 2.4}
+{'loss': 1.303, 'grad_norm': 1.9425709247589111, 'learning_rate': 6.0609171800136905e-06, 'epoch': 2.4}
+{'loss': 1.2641, 'grad_norm': 1.9264607429504395, 'learning_rate': 6.057494866529775e-06, 'epoch': 2.4}
+{'loss': 1.2822, 'grad_norm': 1.911863923072815, 'learning_rate': 6.05407255304586e-06, 'epoch': 2.4}
+{'eval_loss': 1.7798254489898682, 'eval_runtime': 11.5804, 'eval_samples_per_second': 51.811, 'eval_steps_per_second': 1.123, 'epoch': 2.4}
+{'loss': 1.282, 'grad_norm': 1.9039835929870605, 'learning_rate': 6.0506502395619445e-06, 'epoch': 2.4}
+{'loss': 1.3062, 'grad_norm': 1.9891000986099243, 'learning_rate': 6.04722792607803e-06, 'epoch': 2.41}
+{'loss': 1.2965, 'grad_norm': 1.8967475891113281, 'learning_rate': 6.043805612594113e-06, 'epoch': 2.41}
+{'loss': 1.3117, 'grad_norm': 1.9821754693984985, 'learning_rate': 6.0403832991101984e-06, 'epoch': 2.41}
+{'loss': 1.3017, 'grad_norm': 1.9208699464797974, 'learning_rate': 6.036960985626284e-06, 'epoch': 2.41}
+{'loss': 1.3004, 'grad_norm': 1.930308222770691, 'learning_rate': 6.033538672142368e-06, 'epoch': 2.41}
+{'loss': 1.3045, 'grad_norm': 2.015763998031616, 'learning_rate': 6.030116358658453e-06, 'epoch': 2.42}
+{'loss': 1.2619, 'grad_norm': 1.8361793756484985, 'learning_rate': 6.0266940451745385e-06, 'epoch': 2.42}
+{'loss': 1.2918, 'grad_norm': 2.0722618103027344, 'learning_rate': 6.023271731690623e-06, 'epoch': 2.42}
+{'loss': 1.2843, 'grad_norm': 2.015331268310547, 'learning_rate': 6.019849418206708e-06, 'epoch': 2.42}
+{'eval_loss': 1.7800699472427368, 'eval_runtime': 11.5932, 'eval_samples_per_second': 51.755, 'eval_steps_per_second': 1.121, 'epoch': 2.42}
+{'loss': 1.3039, 'grad_norm': 2.0164973735809326, 'learning_rate': 6.016427104722793e-06, 'epoch': 2.43}
+{'loss': 1.2806, 'grad_norm': 1.9553537368774414, 'learning_rate': 6.013004791238878e-06, 'epoch': 2.43}
+{'loss': 1.2758, 'grad_norm': 1.9366317987442017, 'learning_rate': 6.009582477754963e-06, 'epoch': 2.43}
+{'loss': 1.2845, 'grad_norm': 1.9377484321594238, 'learning_rate': 6.006160164271047e-06, 'epoch': 2.43}
+{'loss': 1.2922, 'grad_norm': 1.8823353052139282, 'learning_rate': 6.0027378507871325e-06, 'epoch': 2.43}
+{'loss': 1.2808, 'grad_norm': 1.9465994834899902, 'learning_rate': 5.999315537303218e-06, 'epoch': 2.44}
+{'loss': 1.287, 'grad_norm': 1.8917533159255981, 'learning_rate': 5.995893223819302e-06, 'epoch': 2.44}
+{'loss': 1.2884, 'grad_norm': 1.9605194330215454, 'learning_rate': 5.992470910335387e-06, 'epoch': 2.44}
+{'loss': 1.2672, 'grad_norm': 1.9953908920288086, 'learning_rate': 5.9890485968514725e-06, 'epoch': 2.44}
+{'loss': 1.2751, 'grad_norm': 1.9086921215057373, 'learning_rate': 5.985626283367557e-06, 'epoch': 2.44}
+{'eval_loss': 1.7576106786727905, 'eval_runtime': 11.5682, 'eval_samples_per_second': 51.866, 'eval_steps_per_second': 1.124, 'epoch': 2.44}
+{'loss': 1.2625, 'grad_norm': 1.896908164024353, 'learning_rate': 5.982203969883642e-06, 'epoch': 2.45}
+{'loss': 1.2802, 'grad_norm': 1.8986330032348633, 'learning_rate': 5.978781656399727e-06, 'epoch': 2.45}
+{'loss': 1.2754, 'grad_norm': 1.8510841131210327, 'learning_rate': 5.975359342915812e-06, 'epoch': 2.45}
+{'loss': 1.3025, 'grad_norm': 1.90688955783844, 'learning_rate': 5.971937029431897e-06, 'epoch': 2.45}
+{'loss': 1.2639, 'grad_norm': 1.902379035949707, 'learning_rate': 5.968514715947981e-06, 'epoch': 2.45}
+{'loss': 1.3043, 'grad_norm': 1.9328346252441406, 'learning_rate': 5.9650924024640665e-06, 'epoch': 2.46}
+{'loss': 1.2789, 'grad_norm': 1.9535980224609375, 'learning_rate': 5.961670088980152e-06, 'epoch': 2.46}
+{'loss': 1.2895, 'grad_norm': 1.9812740087509155, 'learning_rate': 5.958247775496236e-06, 'epoch': 2.46}
+{'loss': 1.3071, 'grad_norm': 1.977055549621582, 'learning_rate': 5.954825462012321e-06, 'epoch': 2.46}
+{'loss': 1.2369, 'grad_norm': 1.9152467250823975, 'learning_rate': 5.951403148528405e-06, 'epoch': 2.46}
+{'eval_loss': 1.7560522556304932, 'eval_runtime': 11.5789, 'eval_samples_per_second': 51.818, 'eval_steps_per_second': 1.123, 'epoch': 2.46}
+{'loss': 1.2774, 'grad_norm': 1.9073362350463867, 'learning_rate': 5.94798083504449e-06, 'epoch': 2.47}
+{'loss': 1.2652, 'grad_norm': 1.8674209117889404, 'learning_rate': 5.944558521560575e-06, 'epoch': 2.47}
+{'loss': 1.2665, 'grad_norm': 1.9425493478775024, 'learning_rate': 5.94113620807666e-06, 'epoch': 2.47}
+{'loss': 1.3012, 'grad_norm': 2.012385606765747, 'learning_rate': 5.937713894592745e-06, 'epoch': 2.47}
+{'loss': 1.2899, 'grad_norm': 1.9690128564834595, 'learning_rate': 5.93429158110883e-06, 'epoch': 2.47}
+{'loss': 1.2581, 'grad_norm': 1.9902794361114502, 'learning_rate': 5.9308692676249145e-06, 'epoch': 2.48}
+{'loss': 1.2539, 'grad_norm': 1.9426054954528809, 'learning_rate': 5.927446954141e-06, 'epoch': 2.48}
+{'loss': 1.2542, 'grad_norm': 1.9054774045944214, 'learning_rate': 5.924024640657084e-06, 'epoch': 2.48}
+{'loss': 1.2923, 'grad_norm': 2.013474941253662, 'learning_rate': 5.920602327173169e-06, 'epoch': 2.48}
+{'loss': 1.2686, 'grad_norm': 1.8893842697143555, 'learning_rate': 5.9171800136892545e-06, 'epoch': 2.48}
+{'eval_loss': 1.7561832666397095, 'eval_runtime': 11.454, 'eval_samples_per_second': 52.384, 'eval_steps_per_second': 1.135, 'epoch': 2.48}
+{'loss': 1.2874, 'grad_norm': 2.0945022106170654, 'learning_rate': 5.913757700205339e-06, 'epoch': 2.49}
+{'loss': 1.2763, 'grad_norm': 2.026501178741455, 'learning_rate': 5.910335386721424e-06, 'epoch': 2.49}
+{'loss': 1.2995, 'grad_norm': 1.8955026865005493, 'learning_rate': 5.906913073237509e-06, 'epoch': 2.49}
+{'loss': 1.321, 'grad_norm': 2.0419270992279053, 'learning_rate': 5.903490759753594e-06, 'epoch': 2.49}
+{'loss': 1.2755, 'grad_norm': 1.952897071838379, 'learning_rate': 5.900068446269679e-06, 'epoch': 2.49}
+{'loss': 1.278, 'grad_norm': 1.9653127193450928, 'learning_rate': 5.896646132785764e-06, 'epoch': 2.5}
+{'loss': 1.2763, 'grad_norm': 1.9556251764297485, 'learning_rate': 5.8932238193018485e-06, 'epoch': 2.5}
+{'loss': 1.2834, 'grad_norm': 2.0006778240203857, 'learning_rate': 5.889801505817934e-06, 'epoch': 2.5}
+{'loss': 1.2969, 'grad_norm': 2.024909734725952, 'learning_rate': 5.886379192334019e-06, 'epoch': 2.5}
+{'loss': 1.2677, 'grad_norm': 1.8540855646133423, 'learning_rate': 5.882956878850103e-06, 'epoch': 2.51}
+{'eval_loss': 1.7655456066131592, 'eval_runtime': 11.5425, 'eval_samples_per_second': 51.982, 'eval_steps_per_second': 1.126, 'epoch': 2.51}
+{'loss': 1.2781, 'grad_norm': 1.937270164489746, 'learning_rate': 5.8795345653661886e-06, 'epoch': 2.51}
+{'loss': 1.2641, 'grad_norm': 2.0268309116363525, 'learning_rate': 5.876112251882273e-06, 'epoch': 2.51}
+{'loss': 1.2622, 'grad_norm': 1.9070829153060913, 'learning_rate': 5.872689938398358e-06, 'epoch': 2.51}
+{'loss': 1.2707, 'grad_norm': 1.9355355501174927, 'learning_rate': 5.869267624914443e-06, 'epoch': 2.51}
+{'loss': 1.2993, 'grad_norm': 1.9811177253723145, 'learning_rate': 5.865845311430528e-06, 'epoch': 2.52}
+{'loss': 1.3063, 'grad_norm': 1.9383538961410522, 'learning_rate': 5.862422997946612e-06, 'epoch': 2.52}
+{'loss': 1.3193, 'grad_norm': 1.9459996223449707, 'learning_rate': 5.8590006844626965e-06, 'epoch': 2.52}
+{'loss': 1.2915, 'grad_norm': 1.9064661264419556, 'learning_rate': 5.855578370978782e-06, 'epoch': 2.52}
+{'loss': 1.2862, 'grad_norm': 1.9784889221191406, 'learning_rate': 5.852156057494867e-06, 'epoch': 2.52}
+{'loss': 1.2838, 'grad_norm': 1.947540521621704, 'learning_rate': 5.848733744010951e-06, 'epoch': 2.53}
+{'eval_loss': 1.7634108066558838, 'eval_runtime': 11.5451, 'eval_samples_per_second': 51.97, 'eval_steps_per_second': 1.126, 'epoch': 2.53}
+{'loss': 1.2875, 'grad_norm': 1.9632517099380493, 'learning_rate': 5.8453114305270365e-06, 'epoch': 2.53}
+{'loss': 1.2882, 'grad_norm': 1.927388310432434, 'learning_rate': 5.841889117043122e-06, 'epoch': 2.53}
+{'loss': 1.3116, 'grad_norm': 2.093454360961914, 'learning_rate': 5.838466803559206e-06, 'epoch': 2.53}
+{'loss': 1.2843, 'grad_norm': 1.8950417041778564, 'learning_rate': 5.835044490075291e-06, 'epoch': 2.53}
+{'loss': 1.27, 'grad_norm': 1.9648069143295288, 'learning_rate': 5.831622176591376e-06, 'epoch': 2.54}
+{'loss': 1.268, 'grad_norm': 1.9793586730957031, 'learning_rate': 5.828199863107461e-06, 'epoch': 2.54}
+{'loss': 1.2799, 'grad_norm': 1.9327340126037598, 'learning_rate': 5.824777549623546e-06, 'epoch': 2.54}
+{'loss': 1.2638, 'grad_norm': 1.9090979099273682, 'learning_rate': 5.8213552361396305e-06, 'epoch': 2.54}
+{'loss': 1.287, 'grad_norm': 1.9172561168670654, 'learning_rate': 5.817932922655716e-06, 'epoch': 2.54}
+{'loss': 1.2968, 'grad_norm': 1.8689558506011963, 'learning_rate': 5.814510609171801e-06, 'epoch': 2.55}
+{'eval_loss': 1.7593193054199219, 'eval_runtime': 11.5696, 'eval_samples_per_second': 51.86, 'eval_steps_per_second': 1.124, 'epoch': 2.55}
+{'loss': 1.2576, 'grad_norm': 1.9798719882965088, 'learning_rate': 5.811088295687885e-06, 'epoch': 2.55}
+{'loss': 1.2778, 'grad_norm': 1.8698478937149048, 'learning_rate': 5.8076659822039706e-06, 'epoch': 2.55}
+{'loss': 1.2959, 'grad_norm': 1.8446153402328491, 'learning_rate': 5.804243668720056e-06, 'epoch': 2.55}
+{'loss': 1.2775, 'grad_norm': 2.026482582092285, 'learning_rate': 5.80082135523614e-06, 'epoch': 2.55}
+{'loss': 1.2945, 'grad_norm': 1.9937200546264648, 'learning_rate': 5.797399041752225e-06, 'epoch': 2.56}
+{'loss': 1.2714, 'grad_norm': 2.0316810607910156, 'learning_rate': 5.79397672826831e-06, 'epoch': 2.56}
+{'loss': 1.2639, 'grad_norm': 1.9834108352661133, 'learning_rate': 5.790554414784395e-06, 'epoch': 2.56}
+{'loss': 1.2855, 'grad_norm': 1.9406218528747559, 'learning_rate': 5.78713210130048e-06, 'epoch': 2.56}
+{'loss': 1.2658, 'grad_norm': 1.9708292484283447, 'learning_rate': 5.7837097878165646e-06, 'epoch': 2.56}
+{'loss': 1.2827, 'grad_norm': 2.0864980220794678, 'learning_rate': 5.78028747433265e-06, 'epoch': 2.57}
+{'eval_loss': 1.775883436203003, 'eval_runtime': 11.572, 'eval_samples_per_second': 51.849, 'eval_steps_per_second': 1.123, 'epoch': 2.57}
+{'loss': 1.3183, 'grad_norm': 2.028276205062866, 'learning_rate': 5.776865160848735e-06, 'epoch': 2.57}
+{'loss': 1.2979, 'grad_norm': 1.8840515613555908, 'learning_rate': 5.773442847364819e-06, 'epoch': 2.57}
+{'loss': 1.304, 'grad_norm': 2.0362367630004883, 'learning_rate': 5.770020533880904e-06, 'epoch': 2.57}
+{'loss': 1.2702, 'grad_norm': 1.931828260421753, 'learning_rate': 5.766598220396988e-06, 'epoch': 2.57}
+{'loss': 1.2729, 'grad_norm': 1.9453543424606323, 'learning_rate': 5.763175906913073e-06, 'epoch': 2.58}
+{'loss': 1.2942, 'grad_norm': 1.9416992664337158, 'learning_rate': 5.7597535934291586e-06, 'epoch': 2.58}
+{'loss': 1.2875, 'grad_norm': 1.9547908306121826, 'learning_rate': 5.756331279945243e-06, 'epoch': 2.58}
+{'loss': 1.2642, 'grad_norm': 1.9857800006866455, 'learning_rate': 5.752908966461328e-06, 'epoch': 2.58}
+{'loss': 1.3045, 'grad_norm': 1.916487216949463, 'learning_rate': 5.7494866529774125e-06, 'epoch': 2.59}
+{'loss': 1.2644, 'grad_norm': 1.8818453550338745, 'learning_rate': 5.746064339493498e-06, 'epoch': 2.59}
+{'eval_loss': 1.7683497667312622, 'eval_runtime': 11.5821, 'eval_samples_per_second': 51.804, 'eval_steps_per_second': 1.122, 'epoch': 2.59}
+{'loss': 1.2842, 'grad_norm': 1.9357892274856567, 'learning_rate': 5.742642026009583e-06, 'epoch': 2.59}
+{'loss': 1.3027, 'grad_norm': 1.8852589130401611, 'learning_rate': 5.739219712525667e-06, 'epoch': 2.59}
+{'loss': 1.2828, 'grad_norm': 1.8987281322479248, 'learning_rate': 5.7357973990417526e-06, 'epoch': 2.59}
+{'loss': 1.288, 'grad_norm': 2.011690616607666, 'learning_rate': 5.732375085557838e-06, 'epoch': 2.6}
+{'loss': 1.3078, 'grad_norm': 1.9661377668380737, 'learning_rate': 5.728952772073922e-06, 'epoch': 2.6}
+{'loss': 1.2961, 'grad_norm': 1.9899327754974365, 'learning_rate': 5.725530458590007e-06, 'epoch': 2.6}
+{'loss': 1.2886, 'grad_norm': 1.9448738098144531, 'learning_rate': 5.722108145106093e-06, 'epoch': 2.6}
+{'loss': 1.3113, 'grad_norm': 1.9764540195465088, 'learning_rate': 5.718685831622177e-06, 'epoch': 2.6}
+{'loss': 1.2306, 'grad_norm': 1.8842144012451172, 'learning_rate': 5.715263518138262e-06, 'epoch': 2.61}
+{'loss': 1.2639, 'grad_norm': 1.9572474956512451, 'learning_rate': 5.711841204654347e-06, 'epoch': 2.61}
+{'eval_loss': 1.7701107263565063, 'eval_runtime': 11.5817, 'eval_samples_per_second': 51.806, 'eval_steps_per_second': 1.122, 'epoch': 2.61}
+{'loss': 1.2729, 'grad_norm': 1.9323493242263794, 'learning_rate': 5.708418891170432e-06, 'epoch': 2.61}
+{'loss': 1.2877, 'grad_norm': 1.9298492670059204, 'learning_rate': 5.704996577686517e-06, 'epoch': 2.61}
+{'loss': 1.273, 'grad_norm': 1.8928149938583374, 'learning_rate': 5.701574264202601e-06, 'epoch': 2.61}
+{'loss': 1.2995, 'grad_norm': 2.007326364517212, 'learning_rate': 5.698151950718687e-06, 'epoch': 2.62}
+{'loss': 1.2401, 'grad_norm': 1.8480894565582275, 'learning_rate': 5.694729637234772e-06, 'epoch': 2.62}
+{'loss': 1.2794, 'grad_norm': 1.8919159173965454, 'learning_rate': 5.691307323750856e-06, 'epoch': 2.62}
+{'loss': 1.2504, 'grad_norm': 1.8792308568954468, 'learning_rate': 5.687885010266941e-06, 'epoch': 2.62}
+{'loss': 1.2768, 'grad_norm': 1.8770798444747925, 'learning_rate': 5.684462696783027e-06, 'epoch': 2.62}
+{'loss': 1.2759, 'grad_norm': 1.8734652996063232, 'learning_rate': 5.68104038329911e-06, 'epoch': 2.63}
+{'loss': 1.321, 'grad_norm': 1.9313701391220093, 'learning_rate': 5.677618069815195e-06, 'epoch': 2.63}
+{'eval_loss': 1.7712785005569458, 'eval_runtime': 11.5973, 'eval_samples_per_second': 51.736, 'eval_steps_per_second': 1.121, 'epoch': 2.63}
+{'loss': 1.3069, 'grad_norm': 1.94002366065979, 'learning_rate': 5.67419575633128e-06, 'epoch': 2.63}
+{'loss': 1.2654, 'grad_norm': 2.0648462772369385, 'learning_rate': 5.670773442847365e-06, 'epoch': 2.63}
+{'loss': 1.2543, 'grad_norm': 2.082503080368042, 'learning_rate': 5.66735112936345e-06, 'epoch': 2.63}
+{'loss': 1.2556, 'grad_norm': 1.8975083827972412, 'learning_rate': 5.6639288158795346e-06, 'epoch': 2.64}
+{'loss': 1.3128, 'grad_norm': 1.9910093545913696, 'learning_rate': 5.66050650239562e-06, 'epoch': 2.64}
+{'loss': 1.3033, 'grad_norm': 2.0072975158691406, 'learning_rate': 5.657084188911704e-06, 'epoch': 2.64}
+{'loss': 1.296, 'grad_norm': 2.0291526317596436, 'learning_rate': 5.653661875427789e-06, 'epoch': 2.64}
+{'loss': 1.2835, 'grad_norm': 2.0275614261627197, 'learning_rate': 5.650239561943875e-06, 'epoch': 2.64}
+{'loss': 1.2931, 'grad_norm': 1.9353255033493042, 'learning_rate': 5.646817248459959e-06, 'epoch': 2.65}
+{'loss': 1.2931, 'grad_norm': 2.014458179473877, 'learning_rate': 5.643394934976044e-06, 'epoch': 2.65}
+{'eval_loss': 1.7693331241607666, 'eval_runtime': 11.5736, 'eval_samples_per_second': 51.842, 'eval_steps_per_second': 1.123, 'epoch': 2.65}
+{'loss': 1.2886, 'grad_norm': 2.045936346054077, 'learning_rate': 5.639972621492129e-06, 'epoch': 2.65}
+{'loss': 1.3008, 'grad_norm': 1.986960768699646, 'learning_rate': 5.636550308008214e-06, 'epoch': 2.65}
+{'loss': 1.2737, 'grad_norm': 1.9238767623901367, 'learning_rate': 5.633127994524299e-06, 'epoch': 2.66}
+{'loss': 1.3066, 'grad_norm': 1.9963951110839844, 'learning_rate': 5.629705681040384e-06, 'epoch': 2.66}
+{'loss': 1.2861, 'grad_norm': 1.976096749305725, 'learning_rate': 5.626283367556469e-06, 'epoch': 2.66}
+{'loss': 1.2535, 'grad_norm': 1.8980846405029297, 'learning_rate': 5.622861054072554e-06, 'epoch': 2.66}
+{'loss': 1.3016, 'grad_norm': 2.0226402282714844, 'learning_rate': 5.619438740588638e-06, 'epoch': 2.66}
+{'loss': 1.2837, 'grad_norm': 1.9809614419937134, 'learning_rate': 5.616016427104723e-06, 'epoch': 2.67}
+{'loss': 1.3037, 'grad_norm': 1.8839150667190552, 'learning_rate': 5.612594113620809e-06, 'epoch': 2.67}
+{'loss': 1.2809, 'grad_norm': 1.8818230628967285, 'learning_rate': 5.609171800136893e-06, 'epoch': 2.67}
+{'eval_loss': 1.7684326171875, 'eval_runtime': 11.563, 'eval_samples_per_second': 51.89, 'eval_steps_per_second': 1.124, 'epoch': 2.67}
+{'loss': 1.2748, 'grad_norm': 2.0311601161956787, 'learning_rate': 5.605749486652978e-06, 'epoch': 2.67}
+{'loss': 1.3017, 'grad_norm': 1.9421318769454956, 'learning_rate': 5.6023271731690635e-06, 'epoch': 2.67}
+{'loss': 1.264, 'grad_norm': 1.981759786605835, 'learning_rate': 5.598904859685148e-06, 'epoch': 2.68}
+{'loss': 1.334, 'grad_norm': 2.1148502826690674, 'learning_rate': 5.595482546201233e-06, 'epoch': 2.68}
+{'loss': 1.2782, 'grad_norm': 1.9981955289840698, 'learning_rate': 5.592060232717318e-06, 'epoch': 2.68}
+{'loss': 1.2513, 'grad_norm': 1.9226276874542236, 'learning_rate': 5.588637919233402e-06, 'epoch': 2.68}
+{'loss': 1.3246, 'grad_norm': 2.081533908843994, 'learning_rate': 5.585215605749487e-06, 'epoch': 2.68}
+{'loss': 1.2829, 'grad_norm': 1.9788821935653687, 'learning_rate': 5.581793292265571e-06, 'epoch': 2.69}
+{'loss': 1.2919, 'grad_norm': 2.039400815963745, 'learning_rate': 5.578370978781657e-06, 'epoch': 2.69}
+{'loss': 1.3169, 'grad_norm': 1.956173300743103, 'learning_rate': 5.574948665297741e-06, 'epoch': 2.69}
+{'eval_loss': 1.776581883430481, 'eval_runtime': 11.5859, 'eval_samples_per_second': 51.787, 'eval_steps_per_second': 1.122, 'epoch': 2.69}
+{'loss': 1.2756, 'grad_norm': 1.9857885837554932, 'learning_rate': 5.571526351813826e-06, 'epoch': 2.69}
+{'loss': 1.2713, 'grad_norm': 1.8822582960128784, 'learning_rate': 5.5681040383299114e-06, 'epoch': 2.69}
+{'loss': 1.2849, 'grad_norm': 1.9605430364608765, 'learning_rate': 5.564681724845996e-06, 'epoch': 2.7}
+{'loss': 1.2809, 'grad_norm': 1.8683961629867554, 'learning_rate': 5.561259411362081e-06, 'epoch': 2.7}
+{'loss': 1.3183, 'grad_norm': 2.0151469707489014, 'learning_rate': 5.557837097878166e-06, 'epoch': 2.7}
+{'loss': 1.278, 'grad_norm': 1.8700579404830933, 'learning_rate': 5.554414784394251e-06, 'epoch': 2.7}
+{'loss': 1.2378, 'grad_norm': 1.9704780578613281, 'learning_rate': 5.550992470910336e-06, 'epoch': 2.7}
+{'loss': 1.2961, 'grad_norm': 2.0138401985168457, 'learning_rate': 5.547570157426421e-06, 'epoch': 2.71}
+{'loss': 1.3111, 'grad_norm': 2.021625518798828, 'learning_rate': 5.5441478439425054e-06, 'epoch': 2.71}
+{'loss': 1.2779, 'grad_norm': 2.018350839614868, 'learning_rate': 5.540725530458591e-06, 'epoch': 2.71}
+{'eval_loss': 1.769311547279358, 'eval_runtime': 11.5726, 'eval_samples_per_second': 51.846, 'eval_steps_per_second': 1.123, 'epoch': 2.71}
+{'loss': 1.2696, 'grad_norm': 1.9142050743103027, 'learning_rate': 5.537303216974675e-06, 'epoch': 2.71}
+{'loss': 1.2801, 'grad_norm': 1.981913447380066, 'learning_rate': 5.53388090349076e-06, 'epoch': 2.71}
+{'loss': 1.3007, 'grad_norm': 1.9788750410079956, 'learning_rate': 5.5304585900068455e-06, 'epoch': 2.72}
+{'loss': 1.2798, 'grad_norm': 1.97287917137146, 'learning_rate': 5.52703627652293e-06, 'epoch': 2.72}
+{'loss': 1.3209, 'grad_norm': 1.9923127889633179, 'learning_rate': 5.523613963039015e-06, 'epoch': 2.72}
+{'loss': 1.2796, 'grad_norm': 1.9013340473175049, 'learning_rate': 5.5201916495551e-06, 'epoch': 2.72}
+{'loss': 1.3182, 'grad_norm': 1.9410483837127686, 'learning_rate': 5.516769336071185e-06, 'epoch': 2.72}
+{'loss': 1.3024, 'grad_norm': 2.116708517074585, 'learning_rate': 5.51334702258727e-06, 'epoch': 2.73}
+{'loss': 1.2813, 'grad_norm': 2.0197625160217285, 'learning_rate': 5.509924709103355e-06, 'epoch': 2.73}
+{'loss': 1.2939, 'grad_norm': 1.9850322008132935, 'learning_rate': 5.5065023956194395e-06, 'epoch': 2.73}
+{'eval_loss': 1.773138165473938, 'eval_runtime': 11.5682, 'eval_samples_per_second': 51.866, 'eval_steps_per_second': 1.124, 'epoch': 2.73}
+{'loss': 1.2781, 'grad_norm': 1.901207685470581, 'learning_rate': 5.503080082135525e-06, 'epoch': 2.73}
+{'loss': 1.2553, 'grad_norm': 1.918640375137329, 'learning_rate': 5.499657768651608e-06, 'epoch': 2.74}
+{'loss': 1.294, 'grad_norm': 1.910470962524414, 'learning_rate': 5.4962354551676934e-06, 'epoch': 2.74}
+{'loss': 1.2889, 'grad_norm': 1.885430932044983, 'learning_rate': 5.492813141683778e-06, 'epoch': 2.74}
+{'loss': 1.2541, 'grad_norm': 1.863478422164917, 'learning_rate': 5.489390828199863e-06, 'epoch': 2.74}
+{'loss': 1.2762, 'grad_norm': 1.9772461652755737, 'learning_rate': 5.485968514715948e-06, 'epoch': 2.74}
+{'loss': 1.2968, 'grad_norm': 1.9484648704528809, 'learning_rate': 5.482546201232033e-06, 'epoch': 2.75}
+{'loss': 1.2981, 'grad_norm': 1.9700576066970825, 'learning_rate': 5.479123887748118e-06, 'epoch': 2.75}
+{'loss': 1.3107, 'grad_norm': 1.9542295932769775, 'learning_rate': 5.475701574264203e-06, 'epoch': 2.75}
+{'loss': 1.2723, 'grad_norm': 1.8967585563659668, 'learning_rate': 5.4722792607802874e-06, 'epoch': 2.75}
+{'eval_loss': 1.762116551399231, 'eval_runtime': 11.5592, 'eval_samples_per_second': 51.907, 'eval_steps_per_second': 1.125, 'epoch': 2.75}
+{'loss': 1.2699, 'grad_norm': 1.967392086982727, 'learning_rate': 5.468856947296373e-06, 'epoch': 2.75}
+{'loss': 1.2703, 'grad_norm': 1.902793049812317, 'learning_rate': 5.465434633812458e-06, 'epoch': 2.76}
+{'loss': 1.2885, 'grad_norm': 1.973809838294983, 'learning_rate': 5.462012320328542e-06, 'epoch': 2.76}
+{'loss': 1.3034, 'grad_norm': 1.9380239248275757, 'learning_rate': 5.4585900068446275e-06, 'epoch': 2.76}
+{'loss': 1.3126, 'grad_norm': 2.05147123336792, 'learning_rate': 5.455167693360713e-06, 'epoch': 2.76}
+{'loss': 1.2734, 'grad_norm': 1.9051064252853394, 'learning_rate': 5.451745379876797e-06, 'epoch': 2.76}
+{'loss': 1.2849, 'grad_norm': 1.9708619117736816, 'learning_rate': 5.448323066392882e-06, 'epoch': 2.77}
+{'loss': 1.2741, 'grad_norm': 1.9301307201385498, 'learning_rate': 5.444900752908967e-06, 'epoch': 2.77}
+{'loss': 1.2926, 'grad_norm': 1.884226679801941, 'learning_rate': 5.441478439425052e-06, 'epoch': 2.77}
+{'loss': 1.2625, 'grad_norm': 1.8986759185791016, 'learning_rate': 5.438056125941137e-06, 'epoch': 2.77}
+{'eval_loss': 1.764959454536438, 'eval_runtime': 11.5674, 'eval_samples_per_second': 51.87, 'eval_steps_per_second': 1.124, 'epoch': 2.77}
+{'loss': 1.2437, 'grad_norm': 1.8178322315216064, 'learning_rate': 5.4346338124572215e-06, 'epoch': 2.77}
+{'loss': 1.2482, 'grad_norm': 1.903382658958435, 'learning_rate': 5.431211498973307e-06, 'epoch': 2.78}
+{'loss': 1.2717, 'grad_norm': 2.04761004447937, 'learning_rate': 5.427789185489392e-06, 'epoch': 2.78}
+{'loss': 1.2891, 'grad_norm': 1.9748934507369995, 'learning_rate': 5.424366872005476e-06, 'epoch': 2.78}
+{'loss': 1.2912, 'grad_norm': 2.0431861877441406, 'learning_rate': 5.4209445585215615e-06, 'epoch': 2.78}
+{'loss': 1.2782, 'grad_norm': 1.9442110061645508, 'learning_rate': 5.417522245037647e-06, 'epoch': 2.78}
+{'loss': 1.2644, 'grad_norm': 1.9060735702514648, 'learning_rate': 5.414099931553731e-06, 'epoch': 2.79}
+{'loss': 1.3149, 'grad_norm': 2.015402317047119, 'learning_rate': 5.410677618069816e-06, 'epoch': 2.79}
+{'loss': 1.2377, 'grad_norm': 1.881361961364746, 'learning_rate': 5.4072553045859e-06, 'epoch': 2.79}
+{'loss': 1.3065, 'grad_norm': 1.9892114400863647, 'learning_rate': 5.403832991101985e-06, 'epoch': 2.79}
+{'eval_loss': 1.7563027143478394, 'eval_runtime': 11.4441, 'eval_samples_per_second': 52.429, 'eval_steps_per_second': 1.136, 'epoch': 2.79}
+{'loss': 1.2652, 'grad_norm': 1.8850661516189575, 'learning_rate': 5.4004106776180694e-06, 'epoch': 2.79}
+{'loss': 1.3109, 'grad_norm': 2.048088788986206, 'learning_rate': 5.396988364134155e-06, 'epoch': 2.8}
+{'loss': 1.2457, 'grad_norm': 2.1171536445617676, 'learning_rate': 5.39356605065024e-06, 'epoch': 2.8}
+{'loss': 1.2684, 'grad_norm': 1.9983034133911133, 'learning_rate': 5.390143737166324e-06, 'epoch': 2.8}
+{'loss': 1.2821, 'grad_norm': 1.9423197507858276, 'learning_rate': 5.3867214236824095e-06, 'epoch': 2.8}
+{'loss': 1.2861, 'grad_norm': 1.9831587076187134, 'learning_rate': 5.383299110198495e-06, 'epoch': 2.8}
+{'loss': 1.2789, 'grad_norm': 1.9287489652633667, 'learning_rate': 5.379876796714579e-06, 'epoch': 2.81}
+{'loss': 1.261, 'grad_norm': 1.9040697813034058, 'learning_rate': 5.376454483230664e-06, 'epoch': 2.81}
+{'loss': 1.3048, 'grad_norm': 1.939673900604248, 'learning_rate': 5.3730321697467495e-06, 'epoch': 2.81}
+{'loss': 1.3096, 'grad_norm': 2.080005407333374, 'learning_rate': 5.369609856262834e-06, 'epoch': 2.81}
+{'eval_loss': 1.753967046737671, 'eval_runtime': 11.5213, 'eval_samples_per_second': 52.078, 'eval_steps_per_second': 1.128, 'epoch': 2.81}
+{'loss': 1.272, 'grad_norm': 1.9353920221328735, 'learning_rate': 5.366187542778919e-06, 'epoch': 2.82}
+{'loss': 1.3092, 'grad_norm': 1.9166276454925537, 'learning_rate': 5.3627652292950035e-06, 'epoch': 2.82}
+{'loss': 1.2715, 'grad_norm': 1.9125419855117798, 'learning_rate': 5.359342915811089e-06, 'epoch': 2.82}
+{'loss': 1.2817, 'grad_norm': 2.0123231410980225, 'learning_rate': 5.355920602327174e-06, 'epoch': 2.82}
+{'loss': 1.2491, 'grad_norm': 1.9511703252792358, 'learning_rate': 5.352498288843258e-06, 'epoch': 2.82}
+{'loss': 1.2937, 'grad_norm': 1.9437919855117798, 'learning_rate': 5.3490759753593435e-06, 'epoch': 2.83}
+{'loss': 1.2639, 'grad_norm': 1.8694480657577515, 'learning_rate': 5.345653661875429e-06, 'epoch': 2.83}
+{'loss': 1.3042, 'grad_norm': 2.055302619934082, 'learning_rate': 5.342231348391513e-06, 'epoch': 2.83}
+{'loss': 1.3421, 'grad_norm': 2.2121167182922363, 'learning_rate': 5.338809034907598e-06, 'epoch': 2.83}
+{'loss': 1.2606, 'grad_norm': 1.998173713684082, 'learning_rate': 5.3353867214236835e-06, 'epoch': 2.83}
+{'eval_loss': 1.7619059085845947, 'eval_runtime': 11.5481, 'eval_samples_per_second': 51.957, 'eval_steps_per_second': 1.126, 'epoch': 2.83}
+{'loss': 1.2402, 'grad_norm': 2.038771867752075, 'learning_rate': 5.331964407939768e-06, 'epoch': 2.84}
+{'loss': 1.2814, 'grad_norm': 1.9584687948226929, 'learning_rate': 5.328542094455853e-06, 'epoch': 2.84}
+{'loss': 1.3042, 'grad_norm': 2.0008859634399414, 'learning_rate': 5.325119780971938e-06, 'epoch': 2.84}
+{'loss': 1.2937, 'grad_norm': 1.9309133291244507, 'learning_rate': 5.321697467488023e-06, 'epoch': 2.84}
+{'loss': 1.2892, 'grad_norm': 1.88240385055542, 'learning_rate': 5.318275154004108e-06, 'epoch': 2.84}
+{'loss': 1.284, 'grad_norm': 1.9443320035934448, 'learning_rate': 5.3148528405201915e-06, 'epoch': 2.85}
+{'loss': 1.3182, 'grad_norm': 2.0324556827545166, 'learning_rate': 5.311430527036277e-06, 'epoch': 2.85}
+{'loss': 1.2941, 'grad_norm': 2.0081241130828857, 'learning_rate': 5.308008213552361e-06, 'epoch': 2.85}
+{'loss': 1.2695, 'grad_norm': 1.9448142051696777, 'learning_rate': 5.304585900068446e-06, 'epoch': 2.85}
+{'loss': 1.2526, 'grad_norm': 2.033342123031616, 'learning_rate': 5.3011635865845315e-06, 'epoch': 2.85}
+{'eval_loss': 1.7690606117248535, 'eval_runtime': 11.5489, 'eval_samples_per_second': 51.953, 'eval_steps_per_second': 1.126, 'epoch': 2.85}
+{'loss': 1.2581, 'grad_norm': 1.9056854248046875, 'learning_rate': 5.297741273100616e-06, 'epoch': 2.86}
+{'loss': 1.2656, 'grad_norm': 1.887068510055542, 'learning_rate': 5.294318959616701e-06, 'epoch': 2.86}
+{'loss': 1.2595, 'grad_norm': 1.901339054107666, 'learning_rate': 5.290896646132786e-06, 'epoch': 2.86}
+{'loss': 1.2836, 'grad_norm': 1.9237349033355713, 'learning_rate': 5.287474332648871e-06, 'epoch': 2.86}
+{'loss': 1.2977, 'grad_norm': 1.9633243083953857, 'learning_rate': 5.284052019164956e-06, 'epoch': 2.86}
+{'loss': 1.2617, 'grad_norm': 1.839941382408142, 'learning_rate': 5.280629705681041e-06, 'epoch': 2.87}
+{'loss': 1.2876, 'grad_norm': 2.038102388381958, 'learning_rate': 5.2772073921971255e-06, 'epoch': 2.87}
+{'loss': 1.2741, 'grad_norm': 1.9187368154525757, 'learning_rate': 5.273785078713211e-06, 'epoch': 2.87}
+{'loss': 1.2869, 'grad_norm': 1.905582070350647, 'learning_rate': 5.270362765229295e-06, 'epoch': 2.87}
+{'loss': 1.2381, 'grad_norm': 1.8952447175979614, 'learning_rate': 5.26694045174538e-06, 'epoch': 2.87}
+{'eval_loss': 1.7660713195800781, 'eval_runtime': 11.5437, 'eval_samples_per_second': 51.976, 'eval_steps_per_second': 1.126, 'epoch': 2.87}
+{'loss': 1.2528, 'grad_norm': 1.921974539756775, 'learning_rate': 5.2635181382614655e-06, 'epoch': 2.88}
+{'loss': 1.2722, 'grad_norm': 1.9515398740768433, 'learning_rate': 5.26009582477755e-06, 'epoch': 2.88}
+{'loss': 1.2882, 'grad_norm': 1.9381542205810547, 'learning_rate': 5.256673511293635e-06, 'epoch': 2.88}
+{'loss': 1.2737, 'grad_norm': 1.888845443725586, 'learning_rate': 5.25325119780972e-06, 'epoch': 2.88}
+{'loss': 1.3212, 'grad_norm': 1.9903602600097656, 'learning_rate': 5.249828884325805e-06, 'epoch': 2.89}
+{'loss': 1.3016, 'grad_norm': 1.9659405946731567, 'learning_rate': 5.24640657084189e-06, 'epoch': 2.89}
+{'loss': 1.2751, 'grad_norm': 1.9139549732208252, 'learning_rate': 5.242984257357975e-06, 'epoch': 2.89}
+{'loss': 1.2563, 'grad_norm': 2.0049209594726562, 'learning_rate': 5.2395619438740595e-06, 'epoch': 2.89}
+{'loss': 1.2559, 'grad_norm': 1.8895024061203003, 'learning_rate': 5.236139630390145e-06, 'epoch': 2.89}
+{'loss': 1.2722, 'grad_norm': 1.9320091009140015, 'learning_rate': 5.232717316906229e-06, 'epoch': 2.9}
+{'eval_loss': 1.7734142541885376, 'eval_runtime': 11.5605, 'eval_samples_per_second': 51.901, 'eval_steps_per_second': 1.125, 'epoch': 2.9}
+{'loss': 1.2643, 'grad_norm': 2.003669500350952, 'learning_rate': 5.229295003422314e-06, 'epoch': 2.9}
+{'loss': 1.3115, 'grad_norm': 2.064882516860962, 'learning_rate': 5.225872689938398e-06, 'epoch': 2.9}
+{'loss': 1.3034, 'grad_norm': 1.948151707649231, 'learning_rate': 5.222450376454483e-06, 'epoch': 2.9}
+{'loss': 1.2602, 'grad_norm': 1.871297836303711, 'learning_rate': 5.219028062970568e-06, 'epoch': 2.9}
+{'loss': 1.3102, 'grad_norm': 1.9202334880828857, 'learning_rate': 5.215605749486653e-06, 'epoch': 2.91}
+{'loss': 1.2861, 'grad_norm': 1.8828538656234741, 'learning_rate': 5.212183436002738e-06, 'epoch': 2.91}
+{'loss': 1.2893, 'grad_norm': 1.8580180406570435, 'learning_rate': 5.208761122518823e-06, 'epoch': 2.91}
+{'loss': 1.2835, 'grad_norm': 1.8828996419906616, 'learning_rate': 5.2053388090349075e-06, 'epoch': 2.91}
+{'loss': 1.249, 'grad_norm': 1.9357259273529053, 'learning_rate': 5.201916495550993e-06, 'epoch': 2.91}
+{'loss': 1.2977, 'grad_norm': 1.9072357416152954, 'learning_rate': 5.198494182067078e-06, 'epoch': 2.92}
+{'eval_loss': 1.7762773036956787, 'eval_runtime': 11.571, 'eval_samples_per_second': 51.854, 'eval_steps_per_second': 1.123, 'epoch': 2.92}
+{'loss': 1.2672, 'grad_norm': 1.9726923704147339, 'learning_rate': 5.195071868583162e-06, 'epoch': 2.92}
+{'loss': 1.2774, 'grad_norm': 1.9340463876724243, 'learning_rate': 5.1916495550992475e-06, 'epoch': 2.92}
+{'loss': 1.2705, 'grad_norm': 1.9136494398117065, 'learning_rate': 5.188227241615332e-06, 'epoch': 2.92}
+{'loss': 1.2693, 'grad_norm': 1.903240442276001, 'learning_rate': 5.184804928131417e-06, 'epoch': 2.92}
+{'loss': 1.2989, 'grad_norm': 1.9574459791183472, 'learning_rate': 5.181382614647502e-06, 'epoch': 2.93}
+{'loss': 1.2761, 'grad_norm': 1.781158208847046, 'learning_rate': 5.177960301163587e-06, 'epoch': 2.93}
+{'loss': 1.2807, 'grad_norm': 1.8509446382522583, 'learning_rate': 5.174537987679672e-06, 'epoch': 2.93}
+{'loss': 1.278, 'grad_norm': 1.8403489589691162, 'learning_rate': 5.171115674195757e-06, 'epoch': 2.93}
+{'loss': 1.2967, 'grad_norm': 1.8908311128616333, 'learning_rate': 5.1676933607118416e-06, 'epoch': 2.93}
+{'loss': 1.2743, 'grad_norm': 1.9524590969085693, 'learning_rate': 5.164271047227927e-06, 'epoch': 2.94}
+{'eval_loss': 1.7743395566940308, 'eval_runtime': 11.5898, 'eval_samples_per_second': 51.77, 'eval_steps_per_second': 1.122, 'epoch': 2.94}
+{'loss': 1.2894, 'grad_norm': 1.9167821407318115, 'learning_rate': 5.160848733744012e-06, 'epoch': 2.94}
+{'loss': 1.2506, 'grad_norm': 1.9391931295394897, 'learning_rate': 5.157426420260096e-06, 'epoch': 2.94}
+{'loss': 1.265, 'grad_norm': 1.936002492904663, 'learning_rate': 5.154004106776182e-06, 'epoch': 2.94}
+{'loss': 1.272, 'grad_norm': 1.8544994592666626, 'learning_rate': 5.150581793292266e-06, 'epoch': 2.94}
+{'loss': 1.2573, 'grad_norm': 1.9221341609954834, 'learning_rate': 5.147159479808351e-06, 'epoch': 2.95}
+{'loss': 1.3135, 'grad_norm': 1.9586999416351318, 'learning_rate': 5.143737166324436e-06, 'epoch': 2.95}
+{'loss': 1.2963, 'grad_norm': 1.9240247011184692, 'learning_rate': 5.140314852840521e-06, 'epoch': 2.95}
+{'loss': 1.253, 'grad_norm': 1.850037932395935, 'learning_rate': 5.136892539356606e-06, 'epoch': 2.95}
+{'loss': 1.2949, 'grad_norm': 1.9100515842437744, 'learning_rate': 5.1334702258726895e-06, 'epoch': 2.95}
+{'loss': 1.2692, 'grad_norm': 1.926103949546814, 'learning_rate': 5.130047912388775e-06, 'epoch': 2.96}
+{'eval_loss': 1.7696452140808105, 'eval_runtime': 11.5895, 'eval_samples_per_second': 51.771, 'eval_steps_per_second': 1.122, 'epoch': 2.96}
+{'loss': 1.2862, 'grad_norm': 1.9268372058868408, 'learning_rate': 5.12662559890486e-06, 'epoch': 2.96}
+{'loss': 1.2661, 'grad_norm': 1.956289529800415, 'learning_rate': 5.123203285420944e-06, 'epoch': 2.96}
+{'loss': 1.2679, 'grad_norm': 2.0711305141448975, 'learning_rate': 5.1197809719370296e-06, 'epoch': 2.96}
+{'loss': 1.2564, 'grad_norm': 1.96709406375885, 'learning_rate': 5.116358658453115e-06, 'epoch': 2.97}
+{'loss': 1.2785, 'grad_norm': 1.9258545637130737, 'learning_rate': 5.112936344969199e-06, 'epoch': 2.97}
+{'loss': 1.2658, 'grad_norm': 1.975348711013794, 'learning_rate': 5.109514031485284e-06, 'epoch': 2.97}
+{'loss': 1.2605, 'grad_norm': 1.9669902324676514, 'learning_rate': 5.106091718001369e-06, 'epoch': 2.97}
+{'loss': 1.2885, 'grad_norm': 2.0480990409851074, 'learning_rate': 5.102669404517454e-06, 'epoch': 2.97}
+{'loss': 1.3086, 'grad_norm': 1.9400478601455688, 'learning_rate': 5.099247091033539e-06, 'epoch': 2.98}
+{'loss': 1.2707, 'grad_norm': 1.9322222471237183, 'learning_rate': 5.0958247775496236e-06, 'epoch': 2.98}
+{'eval_loss': 1.778132677078247, 'eval_runtime': 11.552, 'eval_samples_per_second': 51.939, 'eval_steps_per_second': 1.125, 'epoch': 2.98}
+{'loss': 1.2508, 'grad_norm': 1.945861577987671, 'learning_rate': 5.092402464065709e-06, 'epoch': 2.98}
+{'loss': 1.3132, 'grad_norm': 2.054405450820923, 'learning_rate': 5.088980150581794e-06, 'epoch': 2.98}
+{'loss': 1.2614, 'grad_norm': 1.8817298412322998, 'learning_rate': 5.085557837097878e-06, 'epoch': 2.98}
+{'loss': 1.2594, 'grad_norm': 1.905839443206787, 'learning_rate': 5.082135523613964e-06, 'epoch': 2.99}
+{'loss': 1.2258, 'grad_norm': 1.8914090394973755, 'learning_rate': 5.078713210130049e-06, 'epoch': 2.99}
+{'loss': 1.2769, 'grad_norm': 1.9781882762908936, 'learning_rate': 5.075290896646133e-06, 'epoch': 2.99}
+{'loss': 1.2982, 'grad_norm': 1.9620693922042847, 'learning_rate': 5.071868583162218e-06, 'epoch': 2.99}
+{'loss': 1.2798, 'grad_norm': 1.8903981447219849, 'learning_rate': 5.068446269678304e-06, 'epoch': 2.99}
+{'loss': 1.2942, 'grad_norm': 1.9614543914794922, 'learning_rate': 5.065023956194388e-06, 'epoch': 3.0}
+{'loss': 1.2589, 'grad_norm': 1.8626664876937866, 'learning_rate': 5.061601642710473e-06, 'epoch': 3.0}
+{'eval_loss': 1.766028642654419, 'eval_runtime': 11.5852, 'eval_samples_per_second': 51.79, 'eval_steps_per_second': 1.122, 'epoch': 3.0}
+{'loss': 1.2273, 'grad_norm': 1.9617406129837036, 'learning_rate': 5.058179329226558e-06, 'epoch': 3.0}
+{'loss': 1.2023, 'grad_norm': 2.6001057624816895, 'learning_rate': 5.054757015742643e-06, 'epoch': 3.0}
+{'loss': 1.2072, 'grad_norm': 2.223827362060547, 'learning_rate': 5.051334702258728e-06, 'epoch': 3.0}
+{'loss': 1.1869, 'grad_norm': 2.272247314453125, 'learning_rate': 5.047912388774812e-06, 'epoch': 3.01}
+{'loss': 1.1753, 'grad_norm': 2.7591137886047363, 'learning_rate': 5.044490075290897e-06, 'epoch': 3.01}
+{'loss': 1.162, 'grad_norm': 2.57170033454895, 'learning_rate': 5.041067761806981e-06, 'epoch': 3.01}
+{'loss': 1.163, 'grad_norm': 2.4409778118133545, 'learning_rate': 5.037645448323066e-06, 'epoch': 3.01}
+{'loss': 1.1753, 'grad_norm': 2.393228769302368, 'learning_rate': 5.034223134839152e-06, 'epoch': 3.01}
+{'loss': 1.1858, 'grad_norm': 2.521254301071167, 'learning_rate': 5.030800821355236e-06, 'epoch': 3.02}
+{'loss': 1.204, 'grad_norm': 2.3337602615356445, 'learning_rate': 5.027378507871321e-06, 'epoch': 3.02}
+{'eval_loss': 1.780596137046814, 'eval_runtime': 11.6002, 'eval_samples_per_second': 51.723, 'eval_steps_per_second': 1.121, 'epoch': 3.02}
+{'loss': 1.1819, 'grad_norm': 2.276648759841919, 'learning_rate': 5.023956194387406e-06, 'epoch': 3.02}
+{'loss': 1.1936, 'grad_norm': 2.352585792541504, 'learning_rate': 5.020533880903491e-06, 'epoch': 3.02}
+{'loss': 1.1902, 'grad_norm': 2.375833034515381, 'learning_rate': 5.017111567419576e-06, 'epoch': 3.02}
+{'loss': 1.1716, 'grad_norm': 2.2760584354400635, 'learning_rate': 5.01368925393566e-06, 'epoch': 3.03}
+{'loss': 1.2169, 'grad_norm': 2.434976577758789, 'learning_rate': 5.010266940451746e-06, 'epoch': 3.03}
+{'loss': 1.2203, 'grad_norm': 2.3073067665100098, 'learning_rate': 5.006844626967831e-06, 'epoch': 3.03}
+{'loss': 1.2032, 'grad_norm': 2.3232524394989014, 'learning_rate': 5.003422313483915e-06, 'epoch': 3.03}
+{'loss': 1.1937, 'grad_norm': 2.318804979324341, 'learning_rate': 5e-06, 'epoch': 3.03}
+{'loss': 1.1777, 'grad_norm': 2.334423065185547, 'learning_rate': 4.996577686516086e-06, 'epoch': 3.04}
+{'loss': 1.1799, 'grad_norm': 2.415156602859497, 'learning_rate': 4.99315537303217e-06, 'epoch': 3.04}
+{'eval_loss': 1.7827991247177124, 'eval_runtime': 11.6058, 'eval_samples_per_second': 51.698, 'eval_steps_per_second': 1.12, 'epoch': 3.04}
+{'loss': 1.2025, 'grad_norm': 2.355971574783325, 'learning_rate': 4.989733059548255e-06, 'epoch': 3.04}
+{'loss': 1.1967, 'grad_norm': 2.3275396823883057, 'learning_rate': 4.9863107460643404e-06, 'epoch': 3.04}
+{'loss': 1.211, 'grad_norm': 2.4478447437286377, 'learning_rate': 4.982888432580425e-06, 'epoch': 3.05}
+{'loss': 1.1844, 'grad_norm': 2.3565406799316406, 'learning_rate': 4.97946611909651e-06, 'epoch': 3.05}
+{'loss': 1.1781, 'grad_norm': 2.3205392360687256, 'learning_rate': 4.976043805612594e-06, 'epoch': 3.05}
+{'loss': 1.1872, 'grad_norm': 2.32175350189209, 'learning_rate': 4.972621492128679e-06, 'epoch': 3.05}
+{'loss': 1.1616, 'grad_norm': 2.314037799835205, 'learning_rate': 4.969199178644764e-06, 'epoch': 3.05}
+{'loss': 1.2026, 'grad_norm': 2.5424435138702393, 'learning_rate': 4.965776865160849e-06, 'epoch': 3.06}
+{'loss': 1.1776, 'grad_norm': 2.295166015625, 'learning_rate': 4.962354551676934e-06, 'epoch': 3.06}
+{'loss': 1.2043, 'grad_norm': 2.3107080459594727, 'learning_rate': 4.958932238193019e-06, 'epoch': 3.06}
+{'eval_loss': 1.784949779510498, 'eval_runtime': 11.5777, 'eval_samples_per_second': 51.824, 'eval_steps_per_second': 1.123, 'epoch': 3.06}
+{'loss': 1.206, 'grad_norm': 2.3694887161254883, 'learning_rate': 4.955509924709104e-06, 'epoch': 3.06}
+{'loss': 1.2015, 'grad_norm': 2.3422317504882812, 'learning_rate': 4.952087611225188e-06, 'epoch': 3.06}
+{'loss': 1.2105, 'grad_norm': 2.3951621055603027, 'learning_rate': 4.948665297741274e-06, 'epoch': 3.07}
+{'loss': 1.1817, 'grad_norm': 2.4194815158843994, 'learning_rate': 4.945242984257359e-06, 'epoch': 3.07}
+{'loss': 1.1932, 'grad_norm': 2.3166487216949463, 'learning_rate': 4.941820670773443e-06, 'epoch': 3.07}
+{'loss': 1.2216, 'grad_norm': 2.401740074157715, 'learning_rate': 4.9383983572895284e-06, 'epoch': 3.07}
+{'loss': 1.2277, 'grad_norm': 2.3846700191497803, 'learning_rate': 4.934976043805613e-06, 'epoch': 3.07}
+{'loss': 1.1621, 'grad_norm': 2.3207738399505615, 'learning_rate': 4.931553730321697e-06, 'epoch': 3.08}
+{'loss': 1.2035, 'grad_norm': 2.3963561058044434, 'learning_rate': 4.928131416837782e-06, 'epoch': 3.08}
+{'loss': 1.2099, 'grad_norm': 2.277691125869751, 'learning_rate': 4.924709103353868e-06, 'epoch': 3.08}
+{'eval_loss': 1.7848492860794067, 'eval_runtime': 11.5714, 'eval_samples_per_second': 51.852, 'eval_steps_per_second': 1.123, 'epoch': 3.08}
+{'loss': 1.202, 'grad_norm': 2.375575542449951, 'learning_rate': 4.921286789869952e-06, 'epoch': 3.08}
+{'loss': 1.2197, 'grad_norm': 2.372544765472412, 'learning_rate': 4.917864476386037e-06, 'epoch': 3.08}
+{'loss': 1.1818, 'grad_norm': 2.3987715244293213, 'learning_rate': 4.9144421629021224e-06, 'epoch': 3.09}
+{'loss': 1.1642, 'grad_norm': 2.4308133125305176, 'learning_rate': 4.911019849418207e-06, 'epoch': 3.09}
+{'loss': 1.1807, 'grad_norm': 2.308035373687744, 'learning_rate': 4.907597535934292e-06, 'epoch': 3.09}
+{'loss': 1.1985, 'grad_norm': 2.400470733642578, 'learning_rate': 4.904175222450377e-06, 'epoch': 3.09}
+{'loss': 1.1902, 'grad_norm': 2.4108283519744873, 'learning_rate': 4.900752908966462e-06, 'epoch': 3.09}
+{'loss': 1.1799, 'grad_norm': 2.4130258560180664, 'learning_rate': 4.897330595482547e-06, 'epoch': 3.1}
+{'loss': 1.1929, 'grad_norm': 2.34318208694458, 'learning_rate': 4.893908281998632e-06, 'epoch': 3.1}
+{'loss': 1.1826, 'grad_norm': 2.4101693630218506, 'learning_rate': 4.8904859685147164e-06, 'epoch': 3.1}
+{'eval_loss': 1.7927424907684326, 'eval_runtime': 11.4543, 'eval_samples_per_second': 52.382, 'eval_steps_per_second': 1.135, 'epoch': 3.1}
+{'loss': 1.207, 'grad_norm': 2.4340035915374756, 'learning_rate': 4.887063655030802e-06, 'epoch': 3.1}
+{'loss': 1.1725, 'grad_norm': 2.3788700103759766, 'learning_rate': 4.883641341546886e-06, 'epoch': 3.1}
+{'loss': 1.1844, 'grad_norm': 2.379844903945923, 'learning_rate': 4.88021902806297e-06, 'epoch': 3.11}
+{'loss': 1.1684, 'grad_norm': 2.3245389461517334, 'learning_rate': 4.876796714579056e-06, 'epoch': 3.11}
+{'loss': 1.2347, 'grad_norm': 2.4389874935150146, 'learning_rate': 4.873374401095141e-06, 'epoch': 3.11}
+{'loss': 1.176, 'grad_norm': 2.351423501968384, 'learning_rate': 4.869952087611225e-06, 'epoch': 3.11}
+{'loss': 1.1792, 'grad_norm': 2.271228075027466, 'learning_rate': 4.8665297741273105e-06, 'epoch': 3.11}
+{'loss': 1.1929, 'grad_norm': 2.2566943168640137, 'learning_rate': 4.863107460643396e-06, 'epoch': 3.12}
+{'loss': 1.1732, 'grad_norm': 2.3655569553375244, 'learning_rate': 4.85968514715948e-06, 'epoch': 3.12}
+{'loss': 1.1926, 'grad_norm': 2.488560914993286, 'learning_rate': 4.856262833675565e-06, 'epoch': 3.12}
+{'eval_loss': 1.7968991994857788, 'eval_runtime': 11.5159, 'eval_samples_per_second': 52.102, 'eval_steps_per_second': 1.129, 'epoch': 3.12}
+{'loss': 1.241, 'grad_norm': 2.3994204998016357, 'learning_rate': 4.8528405201916505e-06, 'epoch': 3.12}
+{'loss': 1.2004, 'grad_norm': 2.3785762786865234, 'learning_rate': 4.849418206707735e-06, 'epoch': 3.13}
+{'loss': 1.2056, 'grad_norm': 2.4141101837158203, 'learning_rate': 4.84599589322382e-06, 'epoch': 3.13}
+{'loss': 1.1669, 'grad_norm': 2.280313730239868, 'learning_rate': 4.8425735797399045e-06, 'epoch': 3.13}
+{'loss': 1.2109, 'grad_norm': 2.411491632461548, 'learning_rate': 4.839151266255989e-06, 'epoch': 3.13}
+{'loss': 1.2056, 'grad_norm': 2.3847687244415283, 'learning_rate': 4.835728952772074e-06, 'epoch': 3.13}
+{'loss': 1.2114, 'grad_norm': 2.3599607944488525, 'learning_rate': 4.832306639288159e-06, 'epoch': 3.14}
+{'loss': 1.1712, 'grad_norm': 2.3294708728790283, 'learning_rate': 4.828884325804244e-06, 'epoch': 3.14}
+{'loss': 1.2167, 'grad_norm': 2.349113702774048, 'learning_rate': 4.825462012320329e-06, 'epoch': 3.14}
+{'loss': 1.1923, 'grad_norm': 2.360018253326416, 'learning_rate': 4.822039698836414e-06, 'epoch': 3.14}
+{'eval_loss': 1.7968355417251587, 'eval_runtime': 11.5312, 'eval_samples_per_second': 52.033, 'eval_steps_per_second': 1.127, 'epoch': 3.14}
+{'loss': 1.1785, 'grad_norm': 2.3149096965789795, 'learning_rate': 4.8186173853524985e-06, 'epoch': 3.14}
+{'loss': 1.1918, 'grad_norm': 2.284026861190796, 'learning_rate': 4.815195071868584e-06, 'epoch': 3.15}
+{'loss': 1.2034, 'grad_norm': 2.456798791885376, 'learning_rate': 4.811772758384669e-06, 'epoch': 3.15}
+{'loss': 1.1855, 'grad_norm': 2.3484795093536377, 'learning_rate': 4.808350444900753e-06, 'epoch': 3.15}
+{'loss': 1.2029, 'grad_norm': 2.4309728145599365, 'learning_rate': 4.8049281314168385e-06, 'epoch': 3.15}
+{'loss': 1.2125, 'grad_norm': 2.414271116256714, 'learning_rate': 4.801505817932923e-06, 'epoch': 3.15}
+{'loss': 1.1841, 'grad_norm': 2.3754494190216064, 'learning_rate': 4.798083504449008e-06, 'epoch': 3.16}
+{'loss': 1.1911, 'grad_norm': 2.34024977684021, 'learning_rate': 4.7946611909650925e-06, 'epoch': 3.16}
+{'loss': 1.1778, 'grad_norm': 2.3862738609313965, 'learning_rate': 4.791238877481178e-06, 'epoch': 3.16}
+{'loss': 1.2035, 'grad_norm': 2.361293315887451, 'learning_rate': 4.787816563997262e-06, 'epoch': 3.16}
+{'eval_loss': 1.7901493310928345, 'eval_runtime': 11.5553, 'eval_samples_per_second': 51.924, 'eval_steps_per_second': 1.125, 'epoch': 3.16}
+{'loss': 1.2156, 'grad_norm': 2.454286575317383, 'learning_rate': 4.784394250513347e-06, 'epoch': 3.16}
+{'loss': 1.1842, 'grad_norm': 2.378760814666748, 'learning_rate': 4.7809719370294325e-06, 'epoch': 3.17}
+{'loss': 1.2058, 'grad_norm': 2.2676477432250977, 'learning_rate': 4.777549623545517e-06, 'epoch': 3.17}
+{'loss': 1.1886, 'grad_norm': 2.246210813522339, 'learning_rate': 4.774127310061602e-06, 'epoch': 3.17}
+{'loss': 1.2066, 'grad_norm': 2.4533064365386963, 'learning_rate': 4.770704996577687e-06, 'epoch': 3.17}
+{'loss': 1.1923, 'grad_norm': 2.3276004791259766, 'learning_rate': 4.767282683093772e-06, 'epoch': 3.17}
+{'loss': 1.1847, 'grad_norm': 2.2982301712036133, 'learning_rate': 4.763860369609857e-06, 'epoch': 3.18}
+{'loss': 1.176, 'grad_norm': 2.2678885459899902, 'learning_rate': 4.760438056125941e-06, 'epoch': 3.18}
+{'loss': 1.207, 'grad_norm': 2.33941650390625, 'learning_rate': 4.7570157426420265e-06, 'epoch': 3.18}
+{'loss': 1.2024, 'grad_norm': 2.377992630004883, 'learning_rate': 4.753593429158112e-06, 'epoch': 3.18}
+{'eval_loss': 1.7912594079971313, 'eval_runtime': 11.5908, 'eval_samples_per_second': 51.765, 'eval_steps_per_second': 1.122, 'epoch': 3.18}
+{'loss': 1.2079, 'grad_norm': 2.41363525390625, 'learning_rate': 4.750171115674196e-06, 'epoch': 3.18}
+{'loss': 1.2358, 'grad_norm': 2.4021031856536865, 'learning_rate': 4.7467488021902805e-06, 'epoch': 3.19}
+{'loss': 1.2042, 'grad_norm': 2.35207200050354, 'learning_rate': 4.743326488706366e-06, 'epoch': 3.19}
+{'loss': 1.2018, 'grad_norm': 2.3495891094207764, 'learning_rate': 4.739904175222451e-06, 'epoch': 3.19}
+{'loss': 1.1527, 'grad_norm': 2.340266466140747, 'learning_rate': 4.736481861738535e-06, 'epoch': 3.19}
+{'loss': 1.1802, 'grad_norm': 2.477311372756958, 'learning_rate': 4.7330595482546205e-06, 'epoch': 3.2}
+{'loss': 1.2158, 'grad_norm': 2.3747198581695557, 'learning_rate': 4.729637234770706e-06, 'epoch': 3.2}
+{'loss': 1.187, 'grad_norm': 2.412480115890503, 'learning_rate': 4.72621492128679e-06, 'epoch': 3.2}
+{'loss': 1.1822, 'grad_norm': 2.410797357559204, 'learning_rate': 4.722792607802875e-06, 'epoch': 3.2}
+{'loss': 1.1873, 'grad_norm': 2.4409847259521484, 'learning_rate': 4.71937029431896e-06, 'epoch': 3.2}
+{'eval_loss': 1.8168977499008179, 'eval_runtime': 11.5555, 'eval_samples_per_second': 51.923, 'eval_steps_per_second': 1.125, 'epoch': 3.2}
+{'loss': 1.2069, 'grad_norm': 2.4012982845306396, 'learning_rate': 4.715947980835045e-06, 'epoch': 3.21}
+{'loss': 1.1904, 'grad_norm': 2.3262274265289307, 'learning_rate': 4.71252566735113e-06, 'epoch': 3.21}
+{'loss': 1.2223, 'grad_norm': 2.353715181350708, 'learning_rate': 4.7091033538672145e-06, 'epoch': 3.21}
+{'loss': 1.19, 'grad_norm': 2.3581602573394775, 'learning_rate': 4.7056810403833e-06, 'epoch': 3.21}
+{'loss': 1.1848, 'grad_norm': 2.3867785930633545, 'learning_rate': 4.702258726899384e-06, 'epoch': 3.21}
+{'loss': 1.1725, 'grad_norm': 2.3082804679870605, 'learning_rate': 4.698836413415469e-06, 'epoch': 3.22}
+{'loss': 1.203, 'grad_norm': 2.2890493869781494, 'learning_rate': 4.695414099931554e-06, 'epoch': 3.22}
+{'loss': 1.1831, 'grad_norm': 2.399413824081421, 'learning_rate': 4.691991786447639e-06, 'epoch': 3.22}
+{'loss': 1.2117, 'grad_norm': 2.4246623516082764, 'learning_rate': 4.688569472963724e-06, 'epoch': 3.22}
+{'loss': 1.2168, 'grad_norm': 2.3697855472564697, 'learning_rate': 4.6851471594798085e-06, 'epoch': 3.22}
+{'eval_loss': 1.8204745054244995, 'eval_runtime': 11.5456, 'eval_samples_per_second': 51.968, 'eval_steps_per_second': 1.126, 'epoch': 3.22}
+{'loss': 1.2103, 'grad_norm': 2.363569736480713, 'learning_rate': 4.681724845995894e-06, 'epoch': 3.23}
+{'loss': 1.2158, 'grad_norm': 2.443831443786621, 'learning_rate': 4.678302532511979e-06, 'epoch': 3.23}
+{'loss': 1.1665, 'grad_norm': 2.4610302448272705, 'learning_rate': 4.674880219028063e-06, 'epoch': 3.23}
+{'loss': 1.1832, 'grad_norm': 2.3565516471862793, 'learning_rate': 4.6714579055441485e-06, 'epoch': 3.23}
+{'loss': 1.2016, 'grad_norm': 2.4076454639434814, 'learning_rate': 4.668035592060233e-06, 'epoch': 3.23}
+{'loss': 1.1806, 'grad_norm': 2.4155349731445312, 'learning_rate': 4.664613278576318e-06, 'epoch': 3.24}
+{'loss': 1.207, 'grad_norm': 2.388627290725708, 'learning_rate': 4.661190965092403e-06, 'epoch': 3.24}
+{'loss': 1.212, 'grad_norm': 2.329211473464966, 'learning_rate': 4.657768651608488e-06, 'epoch': 3.24}
+{'loss': 1.1968, 'grad_norm': 2.4787368774414062, 'learning_rate': 4.654346338124572e-06, 'epoch': 3.24}
+{'loss': 1.198, 'grad_norm': 2.4418375492095947, 'learning_rate': 4.650924024640657e-06, 'epoch': 3.24}
+{'eval_loss': 1.8164414167404175, 'eval_runtime': 11.5654, 'eval_samples_per_second': 51.879, 'eval_steps_per_second': 1.124, 'epoch': 3.24}
+{'loss': 1.1839, 'grad_norm': 2.4225990772247314, 'learning_rate': 4.6475017111567425e-06, 'epoch': 3.25}
+{'loss': 1.1962, 'grad_norm': 2.3872385025024414, 'learning_rate': 4.644079397672827e-06, 'epoch': 3.25}
+{'loss': 1.1868, 'grad_norm': 2.435664415359497, 'learning_rate': 4.640657084188912e-06, 'epoch': 3.25}
+{'loss': 1.1743, 'grad_norm': 2.2775990962982178, 'learning_rate': 4.637234770704997e-06, 'epoch': 3.25}
+{'loss': 1.1965, 'grad_norm': 2.3527445793151855, 'learning_rate': 4.633812457221082e-06, 'epoch': 3.25}
+{'loss': 1.1886, 'grad_norm': 2.3247358798980713, 'learning_rate': 4.630390143737167e-06, 'epoch': 3.26}
+{'loss': 1.2026, 'grad_norm': 2.350269317626953, 'learning_rate': 4.626967830253251e-06, 'epoch': 3.26}
+{'loss': 1.2064, 'grad_norm': 2.3992557525634766, 'learning_rate': 4.6235455167693365e-06, 'epoch': 3.26}
+{'loss': 1.1951, 'grad_norm': 2.465640068054199, 'learning_rate': 4.620123203285422e-06, 'epoch': 3.26}
+{'loss': 1.1526, 'grad_norm': 2.323986768722534, 'learning_rate': 4.616700889801506e-06, 'epoch': 3.26}
+{'eval_loss': 1.808647871017456, 'eval_runtime': 11.5763, 'eval_samples_per_second': 51.83, 'eval_steps_per_second': 1.123, 'epoch': 3.26}
+{'loss': 1.1875, 'grad_norm': 2.306281089782715, 'learning_rate': 4.6132785763175905e-06, 'epoch': 3.27}
+{'loss': 1.1779, 'grad_norm': 2.3431928157806396, 'learning_rate': 4.609856262833676e-06, 'epoch': 3.27}
+{'loss': 1.1927, 'grad_norm': 2.305097818374634, 'learning_rate': 4.606433949349761e-06, 'epoch': 3.27}
+{'loss': 1.1818, 'grad_norm': 2.342322826385498, 'learning_rate': 4.603011635865845e-06, 'epoch': 3.27}
+{'loss': 1.1933, 'grad_norm': 2.5476036071777344, 'learning_rate': 4.5995893223819305e-06, 'epoch': 3.28}
+{'loss': 1.2061, 'grad_norm': 2.5129756927490234, 'learning_rate': 4.596167008898016e-06, 'epoch': 3.28}
+{'loss': 1.2135, 'grad_norm': 2.4726409912109375, 'learning_rate': 4.5927446954141e-06, 'epoch': 3.28}
+{'loss': 1.2008, 'grad_norm': 2.4973177909851074, 'learning_rate': 4.589322381930185e-06, 'epoch': 3.28}
+{'loss': 1.191, 'grad_norm': 2.3219425678253174, 'learning_rate': 4.58590006844627e-06, 'epoch': 3.28}
+{'loss': 1.202, 'grad_norm': 2.447789430618286, 'learning_rate': 4.582477754962355e-06, 'epoch': 3.29}
+{'eval_loss': 1.8040201663970947, 'eval_runtime': 11.5704, 'eval_samples_per_second': 51.857, 'eval_steps_per_second': 1.124, 'epoch': 3.29}
+{'loss': 1.185, 'grad_norm': 2.35383677482605, 'learning_rate': 4.57905544147844e-06, 'epoch': 3.29}
+{'loss': 1.1834, 'grad_norm': 2.3576738834381104, 'learning_rate': 4.5756331279945245e-06, 'epoch': 3.29}
+{'loss': 1.2084, 'grad_norm': 2.4120678901672363, 'learning_rate': 4.57221081451061e-06, 'epoch': 3.29}
+{'loss': 1.2156, 'grad_norm': 2.5611488819122314, 'learning_rate': 4.568788501026695e-06, 'epoch': 3.29}
+{'loss': 1.213, 'grad_norm': 2.3682496547698975, 'learning_rate': 4.565366187542779e-06, 'epoch': 3.3}
+{'loss': 1.186, 'grad_norm': 2.361560344696045, 'learning_rate': 4.561943874058864e-06, 'epoch': 3.3}
+{'loss': 1.1737, 'grad_norm': 2.454233407974243, 'learning_rate': 4.558521560574949e-06, 'epoch': 3.3}
+{'loss': 1.2574, 'grad_norm': 2.532630443572998, 'learning_rate': 4.555099247091034e-06, 'epoch': 3.3}
+{'loss': 1.1868, 'grad_norm': 2.471038341522217, 'learning_rate': 4.5516769336071185e-06, 'epoch': 3.3}
+{'loss': 1.2072, 'grad_norm': 2.324523448944092, 'learning_rate': 4.548254620123204e-06, 'epoch': 3.31}
+{'eval_loss': 1.7943509817123413, 'eval_runtime': 11.5479, 'eval_samples_per_second': 51.958, 'eval_steps_per_second': 1.126, 'epoch': 3.31}
+{'loss': 1.237, 'grad_norm': 2.471454381942749, 'learning_rate': 4.544832306639288e-06, 'epoch': 3.31}
+{'loss': 1.1892, 'grad_norm': 2.5114176273345947, 'learning_rate': 4.541409993155373e-06, 'epoch': 3.31}
+{'loss': 1.2246, 'grad_norm': 2.4983625411987305, 'learning_rate': 4.5379876796714586e-06, 'epoch': 3.31}
+{'loss': 1.2053, 'grad_norm': 2.359117031097412, 'learning_rate': 4.534565366187543e-06, 'epoch': 3.31}
+{'loss': 1.1941, 'grad_norm': 2.3761630058288574, 'learning_rate': 4.531143052703628e-06, 'epoch': 3.32}
+{'loss': 1.1844, 'grad_norm': 2.3588755130767822, 'learning_rate': 4.527720739219713e-06, 'epoch': 3.32}
+{'loss': 1.1965, 'grad_norm': 2.4181270599365234, 'learning_rate': 4.524298425735798e-06, 'epoch': 3.32}
+{'loss': 1.1907, 'grad_norm': 2.3256585597991943, 'learning_rate': 4.520876112251882e-06, 'epoch': 3.32}
+{'loss': 1.2094, 'grad_norm': 2.4293570518493652, 'learning_rate': 4.517453798767967e-06, 'epoch': 3.32}
+{'loss': 1.2396, 'grad_norm': 2.563081979751587, 'learning_rate': 4.5140314852840526e-06, 'epoch': 3.33}
+{'eval_loss': 1.8009079694747925, 'eval_runtime': 11.592, 'eval_samples_per_second': 51.76, 'eval_steps_per_second': 1.121, 'epoch': 3.33}
+{'loss': 1.2328, 'grad_norm': 2.438188314437866, 'learning_rate': 4.510609171800137e-06, 'epoch': 3.33}
+{'loss': 1.1912, 'grad_norm': 2.2973484992980957, 'learning_rate': 4.507186858316222e-06, 'epoch': 3.33}
+{'loss': 1.1614, 'grad_norm': 2.292020320892334, 'learning_rate': 4.5037645448323065e-06, 'epoch': 3.33}
+{'loss': 1.1929, 'grad_norm': 2.4350781440734863, 'learning_rate': 4.500342231348392e-06, 'epoch': 3.33}
+{'loss': 1.198, 'grad_norm': 2.4133100509643555, 'learning_rate': 4.496919917864477e-06, 'epoch': 3.34}
+{'loss': 1.1855, 'grad_norm': 2.335247755050659, 'learning_rate': 4.493497604380561e-06, 'epoch': 3.34}
+{'loss': 1.1876, 'grad_norm': 2.4311604499816895, 'learning_rate': 4.4900752908966466e-06, 'epoch': 3.34}
+{'loss': 1.23, 'grad_norm': 2.553459405899048, 'learning_rate': 4.486652977412732e-06, 'epoch': 3.34}
+{'loss': 1.1759, 'grad_norm': 2.3522112369537354, 'learning_rate': 4.483230663928816e-06, 'epoch': 3.34}
+{'loss': 1.1677, 'grad_norm': 2.4113786220550537, 'learning_rate': 4.479808350444901e-06, 'epoch': 3.35}
+{'eval_loss': 1.8068294525146484, 'eval_runtime': 11.5664, 'eval_samples_per_second': 51.874, 'eval_steps_per_second': 1.124, 'epoch': 3.35}
+{'loss': 1.1757, 'grad_norm': 2.2931079864501953, 'learning_rate': 4.476386036960986e-06, 'epoch': 3.35}
+{'loss': 1.1813, 'grad_norm': 2.451450824737549, 'learning_rate': 4.472963723477071e-06, 'epoch': 3.35}
+{'loss': 1.2115, 'grad_norm': 2.316013813018799, 'learning_rate': 4.469541409993155e-06, 'epoch': 3.35}
+{'loss': 1.1879, 'grad_norm': 2.36419939994812, 'learning_rate': 4.466119096509241e-06, 'epoch': 3.36}
+{'loss': 1.1556, 'grad_norm': 2.3204798698425293, 'learning_rate': 4.462696783025326e-06, 'epoch': 3.36}
+{'loss': 1.1984, 'grad_norm': 2.3980226516723633, 'learning_rate': 4.45927446954141e-06, 'epoch': 3.36}
+{'loss': 1.2106, 'grad_norm': 2.3982584476470947, 'learning_rate': 4.455852156057495e-06, 'epoch': 3.36}
+{'loss': 1.2027, 'grad_norm': 2.335616111755371, 'learning_rate': 4.45242984257358e-06, 'epoch': 3.36}
+{'loss': 1.1981, 'grad_norm': 2.34485125541687, 'learning_rate': 4.449007529089665e-06, 'epoch': 3.37}
+{'loss': 1.1877, 'grad_norm': 2.4464213848114014, 'learning_rate': 4.44558521560575e-06, 'epoch': 3.37}
+{'eval_loss': 1.8001599311828613, 'eval_runtime': 11.5556, 'eval_samples_per_second': 51.923, 'eval_steps_per_second': 1.125, 'epoch': 3.37}
+{'loss': 1.1974, 'grad_norm': 2.321516275405884, 'learning_rate': 4.442162902121835e-06, 'epoch': 3.37}
+{'loss': 1.1997, 'grad_norm': 2.399665355682373, 'learning_rate': 4.43874058863792e-06, 'epoch': 3.37}
+{'loss': 1.2146, 'grad_norm': 2.4046504497528076, 'learning_rate': 4.435318275154005e-06, 'epoch': 3.37}
+{'loss': 1.1971, 'grad_norm': 2.4233808517456055, 'learning_rate': 4.431895961670089e-06, 'epoch': 3.38}
+{'loss': 1.2175, 'grad_norm': 2.4152987003326416, 'learning_rate': 4.428473648186174e-06, 'epoch': 3.38}
+{'loss': 1.2281, 'grad_norm': 2.3919613361358643, 'learning_rate': 4.425051334702259e-06, 'epoch': 3.38}
+{'loss': 1.211, 'grad_norm': 2.3864028453826904, 'learning_rate': 4.421629021218344e-06, 'epoch': 3.38}
+{'loss': 1.2196, 'grad_norm': 2.467862129211426, 'learning_rate': 4.418206707734429e-06, 'epoch': 3.38}
+{'loss': 1.1952, 'grad_norm': 2.286214828491211, 'learning_rate': 4.414784394250514e-06, 'epoch': 3.39}
+{'loss': 1.1899, 'grad_norm': 2.3367910385131836, 'learning_rate': 4.411362080766598e-06, 'epoch': 3.39}
+{'eval_loss': 1.7941703796386719, 'eval_runtime': 11.5589, 'eval_samples_per_second': 51.908, 'eval_steps_per_second': 1.125, 'epoch': 3.39}
+{'loss': 1.1823, 'grad_norm': 2.3095552921295166, 'learning_rate': 4.407939767282683e-06, 'epoch': 3.39}
+{'loss': 1.178, 'grad_norm': 2.3707096576690674, 'learning_rate': 4.404517453798769e-06, 'epoch': 3.39}
+{'loss': 1.2012, 'grad_norm': 2.442305326461792, 'learning_rate': 4.401095140314853e-06, 'epoch': 3.39}
+{'loss': 1.218, 'grad_norm': 2.4132699966430664, 'learning_rate': 4.397672826830938e-06, 'epoch': 3.4}
+{'loss': 1.2113, 'grad_norm': 2.4853708744049072, 'learning_rate': 4.3942505133470234e-06, 'epoch': 3.4}
+{'loss': 1.1844, 'grad_norm': 2.4504406452178955, 'learning_rate': 4.390828199863108e-06, 'epoch': 3.4}
+{'loss': 1.1944, 'grad_norm': 2.3315742015838623, 'learning_rate': 4.387405886379193e-06, 'epoch': 3.4}
+{'loss': 1.1929, 'grad_norm': 2.3181095123291016, 'learning_rate': 4.383983572895277e-06, 'epoch': 3.4}
+{'loss': 1.1989, 'grad_norm': 2.3366408348083496, 'learning_rate': 4.380561259411363e-06, 'epoch': 3.41}
+{'loss': 1.2115, 'grad_norm': 2.4817614555358887, 'learning_rate': 4.377138945927447e-06, 'epoch': 3.41}
+{'eval_loss': 1.794588565826416, 'eval_runtime': 11.4531, 'eval_samples_per_second': 52.388, 'eval_steps_per_second': 1.135, 'epoch': 3.41}
+{'loss': 1.2074, 'grad_norm': 2.381880760192871, 'learning_rate': 4.373716632443532e-06, 'epoch': 3.41}
+{'loss': 1.2098, 'grad_norm': 2.369410276412964, 'learning_rate': 4.370294318959617e-06, 'epoch': 3.41}
+{'loss': 1.1931, 'grad_norm': 2.3602652549743652, 'learning_rate': 4.366872005475702e-06, 'epoch': 3.41}
+{'loss': 1.2145, 'grad_norm': 2.4321577548980713, 'learning_rate': 4.363449691991787e-06, 'epoch': 3.42}
+{'loss': 1.1792, 'grad_norm': 2.3509836196899414, 'learning_rate': 4.360027378507871e-06, 'epoch': 3.42}
+{'loss': 1.1934, 'grad_norm': 2.34175181388855, 'learning_rate': 4.356605065023957e-06, 'epoch': 3.42}
+{'loss': 1.2189, 'grad_norm': 2.473484992980957, 'learning_rate': 4.353182751540042e-06, 'epoch': 3.42}
+{'loss': 1.1823, 'grad_norm': 2.3254411220550537, 'learning_rate': 4.349760438056126e-06, 'epoch': 3.43}
+{'loss': 1.1779, 'grad_norm': 2.374863862991333, 'learning_rate': 4.3463381245722114e-06, 'epoch': 3.43}
+{'loss': 1.1982, 'grad_norm': 2.3768725395202637, 'learning_rate': 4.342915811088297e-06, 'epoch': 3.43}
+{'eval_loss': 1.8000047206878662, 'eval_runtime': 11.4841, 'eval_samples_per_second': 52.246, 'eval_steps_per_second': 1.132, 'epoch': 3.43}
+{'loss': 1.188, 'grad_norm': 2.324248790740967, 'learning_rate': 4.339493497604381e-06, 'epoch': 3.43}
+{'loss': 1.2164, 'grad_norm': 2.388775110244751, 'learning_rate': 4.336071184120465e-06, 'epoch': 3.43}
+{'loss': 1.1809, 'grad_norm': 2.3804118633270264, 'learning_rate': 4.332648870636551e-06, 'epoch': 3.44}
+{'loss': 1.1956, 'grad_norm': 2.290005922317505, 'learning_rate': 4.329226557152635e-06, 'epoch': 3.44}
+{'loss': 1.2016, 'grad_norm': 2.3413279056549072, 'learning_rate': 4.32580424366872e-06, 'epoch': 3.44}
+{'loss': 1.1948, 'grad_norm': 2.345993995666504, 'learning_rate': 4.3223819301848054e-06, 'epoch': 3.44}
+{'loss': 1.1788, 'grad_norm': 2.384032726287842, 'learning_rate': 4.31895961670089e-06, 'epoch': 3.44}
+{'loss': 1.1915, 'grad_norm': 2.3766534328460693, 'learning_rate': 4.315537303216975e-06, 'epoch': 3.45}
+{'loss': 1.1861, 'grad_norm': 2.3353159427642822, 'learning_rate': 4.31211498973306e-06, 'epoch': 3.45}
+{'loss': 1.2072, 'grad_norm': 2.4201385974884033, 'learning_rate': 4.308692676249145e-06, 'epoch': 3.45}
+{'eval_loss': 1.801849365234375, 'eval_runtime': 11.538, 'eval_samples_per_second': 52.002, 'eval_steps_per_second': 1.127, 'epoch': 3.45}
+{'loss': 1.1939, 'grad_norm': 2.320348024368286, 'learning_rate': 4.30527036276523e-06, 'epoch': 3.45}
+{'loss': 1.2161, 'grad_norm': 2.517258644104004, 'learning_rate': 4.301848049281315e-06, 'epoch': 3.45}
+{'loss': 1.1925, 'grad_norm': 2.465878963470459, 'learning_rate': 4.2984257357973994e-06, 'epoch': 3.46}
+{'loss': 1.1935, 'grad_norm': 2.381308078765869, 'learning_rate': 4.295003422313484e-06, 'epoch': 3.46}
+{'loss': 1.2013, 'grad_norm': 2.3216302394866943, 'learning_rate': 4.291581108829569e-06, 'epoch': 3.46}
+{'loss': 1.1943, 'grad_norm': 2.3001015186309814, 'learning_rate': 4.288158795345653e-06, 'epoch': 3.46}
+{'loss': 1.1913, 'grad_norm': 2.427185535430908, 'learning_rate': 4.284736481861739e-06, 'epoch': 3.46}
+{'loss': 1.2258, 'grad_norm': 2.4188036918640137, 'learning_rate': 4.281314168377824e-06, 'epoch': 3.47}
+{'loss': 1.2073, 'grad_norm': 2.389937162399292, 'learning_rate': 4.277891854893908e-06, 'epoch': 3.47}
+{'loss': 1.224, 'grad_norm': 2.4577651023864746, 'learning_rate': 4.2744695414099934e-06, 'epoch': 3.47}
+{'eval_loss': 1.7885396480560303, 'eval_runtime': 11.5405, 'eval_samples_per_second': 51.991, 'eval_steps_per_second': 1.126, 'epoch': 3.47}
+{'loss': 1.1946, 'grad_norm': 2.3556931018829346, 'learning_rate': 4.271047227926079e-06, 'epoch': 3.47}
+{'loss': 1.1851, 'grad_norm': 2.450716018676758, 'learning_rate': 4.267624914442163e-06, 'epoch': 3.47}
+{'loss': 1.1834, 'grad_norm': 2.30572772026062, 'learning_rate': 4.264202600958248e-06, 'epoch': 3.48}
+{'loss': 1.1821, 'grad_norm': 2.231463670730591, 'learning_rate': 4.2607802874743335e-06, 'epoch': 3.48}
+{'loss': 1.1898, 'grad_norm': 2.375652313232422, 'learning_rate': 4.257357973990418e-06, 'epoch': 3.48}
+{'loss': 1.1975, 'grad_norm': 2.4263193607330322, 'learning_rate': 4.253935660506503e-06, 'epoch': 3.48}
+{'loss': 1.1824, 'grad_norm': 2.387706995010376, 'learning_rate': 4.250513347022588e-06, 'epoch': 3.48}
+{'loss': 1.2083, 'grad_norm': 2.4088525772094727, 'learning_rate': 4.247091033538673e-06, 'epoch': 3.49}
+{'loss': 1.1961, 'grad_norm': 2.308363437652588, 'learning_rate': 4.243668720054757e-06, 'epoch': 3.49}
+{'loss': 1.1816, 'grad_norm': 2.3736743927001953, 'learning_rate': 4.240246406570842e-06, 'epoch': 3.49}
+{'eval_loss': 1.7905734777450562, 'eval_runtime': 11.5814, 'eval_samples_per_second': 51.807, 'eval_steps_per_second': 1.122, 'epoch': 3.49}
+{'loss': 1.2127, 'grad_norm': 2.3876094818115234, 'learning_rate': 4.236824093086927e-06, 'epoch': 3.49}
+{'loss': 1.2007, 'grad_norm': 2.39485239982605, 'learning_rate': 4.233401779603012e-06, 'epoch': 3.49}
+{'loss': 1.1997, 'grad_norm': 2.4107463359832764, 'learning_rate': 4.229979466119097e-06, 'epoch': 3.5}
+{'loss': 1.1966, 'grad_norm': 2.3403093814849854, 'learning_rate': 4.2265571526351814e-06, 'epoch': 3.5}
+{'loss': 1.1746, 'grad_norm': 2.4522695541381836, 'learning_rate': 4.223134839151267e-06, 'epoch': 3.5}
+{'loss': 1.2128, 'grad_norm': 2.4426286220550537, 'learning_rate': 4.219712525667352e-06, 'epoch': 3.5}
+{'loss': 1.1778, 'grad_norm': 2.3396575450897217, 'learning_rate': 4.216290212183436e-06, 'epoch': 3.51}
+{'loss': 1.167, 'grad_norm': 2.3080177307128906, 'learning_rate': 4.2128678986995215e-06, 'epoch': 3.51}
+{'loss': 1.1694, 'grad_norm': 2.3881936073303223, 'learning_rate': 4.209445585215607e-06, 'epoch': 3.51}
+{'loss': 1.2128, 'grad_norm': 2.4304723739624023, 'learning_rate': 4.206023271731691e-06, 'epoch': 3.51}
+{'eval_loss': 1.7763032913208008, 'eval_runtime': 11.5507, 'eval_samples_per_second': 51.945, 'eval_steps_per_second': 1.125, 'epoch': 3.51}
+{'loss': 1.2352, 'grad_norm': 2.368154525756836, 'learning_rate': 4.2026009582477754e-06, 'epoch': 3.51}
+{'loss': 1.2109, 'grad_norm': 2.337877035140991, 'learning_rate': 4.199178644763861e-06, 'epoch': 3.52}
+{'loss': 1.2047, 'grad_norm': 2.308809518814087, 'learning_rate': 4.195756331279945e-06, 'epoch': 3.52}
+{'loss': 1.2215, 'grad_norm': 2.373642683029175, 'learning_rate': 4.19233401779603e-06, 'epoch': 3.52}
+{'loss': 1.2026, 'grad_norm': 2.2509584426879883, 'learning_rate': 4.1889117043121155e-06, 'epoch': 3.52}
+{'loss': 1.2197, 'grad_norm': 2.394407272338867, 'learning_rate': 4.1854893908282e-06, 'epoch': 3.52}
+{'loss': 1.2139, 'grad_norm': 2.3498244285583496, 'learning_rate': 4.182067077344285e-06, 'epoch': 3.53}
+{'loss': 1.206, 'grad_norm': 2.342881679534912, 'learning_rate': 4.17864476386037e-06, 'epoch': 3.53}
+{'loss': 1.154, 'grad_norm': 2.2469894886016846, 'learning_rate': 4.175222450376455e-06, 'epoch': 3.53}
+{'loss': 1.1942, 'grad_norm': 2.301021099090576, 'learning_rate': 4.17180013689254e-06, 'epoch': 3.53}
+{'eval_loss': 1.7905014753341675, 'eval_runtime': 11.5764, 'eval_samples_per_second': 51.83, 'eval_steps_per_second': 1.123, 'epoch': 3.53}
+{'loss': 1.1832, 'grad_norm': 2.4385690689086914, 'learning_rate': 4.168377823408625e-06, 'epoch': 3.53}
+{'loss': 1.2138, 'grad_norm': 2.410703420639038, 'learning_rate': 4.1649555099247095e-06, 'epoch': 3.54}
+{'loss': 1.2045, 'grad_norm': 2.3317410945892334, 'learning_rate': 4.161533196440795e-06, 'epoch': 3.54}
+{'loss': 1.2024, 'grad_norm': 2.371854543685913, 'learning_rate': 4.158110882956879e-06, 'epoch': 3.54}
+{'loss': 1.2043, 'grad_norm': 2.370776653289795, 'learning_rate': 4.1546885694729634e-06, 'epoch': 3.54}
+{'loss': 1.2082, 'grad_norm': 2.335287570953369, 'learning_rate': 4.151266255989049e-06, 'epoch': 3.54}
+{'loss': 1.2236, 'grad_norm': 2.4307243824005127, 'learning_rate': 4.147843942505134e-06, 'epoch': 3.55}
+{'loss': 1.1858, 'grad_norm': 2.3494784832000732, 'learning_rate': 4.144421629021218e-06, 'epoch': 3.55}
+{'loss': 1.1871, 'grad_norm': 2.4431772232055664, 'learning_rate': 4.1409993155373035e-06, 'epoch': 3.55}
+{'loss': 1.1825, 'grad_norm': 2.2727084159851074, 'learning_rate': 4.137577002053389e-06, 'epoch': 3.55}
+{'eval_loss': 1.8046293258666992, 'eval_runtime': 11.568, 'eval_samples_per_second': 51.867, 'eval_steps_per_second': 1.124, 'epoch': 3.55}
+{'loss': 1.18, 'grad_norm': 2.3888471126556396, 'learning_rate': 4.134154688569473e-06, 'epoch': 3.55}
+{'loss': 1.1858, 'grad_norm': 2.3392174243927, 'learning_rate': 4.130732375085558e-06, 'epoch': 3.56}
+{'loss': 1.2277, 'grad_norm': 2.2814319133758545, 'learning_rate': 4.1273100616016435e-06, 'epoch': 3.56}
+{'loss': 1.1871, 'grad_norm': 2.3178822994232178, 'learning_rate': 4.123887748117728e-06, 'epoch': 3.56}
+{'loss': 1.208, 'grad_norm': 2.2580854892730713, 'learning_rate': 4.120465434633813e-06, 'epoch': 3.56}
+{'loss': 1.2437, 'grad_norm': 2.4580276012420654, 'learning_rate': 4.117043121149898e-06, 'epoch': 3.56}
+{'loss': 1.1634, 'grad_norm': 2.285771369934082, 'learning_rate': 4.113620807665982e-06, 'epoch': 3.57}
+{'loss': 1.1986, 'grad_norm': 2.363603115081787, 'learning_rate': 4.110198494182067e-06, 'epoch': 3.57}
+{'loss': 1.1925, 'grad_norm': 2.3730878829956055, 'learning_rate': 4.106776180698152e-06, 'epoch': 3.57}
+{'loss': 1.2239, 'grad_norm': 2.503265380859375, 'learning_rate': 4.103353867214237e-06, 'epoch': 3.57}
+{'eval_loss': 1.8080594539642334, 'eval_runtime': 11.5775, 'eval_samples_per_second': 51.825, 'eval_steps_per_second': 1.123, 'epoch': 3.57}
+{'loss': 1.2172, 'grad_norm': 2.3812766075134277, 'learning_rate': 4.099931553730322e-06, 'epoch': 3.57}
+{'loss': 1.198, 'grad_norm': 2.2884318828582764, 'learning_rate': 4.096509240246407e-06, 'epoch': 3.58}
+{'loss': 1.1849, 'grad_norm': 2.310654878616333, 'learning_rate': 4.0930869267624915e-06, 'epoch': 3.58}
+{'loss': 1.1843, 'grad_norm': 2.3195652961730957, 'learning_rate': 4.089664613278577e-06, 'epoch': 3.58}
+{'loss': 1.1697, 'grad_norm': 2.365039825439453, 'learning_rate': 4.086242299794662e-06, 'epoch': 3.58}
+{'loss': 1.1931, 'grad_norm': 2.327052116394043, 'learning_rate': 4.082819986310746e-06, 'epoch': 3.59}
+{'loss': 1.1941, 'grad_norm': 2.3937509059906006, 'learning_rate': 4.0793976728268315e-06, 'epoch': 3.59}
+{'loss': 1.2204, 'grad_norm': 2.4365694522857666, 'learning_rate': 4.075975359342917e-06, 'epoch': 3.59}
+{'loss': 1.2097, 'grad_norm': 2.3493173122406006, 'learning_rate': 4.072553045859001e-06, 'epoch': 3.59}
+{'loss': 1.2059, 'grad_norm': 2.40891170501709, 'learning_rate': 4.069130732375086e-06, 'epoch': 3.59}
+{'eval_loss': 1.806341528892517, 'eval_runtime': 11.5645, 'eval_samples_per_second': 51.883, 'eval_steps_per_second': 1.124, 'epoch': 3.59}
+{'loss': 1.189, 'grad_norm': 2.30355167388916, 'learning_rate': 4.065708418891171e-06, 'epoch': 3.6}
+{'loss': 1.1844, 'grad_norm': 2.2765543460845947, 'learning_rate': 4.062286105407255e-06, 'epoch': 3.6}
+{'loss': 1.2037, 'grad_norm': 2.4064810276031494, 'learning_rate': 4.05886379192334e-06, 'epoch': 3.6}
+{'loss': 1.1932, 'grad_norm': 2.2600207328796387, 'learning_rate': 4.0554414784394255e-06, 'epoch': 3.6}
+{'loss': 1.1913, 'grad_norm': 2.353611469268799, 'learning_rate': 4.05201916495551e-06, 'epoch': 3.6}
+{'loss': 1.1773, 'grad_norm': 2.3859219551086426, 'learning_rate': 4.048596851471595e-06, 'epoch': 3.61}
+{'loss': 1.1941, 'grad_norm': 2.3893702030181885, 'learning_rate': 4.04517453798768e-06, 'epoch': 3.61}
+{'loss': 1.1956, 'grad_norm': 2.343431234359741, 'learning_rate': 4.041752224503765e-06, 'epoch': 3.61}
+{'loss': 1.1625, 'grad_norm': 2.2924013137817383, 'learning_rate': 4.03832991101985e-06, 'epoch': 3.61}
+{'loss': 1.1791, 'grad_norm': 2.3961915969848633, 'learning_rate': 4.034907597535935e-06, 'epoch': 3.61}
+{'eval_loss': 1.8051338195800781, 'eval_runtime': 11.5608, 'eval_samples_per_second': 51.899, 'eval_steps_per_second': 1.124, 'epoch': 3.61}
+{'loss': 1.1803, 'grad_norm': 2.395399332046509, 'learning_rate': 4.0314852840520195e-06, 'epoch': 3.62}
+{'loss': 1.1727, 'grad_norm': 2.3497586250305176, 'learning_rate': 4.028062970568105e-06, 'epoch': 3.62}
+{'loss': 1.1999, 'grad_norm': 2.4263787269592285, 'learning_rate': 4.024640657084189e-06, 'epoch': 3.62}
+{'loss': 1.1808, 'grad_norm': 2.3606860637664795, 'learning_rate': 4.0212183436002735e-06, 'epoch': 3.62}
+{'loss': 1.1739, 'grad_norm': 2.3892483711242676, 'learning_rate': 4.017796030116359e-06, 'epoch': 3.62}
+{'loss': 1.1833, 'grad_norm': 2.3234457969665527, 'learning_rate': 4.014373716632444e-06, 'epoch': 3.63}
+{'loss': 1.1792, 'grad_norm': 2.295593500137329, 'learning_rate': 4.010951403148528e-06, 'epoch': 3.63}
+{'loss': 1.1884, 'grad_norm': 2.2984976768493652, 'learning_rate': 4.0075290896646135e-06, 'epoch': 3.63}
+{'loss': 1.2124, 'grad_norm': 2.3017313480377197, 'learning_rate': 4.004106776180699e-06, 'epoch': 3.63}
+{'loss': 1.1948, 'grad_norm': 2.2897019386291504, 'learning_rate': 4.000684462696783e-06, 'epoch': 3.63}
+{'eval_loss': 1.8099145889282227, 'eval_runtime': 11.5722, 'eval_samples_per_second': 51.849, 'eval_steps_per_second': 1.123, 'epoch': 3.63}
+{'loss': 1.1862, 'grad_norm': 2.3379709720611572, 'learning_rate': 3.997262149212868e-06, 'epoch': 3.64}
+{'loss': 1.2155, 'grad_norm': 2.3833091259002686, 'learning_rate': 3.9938398357289536e-06, 'epoch': 3.64}
+{'loss': 1.1957, 'grad_norm': 2.3941359519958496, 'learning_rate': 3.990417522245038e-06, 'epoch': 3.64}
+{'loss': 1.2143, 'grad_norm': 2.4653360843658447, 'learning_rate': 3.986995208761123e-06, 'epoch': 3.64}
+{'loss': 1.202, 'grad_norm': 2.417224645614624, 'learning_rate': 3.9835728952772075e-06, 'epoch': 3.64}
+{'loss': 1.182, 'grad_norm': 2.267773151397705, 'learning_rate': 3.980150581793293e-06, 'epoch': 3.65}
+{'loss': 1.1975, 'grad_norm': 2.3291940689086914, 'learning_rate': 3.976728268309377e-06, 'epoch': 3.65}
+{'loss': 1.1976, 'grad_norm': 2.3162920475006104, 'learning_rate': 3.973305954825462e-06, 'epoch': 3.65}
+{'loss': 1.1823, 'grad_norm': 2.3426625728607178, 'learning_rate': 3.969883641341547e-06, 'epoch': 3.65}
+{'loss': 1.2173, 'grad_norm': 2.4129209518432617, 'learning_rate': 3.966461327857632e-06, 'epoch': 3.66}
+{'eval_loss': 1.8037495613098145, 'eval_runtime': 11.5882, 'eval_samples_per_second': 51.777, 'eval_steps_per_second': 1.122, 'epoch': 3.66}
+{'loss': 1.2182, 'grad_norm': 2.3355188369750977, 'learning_rate': 3.963039014373717e-06, 'epoch': 3.66}
+{'loss': 1.2156, 'grad_norm': 2.3807382583618164, 'learning_rate': 3.9596167008898015e-06, 'epoch': 3.66}
+{'loss': 1.2017, 'grad_norm': 2.4402382373809814, 'learning_rate': 3.956194387405887e-06, 'epoch': 3.66}
+{'loss': 1.2277, 'grad_norm': 2.4693493843078613, 'learning_rate': 3.952772073921972e-06, 'epoch': 3.66}
+{'loss': 1.2311, 'grad_norm': 2.4446632862091064, 'learning_rate': 3.949349760438056e-06, 'epoch': 3.67}
+{'loss': 1.1974, 'grad_norm': 2.363875150680542, 'learning_rate': 3.9459274469541416e-06, 'epoch': 3.67}
+{'loss': 1.1824, 'grad_norm': 2.374779224395752, 'learning_rate': 3.942505133470226e-06, 'epoch': 3.67}
+{'loss': 1.1947, 'grad_norm': 2.3653693199157715, 'learning_rate': 3.939082819986311e-06, 'epoch': 3.67}
+{'loss': 1.2202, 'grad_norm': 2.445112466812134, 'learning_rate': 3.935660506502396e-06, 'epoch': 3.67}
+{'loss': 1.2117, 'grad_norm': 2.405704975128174, 'learning_rate': 3.932238193018481e-06, 'epoch': 3.68}
+{'eval_loss': 1.807701826095581, 'eval_runtime': 11.5782, 'eval_samples_per_second': 51.822, 'eval_steps_per_second': 1.123, 'epoch': 3.68}
+{'loss': 1.1847, 'grad_norm': 2.347897529602051, 'learning_rate': 3.928815879534565e-06, 'epoch': 3.68}
+{'loss': 1.1974, 'grad_norm': 2.447575807571411, 'learning_rate': 3.92539356605065e-06, 'epoch': 3.68}
+{'loss': 1.1916, 'grad_norm': 2.47882342338562, 'learning_rate': 3.9219712525667356e-06, 'epoch': 3.68}
+{'loss': 1.1822, 'grad_norm': 2.383181571960449, 'learning_rate': 3.91854893908282e-06, 'epoch': 3.68}
+{'loss': 1.1869, 'grad_norm': 2.343883991241455, 'learning_rate': 3.915126625598905e-06, 'epoch': 3.69}
+{'loss': 1.1849, 'grad_norm': 2.4655392169952393, 'learning_rate': 3.91170431211499e-06, 'epoch': 3.69}
+{'loss': 1.1936, 'grad_norm': 2.36903715133667, 'learning_rate': 3.908281998631075e-06, 'epoch': 3.69}
+{'loss': 1.2057, 'grad_norm': 2.3500473499298096, 'learning_rate': 3.90485968514716e-06, 'epoch': 3.69}
+{'loss': 1.1971, 'grad_norm': 2.302767276763916, 'learning_rate': 3.901437371663245e-06, 'epoch': 3.69}
+{'loss': 1.217, 'grad_norm': 2.4062271118164062, 'learning_rate': 3.8980150581793296e-06, 'epoch': 3.7}
+{'eval_loss': 1.8031405210494995, 'eval_runtime': 11.5808, 'eval_samples_per_second': 51.81, 'eval_steps_per_second': 1.123, 'epoch': 3.7}
+{'loss': 1.212, 'grad_norm': 2.3940160274505615, 'learning_rate': 3.894592744695415e-06, 'epoch': 3.7}
+{'loss': 1.2038, 'grad_norm': 2.4122703075408936, 'learning_rate': 3.891170431211499e-06, 'epoch': 3.7}
+{'loss': 1.1926, 'grad_norm': 2.4362409114837646, 'learning_rate': 3.887748117727584e-06, 'epoch': 3.7}
+{'loss': 1.1998, 'grad_norm': 2.305556297302246, 'learning_rate': 3.884325804243669e-06, 'epoch': 3.7}
+{'loss': 1.1985, 'grad_norm': 2.3609516620635986, 'learning_rate': 3.880903490759754e-06, 'epoch': 3.71}
+{'loss': 1.2062, 'grad_norm': 2.3858535289764404, 'learning_rate': 3.877481177275838e-06, 'epoch': 3.71}
+{'loss': 1.2001, 'grad_norm': 2.391416072845459, 'learning_rate': 3.8740588637919236e-06, 'epoch': 3.71}
+{'loss': 1.1646, 'grad_norm': 2.293412685394287, 'learning_rate': 3.870636550308009e-06, 'epoch': 3.71}
+{'loss': 1.2283, 'grad_norm': 2.4008822441101074, 'learning_rate': 3.867214236824093e-06, 'epoch': 3.71}
+{'loss': 1.1763, 'grad_norm': 2.295300245285034, 'learning_rate': 3.863791923340178e-06, 'epoch': 3.72}
+{'eval_loss': 1.802880048751831, 'eval_runtime': 11.4583, 'eval_samples_per_second': 52.364, 'eval_steps_per_second': 1.135, 'epoch': 3.72}
+{'loss': 1.1956, 'grad_norm': 2.3572471141815186, 'learning_rate': 3.860369609856264e-06, 'epoch': 3.72}
+{'loss': 1.1864, 'grad_norm': 2.361140727996826, 'learning_rate': 3.856947296372348e-06, 'epoch': 3.72}
+{'loss': 1.2096, 'grad_norm': 2.4698352813720703, 'learning_rate': 3.853524982888433e-06, 'epoch': 3.72}
+{'loss': 1.1552, 'grad_norm': 2.381643533706665, 'learning_rate': 3.8501026694045176e-06, 'epoch': 3.72}
+{'loss': 1.1778, 'grad_norm': 2.3889029026031494, 'learning_rate': 3.846680355920603e-06, 'epoch': 3.73}
+{'loss': 1.1931, 'grad_norm': 2.3167617321014404, 'learning_rate': 3.843258042436688e-06, 'epoch': 3.73}
+{'loss': 1.1639, 'grad_norm': 2.307199478149414, 'learning_rate': 3.839835728952772e-06, 'epoch': 3.73}
+{'loss': 1.2122, 'grad_norm': 2.330164909362793, 'learning_rate': 3.836413415468857e-06, 'epoch': 3.73}
+{'loss': 1.2061, 'grad_norm': 2.409644603729248, 'learning_rate': 3.832991101984942e-06, 'epoch': 3.74}
+{'loss': 1.1896, 'grad_norm': 2.319939136505127, 'learning_rate': 3.829568788501027e-06, 'epoch': 3.74}
+{'eval_loss': 1.8022375106811523, 'eval_runtime': 11.5143, 'eval_samples_per_second': 52.109, 'eval_steps_per_second': 1.129, 'epoch': 3.74}
+{'loss': 1.1912, 'grad_norm': 2.2833893299102783, 'learning_rate': 3.8261464750171116e-06, 'epoch': 3.74}
+{'loss': 1.2163, 'grad_norm': 2.4249157905578613, 'learning_rate': 3.822724161533197e-06, 'epoch': 3.74}
+{'loss': 1.1928, 'grad_norm': 2.4147775173187256, 'learning_rate': 3.819301848049282e-06, 'epoch': 3.74}
+{'loss': 1.181, 'grad_norm': 2.387573480606079, 'learning_rate': 3.815879534565366e-06, 'epoch': 3.75}
+{'loss': 1.1881, 'grad_norm': 2.4009315967559814, 'learning_rate': 3.8124572210814516e-06, 'epoch': 3.75}
+{'loss': 1.1663, 'grad_norm': 2.382967710494995, 'learning_rate': 3.8090349075975364e-06, 'epoch': 3.75}
+{'loss': 1.1795, 'grad_norm': 2.341623306274414, 'learning_rate': 3.805612594113621e-06, 'epoch': 3.75}
+{'loss': 1.2256, 'grad_norm': 2.478076934814453, 'learning_rate': 3.802190280629706e-06, 'epoch': 3.75}
+{'loss': 1.2007, 'grad_norm': 2.3648641109466553, 'learning_rate': 3.798767967145791e-06, 'epoch': 3.76}
+{'loss': 1.2022, 'grad_norm': 2.420389175415039, 'learning_rate': 3.7953456536618756e-06, 'epoch': 3.76}
+{'eval_loss': 1.7958840131759644, 'eval_runtime': 11.5306, 'eval_samples_per_second': 52.035, 'eval_steps_per_second': 1.127, 'epoch': 3.76}
+{'loss': 1.219, 'grad_norm': 2.3430213928222656, 'learning_rate': 3.7919233401779604e-06, 'epoch': 3.76}
+{'loss': 1.1827, 'grad_norm': 2.2745821475982666, 'learning_rate': 3.788501026694045e-06, 'epoch': 3.76}
+{'loss': 1.2043, 'grad_norm': 2.324129581451416, 'learning_rate': 3.7850787132101304e-06, 'epoch': 3.76}
+{'loss': 1.173, 'grad_norm': 2.34767484664917, 'learning_rate': 3.781656399726215e-06, 'epoch': 3.77}
+{'loss': 1.1879, 'grad_norm': 2.466482639312744, 'learning_rate': 3.7782340862423e-06, 'epoch': 3.77}
+{'loss': 1.2103, 'grad_norm': 2.4656007289886475, 'learning_rate': 3.774811772758385e-06, 'epoch': 3.77}
+{'loss': 1.2209, 'grad_norm': 2.483766794204712, 'learning_rate': 3.77138945927447e-06, 'epoch': 3.77}
+{'loss': 1.1773, 'grad_norm': 2.315006971359253, 'learning_rate': 3.767967145790555e-06, 'epoch': 3.77}
+{'loss': 1.2054, 'grad_norm': 2.4669885635375977, 'learning_rate': 3.7645448323066396e-06, 'epoch': 3.78}
+{'loss': 1.1629, 'grad_norm': 2.4131758213043213, 'learning_rate': 3.7611225188227244e-06, 'epoch': 3.78}
+{'eval_loss': 1.8002970218658447, 'eval_runtime': 11.5517, 'eval_samples_per_second': 51.941, 'eval_steps_per_second': 1.125, 'epoch': 3.78}
+{'loss': 1.2179, 'grad_norm': 2.284674882888794, 'learning_rate': 3.7577002053388096e-06, 'epoch': 3.78}
+{'loss': 1.185, 'grad_norm': 2.3571293354034424, 'learning_rate': 3.7542778918548944e-06, 'epoch': 3.78}
+{'loss': 1.1989, 'grad_norm': 2.4451520442962646, 'learning_rate': 3.7508555783709792e-06, 'epoch': 3.78}
+{'loss': 1.1906, 'grad_norm': 2.4199485778808594, 'learning_rate': 3.7474332648870636e-06, 'epoch': 3.79}
+{'loss': 1.1788, 'grad_norm': 2.4134747982025146, 'learning_rate': 3.744010951403149e-06, 'epoch': 3.79}
+{'loss': 1.2075, 'grad_norm': 2.306786298751831, 'learning_rate': 3.7405886379192336e-06, 'epoch': 3.79}
+{'loss': 1.1817, 'grad_norm': 2.315335512161255, 'learning_rate': 3.7371663244353184e-06, 'epoch': 3.79}
+{'loss': 1.2025, 'grad_norm': 2.3166720867156982, 'learning_rate': 3.733744010951403e-06, 'epoch': 3.79}
+{'loss': 1.2005, 'grad_norm': 2.3661391735076904, 'learning_rate': 3.7303216974674884e-06, 'epoch': 3.8}
+{'loss': 1.1539, 'grad_norm': 2.2606358528137207, 'learning_rate': 3.7268993839835732e-06, 'epoch': 3.8}
+{'eval_loss': 1.8017995357513428, 'eval_runtime': 11.5679, 'eval_samples_per_second': 51.868, 'eval_steps_per_second': 1.124, 'epoch': 3.8}
+{'loss': 1.2122, 'grad_norm': 2.4006118774414062, 'learning_rate': 3.723477070499658e-06, 'epoch': 3.8}
+{'loss': 1.186, 'grad_norm': 2.3297617435455322, 'learning_rate': 3.7200547570157432e-06, 'epoch': 3.8}
+{'loss': 1.1891, 'grad_norm': 2.347083568572998, 'learning_rate': 3.716632443531828e-06, 'epoch': 3.8}
+{'loss': 1.1818, 'grad_norm': 2.3221702575683594, 'learning_rate': 3.713210130047913e-06, 'epoch': 3.81}
+{'loss': 1.1696, 'grad_norm': 2.3256795406341553, 'learning_rate': 3.7097878165639976e-06, 'epoch': 3.81}
+{'loss': 1.1952, 'grad_norm': 2.3087120056152344, 'learning_rate': 3.706365503080083e-06, 'epoch': 3.81}
+{'loss': 1.2019, 'grad_norm': 2.3588955402374268, 'learning_rate': 3.7029431895961672e-06, 'epoch': 3.81}
+{'loss': 1.1901, 'grad_norm': 2.360738754272461, 'learning_rate': 3.699520876112252e-06, 'epoch': 3.82}
+{'loss': 1.2196, 'grad_norm': 2.441466808319092, 'learning_rate': 3.696098562628337e-06, 'epoch': 3.82}
+{'loss': 1.1898, 'grad_norm': 2.357151508331299, 'learning_rate': 3.6926762491444216e-06, 'epoch': 3.82}
+{'eval_loss': 1.8118449449539185, 'eval_runtime': 11.5684, 'eval_samples_per_second': 51.866, 'eval_steps_per_second': 1.124, 'epoch': 3.82}
+{'loss': 1.2112, 'grad_norm': 2.401479721069336, 'learning_rate': 3.689253935660507e-06, 'epoch': 3.82}
+{'loss': 1.1865, 'grad_norm': 2.487950563430786, 'learning_rate': 3.6858316221765916e-06, 'epoch': 3.82}
+{'loss': 1.1932, 'grad_norm': 2.3965349197387695, 'learning_rate': 3.6824093086926764e-06, 'epoch': 3.83}
+{'loss': 1.2168, 'grad_norm': 2.4064064025878906, 'learning_rate': 3.6789869952087616e-06, 'epoch': 3.83}
+{'loss': 1.2068, 'grad_norm': 2.4504499435424805, 'learning_rate': 3.6755646817248464e-06, 'epoch': 3.83}
+{'loss': 1.1732, 'grad_norm': 2.365823745727539, 'learning_rate': 3.6721423682409312e-06, 'epoch': 3.83}
+{'loss': 1.1855, 'grad_norm': 2.3573973178863525, 'learning_rate': 3.668720054757016e-06, 'epoch': 3.83}
+{'loss': 1.1903, 'grad_norm': 2.3450498580932617, 'learning_rate': 3.6652977412731013e-06, 'epoch': 3.84}
+{'loss': 1.1958, 'grad_norm': 2.386920213699341, 'learning_rate': 3.661875427789186e-06, 'epoch': 3.84}
+{'loss': 1.2013, 'grad_norm': 2.4513325691223145, 'learning_rate': 3.6584531143052704e-06, 'epoch': 3.84}
+{'eval_loss': 1.8072880506515503, 'eval_runtime': 11.5544, 'eval_samples_per_second': 51.928, 'eval_steps_per_second': 1.125, 'epoch': 3.84}
+{'loss': 1.1684, 'grad_norm': 2.288637399673462, 'learning_rate': 3.6550308008213552e-06, 'epoch': 3.84}
+{'loss': 1.1806, 'grad_norm': 2.367384195327759, 'learning_rate': 3.65160848733744e-06, 'epoch': 3.84}
+{'loss': 1.1981, 'grad_norm': 2.2947888374328613, 'learning_rate': 3.6481861738535252e-06, 'epoch': 3.85}
+{'loss': 1.2026, 'grad_norm': 2.453263998031616, 'learning_rate': 3.64476386036961e-06, 'epoch': 3.85}
+{'loss': 1.1936, 'grad_norm': 2.351243257522583, 'learning_rate': 3.641341546885695e-06, 'epoch': 3.85}
+{'loss': 1.2148, 'grad_norm': 2.4671506881713867, 'learning_rate': 3.63791923340178e-06, 'epoch': 3.85}
+{'loss': 1.1829, 'grad_norm': 2.381891965866089, 'learning_rate': 3.634496919917865e-06, 'epoch': 3.85}
+{'loss': 1.1742, 'grad_norm': 2.3168559074401855, 'learning_rate': 3.6310746064339496e-06, 'epoch': 3.86}
+{'loss': 1.189, 'grad_norm': 2.3435299396514893, 'learning_rate': 3.6276522929500344e-06, 'epoch': 3.86}
+{'loss': 1.1395, 'grad_norm': 2.219264507293701, 'learning_rate': 3.6242299794661197e-06, 'epoch': 3.86}
+{'eval_loss': 1.810907244682312, 'eval_runtime': 11.5649, 'eval_samples_per_second': 51.881, 'eval_steps_per_second': 1.124, 'epoch': 3.86}
+{'loss': 1.2222, 'grad_norm': 2.5270025730133057, 'learning_rate': 3.6208076659822045e-06, 'epoch': 3.86}
+{'loss': 1.1891, 'grad_norm': 2.381988763809204, 'learning_rate': 3.6173853524982893e-06, 'epoch': 3.86}
+{'loss': 1.2018, 'grad_norm': 2.3628921508789062, 'learning_rate': 3.6139630390143745e-06, 'epoch': 3.87}
+{'loss': 1.1765, 'grad_norm': 2.4217751026153564, 'learning_rate': 3.610540725530459e-06, 'epoch': 3.87}
+{'loss': 1.1851, 'grad_norm': 2.3241186141967773, 'learning_rate': 3.6071184120465436e-06, 'epoch': 3.87}
+{'loss': 1.2362, 'grad_norm': 2.4015114307403564, 'learning_rate': 3.6036960985626284e-06, 'epoch': 3.87}
+{'loss': 1.194, 'grad_norm': 2.2949492931365967, 'learning_rate': 3.6002737850787132e-06, 'epoch': 3.87}
+{'loss': 1.1975, 'grad_norm': 2.387923002243042, 'learning_rate': 3.5968514715947985e-06, 'epoch': 3.88}
+{'loss': 1.1813, 'grad_norm': 2.332388401031494, 'learning_rate': 3.5934291581108833e-06, 'epoch': 3.88}
+{'loss': 1.1807, 'grad_norm': 2.2862467765808105, 'learning_rate': 3.590006844626968e-06, 'epoch': 3.88}
+{'eval_loss': 1.7984964847564697, 'eval_runtime': 11.5712, 'eval_samples_per_second': 51.853, 'eval_steps_per_second': 1.123, 'epoch': 3.88}
+{'loss': 1.1988, 'grad_norm': 2.362189531326294, 'learning_rate': 3.586584531143053e-06, 'epoch': 3.88}
+{'loss': 1.2336, 'grad_norm': 2.393794059753418, 'learning_rate': 3.583162217659138e-06, 'epoch': 3.89}
+{'loss': 1.1965, 'grad_norm': 2.3292016983032227, 'learning_rate': 3.579739904175223e-06, 'epoch': 3.89}
+{'loss': 1.1984, 'grad_norm': 2.383613348007202, 'learning_rate': 3.5763175906913077e-06, 'epoch': 3.89}
+{'loss': 1.1994, 'grad_norm': 2.3475570678710938, 'learning_rate': 3.572895277207393e-06, 'epoch': 3.89}
+{'loss': 1.1672, 'grad_norm': 2.3430001735687256, 'learning_rate': 3.5694729637234777e-06, 'epoch': 3.89}
+{'loss': 1.1555, 'grad_norm': 2.2804958820343018, 'learning_rate': 3.566050650239562e-06, 'epoch': 3.9}
+{'loss': 1.1942, 'grad_norm': 2.3329918384552, 'learning_rate': 3.562628336755647e-06, 'epoch': 3.9}
+{'loss': 1.1806, 'grad_norm': 2.29487681388855, 'learning_rate': 3.5592060232717316e-06, 'epoch': 3.9}
+{'loss': 1.1687, 'grad_norm': 2.3439295291900635, 'learning_rate': 3.555783709787817e-06, 'epoch': 3.9}
+{'eval_loss': 1.7936787605285645, 'eval_runtime': 11.5853, 'eval_samples_per_second': 51.79, 'eval_steps_per_second': 1.122, 'epoch': 3.9}
+{'loss': 1.2123, 'grad_norm': 2.40854811668396, 'learning_rate': 3.5523613963039017e-06, 'epoch': 3.9}
+{'loss': 1.1774, 'grad_norm': 2.248828887939453, 'learning_rate': 3.5489390828199865e-06, 'epoch': 3.91}
+{'loss': 1.2033, 'grad_norm': 2.47023606300354, 'learning_rate': 3.5455167693360717e-06, 'epoch': 3.91}
+{'loss': 1.1847, 'grad_norm': 2.2796075344085693, 'learning_rate': 3.5420944558521565e-06, 'epoch': 3.91}
+{'loss': 1.1723, 'grad_norm': 2.3458313941955566, 'learning_rate': 3.5386721423682413e-06, 'epoch': 3.91}
+{'loss': 1.2004, 'grad_norm': 2.375147819519043, 'learning_rate': 3.535249828884326e-06, 'epoch': 3.91}
+{'loss': 1.1809, 'grad_norm': 2.304150104522705, 'learning_rate': 3.5318275154004113e-06, 'epoch': 3.92}
+{'loss': 1.2299, 'grad_norm': 2.4193434715270996, 'learning_rate': 3.528405201916496e-06, 'epoch': 3.92}
+{'loss': 1.2181, 'grad_norm': 2.4461300373077393, 'learning_rate': 3.524982888432581e-06, 'epoch': 3.92}
+{'loss': 1.1667, 'grad_norm': 2.2574267387390137, 'learning_rate': 3.5215605749486653e-06, 'epoch': 3.92}
+{'eval_loss': 1.7978324890136719, 'eval_runtime': 11.5719, 'eval_samples_per_second': 51.85, 'eval_steps_per_second': 1.123, 'epoch': 3.92}
+{'loss': 1.1775, 'grad_norm': 2.4189963340759277, 'learning_rate': 3.51813826146475e-06, 'epoch': 3.92}
+{'loss': 1.2161, 'grad_norm': 2.4260683059692383, 'learning_rate': 3.5147159479808353e-06, 'epoch': 3.93}
+{'loss': 1.1589, 'grad_norm': 2.2880473136901855, 'learning_rate': 3.51129363449692e-06, 'epoch': 3.93}
+{'loss': 1.2049, 'grad_norm': 2.3263845443725586, 'learning_rate': 3.507871321013005e-06, 'epoch': 3.93}
+{'loss': 1.2256, 'grad_norm': 2.423238515853882, 'learning_rate': 3.50444900752909e-06, 'epoch': 3.93}
+{'loss': 1.182, 'grad_norm': 2.4231719970703125, 'learning_rate': 3.501026694045175e-06, 'epoch': 3.93}
+{'loss': 1.2267, 'grad_norm': 2.3690688610076904, 'learning_rate': 3.4976043805612597e-06, 'epoch': 3.94}
+{'loss': 1.166, 'grad_norm': 2.3637607097625732, 'learning_rate': 3.4941820670773445e-06, 'epoch': 3.94}
+{'loss': 1.1615, 'grad_norm': 2.3366293907165527, 'learning_rate': 3.4907597535934297e-06, 'epoch': 3.94}
+{'loss': 1.1887, 'grad_norm': 2.361687660217285, 'learning_rate': 3.4873374401095145e-06, 'epoch': 3.94}
+{'eval_loss': 1.8010567426681519, 'eval_runtime': 11.5516, 'eval_samples_per_second': 51.941, 'eval_steps_per_second': 1.125, 'epoch': 3.94}
+{'loss': 1.1486, 'grad_norm': 2.3126258850097656, 'learning_rate': 3.4839151266255993e-06, 'epoch': 3.94}
+{'loss': 1.1835, 'grad_norm': 2.3863933086395264, 'learning_rate': 3.480492813141684e-06, 'epoch': 3.95}
+{'loss': 1.1895, 'grad_norm': 2.309210777282715, 'learning_rate': 3.4770704996577685e-06, 'epoch': 3.95}
+{'loss': 1.2135, 'grad_norm': 2.3939402103424072, 'learning_rate': 3.4736481861738537e-06, 'epoch': 3.95}
+{'loss': 1.182, 'grad_norm': 2.3372232913970947, 'learning_rate': 3.4702258726899385e-06, 'epoch': 3.95}
+{'loss': 1.205, 'grad_norm': 2.3830432891845703, 'learning_rate': 3.4668035592060233e-06, 'epoch': 3.95}
+{'loss': 1.1996, 'grad_norm': 2.401827096939087, 'learning_rate': 3.4633812457221085e-06, 'epoch': 3.96}
+{'loss': 1.2036, 'grad_norm': 2.382707357406616, 'learning_rate': 3.4599589322381933e-06, 'epoch': 3.96}
+{'loss': 1.1785, 'grad_norm': 2.2282588481903076, 'learning_rate': 3.456536618754278e-06, 'epoch': 3.96}
+{'loss': 1.1786, 'grad_norm': 2.314359188079834, 'learning_rate': 3.453114305270363e-06, 'epoch': 3.96}
+{'eval_loss': 1.7971937656402588, 'eval_runtime': 11.5828, 'eval_samples_per_second': 51.801, 'eval_steps_per_second': 1.122, 'epoch': 3.96}
+{'loss': 1.1779, 'grad_norm': 2.3045873641967773, 'learning_rate': 3.449691991786448e-06, 'epoch': 3.97}
+{'loss': 1.1902, 'grad_norm': 2.3541347980499268, 'learning_rate': 3.446269678302533e-06, 'epoch': 3.97}
+{'loss': 1.1733, 'grad_norm': 2.2657694816589355, 'learning_rate': 3.4428473648186177e-06, 'epoch': 3.97}
+{'loss': 1.2126, 'grad_norm': 2.4228336811065674, 'learning_rate': 3.439425051334703e-06, 'epoch': 3.97}
+{'loss': 1.1896, 'grad_norm': 2.3512306213378906, 'learning_rate': 3.4360027378507877e-06, 'epoch': 3.97}
+{'loss': 1.1769, 'grad_norm': 2.406978130340576, 'learning_rate': 3.4325804243668725e-06, 'epoch': 3.98}
+{'loss': 1.1857, 'grad_norm': 2.3396549224853516, 'learning_rate': 3.429158110882957e-06, 'epoch': 3.98}
+{'loss': 1.1972, 'grad_norm': 2.3575856685638428, 'learning_rate': 3.4257357973990417e-06, 'epoch': 3.98}
+{'loss': 1.1659, 'grad_norm': 2.4174134731292725, 'learning_rate': 3.422313483915127e-06, 'epoch': 3.98}
+{'loss': 1.2017, 'grad_norm': 2.420698642730713, 'learning_rate': 3.4188911704312117e-06, 'epoch': 3.98}
+{'eval_loss': 1.8036144971847534, 'eval_runtime': 11.5619, 'eval_samples_per_second': 51.895, 'eval_steps_per_second': 1.124, 'epoch': 3.98}
+{'loss': 1.1361, 'grad_norm': 2.2854714393615723, 'learning_rate': 3.4154688569472965e-06, 'epoch': 3.99}
+{'loss': 1.2157, 'grad_norm': 2.457904100418091, 'learning_rate': 3.4120465434633813e-06, 'epoch': 3.99}
+{'loss': 1.2112, 'grad_norm': 2.470994234085083, 'learning_rate': 3.4086242299794665e-06, 'epoch': 3.99}
+{'loss': 1.1906, 'grad_norm': 2.3820719718933105, 'learning_rate': 3.4052019164955513e-06, 'epoch': 3.99}
+{'loss': 1.1802, 'grad_norm': 2.3172242641448975, 'learning_rate': 3.401779603011636e-06, 'epoch': 3.99}
+{'loss': 1.1824, 'grad_norm': 2.353541612625122, 'learning_rate': 3.3983572895277213e-06, 'epoch': 4.0}
+{'loss': 1.174, 'grad_norm': 2.383714437484741, 'learning_rate': 3.394934976043806e-06, 'epoch': 4.0}
+{'loss': 1.1513, 'grad_norm': 2.3177669048309326, 'learning_rate': 3.391512662559891e-06, 'epoch': 4.0}
+{'loss': 1.0944, 'grad_norm': 3.346970558166504, 'learning_rate': 3.3880903490759757e-06, 'epoch': 4.0}
+{'loss': 1.0906, 'grad_norm': 3.0962209701538086, 'learning_rate': 3.38466803559206e-06, 'epoch': 4.0}
+{'eval_loss': 1.8340486288070679, 'eval_runtime': 11.5543, 'eval_samples_per_second': 51.929, 'eval_steps_per_second': 1.125, 'epoch': 4.0}
+{'loss': 1.0844, 'grad_norm': 2.773404359817505, 'learning_rate': 3.3812457221081453e-06, 'epoch': 4.01}
+{'loss': 1.0882, 'grad_norm': 3.3950228691101074, 'learning_rate': 3.37782340862423e-06, 'epoch': 4.01}
+{'loss': 1.1025, 'grad_norm': 3.7172439098358154, 'learning_rate': 3.374401095140315e-06, 'epoch': 4.01}
+{'loss': 1.0625, 'grad_norm': 3.681903123855591, 'learning_rate': 3.3709787816563997e-06, 'epoch': 4.01}
+{'loss': 1.0966, 'grad_norm': 3.2542998790740967, 'learning_rate': 3.367556468172485e-06, 'epoch': 4.01}
+{'loss': 1.08, 'grad_norm': 2.9804399013519287, 'learning_rate': 3.3641341546885697e-06, 'epoch': 4.02}
+{'loss': 1.1014, 'grad_norm': 3.2100636959075928, 'learning_rate': 3.3607118412046545e-06, 'epoch': 4.02}
+{'loss': 1.0703, 'grad_norm': 2.8972480297088623, 'learning_rate': 3.3572895277207397e-06, 'epoch': 4.02}
+{'loss': 1.0611, 'grad_norm': 2.9051713943481445, 'learning_rate': 3.3538672142368245e-06, 'epoch': 4.02}
+{'loss': 1.0676, 'grad_norm': 2.817908525466919, 'learning_rate': 3.3504449007529093e-06, 'epoch': 4.02}
+{'eval_loss': 1.8527789115905762, 'eval_runtime': 11.4502, 'eval_samples_per_second': 52.401, 'eval_steps_per_second': 1.135, 'epoch': 4.02}
+{'loss': 1.0519, 'grad_norm': 3.0668466091156006, 'learning_rate': 3.347022587268994e-06, 'epoch': 4.03}
+{'loss': 1.0748, 'grad_norm': 3.062127113342285, 'learning_rate': 3.3436002737850794e-06, 'epoch': 4.03}
+{'loss': 1.0954, 'grad_norm': 3.029470920562744, 'learning_rate': 3.3401779603011637e-06, 'epoch': 4.03}
+{'loss': 1.0769, 'grad_norm': 2.9476940631866455, 'learning_rate': 3.3367556468172485e-06, 'epoch': 4.03}
+{'loss': 1.0787, 'grad_norm': 3.0229153633117676, 'learning_rate': 3.3333333333333333e-06, 'epoch': 4.03}
+{'loss': 1.0855, 'grad_norm': 2.872607469558716, 'learning_rate': 3.3299110198494185e-06, 'epoch': 4.04}
+{'loss': 1.1022, 'grad_norm': 2.887507200241089, 'learning_rate': 3.3264887063655033e-06, 'epoch': 4.04}
+{'loss': 1.0776, 'grad_norm': 2.8255207538604736, 'learning_rate': 3.323066392881588e-06, 'epoch': 4.04}
+{'loss': 1.0928, 'grad_norm': 2.8362326622009277, 'learning_rate': 3.319644079397673e-06, 'epoch': 4.04}
+{'loss': 1.0962, 'grad_norm': 2.990912437438965, 'learning_rate': 3.316221765913758e-06, 'epoch': 4.05}
+{'eval_loss': 1.8525264263153076, 'eval_runtime': 11.5204, 'eval_samples_per_second': 52.082, 'eval_steps_per_second': 1.128, 'epoch': 4.05}
+{'loss': 1.0811, 'grad_norm': 3.0058536529541016, 'learning_rate': 3.312799452429843e-06, 'epoch': 4.05}
+{'loss': 1.1202, 'grad_norm': 3.0145204067230225, 'learning_rate': 3.3093771389459277e-06, 'epoch': 4.05}
+{'loss': 1.0641, 'grad_norm': 2.7283854484558105, 'learning_rate': 3.3059548254620125e-06, 'epoch': 4.05}
+{'loss': 1.0782, 'grad_norm': 2.948932647705078, 'learning_rate': 3.3025325119780978e-06, 'epoch': 4.05}
+{'loss': 1.0695, 'grad_norm': 2.8107545375823975, 'learning_rate': 3.2991101984941826e-06, 'epoch': 4.06}
+{'loss': 1.0691, 'grad_norm': 2.6480906009674072, 'learning_rate': 3.2956878850102674e-06, 'epoch': 4.06}
+{'loss': 1.0919, 'grad_norm': 2.85935640335083, 'learning_rate': 3.2922655715263517e-06, 'epoch': 4.06}
+{'loss': 1.1043, 'grad_norm': 2.8802411556243896, 'learning_rate': 3.288843258042437e-06, 'epoch': 4.06}
+{'loss': 1.0766, 'grad_norm': 2.897989273071289, 'learning_rate': 3.2854209445585218e-06, 'epoch': 4.06}
+{'loss': 1.0635, 'grad_norm': 2.8928120136260986, 'learning_rate': 3.2819986310746065e-06, 'epoch': 4.07}
+{'eval_loss': 1.8502033948898315, 'eval_runtime': 11.5399, 'eval_samples_per_second': 51.994, 'eval_steps_per_second': 1.127, 'epoch': 4.07}
+{'loss': 1.0869, 'grad_norm': 2.8761508464813232, 'learning_rate': 3.2785763175906913e-06, 'epoch': 4.07}
+{'loss': 1.0874, 'grad_norm': 2.804609537124634, 'learning_rate': 3.2751540041067766e-06, 'epoch': 4.07}
+{'loss': 1.0594, 'grad_norm': 2.784219264984131, 'learning_rate': 3.2717316906228614e-06, 'epoch': 4.07}
+{'loss': 1.0945, 'grad_norm': 2.99422287940979, 'learning_rate': 3.268309377138946e-06, 'epoch': 4.07}
+{'loss': 1.0722, 'grad_norm': 2.752068519592285, 'learning_rate': 3.264887063655031e-06, 'epoch': 4.08}
+{'loss': 1.0968, 'grad_norm': 2.8507354259490967, 'learning_rate': 3.261464750171116e-06, 'epoch': 4.08}
+{'loss': 1.0908, 'grad_norm': 2.7320032119750977, 'learning_rate': 3.258042436687201e-06, 'epoch': 4.08}
+{'loss': 1.0956, 'grad_norm': 2.7739205360412598, 'learning_rate': 3.2546201232032858e-06, 'epoch': 4.08}
+{'loss': 1.1014, 'grad_norm': 2.7911527156829834, 'learning_rate': 3.251197809719371e-06, 'epoch': 4.08}
+{'loss': 1.1116, 'grad_norm': 2.9240496158599854, 'learning_rate': 3.2477754962354554e-06, 'epoch': 4.09}
+{'eval_loss': 1.8518924713134766, 'eval_runtime': 11.5796, 'eval_samples_per_second': 51.815, 'eval_steps_per_second': 1.123, 'epoch': 4.09}
+{'loss': 1.1024, 'grad_norm': 2.8750264644622803, 'learning_rate': 3.24435318275154e-06, 'epoch': 4.09}
+{'loss': 1.0925, 'grad_norm': 2.83305025100708, 'learning_rate': 3.240930869267625e-06, 'epoch': 4.09}
+{'loss': 1.0775, 'grad_norm': 2.866330623626709, 'learning_rate': 3.2375085557837098e-06, 'epoch': 4.09}
+{'loss': 1.0936, 'grad_norm': 2.9845528602600098, 'learning_rate': 3.234086242299795e-06, 'epoch': 4.09}
+{'loss': 1.0919, 'grad_norm': 2.918134927749634, 'learning_rate': 3.2306639288158798e-06, 'epoch': 4.1}
+{'loss': 1.0868, 'grad_norm': 2.8827662467956543, 'learning_rate': 3.2272416153319646e-06, 'epoch': 4.1}
+{'loss': 1.0811, 'grad_norm': 2.8710720539093018, 'learning_rate': 3.2238193018480498e-06, 'epoch': 4.1}
+{'loss': 1.0982, 'grad_norm': 2.8534584045410156, 'learning_rate': 3.2203969883641346e-06, 'epoch': 4.1}
+{'loss': 1.095, 'grad_norm': 2.8327066898345947, 'learning_rate': 3.2169746748802194e-06, 'epoch': 4.1}
+{'loss': 1.0743, 'grad_norm': 2.8282976150512695, 'learning_rate': 3.213552361396304e-06, 'epoch': 4.11}
+{'eval_loss': 1.8605830669403076, 'eval_runtime': 11.594, 'eval_samples_per_second': 51.751, 'eval_steps_per_second': 1.121, 'epoch': 4.11}
+{'loss': 1.0757, 'grad_norm': 2.8154516220092773, 'learning_rate': 3.2101300479123894e-06, 'epoch': 4.11}
+{'loss': 1.0935, 'grad_norm': 2.915862798690796, 'learning_rate': 3.206707734428474e-06, 'epoch': 4.11}
+{'loss': 1.0586, 'grad_norm': 2.759864568710327, 'learning_rate': 3.2032854209445586e-06, 'epoch': 4.11}
+{'loss': 1.1096, 'grad_norm': 2.9020602703094482, 'learning_rate': 3.1998631074606434e-06, 'epoch': 4.11}
+{'loss': 1.0799, 'grad_norm': 2.8642828464508057, 'learning_rate': 3.196440793976728e-06, 'epoch': 4.12}
+{'loss': 1.0996, 'grad_norm': 2.8874318599700928, 'learning_rate': 3.1930184804928134e-06, 'epoch': 4.12}
+{'loss': 1.0878, 'grad_norm': 2.9619534015655518, 'learning_rate': 3.189596167008898e-06, 'epoch': 4.12}
+{'loss': 1.0642, 'grad_norm': 2.8598995208740234, 'learning_rate': 3.186173853524983e-06, 'epoch': 4.12}
+{'loss': 1.0876, 'grad_norm': 3.0156021118164062, 'learning_rate': 3.182751540041068e-06, 'epoch': 4.13}
+{'loss': 1.0829, 'grad_norm': 2.9698662757873535, 'learning_rate': 3.179329226557153e-06, 'epoch': 4.13}
+{'eval_loss': 1.8516039848327637, 'eval_runtime': 11.572, 'eval_samples_per_second': 51.849, 'eval_steps_per_second': 1.123, 'epoch': 4.13}
+{'loss': 1.1159, 'grad_norm': 2.9188878536224365, 'learning_rate': 3.175906913073238e-06, 'epoch': 4.13}
+{'loss': 1.0817, 'grad_norm': 2.8878679275512695, 'learning_rate': 3.1724845995893226e-06, 'epoch': 4.13}
+{'loss': 1.0929, 'grad_norm': 2.9687654972076416, 'learning_rate': 3.169062286105408e-06, 'epoch': 4.13}
+{'loss': 1.0807, 'grad_norm': 2.9284112453460693, 'learning_rate': 3.1656399726214926e-06, 'epoch': 4.14}
+{'loss': 1.0896, 'grad_norm': 2.948918581008911, 'learning_rate': 3.1622176591375774e-06, 'epoch': 4.14}
+{'loss': 1.1036, 'grad_norm': 2.9265100955963135, 'learning_rate': 3.1587953456536618e-06, 'epoch': 4.14}
+{'loss': 1.1209, 'grad_norm': 3.1381161212921143, 'learning_rate': 3.1553730321697466e-06, 'epoch': 4.14}
+{'loss': 1.0565, 'grad_norm': 2.8561697006225586, 'learning_rate': 3.151950718685832e-06, 'epoch': 4.14}
+{'loss': 1.0922, 'grad_norm': 2.9376027584075928, 'learning_rate': 3.1485284052019166e-06, 'epoch': 4.15}
+{'loss': 1.096, 'grad_norm': 2.9414427280426025, 'learning_rate': 3.1451060917180014e-06, 'epoch': 4.15}
+{'eval_loss': 1.8425451517105103, 'eval_runtime': 11.5889, 'eval_samples_per_second': 51.774, 'eval_steps_per_second': 1.122, 'epoch': 4.15}
+{'loss': 1.0965, 'grad_norm': 3.0620791912078857, 'learning_rate': 3.1416837782340866e-06, 'epoch': 4.15}
+{'loss': 1.0972, 'grad_norm': 2.942643642425537, 'learning_rate': 3.1382614647501714e-06, 'epoch': 4.15}
+{'loss': 1.0563, 'grad_norm': 2.8959333896636963, 'learning_rate': 3.134839151266256e-06, 'epoch': 4.15}
+{'loss': 1.0398, 'grad_norm': 2.8978524208068848, 'learning_rate': 3.131416837782341e-06, 'epoch': 4.16}
+{'loss': 1.0851, 'grad_norm': 2.838179588317871, 'learning_rate': 3.1279945242984262e-06, 'epoch': 4.16}
+{'loss': 1.0732, 'grad_norm': 2.8471896648406982, 'learning_rate': 3.124572210814511e-06, 'epoch': 4.16}
+{'loss': 1.0903, 'grad_norm': 2.803828001022339, 'learning_rate': 3.121149897330596e-06, 'epoch': 4.16}
+{'loss': 1.0914, 'grad_norm': 2.8423845767974854, 'learning_rate': 3.117727583846681e-06, 'epoch': 4.16}
+{'loss': 1.1077, 'grad_norm': 2.8314766883850098, 'learning_rate': 3.114305270362766e-06, 'epoch': 4.17}
+{'loss': 1.0631, 'grad_norm': 2.920804500579834, 'learning_rate': 3.11088295687885e-06, 'epoch': 4.17}
+{'eval_loss': 1.8553892374038696, 'eval_runtime': 11.5731, 'eval_samples_per_second': 51.844, 'eval_steps_per_second': 1.123, 'epoch': 4.17}
+{'loss': 1.1015, 'grad_norm': 2.897263288497925, 'learning_rate': 3.107460643394935e-06, 'epoch': 4.17}
+{'loss': 1.0693, 'grad_norm': 2.854799509048462, 'learning_rate': 3.10403832991102e-06, 'epoch': 4.17}
+{'loss': 1.0769, 'grad_norm': 2.8923089504241943, 'learning_rate': 3.100616016427105e-06, 'epoch': 4.17}
+{'loss': 1.0585, 'grad_norm': 2.767703056335449, 'learning_rate': 3.09719370294319e-06, 'epoch': 4.18}
+{'loss': 1.0986, 'grad_norm': 2.8577609062194824, 'learning_rate': 3.0937713894592746e-06, 'epoch': 4.18}
+{'loss': 1.0992, 'grad_norm': 2.8468642234802246, 'learning_rate': 3.0903490759753594e-06, 'epoch': 4.18}
+{'loss': 1.1063, 'grad_norm': 2.886837959289551, 'learning_rate': 3.0869267624914446e-06, 'epoch': 4.18}
+{'loss': 1.0882, 'grad_norm': 2.843162775039673, 'learning_rate': 3.0835044490075294e-06, 'epoch': 4.18}
+{'loss': 1.1179, 'grad_norm': 2.990818977355957, 'learning_rate': 3.0800821355236142e-06, 'epoch': 4.19}
+{'loss': 1.1029, 'grad_norm': 2.928191661834717, 'learning_rate': 3.0766598220396994e-06, 'epoch': 4.19}
+{'eval_loss': 1.8627492189407349, 'eval_runtime': 11.5985, 'eval_samples_per_second': 51.731, 'eval_steps_per_second': 1.121, 'epoch': 4.19}
+{'loss': 1.1169, 'grad_norm': 3.0541069507598877, 'learning_rate': 3.0732375085557842e-06, 'epoch': 4.19}
+{'loss': 1.0783, 'grad_norm': 2.8395438194274902, 'learning_rate': 3.069815195071869e-06, 'epoch': 4.19}
+{'loss': 1.0809, 'grad_norm': 3.069127321243286, 'learning_rate': 3.0663928815879534e-06, 'epoch': 4.2}
+{'loss': 1.1032, 'grad_norm': 2.871037006378174, 'learning_rate': 3.062970568104038e-06, 'epoch': 4.2}
+{'loss': 1.0834, 'grad_norm': 3.020796537399292, 'learning_rate': 3.0595482546201234e-06, 'epoch': 4.2}
+{'loss': 1.0881, 'grad_norm': 2.8868906497955322, 'learning_rate': 3.0561259411362082e-06, 'epoch': 4.2}
+{'loss': 1.0921, 'grad_norm': 2.8572661876678467, 'learning_rate': 3.052703627652293e-06, 'epoch': 4.2}
+{'loss': 1.1019, 'grad_norm': 2.9186019897460938, 'learning_rate': 3.049281314168378e-06, 'epoch': 4.21}
+{'loss': 1.0937, 'grad_norm': 2.92910099029541, 'learning_rate': 3.045859000684463e-06, 'epoch': 4.21}
+{'loss': 1.0902, 'grad_norm': 2.902780532836914, 'learning_rate': 3.042436687200548e-06, 'epoch': 4.21}
+{'eval_loss': 1.8567968606948853, 'eval_runtime': 11.5846, 'eval_samples_per_second': 51.793, 'eval_steps_per_second': 1.122, 'epoch': 4.21}
+{'loss': 1.0837, 'grad_norm': 2.8232765197753906, 'learning_rate': 3.0390143737166326e-06, 'epoch': 4.21}
+{'loss': 1.0818, 'grad_norm': 2.951881170272827, 'learning_rate': 3.035592060232718e-06, 'epoch': 4.21}
+{'loss': 1.0845, 'grad_norm': 2.7452540397644043, 'learning_rate': 3.0321697467488026e-06, 'epoch': 4.22}
+{'loss': 1.0963, 'grad_norm': 2.873075485229492, 'learning_rate': 3.0287474332648874e-06, 'epoch': 4.22}
+{'loss': 1.0689, 'grad_norm': 2.8303823471069336, 'learning_rate': 3.0253251197809722e-06, 'epoch': 4.22}
+{'loss': 1.0636, 'grad_norm': 2.8716630935668945, 'learning_rate': 3.0219028062970566e-06, 'epoch': 4.22}
+{'loss': 1.094, 'grad_norm': 2.951850652694702, 'learning_rate': 3.018480492813142e-06, 'epoch': 4.22}
+{'loss': 1.1044, 'grad_norm': 2.995068311691284, 'learning_rate': 3.0150581793292266e-06, 'epoch': 4.23}
+{'loss': 1.0818, 'grad_norm': 2.898458957672119, 'learning_rate': 3.0116358658453114e-06, 'epoch': 4.23}
+{'loss': 1.0907, 'grad_norm': 2.956909656524658, 'learning_rate': 3.0082135523613966e-06, 'epoch': 4.23}
+{'eval_loss': 1.8610209226608276, 'eval_runtime': 11.5845, 'eval_samples_per_second': 51.794, 'eval_steps_per_second': 1.122, 'epoch': 4.23}
+{'loss': 1.0843, 'grad_norm': 2.8010518550872803, 'learning_rate': 3.0047912388774814e-06, 'epoch': 4.23}
+{'loss': 1.0661, 'grad_norm': 2.8479607105255127, 'learning_rate': 3.0013689253935662e-06, 'epoch': 4.23}
+{'loss': 1.1128, 'grad_norm': 3.037993907928467, 'learning_rate': 2.997946611909651e-06, 'epoch': 4.24}
+{'loss': 1.085, 'grad_norm': 2.856287956237793, 'learning_rate': 2.9945242984257363e-06, 'epoch': 4.24}
+{'loss': 1.0775, 'grad_norm': 2.850703477859497, 'learning_rate': 2.991101984941821e-06, 'epoch': 4.24}
+{'loss': 1.0898, 'grad_norm': 2.9362542629241943, 'learning_rate': 2.987679671457906e-06, 'epoch': 4.24}
+{'loss': 1.1063, 'grad_norm': 2.823819398880005, 'learning_rate': 2.9842573579739906e-06, 'epoch': 4.24}
+{'loss': 1.1022, 'grad_norm': 2.918220281600952, 'learning_rate': 2.980835044490076e-06, 'epoch': 4.25}
+{'loss': 1.0845, 'grad_norm': 2.9298152923583984, 'learning_rate': 2.9774127310061607e-06, 'epoch': 4.25}
+{'loss': 1.096, 'grad_norm': 2.845832347869873, 'learning_rate': 2.973990417522245e-06, 'epoch': 4.25}
+{'eval_loss': 1.8515501022338867, 'eval_runtime': 11.581, 'eval_samples_per_second': 51.809, 'eval_steps_per_second': 1.123, 'epoch': 4.25}
+{'loss': 1.0761, 'grad_norm': 2.83931040763855, 'learning_rate': 2.97056810403833e-06, 'epoch': 4.25}
+{'loss': 1.0773, 'grad_norm': 2.838745355606079, 'learning_rate': 2.967145790554415e-06, 'epoch': 4.25}
+{'loss': 1.0937, 'grad_norm': 2.896726608276367, 'learning_rate': 2.9637234770705e-06, 'epoch': 4.26}
+{'loss': 1.1087, 'grad_norm': 2.877471685409546, 'learning_rate': 2.9603011635865847e-06, 'epoch': 4.26}
+{'loss': 1.1035, 'grad_norm': 2.9765214920043945, 'learning_rate': 2.9568788501026694e-06, 'epoch': 4.26}
+{'loss': 1.11, 'grad_norm': 2.9867894649505615, 'learning_rate': 2.9534565366187547e-06, 'epoch': 4.26}
+{'loss': 1.0793, 'grad_norm': 2.814480781555176, 'learning_rate': 2.9500342231348395e-06, 'epoch': 4.26}
+{'loss': 1.0889, 'grad_norm': 2.867689609527588, 'learning_rate': 2.9466119096509243e-06, 'epoch': 4.27}
+{'loss': 1.0873, 'grad_norm': 2.866628408432007, 'learning_rate': 2.9431895961670095e-06, 'epoch': 4.27}
+{'loss': 1.0818, 'grad_norm': 2.898038387298584, 'learning_rate': 2.9397672826830943e-06, 'epoch': 4.27}
+{'eval_loss': 1.8497682809829712, 'eval_runtime': 11.5794, 'eval_samples_per_second': 51.816, 'eval_steps_per_second': 1.123, 'epoch': 4.27}
+{'loss': 1.0644, 'grad_norm': 2.845902681350708, 'learning_rate': 2.936344969199179e-06, 'epoch': 4.27}
+{'loss': 1.0991, 'grad_norm': 2.9113926887512207, 'learning_rate': 2.932922655715264e-06, 'epoch': 4.28}
+{'loss': 1.1211, 'grad_norm': 2.988698959350586, 'learning_rate': 2.9295003422313482e-06, 'epoch': 4.28}
+{'loss': 1.1065, 'grad_norm': 2.957017421722412, 'learning_rate': 2.9260780287474335e-06, 'epoch': 4.28}
+{'loss': 1.1135, 'grad_norm': 3.0052194595336914, 'learning_rate': 2.9226557152635183e-06, 'epoch': 4.28}
+{'loss': 1.0888, 'grad_norm': 2.8499367237091064, 'learning_rate': 2.919233401779603e-06, 'epoch': 4.28}
+{'loss': 1.0485, 'grad_norm': 2.7605721950531006, 'learning_rate': 2.915811088295688e-06, 'epoch': 4.29}
+{'loss': 1.1013, 'grad_norm': 3.085683822631836, 'learning_rate': 2.912388774811773e-06, 'epoch': 4.29}
+{'loss': 1.0978, 'grad_norm': 2.891143798828125, 'learning_rate': 2.908966461327858e-06, 'epoch': 4.29}
+{'loss': 1.1071, 'grad_norm': 2.9052047729492188, 'learning_rate': 2.9055441478439427e-06, 'epoch': 4.29}
+{'eval_loss': 1.8556901216506958, 'eval_runtime': 11.5824, 'eval_samples_per_second': 51.803, 'eval_steps_per_second': 1.122, 'epoch': 4.29}
+{'loss': 1.0764, 'grad_norm': 2.885739803314209, 'learning_rate': 2.902121834360028e-06, 'epoch': 4.29}
+{'loss': 1.0697, 'grad_norm': 2.8746042251586914, 'learning_rate': 2.8986995208761127e-06, 'epoch': 4.3}
+{'loss': 1.1316, 'grad_norm': 2.931051731109619, 'learning_rate': 2.8952772073921975e-06, 'epoch': 4.3}
+{'loss': 1.1112, 'grad_norm': 2.848998785018921, 'learning_rate': 2.8918548939082823e-06, 'epoch': 4.3}
+{'loss': 1.1139, 'grad_norm': 3.0669331550598145, 'learning_rate': 2.8884325804243675e-06, 'epoch': 4.3}
+{'loss': 1.0946, 'grad_norm': 2.834839105606079, 'learning_rate': 2.885010266940452e-06, 'epoch': 4.3}
+{'loss': 1.1082, 'grad_norm': 2.946942090988159, 'learning_rate': 2.8815879534565367e-06, 'epoch': 4.31}
+{'loss': 1.1008, 'grad_norm': 2.912522554397583, 'learning_rate': 2.8781656399726215e-06, 'epoch': 4.31}
+{'loss': 1.0769, 'grad_norm': 2.9702274799346924, 'learning_rate': 2.8747433264887063e-06, 'epoch': 4.31}
+{'loss': 1.1109, 'grad_norm': 2.9655508995056152, 'learning_rate': 2.8713210130047915e-06, 'epoch': 4.31}
+{'eval_loss': 1.8581081628799438, 'eval_runtime': 11.6009, 'eval_samples_per_second': 51.72, 'eval_steps_per_second': 1.121, 'epoch': 4.31}
+{'loss': 1.1034, 'grad_norm': 3.02359938621521, 'learning_rate': 2.8678986995208763e-06, 'epoch': 4.31}
+{'loss': 1.0774, 'grad_norm': 2.910618305206299, 'learning_rate': 2.864476386036961e-06, 'epoch': 4.32}
+{'loss': 1.0909, 'grad_norm': 2.951704978942871, 'learning_rate': 2.8610540725530463e-06, 'epoch': 4.32}
+{'loss': 1.078, 'grad_norm': 2.8542871475219727, 'learning_rate': 2.857631759069131e-06, 'epoch': 4.32}
+{'loss': 1.0908, 'grad_norm': 2.9336347579956055, 'learning_rate': 2.854209445585216e-06, 'epoch': 4.32}
+{'loss': 1.107, 'grad_norm': 2.8119964599609375, 'learning_rate': 2.8507871321013007e-06, 'epoch': 4.32}
+{'loss': 1.0902, 'grad_norm': 2.806643486022949, 'learning_rate': 2.847364818617386e-06, 'epoch': 4.33}
+{'loss': 1.1003, 'grad_norm': 2.8927342891693115, 'learning_rate': 2.8439425051334707e-06, 'epoch': 4.33}
+{'loss': 1.0908, 'grad_norm': 2.8519959449768066, 'learning_rate': 2.840520191649555e-06, 'epoch': 4.33}
+{'loss': 1.0832, 'grad_norm': 2.903055429458618, 'learning_rate': 2.83709787816564e-06, 'epoch': 4.33}
+{'eval_loss': 1.8585034608840942, 'eval_runtime': 11.4827, 'eval_samples_per_second': 52.252, 'eval_steps_per_second': 1.132, 'epoch': 4.33}
+{'loss': 1.0842, 'grad_norm': 2.965407609939575, 'learning_rate': 2.833675564681725e-06, 'epoch': 4.33}
+{'loss': 1.1019, 'grad_norm': 2.9564385414123535, 'learning_rate': 2.83025325119781e-06, 'epoch': 4.34}
+{'loss': 1.0858, 'grad_norm': 2.907503843307495, 'learning_rate': 2.8268309377138947e-06, 'epoch': 4.34}
+{'loss': 1.0848, 'grad_norm': 2.915234088897705, 'learning_rate': 2.8234086242299795e-06, 'epoch': 4.34}
+{'loss': 1.0974, 'grad_norm': 2.973525285720825, 'learning_rate': 2.8199863107460647e-06, 'epoch': 4.34}
+{'loss': 1.1175, 'grad_norm': 2.9043009281158447, 'learning_rate': 2.8165639972621495e-06, 'epoch': 4.34}
+{'loss': 1.1133, 'grad_norm': 2.948507308959961, 'learning_rate': 2.8131416837782343e-06, 'epoch': 4.35}
+{'loss': 1.0794, 'grad_norm': 2.8314902782440186, 'learning_rate': 2.809719370294319e-06, 'epoch': 4.35}
+{'loss': 1.1088, 'grad_norm': 2.9081523418426514, 'learning_rate': 2.8062970568104043e-06, 'epoch': 4.35}
+{'loss': 1.0734, 'grad_norm': 2.822028160095215, 'learning_rate': 2.802874743326489e-06, 'epoch': 4.35}
+{'eval_loss': 1.8487378358840942, 'eval_runtime': 11.5108, 'eval_samples_per_second': 52.125, 'eval_steps_per_second': 1.129, 'epoch': 4.35}
+{'loss': 1.0803, 'grad_norm': 2.8101844787597656, 'learning_rate': 2.799452429842574e-06, 'epoch': 4.36}
+{'loss': 1.1137, 'grad_norm': 2.939056158065796, 'learning_rate': 2.796030116358659e-06, 'epoch': 4.36}
+{'loss': 1.1179, 'grad_norm': 2.979895830154419, 'learning_rate': 2.7926078028747435e-06, 'epoch': 4.36}
+{'loss': 1.1362, 'grad_norm': 3.0171470642089844, 'learning_rate': 2.7891854893908283e-06, 'epoch': 4.36}
+{'loss': 1.1312, 'grad_norm': 2.976158857345581, 'learning_rate': 2.785763175906913e-06, 'epoch': 4.36}
+{'loss': 1.077, 'grad_norm': 2.79692006111145, 'learning_rate': 2.782340862422998e-06, 'epoch': 4.37}
+{'loss': 1.0729, 'grad_norm': 2.8337409496307373, 'learning_rate': 2.778918548939083e-06, 'epoch': 4.37}
+{'loss': 1.1024, 'grad_norm': 2.8323538303375244, 'learning_rate': 2.775496235455168e-06, 'epoch': 4.37}
+{'loss': 1.0919, 'grad_norm': 2.836120367050171, 'learning_rate': 2.7720739219712527e-06, 'epoch': 4.37}
+{'loss': 1.1014, 'grad_norm': 2.803539991378784, 'learning_rate': 2.7686516084873375e-06, 'epoch': 4.37}
+{'eval_loss': 1.848118543624878, 'eval_runtime': 11.547, 'eval_samples_per_second': 51.961, 'eval_steps_per_second': 1.126, 'epoch': 4.37}
+{'loss': 1.0972, 'grad_norm': 2.8641836643218994, 'learning_rate': 2.7652292950034227e-06, 'epoch': 4.38}
+{'loss': 1.1011, 'grad_norm': 2.9099206924438477, 'learning_rate': 2.7618069815195075e-06, 'epoch': 4.38}
+{'loss': 1.0673, 'grad_norm': 2.8095526695251465, 'learning_rate': 2.7583846680355923e-06, 'epoch': 4.38}
+{'loss': 1.1035, 'grad_norm': 2.986558437347412, 'learning_rate': 2.7549623545516775e-06, 'epoch': 4.38}
+{'loss': 1.0725, 'grad_norm': 2.8742048740386963, 'learning_rate': 2.7515400410677623e-06, 'epoch': 4.38}
+{'loss': 1.0933, 'grad_norm': 2.9414167404174805, 'learning_rate': 2.7481177275838467e-06, 'epoch': 4.39}
+{'loss': 1.0737, 'grad_norm': 2.9654886722564697, 'learning_rate': 2.7446954140999315e-06, 'epoch': 4.39}
+{'loss': 1.11, 'grad_norm': 2.9459688663482666, 'learning_rate': 2.7412731006160163e-06, 'epoch': 4.39}
+{'loss': 1.1086, 'grad_norm': 2.8508875370025635, 'learning_rate': 2.7378507871321015e-06, 'epoch': 4.39}
+{'loss': 1.0828, 'grad_norm': 3.004978895187378, 'learning_rate': 2.7344284736481863e-06, 'epoch': 4.39}
+{'eval_loss': 1.8493093252182007, 'eval_runtime': 11.5654, 'eval_samples_per_second': 51.879, 'eval_steps_per_second': 1.124, 'epoch': 4.39}
+{'loss': 1.0901, 'grad_norm': 2.8186540603637695, 'learning_rate': 2.731006160164271e-06, 'epoch': 4.4}
+{'loss': 1.0964, 'grad_norm': 2.890864610671997, 'learning_rate': 2.7275838466803563e-06, 'epoch': 4.4}
+{'loss': 1.1072, 'grad_norm': 2.955005168914795, 'learning_rate': 2.724161533196441e-06, 'epoch': 4.4}
+{'loss': 1.1228, 'grad_norm': 2.9702038764953613, 'learning_rate': 2.720739219712526e-06, 'epoch': 4.4}
+{'loss': 1.0877, 'grad_norm': 2.9859848022460938, 'learning_rate': 2.7173169062286107e-06, 'epoch': 4.4}
+{'loss': 1.1048, 'grad_norm': 2.9185805320739746, 'learning_rate': 2.713894592744696e-06, 'epoch': 4.41}
+{'loss': 1.0852, 'grad_norm': 2.889024496078491, 'learning_rate': 2.7104722792607808e-06, 'epoch': 4.41}
+{'loss': 1.0932, 'grad_norm': 2.936357021331787, 'learning_rate': 2.7070499657768655e-06, 'epoch': 4.41}
+{'loss': 1.1305, 'grad_norm': 3.0999233722686768, 'learning_rate': 2.70362765229295e-06, 'epoch': 4.41}
+{'loss': 1.0933, 'grad_norm': 2.9261741638183594, 'learning_rate': 2.7002053388090347e-06, 'epoch': 4.41}
+{'eval_loss': 1.8489590883255005, 'eval_runtime': 11.5867, 'eval_samples_per_second': 51.784, 'eval_steps_per_second': 1.122, 'epoch': 4.41}
+{'loss': 1.1036, 'grad_norm': 2.9005885124206543, 'learning_rate': 2.69678302532512e-06, 'epoch': 4.42}
+{'loss': 1.0995, 'grad_norm': 2.9168009757995605, 'learning_rate': 2.6933607118412047e-06, 'epoch': 4.42}
+{'loss': 1.0902, 'grad_norm': 2.8953285217285156, 'learning_rate': 2.6899383983572895e-06, 'epoch': 4.42}
+{'loss': 1.0928, 'grad_norm': 3.0219614505767822, 'learning_rate': 2.6865160848733748e-06, 'epoch': 4.42}
+{'loss': 1.0885, 'grad_norm': 2.977572441101074, 'learning_rate': 2.6830937713894595e-06, 'epoch': 4.43}
+{'loss': 1.0557, 'grad_norm': 2.809844493865967, 'learning_rate': 2.6796714579055443e-06, 'epoch': 4.43}
+{'loss': 1.1006, 'grad_norm': 2.891718864440918, 'learning_rate': 2.676249144421629e-06, 'epoch': 4.43}
+{'loss': 1.0997, 'grad_norm': 2.927060604095459, 'learning_rate': 2.6728268309377144e-06, 'epoch': 4.43}
+{'loss': 1.0825, 'grad_norm': 2.928586721420288, 'learning_rate': 2.669404517453799e-06, 'epoch': 4.43}
+{'loss': 1.0701, 'grad_norm': 2.82450270652771, 'learning_rate': 2.665982203969884e-06, 'epoch': 4.44}
+{'eval_loss': 1.852474331855774, 'eval_runtime': 11.5886, 'eval_samples_per_second': 51.775, 'eval_steps_per_second': 1.122, 'epoch': 4.44}
+{'loss': 1.0583, 'grad_norm': 2.800119161605835, 'learning_rate': 2.662559890485969e-06, 'epoch': 4.44}
+{'loss': 1.1067, 'grad_norm': 2.841054677963257, 'learning_rate': 2.659137577002054e-06, 'epoch': 4.44}
+{'loss': 1.0941, 'grad_norm': 2.922882556915283, 'learning_rate': 2.6557152635181383e-06, 'epoch': 4.44}
+{'loss': 1.1223, 'grad_norm': 2.9845170974731445, 'learning_rate': 2.652292950034223e-06, 'epoch': 4.44}
+{'loss': 1.0994, 'grad_norm': 2.925461530685425, 'learning_rate': 2.648870636550308e-06, 'epoch': 4.45}
+{'loss': 1.0592, 'grad_norm': 2.821084499359131, 'learning_rate': 2.645448323066393e-06, 'epoch': 4.45}
+{'loss': 1.0775, 'grad_norm': 2.7714767456054688, 'learning_rate': 2.642026009582478e-06, 'epoch': 4.45}
+{'loss': 1.0859, 'grad_norm': 2.945215940475464, 'learning_rate': 2.6386036960985628e-06, 'epoch': 4.45}
+{'loss': 1.0904, 'grad_norm': 2.8705527782440186, 'learning_rate': 2.6351813826146476e-06, 'epoch': 4.45}
+{'loss': 1.1175, 'grad_norm': 2.9920716285705566, 'learning_rate': 2.6317590691307328e-06, 'epoch': 4.46}
+{'eval_loss': 1.8498238325119019, 'eval_runtime': 11.5763, 'eval_samples_per_second': 51.83, 'eval_steps_per_second': 1.123, 'epoch': 4.46}
+{'loss': 1.0945, 'grad_norm': 2.895599365234375, 'learning_rate': 2.6283367556468176e-06, 'epoch': 4.46}
+{'loss': 1.1002, 'grad_norm': 3.0077500343322754, 'learning_rate': 2.6249144421629024e-06, 'epoch': 4.46}
+{'loss': 1.0635, 'grad_norm': 2.8892972469329834, 'learning_rate': 2.6214921286789876e-06, 'epoch': 4.46}
+{'loss': 1.0693, 'grad_norm': 2.9259486198425293, 'learning_rate': 2.6180698151950724e-06, 'epoch': 4.46}
+{'loss': 1.0938, 'grad_norm': 2.976111650466919, 'learning_rate': 2.614647501711157e-06, 'epoch': 4.47}
+{'loss': 1.0814, 'grad_norm': 2.8975749015808105, 'learning_rate': 2.6112251882272416e-06, 'epoch': 4.47}
+{'loss': 1.1087, 'grad_norm': 2.903076648712158, 'learning_rate': 2.6078028747433264e-06, 'epoch': 4.47}
+{'loss': 1.082, 'grad_norm': 2.944535732269287, 'learning_rate': 2.6043805612594116e-06, 'epoch': 4.47}
+{'loss': 1.0982, 'grad_norm': 2.913341522216797, 'learning_rate': 2.6009582477754964e-06, 'epoch': 4.47}
+{'loss': 1.0717, 'grad_norm': 2.881943702697754, 'learning_rate': 2.597535934291581e-06, 'epoch': 4.48}
+{'eval_loss': 1.8506702184677124, 'eval_runtime': 11.5882, 'eval_samples_per_second': 51.777, 'eval_steps_per_second': 1.122, 'epoch': 4.48}
+{'loss': 1.0799, 'grad_norm': 2.850198268890381, 'learning_rate': 2.594113620807666e-06, 'epoch': 4.48}
+{'loss': 1.0838, 'grad_norm': 2.981949806213379, 'learning_rate': 2.590691307323751e-06, 'epoch': 4.48}
+{'loss': 1.096, 'grad_norm': 2.87345814704895, 'learning_rate': 2.587268993839836e-06, 'epoch': 4.48}
+{'loss': 1.1171, 'grad_norm': 2.88401198387146, 'learning_rate': 2.5838466803559208e-06, 'epoch': 4.48}
+{'loss': 1.0948, 'grad_norm': 2.9375357627868652, 'learning_rate': 2.580424366872006e-06, 'epoch': 4.49}
+{'loss': 1.0814, 'grad_norm': 2.9916183948516846, 'learning_rate': 2.577002053388091e-06, 'epoch': 4.49}
+{'loss': 1.1222, 'grad_norm': 2.9643521308898926, 'learning_rate': 2.5735797399041756e-06, 'epoch': 4.49}
+{'loss': 1.1054, 'grad_norm': 2.969970703125, 'learning_rate': 2.5701574264202604e-06, 'epoch': 4.49}
+{'loss': 1.0937, 'grad_norm': 2.864590644836426, 'learning_rate': 2.5667351129363448e-06, 'epoch': 4.49}
+{'loss': 1.0828, 'grad_norm': 2.7878122329711914, 'learning_rate': 2.56331279945243e-06, 'epoch': 4.5}
+{'eval_loss': 1.8462026119232178, 'eval_runtime': 11.57, 'eval_samples_per_second': 51.858, 'eval_steps_per_second': 1.124, 'epoch': 4.5}
+{'loss': 1.0882, 'grad_norm': 3.087644100189209, 'learning_rate': 2.5598904859685148e-06, 'epoch': 4.5}
+{'loss': 1.0815, 'grad_norm': 2.8728394508361816, 'learning_rate': 2.5564681724845996e-06, 'epoch': 4.5}
+{'loss': 1.0824, 'grad_norm': 2.9468467235565186, 'learning_rate': 2.5530458590006844e-06, 'epoch': 4.5}
+{'loss': 1.1136, 'grad_norm': 2.9173965454101562, 'learning_rate': 2.5496235455167696e-06, 'epoch': 4.51}
+{'loss': 1.1104, 'grad_norm': 2.828730344772339, 'learning_rate': 2.5462012320328544e-06, 'epoch': 4.51}
+{'loss': 1.094, 'grad_norm': 2.8532874584198, 'learning_rate': 2.542778918548939e-06, 'epoch': 4.51}
+{'loss': 1.0798, 'grad_norm': 2.8498973846435547, 'learning_rate': 2.5393566050650244e-06, 'epoch': 4.51}
+{'loss': 1.0729, 'grad_norm': 2.881193161010742, 'learning_rate': 2.535934291581109e-06, 'epoch': 4.51}
+{'loss': 1.0521, 'grad_norm': 2.886125087738037, 'learning_rate': 2.532511978097194e-06, 'epoch': 4.52}
+{'loss': 1.0753, 'grad_norm': 2.8754377365112305, 'learning_rate': 2.529089664613279e-06, 'epoch': 4.52}
+{'eval_loss': 1.8512187004089355, 'eval_runtime': 11.6086, 'eval_samples_per_second': 51.686, 'eval_steps_per_second': 1.12, 'epoch': 4.52}
+{'loss': 1.081, 'grad_norm': 3.0486040115356445, 'learning_rate': 2.525667351129364e-06, 'epoch': 4.52}
+{'loss': 1.0828, 'grad_norm': 2.9516568183898926, 'learning_rate': 2.5222450376454484e-06, 'epoch': 4.52}
+{'loss': 1.0957, 'grad_norm': 2.8904807567596436, 'learning_rate': 2.518822724161533e-06, 'epoch': 4.52}
+{'loss': 1.1101, 'grad_norm': 3.065589189529419, 'learning_rate': 2.515400410677618e-06, 'epoch': 4.53}
+{'loss': 1.091, 'grad_norm': 2.896608591079712, 'learning_rate': 2.511978097193703e-06, 'epoch': 4.53}
+{'loss': 1.1091, 'grad_norm': 3.0593228340148926, 'learning_rate': 2.508555783709788e-06, 'epoch': 4.53}
+{'loss': 1.0876, 'grad_norm': 2.9881248474121094, 'learning_rate': 2.505133470225873e-06, 'epoch': 4.53}
+{'loss': 1.1023, 'grad_norm': 2.9852490425109863, 'learning_rate': 2.5017111567419576e-06, 'epoch': 4.53}
+{'loss': 1.1036, 'grad_norm': 2.98284649848938, 'learning_rate': 2.498288843258043e-06, 'epoch': 4.54}
+{'loss': 1.0727, 'grad_norm': 2.971083879470825, 'learning_rate': 2.4948665297741276e-06, 'epoch': 4.54}
+{'eval_loss': 1.8524181842803955, 'eval_runtime': 11.5962, 'eval_samples_per_second': 51.741, 'eval_steps_per_second': 1.121, 'epoch': 4.54}
+{'loss': 1.0984, 'grad_norm': 2.9057424068450928, 'learning_rate': 2.4914442162902124e-06, 'epoch': 4.54}
+{'loss': 1.057, 'grad_norm': 2.842930316925049, 'learning_rate': 2.488021902806297e-06, 'epoch': 4.54}
+{'loss': 1.091, 'grad_norm': 2.9414806365966797, 'learning_rate': 2.484599589322382e-06, 'epoch': 4.54}
+{'loss': 1.0995, 'grad_norm': 2.9641454219818115, 'learning_rate': 2.481177275838467e-06, 'epoch': 4.55}
+{'loss': 1.092, 'grad_norm': 2.8599727153778076, 'learning_rate': 2.477754962354552e-06, 'epoch': 4.55}
+{'loss': 1.0837, 'grad_norm': 2.812986135482788, 'learning_rate': 2.474332648870637e-06, 'epoch': 4.55}
+{'loss': 1.1193, 'grad_norm': 2.9809792041778564, 'learning_rate': 2.4709103353867216e-06, 'epoch': 4.55}
+{'loss': 1.0791, 'grad_norm': 2.8528923988342285, 'learning_rate': 2.4674880219028064e-06, 'epoch': 4.55}
+{'loss': 1.0767, 'grad_norm': 2.823181390762329, 'learning_rate': 2.464065708418891e-06, 'epoch': 4.56}
+{'loss': 1.1133, 'grad_norm': 2.912041187286377, 'learning_rate': 2.460643394934976e-06, 'epoch': 4.56}
+{'eval_loss': 1.8530454635620117, 'eval_runtime': 11.6081, 'eval_samples_per_second': 51.688, 'eval_steps_per_second': 1.12, 'epoch': 4.56}
+{'loss': 1.1069, 'grad_norm': 2.857125997543335, 'learning_rate': 2.4572210814510612e-06, 'epoch': 4.56}
+{'loss': 1.0903, 'grad_norm': 2.8728528022766113, 'learning_rate': 2.453798767967146e-06, 'epoch': 4.56}
+{'loss': 1.0755, 'grad_norm': 2.846487283706665, 'learning_rate': 2.450376454483231e-06, 'epoch': 4.56}
+{'loss': 1.0656, 'grad_norm': 2.82537579536438, 'learning_rate': 2.446954140999316e-06, 'epoch': 4.57}
+{'loss': 1.0639, 'grad_norm': 2.861295700073242, 'learning_rate': 2.443531827515401e-06, 'epoch': 4.57}
+{'loss': 1.1071, 'grad_norm': 2.9601480960845947, 'learning_rate': 2.440109514031485e-06, 'epoch': 4.57}
+{'loss': 1.0809, 'grad_norm': 2.9104843139648438, 'learning_rate': 2.4366872005475704e-06, 'epoch': 4.57}
+{'loss': 1.0891, 'grad_norm': 2.88015079498291, 'learning_rate': 2.4332648870636552e-06, 'epoch': 4.57}
+{'loss': 1.0756, 'grad_norm': 2.8915586471557617, 'learning_rate': 2.42984257357974e-06, 'epoch': 4.58}
+{'loss': 1.1023, 'grad_norm': 3.001073122024536, 'learning_rate': 2.4264202600958252e-06, 'epoch': 4.58}
+{'eval_loss': 1.8470723628997803, 'eval_runtime': 11.5988, 'eval_samples_per_second': 51.729, 'eval_steps_per_second': 1.121, 'epoch': 4.58}
+{'loss': 1.0693, 'grad_norm': 2.8512861728668213, 'learning_rate': 2.42299794661191e-06, 'epoch': 4.58}
+{'loss': 1.1061, 'grad_norm': 2.969809055328369, 'learning_rate': 2.4195756331279944e-06, 'epoch': 4.58}
+{'loss': 1.0825, 'grad_norm': 2.878182888031006, 'learning_rate': 2.4161533196440796e-06, 'epoch': 4.59}
+{'loss': 1.09, 'grad_norm': 2.921525478363037, 'learning_rate': 2.4127310061601644e-06, 'epoch': 4.59}
+{'loss': 1.0876, 'grad_norm': 2.8312325477600098, 'learning_rate': 2.4093086926762492e-06, 'epoch': 4.59}
+{'loss': 1.09, 'grad_norm': 2.9281270503997803, 'learning_rate': 2.4058863791923344e-06, 'epoch': 4.59}
+{'loss': 1.0846, 'grad_norm': 2.917839527130127, 'learning_rate': 2.4024640657084192e-06, 'epoch': 4.59}
+{'loss': 1.0795, 'grad_norm': 2.862717866897583, 'learning_rate': 2.399041752224504e-06, 'epoch': 4.6}
+{'loss': 1.0861, 'grad_norm': 2.815091133117676, 'learning_rate': 2.395619438740589e-06, 'epoch': 4.6}
+{'loss': 1.0957, 'grad_norm': 2.9451072216033936, 'learning_rate': 2.3921971252566736e-06, 'epoch': 4.6}
+{'eval_loss': 1.8510140180587769, 'eval_runtime': 11.5931, 'eval_samples_per_second': 51.755, 'eval_steps_per_second': 1.121, 'epoch': 4.6}
+{'loss': 1.0836, 'grad_norm': 2.914048194885254, 'learning_rate': 2.3887748117727584e-06, 'epoch': 4.6}
+{'loss': 1.0923, 'grad_norm': 2.9969983100891113, 'learning_rate': 2.3853524982888437e-06, 'epoch': 4.6}
+{'loss': 1.0915, 'grad_norm': 3.063429355621338, 'learning_rate': 2.3819301848049284e-06, 'epoch': 4.61}
+{'loss': 1.1162, 'grad_norm': 3.0077335834503174, 'learning_rate': 2.3785078713210132e-06, 'epoch': 4.61}
+{'loss': 1.0936, 'grad_norm': 2.9541850090026855, 'learning_rate': 2.375085557837098e-06, 'epoch': 4.61}
+{'loss': 1.0807, 'grad_norm': 2.8709566593170166, 'learning_rate': 2.371663244353183e-06, 'epoch': 4.61}
+{'loss': 1.1025, 'grad_norm': 2.975158452987671, 'learning_rate': 2.3682409308692676e-06, 'epoch': 4.61}
+{'loss': 1.0651, 'grad_norm': 2.901603937149048, 'learning_rate': 2.364818617385353e-06, 'epoch': 4.62}
+{'loss': 1.0912, 'grad_norm': 2.8856894969940186, 'learning_rate': 2.3613963039014377e-06, 'epoch': 4.62}
+{'loss': 1.0972, 'grad_norm': 2.9452271461486816, 'learning_rate': 2.3579739904175225e-06, 'epoch': 4.62}
+{'eval_loss': 1.8489750623703003, 'eval_runtime': 11.5983, 'eval_samples_per_second': 51.732, 'eval_steps_per_second': 1.121, 'epoch': 4.62}
+{'loss': 1.0834, 'grad_norm': 2.886077880859375, 'learning_rate': 2.3545516769336072e-06, 'epoch': 4.62}
+{'loss': 1.1001, 'grad_norm': 2.8626842498779297, 'learning_rate': 2.351129363449692e-06, 'epoch': 4.62}
+{'loss': 1.1098, 'grad_norm': 2.9007861614227295, 'learning_rate': 2.347707049965777e-06, 'epoch': 4.63}
+{'loss': 1.1046, 'grad_norm': 3.043992042541504, 'learning_rate': 2.344284736481862e-06, 'epoch': 4.63}
+{'loss': 1.0818, 'grad_norm': 2.8918237686157227, 'learning_rate': 2.340862422997947e-06, 'epoch': 4.63}
+{'loss': 1.0825, 'grad_norm': 2.9147582054138184, 'learning_rate': 2.3374401095140317e-06, 'epoch': 4.63}
+{'loss': 1.0817, 'grad_norm': 2.9147582054138184, 'learning_rate': 2.3374401095140317e-06, 'epoch': 4.63}
+{'loss': 1.0734, 'grad_norm': 3.030442237854004, 'learning_rate': 2.3340177960301165e-06, 'epoch': 4.64}
+{'loss': 1.0774, 'grad_norm': 2.970226287841797, 'learning_rate': 2.3305954825462017e-06, 'epoch': 4.64}
+{'loss': 1.0945, 'grad_norm': 3.0124125480651855, 'learning_rate': 2.327173169062286e-06, 'epoch': 4.64}
+{'eval_loss': 1.8496105670928955, 'eval_runtime': 11.4595, 'eval_samples_per_second': 52.358, 'eval_steps_per_second': 1.134, 'epoch': 4.64}
+{'loss': 1.0861, 'grad_norm': 3.107024669647217, 'learning_rate': 2.3237508555783713e-06, 'epoch': 4.64}
+{'loss': 1.0999, 'grad_norm': 3.0297863483428955, 'learning_rate': 2.320328542094456e-06, 'epoch': 4.64}
+{'loss': 1.0727, 'grad_norm': 2.8939151763916016, 'learning_rate': 2.316906228610541e-06, 'epoch': 4.65}
+{'loss': 1.0719, 'grad_norm': 2.908751964569092, 'learning_rate': 2.3134839151266257e-06, 'epoch': 4.65}
+{'loss': 1.0688, 'grad_norm': 2.8192615509033203, 'learning_rate': 2.310061601642711e-06, 'epoch': 4.65}
+{'loss': 1.0875, 'grad_norm': 2.8914175033569336, 'learning_rate': 2.3066392881587953e-06, 'epoch': 4.65}
+{'loss': 1.0864, 'grad_norm': 3.009843349456787, 'learning_rate': 2.3032169746748805e-06, 'epoch': 4.66}
+{'loss': 1.0957, 'grad_norm': 2.918090581893921, 'learning_rate': 2.2997946611909653e-06, 'epoch': 4.66}
+{'loss': 1.0887, 'grad_norm': 2.9523582458496094, 'learning_rate': 2.29637234770705e-06, 'epoch': 4.66}
+{'loss': 1.1008, 'grad_norm': 2.9854094982147217, 'learning_rate': 2.292950034223135e-06, 'epoch': 4.66}
+{'eval_loss': 1.853358507156372, 'eval_runtime': 11.535, 'eval_samples_per_second': 52.016, 'eval_steps_per_second': 1.127, 'epoch': 4.66}
+{'loss': 1.1011, 'grad_norm': 2.8959293365478516, 'learning_rate': 2.28952772073922e-06, 'epoch': 4.66}
+{'loss': 1.0826, 'grad_norm': 2.9080090522766113, 'learning_rate': 2.286105407255305e-06, 'epoch': 4.67}
+{'loss': 1.0868, 'grad_norm': 2.9302525520324707, 'learning_rate': 2.2826830937713897e-06, 'epoch': 4.67}
+{'loss': 1.0704, 'grad_norm': 2.9151949882507324, 'learning_rate': 2.2792607802874745e-06, 'epoch': 4.67}
+{'loss': 1.072, 'grad_norm': 2.8250033855438232, 'learning_rate': 2.2758384668035593e-06, 'epoch': 4.67}
+{'loss': 1.1021, 'grad_norm': 2.9397008419036865, 'learning_rate': 2.272416153319644e-06, 'epoch': 4.67}
+{'loss': 1.1053, 'grad_norm': 3.0325233936309814, 'learning_rate': 2.2689938398357293e-06, 'epoch': 4.68}
+{'loss': 1.0972, 'grad_norm': 3.009014368057251, 'learning_rate': 2.265571526351814e-06, 'epoch': 4.68}
+{'loss': 1.0937, 'grad_norm': 2.963017225265503, 'learning_rate': 2.262149212867899e-06, 'epoch': 4.68}
+{'loss': 1.0983, 'grad_norm': 2.9282681941986084, 'learning_rate': 2.2587268993839837e-06, 'epoch': 4.68}
+{'eval_loss': 1.855190634727478, 'eval_runtime': 11.5657, 'eval_samples_per_second': 51.878, 'eval_steps_per_second': 1.124, 'epoch': 4.68}
+{'loss': 1.074, 'grad_norm': 2.9887335300445557, 'learning_rate': 2.2553045859000685e-06, 'epoch': 4.68}
+{'loss': 1.0434, 'grad_norm': 2.766925811767578, 'learning_rate': 2.2518822724161533e-06, 'epoch': 4.69}
+{'loss': 1.1085, 'grad_norm': 3.011972427368164, 'learning_rate': 2.2484599589322385e-06, 'epoch': 4.69}
+{'loss': 1.1106, 'grad_norm': 3.0116539001464844, 'learning_rate': 2.2450376454483233e-06, 'epoch': 4.69}
+{'loss': 1.1034, 'grad_norm': 2.882019519805908, 'learning_rate': 2.241615331964408e-06, 'epoch': 4.69}
+{'loss': 1.0995, 'grad_norm': 3.00314998626709, 'learning_rate': 2.238193018480493e-06, 'epoch': 4.69}
+{'loss': 1.0896, 'grad_norm': 2.912536382675171, 'learning_rate': 2.2347707049965777e-06, 'epoch': 4.7}
+{'loss': 1.0774, 'grad_norm': 2.9172298908233643, 'learning_rate': 2.231348391512663e-06, 'epoch': 4.7}
+{'loss': 1.0762, 'grad_norm': 2.8760786056518555, 'learning_rate': 2.2279260780287477e-06, 'epoch': 4.7}
+{'loss': 1.1055, 'grad_norm': 2.878990411758423, 'learning_rate': 2.2245037645448325e-06, 'epoch': 4.7}
+{'eval_loss': 1.8547325134277344, 'eval_runtime': 11.5756, 'eval_samples_per_second': 51.833, 'eval_steps_per_second': 1.123, 'epoch': 4.7}
+{'loss': 1.0772, 'grad_norm': 2.932697057723999, 'learning_rate': 2.2210814510609173e-06, 'epoch': 4.7}
+{'loss': 1.0976, 'grad_norm': 2.9982852935791016, 'learning_rate': 2.2176591375770025e-06, 'epoch': 4.71}
+{'loss': 1.0987, 'grad_norm': 3.014967679977417, 'learning_rate': 2.214236824093087e-06, 'epoch': 4.71}
+{'loss': 1.085, 'grad_norm': 3.011277437210083, 'learning_rate': 2.210814510609172e-06, 'epoch': 4.71}
+{'loss': 1.0971, 'grad_norm': 2.90520977973938, 'learning_rate': 2.207392197125257e-06, 'epoch': 4.71}
+{'loss': 1.109, 'grad_norm': 2.951415538787842, 'learning_rate': 2.2039698836413417e-06, 'epoch': 4.71}
+{'loss': 1.089, 'grad_norm': 2.8597795963287354, 'learning_rate': 2.2005475701574265e-06, 'epoch': 4.72}
+{'loss': 1.0705, 'grad_norm': 2.915799379348755, 'learning_rate': 2.1971252566735117e-06, 'epoch': 4.72}
+{'loss': 1.0924, 'grad_norm': 2.9760704040527344, 'learning_rate': 2.1937029431895965e-06, 'epoch': 4.72}
+{'loss': 1.0812, 'grad_norm': 2.8605430126190186, 'learning_rate': 2.1902806297056813e-06, 'epoch': 4.72}
+{'eval_loss': 1.8543994426727295, 'eval_runtime': 11.5942, 'eval_samples_per_second': 51.75, 'eval_steps_per_second': 1.121, 'epoch': 4.72}
+{'loss': 1.0741, 'grad_norm': 2.835932970046997, 'learning_rate': 2.186858316221766e-06, 'epoch': 4.72}
+{'loss': 1.0925, 'grad_norm': 2.9712178707122803, 'learning_rate': 2.183436002737851e-06, 'epoch': 4.73}
+{'loss': 1.1034, 'grad_norm': 2.937716007232666, 'learning_rate': 2.1800136892539357e-06, 'epoch': 4.73}
+{'loss': 1.1021, 'grad_norm': 2.923037528991699, 'learning_rate': 2.176591375770021e-06, 'epoch': 4.73}
+{'loss': 1.0669, 'grad_norm': 2.956324577331543, 'learning_rate': 2.1731690622861057e-06, 'epoch': 4.73}
+{'loss': 1.1109, 'grad_norm': 2.934953212738037, 'learning_rate': 2.1697467488021905e-06, 'epoch': 4.74}
+{'loss': 1.0714, 'grad_norm': 2.7869324684143066, 'learning_rate': 2.1663244353182753e-06, 'epoch': 4.74}
+{'loss': 1.1113, 'grad_norm': 2.9670941829681396, 'learning_rate': 2.16290212183436e-06, 'epoch': 4.74}
+{'loss': 1.115, 'grad_norm': 3.0309412479400635, 'learning_rate': 2.159479808350445e-06, 'epoch': 4.74}
+{'loss': 1.0988, 'grad_norm': 2.965549945831299, 'learning_rate': 2.15605749486653e-06, 'epoch': 4.74}
+{'eval_loss': 1.8570636510849, 'eval_runtime': 11.5997, 'eval_samples_per_second': 51.726, 'eval_steps_per_second': 1.121, 'epoch': 4.74}
+{'loss': 1.1091, 'grad_norm': 2.971621513366699, 'learning_rate': 2.152635181382615e-06, 'epoch': 4.75}
+{'loss': 1.0925, 'grad_norm': 2.961564064025879, 'learning_rate': 2.1492128678986997e-06, 'epoch': 4.75}
+{'loss': 1.0769, 'grad_norm': 2.8722474575042725, 'learning_rate': 2.1457905544147845e-06, 'epoch': 4.75}
+{'loss': 1.1023, 'grad_norm': 3.0606865882873535, 'learning_rate': 2.1423682409308693e-06, 'epoch': 4.75}
+{'loss': 1.109, 'grad_norm': 2.9966187477111816, 'learning_rate': 2.138945927446954e-06, 'epoch': 4.75}
+{'loss': 1.1008, 'grad_norm': 2.8636724948883057, 'learning_rate': 2.1355236139630393e-06, 'epoch': 4.76}
+{'loss': 1.0737, 'grad_norm': 2.946437358856201, 'learning_rate': 2.132101300479124e-06, 'epoch': 4.76}
+{'loss': 1.0705, 'grad_norm': 2.944620370864868, 'learning_rate': 2.128678986995209e-06, 'epoch': 4.76}
+{'loss': 1.1077, 'grad_norm': 2.948564291000366, 'learning_rate': 2.125256673511294e-06, 'epoch': 4.76}
+{'loss': 1.1058, 'grad_norm': 2.8626749515533447, 'learning_rate': 2.1218343600273785e-06, 'epoch': 4.76}
+{'eval_loss': 1.8571940660476685, 'eval_runtime': 11.5871, 'eval_samples_per_second': 51.782, 'eval_steps_per_second': 1.122, 'epoch': 4.76}
+{'loss': 1.1013, 'grad_norm': 2.8858189582824707, 'learning_rate': 2.1184120465434633e-06, 'epoch': 4.77}
+{'loss': 1.0827, 'grad_norm': 2.8375914096832275, 'learning_rate': 2.1149897330595485e-06, 'epoch': 4.77}
+{'loss': 1.0775, 'grad_norm': 2.8266210556030273, 'learning_rate': 2.1115674195756333e-06, 'epoch': 4.77}
+{'loss': 1.0819, 'grad_norm': 2.7832765579223633, 'learning_rate': 2.108145106091718e-06, 'epoch': 4.77}
+{'loss': 1.0863, 'grad_norm': 2.9195475578308105, 'learning_rate': 2.1047227926078033e-06, 'epoch': 4.77}
+{'loss': 1.0942, 'grad_norm': 2.974374294281006, 'learning_rate': 2.1013004791238877e-06, 'epoch': 4.78}
+{'loss': 1.0884, 'grad_norm': 2.9018044471740723, 'learning_rate': 2.0978781656399725e-06, 'epoch': 4.78}
+{'loss': 1.1258, 'grad_norm': 3.0102720260620117, 'learning_rate': 2.0944558521560577e-06, 'epoch': 4.78}
+{'loss': 1.0889, 'grad_norm': 2.9294559955596924, 'learning_rate': 2.0910335386721425e-06, 'epoch': 4.78}
+{'loss': 1.065, 'grad_norm': 2.8672099113464355, 'learning_rate': 2.0876112251882273e-06, 'epoch': 4.78}
+{'eval_loss': 1.8611092567443848, 'eval_runtime': 11.5971, 'eval_samples_per_second': 51.737, 'eval_steps_per_second': 1.121, 'epoch': 4.78}
+{'loss': 1.0858, 'grad_norm': 2.8496615886688232, 'learning_rate': 2.0841889117043126e-06, 'epoch': 4.79}
+{'loss': 1.0744, 'grad_norm': 2.8788163661956787, 'learning_rate': 2.0807665982203973e-06, 'epoch': 4.79}
+{'loss': 1.1193, 'grad_norm': 3.006683588027954, 'learning_rate': 2.0773442847364817e-06, 'epoch': 4.79}
+{'loss': 1.1049, 'grad_norm': 2.974963426589966, 'learning_rate': 2.073921971252567e-06, 'epoch': 4.79}
+{'loss': 1.0892, 'grad_norm': 3.007439613342285, 'learning_rate': 2.0704996577686517e-06, 'epoch': 4.79}
+{'loss': 1.1167, 'grad_norm': 3.004934787750244, 'learning_rate': 2.0670773442847365e-06, 'epoch': 4.8}
+{'loss': 1.0783, 'grad_norm': 2.8212082386016846, 'learning_rate': 2.0636550308008218e-06, 'epoch': 4.8}
+{'loss': 1.1013, 'grad_norm': 2.887727737426758, 'learning_rate': 2.0602327173169066e-06, 'epoch': 4.8}
+{'loss': 1.0849, 'grad_norm': 2.8357019424438477, 'learning_rate': 2.056810403832991e-06, 'epoch': 4.8}
+{'loss': 1.118, 'grad_norm': 2.966381549835205, 'learning_rate': 2.053388090349076e-06, 'epoch': 4.8}
+{'eval_loss': 1.8563002347946167, 'eval_runtime': 11.6249, 'eval_samples_per_second': 51.613, 'eval_steps_per_second': 1.118, 'epoch': 4.8}
+{'loss': 1.0775, 'grad_norm': 2.9024031162261963, 'learning_rate': 2.049965776865161e-06, 'epoch': 4.81}
+{'loss': 1.08, 'grad_norm': 2.8992302417755127, 'learning_rate': 2.0465434633812457e-06, 'epoch': 4.81}
+{'loss': 1.0951, 'grad_norm': 2.988659620285034, 'learning_rate': 2.043121149897331e-06, 'epoch': 4.81}
+{'loss': 1.0774, 'grad_norm': 2.983844041824341, 'learning_rate': 2.0396988364134158e-06, 'epoch': 4.81}
+{'loss': 1.1037, 'grad_norm': 3.0180187225341797, 'learning_rate': 2.0362765229295006e-06, 'epoch': 4.82}
+{'loss': 1.1132, 'grad_norm': 3.0304067134857178, 'learning_rate': 2.0328542094455854e-06, 'epoch': 4.82}
+{'loss': 1.0876, 'grad_norm': 2.968503475189209, 'learning_rate': 2.02943189596167e-06, 'epoch': 4.82}
+{'loss': 1.1102, 'grad_norm': 3.0858306884765625, 'learning_rate': 2.026009582477755e-06, 'epoch': 4.82}
+{'loss': 1.0836, 'grad_norm': 2.976855754852295, 'learning_rate': 2.02258726899384e-06, 'epoch': 4.82}
+{'loss': 1.1028, 'grad_norm': 3.0603883266448975, 'learning_rate': 2.019164955509925e-06, 'epoch': 4.83}
+{'eval_loss': 1.8597772121429443, 'eval_runtime': 11.627, 'eval_samples_per_second': 51.604, 'eval_steps_per_second': 1.118, 'epoch': 4.83}
+{'loss': 1.0896, 'grad_norm': 2.995195150375366, 'learning_rate': 2.0157426420260098e-06, 'epoch': 4.83}
+{'loss': 1.077, 'grad_norm': 2.9351229667663574, 'learning_rate': 2.0123203285420946e-06, 'epoch': 4.83}
+{'loss': 1.083, 'grad_norm': 2.8854262828826904, 'learning_rate': 2.0088980150581794e-06, 'epoch': 4.83}
+{'loss': 1.0934, 'grad_norm': 2.959834575653076, 'learning_rate': 2.005475701574264e-06, 'epoch': 4.83}
+{'loss': 1.0854, 'grad_norm': 2.893702745437622, 'learning_rate': 2.0020533880903494e-06, 'epoch': 4.84}
+{'loss': 1.0807, 'grad_norm': 2.7860403060913086, 'learning_rate': 1.998631074606434e-06, 'epoch': 4.84}
+{'loss': 1.076, 'grad_norm': 2.8497023582458496, 'learning_rate': 1.995208761122519e-06, 'epoch': 4.84}
+{'loss': 1.1128, 'grad_norm': 2.9718992710113525, 'learning_rate': 1.9917864476386038e-06, 'epoch': 4.84}
+{'loss': 1.0919, 'grad_norm': 3.0563106536865234, 'learning_rate': 1.9883641341546886e-06, 'epoch': 4.84}
+{'loss': 1.0923, 'grad_norm': 2.9364423751831055, 'learning_rate': 1.9849418206707734e-06, 'epoch': 4.85}
+{'eval_loss': 1.859744906425476, 'eval_runtime': 11.6318, 'eval_samples_per_second': 51.583, 'eval_steps_per_second': 1.118, 'epoch': 4.85}
+{'loss': 1.0839, 'grad_norm': 3.011021852493286, 'learning_rate': 1.9815195071868586e-06, 'epoch': 4.85}
+{'loss': 1.0835, 'grad_norm': 2.916658639907837, 'learning_rate': 1.9780971937029434e-06, 'epoch': 4.85}
+{'loss': 1.0885, 'grad_norm': 2.90193510055542, 'learning_rate': 1.974674880219028e-06, 'epoch': 4.85}
+{'loss': 1.1074, 'grad_norm': 3.0077924728393555, 'learning_rate': 1.971252566735113e-06, 'epoch': 4.85}
+{'loss': 1.0667, 'grad_norm': 2.8322994709014893, 'learning_rate': 1.967830253251198e-06, 'epoch': 4.86}
+{'loss': 1.089, 'grad_norm': 2.978811025619507, 'learning_rate': 1.9644079397672826e-06, 'epoch': 4.86}
+{'loss': 1.085, 'grad_norm': 2.959170341491699, 'learning_rate': 1.9609856262833678e-06, 'epoch': 4.86}
+{'loss': 1.0933, 'grad_norm': 2.909233331680298, 'learning_rate': 1.9575633127994526e-06, 'epoch': 4.86}
+{'loss': 1.0748, 'grad_norm': 2.930699110031128, 'learning_rate': 1.9541409993155374e-06, 'epoch': 4.86}
+{'loss': 1.0979, 'grad_norm': 2.9323606491088867, 'learning_rate': 1.9507186858316226e-06, 'epoch': 4.87}
+{'eval_loss': 1.8618167638778687, 'eval_runtime': 11.6252, 'eval_samples_per_second': 51.612, 'eval_steps_per_second': 1.118, 'epoch': 4.87}
+{'loss': 1.0887, 'grad_norm': 2.9959943294525146, 'learning_rate': 1.9472963723477074e-06, 'epoch': 4.87}
+{'loss': 1.1105, 'grad_norm': 3.0714328289031982, 'learning_rate': 1.943874058863792e-06, 'epoch': 4.87}
+{'loss': 1.1018, 'grad_norm': 3.009833812713623, 'learning_rate': 1.940451745379877e-06, 'epoch': 4.87}
+{'loss': 1.1028, 'grad_norm': 3.0060348510742188, 'learning_rate': 1.9370294318959618e-06, 'epoch': 4.87}
+{'loss': 1.0855, 'grad_norm': 2.909766674041748, 'learning_rate': 1.9336071184120466e-06, 'epoch': 4.88}
+{'loss': 1.1025, 'grad_norm': 2.99090313911438, 'learning_rate': 1.930184804928132e-06, 'epoch': 4.88}
+{'loss': 1.0845, 'grad_norm': 3.0326521396636963, 'learning_rate': 1.9267624914442166e-06, 'epoch': 4.88}
+{'loss': 1.0886, 'grad_norm': 2.9146878719329834, 'learning_rate': 1.9233401779603014e-06, 'epoch': 4.88}
+{'loss': 1.0692, 'grad_norm': 2.884610414505005, 'learning_rate': 1.919917864476386e-06, 'epoch': 4.89}
+{'loss': 1.0969, 'grad_norm': 2.9200873374938965, 'learning_rate': 1.916495550992471e-06, 'epoch': 4.89}
+{'eval_loss': 1.8594982624053955, 'eval_runtime': 11.6389, 'eval_samples_per_second': 51.551, 'eval_steps_per_second': 1.117, 'epoch': 4.89}
+{'loss': 1.1131, 'grad_norm': 2.9382379055023193, 'learning_rate': 1.9130732375085558e-06, 'epoch': 4.89}
+{'loss': 1.0712, 'grad_norm': 2.840304374694824, 'learning_rate': 1.909650924024641e-06, 'epoch': 4.89}
+{'loss': 1.0722, 'grad_norm': 2.9194798469543457, 'learning_rate': 1.9062286105407258e-06, 'epoch': 4.89}
+{'loss': 1.0854, 'grad_norm': 2.8744115829467773, 'learning_rate': 1.9028062970568106e-06, 'epoch': 4.9}
+{'loss': 1.0819, 'grad_norm': 2.956583023071289, 'learning_rate': 1.8993839835728956e-06, 'epoch': 4.9}
+{'loss': 1.092, 'grad_norm': 2.9824576377868652, 'learning_rate': 1.8959616700889802e-06, 'epoch': 4.9}
+{'loss': 1.091, 'grad_norm': 2.8051016330718994, 'learning_rate': 1.8925393566050652e-06, 'epoch': 4.9}
+{'loss': 1.0999, 'grad_norm': 3.012643337249756, 'learning_rate': 1.88911704312115e-06, 'epoch': 4.9}
+{'loss': 1.0891, 'grad_norm': 2.9947197437286377, 'learning_rate': 1.885694729637235e-06, 'epoch': 4.91}
+{'loss': 1.0894, 'grad_norm': 2.98582124710083, 'learning_rate': 1.8822724161533198e-06, 'epoch': 4.91}
+{'eval_loss': 1.8616725206375122, 'eval_runtime': 11.6601, 'eval_samples_per_second': 51.458, 'eval_steps_per_second': 1.115, 'epoch': 4.91}
+{'loss': 1.1123, 'grad_norm': 2.935764789581299, 'learning_rate': 1.8788501026694048e-06, 'epoch': 4.91}
+{'loss': 1.0775, 'grad_norm': 2.8721892833709717, 'learning_rate': 1.8754277891854896e-06, 'epoch': 4.91}
+{'loss': 1.1115, 'grad_norm': 2.9730300903320312, 'learning_rate': 1.8720054757015744e-06, 'epoch': 4.91}
+{'loss': 1.0942, 'grad_norm': 2.8785765171051025, 'learning_rate': 1.8685831622176592e-06, 'epoch': 4.92}
+{'loss': 1.0624, 'grad_norm': 2.8946619033813477, 'learning_rate': 1.8651608487337442e-06, 'epoch': 4.92}
+{'loss': 1.0755, 'grad_norm': 2.869680643081665, 'learning_rate': 1.861738535249829e-06, 'epoch': 4.92}
+{'loss': 1.0999, 'grad_norm': 2.9920618534088135, 'learning_rate': 1.858316221765914e-06, 'epoch': 4.92}
+{'loss': 1.0758, 'grad_norm': 2.945441961288452, 'learning_rate': 1.8548939082819988e-06, 'epoch': 4.92}
+{'loss': 1.0991, 'grad_norm': 2.9000444412231445, 'learning_rate': 1.8514715947980836e-06, 'epoch': 4.93}
+{'loss': 1.0763, 'grad_norm': 2.9698374271392822, 'learning_rate': 1.8480492813141684e-06, 'epoch': 4.93}
+{'eval_loss': 1.8683756589889526, 'eval_runtime': 11.6554, 'eval_samples_per_second': 51.478, 'eval_steps_per_second': 1.115, 'epoch': 4.93}
+{'loss': 1.0839, 'grad_norm': 2.878732442855835, 'learning_rate': 1.8446269678302534e-06, 'epoch': 4.93}
+{'loss': 1.1, 'grad_norm': 3.081516742706299, 'learning_rate': 1.8412046543463382e-06, 'epoch': 4.93}
+{'loss': 1.1125, 'grad_norm': 3.00179386138916, 'learning_rate': 1.8377823408624232e-06, 'epoch': 4.93}
+{'loss': 1.0685, 'grad_norm': 2.9524240493774414, 'learning_rate': 1.834360027378508e-06, 'epoch': 4.94}
+{'loss': 1.0902, 'grad_norm': 2.981990098953247, 'learning_rate': 1.830937713894593e-06, 'epoch': 4.94}
+{'loss': 1.1031, 'grad_norm': 2.898015022277832, 'learning_rate': 1.8275154004106776e-06, 'epoch': 4.94}
+{'loss': 1.0684, 'grad_norm': 2.829488515853882, 'learning_rate': 1.8240930869267626e-06, 'epoch': 4.94}
+{'loss': 1.085, 'grad_norm': 2.885401725769043, 'learning_rate': 1.8206707734428474e-06, 'epoch': 4.94}
+{'loss': 1.0966, 'grad_norm': 2.950101137161255, 'learning_rate': 1.8172484599589324e-06, 'epoch': 4.95}
+{'loss': 1.0932, 'grad_norm': 2.817861795425415, 'learning_rate': 1.8138261464750172e-06, 'epoch': 4.95}
+{'eval_loss': 1.8669706583023071, 'eval_runtime': 11.4931, 'eval_samples_per_second': 52.205, 'eval_steps_per_second': 1.131, 'epoch': 4.95}
+{'loss': 1.034, 'grad_norm': 2.7906925678253174, 'learning_rate': 1.8104038329911022e-06, 'epoch': 4.95}
+{'loss': 1.0909, 'grad_norm': 3.097322463989258, 'learning_rate': 1.8069815195071872e-06, 'epoch': 4.95}
+{'loss': 1.0755, 'grad_norm': 2.8546080589294434, 'learning_rate': 1.8035592060232718e-06, 'epoch': 4.95}
+{'loss': 1.0874, 'grad_norm': 2.974838972091675, 'learning_rate': 1.8001368925393566e-06, 'epoch': 4.96}
+{'loss': 1.0853, 'grad_norm': 3.0220115184783936, 'learning_rate': 1.7967145790554416e-06, 'epoch': 4.96}
+{'loss': 1.1064, 'grad_norm': 2.958852529525757, 'learning_rate': 1.7932922655715264e-06, 'epoch': 4.96}
+{'loss': 1.0986, 'grad_norm': 3.000924825668335, 'learning_rate': 1.7898699520876114e-06, 'epoch': 4.96}
+{'loss': 1.0836, 'grad_norm': 3.029608964920044, 'learning_rate': 1.7864476386036964e-06, 'epoch': 4.97}
+{'loss': 1.0759, 'grad_norm': 2.889153242111206, 'learning_rate': 1.783025325119781e-06, 'epoch': 4.97}
+{'loss': 1.097, 'grad_norm': 2.942570209503174, 'learning_rate': 1.7796030116358658e-06, 'epoch': 4.97}
+{'eval_loss': 1.861890435218811, 'eval_runtime': 11.5839, 'eval_samples_per_second': 51.796, 'eval_steps_per_second': 1.122, 'epoch': 4.97}
+{'loss': 1.1023, 'grad_norm': 2.9743118286132812, 'learning_rate': 1.7761806981519508e-06, 'epoch': 4.97}
+{'loss': 1.1296, 'grad_norm': 3.115922689437866, 'learning_rate': 1.7727583846680358e-06, 'epoch': 4.97}
+{'loss': 1.0876, 'grad_norm': 2.8965249061584473, 'learning_rate': 1.7693360711841206e-06, 'epoch': 4.98}
+{'loss': 1.0727, 'grad_norm': 2.834190845489502, 'learning_rate': 1.7659137577002056e-06, 'epoch': 4.98}
+{'loss': 1.0864, 'grad_norm': 2.864048480987549, 'learning_rate': 1.7624914442162904e-06, 'epoch': 4.98}
+{'loss': 1.094, 'grad_norm': 2.923419952392578, 'learning_rate': 1.759069130732375e-06, 'epoch': 4.98}
+{'loss': 1.1004, 'grad_norm': 2.999340295791626, 'learning_rate': 1.75564681724846e-06, 'epoch': 4.98}
+{'loss': 1.1034, 'grad_norm': 3.036224842071533, 'learning_rate': 1.752224503764545e-06, 'epoch': 4.99}
+{'loss': 1.1084, 'grad_norm': 3.0457375049591064, 'learning_rate': 1.7488021902806298e-06, 'epoch': 4.99}
+{'loss': 1.1015, 'grad_norm': 3.0773088932037354, 'learning_rate': 1.7453798767967149e-06, 'epoch': 4.99}
+{'eval_loss': 1.8589279651641846, 'eval_runtime': 11.6159, 'eval_samples_per_second': 51.653, 'eval_steps_per_second': 1.119, 'epoch': 4.99}
+{'loss': 1.0954, 'grad_norm': 2.973111152648926, 'learning_rate': 1.7419575633127996e-06, 'epoch': 4.99}
+{'loss': 1.1121, 'grad_norm': 2.922214984893799, 'learning_rate': 1.7385352498288842e-06, 'epoch': 4.99}
+{'loss': 1.0674, 'grad_norm': 2.8895087242126465, 'learning_rate': 1.7351129363449692e-06, 'epoch': 5.0}
+{'loss': 1.0924, 'grad_norm': 2.9402925968170166, 'learning_rate': 1.7316906228610543e-06, 'epoch': 5.0}
+{'loss': 1.0357, 'grad_norm': 2.840085744857788, 'learning_rate': 1.728268309377139e-06, 'epoch': 5.0}
+{'loss': 0.9942, 'grad_norm': 3.99350643157959, 'learning_rate': 1.724845995893224e-06, 'epoch': 5.0}
+{'loss': 0.99, 'grad_norm': 3.48854398727417, 'learning_rate': 1.7214236824093089e-06, 'epoch': 5.0}
+{'loss': 1.0065, 'grad_norm': 3.2104549407958984, 'learning_rate': 1.7180013689253939e-06, 'epoch': 5.01}
+{'loss': 0.9934, 'grad_norm': 3.2489359378814697, 'learning_rate': 1.7145790554414784e-06, 'epoch': 5.01}
+{'loss': 0.9901, 'grad_norm': 3.465052604675293, 'learning_rate': 1.7111567419575635e-06, 'epoch': 5.01}
+{'eval_loss': 1.9187349081039429, 'eval_runtime': 11.6234, 'eval_samples_per_second': 51.62, 'eval_steps_per_second': 1.118, 'epoch': 5.01}
+{'loss': 0.9753, 'grad_norm': 4.1922197341918945, 'learning_rate': 1.7077344284736483e-06, 'epoch': 5.01}
+{'loss': 0.9928, 'grad_norm': 4.128570079803467, 'learning_rate': 1.7043121149897333e-06, 'epoch': 5.01}
+{'loss': 0.9832, 'grad_norm': 3.8264615535736084, 'learning_rate': 1.700889801505818e-06, 'epoch': 5.02}
+{'loss': 0.9655, 'grad_norm': 3.494753360748291, 'learning_rate': 1.697467488021903e-06, 'epoch': 5.02}
+{'loss': 0.9662, 'grad_norm': 3.2373836040496826, 'learning_rate': 1.6940451745379879e-06, 'epoch': 5.02}
+{'loss': 0.9839, 'grad_norm': 3.4390785694122314, 'learning_rate': 1.6906228610540727e-06, 'epoch': 5.02}
+{'loss': 0.9803, 'grad_norm': 3.320474147796631, 'learning_rate': 1.6872005475701575e-06, 'epoch': 5.02}
+{'loss': 0.9995, 'grad_norm': 3.4076430797576904, 'learning_rate': 1.6837782340862425e-06, 'epoch': 5.03}
+{'loss': 0.9889, 'grad_norm': 3.2839763164520264, 'learning_rate': 1.6803559206023273e-06, 'epoch': 5.03}
+{'loss': 0.988, 'grad_norm': 3.2378463745117188, 'learning_rate': 1.6769336071184123e-06, 'epoch': 5.03}
+{'eval_loss': 1.9082598686218262, 'eval_runtime': 11.6336, 'eval_samples_per_second': 51.575, 'eval_steps_per_second': 1.117, 'epoch': 5.03}
+{'loss': 0.9614, 'grad_norm': 3.2331573963165283, 'learning_rate': 1.673511293634497e-06, 'epoch': 5.03}
+{'loss': 0.9731, 'grad_norm': 3.3800079822540283, 'learning_rate': 1.6700889801505819e-06, 'epoch': 5.03}
+{'loss': 0.9725, 'grad_norm': 3.4326415061950684, 'learning_rate': 1.6666666666666667e-06, 'epoch': 5.04}
+{'loss': 1.0023, 'grad_norm': 3.5270164012908936, 'learning_rate': 1.6632443531827517e-06, 'epoch': 5.04}
+{'loss': 0.9651, 'grad_norm': 3.158966064453125, 'learning_rate': 1.6598220396988365e-06, 'epoch': 5.04}
+{'loss': 0.9952, 'grad_norm': 3.332967519760132, 'learning_rate': 1.6563997262149215e-06, 'epoch': 5.04}
+{'loss': 0.9683, 'grad_norm': 3.238449811935425, 'learning_rate': 1.6529774127310063e-06, 'epoch': 5.05}
+{'loss': 0.9942, 'grad_norm': 3.3325705528259277, 'learning_rate': 1.6495550992470913e-06, 'epoch': 5.05}
+{'loss': 0.9928, 'grad_norm': 3.5119144916534424, 'learning_rate': 1.6461327857631759e-06, 'epoch': 5.05}
+{'loss': 0.9882, 'grad_norm': 3.2482974529266357, 'learning_rate': 1.6427104722792609e-06, 'epoch': 5.05}
+{'eval_loss': 1.9097342491149902, 'eval_runtime': 11.6161, 'eval_samples_per_second': 51.652, 'eval_steps_per_second': 1.119, 'epoch': 5.05}
+{'loss': 0.971, 'grad_norm': 3.2411651611328125, 'learning_rate': 1.6392881587953457e-06, 'epoch': 5.05}
+{'loss': 0.9843, 'grad_norm': 3.3056678771972656, 'learning_rate': 1.6358658453114307e-06, 'epoch': 5.06}
+{'loss': 1.0145, 'grad_norm': 3.425079584121704, 'learning_rate': 1.6324435318275155e-06, 'epoch': 5.06}
+{'loss': 1.0102, 'grad_norm': 3.3868870735168457, 'learning_rate': 1.6290212183436005e-06, 'epoch': 5.06}
+{'loss': 0.9946, 'grad_norm': 3.2571699619293213, 'learning_rate': 1.6255989048596855e-06, 'epoch': 5.06}
+{'loss': 0.9884, 'grad_norm': 3.3433284759521484, 'learning_rate': 1.62217659137577e-06, 'epoch': 5.06}
+{'loss': 0.9564, 'grad_norm': 3.3190834522247314, 'learning_rate': 1.6187542778918549e-06, 'epoch': 5.07}
+{'loss': 1.0124, 'grad_norm': 3.4200851917266846, 'learning_rate': 1.6153319644079399e-06, 'epoch': 5.07}
+{'loss': 1.011, 'grad_norm': 3.285135507583618, 'learning_rate': 1.6119096509240249e-06, 'epoch': 5.07}
+{'loss': 0.9862, 'grad_norm': 3.288942337036133, 'learning_rate': 1.6084873374401097e-06, 'epoch': 5.07}
+{'eval_loss': 1.9108598232269287, 'eval_runtime': 11.6226, 'eval_samples_per_second': 51.624, 'eval_steps_per_second': 1.119, 'epoch': 5.07}
+{'loss': 0.9695, 'grad_norm': 3.174057722091675, 'learning_rate': 1.6050650239561947e-06, 'epoch': 5.07}
+{'loss': 0.9811, 'grad_norm': 3.2392592430114746, 'learning_rate': 1.6016427104722793e-06, 'epoch': 5.08}
+{'loss': 0.9602, 'grad_norm': 3.167361259460449, 'learning_rate': 1.598220396988364e-06, 'epoch': 5.08}
+{'loss': 0.9693, 'grad_norm': 3.2232553958892822, 'learning_rate': 1.594798083504449e-06, 'epoch': 5.08}
+{'loss': 0.9856, 'grad_norm': 3.2664635181427, 'learning_rate': 1.591375770020534e-06, 'epoch': 5.08}
+{'loss': 0.9665, 'grad_norm': 3.246797800064087, 'learning_rate': 1.587953456536619e-06, 'epoch': 5.08}
+{'loss': 0.9943, 'grad_norm': 3.383981466293335, 'learning_rate': 1.584531143052704e-06, 'epoch': 5.09}
+{'loss': 0.9835, 'grad_norm': 3.308128833770752, 'learning_rate': 1.5811088295687887e-06, 'epoch': 5.09}
+{'loss': 0.9551, 'grad_norm': 3.367647171020508, 'learning_rate': 1.5776865160848733e-06, 'epoch': 5.09}
+{'loss': 0.9832, 'grad_norm': 3.2933521270751953, 'learning_rate': 1.5742642026009583e-06, 'epoch': 5.09}
+{'eval_loss': 1.9174108505249023, 'eval_runtime': 11.6155, 'eval_samples_per_second': 51.655, 'eval_steps_per_second': 1.119, 'epoch': 5.09}
+{'loss': 0.9762, 'grad_norm': 3.3851325511932373, 'learning_rate': 1.5708418891170433e-06, 'epoch': 5.09}
+{'loss': 0.9905, 'grad_norm': 3.297323703765869, 'learning_rate': 1.567419575633128e-06, 'epoch': 5.1}
+{'loss': 1.0066, 'grad_norm': 3.3667397499084473, 'learning_rate': 1.5639972621492131e-06, 'epoch': 5.1}
+{'loss': 0.9902, 'grad_norm': 3.3321876525878906, 'learning_rate': 1.560574948665298e-06, 'epoch': 5.1}
+{'loss': 0.9591, 'grad_norm': 3.294055938720703, 'learning_rate': 1.557152635181383e-06, 'epoch': 5.1}
+{'loss': 0.9979, 'grad_norm': 3.443042755126953, 'learning_rate': 1.5537303216974675e-06, 'epoch': 5.1}
+{'loss': 1.0086, 'grad_norm': 3.406843423843384, 'learning_rate': 1.5503080082135525e-06, 'epoch': 5.11}
+{'loss': 0.9576, 'grad_norm': 3.272688865661621, 'learning_rate': 1.5468856947296373e-06, 'epoch': 5.11}
+{'loss': 0.9628, 'grad_norm': 3.2653863430023193, 'learning_rate': 1.5434633812457223e-06, 'epoch': 5.11}
+{'loss': 0.9797, 'grad_norm': 3.2871105670928955, 'learning_rate': 1.5400410677618071e-06, 'epoch': 5.11}
+{'eval_loss': 1.9133813381195068, 'eval_runtime': 11.6038, 'eval_samples_per_second': 51.707, 'eval_steps_per_second': 1.12, 'epoch': 5.11}
+{'loss': 0.9594, 'grad_norm': 3.302220582962036, 'learning_rate': 1.5366187542778921e-06, 'epoch': 5.11}
+{'loss': 0.9866, 'grad_norm': 3.3236124515533447, 'learning_rate': 1.5331964407939767e-06, 'epoch': 5.12}
+{'loss': 0.9981, 'grad_norm': 3.4203944206237793, 'learning_rate': 1.5297741273100617e-06, 'epoch': 5.12}
+{'loss': 0.9815, 'grad_norm': 3.3525655269622803, 'learning_rate': 1.5263518138261465e-06, 'epoch': 5.12}
+{'loss': 0.9755, 'grad_norm': 3.3968958854675293, 'learning_rate': 1.5229295003422315e-06, 'epoch': 5.12}
+{'loss': 0.9952, 'grad_norm': 3.4572501182556152, 'learning_rate': 1.5195071868583163e-06, 'epoch': 5.13}
+{'loss': 0.9827, 'grad_norm': 3.3776142597198486, 'learning_rate': 1.5160848733744013e-06, 'epoch': 5.13}
+{'loss': 0.9925, 'grad_norm': 3.264434814453125, 'learning_rate': 1.5126625598904861e-06, 'epoch': 5.13}
+{'loss': 0.9777, 'grad_norm': 3.3639583587646484, 'learning_rate': 1.509240246406571e-06, 'epoch': 5.13}
+{'loss': 0.9819, 'grad_norm': 3.294826030731201, 'learning_rate': 1.5058179329226557e-06, 'epoch': 5.13}
+{'eval_loss': 1.9133327007293701, 'eval_runtime': 11.5935, 'eval_samples_per_second': 51.753, 'eval_steps_per_second': 1.121, 'epoch': 5.13}
+{'loss': 0.9705, 'grad_norm': 3.220407247543335, 'learning_rate': 1.5023956194387407e-06, 'epoch': 5.14}
+{'loss': 0.982, 'grad_norm': 3.395090103149414, 'learning_rate': 1.4989733059548255e-06, 'epoch': 5.14}
+{'loss': 0.9878, 'grad_norm': 3.4339590072631836, 'learning_rate': 1.4955509924709105e-06, 'epoch': 5.14}
+{'loss': 0.9815, 'grad_norm': 3.3498282432556152, 'learning_rate': 1.4921286789869953e-06, 'epoch': 5.14}
+{'loss': 0.9717, 'grad_norm': 3.2627041339874268, 'learning_rate': 1.4887063655030803e-06, 'epoch': 5.14}
+{'loss': 0.9924, 'grad_norm': 3.406529188156128, 'learning_rate': 1.485284052019165e-06, 'epoch': 5.15}
+{'loss': 0.9738, 'grad_norm': 3.29082989692688, 'learning_rate': 1.48186173853525e-06, 'epoch': 5.15}
+{'loss': 1.01, 'grad_norm': 3.4568138122558594, 'learning_rate': 1.4784394250513347e-06, 'epoch': 5.15}
+{'loss': 0.9949, 'grad_norm': 3.389601230621338, 'learning_rate': 1.4750171115674197e-06, 'epoch': 5.15}
+{'loss': 0.9701, 'grad_norm': 3.3132643699645996, 'learning_rate': 1.4715947980835047e-06, 'epoch': 5.15}
+{'eval_loss': 1.9229848384857178, 'eval_runtime': 11.598, 'eval_samples_per_second': 51.733, 'eval_steps_per_second': 1.121, 'epoch': 5.15}
+{'loss': 0.9676, 'grad_norm': 3.311931610107422, 'learning_rate': 1.4681724845995895e-06, 'epoch': 5.16}
+{'loss': 0.9905, 'grad_norm': 3.4328858852386475, 'learning_rate': 1.4647501711156741e-06, 'epoch': 5.16}
+{'loss': 1.0064, 'grad_norm': 3.420644760131836, 'learning_rate': 1.4613278576317591e-06, 'epoch': 5.16}
+{'loss': 0.967, 'grad_norm': 3.229550361633301, 'learning_rate': 1.457905544147844e-06, 'epoch': 5.16}
+{'loss': 0.9764, 'grad_norm': 3.3594470024108887, 'learning_rate': 1.454483230663929e-06, 'epoch': 5.16}
+{'loss': 0.985, 'grad_norm': 3.363809823989868, 'learning_rate': 1.451060917180014e-06, 'epoch': 5.17}
+{'loss': 0.9929, 'grad_norm': 3.4049434661865234, 'learning_rate': 1.4476386036960987e-06, 'epoch': 5.17}
+{'loss': 0.9768, 'grad_norm': 3.4801790714263916, 'learning_rate': 1.4442162902121838e-06, 'epoch': 5.17}
+{'loss': 0.9981, 'grad_norm': 3.4756813049316406, 'learning_rate': 1.4407939767282683e-06, 'epoch': 5.17}
+{'loss': 0.9902, 'grad_norm': 3.4286043643951416, 'learning_rate': 1.4373716632443531e-06, 'epoch': 5.17}
+{'eval_loss': 1.9224052429199219, 'eval_runtime': 11.5953, 'eval_samples_per_second': 51.745, 'eval_steps_per_second': 1.121, 'epoch': 5.17}
+{'loss': 0.9814, 'grad_norm': 3.272397518157959, 'learning_rate': 1.4339493497604381e-06, 'epoch': 5.18}
+{'loss': 0.9874, 'grad_norm': 3.358900547027588, 'learning_rate': 1.4305270362765232e-06, 'epoch': 5.18}
+{'loss': 1.0148, 'grad_norm': 3.487761974334717, 'learning_rate': 1.427104722792608e-06, 'epoch': 5.18}
+{'loss': 0.9749, 'grad_norm': 3.399413585662842, 'learning_rate': 1.423682409308693e-06, 'epoch': 5.18}
+{'loss': 0.9623, 'grad_norm': 3.1712863445281982, 'learning_rate': 1.4202600958247775e-06, 'epoch': 5.18}
+{'loss': 0.984, 'grad_norm': 3.282423973083496, 'learning_rate': 1.4168377823408625e-06, 'epoch': 5.19}
+{'loss': 0.968, 'grad_norm': 3.285088539123535, 'learning_rate': 1.4134154688569473e-06, 'epoch': 5.19}
+{'loss': 0.9849, 'grad_norm': 3.3555209636688232, 'learning_rate': 1.4099931553730324e-06, 'epoch': 5.19}
+{'loss': 0.9612, 'grad_norm': 3.3306944370269775, 'learning_rate': 1.4065708418891172e-06, 'epoch': 5.19}
+{'loss': 0.9798, 'grad_norm': 3.264639139175415, 'learning_rate': 1.4031485284052022e-06, 'epoch': 5.2}
+{'eval_loss': 1.923784613609314, 'eval_runtime': 11.5807, 'eval_samples_per_second': 51.811, 'eval_steps_per_second': 1.123, 'epoch': 5.2}
+{'loss': 0.9756, 'grad_norm': 3.30375599861145, 'learning_rate': 1.399726214921287e-06, 'epoch': 5.2}
+{'loss': 0.9702, 'grad_norm': 3.2905666828155518, 'learning_rate': 1.3963039014373718e-06, 'epoch': 5.2}
+{'loss': 0.9664, 'grad_norm': 3.3133950233459473, 'learning_rate': 1.3928815879534566e-06, 'epoch': 5.2}
+{'loss': 0.9861, 'grad_norm': 3.4242451190948486, 'learning_rate': 1.3894592744695416e-06, 'epoch': 5.2}
+{'loss': 0.9706, 'grad_norm': 3.3324501514434814, 'learning_rate': 1.3860369609856264e-06, 'epoch': 5.21}
+{'loss': 1.0014, 'grad_norm': 3.311699390411377, 'learning_rate': 1.3826146475017114e-06, 'epoch': 5.21}
+{'loss': 0.9785, 'grad_norm': 3.255441188812256, 'learning_rate': 1.3791923340177962e-06, 'epoch': 5.21}
+{'loss': 0.9784, 'grad_norm': 3.3044493198394775, 'learning_rate': 1.3757700205338812e-06, 'epoch': 5.21}
+{'loss': 1.0106, 'grad_norm': 3.361851215362549, 'learning_rate': 1.3723477070499658e-06, 'epoch': 5.21}
+{'loss': 0.9843, 'grad_norm': 3.3770322799682617, 'learning_rate': 1.3689253935660508e-06, 'epoch': 5.22}
+{'eval_loss': 1.9182474613189697, 'eval_runtime': 11.586, 'eval_samples_per_second': 51.787, 'eval_steps_per_second': 1.122, 'epoch': 5.22}
+{'loss': 0.9845, 'grad_norm': 3.3748056888580322, 'learning_rate': 1.3655030800821356e-06, 'epoch': 5.22}
+{'loss': 0.9907, 'grad_norm': 3.3653626441955566, 'learning_rate': 1.3620807665982206e-06, 'epoch': 5.22}
+{'loss': 0.994, 'grad_norm': 3.320995330810547, 'learning_rate': 1.3586584531143054e-06, 'epoch': 5.22}
+{'loss': 0.9786, 'grad_norm': 3.301848888397217, 'learning_rate': 1.3552361396303904e-06, 'epoch': 5.22}
+{'loss': 0.9698, 'grad_norm': 3.3015151023864746, 'learning_rate': 1.351813826146475e-06, 'epoch': 5.23}
+{'loss': 0.9966, 'grad_norm': 3.2903740406036377, 'learning_rate': 1.34839151266256e-06, 'epoch': 5.23}
+{'loss': 1.0073, 'grad_norm': 3.369208574295044, 'learning_rate': 1.3449691991786448e-06, 'epoch': 5.23}
+{'loss': 0.9659, 'grad_norm': 3.29038143157959, 'learning_rate': 1.3415468856947298e-06, 'epoch': 5.23}
+{'loss': 0.984, 'grad_norm': 3.2963972091674805, 'learning_rate': 1.3381245722108146e-06, 'epoch': 5.23}
+{'loss': 0.9624, 'grad_norm': 3.3480992317199707, 'learning_rate': 1.3347022587268996e-06, 'epoch': 5.24}
+{'eval_loss': 1.9199984073638916, 'eval_runtime': 11.5883, 'eval_samples_per_second': 51.777, 'eval_steps_per_second': 1.122, 'epoch': 5.24}
+{'loss': 1.0057, 'grad_norm': 3.3219218254089355, 'learning_rate': 1.3312799452429846e-06, 'epoch': 5.24}
+{'loss': 1.0021, 'grad_norm': 3.3948140144348145, 'learning_rate': 1.3278576317590692e-06, 'epoch': 5.24}
+{'loss': 0.9906, 'grad_norm': 3.3042831420898438, 'learning_rate': 1.324435318275154e-06, 'epoch': 5.24}
+{'loss': 0.9658, 'grad_norm': 3.3053812980651855, 'learning_rate': 1.321013004791239e-06, 'epoch': 5.24}
+{'loss': 1.0068, 'grad_norm': 3.4003512859344482, 'learning_rate': 1.3175906913073238e-06, 'epoch': 5.25}
+{'loss': 0.9716, 'grad_norm': 3.2516732215881348, 'learning_rate': 1.3141683778234088e-06, 'epoch': 5.25}
+{'loss': 0.9844, 'grad_norm': 3.3662827014923096, 'learning_rate': 1.3107460643394938e-06, 'epoch': 5.25}
+{'loss': 0.968, 'grad_norm': 3.308351993560791, 'learning_rate': 1.3073237508555786e-06, 'epoch': 5.25}
+{'loss': 0.982, 'grad_norm': 3.3130972385406494, 'learning_rate': 1.3039014373716632e-06, 'epoch': 5.25}
+{'loss': 0.9907, 'grad_norm': 3.31986665725708, 'learning_rate': 1.3004791238877482e-06, 'epoch': 5.26}
+{'eval_loss': 1.9179143905639648, 'eval_runtime': 11.4692, 'eval_samples_per_second': 52.314, 'eval_steps_per_second': 1.133, 'epoch': 5.26}
+{'loss': 0.9948, 'grad_norm': 3.284336566925049, 'learning_rate': 1.297056810403833e-06, 'epoch': 5.26}
+{'loss': 0.9686, 'grad_norm': 3.3073084354400635, 'learning_rate': 1.293634496919918e-06, 'epoch': 5.26}
+{'loss': 0.9775, 'grad_norm': 3.340829372406006, 'learning_rate': 1.290212183436003e-06, 'epoch': 5.26}
+{'loss': 0.9833, 'grad_norm': 3.3633055686950684, 'learning_rate': 1.2867898699520878e-06, 'epoch': 5.26}
+{'loss': 0.9943, 'grad_norm': 3.414355754852295, 'learning_rate': 1.2833675564681724e-06, 'epoch': 5.27}
+{'loss': 0.9763, 'grad_norm': 3.2993175983428955, 'learning_rate': 1.2799452429842574e-06, 'epoch': 5.27}
+{'loss': 0.9896, 'grad_norm': 3.3433263301849365, 'learning_rate': 1.2765229295003422e-06, 'epoch': 5.27}
+{'loss': 0.9932, 'grad_norm': 3.336029529571533, 'learning_rate': 1.2731006160164272e-06, 'epoch': 5.27}
+{'loss': 0.9813, 'grad_norm': 3.31632137298584, 'learning_rate': 1.2696783025325122e-06, 'epoch': 5.28}
+{'loss': 0.9811, 'grad_norm': 3.3609941005706787, 'learning_rate': 1.266255989048597e-06, 'epoch': 5.28}
+{'eval_loss': 1.9219058752059937, 'eval_runtime': 11.5448, 'eval_samples_per_second': 51.971, 'eval_steps_per_second': 1.126, 'epoch': 5.28}
+{'loss': 0.9756, 'grad_norm': 3.379411220550537, 'learning_rate': 1.262833675564682e-06, 'epoch': 5.28}
+{'loss': 0.9986, 'grad_norm': 3.4509527683258057, 'learning_rate': 1.2594113620807666e-06, 'epoch': 5.28}
+{'loss': 0.9721, 'grad_norm': 3.2034668922424316, 'learning_rate': 1.2559890485968516e-06, 'epoch': 5.28}
+{'loss': 0.9896, 'grad_norm': 3.386915683746338, 'learning_rate': 1.2525667351129364e-06, 'epoch': 5.29}
+{'loss': 0.9846, 'grad_norm': 3.3875651359558105, 'learning_rate': 1.2491444216290214e-06, 'epoch': 5.29}
+{'loss': 0.9734, 'grad_norm': 3.2301743030548096, 'learning_rate': 1.2457221081451062e-06, 'epoch': 5.29}
+{'loss': 0.984, 'grad_norm': 3.3927645683288574, 'learning_rate': 1.242299794661191e-06, 'epoch': 5.29}
+{'loss': 0.9819, 'grad_norm': 3.396186113357544, 'learning_rate': 1.238877481177276e-06, 'epoch': 5.29}
+{'loss': 0.9817, 'grad_norm': 3.246715545654297, 'learning_rate': 1.2354551676933608e-06, 'epoch': 5.3}
+{'loss': 0.9727, 'grad_norm': 3.344156265258789, 'learning_rate': 1.2320328542094456e-06, 'epoch': 5.3}
+{'eval_loss': 1.9210392236709595, 'eval_runtime': 11.5851, 'eval_samples_per_second': 51.791, 'eval_steps_per_second': 1.122, 'epoch': 5.3}
+{'loss': 0.9878, 'grad_norm': 3.480224847793579, 'learning_rate': 1.2286105407255306e-06, 'epoch': 5.3}
+{'loss': 0.9882, 'grad_norm': 3.349329948425293, 'learning_rate': 1.2251882272416154e-06, 'epoch': 5.3}
+{'loss': 0.9612, 'grad_norm': 3.2520453929901123, 'learning_rate': 1.2217659137577004e-06, 'epoch': 5.3}
+{'loss': 0.9943, 'grad_norm': 3.37545108795166, 'learning_rate': 1.2183436002737852e-06, 'epoch': 5.31}
+{'loss': 0.9801, 'grad_norm': 3.306365728378296, 'learning_rate': 1.21492128678987e-06, 'epoch': 5.31}
+{'loss': 0.9637, 'grad_norm': 3.204301357269287, 'learning_rate': 1.211498973305955e-06, 'epoch': 5.31}
+{'loss': 0.9732, 'grad_norm': 3.32724666595459, 'learning_rate': 1.2080766598220398e-06, 'epoch': 5.31}
+{'loss': 0.9711, 'grad_norm': 3.273616075515747, 'learning_rate': 1.2046543463381246e-06, 'epoch': 5.31}
+{'loss': 0.9689, 'grad_norm': 3.3066606521606445, 'learning_rate': 1.2012320328542096e-06, 'epoch': 5.32}
+{'loss': 0.9839, 'grad_norm': 3.4055449962615967, 'learning_rate': 1.1978097193702944e-06, 'epoch': 5.32}
+{'eval_loss': 1.922102451324463, 'eval_runtime': 11.5966, 'eval_samples_per_second': 51.739, 'eval_steps_per_second': 1.121, 'epoch': 5.32}
+{'loss': 0.9785, 'grad_norm': 3.4104676246643066, 'learning_rate': 1.1943874058863792e-06, 'epoch': 5.32}
+{'loss': 0.972, 'grad_norm': 3.343493700027466, 'learning_rate': 1.1909650924024642e-06, 'epoch': 5.32}
+{'loss': 1.0252, 'grad_norm': 3.463207483291626, 'learning_rate': 1.187542778918549e-06, 'epoch': 5.32}
+{'loss': 0.9775, 'grad_norm': 3.3948168754577637, 'learning_rate': 1.1841204654346338e-06, 'epoch': 5.33}
+{'loss': 0.9701, 'grad_norm': 3.3306610584259033, 'learning_rate': 1.1806981519507188e-06, 'epoch': 5.33}
+{'loss': 0.9503, 'grad_norm': 3.301975965499878, 'learning_rate': 1.1772758384668036e-06, 'epoch': 5.33}
+{'loss': 0.9911, 'grad_norm': 3.462909698486328, 'learning_rate': 1.1738535249828884e-06, 'epoch': 5.33}
+{'loss': 0.9915, 'grad_norm': 3.3544070720672607, 'learning_rate': 1.1704312114989734e-06, 'epoch': 5.33}
+{'loss': 0.9667, 'grad_norm': 3.3036909103393555, 'learning_rate': 1.1670088980150582e-06, 'epoch': 5.34}
+{'loss': 1.0107, 'grad_norm': 3.4138238430023193, 'learning_rate': 1.163586584531143e-06, 'epoch': 5.34}
+{'eval_loss': 1.9269118309020996, 'eval_runtime': 11.6123, 'eval_samples_per_second': 51.669, 'eval_steps_per_second': 1.12, 'epoch': 5.34}
+{'loss': 0.9811, 'grad_norm': 3.3119239807128906, 'learning_rate': 1.160164271047228e-06, 'epoch': 5.34}
+{'loss': 0.997, 'grad_norm': 3.5687344074249268, 'learning_rate': 1.1567419575633128e-06, 'epoch': 5.34}
+{'loss': 1.0066, 'grad_norm': 3.498983383178711, 'learning_rate': 1.1533196440793976e-06, 'epoch': 5.34}
+{'loss': 0.9649, 'grad_norm': 3.175886392593384, 'learning_rate': 1.1498973305954826e-06, 'epoch': 5.35}
+{'loss': 0.9921, 'grad_norm': 3.358591318130493, 'learning_rate': 1.1464750171115674e-06, 'epoch': 5.35}
+{'loss': 0.9724, 'grad_norm': 3.2707858085632324, 'learning_rate': 1.1430527036276524e-06, 'epoch': 5.35}
+{'loss': 0.9887, 'grad_norm': 3.3647661209106445, 'learning_rate': 1.1396303901437372e-06, 'epoch': 5.35}
+{'loss': 0.9853, 'grad_norm': 3.3022053241729736, 'learning_rate': 1.136208076659822e-06, 'epoch': 5.36}
+{'loss': 0.9754, 'grad_norm': 3.305612325668335, 'learning_rate': 1.132785763175907e-06, 'epoch': 5.36}
+{'loss': 0.9756, 'grad_norm': 3.374169111251831, 'learning_rate': 1.1293634496919918e-06, 'epoch': 5.36}
+{'eval_loss': 1.9214550256729126, 'eval_runtime': 11.6013, 'eval_samples_per_second': 51.718, 'eval_steps_per_second': 1.121, 'epoch': 5.36}
+{'loss': 0.9908, 'grad_norm': 3.4036381244659424, 'learning_rate': 1.1259411362080766e-06, 'epoch': 5.36}
+{'loss': 0.9888, 'grad_norm': 3.364720106124878, 'learning_rate': 1.1225188227241616e-06, 'epoch': 5.36}
+{'loss': 0.9934, 'grad_norm': 3.4202659130096436, 'learning_rate': 1.1190965092402464e-06, 'epoch': 5.37}
+{'loss': 0.9818, 'grad_norm': 3.4694039821624756, 'learning_rate': 1.1156741957563314e-06, 'epoch': 5.37}
+{'loss': 0.9958, 'grad_norm': 3.3739192485809326, 'learning_rate': 1.1122518822724162e-06, 'epoch': 5.37}
+{'loss': 0.9811, 'grad_norm': 3.4592411518096924, 'learning_rate': 1.1088295687885013e-06, 'epoch': 5.37}
+{'loss': 0.9797, 'grad_norm': 3.3564791679382324, 'learning_rate': 1.105407255304586e-06, 'epoch': 5.37}
+{'loss': 0.9892, 'grad_norm': 3.3088908195495605, 'learning_rate': 1.1019849418206708e-06, 'epoch': 5.38}
+{'loss': 0.9998, 'grad_norm': 3.4580609798431396, 'learning_rate': 1.0985626283367559e-06, 'epoch': 5.38}
+{'loss': 0.9946, 'grad_norm': 3.284440040588379, 'learning_rate': 1.0951403148528407e-06, 'epoch': 5.38}
+{'eval_loss': 1.9184517860412598, 'eval_runtime': 11.6263, 'eval_samples_per_second': 51.607, 'eval_steps_per_second': 1.118, 'epoch': 5.38}
+{'loss': 0.9918, 'grad_norm': 3.3671553134918213, 'learning_rate': 1.0917180013689255e-06, 'epoch': 5.38}
+{'loss': 1.0029, 'grad_norm': 3.309075117111206, 'learning_rate': 1.0882956878850105e-06, 'epoch': 5.38}
+{'loss': 0.9752, 'grad_norm': 3.4041476249694824, 'learning_rate': 1.0848733744010953e-06, 'epoch': 5.39}
+{'loss': 0.9925, 'grad_norm': 3.3236117362976074, 'learning_rate': 1.08145106091718e-06, 'epoch': 5.39}
+{'loss': 0.9866, 'grad_norm': 3.3222463130950928, 'learning_rate': 1.078028747433265e-06, 'epoch': 5.39}
+{'loss': 1.0082, 'grad_norm': 3.4860570430755615, 'learning_rate': 1.0746064339493499e-06, 'epoch': 5.39}
+{'loss': 0.9777, 'grad_norm': 3.2722582817077637, 'learning_rate': 1.0711841204654347e-06, 'epoch': 5.39}
+{'loss': 0.9803, 'grad_norm': 3.4240739345550537, 'learning_rate': 1.0677618069815197e-06, 'epoch': 5.4}
+{'loss': 0.9538, 'grad_norm': 3.2862298488616943, 'learning_rate': 1.0643394934976045e-06, 'epoch': 5.4}
+{'loss': 0.9895, 'grad_norm': 3.444892644882202, 'learning_rate': 1.0609171800136893e-06, 'epoch': 5.4}
+{'eval_loss': 1.9232776165008545, 'eval_runtime': 11.631, 'eval_samples_per_second': 51.586, 'eval_steps_per_second': 1.118, 'epoch': 5.4}
+{'loss': 0.9765, 'grad_norm': 3.227022647857666, 'learning_rate': 1.0574948665297743e-06, 'epoch': 5.4}
+{'loss': 0.9793, 'grad_norm': 3.341831922531128, 'learning_rate': 1.054072553045859e-06, 'epoch': 5.4}
+{'loss': 0.9856, 'grad_norm': 3.437394618988037, 'learning_rate': 1.0506502395619439e-06, 'epoch': 5.41}
+{'loss': 1.0021, 'grad_norm': 3.3454360961914062, 'learning_rate': 1.0472279260780289e-06, 'epoch': 5.41}
+{'loss': 0.9787, 'grad_norm': 3.343069314956665, 'learning_rate': 1.0438056125941137e-06, 'epoch': 5.41}
+{'loss': 0.9901, 'grad_norm': 3.481346845626831, 'learning_rate': 1.0403832991101987e-06, 'epoch': 5.41}
+{'loss': 0.9839, 'grad_norm': 3.2585299015045166, 'learning_rate': 1.0369609856262835e-06, 'epoch': 5.41}
+{'loss': 0.9743, 'grad_norm': 3.201056480407715, 'learning_rate': 1.0335386721423683e-06, 'epoch': 5.42}
+{'loss': 1.0259, 'grad_norm': 3.5323851108551025, 'learning_rate': 1.0301163586584533e-06, 'epoch': 5.42}
+{'loss': 0.9631, 'grad_norm': 3.281388282775879, 'learning_rate': 1.026694045174538e-06, 'epoch': 5.42}
+{'eval_loss': 1.9204508066177368, 'eval_runtime': 11.6357, 'eval_samples_per_second': 51.566, 'eval_steps_per_second': 1.117, 'epoch': 5.42}
+{'loss': 0.9783, 'grad_norm': 3.3005075454711914, 'learning_rate': 1.0232717316906229e-06, 'epoch': 5.42}
+{'loss': 0.9996, 'grad_norm': 3.43043851852417, 'learning_rate': 1.0198494182067079e-06, 'epoch': 5.43}
+{'loss': 1.0023, 'grad_norm': 3.3818652629852295, 'learning_rate': 1.0164271047227927e-06, 'epoch': 5.43}
+{'loss': 0.9987, 'grad_norm': 3.4889538288116455, 'learning_rate': 1.0130047912388775e-06, 'epoch': 5.43}
+{'loss': 0.9999, 'grad_norm': 3.4130966663360596, 'learning_rate': 1.0095824777549625e-06, 'epoch': 5.43}
+{'loss': 0.9737, 'grad_norm': 3.316049575805664, 'learning_rate': 1.0061601642710473e-06, 'epoch': 5.43}
+{'loss': 0.9941, 'grad_norm': 3.3315701484680176, 'learning_rate': 1.002737850787132e-06, 'epoch': 5.44}
+{'loss': 0.9961, 'grad_norm': 3.3631153106689453, 'learning_rate': 9.99315537303217e-07, 'epoch': 5.44}
+{'loss': 1.0065, 'grad_norm': 3.5114974975585938, 'learning_rate': 9.958932238193019e-07, 'epoch': 5.44}
+{'loss': 0.981, 'grad_norm': 3.3338518142700195, 'learning_rate': 9.924709103353867e-07, 'epoch': 5.44}
+{'eval_loss': 1.919325590133667, 'eval_runtime': 11.6306, 'eval_samples_per_second': 51.588, 'eval_steps_per_second': 1.118, 'epoch': 5.44}
+{'loss': 1.0042, 'grad_norm': 3.394580364227295, 'learning_rate': 9.890485968514717e-07, 'epoch': 5.44}
+{'loss': 0.9964, 'grad_norm': 3.3763790130615234, 'learning_rate': 9.856262833675565e-07, 'epoch': 5.45}
+{'loss': 0.9981, 'grad_norm': 3.369126558303833, 'learning_rate': 9.822039698836413e-07, 'epoch': 5.45}
+{'loss': 0.9825, 'grad_norm': 3.3445780277252197, 'learning_rate': 9.787816563997263e-07, 'epoch': 5.45}
+{'loss': 0.9681, 'grad_norm': 3.2936997413635254, 'learning_rate': 9.753593429158113e-07, 'epoch': 5.45}
+{'loss': 0.9876, 'grad_norm': 3.420813798904419, 'learning_rate': 9.71937029431896e-07, 'epoch': 5.45}
+{'loss': 0.9714, 'grad_norm': 3.433096170425415, 'learning_rate': 9.685147159479809e-07, 'epoch': 5.46}
+{'loss': 1.0105, 'grad_norm': 3.461210250854492, 'learning_rate': 9.65092402464066e-07, 'epoch': 5.46}
+{'loss': 0.9717, 'grad_norm': 3.2813823223114014, 'learning_rate': 9.616700889801507e-07, 'epoch': 5.46}
+{'loss': 0.9638, 'grad_norm': 3.2868964672088623, 'learning_rate': 9.582477754962355e-07, 'epoch': 5.46}
+{'eval_loss': 1.9247082471847534, 'eval_runtime': 11.6013, 'eval_samples_per_second': 51.719, 'eval_steps_per_second': 1.121, 'epoch': 5.46}
+{'loss': 1.0054, 'grad_norm': 3.483151912689209, 'learning_rate': 9.548254620123205e-07, 'epoch': 5.46}
+{'loss': 0.9903, 'grad_norm': 3.4074132442474365, 'learning_rate': 9.514031485284053e-07, 'epoch': 5.47}
+{'loss': 0.973, 'grad_norm': 3.3923134803771973, 'learning_rate': 9.479808350444901e-07, 'epoch': 5.47}
+{'loss': 1.0206, 'grad_norm': 3.4846932888031006, 'learning_rate': 9.44558521560575e-07, 'epoch': 5.47}
+{'loss': 0.985, 'grad_norm': 3.460847854614258, 'learning_rate': 9.411362080766599e-07, 'epoch': 5.47}
+{'loss': 0.9969, 'grad_norm': 3.3674240112304688, 'learning_rate': 9.377138945927448e-07, 'epoch': 5.47}
+{'loss': 0.9824, 'grad_norm': 3.3552443981170654, 'learning_rate': 9.342915811088296e-07, 'epoch': 5.48}
+{'loss': 0.9718, 'grad_norm': 3.3410675525665283, 'learning_rate': 9.308692676249145e-07, 'epoch': 5.48}
+{'loss': 1.0078, 'grad_norm': 3.3961915969848633, 'learning_rate': 9.274469541409994e-07, 'epoch': 5.48}
+{'loss': 0.9724, 'grad_norm': 3.292459487915039, 'learning_rate': 9.240246406570842e-07, 'epoch': 5.48}
+{'eval_loss': 1.924108862876892, 'eval_runtime': 11.6055, 'eval_samples_per_second': 51.7, 'eval_steps_per_second': 1.12, 'epoch': 5.48}
+{'loss': 0.9833, 'grad_norm': 3.3790411949157715, 'learning_rate': 9.206023271731691e-07, 'epoch': 5.48}
+{'loss': 0.9687, 'grad_norm': 3.375460386276245, 'learning_rate': 9.17180013689254e-07, 'epoch': 5.49}
+{'loss': 0.9616, 'grad_norm': 3.3212409019470215, 'learning_rate': 9.137577002053388e-07, 'epoch': 5.49}
+{'loss': 0.9615, 'grad_norm': 3.3574507236480713, 'learning_rate': 9.103353867214237e-07, 'epoch': 5.49}
+{'loss': 1.011, 'grad_norm': 3.5976061820983887, 'learning_rate': 9.069130732375086e-07, 'epoch': 5.49}
+{'loss': 0.9899, 'grad_norm': 3.4497902393341064, 'learning_rate': 9.034907597535936e-07, 'epoch': 5.49}
+{'loss': 1.0032, 'grad_norm': 3.3822059631347656, 'learning_rate': 9.000684462696783e-07, 'epoch': 5.5}
+{'loss': 1.0181, 'grad_norm': 3.427725076675415, 'learning_rate': 8.966461327857632e-07, 'epoch': 5.5}
+{'loss': 0.9742, 'grad_norm': 3.3699467182159424, 'learning_rate': 8.932238193018482e-07, 'epoch': 5.5}
+{'loss': 0.9849, 'grad_norm': 3.4930362701416016, 'learning_rate': 8.898015058179329e-07, 'epoch': 5.5}
+{'eval_loss': 1.9233148097991943, 'eval_runtime': 11.6324, 'eval_samples_per_second': 51.58, 'eval_steps_per_second': 1.118, 'epoch': 5.5}
+{'loss': 0.9689, 'grad_norm': 3.264629602432251, 'learning_rate': 8.863791923340179e-07, 'epoch': 5.51}
+{'loss': 1.0218, 'grad_norm': 3.49623441696167, 'learning_rate': 8.829568788501028e-07, 'epoch': 5.51}
+{'loss': 0.9961, 'grad_norm': 3.304394245147705, 'learning_rate': 8.795345653661875e-07, 'epoch': 5.51}
+{'loss': 0.9843, 'grad_norm': 3.240987539291382, 'learning_rate': 8.761122518822725e-07, 'epoch': 5.51}
+{'loss': 0.9685, 'grad_norm': 3.3627500534057617, 'learning_rate': 8.726899383983574e-07, 'epoch': 5.51}
+{'loss': 0.9886, 'grad_norm': 3.496424674987793, 'learning_rate': 8.692676249144421e-07, 'epoch': 5.52}
+{'loss': 0.9899, 'grad_norm': 3.41904354095459, 'learning_rate': 8.658453114305271e-07, 'epoch': 5.52}
+{'loss': 0.967, 'grad_norm': 3.3249239921569824, 'learning_rate': 8.62422997946612e-07, 'epoch': 5.52}
+{'loss': 0.9787, 'grad_norm': 3.41184139251709, 'learning_rate': 8.590006844626969e-07, 'epoch': 5.52}
+{'loss': 0.9867, 'grad_norm': 3.359316825866699, 'learning_rate': 8.555783709787817e-07, 'epoch': 5.52}
+{'eval_loss': 1.9290497303009033, 'eval_runtime': 11.6048, 'eval_samples_per_second': 51.703, 'eval_steps_per_second': 1.12, 'epoch': 5.52}
+{'loss': 1.0021, 'grad_norm': 3.382570743560791, 'learning_rate': 8.521560574948666e-07, 'epoch': 5.53}
+{'loss': 0.987, 'grad_norm': 3.288442850112915, 'learning_rate': 8.487337440109515e-07, 'epoch': 5.53}
+{'loss': 1.0005, 'grad_norm': 3.465715169906616, 'learning_rate': 8.453114305270363e-07, 'epoch': 5.53}
+{'loss': 0.9978, 'grad_norm': 3.4186463356018066, 'learning_rate': 8.418891170431212e-07, 'epoch': 5.53}
+{'loss': 0.9696, 'grad_norm': 3.3296544551849365, 'learning_rate': 8.384668035592061e-07, 'epoch': 5.53}
+{'loss': 0.9854, 'grad_norm': 3.3424627780914307, 'learning_rate': 8.350444900752909e-07, 'epoch': 5.54}
+{'loss': 0.9844, 'grad_norm': 3.388247489929199, 'learning_rate': 8.316221765913758e-07, 'epoch': 5.54}
+{'loss': 0.9718, 'grad_norm': 3.3180813789367676, 'learning_rate': 8.281998631074607e-07, 'epoch': 5.54}
+{'loss': 0.9841, 'grad_norm': 3.460024118423462, 'learning_rate': 8.247775496235456e-07, 'epoch': 5.54}
+{'loss': 0.9824, 'grad_norm': 3.2743639945983887, 'learning_rate': 8.213552361396304e-07, 'epoch': 5.54}
+{'eval_loss': 1.927179217338562, 'eval_runtime': 11.6288, 'eval_samples_per_second': 51.596, 'eval_steps_per_second': 1.118, 'epoch': 5.54}
+{'loss': 0.9989, 'grad_norm': 3.47128963470459, 'learning_rate': 8.179329226557153e-07, 'epoch': 5.55}
+{'loss': 0.9917, 'grad_norm': 3.352306842803955, 'learning_rate': 8.145106091718002e-07, 'epoch': 5.55}
+{'loss': 0.9769, 'grad_norm': 3.3990674018859863, 'learning_rate': 8.11088295687885e-07, 'epoch': 5.55}
+{'loss': 0.9814, 'grad_norm': 3.310122489929199, 'learning_rate': 8.076659822039699e-07, 'epoch': 5.55}
+{'loss': 0.9598, 'grad_norm': 3.146372079849243, 'learning_rate': 8.042436687200548e-07, 'epoch': 5.55}
+{'loss': 0.9919, 'grad_norm': 3.407165050506592, 'learning_rate': 8.008213552361396e-07, 'epoch': 5.56}
+{'loss': 0.9711, 'grad_norm': 3.3384485244750977, 'learning_rate': 7.973990417522245e-07, 'epoch': 5.56}
+{'loss': 1.0009, 'grad_norm': 3.4314942359924316, 'learning_rate': 7.939767282683094e-07, 'epoch': 5.56}
+{'loss': 1.001, 'grad_norm': 3.474433183670044, 'learning_rate': 7.905544147843944e-07, 'epoch': 5.56}
+{'loss': 0.9947, 'grad_norm': 3.4307186603546143, 'learning_rate': 7.871321013004791e-07, 'epoch': 5.56}
+{'eval_loss': 1.9273313283920288, 'eval_runtime': 11.515, 'eval_samples_per_second': 52.106, 'eval_steps_per_second': 1.129, 'epoch': 5.56}
+{'loss': 0.9846, 'grad_norm': 3.4148387908935547, 'learning_rate': 7.83709787816564e-07, 'epoch': 5.57}
+{'loss': 0.9983, 'grad_norm': 3.4228696823120117, 'learning_rate': 7.80287474332649e-07, 'epoch': 5.57}
+{'loss': 0.9804, 'grad_norm': 3.2400853633880615, 'learning_rate': 7.768651608487337e-07, 'epoch': 5.57}
+{'loss': 0.9777, 'grad_norm': 3.2344021797180176, 'learning_rate': 7.734428473648187e-07, 'epoch': 5.57}
+{'loss': 0.9822, 'grad_norm': 3.264653444290161, 'learning_rate': 7.700205338809036e-07, 'epoch': 5.57}
+{'loss': 0.9664, 'grad_norm': 3.406190872192383, 'learning_rate': 7.665982203969884e-07, 'epoch': 5.58}
+{'loss': 0.9955, 'grad_norm': 3.3731627464294434, 'learning_rate': 7.631759069130733e-07, 'epoch': 5.58}
+{'loss': 0.9644, 'grad_norm': 3.224735736846924, 'learning_rate': 7.597535934291582e-07, 'epoch': 5.58}
+{'loss': 1.0076, 'grad_norm': 3.4183592796325684, 'learning_rate': 7.563312799452431e-07, 'epoch': 5.58}
+{'loss': 1.0013, 'grad_norm': 3.348957061767578, 'learning_rate': 7.529089664613279e-07, 'epoch': 5.59}
+{'eval_loss': 1.9250179529190063, 'eval_runtime': 11.5567, 'eval_samples_per_second': 51.918, 'eval_steps_per_second': 1.125, 'epoch': 5.59}
+{'loss': 1.0351, 'grad_norm': 3.516371488571167, 'learning_rate': 7.494866529774128e-07, 'epoch': 5.59}
+{'loss': 0.9829, 'grad_norm': 3.407109498977661, 'learning_rate': 7.460643394934977e-07, 'epoch': 5.59}
+{'loss': 0.9729, 'grad_norm': 3.4794461727142334, 'learning_rate': 7.426420260095825e-07, 'epoch': 5.59}
+{'loss': 0.9988, 'grad_norm': 3.346280097961426, 'learning_rate': 7.392197125256674e-07, 'epoch': 5.59}
+{'loss': 0.9768, 'grad_norm': 3.462284564971924, 'learning_rate': 7.357973990417524e-07, 'epoch': 5.6}
+{'loss': 0.9823, 'grad_norm': 3.3309245109558105, 'learning_rate': 7.323750855578371e-07, 'epoch': 5.6}
+{'loss': 0.9661, 'grad_norm': 3.3258628845214844, 'learning_rate': 7.28952772073922e-07, 'epoch': 5.6}
+{'loss': 0.993, 'grad_norm': 3.4436707496643066, 'learning_rate': 7.25530458590007e-07, 'epoch': 5.6}
+{'loss': 0.9661, 'grad_norm': 3.2744905948638916, 'learning_rate': 7.221081451060919e-07, 'epoch': 5.6}
+{'loss': 1.0091, 'grad_norm': 3.4157392978668213, 'learning_rate': 7.186858316221766e-07, 'epoch': 5.61}
+{'eval_loss': 1.921668291091919, 'eval_runtime': 11.5982, 'eval_samples_per_second': 51.732, 'eval_steps_per_second': 1.121, 'epoch': 5.61}
+{'loss': 0.9948, 'grad_norm': 3.3689727783203125, 'learning_rate': 7.152635181382616e-07, 'epoch': 5.61}
+{'loss': 0.9706, 'grad_norm': 3.279676914215088, 'learning_rate': 7.118412046543465e-07, 'epoch': 5.61}
+{'loss': 0.9931, 'grad_norm': 3.3794384002685547, 'learning_rate': 7.084188911704313e-07, 'epoch': 5.61}
+{'loss': 0.9681, 'grad_norm': 3.28773832321167, 'learning_rate': 7.049965776865162e-07, 'epoch': 5.61}
+{'loss': 0.9971, 'grad_norm': 3.4379732608795166, 'learning_rate': 7.015742642026011e-07, 'epoch': 5.62}
+{'loss': 0.9998, 'grad_norm': 3.3014931678771973, 'learning_rate': 6.981519507186859e-07, 'epoch': 5.62}
+{'loss': 0.9889, 'grad_norm': 3.3784730434417725, 'learning_rate': 6.947296372347708e-07, 'epoch': 5.62}
+{'loss': 0.9683, 'grad_norm': 3.320648431777954, 'learning_rate': 6.913073237508557e-07, 'epoch': 5.62}
+{'loss': 0.9919, 'grad_norm': 3.299982786178589, 'learning_rate': 6.878850102669406e-07, 'epoch': 5.62}
+{'loss': 1.0187, 'grad_norm': 3.4346706867218018, 'learning_rate': 6.844626967830254e-07, 'epoch': 5.63}
+{'eval_loss': 1.92454993724823, 'eval_runtime': 11.6173, 'eval_samples_per_second': 51.647, 'eval_steps_per_second': 1.119, 'epoch': 5.63}
+{'loss': 0.9854, 'grad_norm': 3.366793155670166, 'learning_rate': 6.810403832991103e-07, 'epoch': 5.63}
+{'loss': 0.9998, 'grad_norm': 3.3668789863586426, 'learning_rate': 6.776180698151952e-07, 'epoch': 5.63}
+{'loss': 0.9927, 'grad_norm': 3.3501410484313965, 'learning_rate': 6.7419575633128e-07, 'epoch': 5.63}
+{'loss': 0.9942, 'grad_norm': 3.274848461151123, 'learning_rate': 6.707734428473649e-07, 'epoch': 5.63}
+{'loss': 0.9529, 'grad_norm': 3.261514902114868, 'learning_rate': 6.673511293634498e-07, 'epoch': 5.64}
+{'loss': 0.9812, 'grad_norm': 3.304717779159546, 'learning_rate': 6.639288158795346e-07, 'epoch': 5.64}
+{'loss': 0.9872, 'grad_norm': 3.365980863571167, 'learning_rate': 6.605065023956195e-07, 'epoch': 5.64}
+{'loss': 0.9691, 'grad_norm': 3.3129990100860596, 'learning_rate': 6.570841889117044e-07, 'epoch': 5.64}
+{'loss': 0.9896, 'grad_norm': 3.3100907802581787, 'learning_rate': 6.536618754277893e-07, 'epoch': 5.64}
+{'loss': 0.9713, 'grad_norm': 3.372157335281372, 'learning_rate': 6.502395619438741e-07, 'epoch': 5.65}
+{'eval_loss': 1.9276633262634277, 'eval_runtime': 11.6092, 'eval_samples_per_second': 51.683, 'eval_steps_per_second': 1.12, 'epoch': 5.65}
+{'loss': 0.9707, 'grad_norm': 3.2580301761627197, 'learning_rate': 6.46817248459959e-07, 'epoch': 5.65}
+{'loss': 0.9562, 'grad_norm': 3.340825319290161, 'learning_rate': 6.433949349760439e-07, 'epoch': 5.65}
+{'loss': 0.9732, 'grad_norm': 3.3621580600738525, 'learning_rate': 6.399726214921287e-07, 'epoch': 5.65}
+{'loss': 0.9912, 'grad_norm': 3.311753273010254, 'learning_rate': 6.365503080082136e-07, 'epoch': 5.66}
+{'loss': 1.0078, 'grad_norm': 3.3229849338531494, 'learning_rate': 6.331279945242985e-07, 'epoch': 5.66}
+{'loss': 0.9827, 'grad_norm': 3.362682819366455, 'learning_rate': 6.297056810403833e-07, 'epoch': 5.66}
+{'loss': 0.9716, 'grad_norm': 3.247206449508667, 'learning_rate': 6.262833675564682e-07, 'epoch': 5.66}
+{'loss': 0.9894, 'grad_norm': 3.450573205947876, 'learning_rate': 6.228610540725531e-07, 'epoch': 5.66}
+{'loss': 1.0015, 'grad_norm': 3.3612449169158936, 'learning_rate': 6.19438740588638e-07, 'epoch': 5.67}
+{'loss': 0.9928, 'grad_norm': 3.419736862182617, 'learning_rate': 6.160164271047228e-07, 'epoch': 5.67}
+{'eval_loss': 1.9259480237960815, 'eval_runtime': 11.6371, 'eval_samples_per_second': 51.559, 'eval_steps_per_second': 1.117, 'epoch': 5.67}
+{'loss': 1.0081, 'grad_norm': 3.3446478843688965, 'learning_rate': 6.125941136208077e-07, 'epoch': 5.67}
+{'loss': 0.9929, 'grad_norm': 3.3386807441711426, 'learning_rate': 6.091718001368926e-07, 'epoch': 5.67}
+{'loss': 1.0028, 'grad_norm': 3.3353796005249023, 'learning_rate': 6.057494866529775e-07, 'epoch': 5.67}
+{'loss': 0.9766, 'grad_norm': 3.349864959716797, 'learning_rate': 6.023271731690623e-07, 'epoch': 5.68}
+{'loss': 0.9867, 'grad_norm': 3.3842787742614746, 'learning_rate': 5.989048596851472e-07, 'epoch': 5.68}
+{'loss': 0.9903, 'grad_norm': 3.287515163421631, 'learning_rate': 5.954825462012321e-07, 'epoch': 5.68}
+{'loss': 0.9699, 'grad_norm': 3.2583611011505127, 'learning_rate': 5.920602327173169e-07, 'epoch': 5.68}
+{'loss': 0.9627, 'grad_norm': 3.2976672649383545, 'learning_rate': 5.886379192334018e-07, 'epoch': 5.68}
+{'loss': 0.9662, 'grad_norm': 3.304267644882202, 'learning_rate': 5.852156057494867e-07, 'epoch': 5.69}
+{'loss': 0.9721, 'grad_norm': 3.3578860759735107, 'learning_rate': 5.817932922655715e-07, 'epoch': 5.69}
+{'eval_loss': 1.926396131515503, 'eval_runtime': 11.6353, 'eval_samples_per_second': 51.567, 'eval_steps_per_second': 1.117, 'epoch': 5.69}
+{'loss': 0.9707, 'grad_norm': 3.280055046081543, 'learning_rate': 5.783709787816564e-07, 'epoch': 5.69}
+{'loss': 0.9818, 'grad_norm': 3.293301582336426, 'learning_rate': 5.749486652977413e-07, 'epoch': 5.69}
+{'loss': 1.0006, 'grad_norm': 3.4512791633605957, 'learning_rate': 5.715263518138262e-07, 'epoch': 5.69}
+{'loss': 0.9957, 'grad_norm': 3.4454712867736816, 'learning_rate': 5.68104038329911e-07, 'epoch': 5.7}
+{'loss': 0.9769, 'grad_norm': 3.3661255836486816, 'learning_rate': 5.646817248459959e-07, 'epoch': 5.7}
+{'loss': 0.9656, 'grad_norm': 3.3017423152923584, 'learning_rate': 5.612594113620808e-07, 'epoch': 5.7}
+{'loss': 0.9806, 'grad_norm': 3.332305669784546, 'learning_rate': 5.578370978781657e-07, 'epoch': 5.7}
+{'loss': 0.9743, 'grad_norm': 3.4006083011627197, 'learning_rate': 5.544147843942506e-07, 'epoch': 5.7}
+{'loss': 0.9779, 'grad_norm': 3.352344274520874, 'learning_rate': 5.509924709103354e-07, 'epoch': 5.71}
+{'loss': 0.997, 'grad_norm': 3.3595845699310303, 'learning_rate': 5.475701574264203e-07, 'epoch': 5.71}
+{'eval_loss': 1.9269437789916992, 'eval_runtime': 11.6097, 'eval_samples_per_second': 51.681, 'eval_steps_per_second': 1.12, 'epoch': 5.71}
+{'loss': 0.981, 'grad_norm': 3.3989098072052, 'learning_rate': 5.441478439425052e-07, 'epoch': 5.71}
+{'loss': 1.0005, 'grad_norm': 3.4618663787841797, 'learning_rate': 5.4072553045859e-07, 'epoch': 5.71}
+{'loss': 0.9666, 'grad_norm': 3.2589449882507324, 'learning_rate': 5.373032169746749e-07, 'epoch': 5.71}
+{'loss': 0.9831, 'grad_norm': 3.36491060256958, 'learning_rate': 5.338809034907598e-07, 'epoch': 5.72}
+{'loss': 0.9789, 'grad_norm': 3.237245559692383, 'learning_rate': 5.304585900068446e-07, 'epoch': 5.72}
+{'loss': 0.9818, 'grad_norm': 3.315504550933838, 'learning_rate': 5.270362765229295e-07, 'epoch': 5.72}
+{'loss': 0.9776, 'grad_norm': 3.3135430812835693, 'learning_rate': 5.236139630390144e-07, 'epoch': 5.72}
+{'loss': 0.9968, 'grad_norm': 3.384272575378418, 'learning_rate': 5.201916495550993e-07, 'epoch': 5.72}
+{'loss': 0.9855, 'grad_norm': 3.330641746520996, 'learning_rate': 5.167693360711841e-07, 'epoch': 5.73}
+{'loss': 0.9883, 'grad_norm': 3.346717596054077, 'learning_rate': 5.13347022587269e-07, 'epoch': 5.73}
+{'eval_loss': 1.9251017570495605, 'eval_runtime': 11.6297, 'eval_samples_per_second': 51.592, 'eval_steps_per_second': 1.118, 'epoch': 5.73}
+{'loss': 0.9878, 'grad_norm': 3.3669300079345703, 'learning_rate': 5.099247091033539e-07, 'epoch': 5.73}
+{'loss': 0.957, 'grad_norm': 3.3319809436798096, 'learning_rate': 5.065023956194387e-07, 'epoch': 5.73}
+{'loss': 0.9616, 'grad_norm': 3.324366807937622, 'learning_rate': 5.030800821355236e-07, 'epoch': 5.74}
+{'loss': 1.0004, 'grad_norm': 3.3835527896881104, 'learning_rate': 4.996577686516085e-07, 'epoch': 5.74}
+{'loss': 0.9964, 'grad_norm': 3.4913291931152344, 'learning_rate': 4.962354551676933e-07, 'epoch': 5.74}
+{'loss': 0.9809, 'grad_norm': 3.4578027725219727, 'learning_rate': 4.928131416837782e-07, 'epoch': 5.74}
+{'loss': 0.9774, 'grad_norm': 3.3626210689544678, 'learning_rate': 4.893908281998631e-07, 'epoch': 5.74}
+{'loss': 0.9824, 'grad_norm': 3.3706750869750977, 'learning_rate': 4.85968514715948e-07, 'epoch': 5.75}
+{'loss': 0.9659, 'grad_norm': 3.4431846141815186, 'learning_rate': 4.82546201232033e-07, 'epoch': 5.75}
+{'loss': 0.9846, 'grad_norm': 3.4183743000030518, 'learning_rate': 4.791238877481177e-07, 'epoch': 5.75}
+{'eval_loss': 1.9279229640960693, 'eval_runtime': 11.6194, 'eval_samples_per_second': 51.638, 'eval_steps_per_second': 1.119, 'epoch': 5.75}
+{'loss': 0.9929, 'grad_norm': 3.3840138912200928, 'learning_rate': 4.7570157426420265e-07, 'epoch': 5.75}
+{'loss': 0.9771, 'grad_norm': 3.316018581390381, 'learning_rate': 4.722792607802875e-07, 'epoch': 5.75}
+{'loss': 1.0036, 'grad_norm': 3.391173839569092, 'learning_rate': 4.688569472963724e-07, 'epoch': 5.76}
+{'loss': 0.9933, 'grad_norm': 3.4311447143554688, 'learning_rate': 4.6543463381245725e-07, 'epoch': 5.76}
+{'loss': 1.0061, 'grad_norm': 3.521670341491699, 'learning_rate': 4.620123203285421e-07, 'epoch': 5.76}
+{'loss': 0.9555, 'grad_norm': 3.276515483856201, 'learning_rate': 4.58590006844627e-07, 'epoch': 5.76}
+{'loss': 0.9892, 'grad_norm': 3.4404685497283936, 'learning_rate': 4.5516769336071185e-07, 'epoch': 5.76}
+{'loss': 1.0072, 'grad_norm': 3.4694936275482178, 'learning_rate': 4.517453798767968e-07, 'epoch': 5.77}
+{'loss': 0.9963, 'grad_norm': 3.4461398124694824, 'learning_rate': 4.483230663928816e-07, 'epoch': 5.77}
+{'loss': 0.9804, 'grad_norm': 3.2551236152648926, 'learning_rate': 4.4490075290896646e-07, 'epoch': 5.77}
+{'eval_loss': 1.9268436431884766, 'eval_runtime': 11.6339, 'eval_samples_per_second': 51.573, 'eval_steps_per_second': 1.117, 'epoch': 5.77}
+{'loss': 1.0002, 'grad_norm': 3.3279054164886475, 'learning_rate': 4.414784394250514e-07, 'epoch': 5.77}
+{'loss': 0.9885, 'grad_norm': 3.41503643989563, 'learning_rate': 4.3805612594113626e-07, 'epoch': 5.77}
+{'loss': 0.9816, 'grad_norm': 3.2966864109039307, 'learning_rate': 4.3463381245722106e-07, 'epoch': 5.78}
+{'loss': 0.9797, 'grad_norm': 3.2890241146087646, 'learning_rate': 4.31211498973306e-07, 'epoch': 5.78}
+{'loss': 0.9915, 'grad_norm': 3.2936317920684814, 'learning_rate': 4.2778918548939086e-07, 'epoch': 5.78}
+{'loss': 0.9881, 'grad_norm': 3.345773458480835, 'learning_rate': 4.2436687200547577e-07, 'epoch': 5.78}
+{'loss': 0.976, 'grad_norm': 3.3855183124542236, 'learning_rate': 4.209445585215606e-07, 'epoch': 5.78}
+{'loss': 0.9867, 'grad_norm': 3.3959145545959473, 'learning_rate': 4.1752224503764547e-07, 'epoch': 5.79}
+{'loss': 0.9816, 'grad_norm': 3.3628337383270264, 'learning_rate': 4.1409993155373037e-07, 'epoch': 5.79}
+{'loss': 0.9949, 'grad_norm': 3.4086153507232666, 'learning_rate': 4.106776180698152e-07, 'epoch': 5.79}
+{'eval_loss': 1.9271197319030762, 'eval_runtime': 11.6285, 'eval_samples_per_second': 51.597, 'eval_steps_per_second': 1.118, 'epoch': 5.79}
+{'loss': 0.9765, 'grad_norm': 3.4287054538726807, 'learning_rate': 4.072553045859001e-07, 'epoch': 5.79}
+{'loss': 0.9764, 'grad_norm': 3.377556085586548, 'learning_rate': 4.0383299110198497e-07, 'epoch': 5.79}
+{'loss': 0.9669, 'grad_norm': 3.351229190826416, 'learning_rate': 4.004106776180698e-07, 'epoch': 5.8}
+{'loss': 0.9761, 'grad_norm': 3.3467752933502197, 'learning_rate': 3.969883641341547e-07, 'epoch': 5.8}
+{'loss': 0.9553, 'grad_norm': 3.2418053150177, 'learning_rate': 3.935660506502396e-07, 'epoch': 5.8}
+{'loss': 0.9811, 'grad_norm': 3.3027122020721436, 'learning_rate': 3.901437371663245e-07, 'epoch': 5.8}
+{'loss': 0.9851, 'grad_norm': 3.4494361877441406, 'learning_rate': 3.867214236824093e-07, 'epoch': 5.8}
+{'loss': 0.9941, 'grad_norm': 3.4040045738220215, 'learning_rate': 3.832991101984942e-07, 'epoch': 5.81}
+{'loss': 0.9797, 'grad_norm': 3.4267618656158447, 'learning_rate': 3.798767967145791e-07, 'epoch': 5.81}
+{'loss': 0.9941, 'grad_norm': 3.353607416152954, 'learning_rate': 3.7645448323066393e-07, 'epoch': 5.81}
+{'eval_loss': 1.9259356260299683, 'eval_runtime': 11.637, 'eval_samples_per_second': 51.56, 'eval_steps_per_second': 1.117, 'epoch': 5.81}
+{'loss': 0.9887, 'grad_norm': 3.415041446685791, 'learning_rate': 3.7303216974674883e-07, 'epoch': 5.81}
+{'loss': 0.9797, 'grad_norm': 3.386174440383911, 'learning_rate': 3.696098562628337e-07, 'epoch': 5.82}
+{'loss': 0.9792, 'grad_norm': 3.3889482021331787, 'learning_rate': 3.6618754277891853e-07, 'epoch': 5.82}
+{'loss': 0.9689, 'grad_norm': 3.3150525093078613, 'learning_rate': 3.627652292950035e-07, 'epoch': 5.82}
+{'loss': 0.9848, 'grad_norm': 3.345656156539917, 'learning_rate': 3.593429158110883e-07, 'epoch': 5.82}
+{'loss': 0.9735, 'grad_norm': 3.2394487857818604, 'learning_rate': 3.5592060232717324e-07, 'epoch': 5.82}
+{'loss': 1.0023, 'grad_norm': 3.319040536880493, 'learning_rate': 3.524982888432581e-07, 'epoch': 5.83}
+{'loss': 0.9862, 'grad_norm': 3.3673346042633057, 'learning_rate': 3.4907597535934294e-07, 'epoch': 5.83}
+{'loss': 0.991, 'grad_norm': 3.3348257541656494, 'learning_rate': 3.4565366187542784e-07, 'epoch': 5.83}
+{'loss': 1.0017, 'grad_norm': 3.454680919647217, 'learning_rate': 3.422313483915127e-07, 'epoch': 5.83}
+{'eval_loss': 1.9259517192840576, 'eval_runtime': 11.6397, 'eval_samples_per_second': 51.548, 'eval_steps_per_second': 1.117, 'epoch': 5.83}
+{'loss': 0.9758, 'grad_norm': 3.358754873275757, 'learning_rate': 3.388090349075976e-07, 'epoch': 5.83}
+{'loss': 0.9787, 'grad_norm': 3.2893333435058594, 'learning_rate': 3.3538672142368244e-07, 'epoch': 5.84}
+{'loss': 0.9827, 'grad_norm': 3.368924379348755, 'learning_rate': 3.319644079397673e-07, 'epoch': 5.84}
+{'loss': 0.9975, 'grad_norm': 3.3693838119506836, 'learning_rate': 3.285420944558522e-07, 'epoch': 5.84}
+{'loss': 0.9822, 'grad_norm': 3.2594144344329834, 'learning_rate': 3.2511978097193705e-07, 'epoch': 5.84}
+{'loss': 0.9756, 'grad_norm': 3.4055566787719727, 'learning_rate': 3.2169746748802195e-07, 'epoch': 5.84}
+{'loss': 0.9845, 'grad_norm': 3.2998416423797607, 'learning_rate': 3.182751540041068e-07, 'epoch': 5.85}
+{'loss': 1.003, 'grad_norm': 3.353848695755005, 'learning_rate': 3.1485284052019165e-07, 'epoch': 5.85}
+{'loss': 0.9941, 'grad_norm': 3.363267421722412, 'learning_rate': 3.1143052703627655e-07, 'epoch': 5.85}
+{'loss': 1.012, 'grad_norm': 3.472019910812378, 'learning_rate': 3.080082135523614e-07, 'epoch': 5.85}
+{'eval_loss': 1.926558017730713, 'eval_runtime': 11.6288, 'eval_samples_per_second': 51.596, 'eval_steps_per_second': 1.118, 'epoch': 5.85}
+{'loss': 1.0042, 'grad_norm': 3.5137672424316406, 'learning_rate': 3.045859000684463e-07, 'epoch': 5.85}
+{'loss': 0.9499, 'grad_norm': 3.3466572761535645, 'learning_rate': 3.0116358658453115e-07, 'epoch': 5.86}
+{'loss': 0.9777, 'grad_norm': 3.4033164978027344, 'learning_rate': 2.9774127310061606e-07, 'epoch': 5.86}
+{'loss': 0.9572, 'grad_norm': 3.3246898651123047, 'learning_rate': 2.943189596167009e-07, 'epoch': 5.86}
+{'loss': 0.9966, 'grad_norm': 3.402743339538574, 'learning_rate': 2.9089664613278576e-07, 'epoch': 5.86}
+{'loss': 0.9735, 'grad_norm': 3.4023361206054688, 'learning_rate': 2.8747433264887066e-07, 'epoch': 5.86}
+{'loss': 0.9922, 'grad_norm': 3.348010540008545, 'learning_rate': 2.840520191649555e-07, 'epoch': 5.87}
+{'loss': 0.9797, 'grad_norm': 3.4672117233276367, 'learning_rate': 2.806297056810404e-07, 'epoch': 5.87}
+{'loss': 0.964, 'grad_norm': 3.3484203815460205, 'learning_rate': 2.772073921971253e-07, 'epoch': 5.87}
+{'loss': 0.9725, 'grad_norm': 3.3418662548065186, 'learning_rate': 2.7378507871321016e-07, 'epoch': 5.87}
+{'eval_loss': 1.924973964691162, 'eval_runtime': 11.486, 'eval_samples_per_second': 52.237, 'eval_steps_per_second': 1.132, 'epoch': 5.87}
+{'loss': 0.9814, 'grad_norm': 3.340813398361206, 'learning_rate': 2.70362765229295e-07, 'epoch': 5.87}
+{'loss': 0.9838, 'grad_norm': 3.3937296867370605, 'learning_rate': 2.669404517453799e-07, 'epoch': 5.88}
+{'loss': 0.9972, 'grad_norm': 3.401949882507324, 'learning_rate': 2.6351813826146477e-07, 'epoch': 5.88}
+{'loss': 0.9868, 'grad_norm': 3.437584400177002, 'learning_rate': 2.6009582477754967e-07, 'epoch': 5.88}
+{'loss': 0.9903, 'grad_norm': 3.474538803100586, 'learning_rate': 2.566735112936345e-07, 'epoch': 5.88}
+{'loss': 0.9756, 'grad_norm': 3.4121110439300537, 'learning_rate': 2.5325119780971937e-07, 'epoch': 5.89}
+{'loss': 0.9437, 'grad_norm': 3.287808656692505, 'learning_rate': 2.4982888432580427e-07, 'epoch': 5.89}
+{'loss': 0.9632, 'grad_norm': 3.313819408416748, 'learning_rate': 2.464065708418891e-07, 'epoch': 5.89}
+{'loss': 0.9676, 'grad_norm': 3.3074471950531006, 'learning_rate': 2.42984257357974e-07, 'epoch': 5.89}
+{'loss': 0.9903, 'grad_norm': 3.555638074874878, 'learning_rate': 2.3956194387405887e-07, 'epoch': 5.89}
+{'eval_loss': 1.925595760345459, 'eval_runtime': 11.5742, 'eval_samples_per_second': 51.839, 'eval_steps_per_second': 1.123, 'epoch': 5.89}
+{'loss': 1.0148, 'grad_norm': 3.4897780418395996, 'learning_rate': 2.3613963039014375e-07, 'epoch': 5.9}
+{'loss': 0.9983, 'grad_norm': 3.441293954849243, 'learning_rate': 2.3271731690622863e-07, 'epoch': 5.9}
+{'loss': 0.9825, 'grad_norm': 3.2815356254577637, 'learning_rate': 2.292950034223135e-07, 'epoch': 5.9}
+{'loss': 0.9855, 'grad_norm': 3.351623296737671, 'learning_rate': 2.258726899383984e-07, 'epoch': 5.9}
+{'loss': 0.982, 'grad_norm': 3.3429136276245117, 'learning_rate': 2.2245037645448323e-07, 'epoch': 5.9}
+{'loss': 0.9656, 'grad_norm': 3.3041045665740967, 'learning_rate': 2.1902806297056813e-07, 'epoch': 5.91}
+{'loss': 0.9754, 'grad_norm': 3.355830192565918, 'learning_rate': 2.15605749486653e-07, 'epoch': 5.91}
+{'loss': 0.9734, 'grad_norm': 3.343534231185913, 'learning_rate': 2.1218343600273788e-07, 'epoch': 5.91}
+{'loss': 0.9576, 'grad_norm': 3.2408127784729004, 'learning_rate': 2.0876112251882273e-07, 'epoch': 5.91}
+{'loss': 0.9934, 'grad_norm': 3.407942771911621, 'learning_rate': 2.053388090349076e-07, 'epoch': 5.91}
+{'eval_loss': 1.9242480993270874, 'eval_runtime': 11.5849, 'eval_samples_per_second': 51.791, 'eval_steps_per_second': 1.122, 'epoch': 5.91}
+{'loss': 0.9973, 'grad_norm': 3.4423859119415283, 'learning_rate': 2.0191649555099249e-07, 'epoch': 5.92}
+{'loss': 0.993, 'grad_norm': 3.3249900341033936, 'learning_rate': 1.9849418206707736e-07, 'epoch': 5.92}
+{'loss': 1.0142, 'grad_norm': 3.458463668823242, 'learning_rate': 1.9507186858316224e-07, 'epoch': 5.92}
+{'loss': 0.9763, 'grad_norm': 3.3131985664367676, 'learning_rate': 1.916495550992471e-07, 'epoch': 5.92}
+{'loss': 0.9944, 'grad_norm': 3.4652891159057617, 'learning_rate': 1.8822724161533196e-07, 'epoch': 5.92}
+{'loss': 0.9821, 'grad_norm': 3.4015848636627197, 'learning_rate': 1.8480492813141684e-07, 'epoch': 5.93}
+{'loss': 0.9974, 'grad_norm': 3.3998606204986572, 'learning_rate': 1.8138261464750174e-07, 'epoch': 5.93}
+{'loss': 1.0006, 'grad_norm': 3.3530147075653076, 'learning_rate': 1.7796030116358662e-07, 'epoch': 5.93}
+{'loss': 0.9739, 'grad_norm': 3.2517178058624268, 'learning_rate': 1.7453798767967147e-07, 'epoch': 5.93}
+{'loss': 0.9777, 'grad_norm': 3.371318817138672, 'learning_rate': 1.7111567419575635e-07, 'epoch': 5.93}
+{'eval_loss': 1.9234172105789185, 'eval_runtime': 11.6137, 'eval_samples_per_second': 51.663, 'eval_steps_per_second': 1.119, 'epoch': 5.93}
+{'loss': 0.9843, 'grad_norm': 3.271270751953125, 'learning_rate': 1.6769336071184122e-07, 'epoch': 5.94}
+{'loss': 0.9898, 'grad_norm': 3.3112733364105225, 'learning_rate': 1.642710472279261e-07, 'epoch': 5.94}
+{'loss': 1.0083, 'grad_norm': 3.517131805419922, 'learning_rate': 1.6084873374401097e-07, 'epoch': 5.94}
+{'loss': 0.9756, 'grad_norm': 3.2481093406677246, 'learning_rate': 1.5742642026009582e-07, 'epoch': 5.94}
+{'loss': 0.998, 'grad_norm': 3.4305946826934814, 'learning_rate': 1.540041067761807e-07, 'epoch': 5.94}
+{'loss': 0.9841, 'grad_norm': 3.3312361240386963, 'learning_rate': 1.5058179329226558e-07, 'epoch': 5.95}
+{'loss': 0.9904, 'grad_norm': 3.379835605621338, 'learning_rate': 1.4715947980835045e-07, 'epoch': 5.95}
+{'loss': 0.9872, 'grad_norm': 3.382678508758545, 'learning_rate': 1.4373716632443533e-07, 'epoch': 5.95}
+{'loss': 0.9841, 'grad_norm': 3.309447765350342, 'learning_rate': 1.403148528405202e-07, 'epoch': 5.95}
+{'loss': 1.013, 'grad_norm': 3.4309608936309814, 'learning_rate': 1.3689253935660508e-07, 'epoch': 5.95}
+{'eval_loss': 1.9235848188400269, 'eval_runtime': 11.6024, 'eval_samples_per_second': 51.713, 'eval_steps_per_second': 1.12, 'epoch': 5.95}
+{'loss': 0.9746, 'grad_norm': 3.252171516418457, 'learning_rate': 1.3347022587268996e-07, 'epoch': 5.96}
+{'loss': 0.9805, 'grad_norm': 3.2154541015625, 'learning_rate': 1.3004791238877483e-07, 'epoch': 5.96}
+{'loss': 1.0019, 'grad_norm': 3.4737164974212646, 'learning_rate': 1.2662559890485968e-07, 'epoch': 5.96}
+{'loss': 0.9753, 'grad_norm': 3.2901337146759033, 'learning_rate': 1.2320328542094456e-07, 'epoch': 5.96}
+{'loss': 1.0079, 'grad_norm': 3.4695141315460205, 'learning_rate': 1.1978097193702944e-07, 'epoch': 5.97}
+{'loss': 0.9818, 'grad_norm': 3.369525671005249, 'learning_rate': 1.1635865845311431e-07, 'epoch': 5.97}
+{'loss': 0.994, 'grad_norm': 3.4004862308502197, 'learning_rate': 1.129363449691992e-07, 'epoch': 5.97}
+{'loss': 0.9888, 'grad_norm': 3.4096100330352783, 'learning_rate': 1.0951403148528407e-07, 'epoch': 5.97}
+{'loss': 0.9929, 'grad_norm': 3.3274765014648438, 'learning_rate': 1.0609171800136894e-07, 'epoch': 5.97}
+{'loss': 0.979, 'grad_norm': 3.375500440597534, 'learning_rate': 1.026694045174538e-07, 'epoch': 5.98}
+{'eval_loss': 1.92357337474823, 'eval_runtime': 11.6197, 'eval_samples_per_second': 51.637, 'eval_steps_per_second': 1.119, 'epoch': 5.98}
+{'loss': 1.0051, 'grad_norm': 3.3491382598876953, 'learning_rate': 9.924709103353868e-08, 'epoch': 5.98}
+{'loss': 0.9885, 'grad_norm': 3.319262742996216, 'learning_rate': 9.582477754962354e-08, 'epoch': 5.98}
+{'loss': 0.984, 'grad_norm': 3.4194631576538086, 'learning_rate': 9.240246406570842e-08, 'epoch': 5.98}
+{'loss': 0.9752, 'grad_norm': 3.3835196495056152, 'learning_rate': 8.898015058179331e-08, 'epoch': 5.98}
+{'loss': 0.9746, 'grad_norm': 3.2696778774261475, 'learning_rate': 8.555783709787817e-08, 'epoch': 5.99}
+{'loss': 1.0001, 'grad_norm': 3.298457145690918, 'learning_rate': 8.213552361396305e-08, 'epoch': 5.99}
+{'loss': 0.993, 'grad_norm': 3.359079122543335, 'learning_rate': 7.871321013004791e-08, 'epoch': 5.99}
+{'loss': 0.9923, 'grad_norm': 3.404832601547241, 'learning_rate': 7.529089664613279e-08, 'epoch': 5.99}
+{'loss': 0.9648, 'grad_norm': 3.3400092124938965, 'learning_rate': 7.186858316221766e-08, 'epoch': 5.99}
+{'loss': 0.979, 'grad_norm': 3.3187620639801025, 'learning_rate': 6.844626967830254e-08, 'epoch': 6.0}
+{'eval_loss': 1.9240258932113647, 'eval_runtime': 11.5892, 'eval_samples_per_second': 51.772, 'eval_steps_per_second': 1.122, 'epoch': 6.0}
+{'loss': 0.9807, 'grad_norm': 3.3984453678131104, 'learning_rate': 6.502395619438742e-08, 'epoch': 6.0}
+{'loss': 0.9615, 'grad_norm': 3.2972512245178223, 'learning_rate': 6.160164271047228e-08, 'epoch': 6.0}
+{'train_runtime': 32012.2915, 'train_samples_per_second': 3.284, 'train_steps_per_second': 0.091, 'train_loss': 1.267335325887479, 'epoch': 6.0}
diff --git a/wandb/run-20241031_114700-jx2hqvx3/files/wandb-metadata.json b/wandb/run-20241031_114700-jx2hqvx3/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..6d36517734935a364d87376e11fecb2414701939
--- /dev/null
+++ b/wandb/run-20241031_114700-jx2hqvx3/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T15:47:00.195452Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753158594560"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_012438-61w48leq/files/config.yaml b/wandb/run-20241101_012438-61w48leq/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..16d25ee0e4092474360045faaf0959cfc1b3e91d
--- /dev/null
+++ b/wandb/run-20241101_012438-61w48leq/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 6
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_nodeterministic
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241101_012438-61w48leq/files/output.log b/wandb/run-20241101_012438-61w48leq/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5824b3c1b0e7410256b3374a200db5bd3cc11c9d
--- /dev/null
+++ b/wandb/run-20241101_012438-61w48leq/files/output.log
@@ -0,0 +1,12 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 164, in <module>
+    dataset = load_dataset('babylm_dataset_test.py', name=dataset_name, trust_remote_code=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 2074, in load_dataset
+    builder_instance = load_dataset_builder(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 1832, in load_dataset_builder
+    builder_instance: DatasetBuilder = builder_cls(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 342, in __init__
+    self.config, self.config_id = self._create_builder_config(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 569, in _create_builder_config
+    raise ValueError(
+ValueError: BuilderConfig 'babylm_shuffle_nodeterministic_10M_seed0' not found. Available: ['babylm_hop_control_10M_seed0', 'babylm_hop_tokens4_10M_seed0', 'babylm_hop_words4_10M_seed0', 'babylm_reverse_control_10M_seed0', 'babylm_reverse_partial_10M_seed0', 'babylm_reverse_full_10M_seed0', 'babylm_shuffle_control_10M_seed0', 'babylm_shuffle_nondeterministic_10M_seed0', 'babylm_shuffle_deterministic21_10M_seed0', 'babylm_shuffle_deterministic57_10M_seed0', 'babylm_shuffle_deterministic84_10M_seed0', 'babylm_shuffle_local3_10M_seed0', 'babylm_shuffle_local5_10M_seed0', 'babylm_shuffle_local10_10M_seed0', 'babylm_shuffle_even_odd_10M_seed0']
diff --git a/wandb/run-20241101_012438-61w48leq/files/wandb-metadata.json b/wandb/run-20241101_012438-61w48leq/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..faed3d976fb7bad9ac7714501148798c45b80790
--- /dev/null
+++ b/wandb/run-20241101_012438-61w48leq/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-01T05:24:38.161201Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nodeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753992159232"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_012438-61w48leq/files/wandb-summary.json b/wandb/run-20241101_012438-61w48leq/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20241101_012438-61w48leq/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20241101_012438-61w48leq/run-61w48leq.wandb b/wandb/run-20241101_012438-61w48leq/run-61w48leq.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..8eb5513fdd5ceef124c6f8f249d987f19d224a5c
Binary files /dev/null and b/wandb/run-20241101_012438-61w48leq/run-61w48leq.wandb differ
diff --git a/wandb/run-20241101_012734-m18lsdzn/files/wandb-metadata.json b/wandb/run-20241101_012734-m18lsdzn/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..33ebf899f532c5b4b1e87868146002bb5eadfd7c
--- /dev/null
+++ b/wandb/run-20241101_012734-m18lsdzn/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-01T05:27:34.134177Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753992269824"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_012734-m18lsdzn/logs/debug-internal.log b/wandb/run-20241101_012734-m18lsdzn/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..c122a444f8592128df7504502fb73ac43f77635c
--- /dev/null
+++ b/wandb/run-20241101_012734-m18lsdzn/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-01T01:27:34.136793008-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T01:27:34.136814509-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_012734-m18lsdzn/logs/debug-core.log"}
+{"time":"2024-11-01T01:27:34.243830731-04:00","level":"INFO","msg":"created new stream","id":"m18lsdzn"}
+{"time":"2024-11-01T01:27:34.243863612-04:00","level":"INFO","msg":"stream: started","id":"m18lsdzn"}
+{"time":"2024-11-01T01:27:34.244001533-04:00","level":"INFO","msg":"sender: started","stream_id":"m18lsdzn"}
+{"time":"2024-11-01T01:27:34.243939362-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"m18lsdzn"}}
+{"time":"2024-11-01T01:27:34.243890052-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"m18lsdzn"}}
+{"time":"2024-11-01T01:27:34.468881692-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241101_092804-qhsuxbxe/run-qhsuxbxe.wandb b/wandb/run-20241101_092804-qhsuxbxe/run-qhsuxbxe.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e3f22a20121f49d3627b45ed6e12025c7077036b
Binary files /dev/null and b/wandb/run-20241101_092804-qhsuxbxe/run-qhsuxbxe.wandb differ
diff --git a/wandb/run-20241101_200517-77b12390/run-77b12390.wandb b/wandb/run-20241101_200517-77b12390/run-77b12390.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20241101_200517-iopieyi0/files/config.yaml b/wandb/run-20241101_200517-iopieyi0/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4e34fec43368c51fb4bd10a24a21dd490ecdba44
--- /dev/null
+++ b/wandb/run-20241101_200517-iopieyi0/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_nondeterministic
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241101_200517-iopieyi0/files/output.log b/wandb/run-20241101_200517-iopieyi0/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..567601afa4d674b46a1e8af443003d6fa581422e
--- /dev/null
+++ b/wandb/run-20241101_200517-iopieyi0/files/output.log
@@ -0,0 +1,42 @@
+Downloading shards:   0%|                                                                                                                                                               | 0/2 [00:07<?, ?it/s]
+Error in sys.excepthook:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/linecache.py", line 46, in getlines
+    return updatecache(filename, module_globals)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/linecache.py", line 136, in updatecache
+    with tokenize.open(fullname) as fp:
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/tokenize.py", line 394, in open
+    encoding, lines = detect_encoding(buffer.readline)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/tokenize.py", line 363, in detect_encoding
+    first = read_or_stop()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/tokenize.py", line 321, in read_or_stop
+    return readline()
+KeyboardInterrupt
+
+Original exception was:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 173, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1380, in _hf_hub_download_to_cache_dir
+    with WeakFileLock(lock_path):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/contextlib.py", line 119, in __enter__
+    return next(self.gen)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_fixes.py", line 98, in WeakFileLock
+    lock.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241101_200517-iopieyi0/files/requirements.txt b/wandb/run-20241101_200517-iopieyi0/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_200517-iopieyi0/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_200517-iopieyi0/files/wandb-metadata.json b/wandb/run-20241101_200517-iopieyi0/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..c2def505a103fb57f78c19bc4af1d5ea783091aa
--- /dev/null
+++ b/wandb/run-20241101_200517-iopieyi0/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:05:17.140953Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754801557504"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_200517-iopieyi0/files/wandb-summary.json b/wandb/run-20241101_200517-iopieyi0/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..779a0b5a17ed7980591fb713a2a4db505a51ed4b
--- /dev/null
+++ b/wandb/run-20241101_200517-iopieyi0/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":8}}
\ No newline at end of file
diff --git a/wandb/run-20241101_200517-iopieyi0/logs/debug-internal.log b/wandb/run-20241101_200517-iopieyi0/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..37f25a15cec85e068d839a2a60b87893eeb2945c
--- /dev/null
+++ b/wandb/run-20241101_200517-iopieyi0/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2024-11-01T20:05:17.143962046-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T20:05:17.143982966-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_200517-iopieyi0/logs/debug-core.log"}
+{"time":"2024-11-01T20:05:17.249463211-04:00","level":"INFO","msg":"created new stream","id":"iopieyi0"}
+{"time":"2024-11-01T20:05:17.249485021-04:00","level":"INFO","msg":"stream: started","id":"iopieyi0"}
+{"time":"2024-11-01T20:05:17.249553251-04:00","level":"INFO","msg":"sender: started","stream_id":"iopieyi0"}
+{"time":"2024-11-01T20:05:17.249556141-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"iopieyi0"}}
+{"time":"2024-11-01T20:05:17.249534441-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"iopieyi0"}}
+{"time":"2024-11-01T20:05:17.488885363-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-01T20:05:25.263236061-04:00","level":"INFO","msg":"stream: closing","id":"iopieyi0"}
+{"time":"2024-11-01T20:05:25.263331811-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-01T20:05:25.264008616-04:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20241101_201927-8tmqrwpx/logs/debug-internal.log b/wandb/run-20241101_201927-8tmqrwpx/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..92428d3b3922ec1ef50cc33a0d0871b79e031b8b
--- /dev/null
+++ b/wandb/run-20241101_201927-8tmqrwpx/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-01T20:19:27.015302603-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T20:19:27.015321923-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201927-8tmqrwpx/logs/debug-core.log"}
+{"time":"2024-11-01T20:19:27.121571158-04:00","level":"INFO","msg":"created new stream","id":"8tmqrwpx"}
+{"time":"2024-11-01T20:19:27.121598178-04:00","level":"INFO","msg":"stream: started","id":"8tmqrwpx"}
+{"time":"2024-11-01T20:19:27.121628798-04:00","level":"INFO","msg":"sender: started","stream_id":"8tmqrwpx"}
+{"time":"2024-11-01T20:19:27.121672758-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"8tmqrwpx"}}
+{"time":"2024-11-01T20:19:27.121613458-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"8tmqrwpx"}}
+{"time":"2024-11-01T20:19:27.355884937-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-01T20:20:25.212793119-04:00","level":"INFO","msg":"stream: closing","id":"8tmqrwpx"}
+{"time":"2024-11-01T20:20:25.212864349-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-01T20:20:25.214203517-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-01T20:20:25.558844402-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-01T20:20:25.688669501-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"8tmqrwpx"}}
+{"time":"2024-11-01T20:20:25.688704032-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"8tmqrwpx"}}
+{"time":"2024-11-01T20:20:25.688738252-04:00","level":"INFO","msg":"sender: closed","stream_id":"8tmqrwpx"}
+{"time":"2024-11-01T20:20:25.688758612-04:00","level":"INFO","msg":"stream: closed","id":"8tmqrwpx"}
diff --git a/wandb/run-20241105_160059-czoj7ear/files/wandb-summary.json b/wandb/run-20241105_160059-czoj7ear/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..a59211b910c7b68e6827eb6c887d30d98244727c
--- /dev/null
+++ b/wandb/run-20241105_160059-czoj7ear/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":5}}
\ No newline at end of file
diff --git a/wandb/run-20241105_160059-czoj7ear/logs/debug-internal.log b/wandb/run-20241105_160059-czoj7ear/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..a35bf7ca1bd972853686907a7d36bcfca1fa87d1
--- /dev/null
+++ b/wandb/run-20241105_160059-czoj7ear/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-05T16:00:59.421616162-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T16:00:59.421628512-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_160059-czoj7ear/logs/debug-core.log"}
+{"time":"2024-11-05T16:01:04.448895853-05:00","level":"INFO","msg":"created new stream","id":"czoj7ear"}
+{"time":"2024-11-05T16:01:04.448941013-05:00","level":"INFO","msg":"stream: started","id":"czoj7ear"}
+{"time":"2024-11-05T16:01:04.449026033-05:00","level":"INFO","msg":"sender: started","stream_id":"czoj7ear"}
+{"time":"2024-11-05T16:01:04.448975523-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"czoj7ear"}}
+{"time":"2024-11-05T16:01:04.449027943-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"czoj7ear"}}
+{"time":"2024-11-05T16:01:04.684712499-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-05T16:01:04.794485285-05:00","level":"INFO","msg":"stream: closing","id":"czoj7ear"}
+{"time":"2024-11-05T16:01:04.794512205-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-05T16:01:04.794592695-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-05T16:01:05.093812959-05:00","level":"ERROR","msg":"sender: sendDefer: failed to build job artifact","error":"failed to write data to file: write /tmp/tmpfile-3701223180: no space left on device"}
+{"time":"2024-11-05T16:01:05.340839422-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-05T16:01:05.518421834-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"czoj7ear"}}
+{"time":"2024-11-05T16:01:05.518467794-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"czoj7ear"}}
+{"time":"2024-11-05T16:01:05.518480744-05:00","level":"INFO","msg":"sender: closed","stream_id":"czoj7ear"}
+{"time":"2024-11-05T16:01:05.518572734-05:00","level":"INFO","msg":"stream: closed","id":"czoj7ear"}
diff --git a/wandb/run-20241105_160059-czoj7ear/run-czoj7ear.wandb b/wandb/run-20241105_160059-czoj7ear/run-czoj7ear.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..cbf12c0df9c2cefcbc2154cb836211b9ffac971b
Binary files /dev/null and b/wandb/run-20241105_160059-czoj7ear/run-czoj7ear.wandb differ
diff --git a/wandb/run-20241105_161832-c18fx9uc/files/requirements.txt b/wandb/run-20241105_161832-c18fx9uc/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241105_161832-c18fx9uc/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241105_162858-6py0unak/files/config.yaml b/wandb/run-20241105_162858-6py0unak/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..3771760e607bdb2dcb978de96a047ebe2475f806
--- /dev/null
+++ b/wandb/run-20241105_162858-6py0unak/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic57
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241105_162858-6py0unak/files/output.log b/wandb/run-20241105_162858-6py0unak/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..ff314b514802207b2268559411cd06112eae1aae
--- /dev/null
+++ b/wandb/run-20241105_162858-6py0unak/files/output.log
@@ -0,0 +1,34 @@
+Downloading shards:   0%|                                                                                                                                        | 0/2 [00:00<?, ?it/s]
+Error in sys.excepthook:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/exit_hooks.py", line 41, in exc_handler
+    def exc_handler(
+KeyboardInterrupt
+
+Original exception was:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1380, in _hf_hub_download_to_cache_dir
+    with WeakFileLock(lock_path):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/contextlib.py", line 119, in __enter__
+    return next(self.gen)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_fixes.py", line 98, in WeakFileLock
+    lock.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241105_162858-6py0unak/files/requirements.txt b/wandb/run-20241105_162858-6py0unak/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241105_162858-6py0unak/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241105_162858-6py0unak/files/wandb-metadata.json b/wandb/run-20241105_162858-6py0unak/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..1a24bbff7f2214617300143dea72ebc89248aa5c
--- /dev/null
+++ b/wandb/run-20241105_162858-6py0unak/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T21:28:58.840904Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic57",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1785811787776"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_162858-6py0unak/files/wandb-summary.json b/wandb/run-20241105_162858-6py0unak/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..15f6b8e9049a55292dab131278b3f2fc1f52e50d
--- /dev/null
+++ b/wandb/run-20241105_162858-6py0unak/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":23}}
\ No newline at end of file
diff --git a/wandb/run-20241105_162858-6py0unak/logs/debug-internal.log b/wandb/run-20241105_162858-6py0unak/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..a982b9d940180358beaaf673e95361e5e4570fac
--- /dev/null
+++ b/wandb/run-20241105_162858-6py0unak/logs/debug-internal.log
@@ -0,0 +1,12 @@
+{"time":"2024-11-05T16:28:58.843383096-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T16:28:58.843400236-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_162858-6py0unak/logs/debug-core.log"}
+{"time":"2024-11-05T16:28:58.951956143-05:00","level":"INFO","msg":"created new stream","id":"6py0unak"}
+{"time":"2024-11-05T16:28:58.952002873-05:00","level":"INFO","msg":"stream: started","id":"6py0unak"}
+{"time":"2024-11-05T16:28:58.952045833-05:00","level":"INFO","msg":"sender: started","stream_id":"6py0unak"}
+{"time":"2024-11-05T16:28:58.952018493-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"6py0unak"}}
+{"time":"2024-11-05T16:28:58.952045693-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"6py0unak"}}
+{"time":"2024-11-05T16:28:59.159891406-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-05T16:29:22.458107091-05:00","level":"INFO","msg":"stream: closing","id":"6py0unak"}
+{"time":"2024-11-05T16:29:22.458143501-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-05T16:29:22.458735014-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-05T16:29:22.68105964-05:00","level":"INFO","msg":"api: retrying HTTP error","status":503,"url":"https://api.wandb.ai/graphql"}
diff --git a/wandb/run-20241105_162858-6py0unak/logs/debug.log b/wandb/run-20241105_162858-6py0unak/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..3cccf1086bfe14643961d9375630065e1e810ee5
--- /dev/null
+++ b/wandb/run-20241105_162858-6py0unak/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Configure stats pid to 1778375
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-05 16:28:58,838 INFO    MainThread:1778375 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-05 16:28:58,839 INFO    MainThread:1778375 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_162858-6py0unak/logs/debug.log
+2024-11-05 16:28:58,839 INFO    MainThread:1778375 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_162858-6py0unak/logs/debug-internal.log
+2024-11-05 16:28:58,839 INFO    MainThread:1778375 [wandb_init.py:init():621] calling init triggers
+2024-11-05 16:28:58,839 INFO    MainThread:1778375 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-05 16:28:58,839 INFO    MainThread:1778375 [wandb_init.py:init():671] starting backend
+2024-11-05 16:28:58,839 INFO    MainThread:1778375 [wandb_init.py:init():675] sending inform_init request
+2024-11-05 16:28:58,840 INFO    MainThread:1778375 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-05 16:28:58,840 INFO    MainThread:1778375 [wandb_init.py:init():688] backend started and connected
+2024-11-05 16:28:58,844 INFO    MainThread:1778375 [wandb_init.py:init():783] updated telemetry
+2024-11-05 16:28:58,865 INFO    MainThread:1778375 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-05 16:28:59,157 INFO    MainThread:1778375 [wandb_init.py:init():867] starting run threads in backend
+2024-11-05 16:28:59,247 INFO    MainThread:1778375 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-05 16:28:59,247 INFO    MainThread:1778375 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-05 16:28:59,247 INFO    MainThread:1778375 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-05 16:28:59,247 INFO    MainThread:1778375 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-05 16:28:59,249 INFO    MainThread:1778375 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-05 16:28:59,249 INFO    MainThread:1778375 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic57', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-05 16:29:22,458 WARNING MsgRouterThr:1778375 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241105_163001-vvohahtj/run-vvohahtj.wandb b/wandb/run-20241105_163001-vvohahtj/run-vvohahtj.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20241105_163244-59l4qxgx/files/output.log b/wandb/run-20241105_163244-59l4qxgx/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..652029e42c7cba5c05e85b281699b3246ef31bd5
--- /dev/null
+++ b/wandb/run-20241105_163244-59l4qxgx/files/output.log
@@ -0,0 +1,16 @@
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:59<00:00, 29.58s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.22s/it]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16425/16425 [00:44<00:00, 372.16 examples/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17013/17013 [00:45<00:00, 370.79 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-05 16:35:22,574] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-05 16:35:30,396] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.854497671127319 seconds
diff --git a/wandb/run-20241105_163244-59l4qxgx/files/requirements.txt b/wandb/run-20241105_163244-59l4qxgx/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241105_163244-59l4qxgx/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241105_163244-59l4qxgx/files/wandb-metadata.json b/wandb/run-20241105_163244-59l4qxgx/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..2d5feb2ac60de847437ded9a9ae0389afa709dc2
--- /dev/null
+++ b/wandb/run-20241105_163244-59l4qxgx/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T21:32:44.826023Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic57",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1785985114112"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_163244-59l4qxgx/logs/debug-internal.log b/wandb/run-20241105_163244-59l4qxgx/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..afa61b5f8f4b1795f32d24f06f0baf1a71bf7dad
--- /dev/null
+++ b/wandb/run-20241105_163244-59l4qxgx/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-05T16:32:44.829306397-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T16:32:44.829332777-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_163244-59l4qxgx/logs/debug-core.log"}
+{"time":"2024-11-05T16:32:44.93810323-05:00","level":"INFO","msg":"created new stream","id":"59l4qxgx"}
+{"time":"2024-11-05T16:32:44.938150721-05:00","level":"INFO","msg":"stream: started","id":"59l4qxgx"}
+{"time":"2024-11-05T16:32:44.938306691-05:00","level":"INFO","msg":"sender: started","stream_id":"59l4qxgx"}
+{"time":"2024-11-05T16:32:44.938213491-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"59l4qxgx"}}
+{"time":"2024-11-05T16:32:44.938500142-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"59l4qxgx"}}
+{"time":"2024-11-05T16:32:45.123949587-05:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241105_163244-59l4qxgx/logs/debug.log b/wandb/run-20241105_163244-59l4qxgx/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..fa1ea7f80f15d73f3afc75c195676bbb27f60dc6
--- /dev/null
+++ b/wandb/run-20241105_163244-59l4qxgx/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-05 16:32:44,822 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Configure stats pid to 1780851
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_163244-59l4qxgx/logs/debug.log
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_163244-59l4qxgx/logs/debug-internal.log
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_init.py:init():621] calling init triggers
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_init.py:init():671] starting backend
+2024-11-05 16:32:44,823 INFO    MainThread:1780851 [wandb_init.py:init():675] sending inform_init request
+2024-11-05 16:32:44,825 INFO    MainThread:1780851 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-05 16:32:44,825 INFO    MainThread:1780851 [wandb_init.py:init():688] backend started and connected
+2024-11-05 16:32:44,830 INFO    MainThread:1780851 [wandb_init.py:init():783] updated telemetry
+2024-11-05 16:32:44,850 INFO    MainThread:1780851 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-05 16:32:45,120 INFO    MainThread:1780851 [wandb_init.py:init():867] starting run threads in backend
+2024-11-05 16:32:45,216 INFO    MainThread:1780851 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-05 16:32:45,216 INFO    MainThread:1780851 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-05 16:32:45,216 INFO    MainThread:1780851 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-05 16:32:45,216 INFO    MainThread:1780851 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-05 16:32:45,218 INFO    MainThread:1780851 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-05 16:32:45,218 INFO    MainThread:1780851 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic57', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241106_224719-cbbyxkvt/files/config.yaml b/wandb/run-20241106_224719-cbbyxkvt/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..025777de0855ad8a4f34458314eae4f0aad3bd51
--- /dev/null
+++ b/wandb/run-20241106_224719-cbbyxkvt/files/config.yaml
@@ -0,0 +1,531 @@
+_name_or_path:
+    value: meta-llama/Llama-3.2-3B
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": eval/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": train/learning_rate
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/epoch
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/runtime
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+epoch:
+    value: 3
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+head_dim:
+    value: 128
+hidden_act:
+    value: silu
+hidden_size:
+    value: 3072
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 8192
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 131072
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mlp_bias:
+    value: false
+model/num_parameters:
+    value: 3212749824
+model_type:
+    value: llama
+mp_parameters:
+    value: ""
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 24
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 28
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 3
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/Llama-3.2-3B/babylm_shuffle_deterministic84_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: shuffle_deterministic84
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value:
+        factor: 32
+        high_freq_factor: 4
+        low_freq_factor: 1
+        original_max_position_embeddings: 8192
+        rope_type: llama3
+rope_theta:
+    value: 500000
+run_name:
+    value: ./checkpoints/Llama-3.2-3B/babylm_shuffle_deterministic84_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.1
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241106_224719-cbbyxkvt/files/wandb-metadata.json b/wandb/run-20241106_224719-cbbyxkvt/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..80edbd552c0ffae373966f25abb12ece1a7e0131
--- /dev/null
+++ b/wandb/run-20241106_224719-cbbyxkvt/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T03:47:19.178095Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic84",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1774852743168"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_224719-cbbyxkvt/files/wandb-summary.json b/wandb/run-20241106_224719-cbbyxkvt/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..b49c871a888f36a40ea8e48387de20374a0e6a49
--- /dev/null
+++ b/wandb/run-20241106_224719-cbbyxkvt/files/wandb-summary.json
@@ -0,0 +1 @@
+{"eval/loss":1.9622313976287842,"total_flos":8.528958544014213e+17,"_timestamp":1.7310036324976737e+09,"train/epoch":2.9983561643835617,"train/learning_rate":3.4524776604386676e-08,"eval/steps_per_second":1.132,"_step":3009,"train_loss":1.886892186488673,"train/grad_norm":2.6289279460906982,"train_steps_per_second":0.052,"_runtime":52393.543233307,"train/loss":1.7716,"train/global_step":2736,"eval/samples_per_second":26.962,"_wandb":{"runtime":52393},"train_runtime":52115.7941,"eval/runtime":37.0886,"train_samples_per_second":0.945}
\ No newline at end of file
diff --git a/wandb/run-20241106_224719-cbbyxkvt/logs/debug-internal.log b/wandb/run-20241106_224719-cbbyxkvt/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..9c5a97ee6b217588aca31446efaabb37a5cf7389
--- /dev/null
+++ b/wandb/run-20241106_224719-cbbyxkvt/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2024-11-06T22:47:19.180796292-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T22:47:19.180812592-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224719-cbbyxkvt/logs/debug-core.log"}
+{"time":"2024-11-06T22:47:19.287087851-05:00","level":"INFO","msg":"created new stream","id":"cbbyxkvt"}
+{"time":"2024-11-06T22:47:19.287125471-05:00","level":"INFO","msg":"stream: started","id":"cbbyxkvt"}
+{"time":"2024-11-06T22:47:19.287879776-05:00","level":"INFO","msg":"sender: started","stream_id":"cbbyxkvt"}
+{"time":"2024-11-06T22:47:19.287154341-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"cbbyxkvt"}}
+{"time":"2024-11-06T22:47:19.287206272-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"cbbyxkvt"}}
+{"time":"2024-11-06T22:47:19.477051647-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-07T11:50:49.806818022-05:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/cbbyxkvt/file_stream"}
+{"time":"2024-11-07T13:20:33.021527236-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-07T13:20:33.132928339-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-07T13:20:33.799897821-05:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"saving job artifact","runtime_seconds":0.457180527}],"total_operations":1}}
+{"time":"2024-11-07T13:20:34.055289511-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-07T13:20:35.256968782-05:00","level":"INFO","msg":"stream: closing","id":"cbbyxkvt"}
+{"time":"2024-11-07T13:20:35.257026952-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"cbbyxkvt"}}
+{"time":"2024-11-07T13:20:35.257082123-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"cbbyxkvt"}}
+{"time":"2024-11-07T13:20:35.257132963-05:00","level":"INFO","msg":"sender: closed","stream_id":"cbbyxkvt"}
+{"time":"2024-11-07T13:20:35.257231234-05:00","level":"INFO","msg":"stream: closed","id":"cbbyxkvt"}
diff --git a/wandb/run-20241106_224719-cbbyxkvt/logs/debug.log b/wandb/run-20241106_224719-cbbyxkvt/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..1222565f2700c95b93354b61894f327ca673dc6a
--- /dev/null
+++ b/wandb/run-20241106_224719-cbbyxkvt/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-06 22:47:19,175 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 22:47:19,175 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Configure stats pid to 1984025
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224719-cbbyxkvt/logs/debug.log
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224719-cbbyxkvt/logs/debug-internal.log
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_init.py:init():621] calling init triggers
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_init.py:init():671] starting backend
+2024-11-06 22:47:19,176 INFO    MainThread:1984025 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 22:47:19,177 INFO    MainThread:1984025 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 22:47:19,177 INFO    MainThread:1984025 [wandb_init.py:init():688] backend started and connected
+2024-11-06 22:47:19,181 INFO    MainThread:1984025 [wandb_init.py:init():783] updated telemetry
+2024-11-06 22:47:19,212 INFO    MainThread:1984025 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 22:47:19,474 INFO    MainThread:1984025 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 22:47:19,562 INFO    MainThread:1984025 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 22:47:19,562 INFO    MainThread:1984025 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 22:47:19,562 INFO    MainThread:1984025 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 22:47:19,562 INFO    MainThread:1984025 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 22:47:19,563 INFO    MainThread:1984025 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 22:47:19,564 INFO    MainThread:1984025 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic84', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 22:51:56,706 INFO    MainThread:1984025 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B/babylm_shuffle_deterministic84_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B/babylm_shuffle_deterministic84_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-06 22:51:56,709 INFO    MainThread:1984025 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f1bdef3bdc0>>
+2024-11-06 22:51:56,709 INFO    MainThread:1984025 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-11-07 13:20:32,677 INFO    MainThread:1984025 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-shuffle/cbbyxkvt
+2024-11-07 13:20:32,743 INFO    MainThread:1984025 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-07 13:20:32,798 INFO    MainThread:1984025 [wandb_run.py:_restore():2408] restore
+2024-11-07 13:20:32,799 INFO    MainThread:1984025 [wandb_run.py:_restore():2414] restore done
+2024-11-07 13:20:35,203 INFO    MainThread:1984025 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-07 13:20:35,204 INFO    MainThread:1984025 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-07 13:20:35,246 INFO    MainThread:1984025 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241106_233338-6n0t2ama/files/config.yaml b/wandb/run-20241106_233338-6n0t2ama/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..45c9885a80c6c6551af0939982b4765da8541cf4
--- /dev/null
+++ b/wandb/run-20241106_233338-6n0t2ama/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_233338-6n0t2ama/files/output.log b/wandb/run-20241106_233338-6n0t2ama/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..d48a568a5f45421a9ad389ab97db0d2205a5500d
--- /dev/null
+++ b/wandb/run-20241106_233338-6n0t2ama/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c4325-7ff1e4e923bdf8e936e190c4;808af403-3daf-433d-a433-986a378198a9)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c4325-7ff1e4e923bdf8e936e190c4;808af403-3daf-433d-a433-986a378198a9)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_233338-6n0t2ama/files/wandb-metadata.json b/wandb/run-20241106_233338-6n0t2ama/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..f803fe4ddadc50f8ce4b5091b9622508b72724f4
--- /dev/null
+++ b/wandb/run-20241106_233338-6n0t2ama/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T04:33:38.759360Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1775601975296"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_233338-6n0t2ama/files/wandb-summary.json b/wandb/run-20241106_233338-6n0t2ama/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..1d52051e315a7a21a9d9e5a40a517408bb086162
--- /dev/null
+++ b/wandb/run-20241106_233338-6n0t2ama/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":2}}
\ No newline at end of file
diff --git a/wandb/run-20241106_233338-6n0t2ama/logs/debug-internal.log b/wandb/run-20241106_233338-6n0t2ama/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..d59272f906540a48b72aab3ae0fc576bbedfe264
--- /dev/null
+++ b/wandb/run-20241106_233338-6n0t2ama/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T23:33:38.762668342-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T23:33:38.762679772-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-6n0t2ama/logs/debug-core.log"}
+{"time":"2024-11-06T23:33:38.872778509-05:00","level":"INFO","msg":"created new stream","id":"6n0t2ama"}
+{"time":"2024-11-06T23:33:38.872849-05:00","level":"INFO","msg":"stream: started","id":"6n0t2ama"}
+{"time":"2024-11-06T23:33:38.872974691-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"6n0t2ama"}}
+{"time":"2024-11-06T23:33:38.873048041-05:00","level":"INFO","msg":"sender: started","stream_id":"6n0t2ama"}
+{"time":"2024-11-06T23:33:38.872983901-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"6n0t2ama"}}
+{"time":"2024-11-06T23:33:39.141313312-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T23:33:41.518783271-05:00","level":"INFO","msg":"stream: closing","id":"6n0t2ama"}
+{"time":"2024-11-06T23:33:41.518861582-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T23:33:41.520787187-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T23:33:41.899392436-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T23:33:42.038111648-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"6n0t2ama"}}
+{"time":"2024-11-06T23:33:42.038137639-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"6n0t2ama"}}
+{"time":"2024-11-06T23:33:42.038142929-05:00","level":"INFO","msg":"sender: closed","stream_id":"6n0t2ama"}
+{"time":"2024-11-06T23:33:42.038203459-05:00","level":"INFO","msg":"stream: closed","id":"6n0t2ama"}
diff --git a/wandb/run-20241106_233338-6n0t2ama/run-6n0t2ama.wandb b/wandb/run-20241106_233338-6n0t2ama/run-6n0t2ama.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..31416b43b2e60b915bf746b1fb22656ad5fc2112
Binary files /dev/null and b/wandb/run-20241106_233338-6n0t2ama/run-6n0t2ama.wandb differ
diff --git a/wandb/run-20241113_180154-y8wvn5hq/files/requirements.txt b/wandb/run-20241113_180154-y8wvn5hq/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241113_180154-y8wvn5hq/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241113_180154-y8wvn5hq/logs/debug.log b/wandb/run-20241113_180154-y8wvn5hq/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..de4edcf4a48bf6cfd38e00570073c1676fa9717f
--- /dev/null
+++ b/wandb/run-20241113_180154-y8wvn5hq/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-13 18:01:54,132 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-13 18:01:54,132 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Configure stats pid to 2553105
+2024-11-13 18:01:54,132 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_ftp.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py'}
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241113_180154-y8wvn5hq/logs/debug.log
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241113_180154-y8wvn5hq/logs/debug-internal.log
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_init.py:init():621] calling init triggers
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_init.py:init():671] starting backend
+2024-11-13 18:01:54,133 INFO    MainThread:2553105 [wandb_init.py:init():675] sending inform_init request
+2024-11-13 18:01:54,134 INFO    MainThread:2553105 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-13 18:01:54,134 INFO    MainThread:2553105 [wandb_init.py:init():688] backend started and connected
+2024-11-13 18:01:54,137 INFO    MainThread:2553105 [wandb_init.py:init():783] updated telemetry
+2024-11-13 18:01:54,158 INFO    MainThread:2553105 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-13 18:01:54,478 INFO    MainThread:2553105 [wandb_init.py:init():867] starting run threads in backend
+2024-11-13 18:01:54,601 INFO    MainThread:2553105 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-13 18:01:54,601 INFO    MainThread:2553105 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-13 18:01:54,601 INFO    MainThread:2553105 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-13 18:01:54,601 INFO    MainThread:2553105 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-13 18:01:54,603 INFO    MainThread:2553105 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-13 18:01:54,604 INFO    MainThread:2553105 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241114_090201-9k76d4eg/files/config.yaml b/wandb/run-20241114_090201-9k76d4eg/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e9094da07de7e7a1309dce099cc4fb10f70b198b
--- /dev/null
+++ b/wandb/run-20241114_090201-9k76d4eg/files/config.yaml
@@ -0,0 +1,531 @@
+_name_or_path:
+    value: meta-llama/Llama-3.2-3B
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": eval/runtime
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": eval/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/learning_rate
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/epoch
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+epoch:
+    value: 3
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+head_dim:
+    value: 128
+hidden_act:
+    value: silu
+hidden_size:
+    value: 3072
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 8192
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 131072
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mlp_bias:
+    value: false
+model/num_parameters:
+    value: 3212749824
+model_type:
+    value: llama
+mp_parameters:
+    value: ""
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 24
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 28
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 3
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/Llama-3.2-3B-FTP/babylm_reverse_full_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: reverse_full
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value:
+        factor: 32
+        high_freq_factor: 4
+        low_freq_factor: 1
+        original_max_position_embeddings: 8192
+        rope_type: llama3
+rope_theta:
+    value: 500000
+run_name:
+    value: ./checkpoints/Llama-3.2-3B-FTP/babylm_reverse_full_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.1
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241114_090201-9k76d4eg/files/output.log b/wandb/run-20241114_090201-9k76d4eg/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..47fc33d48b28eeca2889f9f58ec3c86edeb68a6e
--- /dev/null
+++ b/wandb/run-20241114_090201-9k76d4eg/files/output.log
@@ -0,0 +1,3233 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.13s/it]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:48<00:00, 374.29 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-14 09:03:10,862] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-14 09:03:18,323] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-14 09:03:18,323] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Emitting ninja build file /home/chunhui/.cache/torch_extensions/py39_cu117/cpu_adam/build.ninja...
+Building extension module cpu_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 6.294876575469971 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                       
+{'loss': 2.7525, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.7605, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.8008, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.809, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.7841, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7924, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7732, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7953, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7747, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7909, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                       
+{'eval_loss': 2.813098192214966, 'eval_runtime': 38.1187, 'eval_samples_per_second': 26.234, 'eval_steps_per_second': 1.102, 'epoch': 0.01}
+{'loss': 2.7592, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7394, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.8111, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7786, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.7711, 'grad_norm': 5.814355850219727, 'learning_rate': 1.7123287671232876e-08, 'epoch': 0.02}
+{'loss': 2.7622, 'grad_norm': 5.814355850219727, 'learning_rate': 1.7123287671232876e-08, 'epoch': 0.02}
+{'loss': 2.7291, 'grad_norm': 5.814355850219727, 'learning_rate': 1.7123287671232876e-08, 'epoch': 0.02}
+{'loss': 2.7995, 'grad_norm': 6.8249125480651855, 'learning_rate': 3.424657534246575e-08, 'epoch': 0.02}
+{'loss': 2.5998, 'grad_norm': 5.581949710845947, 'learning_rate': 5.136986301369863e-08, 'epoch': 0.02}
+{'loss': 2.6031, 'grad_norm': 3.0888617038726807, 'learning_rate': 6.84931506849315e-08, 'epoch': 0.02}
+{'eval_loss': 2.60642147064209, 'eval_runtime': 38.2226, 'eval_samples_per_second': 26.163, 'eval_steps_per_second': 1.099, 'epoch': 0.02}
+{'loss': 2.5816, 'grad_norm': 4.42941427230835, 'learning_rate': 8.561643835616439e-08, 'epoch': 0.02}
+{'loss': 2.5352, 'grad_norm': 2.359813690185547, 'learning_rate': 1.0273972602739726e-07, 'epoch': 0.02}
+{'loss': 2.4641, 'grad_norm': 2.9022927284240723, 'learning_rate': 1.1986301369863014e-07, 'epoch': 0.02}
+{'loss': 2.4582, 'grad_norm': 1.6895997524261475, 'learning_rate': 1.36986301369863e-07, 'epoch': 0.02}
+{'loss': 2.4171, 'grad_norm': 2.4555776119232178, 'learning_rate': 1.541095890410959e-07, 'epoch': 0.03}
+{'loss': 2.4249, 'grad_norm': 1.9735779762268066, 'learning_rate': 1.7123287671232878e-07, 'epoch': 0.03}
+{'loss': 2.3791, 'grad_norm': 2.71161150932312, 'learning_rate': 1.8835616438356165e-07, 'epoch': 0.03}
+{'loss': 2.374, 'grad_norm': 1.8482733964920044, 'learning_rate': 2.0547945205479452e-07, 'epoch': 0.03}
+{'loss': 2.3557, 'grad_norm': 2.191246747970581, 'learning_rate': 2.226027397260274e-07, 'epoch': 0.03}
+{'loss': 2.3315, 'grad_norm': 2.0575971603393555, 'learning_rate': 2.397260273972603e-07, 'epoch': 0.03}
+{'eval_loss': 2.399639844894409, 'eval_runtime': 37.737, 'eval_samples_per_second': 26.499, 'eval_steps_per_second': 1.113, 'epoch': 0.03}
+{'loss': 2.2791, 'grad_norm': 2.0346758365631104, 'learning_rate': 2.568493150684932e-07, 'epoch': 0.03}
+{'loss': 2.3219, 'grad_norm': 1.8710602521896362, 'learning_rate': 2.73972602739726e-07, 'epoch': 0.03}
+{'loss': 2.273, 'grad_norm': 1.9982675313949585, 'learning_rate': 2.910958904109589e-07, 'epoch': 0.03}
+{'loss': 2.2555, 'grad_norm': 2.092076301574707, 'learning_rate': 3.082191780821918e-07, 'epoch': 0.03}
+{'loss': 2.2314, 'grad_norm': 1.870373249053955, 'learning_rate': 3.2534246575342466e-07, 'epoch': 0.04}
+{'loss': 2.1244, 'grad_norm': 1.8378052711486816, 'learning_rate': 3.4246575342465755e-07, 'epoch': 0.04}
+{'loss': 2.2502, 'grad_norm': 2.0156054496765137, 'learning_rate': 3.595890410958904e-07, 'epoch': 0.04}
+{'loss': 2.1566, 'grad_norm': 1.6175312995910645, 'learning_rate': 3.767123287671233e-07, 'epoch': 0.04}
+{'loss': 2.167, 'grad_norm': 1.9051450490951538, 'learning_rate': 3.938356164383562e-07, 'epoch': 0.04}
+{'loss': 2.2099, 'grad_norm': 2.383063793182373, 'learning_rate': 4.1095890410958903e-07, 'epoch': 0.04}
+{'eval_loss': 2.2763354778289795, 'eval_runtime': 37.8085, 'eval_samples_per_second': 26.449, 'eval_steps_per_second': 1.111, 'epoch': 0.04}
+{'loss': 2.1714, 'grad_norm': 2.1310720443725586, 'learning_rate': 4.2808219178082193e-07, 'epoch': 0.04}
+{'loss': 2.0895, 'grad_norm': 1.771941900253296, 'learning_rate': 4.452054794520548e-07, 'epoch': 0.04}
+{'loss': 2.1555, 'grad_norm': 2.3784172534942627, 'learning_rate': 4.6232876712328767e-07, 'epoch': 0.04}
+{'loss': 2.11, 'grad_norm': 1.6692813634872437, 'learning_rate': 4.794520547945206e-07, 'epoch': 0.05}
+{'loss': 2.1256, 'grad_norm': 2.1780643463134766, 'learning_rate': 4.965753424657534e-07, 'epoch': 0.05}
+{'loss': 2.0971, 'grad_norm': 1.9390568733215332, 'learning_rate': 5.136986301369864e-07, 'epoch': 0.05}
+{'loss': 2.1479, 'grad_norm': 2.276216506958008, 'learning_rate': 5.308219178082192e-07, 'epoch': 0.05}
+{'loss': 2.0808, 'grad_norm': 2.148573160171509, 'learning_rate': 5.47945205479452e-07, 'epoch': 0.05}
+{'loss': 2.0823, 'grad_norm': 2.259422540664673, 'learning_rate': 5.65068493150685e-07, 'epoch': 0.05}
+{'loss': 2.0236, 'grad_norm': 1.7703359127044678, 'learning_rate': 5.821917808219178e-07, 'epoch': 0.05}
+{'eval_loss': 2.2037274837493896, 'eval_runtime': 37.8385, 'eval_samples_per_second': 26.428, 'eval_steps_per_second': 1.11, 'epoch': 0.05}
+{'loss': 2.0228, 'grad_norm': 2.56268310546875, 'learning_rate': 5.993150684931507e-07, 'epoch': 0.05}
+{'loss': 2.1401, 'grad_norm': 2.5256848335266113, 'learning_rate': 6.164383561643836e-07, 'epoch': 0.05}
+{'loss': 2.0107, 'grad_norm': 2.6329638957977295, 'learning_rate': 6.335616438356165e-07, 'epoch': 0.05}
+{'loss': 2.0648, 'grad_norm': 2.477762222290039, 'learning_rate': 6.506849315068493e-07, 'epoch': 0.06}
+{'loss': 2.0214, 'grad_norm': 1.8869198560714722, 'learning_rate': 6.678082191780823e-07, 'epoch': 0.06}
+{'loss': 1.9893, 'grad_norm': 2.707345485687256, 'learning_rate': 6.849315068493151e-07, 'epoch': 0.06}
+{'loss': 2.0308, 'grad_norm': 2.067230701446533, 'learning_rate': 7.020547945205481e-07, 'epoch': 0.06}
+{'loss': 1.948, 'grad_norm': 2.1961982250213623, 'learning_rate': 7.191780821917808e-07, 'epoch': 0.06}
+{'loss': 2.0098, 'grad_norm': 2.1032280921936035, 'learning_rate': 7.363013698630137e-07, 'epoch': 0.06}
+{'loss': 2.0183, 'grad_norm': 2.5191144943237305, 'learning_rate': 7.534246575342466e-07, 'epoch': 0.06}
+{'eval_loss': 2.1474344730377197, 'eval_runtime': 37.8631, 'eval_samples_per_second': 26.411, 'eval_steps_per_second': 1.109, 'epoch': 0.06}
+{'loss': 1.9702, 'grad_norm': 2.177739143371582, 'learning_rate': 7.705479452054795e-07, 'epoch': 0.06}
+{'loss': 1.9825, 'grad_norm': 2.499784231185913, 'learning_rate': 7.876712328767124e-07, 'epoch': 0.06}
+{'loss': 2.0414, 'grad_norm': 2.181591749191284, 'learning_rate': 8.047945205479453e-07, 'epoch': 0.06}
+{'loss': 2.0115, 'grad_norm': 1.9575999975204468, 'learning_rate': 8.219178082191781e-07, 'epoch': 0.07}
+{'loss': 1.8781, 'grad_norm': 2.3431336879730225, 'learning_rate': 8.39041095890411e-07, 'epoch': 0.07}
+{'loss': 1.9798, 'grad_norm': 2.042747974395752, 'learning_rate': 8.561643835616439e-07, 'epoch': 0.07}
+{'loss': 1.9274, 'grad_norm': 2.784104585647583, 'learning_rate': 8.732876712328768e-07, 'epoch': 0.07}
+{'loss': 2.0036, 'grad_norm': 1.9781445264816284, 'learning_rate': 8.904109589041097e-07, 'epoch': 0.07}
+{'loss': 1.938, 'grad_norm': 2.631537437438965, 'learning_rate': 9.075342465753426e-07, 'epoch': 0.07}
+{'loss': 2.0545, 'grad_norm': 1.902701497077942, 'learning_rate': 9.246575342465753e-07, 'epoch': 0.07}
+{'eval_loss': 2.115269422531128, 'eval_runtime': 37.887, 'eval_samples_per_second': 26.394, 'eval_steps_per_second': 1.109, 'epoch': 0.07}
+{'loss': 1.9463, 'grad_norm': 1.9323904514312744, 'learning_rate': 9.417808219178083e-07, 'epoch': 0.07}
+{'loss': 1.8982, 'grad_norm': 2.1631956100463867, 'learning_rate': 9.589041095890411e-07, 'epoch': 0.07}
+{'loss': 1.9538, 'grad_norm': 1.959518313407898, 'learning_rate': 9.76027397260274e-07, 'epoch': 0.07}
+{'loss': 1.9257, 'grad_norm': 1.9834569692611694, 'learning_rate': 9.931506849315068e-07, 'epoch': 0.08}
+{'loss': 1.9318, 'grad_norm': 2.2818732261657715, 'learning_rate': 1.0102739726027399e-06, 'epoch': 0.08}
+{'loss': 1.912, 'grad_norm': 1.7696406841278076, 'learning_rate': 1.0273972602739727e-06, 'epoch': 0.08}
+{'loss': 1.9482, 'grad_norm': 2.396303176879883, 'learning_rate': 1.0445205479452056e-06, 'epoch': 0.08}
+{'loss': 1.9448, 'grad_norm': 2.2371881008148193, 'learning_rate': 1.0616438356164384e-06, 'epoch': 0.08}
+{'loss': 1.8764, 'grad_norm': 2.40077543258667, 'learning_rate': 1.0787671232876712e-06, 'epoch': 0.08}
+{'loss': 1.9478, 'grad_norm': 2.267916679382324, 'learning_rate': 1.095890410958904e-06, 'epoch': 0.08}
+{'eval_loss': 2.0851893424987793, 'eval_runtime': 37.9176, 'eval_samples_per_second': 26.373, 'eval_steps_per_second': 1.108, 'epoch': 0.08}
+{'loss': 1.8856, 'grad_norm': 2.286259651184082, 'learning_rate': 1.1130136986301371e-06, 'epoch': 0.08}
+{'loss': 1.9196, 'grad_norm': 2.160848379135132, 'learning_rate': 1.13013698630137e-06, 'epoch': 0.08}
+{'loss': 1.9229, 'grad_norm': 2.3618931770324707, 'learning_rate': 1.1472602739726028e-06, 'epoch': 0.09}
+{'loss': 1.8998, 'grad_norm': 2.1963961124420166, 'learning_rate': 1.1643835616438357e-06, 'epoch': 0.09}
+{'loss': 1.8716, 'grad_norm': 2.197981357574463, 'learning_rate': 1.1815068493150685e-06, 'epoch': 0.09}
+{'loss': 1.9336, 'grad_norm': 2.3562612533569336, 'learning_rate': 1.1986301369863014e-06, 'epoch': 0.09}
+{'loss': 1.8827, 'grad_norm': 2.49712872505188, 'learning_rate': 1.2157534246575344e-06, 'epoch': 0.09}
+{'loss': 1.8801, 'grad_norm': 2.315244436264038, 'learning_rate': 1.2328767123287673e-06, 'epoch': 0.09}
+{'loss': 1.8972, 'grad_norm': 2.774587869644165, 'learning_rate': 1.25e-06, 'epoch': 0.09}
+{'loss': 1.8426, 'grad_norm': 2.262364387512207, 'learning_rate': 1.267123287671233e-06, 'epoch': 0.09}
+{'eval_loss': 2.069462299346924, 'eval_runtime': 37.9319, 'eval_samples_per_second': 26.363, 'eval_steps_per_second': 1.107, 'epoch': 0.09}
+{'loss': 1.871, 'grad_norm': 2.6195597648620605, 'learning_rate': 1.284246575342466e-06, 'epoch': 0.09}
+{'loss': 1.8922, 'grad_norm': 2.051847219467163, 'learning_rate': 1.3013698630136986e-06, 'epoch': 0.09}
+{'loss': 1.8818, 'grad_norm': 2.5930886268615723, 'learning_rate': 1.3184931506849317e-06, 'epoch': 0.1}
+{'loss': 1.8779, 'grad_norm': 2.304164171218872, 'learning_rate': 1.3356164383561645e-06, 'epoch': 0.1}
+{'loss': 1.9272, 'grad_norm': 2.187354564666748, 'learning_rate': 1.3527397260273976e-06, 'epoch': 0.1}
+{'loss': 1.805, 'grad_norm': 2.2492458820343018, 'learning_rate': 1.3698630136986302e-06, 'epoch': 0.1}
+{'loss': 1.8817, 'grad_norm': 2.3325352668762207, 'learning_rate': 1.386986301369863e-06, 'epoch': 0.1}
+{'loss': 1.7956, 'grad_norm': 2.1708617210388184, 'learning_rate': 1.4041095890410961e-06, 'epoch': 0.1}
+{'loss': 1.8116, 'grad_norm': 2.4267706871032715, 'learning_rate': 1.421232876712329e-06, 'epoch': 0.1}
+{'loss': 1.8299, 'grad_norm': 2.3286805152893066, 'learning_rate': 1.4383561643835616e-06, 'epoch': 0.1}
+{'eval_loss': 2.0549135208129883, 'eval_runtime': 37.935, 'eval_samples_per_second': 26.361, 'eval_steps_per_second': 1.107, 'epoch': 0.1}
+{'loss': 1.8521, 'grad_norm': 2.5391643047332764, 'learning_rate': 1.4554794520547946e-06, 'epoch': 0.1}
+{'loss': 1.8209, 'grad_norm': 2.018380880355835, 'learning_rate': 1.4726027397260275e-06, 'epoch': 0.1}
+{'loss': 1.79, 'grad_norm': 2.3706746101379395, 'learning_rate': 1.4897260273972605e-06, 'epoch': 0.11}
+{'loss': 1.8141, 'grad_norm': 2.1290764808654785, 'learning_rate': 1.5068493150684932e-06, 'epoch': 0.11}
+{'loss': 1.8826, 'grad_norm': 2.2768120765686035, 'learning_rate': 1.5239726027397262e-06, 'epoch': 0.11}
+{'loss': 1.8604, 'grad_norm': 2.316584348678589, 'learning_rate': 1.541095890410959e-06, 'epoch': 0.11}
+{'loss': 1.865, 'grad_norm': 2.14679217338562, 'learning_rate': 1.5582191780821921e-06, 'epoch': 0.11}
+{'loss': 1.8512, 'grad_norm': 2.3288021087646484, 'learning_rate': 1.5753424657534248e-06, 'epoch': 0.11}
+{'loss': 1.7455, 'grad_norm': 2.300482988357544, 'learning_rate': 1.5924657534246576e-06, 'epoch': 0.11}
+{'loss': 1.8058, 'grad_norm': 2.4226229190826416, 'learning_rate': 1.6095890410958907e-06, 'epoch': 0.11}
+{'eval_loss': 2.025261640548706, 'eval_runtime': 37.6779, 'eval_samples_per_second': 26.541, 'eval_steps_per_second': 1.115, 'epoch': 0.11}
+{'loss': 1.7375, 'grad_norm': 2.0930111408233643, 'learning_rate': 1.6267123287671235e-06, 'epoch': 0.11}
+{'loss': 1.8268, 'grad_norm': 2.4973645210266113, 'learning_rate': 1.6438356164383561e-06, 'epoch': 0.12}
+{'loss': 1.7882, 'grad_norm': 2.3295114040374756, 'learning_rate': 1.6609589041095892e-06, 'epoch': 0.12}
+{'loss': 1.8192, 'grad_norm': 2.3693318367004395, 'learning_rate': 1.678082191780822e-06, 'epoch': 0.12}
+{'loss': 1.7491, 'grad_norm': 2.553637742996216, 'learning_rate': 1.695205479452055e-06, 'epoch': 0.12}
+{'loss': 1.8737, 'grad_norm': 2.303945541381836, 'learning_rate': 1.7123287671232877e-06, 'epoch': 0.12}
+{'loss': 1.8039, 'grad_norm': 2.250356435775757, 'learning_rate': 1.7294520547945206e-06, 'epoch': 0.12}
+{'loss': 1.8357, 'grad_norm': 2.3854403495788574, 'learning_rate': 1.7465753424657536e-06, 'epoch': 0.12}
+{'loss': 1.8209, 'grad_norm': 2.4049572944641113, 'learning_rate': 1.7636986301369865e-06, 'epoch': 0.12}
+{'loss': 1.9026, 'grad_norm': 2.313551425933838, 'learning_rate': 1.7808219178082193e-06, 'epoch': 0.12}
+{'eval_loss': 2.012171745300293, 'eval_runtime': 37.7908, 'eval_samples_per_second': 26.461, 'eval_steps_per_second': 1.111, 'epoch': 0.12}
+{'loss': 1.8241, 'grad_norm': 2.518320322036743, 'learning_rate': 1.7979452054794521e-06, 'epoch': 0.12}
+{'loss': 1.8091, 'grad_norm': 2.6504592895507812, 'learning_rate': 1.8150684931506852e-06, 'epoch': 0.13}
+{'loss': 1.7547, 'grad_norm': 2.556610107421875, 'learning_rate': 1.832191780821918e-06, 'epoch': 0.13}
+{'loss': 1.7923, 'grad_norm': 2.247633695602417, 'learning_rate': 1.8493150684931507e-06, 'epoch': 0.13}
+{'loss': 1.747, 'grad_norm': 2.195596933364868, 'learning_rate': 1.8664383561643837e-06, 'epoch': 0.13}
+{'loss': 1.8088, 'grad_norm': 2.121396780014038, 'learning_rate': 1.8835616438356166e-06, 'epoch': 0.13}
+{'loss': 1.7285, 'grad_norm': 2.4572501182556152, 'learning_rate': 1.9006849315068496e-06, 'epoch': 0.13}
+{'loss': 1.7929, 'grad_norm': 2.2590177059173584, 'learning_rate': 1.9178082191780823e-06, 'epoch': 0.13}
+{'loss': 1.8365, 'grad_norm': 2.5099234580993652, 'learning_rate': 1.9349315068493153e-06, 'epoch': 0.13}
+{'loss': 1.8351, 'grad_norm': 2.3064465522766113, 'learning_rate': 1.952054794520548e-06, 'epoch': 0.13}
+{'eval_loss': 2.0043866634368896, 'eval_runtime': 37.8661, 'eval_samples_per_second': 26.409, 'eval_steps_per_second': 1.109, 'epoch': 0.13}
+{'loss': 1.7603, 'grad_norm': 2.5977718830108643, 'learning_rate': 1.969178082191781e-06, 'epoch': 0.13}
+{'loss': 1.8237, 'grad_norm': 2.23221755027771, 'learning_rate': 1.9863013698630136e-06, 'epoch': 0.14}
+{'loss': 1.8006, 'grad_norm': 2.247044324874878, 'learning_rate': 2.0034246575342467e-06, 'epoch': 0.14}
+{'loss': 1.7354, 'grad_norm': 2.1796107292175293, 'learning_rate': 2.0205479452054797e-06, 'epoch': 0.14}
+{'loss': 1.783, 'grad_norm': 2.3269693851470947, 'learning_rate': 2.037671232876713e-06, 'epoch': 0.14}
+{'loss': 1.8072, 'grad_norm': 2.2903053760528564, 'learning_rate': 2.0547945205479454e-06, 'epoch': 0.14}
+{'loss': 1.7251, 'grad_norm': 2.634150981903076, 'learning_rate': 2.071917808219178e-06, 'epoch': 0.14}
+{'loss': 1.7997, 'grad_norm': 2.42579984664917, 'learning_rate': 2.089041095890411e-06, 'epoch': 0.14}
+{'loss': 1.766, 'grad_norm': 2.615828514099121, 'learning_rate': 2.106164383561644e-06, 'epoch': 0.14}
+{'loss': 1.7538, 'grad_norm': 2.312714099884033, 'learning_rate': 2.123287671232877e-06, 'epoch': 0.14}
+{'eval_loss': 1.9918214082717896, 'eval_runtime': 37.8698, 'eval_samples_per_second': 26.406, 'eval_steps_per_second': 1.109, 'epoch': 0.14}
+{'loss': 1.7856, 'grad_norm': 2.7540030479431152, 'learning_rate': 2.14041095890411e-06, 'epoch': 0.14}
+{'loss': 1.7288, 'grad_norm': 2.289191246032715, 'learning_rate': 2.1575342465753425e-06, 'epoch': 0.15}
+{'loss': 1.8703, 'grad_norm': 2.788001775741577, 'learning_rate': 2.1746575342465755e-06, 'epoch': 0.15}
+{'loss': 1.7461, 'grad_norm': 2.4128854274749756, 'learning_rate': 2.191780821917808e-06, 'epoch': 0.15}
+{'loss': 1.73, 'grad_norm': 2.4108099937438965, 'learning_rate': 2.2089041095890412e-06, 'epoch': 0.15}
+{'loss': 1.7303, 'grad_norm': 2.4315948486328125, 'learning_rate': 2.2260273972602743e-06, 'epoch': 0.15}
+{'loss': 1.7616, 'grad_norm': 2.494056224822998, 'learning_rate': 2.243150684931507e-06, 'epoch': 0.15}
+{'loss': 1.7655, 'grad_norm': 2.4557394981384277, 'learning_rate': 2.26027397260274e-06, 'epoch': 0.15}
+{'loss': 1.8538, 'grad_norm': 2.4114091396331787, 'learning_rate': 2.2773972602739726e-06, 'epoch': 0.15}
+{'loss': 1.7767, 'grad_norm': 2.609219789505005, 'learning_rate': 2.2945205479452057e-06, 'epoch': 0.15}
+{'eval_loss': 1.981367588043213, 'eval_runtime': 37.9562, 'eval_samples_per_second': 26.346, 'eval_steps_per_second': 1.107, 'epoch': 0.15}
+{'loss': 1.687, 'grad_norm': 2.213622808456421, 'learning_rate': 2.3116438356164387e-06, 'epoch': 0.16}
+{'loss': 1.7311, 'grad_norm': 2.6517975330352783, 'learning_rate': 2.3287671232876713e-06, 'epoch': 0.16}
+{'loss': 1.7835, 'grad_norm': 2.5174458026885986, 'learning_rate': 2.3458904109589044e-06, 'epoch': 0.16}
+{'loss': 1.7749, 'grad_norm': 2.485480308532715, 'learning_rate': 2.363013698630137e-06, 'epoch': 0.16}
+{'loss': 1.7223, 'grad_norm': 2.5386061668395996, 'learning_rate': 2.38013698630137e-06, 'epoch': 0.16}
+{'loss': 1.6845, 'grad_norm': 2.2895941734313965, 'learning_rate': 2.3972602739726027e-06, 'epoch': 0.16}
+{'loss': 1.7627, 'grad_norm': 2.5453789234161377, 'learning_rate': 2.4143835616438358e-06, 'epoch': 0.16}
+{'loss': 1.764, 'grad_norm': 2.5322303771972656, 'learning_rate': 2.431506849315069e-06, 'epoch': 0.16}
+{'loss': 1.7487, 'grad_norm': 2.2669899463653564, 'learning_rate': 2.4486301369863015e-06, 'epoch': 0.16}
+{'loss': 1.7635, 'grad_norm': 2.4577853679656982, 'learning_rate': 2.4657534246575345e-06, 'epoch': 0.16}
+{'eval_loss': 1.9793355464935303, 'eval_runtime': 37.8576, 'eval_samples_per_second': 26.415, 'eval_steps_per_second': 1.109, 'epoch': 0.16}
+{'loss': 1.7538, 'grad_norm': 2.354893922805786, 'learning_rate': 2.482876712328767e-06, 'epoch': 0.17}
+{'loss': 1.7277, 'grad_norm': 2.3255856037139893, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 1.6985, 'grad_norm': 2.3501994609832764, 'learning_rate': 2.5171232876712333e-06, 'epoch': 0.17}
+{'loss': 1.7552, 'grad_norm': 2.386627674102783, 'learning_rate': 2.534246575342466e-06, 'epoch': 0.17}
+{'loss': 1.7805, 'grad_norm': 2.2238457202911377, 'learning_rate': 2.551369863013699e-06, 'epoch': 0.17}
+{'loss': 1.7656, 'grad_norm': 2.2653403282165527, 'learning_rate': 2.568493150684932e-06, 'epoch': 0.17}
+{'loss': 1.6997, 'grad_norm': 2.233132839202881, 'learning_rate': 2.585616438356164e-06, 'epoch': 0.17}
+{'loss': 1.7487, 'grad_norm': 2.1696043014526367, 'learning_rate': 2.6027397260273973e-06, 'epoch': 0.17}
+{'loss': 1.7957, 'grad_norm': 2.4479899406433105, 'learning_rate': 2.6198630136986303e-06, 'epoch': 0.17}
+{'loss': 1.766, 'grad_norm': 2.3054702281951904, 'learning_rate': 2.6369863013698634e-06, 'epoch': 0.17}
+{'eval_loss': 1.9543790817260742, 'eval_runtime': 37.8837, 'eval_samples_per_second': 26.397, 'eval_steps_per_second': 1.109, 'epoch': 0.17}
+{'loss': 1.7149, 'grad_norm': 2.3591110706329346, 'learning_rate': 2.654109589041096e-06, 'epoch': 0.18}
+{'loss': 1.7074, 'grad_norm': 2.450526237487793, 'learning_rate': 2.671232876712329e-06, 'epoch': 0.18}
+{'loss': 1.7036, 'grad_norm': 2.1511754989624023, 'learning_rate': 2.688356164383562e-06, 'epoch': 0.18}
+{'loss': 1.6566, 'grad_norm': 2.5944275856018066, 'learning_rate': 2.705479452054795e-06, 'epoch': 0.18}
+{'loss': 1.7977, 'grad_norm': 2.4301369190216064, 'learning_rate': 2.7226027397260274e-06, 'epoch': 0.18}
+{'loss': 1.7526, 'grad_norm': 2.287665367126465, 'learning_rate': 2.7397260273972604e-06, 'epoch': 0.18}
+{'loss': 1.6753, 'grad_norm': 2.380032777786255, 'learning_rate': 2.7568493150684935e-06, 'epoch': 0.18}
+{'loss': 1.758, 'grad_norm': 2.4040510654449463, 'learning_rate': 2.773972602739726e-06, 'epoch': 0.18}
+{'loss': 1.6498, 'grad_norm': 2.5074045658111572, 'learning_rate': 2.791095890410959e-06, 'epoch': 0.18}
+{'loss': 1.8006, 'grad_norm': 2.3926949501037598, 'learning_rate': 2.8082191780821922e-06, 'epoch': 0.18}
+{'eval_loss': 1.9446762800216675, 'eval_runtime': 37.8572, 'eval_samples_per_second': 26.415, 'eval_steps_per_second': 1.109, 'epoch': 0.18}
+{'loss': 1.7649, 'grad_norm': 2.4991633892059326, 'learning_rate': 2.8253424657534253e-06, 'epoch': 0.19}
+{'loss': 1.7743, 'grad_norm': 2.2558324337005615, 'learning_rate': 2.842465753424658e-06, 'epoch': 0.19}
+{'loss': 1.7807, 'grad_norm': 2.219717025756836, 'learning_rate': 2.8595890410958905e-06, 'epoch': 0.19}
+{'loss': 1.6289, 'grad_norm': 2.406562566757202, 'learning_rate': 2.876712328767123e-06, 'epoch': 0.19}
+{'loss': 1.6747, 'grad_norm': 2.356579303741455, 'learning_rate': 2.8938356164383562e-06, 'epoch': 0.19}
+{'loss': 1.6731, 'grad_norm': 2.4844322204589844, 'learning_rate': 2.9109589041095893e-06, 'epoch': 0.19}
+{'loss': 1.6786, 'grad_norm': 2.8179149627685547, 'learning_rate': 2.9280821917808223e-06, 'epoch': 0.19}
+{'loss': 1.7313, 'grad_norm': 2.395416259765625, 'learning_rate': 2.945205479452055e-06, 'epoch': 0.19}
+{'loss': 1.7258, 'grad_norm': 2.848740816116333, 'learning_rate': 2.962328767123288e-06, 'epoch': 0.19}
+{'loss': 1.6633, 'grad_norm': 2.427395820617676, 'learning_rate': 2.979452054794521e-06, 'epoch': 0.2}
+{'eval_loss': 1.9443999528884888, 'eval_runtime': 37.8579, 'eval_samples_per_second': 26.415, 'eval_steps_per_second': 1.109, 'epoch': 0.2}
+{'loss': 1.7342, 'grad_norm': 2.5347256660461426, 'learning_rate': 2.9965753424657533e-06, 'epoch': 0.2}
+{'loss': 1.7037, 'grad_norm': 2.8696866035461426, 'learning_rate': 3.0136986301369864e-06, 'epoch': 0.2}
+{'loss': 1.672, 'grad_norm': 2.427468776702881, 'learning_rate': 3.0308219178082194e-06, 'epoch': 0.2}
+{'loss': 1.7252, 'grad_norm': 2.4253737926483154, 'learning_rate': 3.0479452054794525e-06, 'epoch': 0.2}
+{'loss': 1.6694, 'grad_norm': 2.801668643951416, 'learning_rate': 3.065068493150685e-06, 'epoch': 0.2}
+{'loss': 1.6866, 'grad_norm': 2.442263603210449, 'learning_rate': 3.082191780821918e-06, 'epoch': 0.2}
+{'loss': 1.686, 'grad_norm': 2.777463674545288, 'learning_rate': 3.099315068493151e-06, 'epoch': 0.2}
+{'loss': 1.6414, 'grad_norm': 2.491227388381958, 'learning_rate': 3.1164383561643843e-06, 'epoch': 0.2}
+{'loss': 1.7808, 'grad_norm': 2.33585262298584, 'learning_rate': 3.1335616438356165e-06, 'epoch': 0.2}
+{'loss': 1.6592, 'grad_norm': 2.518160581588745, 'learning_rate': 3.1506849315068495e-06, 'epoch': 0.21}
+{'eval_loss': 1.9371097087860107, 'eval_runtime': 37.8602, 'eval_samples_per_second': 26.413, 'eval_steps_per_second': 1.109, 'epoch': 0.21}
+{'loss': 1.6668, 'grad_norm': 2.460204839706421, 'learning_rate': 3.167808219178082e-06, 'epoch': 0.21}
+{'loss': 1.6462, 'grad_norm': 2.377824068069458, 'learning_rate': 3.184931506849315e-06, 'epoch': 0.21}
+{'loss': 1.6272, 'grad_norm': 2.426177740097046, 'learning_rate': 3.2020547945205483e-06, 'epoch': 0.21}
+{'loss': 1.6169, 'grad_norm': 2.4532034397125244, 'learning_rate': 3.2191780821917813e-06, 'epoch': 0.21}
+{'loss': 1.5991, 'grad_norm': 2.517059564590454, 'learning_rate': 3.236301369863014e-06, 'epoch': 0.21}
+{'loss': 1.6754, 'grad_norm': 2.22658109664917, 'learning_rate': 3.253424657534247e-06, 'epoch': 0.21}
+{'loss': 1.6648, 'grad_norm': 2.344799518585205, 'learning_rate': 3.2705479452054796e-06, 'epoch': 0.21}
+{'loss': 1.6112, 'grad_norm': 2.331875801086426, 'learning_rate': 3.2876712328767123e-06, 'epoch': 0.21}
+{'loss': 1.6479, 'grad_norm': 2.262343645095825, 'learning_rate': 3.3047945205479453e-06, 'epoch': 0.21}
+{'loss': 1.6753, 'grad_norm': 2.282278537750244, 'learning_rate': 3.3219178082191784e-06, 'epoch': 0.22}
+{'eval_loss': 1.9338418245315552, 'eval_runtime': 37.6083, 'eval_samples_per_second': 26.59, 'eval_steps_per_second': 1.117, 'epoch': 0.22}
+{'loss': 1.7043, 'grad_norm': 2.578476905822754, 'learning_rate': 3.3390410958904114e-06, 'epoch': 0.22}
+{'loss': 1.7541, 'grad_norm': 2.3118813037872314, 'learning_rate': 3.356164383561644e-06, 'epoch': 0.22}
+{'loss': 1.6886, 'grad_norm': 2.2418692111968994, 'learning_rate': 3.373287671232877e-06, 'epoch': 0.22}
+{'loss': 1.7241, 'grad_norm': 2.3583438396453857, 'learning_rate': 3.39041095890411e-06, 'epoch': 0.22}
+{'loss': 1.6194, 'grad_norm': 2.345090866088867, 'learning_rate': 3.4075342465753424e-06, 'epoch': 0.22}
+{'loss': 1.6889, 'grad_norm': 2.3996200561523438, 'learning_rate': 3.4246575342465754e-06, 'epoch': 0.22}
+{'loss': 1.6713, 'grad_norm': 2.3552374839782715, 'learning_rate': 3.4417808219178085e-06, 'epoch': 0.22}
+{'loss': 1.673, 'grad_norm': 2.2653744220733643, 'learning_rate': 3.458904109589041e-06, 'epoch': 0.22}
+{'loss': 1.673, 'grad_norm': 2.263288974761963, 'learning_rate': 3.476027397260274e-06, 'epoch': 0.22}
+{'loss': 1.6803, 'grad_norm': 2.3173880577087402, 'learning_rate': 3.4931506849315072e-06, 'epoch': 0.23}
+{'eval_loss': 1.9166476726531982, 'eval_runtime': 37.7659, 'eval_samples_per_second': 26.479, 'eval_steps_per_second': 1.112, 'epoch': 0.23}
+{'loss': 1.6809, 'grad_norm': 2.4005839824676514, 'learning_rate': 3.5102739726027403e-06, 'epoch': 0.23}
+{'loss': 1.6411, 'grad_norm': 2.5032525062561035, 'learning_rate': 3.527397260273973e-06, 'epoch': 0.23}
+{'loss': 1.6608, 'grad_norm': 2.533583879470825, 'learning_rate': 3.5445205479452056e-06, 'epoch': 0.23}
+{'loss': 1.7236, 'grad_norm': 2.3575572967529297, 'learning_rate': 3.5616438356164386e-06, 'epoch': 0.23}
+{'loss': 1.7101, 'grad_norm': 2.3408942222595215, 'learning_rate': 3.5787671232876712e-06, 'epoch': 0.23}
+{'loss': 1.6414, 'grad_norm': 2.3819596767425537, 'learning_rate': 3.5958904109589043e-06, 'epoch': 0.23}
+{'loss': 1.6767, 'grad_norm': 2.2874338626861572, 'learning_rate': 3.6130136986301373e-06, 'epoch': 0.23}
+{'loss': 1.6932, 'grad_norm': 2.3523948192596436, 'learning_rate': 3.6301369863013704e-06, 'epoch': 0.23}
+{'loss': 1.7125, 'grad_norm': 2.476128578186035, 'learning_rate': 3.647260273972603e-06, 'epoch': 0.24}
+{'loss': 1.6469, 'grad_norm': 2.3841593265533447, 'learning_rate': 3.664383561643836e-06, 'epoch': 0.24}
+{'eval_loss': 1.925522804260254, 'eval_runtime': 37.8581, 'eval_samples_per_second': 26.414, 'eval_steps_per_second': 1.109, 'epoch': 0.24}
+{'loss': 1.6726, 'grad_norm': 2.4401519298553467, 'learning_rate': 3.6815068493150687e-06, 'epoch': 0.24}
+{'loss': 1.6349, 'grad_norm': 2.329674005508423, 'learning_rate': 3.6986301369863014e-06, 'epoch': 0.24}
+{'loss': 1.7309, 'grad_norm': 2.654290199279785, 'learning_rate': 3.7157534246575344e-06, 'epoch': 0.24}
+{'loss': 1.6437, 'grad_norm': 2.1599373817443848, 'learning_rate': 3.7328767123287675e-06, 'epoch': 0.24}
+{'loss': 1.6862, 'grad_norm': 2.6170263290405273, 'learning_rate': 3.7500000000000005e-06, 'epoch': 0.24}
+{'loss': 1.7073, 'grad_norm': 2.2836415767669678, 'learning_rate': 3.767123287671233e-06, 'epoch': 0.24}
+{'loss': 1.6455, 'grad_norm': 2.3001456260681152, 'learning_rate': 3.784246575342466e-06, 'epoch': 0.24}
+{'loss': 1.6566, 'grad_norm': 2.4549131393432617, 'learning_rate': 3.8013698630136993e-06, 'epoch': 0.24}
+{'loss': 1.627, 'grad_norm': 2.4387831687927246, 'learning_rate': 3.818493150684932e-06, 'epoch': 0.25}
+{'loss': 1.7286, 'grad_norm': 2.136474847793579, 'learning_rate': 3.8356164383561645e-06, 'epoch': 0.25}
+{'eval_loss': 1.9188542366027832, 'eval_runtime': 37.9079, 'eval_samples_per_second': 26.38, 'eval_steps_per_second': 1.108, 'epoch': 0.25}
+{'loss': 1.7014, 'grad_norm': 2.430297374725342, 'learning_rate': 3.852739726027397e-06, 'epoch': 0.25}
+{'loss': 1.6412, 'grad_norm': 2.302480697631836, 'learning_rate': 3.869863013698631e-06, 'epoch': 0.25}
+{'loss': 1.6445, 'grad_norm': 2.2905426025390625, 'learning_rate': 3.886986301369863e-06, 'epoch': 0.25}
+{'loss': 1.6265, 'grad_norm': 2.55385684967041, 'learning_rate': 3.904109589041096e-06, 'epoch': 0.25}
+{'loss': 1.6338, 'grad_norm': 2.3053576946258545, 'learning_rate': 3.921232876712329e-06, 'epoch': 0.25}
+{'loss': 1.5966, 'grad_norm': 2.4894707202911377, 'learning_rate': 3.938356164383562e-06, 'epoch': 0.25}
+{'loss': 1.6935, 'grad_norm': 2.6198930740356445, 'learning_rate': 3.9554794520547955e-06, 'epoch': 0.25}
+{'loss': 1.6227, 'grad_norm': 2.3548998832702637, 'learning_rate': 3.972602739726027e-06, 'epoch': 0.25}
+{'loss': 1.6699, 'grad_norm': 2.535460948944092, 'learning_rate': 3.989726027397261e-06, 'epoch': 0.26}
+{'loss': 1.6666, 'grad_norm': 2.3680567741394043, 'learning_rate': 4.006849315068493e-06, 'epoch': 0.26}
+{'eval_loss': 1.9149967432022095, 'eval_runtime': 37.9423, 'eval_samples_per_second': 26.356, 'eval_steps_per_second': 1.107, 'epoch': 0.26}
+{'loss': 1.6633, 'grad_norm': 2.3914358615875244, 'learning_rate': 4.023972602739726e-06, 'epoch': 0.26}
+{'loss': 1.6573, 'grad_norm': 2.4293038845062256, 'learning_rate': 4.0410958904109595e-06, 'epoch': 0.26}
+{'loss': 1.6815, 'grad_norm': 2.3409900665283203, 'learning_rate': 4.058219178082192e-06, 'epoch': 0.26}
+{'loss': 1.6412, 'grad_norm': 2.5807456970214844, 'learning_rate': 4.075342465753426e-06, 'epoch': 0.26}
+{'loss': 1.6311, 'grad_norm': 2.317861795425415, 'learning_rate': 4.092465753424658e-06, 'epoch': 0.26}
+{'loss': 1.7021, 'grad_norm': 2.231682777404785, 'learning_rate': 4.109589041095891e-06, 'epoch': 0.26}
+{'loss': 1.6446, 'grad_norm': 2.7119040489196777, 'learning_rate': 4.1267123287671235e-06, 'epoch': 0.26}
+{'loss': 1.7101, 'grad_norm': 2.2619071006774902, 'learning_rate': 4.143835616438356e-06, 'epoch': 0.27}
+{'loss': 1.6901, 'grad_norm': 2.461945056915283, 'learning_rate': 4.16095890410959e-06, 'epoch': 0.27}
+{'loss': 1.644, 'grad_norm': 2.516348123550415, 'learning_rate': 4.178082191780822e-06, 'epoch': 0.27}
+{'eval_loss': 1.904897928237915, 'eval_runtime': 37.93, 'eval_samples_per_second': 26.364, 'eval_steps_per_second': 1.107, 'epoch': 0.27}
+{'loss': 1.6301, 'grad_norm': 2.2311813831329346, 'learning_rate': 4.195205479452055e-06, 'epoch': 0.27}
+{'loss': 1.6393, 'grad_norm': 2.605109214782715, 'learning_rate': 4.212328767123288e-06, 'epoch': 0.27}
+{'loss': 1.6468, 'grad_norm': 2.6103134155273438, 'learning_rate': 4.229452054794521e-06, 'epoch': 0.27}
+{'loss': 1.6294, 'grad_norm': 2.5538523197174072, 'learning_rate': 4.246575342465754e-06, 'epoch': 0.27}
+{'loss': 1.5837, 'grad_norm': 2.5841965675354004, 'learning_rate': 4.263698630136986e-06, 'epoch': 0.27}
+{'loss': 1.7473, 'grad_norm': 2.4604523181915283, 'learning_rate': 4.28082191780822e-06, 'epoch': 0.27}
+{'loss': 1.6539, 'grad_norm': 2.6701765060424805, 'learning_rate': 4.297945205479452e-06, 'epoch': 0.27}
+{'loss': 1.6385, 'grad_norm': 2.360069990158081, 'learning_rate': 4.315068493150685e-06, 'epoch': 0.28}
+{'loss': 1.6586, 'grad_norm': 2.4922797679901123, 'learning_rate': 4.3321917808219185e-06, 'epoch': 0.28}
+{'loss': 1.6318, 'grad_norm': 2.5443379878997803, 'learning_rate': 4.349315068493151e-06, 'epoch': 0.28}
+{'eval_loss': 1.9062609672546387, 'eval_runtime': 37.92, 'eval_samples_per_second': 26.371, 'eval_steps_per_second': 1.108, 'epoch': 0.28}
+{'loss': 1.6178, 'grad_norm': 2.4064481258392334, 'learning_rate': 4.3664383561643846e-06, 'epoch': 0.28}
+{'loss': 1.7071, 'grad_norm': 2.681637763977051, 'learning_rate': 4.383561643835616e-06, 'epoch': 0.28}
+{'loss': 1.6553, 'grad_norm': 2.5805184841156006, 'learning_rate': 4.40068493150685e-06, 'epoch': 0.28}
+{'loss': 1.6249, 'grad_norm': 2.4169883728027344, 'learning_rate': 4.4178082191780825e-06, 'epoch': 0.28}
+{'loss': 1.5932, 'grad_norm': 2.557570457458496, 'learning_rate': 4.434931506849315e-06, 'epoch': 0.28}
+{'loss': 1.6377, 'grad_norm': 2.3808107376098633, 'learning_rate': 4.4520547945205486e-06, 'epoch': 0.28}
+{'loss': 1.6285, 'grad_norm': 2.402404546737671, 'learning_rate': 4.469178082191781e-06, 'epoch': 0.28}
+{'loss': 1.6838, 'grad_norm': 2.4676456451416016, 'learning_rate': 4.486301369863014e-06, 'epoch': 0.29}
+{'loss': 1.5872, 'grad_norm': 2.659083366394043, 'learning_rate': 4.503424657534247e-06, 'epoch': 0.29}
+{'loss': 1.6142, 'grad_norm': 2.326733350753784, 'learning_rate': 4.52054794520548e-06, 'epoch': 0.29}
+{'eval_loss': 1.904759407043457, 'eval_runtime': 37.9651, 'eval_samples_per_second': 26.34, 'eval_steps_per_second': 1.106, 'epoch': 0.29}
+{'loss': 1.6673, 'grad_norm': 2.299504518508911, 'learning_rate': 4.537671232876713e-06, 'epoch': 0.29}
+{'loss': 1.6586, 'grad_norm': 2.4932825565338135, 'learning_rate': 4.554794520547945e-06, 'epoch': 0.29}
+{'loss': 1.6568, 'grad_norm': 2.2599050998687744, 'learning_rate': 4.571917808219179e-06, 'epoch': 0.29}
+{'loss': 1.6113, 'grad_norm': 2.435098886489868, 'learning_rate': 4.589041095890411e-06, 'epoch': 0.29}
+{'loss': 1.6306, 'grad_norm': 2.539246082305908, 'learning_rate': 4.606164383561644e-06, 'epoch': 0.29}
+{'loss': 1.6473, 'grad_norm': 2.596198320388794, 'learning_rate': 4.6232876712328774e-06, 'epoch': 0.29}
+{'loss': 1.6042, 'grad_norm': 2.349133014678955, 'learning_rate': 4.64041095890411e-06, 'epoch': 0.29}
+{'loss': 1.6635, 'grad_norm': 2.3572661876678467, 'learning_rate': 4.657534246575343e-06, 'epoch': 0.3}
+{'loss': 1.624, 'grad_norm': 2.4210307598114014, 'learning_rate': 4.674657534246575e-06, 'epoch': 0.3}
+{'loss': 1.6824, 'grad_norm': 2.427403688430786, 'learning_rate': 4.691780821917809e-06, 'epoch': 0.3}
+{'eval_loss': 1.8888994455337524, 'eval_runtime': 37.9777, 'eval_samples_per_second': 26.331, 'eval_steps_per_second': 1.106, 'epoch': 0.3}
+{'loss': 1.6456, 'grad_norm': 2.534029722213745, 'learning_rate': 4.7089041095890414e-06, 'epoch': 0.3}
+{'loss': 1.646, 'grad_norm': 2.329305648803711, 'learning_rate': 4.726027397260274e-06, 'epoch': 0.3}
+{'loss': 1.6511, 'grad_norm': 2.561548948287964, 'learning_rate': 4.7431506849315075e-06, 'epoch': 0.3}
+{'loss': 1.5984, 'grad_norm': 2.707712411880493, 'learning_rate': 4.76027397260274e-06, 'epoch': 0.3}
+{'loss': 1.6164, 'grad_norm': 2.403089761734009, 'learning_rate': 4.777397260273973e-06, 'epoch': 0.3}
+{'loss': 1.6291, 'grad_norm': 2.424910306930542, 'learning_rate': 4.7945205479452054e-06, 'epoch': 0.3}
+{'loss': 1.553, 'grad_norm': 2.3474302291870117, 'learning_rate': 4.811643835616439e-06, 'epoch': 0.31}
+{'loss': 1.6108, 'grad_norm': 2.2211227416992188, 'learning_rate': 4.8287671232876716e-06, 'epoch': 0.31}
+{'loss': 1.6135, 'grad_norm': 2.495983600616455, 'learning_rate': 4.845890410958904e-06, 'epoch': 0.31}
+{'loss': 1.6061, 'grad_norm': 2.525495767593384, 'learning_rate': 4.863013698630138e-06, 'epoch': 0.31}
+{'eval_loss': 1.8982168436050415, 'eval_runtime': 37.9848, 'eval_samples_per_second': 26.326, 'eval_steps_per_second': 1.106, 'epoch': 0.31}
+{'loss': 1.5827, 'grad_norm': 2.449064254760742, 'learning_rate': 4.88013698630137e-06, 'epoch': 0.31}
+{'loss': 1.704, 'grad_norm': 2.288095712661743, 'learning_rate': 4.897260273972603e-06, 'epoch': 0.31}
+{'loss': 1.6342, 'grad_norm': 2.5301458835601807, 'learning_rate': 4.914383561643836e-06, 'epoch': 0.31}
+{'loss': 1.6688, 'grad_norm': 2.2793986797332764, 'learning_rate': 4.931506849315069e-06, 'epoch': 0.31}
+{'loss': 1.7014, 'grad_norm': 2.38783597946167, 'learning_rate': 4.948630136986302e-06, 'epoch': 0.31}
+{'loss': 1.5812, 'grad_norm': 2.5224838256835938, 'learning_rate': 4.965753424657534e-06, 'epoch': 0.31}
+{'loss': 1.6186, 'grad_norm': 2.434432029724121, 'learning_rate': 4.982876712328768e-06, 'epoch': 0.32}
+{'loss': 1.5669, 'grad_norm': 2.3708460330963135, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'loss': 1.6688, 'grad_norm': 2.5524990558624268, 'learning_rate': 4.998096688237534e-06, 'epoch': 0.32}
+{'loss': 1.5571, 'grad_norm': 2.322441577911377, 'learning_rate': 4.996193376475067e-06, 'epoch': 0.32}
+{'eval_loss': 1.8914265632629395, 'eval_runtime': 37.6505, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 0.32}
+{'loss': 1.5585, 'grad_norm': 2.5248687267303467, 'learning_rate': 4.9942900647126005e-06, 'epoch': 0.32}
+{'loss': 1.5921, 'grad_norm': 2.2464914321899414, 'learning_rate': 4.992386752950134e-06, 'epoch': 0.32}
+{'loss': 1.6263, 'grad_norm': 2.5355331897735596, 'learning_rate': 4.990483441187667e-06, 'epoch': 0.32}
+{'loss': 1.6267, 'grad_norm': 2.5611143112182617, 'learning_rate': 4.9885801294252e-06, 'epoch': 0.32}
+{'loss': 1.5847, 'grad_norm': 2.364356517791748, 'learning_rate': 4.986676817662733e-06, 'epoch': 0.32}
+{'loss': 1.661, 'grad_norm': 2.455165147781372, 'learning_rate': 4.9847735059002665e-06, 'epoch': 0.32}
+{'loss': 1.5995, 'grad_norm': 2.4312195777893066, 'learning_rate': 4.9828701941378e-06, 'epoch': 0.33}
+{'loss': 1.5756, 'grad_norm': 2.4081499576568604, 'learning_rate': 4.980966882375333e-06, 'epoch': 0.33}
+{'loss': 1.543, 'grad_norm': 2.2608511447906494, 'learning_rate': 4.979063570612867e-06, 'epoch': 0.33}
+{'loss': 1.6467, 'grad_norm': 2.6551144123077393, 'learning_rate': 4.9771602588504e-06, 'epoch': 0.33}
+{'eval_loss': 1.89058518409729, 'eval_runtime': 37.8192, 'eval_samples_per_second': 26.442, 'eval_steps_per_second': 1.111, 'epoch': 0.33}
+{'loss': 1.5607, 'grad_norm': 2.3897273540496826, 'learning_rate': 4.975256947087933e-06, 'epoch': 0.33}
+{'loss': 1.6079, 'grad_norm': 2.3869469165802, 'learning_rate': 4.973353635325467e-06, 'epoch': 0.33}
+{'loss': 1.5475, 'grad_norm': 2.159193515777588, 'learning_rate': 4.971450323563e-06, 'epoch': 0.33}
+{'loss': 1.616, 'grad_norm': 2.3069653511047363, 'learning_rate': 4.969547011800533e-06, 'epoch': 0.33}
+{'loss': 1.6106, 'grad_norm': 2.3131422996520996, 'learning_rate': 4.967643700038067e-06, 'epoch': 0.33}
+{'loss': 1.5779, 'grad_norm': 2.4398200511932373, 'learning_rate': 4.9657403882756e-06, 'epoch': 0.33}
+{'loss': 1.5724, 'grad_norm': 2.278024435043335, 'learning_rate': 4.9638370765131335e-06, 'epoch': 0.34}
+{'loss': 1.6337, 'grad_norm': 2.4989173412323, 'learning_rate': 4.961933764750667e-06, 'epoch': 0.34}
+{'loss': 1.6519, 'grad_norm': 2.46319580078125, 'learning_rate': 4.9600304529882e-06, 'epoch': 0.34}
+{'loss': 1.6081, 'grad_norm': 2.2703049182891846, 'learning_rate': 4.9581271412257335e-06, 'epoch': 0.34}
+{'eval_loss': 1.8755545616149902, 'eval_runtime': 37.9058, 'eval_samples_per_second': 26.381, 'eval_steps_per_second': 1.108, 'epoch': 0.34}
+{'loss': 1.5221, 'grad_norm': 2.502196788787842, 'learning_rate': 4.956223829463266e-06, 'epoch': 0.34}
+{'loss': 1.6268, 'grad_norm': 2.284280776977539, 'learning_rate': 4.954320517700799e-06, 'epoch': 0.34}
+{'loss': 1.6078, 'grad_norm': 2.3551881313323975, 'learning_rate': 4.952417205938333e-06, 'epoch': 0.34}
+{'loss': 1.591, 'grad_norm': 2.343780755996704, 'learning_rate': 4.950513894175866e-06, 'epoch': 0.34}
+{'loss': 1.605, 'grad_norm': 2.3524727821350098, 'learning_rate': 4.9486105824133995e-06, 'epoch': 0.34}
+{'loss': 1.6106, 'grad_norm': 2.349896192550659, 'learning_rate': 4.946707270650933e-06, 'epoch': 0.35}
+{'loss': 1.6429, 'grad_norm': 2.5154407024383545, 'learning_rate': 4.944803958888466e-06, 'epoch': 0.35}
+{'loss': 1.5865, 'grad_norm': 2.2692947387695312, 'learning_rate': 4.942900647126e-06, 'epoch': 0.35}
+{'loss': 1.5464, 'grad_norm': 2.2672805786132812, 'learning_rate': 4.940997335363533e-06, 'epoch': 0.35}
+{'loss': 1.5837, 'grad_norm': 2.5147039890289307, 'learning_rate': 4.939094023601066e-06, 'epoch': 0.35}
+{'eval_loss': 1.8672455549240112, 'eval_runtime': 37.9644, 'eval_samples_per_second': 26.34, 'eval_steps_per_second': 1.106, 'epoch': 0.35}
+{'loss': 1.5937, 'grad_norm': 2.3416433334350586, 'learning_rate': 4.9371907118386e-06, 'epoch': 0.35}
+{'loss': 1.6132, 'grad_norm': 2.3044960498809814, 'learning_rate': 4.935287400076133e-06, 'epoch': 0.35}
+{'loss': 1.5731, 'grad_norm': 2.4360430240631104, 'learning_rate': 4.933384088313666e-06, 'epoch': 0.35}
+{'loss': 1.5098, 'grad_norm': 2.392050266265869, 'learning_rate': 4.9314807765512e-06, 'epoch': 0.35}
+{'loss': 1.5827, 'grad_norm': 2.3815808296203613, 'learning_rate': 4.929577464788733e-06, 'epoch': 0.35}
+{'loss': 1.5857, 'grad_norm': 2.423077344894409, 'learning_rate': 4.9276741530262665e-06, 'epoch': 0.36}
+{'loss': 1.5884, 'grad_norm': 2.5535898208618164, 'learning_rate': 4.9257708412638e-06, 'epoch': 0.36}
+{'loss': 1.5561, 'grad_norm': 2.2665445804595947, 'learning_rate': 4.923867529501332e-06, 'epoch': 0.36}
+{'loss': 1.6444, 'grad_norm': 2.3357481956481934, 'learning_rate': 4.921964217738866e-06, 'epoch': 0.36}
+{'loss': 1.6262, 'grad_norm': 2.4537885189056396, 'learning_rate': 4.920060905976399e-06, 'epoch': 0.36}
+{'eval_loss': 1.8621584177017212, 'eval_runtime': 38.0027, 'eval_samples_per_second': 26.314, 'eval_steps_per_second': 1.105, 'epoch': 0.36}
+{'loss': 1.6227, 'grad_norm': 2.379754066467285, 'learning_rate': 4.9181575942139325e-06, 'epoch': 0.36}
+{'loss': 1.6554, 'grad_norm': 2.432905435562134, 'learning_rate': 4.916254282451466e-06, 'epoch': 0.36}
+{'loss': 1.5613, 'grad_norm': 2.34236216545105, 'learning_rate': 4.914350970688999e-06, 'epoch': 0.36}
+{'loss': 1.5535, 'grad_norm': 2.3019444942474365, 'learning_rate': 4.9124476589265325e-06, 'epoch': 0.36}
+{'loss': 1.6384, 'grad_norm': 2.3354644775390625, 'learning_rate': 4.910544347164066e-06, 'epoch': 0.36}
+{'loss': 1.6986, 'grad_norm': 2.5154788494110107, 'learning_rate': 4.908641035401599e-06, 'epoch': 0.37}
+{'loss': 1.5705, 'grad_norm': 2.2707178592681885, 'learning_rate': 4.906737723639133e-06, 'epoch': 0.37}
+{'loss': 1.6033, 'grad_norm': 2.3058297634124756, 'learning_rate': 4.904834411876665e-06, 'epoch': 0.37}
+{'loss': 1.5333, 'grad_norm': 2.3923370838165283, 'learning_rate': 4.902931100114199e-06, 'epoch': 0.37}
+{'loss': 1.5775, 'grad_norm': 2.4023196697235107, 'learning_rate': 4.901027788351733e-06, 'epoch': 0.37}
+{'eval_loss': 1.867856740951538, 'eval_runtime': 38.0125, 'eval_samples_per_second': 26.307, 'eval_steps_per_second': 1.105, 'epoch': 0.37}
+{'loss': 1.5491, 'grad_norm': 2.4903581142425537, 'learning_rate': 4.899124476589266e-06, 'epoch': 0.37}
+{'loss': 1.5967, 'grad_norm': 2.556683301925659, 'learning_rate': 4.8972211648267994e-06, 'epoch': 0.37}
+{'loss': 1.5661, 'grad_norm': 2.3017377853393555, 'learning_rate': 4.895317853064333e-06, 'epoch': 0.37}
+{'loss': 1.5679, 'grad_norm': 2.286191940307617, 'learning_rate': 4.893414541301866e-06, 'epoch': 0.37}
+{'loss': 1.5965, 'grad_norm': 2.260812520980835, 'learning_rate': 4.891511229539399e-06, 'epoch': 0.37}
+{'loss': 1.5923, 'grad_norm': 2.4569408893585205, 'learning_rate': 4.889607917776932e-06, 'epoch': 0.38}
+{'loss': 1.6021, 'grad_norm': 2.571552038192749, 'learning_rate': 4.887704606014465e-06, 'epoch': 0.38}
+{'loss': 1.5304, 'grad_norm': 2.287754774093628, 'learning_rate': 4.885801294251999e-06, 'epoch': 0.38}
+{'loss': 1.6233, 'grad_norm': 2.317784070968628, 'learning_rate': 4.883897982489532e-06, 'epoch': 0.38}
+{'loss': 1.624, 'grad_norm': 2.290601968765259, 'learning_rate': 4.8819946707270655e-06, 'epoch': 0.38}
+{'eval_loss': 1.8604528903961182, 'eval_runtime': 38.0176, 'eval_samples_per_second': 26.304, 'eval_steps_per_second': 1.105, 'epoch': 0.38}
+{'loss': 1.5286, 'grad_norm': 2.28519868850708, 'learning_rate': 4.880091358964599e-06, 'epoch': 0.38}
+{'loss': 1.6879, 'grad_norm': 2.271810293197632, 'learning_rate': 4.878188047202132e-06, 'epoch': 0.38}
+{'loss': 1.6458, 'grad_norm': 2.391848564147949, 'learning_rate': 4.876284735439666e-06, 'epoch': 0.38}
+{'loss': 1.5738, 'grad_norm': 2.3787031173706055, 'learning_rate': 4.874381423677199e-06, 'epoch': 0.38}
+{'loss': 1.6184, 'grad_norm': 2.404219150543213, 'learning_rate': 4.8724781119147315e-06, 'epoch': 0.39}
+{'loss': 1.5316, 'grad_norm': 2.372661590576172, 'learning_rate': 4.870574800152265e-06, 'epoch': 0.39}
+{'loss': 1.5605, 'grad_norm': 2.4397103786468506, 'learning_rate': 4.868671488389798e-06, 'epoch': 0.39}
+{'loss': 1.5184, 'grad_norm': 2.371006727218628, 'learning_rate': 4.8667681766273316e-06, 'epoch': 0.39}
+{'loss': 1.5788, 'grad_norm': 2.2621910572052, 'learning_rate': 4.864864864864866e-06, 'epoch': 0.39}
+{'loss': 1.6244, 'grad_norm': 2.2888615131378174, 'learning_rate': 4.862961553102399e-06, 'epoch': 0.39}
+{'eval_loss': 1.8586912155151367, 'eval_runtime': 37.9582, 'eval_samples_per_second': 26.345, 'eval_steps_per_second': 1.106, 'epoch': 0.39}
+{'loss': 1.5749, 'grad_norm': 2.4439220428466797, 'learning_rate': 4.8610582413399325e-06, 'epoch': 0.39}
+{'loss': 1.5738, 'grad_norm': 2.2423763275146484, 'learning_rate': 4.859154929577465e-06, 'epoch': 0.39}
+{'loss': 1.6212, 'grad_norm': 2.267467737197876, 'learning_rate': 4.857251617814998e-06, 'epoch': 0.39}
+{'loss': 1.6129, 'grad_norm': 2.3680620193481445, 'learning_rate': 4.855348306052532e-06, 'epoch': 0.39}
+{'loss': 1.5605, 'grad_norm': 2.3782172203063965, 'learning_rate': 4.853444994290065e-06, 'epoch': 0.4}
+{'loss': 1.634, 'grad_norm': 2.5745720863342285, 'learning_rate': 4.8515416825275985e-06, 'epoch': 0.4}
+{'loss': 1.5671, 'grad_norm': 2.38212513923645, 'learning_rate': 4.849638370765132e-06, 'epoch': 0.4}
+{'loss': 1.5088, 'grad_norm': 2.3395450115203857, 'learning_rate': 4.847735059002665e-06, 'epoch': 0.4}
+{'loss': 1.5997, 'grad_norm': 2.474440574645996, 'learning_rate': 4.8458317472401985e-06, 'epoch': 0.4}
+{'loss': 1.5611, 'grad_norm': 2.429133176803589, 'learning_rate': 4.843928435477732e-06, 'epoch': 0.4}
+{'eval_loss': 1.8613603115081787, 'eval_runtime': 37.9862, 'eval_samples_per_second': 26.325, 'eval_steps_per_second': 1.106, 'epoch': 0.4}
+{'loss': 1.5976, 'grad_norm': 2.403207778930664, 'learning_rate': 4.842025123715265e-06, 'epoch': 0.4}
+{'loss': 1.5791, 'grad_norm': 2.383018732070923, 'learning_rate': 4.840121811952798e-06, 'epoch': 0.4}
+{'loss': 1.6035, 'grad_norm': 2.5303306579589844, 'learning_rate': 4.838218500190331e-06, 'epoch': 0.4}
+{'loss': 1.5795, 'grad_norm': 2.391075372695923, 'learning_rate': 4.8363151884278645e-06, 'epoch': 0.4}
+{'loss': 1.5965, 'grad_norm': 2.396934747695923, 'learning_rate': 4.834411876665398e-06, 'epoch': 0.41}
+{'loss': 1.5372, 'grad_norm': 2.4631423950195312, 'learning_rate': 4.832508564902931e-06, 'epoch': 0.41}
+{'loss': 1.5729, 'grad_norm': 2.3457326889038086, 'learning_rate': 4.830605253140465e-06, 'epoch': 0.41}
+{'loss': 1.5309, 'grad_norm': 2.3763277530670166, 'learning_rate': 4.828701941377998e-06, 'epoch': 0.41}
+{'loss': 1.5465, 'grad_norm': 2.442439556121826, 'learning_rate': 4.826798629615531e-06, 'epoch': 0.41}
+{'loss': 1.5665, 'grad_norm': 2.3464581966400146, 'learning_rate': 4.824895317853065e-06, 'epoch': 0.41}
+{'eval_loss': 1.8671027421951294, 'eval_runtime': 38.0166, 'eval_samples_per_second': 26.304, 'eval_steps_per_second': 1.105, 'epoch': 0.41}
+{'loss': 1.5232, 'grad_norm': 2.5441887378692627, 'learning_rate': 4.822992006090598e-06, 'epoch': 0.41}
+{'loss': 1.5569, 'grad_norm': 2.4234976768493652, 'learning_rate': 4.821088694328131e-06, 'epoch': 0.41}
+{'loss': 1.612, 'grad_norm': 2.3603928089141846, 'learning_rate': 4.819185382565665e-06, 'epoch': 0.41}
+{'loss': 1.5882, 'grad_norm': 2.337862491607666, 'learning_rate': 4.817282070803198e-06, 'epoch': 0.41}
+{'loss': 1.5204, 'grad_norm': 2.3805742263793945, 'learning_rate': 4.8153787590407315e-06, 'epoch': 0.42}
+{'loss': 1.6041, 'grad_norm': 2.3335204124450684, 'learning_rate': 4.813475447278265e-06, 'epoch': 0.42}
+{'loss': 1.5348, 'grad_norm': 2.406137466430664, 'learning_rate': 4.811572135515798e-06, 'epoch': 0.42}
+{'loss': 1.5351, 'grad_norm': 2.2823917865753174, 'learning_rate': 4.809668823753332e-06, 'epoch': 0.42}
+{'loss': 1.5733, 'grad_norm': 2.3577091693878174, 'learning_rate': 4.807765511990864e-06, 'epoch': 0.42}
+{'loss': 1.6153, 'grad_norm': 2.536691665649414, 'learning_rate': 4.8058622002283975e-06, 'epoch': 0.42}
+{'eval_loss': 1.8613901138305664, 'eval_runtime': 37.6689, 'eval_samples_per_second': 26.547, 'eval_steps_per_second': 1.115, 'epoch': 0.42}
+{'loss': 1.5722, 'grad_norm': 2.4020118713378906, 'learning_rate': 4.803958888465931e-06, 'epoch': 0.42}
+{'loss': 1.6546, 'grad_norm': 2.5284810066223145, 'learning_rate': 4.802055576703464e-06, 'epoch': 0.42}
+{'loss': 1.5345, 'grad_norm': 2.270094156265259, 'learning_rate': 4.8001522649409976e-06, 'epoch': 0.42}
+{'loss': 1.5167, 'grad_norm': 2.241417407989502, 'learning_rate': 4.798248953178531e-06, 'epoch': 0.43}
+{'loss': 1.5532, 'grad_norm': 2.3733017444610596, 'learning_rate': 4.796345641416064e-06, 'epoch': 0.43}
+{'loss': 1.6136, 'grad_norm': 2.452587842941284, 'learning_rate': 4.794442329653598e-06, 'epoch': 0.43}
+{'loss': 1.5398, 'grad_norm': 2.417217969894409, 'learning_rate': 4.792539017891131e-06, 'epoch': 0.43}
+{'loss': 1.5741, 'grad_norm': 2.4502453804016113, 'learning_rate': 4.790635706128664e-06, 'epoch': 0.43}
+{'loss': 1.511, 'grad_norm': 2.2996811866760254, 'learning_rate': 4.788732394366197e-06, 'epoch': 0.43}
+{'loss': 1.5117, 'grad_norm': 2.3573555946350098, 'learning_rate': 4.786829082603731e-06, 'epoch': 0.43}
+{'eval_loss': 1.8690649271011353, 'eval_runtime': 37.7813, 'eval_samples_per_second': 26.468, 'eval_steps_per_second': 1.112, 'epoch': 0.43}
+{'loss': 1.5873, 'grad_norm': 2.37233567237854, 'learning_rate': 4.7849257708412645e-06, 'epoch': 0.43}
+{'loss': 1.5291, 'grad_norm': 2.146909713745117, 'learning_rate': 4.783022459078798e-06, 'epoch': 0.43}
+{'loss': 1.5545, 'grad_norm': 2.5237205028533936, 'learning_rate': 4.781119147316331e-06, 'epoch': 0.43}
+{'loss': 1.5635, 'grad_norm': 2.356842279434204, 'learning_rate': 4.7792158355538645e-06, 'epoch': 0.44}
+{'loss': 1.5355, 'grad_norm': 2.1963610649108887, 'learning_rate': 4.777312523791398e-06, 'epoch': 0.44}
+{'loss': 1.5803, 'grad_norm': 2.6425886154174805, 'learning_rate': 4.77540921202893e-06, 'epoch': 0.44}
+{'loss': 1.5649, 'grad_norm': 2.4072272777557373, 'learning_rate': 4.773505900266464e-06, 'epoch': 0.44}
+{'loss': 1.5693, 'grad_norm': 2.592374801635742, 'learning_rate': 4.771602588503997e-06, 'epoch': 0.44}
+{'loss': 1.591, 'grad_norm': 2.4534225463867188, 'learning_rate': 4.7696992767415305e-06, 'epoch': 0.44}
+{'loss': 1.5991, 'grad_norm': 2.434457778930664, 'learning_rate': 4.767795964979064e-06, 'epoch': 0.44}
+{'eval_loss': 1.8584965467453003, 'eval_runtime': 37.8854, 'eval_samples_per_second': 26.395, 'eval_steps_per_second': 1.109, 'epoch': 0.44}
+{'loss': 1.6032, 'grad_norm': 2.3150746822357178, 'learning_rate': 4.765892653216597e-06, 'epoch': 0.44}
+{'loss': 1.5115, 'grad_norm': 2.3040223121643066, 'learning_rate': 4.763989341454131e-06, 'epoch': 0.44}
+{'loss': 1.5305, 'grad_norm': 2.413007974624634, 'learning_rate': 4.762086029691664e-06, 'epoch': 0.44}
+{'loss': 1.564, 'grad_norm': 2.526289463043213, 'learning_rate': 4.760182717929197e-06, 'epoch': 0.45}
+{'loss': 1.4918, 'grad_norm': 2.4122776985168457, 'learning_rate': 4.758279406166731e-06, 'epoch': 0.45}
+{'loss': 1.5583, 'grad_norm': 2.474274158477783, 'learning_rate': 4.756376094404263e-06, 'epoch': 0.45}
+{'loss': 1.6081, 'grad_norm': 2.5322892665863037, 'learning_rate': 4.7544727826417966e-06, 'epoch': 0.45}
+{'loss': 1.5628, 'grad_norm': 2.391660690307617, 'learning_rate': 4.75256947087933e-06, 'epoch': 0.45}
+{'loss': 1.531, 'grad_norm': 2.426671028137207, 'learning_rate': 4.750666159116863e-06, 'epoch': 0.45}
+{'loss': 1.4811, 'grad_norm': 2.7095694541931152, 'learning_rate': 4.7487628473543975e-06, 'epoch': 0.45}
+{'eval_loss': 1.8348888158798218, 'eval_runtime': 37.9114, 'eval_samples_per_second': 26.377, 'eval_steps_per_second': 1.108, 'epoch': 0.45}
+{'loss': 1.5453, 'grad_norm': 2.5425240993499756, 'learning_rate': 4.746859535591931e-06, 'epoch': 0.45}
+{'loss': 1.526, 'grad_norm': 2.6848669052124023, 'learning_rate': 4.744956223829464e-06, 'epoch': 0.45}
+{'loss': 1.5748, 'grad_norm': 2.634068489074707, 'learning_rate': 4.743052912066997e-06, 'epoch': 0.46}
+{'loss': 1.5858, 'grad_norm': 2.492030382156372, 'learning_rate': 4.74114960030453e-06, 'epoch': 0.46}
+{'loss': 1.4774, 'grad_norm': 2.787740707397461, 'learning_rate': 4.7392462885420635e-06, 'epoch': 0.46}
+{'loss': 1.558, 'grad_norm': 2.395914077758789, 'learning_rate': 4.737342976779597e-06, 'epoch': 0.46}
+{'loss': 1.5558, 'grad_norm': 2.6642563343048096, 'learning_rate': 4.73543966501713e-06, 'epoch': 0.46}
+{'loss': 1.5442, 'grad_norm': 2.619943857192993, 'learning_rate': 4.7335363532546636e-06, 'epoch': 0.46}
+{'loss': 1.5613, 'grad_norm': 2.355133056640625, 'learning_rate': 4.731633041492197e-06, 'epoch': 0.46}
+{'loss': 1.5951, 'grad_norm': 2.6572225093841553, 'learning_rate': 4.72972972972973e-06, 'epoch': 0.46}
+{'eval_loss': 1.83199143409729, 'eval_runtime': 37.8996, 'eval_samples_per_second': 26.385, 'eval_steps_per_second': 1.108, 'epoch': 0.46}
+{'loss': 1.5531, 'grad_norm': 2.692873001098633, 'learning_rate': 4.727826417967264e-06, 'epoch': 0.46}
+{'loss': 1.5411, 'grad_norm': 2.3903489112854004, 'learning_rate': 4.725923106204797e-06, 'epoch': 0.46}
+{'loss': 1.5632, 'grad_norm': 2.453263521194458, 'learning_rate': 4.72401979444233e-06, 'epoch': 0.47}
+{'loss': 1.5629, 'grad_norm': 2.5637760162353516, 'learning_rate': 4.722116482679863e-06, 'epoch': 0.47}
+{'loss': 1.5786, 'grad_norm': 2.387033700942993, 'learning_rate': 4.720213170917396e-06, 'epoch': 0.47}
+{'loss': 1.5321, 'grad_norm': 2.4563071727752686, 'learning_rate': 4.71830985915493e-06, 'epoch': 0.47}
+{'loss': 1.5958, 'grad_norm': 2.607451915740967, 'learning_rate': 4.716406547392463e-06, 'epoch': 0.47}
+{'loss': 1.5205, 'grad_norm': 2.4846854209899902, 'learning_rate': 4.714503235629996e-06, 'epoch': 0.47}
+{'loss': 1.5403, 'grad_norm': 2.377629041671753, 'learning_rate': 4.71259992386753e-06, 'epoch': 0.47}
+{'loss': 1.5456, 'grad_norm': 2.4470160007476807, 'learning_rate': 4.710696612105063e-06, 'epoch': 0.47}
+{'eval_loss': 1.83836829662323, 'eval_runtime': 37.88, 'eval_samples_per_second': 26.399, 'eval_steps_per_second': 1.109, 'epoch': 0.47}
+{'loss': 1.5468, 'grad_norm': 2.383418560028076, 'learning_rate': 4.708793300342596e-06, 'epoch': 0.47}
+{'loss': 1.5313, 'grad_norm': 2.3672895431518555, 'learning_rate': 4.70688998858013e-06, 'epoch': 0.47}
+{'loss': 1.5645, 'grad_norm': 2.415717124938965, 'learning_rate': 4.704986676817663e-06, 'epoch': 0.48}
+{'loss': 1.5285, 'grad_norm': 2.4690067768096924, 'learning_rate': 4.7030833650551965e-06, 'epoch': 0.48}
+{'loss': 1.596, 'grad_norm': 2.3845672607421875, 'learning_rate': 4.70118005329273e-06, 'epoch': 0.48}
+{'loss': 1.5777, 'grad_norm': 2.2801802158355713, 'learning_rate': 4.699276741530263e-06, 'epoch': 0.48}
+{'loss': 1.5566, 'grad_norm': 2.4668991565704346, 'learning_rate': 4.697373429767797e-06, 'epoch': 0.48}
+{'loss': 1.5664, 'grad_norm': 2.446078062057495, 'learning_rate': 4.69547011800533e-06, 'epoch': 0.48}
+{'loss': 1.5425, 'grad_norm': 2.2310681343078613, 'learning_rate': 4.693566806242863e-06, 'epoch': 0.48}
+{'loss': 1.576, 'grad_norm': 2.3938229084014893, 'learning_rate': 4.691663494480397e-06, 'epoch': 0.48}
+{'eval_loss': 1.83778977394104, 'eval_runtime': 37.9276, 'eval_samples_per_second': 26.366, 'eval_steps_per_second': 1.107, 'epoch': 0.48}
+{'loss': 1.4763, 'grad_norm': 2.23827862739563, 'learning_rate': 4.689760182717929e-06, 'epoch': 0.48}
+{'loss': 1.5386, 'grad_norm': 2.3148930072784424, 'learning_rate': 4.6878568709554626e-06, 'epoch': 0.48}
+{'loss': 1.5576, 'grad_norm': 2.407036781311035, 'learning_rate': 4.685953559192996e-06, 'epoch': 0.49}
+{'loss': 1.4931, 'grad_norm': 2.4675374031066895, 'learning_rate': 4.684050247430529e-06, 'epoch': 0.49}
+{'loss': 1.5348, 'grad_norm': 2.4593775272369385, 'learning_rate': 4.682146935668063e-06, 'epoch': 0.49}
+{'loss': 1.5614, 'grad_norm': 2.4169375896453857, 'learning_rate': 4.680243623905596e-06, 'epoch': 0.49}
+{'loss': 1.5138, 'grad_norm': 2.6177303791046143, 'learning_rate': 4.678340312143129e-06, 'epoch': 0.49}
+{'loss': 1.6377, 'grad_norm': 2.6418113708496094, 'learning_rate': 4.676437000380663e-06, 'epoch': 0.49}
+{'loss': 1.5682, 'grad_norm': 2.338491439819336, 'learning_rate': 4.674533688618196e-06, 'epoch': 0.49}
+{'loss': 1.4899, 'grad_norm': 2.5901622772216797, 'learning_rate': 4.6726303768557295e-06, 'epoch': 0.49}
+{'eval_loss': 1.8238886594772339, 'eval_runtime': 37.9605, 'eval_samples_per_second': 26.343, 'eval_steps_per_second': 1.106, 'epoch': 0.49}
+{'loss': 1.5016, 'grad_norm': 2.470827102661133, 'learning_rate': 4.670727065093263e-06, 'epoch': 0.49}
+{'loss': 1.5399, 'grad_norm': 2.371201992034912, 'learning_rate': 4.668823753330796e-06, 'epoch': 0.5}
+{'loss': 1.5985, 'grad_norm': 2.532802104949951, 'learning_rate': 4.6669204415683295e-06, 'epoch': 0.5}
+{'loss': 1.5802, 'grad_norm': 2.6294727325439453, 'learning_rate': 4.665017129805863e-06, 'epoch': 0.5}
+{'loss': 1.5384, 'grad_norm': 2.2164878845214844, 'learning_rate': 4.663113818043396e-06, 'epoch': 0.5}
+{'loss': 1.5785, 'grad_norm': 2.311232805252075, 'learning_rate': 4.66121050628093e-06, 'epoch': 0.5}
+{'loss': 1.5401, 'grad_norm': 2.2916736602783203, 'learning_rate': 4.659307194518463e-06, 'epoch': 0.5}
+{'loss': 1.5619, 'grad_norm': 2.3978800773620605, 'learning_rate': 4.6574038827559955e-06, 'epoch': 0.5}
+{'loss': 1.5824, 'grad_norm': 2.438917398452759, 'learning_rate': 4.655500570993529e-06, 'epoch': 0.5}
+{'loss': 1.4802, 'grad_norm': 2.528862237930298, 'learning_rate': 4.653597259231062e-06, 'epoch': 0.5}
+{'eval_loss': 1.83504056930542, 'eval_runtime': 37.9357, 'eval_samples_per_second': 26.36, 'eval_steps_per_second': 1.107, 'epoch': 0.5}
+{'loss': 1.6186, 'grad_norm': 2.54522442817688, 'learning_rate': 4.651693947468596e-06, 'epoch': 0.5}
+{'loss': 1.5159, 'grad_norm': 2.5037031173706055, 'learning_rate': 4.649790635706129e-06, 'epoch': 0.51}
+{'loss': 1.5378, 'grad_norm': 2.4600465297698975, 'learning_rate': 4.647887323943662e-06, 'epoch': 0.51}
+{'loss': 1.4485, 'grad_norm': 2.393695831298828, 'learning_rate': 4.645984012181196e-06, 'epoch': 0.51}
+{'loss': 1.57, 'grad_norm': 2.488626718521118, 'learning_rate': 4.644080700418729e-06, 'epoch': 0.51}
+{'loss': 1.5343, 'grad_norm': 2.409858465194702, 'learning_rate': 4.642177388656262e-06, 'epoch': 0.51}
+{'loss': 1.5825, 'grad_norm': 2.5607573986053467, 'learning_rate': 4.640274076893796e-06, 'epoch': 0.51}
+{'loss': 1.5129, 'grad_norm': 2.5953354835510254, 'learning_rate': 4.638370765131328e-06, 'epoch': 0.51}
+{'loss': 1.4972, 'grad_norm': 2.3321897983551025, 'learning_rate': 4.636467453368862e-06, 'epoch': 0.51}
+{'loss': 1.567, 'grad_norm': 2.332052707672119, 'learning_rate': 4.634564141606396e-06, 'epoch': 0.51}
+{'eval_loss': 1.824558138847351, 'eval_runtime': 37.9157, 'eval_samples_per_second': 26.374, 'eval_steps_per_second': 1.108, 'epoch': 0.51}
+{'loss': 1.494, 'grad_norm': 2.431809902191162, 'learning_rate': 4.632660829843929e-06, 'epoch': 0.51}
+{'loss': 1.6289, 'grad_norm': 2.7118983268737793, 'learning_rate': 4.630757518081463e-06, 'epoch': 0.52}
+{'loss': 1.5363, 'grad_norm': 2.3549370765686035, 'learning_rate': 4.628854206318996e-06, 'epoch': 0.52}
+{'loss': 1.5749, 'grad_norm': 2.3343000411987305, 'learning_rate': 4.626950894556529e-06, 'epoch': 0.52}
+{'loss': 1.4958, 'grad_norm': 2.4281466007232666, 'learning_rate': 4.625047582794062e-06, 'epoch': 0.52}
+{'loss': 1.5031, 'grad_norm': 2.3858845233917236, 'learning_rate': 4.623144271031595e-06, 'epoch': 0.52}
+{'loss': 1.5808, 'grad_norm': 2.3714635372161865, 'learning_rate': 4.6212409592691286e-06, 'epoch': 0.52}
+{'loss': 1.541, 'grad_norm': 2.5290520191192627, 'learning_rate': 4.619337647506662e-06, 'epoch': 0.52}
+{'loss': 1.4992, 'grad_norm': 2.5521368980407715, 'learning_rate': 4.617434335744195e-06, 'epoch': 0.52}
+{'loss': 1.5283, 'grad_norm': 2.436588764190674, 'learning_rate': 4.615531023981729e-06, 'epoch': 0.52}
+{'eval_loss': 1.8220165967941284, 'eval_runtime': 37.6123, 'eval_samples_per_second': 26.587, 'eval_steps_per_second': 1.117, 'epoch': 0.52}
+{'loss': 1.5426, 'grad_norm': 2.5240023136138916, 'learning_rate': 4.613627712219262e-06, 'epoch': 0.52}
+{'loss': 1.5411, 'grad_norm': 2.5292775630950928, 'learning_rate': 4.611724400456795e-06, 'epoch': 0.53}
+{'loss': 1.5083, 'grad_norm': 2.3622210025787354, 'learning_rate': 4.609821088694329e-06, 'epoch': 0.53}
+{'loss': 1.5541, 'grad_norm': 2.545267105102539, 'learning_rate': 4.607917776931862e-06, 'epoch': 0.53}
+{'loss': 1.5686, 'grad_norm': 2.3417961597442627, 'learning_rate': 4.606014465169395e-06, 'epoch': 0.53}
+{'loss': 1.4761, 'grad_norm': 2.2782580852508545, 'learning_rate': 4.604111153406928e-06, 'epoch': 0.53}
+{'loss': 1.5818, 'grad_norm': 2.4437527656555176, 'learning_rate': 4.602207841644461e-06, 'epoch': 0.53}
+{'loss': 1.5556, 'grad_norm': 2.3594319820404053, 'learning_rate': 4.600304529881995e-06, 'epoch': 0.53}
+{'loss': 1.5726, 'grad_norm': 2.325979471206665, 'learning_rate': 4.598401218119528e-06, 'epoch': 0.53}
+{'loss': 1.5151, 'grad_norm': 2.2765676975250244, 'learning_rate': 4.5964979063570614e-06, 'epoch': 0.53}
+{'eval_loss': 1.825669288635254, 'eval_runtime': 37.7491, 'eval_samples_per_second': 26.491, 'eval_steps_per_second': 1.113, 'epoch': 0.53}
+{'loss': 1.5505, 'grad_norm': 2.357647657394409, 'learning_rate': 4.594594594594596e-06, 'epoch': 0.54}
+{'loss': 1.5621, 'grad_norm': 2.3652896881103516, 'learning_rate': 4.592691282832128e-06, 'epoch': 0.54}
+{'loss': 1.4851, 'grad_norm': 2.234096050262451, 'learning_rate': 4.5907879710696615e-06, 'epoch': 0.54}
+{'loss': 1.5594, 'grad_norm': 2.3414828777313232, 'learning_rate': 4.588884659307195e-06, 'epoch': 0.54}
+{'loss': 1.4994, 'grad_norm': 2.3934929370880127, 'learning_rate': 4.586981347544728e-06, 'epoch': 0.54}
+{'loss': 1.5346, 'grad_norm': 2.400479555130005, 'learning_rate': 4.585078035782262e-06, 'epoch': 0.54}
+{'loss': 1.4803, 'grad_norm': 2.3817873001098633, 'learning_rate': 4.583174724019795e-06, 'epoch': 0.54}
+{'loss': 1.4711, 'grad_norm': 2.4503185749053955, 'learning_rate': 4.581271412257328e-06, 'epoch': 0.54}
+{'loss': 1.5645, 'grad_norm': 2.452578067779541, 'learning_rate': 4.579368100494862e-06, 'epoch': 0.54}
+{'loss': 1.5428, 'grad_norm': 2.3278186321258545, 'learning_rate': 4.577464788732395e-06, 'epoch': 0.54}
+{'eval_loss': 1.8242785930633545, 'eval_runtime': 37.9229, 'eval_samples_per_second': 26.369, 'eval_steps_per_second': 1.108, 'epoch': 0.54}
+{'loss': 1.5896, 'grad_norm': 2.5192365646362305, 'learning_rate': 4.575561476969928e-06, 'epoch': 0.55}
+{'loss': 1.5518, 'grad_norm': 2.308701276779175, 'learning_rate': 4.573658165207461e-06, 'epoch': 0.55}
+{'loss': 1.5387, 'grad_norm': 2.4221107959747314, 'learning_rate': 4.571754853444994e-06, 'epoch': 0.55}
+{'loss': 1.4997, 'grad_norm': 2.457606077194214, 'learning_rate': 4.569851541682528e-06, 'epoch': 0.55}
+{'loss': 1.4761, 'grad_norm': 2.3406503200531006, 'learning_rate': 4.567948229920061e-06, 'epoch': 0.55}
+{'loss': 1.5114, 'grad_norm': 2.555712938308716, 'learning_rate': 4.566044918157594e-06, 'epoch': 0.55}
+{'loss': 1.5516, 'grad_norm': 2.373013734817505, 'learning_rate': 4.564141606395128e-06, 'epoch': 0.55}
+{'loss': 1.5145, 'grad_norm': 2.3915255069732666, 'learning_rate': 4.562238294632661e-06, 'epoch': 0.55}
+{'loss': 1.5472, 'grad_norm': 2.3272323608398438, 'learning_rate': 4.5603349828701945e-06, 'epoch': 0.55}
+{'loss': 1.5842, 'grad_norm': 2.416072130203247, 'learning_rate': 4.558431671107728e-06, 'epoch': 0.55}
+{'eval_loss': 1.825427532196045, 'eval_runtime': 37.9905, 'eval_samples_per_second': 26.322, 'eval_steps_per_second': 1.106, 'epoch': 0.55}
+{'loss': 1.5188, 'grad_norm': 2.3225271701812744, 'learning_rate': 4.556528359345261e-06, 'epoch': 0.56}
+{'loss': 1.4778, 'grad_norm': 2.2387030124664307, 'learning_rate': 4.5546250475827946e-06, 'epoch': 0.56}
+{'loss': 1.5229, 'grad_norm': 2.3054494857788086, 'learning_rate': 4.552721735820328e-06, 'epoch': 0.56}
+{'loss': 1.5367, 'grad_norm': 2.4956626892089844, 'learning_rate': 4.550818424057861e-06, 'epoch': 0.56}
+{'loss': 1.5444, 'grad_norm': 2.454986810684204, 'learning_rate': 4.548915112295395e-06, 'epoch': 0.56}
+{'loss': 1.4914, 'grad_norm': 2.466810703277588, 'learning_rate': 4.547011800532928e-06, 'epoch': 0.56}
+{'loss': 1.5775, 'grad_norm': 2.51777982711792, 'learning_rate': 4.545108488770461e-06, 'epoch': 0.56}
+{'loss': 1.5185, 'grad_norm': 2.340421199798584, 'learning_rate': 4.543205177007995e-06, 'epoch': 0.56}
+{'loss': 1.5588, 'grad_norm': 2.376772880554199, 'learning_rate': 4.541301865245527e-06, 'epoch': 0.56}
+{'loss': 1.5283, 'grad_norm': 2.4004335403442383, 'learning_rate': 4.539398553483061e-06, 'epoch': 0.56}
+{'eval_loss': 1.8294963836669922, 'eval_runtime': 37.9391, 'eval_samples_per_second': 26.358, 'eval_steps_per_second': 1.107, 'epoch': 0.56}
+{'loss': 1.5576, 'grad_norm': 2.424459934234619, 'learning_rate': 4.537495241720594e-06, 'epoch': 0.57}
+{'loss': 1.5444, 'grad_norm': 2.4413998126983643, 'learning_rate': 4.535591929958127e-06, 'epoch': 0.57}
+{'loss': 1.5269, 'grad_norm': 2.408897876739502, 'learning_rate': 4.533688618195661e-06, 'epoch': 0.57}
+{'loss': 1.5109, 'grad_norm': 2.471024990081787, 'learning_rate': 4.531785306433194e-06, 'epoch': 0.57}
+{'loss': 1.5205, 'grad_norm': 2.374882459640503, 'learning_rate': 4.529881994670727e-06, 'epoch': 0.57}
+{'loss': 1.5276, 'grad_norm': 2.4166030883789062, 'learning_rate': 4.527978682908261e-06, 'epoch': 0.57}
+{'loss': 1.5374, 'grad_norm': 2.2681620121002197, 'learning_rate': 4.526075371145794e-06, 'epoch': 0.57}
+{'loss': 1.5349, 'grad_norm': 2.3933286666870117, 'learning_rate': 4.5241720593833275e-06, 'epoch': 0.57}
+{'loss': 1.5512, 'grad_norm': 2.4086451530456543, 'learning_rate': 4.52226874762086e-06, 'epoch': 0.57}
+{'loss': 1.5789, 'grad_norm': 2.559021472930908, 'learning_rate': 4.520365435858393e-06, 'epoch': 0.58}
+{'eval_loss': 1.8243234157562256, 'eval_runtime': 37.934, 'eval_samples_per_second': 26.362, 'eval_steps_per_second': 1.107, 'epoch': 0.58}
+{'loss': 1.5348, 'grad_norm': 2.483494520187378, 'learning_rate': 4.518462124095928e-06, 'epoch': 0.58}
+{'loss': 1.5201, 'grad_norm': 2.4039993286132812, 'learning_rate': 4.516558812333461e-06, 'epoch': 0.58}
+{'loss': 1.5864, 'grad_norm': 2.5080959796905518, 'learning_rate': 4.514655500570994e-06, 'epoch': 0.58}
+{'loss': 1.5901, 'grad_norm': 2.620887279510498, 'learning_rate': 4.512752188808528e-06, 'epoch': 0.58}
+{'loss': 1.5506, 'grad_norm': 2.5691096782684326, 'learning_rate': 4.510848877046061e-06, 'epoch': 0.58}
+{'loss': 1.5149, 'grad_norm': 2.3777835369110107, 'learning_rate': 4.5089455652835936e-06, 'epoch': 0.58}
+{'loss': 1.4771, 'grad_norm': 2.2791666984558105, 'learning_rate': 4.507042253521127e-06, 'epoch': 0.58}
+{'loss': 1.556, 'grad_norm': 2.4953627586364746, 'learning_rate': 4.50513894175866e-06, 'epoch': 0.58}
+{'loss': 1.549, 'grad_norm': 2.3563215732574463, 'learning_rate': 4.503235629996194e-06, 'epoch': 0.58}
+{'loss': 1.513, 'grad_norm': 2.49676513671875, 'learning_rate': 4.501332318233727e-06, 'epoch': 0.59}
+{'eval_loss': 1.8353043794631958, 'eval_runtime': 37.9464, 'eval_samples_per_second': 26.353, 'eval_steps_per_second': 1.107, 'epoch': 0.59}
+{'loss': 1.5622, 'grad_norm': 2.385275363922119, 'learning_rate': 4.49942900647126e-06, 'epoch': 0.59}
+{'loss': 1.5426, 'grad_norm': 2.3089914321899414, 'learning_rate': 4.497525694708794e-06, 'epoch': 0.59}
+{'loss': 1.5088, 'grad_norm': 2.307323455810547, 'learning_rate': 4.495622382946327e-06, 'epoch': 0.59}
+{'loss': 1.5788, 'grad_norm': 2.597288131713867, 'learning_rate': 4.4937190711838605e-06, 'epoch': 0.59}
+{'loss': 1.5038, 'grad_norm': 2.3923256397247314, 'learning_rate': 4.491815759421394e-06, 'epoch': 0.59}
+{'loss': 1.5057, 'grad_norm': 2.4199156761169434, 'learning_rate': 4.489912447658926e-06, 'epoch': 0.59}
+{'loss': 1.5274, 'grad_norm': 2.5643393993377686, 'learning_rate': 4.48800913589646e-06, 'epoch': 0.59}
+{'loss': 1.5341, 'grad_norm': 2.5854485034942627, 'learning_rate': 4.486105824133993e-06, 'epoch': 0.59}
+{'loss': 1.4953, 'grad_norm': 2.5363597869873047, 'learning_rate': 4.4842025123715264e-06, 'epoch': 0.59}
+{'loss': 1.4868, 'grad_norm': 2.3880693912506104, 'learning_rate': 4.48229920060906e-06, 'epoch': 0.6}
+{'eval_loss': 1.8251410722732544, 'eval_runtime': 37.9554, 'eval_samples_per_second': 26.347, 'eval_steps_per_second': 1.107, 'epoch': 0.6}
+{'loss': 1.5851, 'grad_norm': 2.5272583961486816, 'learning_rate': 4.480395888846594e-06, 'epoch': 0.6}
+{'loss': 1.4896, 'grad_norm': 2.4496943950653076, 'learning_rate': 4.478492577084127e-06, 'epoch': 0.6}
+{'loss': 1.5253, 'grad_norm': 2.3996055126190186, 'learning_rate': 4.47658926532166e-06, 'epoch': 0.6}
+{'loss': 1.6294, 'grad_norm': 2.5964202880859375, 'learning_rate': 4.474685953559193e-06, 'epoch': 0.6}
+{'loss': 1.4834, 'grad_norm': 2.5567739009857178, 'learning_rate': 4.472782641796727e-06, 'epoch': 0.6}
+{'loss': 1.4966, 'grad_norm': 2.440291166305542, 'learning_rate': 4.47087933003426e-06, 'epoch': 0.6}
+{'loss': 1.5005, 'grad_norm': 2.525763988494873, 'learning_rate': 4.468976018271793e-06, 'epoch': 0.6}
+{'loss': 1.5358, 'grad_norm': 2.4822962284088135, 'learning_rate': 4.467072706509327e-06, 'epoch': 0.6}
+{'loss': 1.4975, 'grad_norm': 2.591149091720581, 'learning_rate': 4.46516939474686e-06, 'epoch': 0.61}
+{'loss': 1.6107, 'grad_norm': 2.4884238243103027, 'learning_rate': 4.463266082984393e-06, 'epoch': 0.61}
+{'eval_loss': 1.8383466005325317, 'eval_runtime': 37.9554, 'eval_samples_per_second': 26.347, 'eval_steps_per_second': 1.107, 'epoch': 0.61}
+{'loss': 1.4986, 'grad_norm': 2.4965732097625732, 'learning_rate': 4.461362771221927e-06, 'epoch': 0.61}
+{'loss': 1.5067, 'grad_norm': 2.544792413711548, 'learning_rate': 4.45945945945946e-06, 'epoch': 0.61}
+{'loss': 1.5861, 'grad_norm': 2.5726170539855957, 'learning_rate': 4.457556147696993e-06, 'epoch': 0.61}
+{'loss': 1.5857, 'grad_norm': 2.493027448654175, 'learning_rate': 4.455652835934526e-06, 'epoch': 0.61}
+{'loss': 1.5419, 'grad_norm': 2.470771074295044, 'learning_rate': 4.453749524172059e-06, 'epoch': 0.61}
+{'loss': 1.5391, 'grad_norm': 2.568052053451538, 'learning_rate': 4.451846212409593e-06, 'epoch': 0.61}
+{'loss': 1.4761, 'grad_norm': 2.4346213340759277, 'learning_rate': 4.449942900647126e-06, 'epoch': 0.61}
+{'loss': 1.5383, 'grad_norm': 2.418133497238159, 'learning_rate': 4.4480395888846595e-06, 'epoch': 0.61}
+{'loss': 1.4777, 'grad_norm': 2.4795567989349365, 'learning_rate': 4.446136277122193e-06, 'epoch': 0.62}
+{'loss': 1.5353, 'grad_norm': 2.5122742652893066, 'learning_rate': 4.444232965359726e-06, 'epoch': 0.62}
+{'eval_loss': 1.8325241804122925, 'eval_runtime': 37.9546, 'eval_samples_per_second': 26.347, 'eval_steps_per_second': 1.107, 'epoch': 0.62}
+{'loss': 1.489, 'grad_norm': 2.604067325592041, 'learning_rate': 4.4423296535972596e-06, 'epoch': 0.62}
+{'loss': 1.532, 'grad_norm': 2.3741753101348877, 'learning_rate': 4.440426341834793e-06, 'epoch': 0.62}
+{'loss': 1.561, 'grad_norm': 2.5373036861419678, 'learning_rate': 4.438523030072326e-06, 'epoch': 0.62}
+{'loss': 1.5025, 'grad_norm': 2.2958099842071533, 'learning_rate': 4.43661971830986e-06, 'epoch': 0.62}
+{'loss': 1.4977, 'grad_norm': 2.417006015777588, 'learning_rate': 4.434716406547393e-06, 'epoch': 0.62}
+{'loss': 1.5504, 'grad_norm': 2.335296392440796, 'learning_rate': 4.432813094784926e-06, 'epoch': 0.62}
+{'loss': 1.5217, 'grad_norm': 2.4086828231811523, 'learning_rate': 4.43090978302246e-06, 'epoch': 0.62}
+{'loss': 1.5126, 'grad_norm': 2.3816819190979004, 'learning_rate': 4.429006471259993e-06, 'epoch': 0.62}
+{'loss': 1.4876, 'grad_norm': 2.307671546936035, 'learning_rate': 4.4271031594975265e-06, 'epoch': 0.63}
+{'loss': 1.4827, 'grad_norm': 2.355837821960449, 'learning_rate': 4.425199847735059e-06, 'epoch': 0.63}
+{'eval_loss': 1.8269455432891846, 'eval_runtime': 37.6459, 'eval_samples_per_second': 26.563, 'eval_steps_per_second': 1.116, 'epoch': 0.63}
+{'loss': 1.5172, 'grad_norm': 2.558631658554077, 'learning_rate': 4.423296535972592e-06, 'epoch': 0.63}
+{'loss': 1.4784, 'grad_norm': 2.3170175552368164, 'learning_rate': 4.421393224210126e-06, 'epoch': 0.63}
+{'loss': 1.5616, 'grad_norm': 2.4064524173736572, 'learning_rate': 4.419489912447659e-06, 'epoch': 0.63}
+{'loss': 1.5292, 'grad_norm': 2.3719160556793213, 'learning_rate': 4.4175866006851924e-06, 'epoch': 0.63}
+{'loss': 1.5122, 'grad_norm': 2.3808202743530273, 'learning_rate': 4.415683288922726e-06, 'epoch': 0.63}
+{'loss': 1.5088, 'grad_norm': 2.4208037853240967, 'learning_rate': 4.413779977160259e-06, 'epoch': 0.63}
+{'loss': 1.5678, 'grad_norm': 2.5558979511260986, 'learning_rate': 4.4118766653977925e-06, 'epoch': 0.63}
+{'loss': 1.5234, 'grad_norm': 2.443908452987671, 'learning_rate': 4.409973353635326e-06, 'epoch': 0.63}
+{'loss': 1.4708, 'grad_norm': 2.420408010482788, 'learning_rate': 4.408070041872859e-06, 'epoch': 0.64}
+{'loss': 1.4821, 'grad_norm': 2.3884904384613037, 'learning_rate': 4.406166730110393e-06, 'epoch': 0.64}
+{'eval_loss': 1.8217289447784424, 'eval_runtime': 37.7936, 'eval_samples_per_second': 26.459, 'eval_steps_per_second': 1.111, 'epoch': 0.64}
+{'loss': 1.4962, 'grad_norm': 2.313720703125, 'learning_rate': 4.404263418347925e-06, 'epoch': 0.64}
+{'loss': 1.4857, 'grad_norm': 2.3173866271972656, 'learning_rate': 4.402360106585459e-06, 'epoch': 0.64}
+{'loss': 1.5177, 'grad_norm': 2.541757822036743, 'learning_rate': 4.400456794822993e-06, 'epoch': 0.64}
+{'loss': 1.4718, 'grad_norm': 2.4382357597351074, 'learning_rate': 4.398553483060526e-06, 'epoch': 0.64}
+{'loss': 1.4883, 'grad_norm': 2.2988059520721436, 'learning_rate': 4.396650171298059e-06, 'epoch': 0.64}
+{'loss': 1.4823, 'grad_norm': 2.4817495346069336, 'learning_rate': 4.394746859535593e-06, 'epoch': 0.64}
+{'loss': 1.4882, 'grad_norm': 2.4578585624694824, 'learning_rate': 4.392843547773125e-06, 'epoch': 0.64}
+{'loss': 1.514, 'grad_norm': 2.184972047805786, 'learning_rate': 4.390940236010659e-06, 'epoch': 0.65}
+{'loss': 1.5343, 'grad_norm': 2.4040279388427734, 'learning_rate': 4.389036924248192e-06, 'epoch': 0.65}
+{'loss': 1.5007, 'grad_norm': 2.3676459789276123, 'learning_rate': 4.387133612485725e-06, 'epoch': 0.65}
+{'eval_loss': 1.8106164932250977, 'eval_runtime': 37.9383, 'eval_samples_per_second': 26.359, 'eval_steps_per_second': 1.107, 'epoch': 0.65}
+{'loss': 1.5064, 'grad_norm': 2.234689235687256, 'learning_rate': 4.385230300723259e-06, 'epoch': 0.65}
+{'loss': 1.4777, 'grad_norm': 2.281742572784424, 'learning_rate': 4.383326988960792e-06, 'epoch': 0.65}
+{'loss': 1.5331, 'grad_norm': 2.4314322471618652, 'learning_rate': 4.3814236771983255e-06, 'epoch': 0.65}
+{'loss': 1.5122, 'grad_norm': 2.4092588424682617, 'learning_rate': 4.379520365435859e-06, 'epoch': 0.65}
+{'loss': 1.52, 'grad_norm': 2.517362117767334, 'learning_rate': 4.377617053673392e-06, 'epoch': 0.65}
+{'loss': 1.5771, 'grad_norm': 2.4784109592437744, 'learning_rate': 4.3757137419109256e-06, 'epoch': 0.65}
+{'loss': 1.4718, 'grad_norm': 2.32181715965271, 'learning_rate': 4.373810430148459e-06, 'epoch': 0.65}
+{'loss': 1.5307, 'grad_norm': 2.5146260261535645, 'learning_rate': 4.3719071183859914e-06, 'epoch': 0.66}
+{'loss': 1.4803, 'grad_norm': 2.2364494800567627, 'learning_rate': 4.370003806623525e-06, 'epoch': 0.66}
+{'loss': 1.5249, 'grad_norm': 2.3735806941986084, 'learning_rate': 4.368100494861058e-06, 'epoch': 0.66}
+{'eval_loss': 1.8134880065917969, 'eval_runtime': 38.0376, 'eval_samples_per_second': 26.29, 'eval_steps_per_second': 1.104, 'epoch': 0.66}
+{'loss': 1.4893, 'grad_norm': 2.4600815773010254, 'learning_rate': 4.3661971830985915e-06, 'epoch': 0.66}
+{'loss': 1.5163, 'grad_norm': 2.4106783866882324, 'learning_rate': 4.364293871336126e-06, 'epoch': 0.66}
+{'loss': 1.482, 'grad_norm': 2.276624917984009, 'learning_rate': 4.362390559573659e-06, 'epoch': 0.66}
+{'loss': 1.4152, 'grad_norm': 2.336341381072998, 'learning_rate': 4.3604872478111925e-06, 'epoch': 0.66}
+{'loss': 1.5411, 'grad_norm': 2.3329105377197266, 'learning_rate': 4.358583936048725e-06, 'epoch': 0.66}
+{'loss': 1.4997, 'grad_norm': 2.2877161502838135, 'learning_rate': 4.356680624286258e-06, 'epoch': 0.66}
+{'loss': 1.5446, 'grad_norm': 2.410820484161377, 'learning_rate': 4.354777312523792e-06, 'epoch': 0.66}
+{'loss': 1.4916, 'grad_norm': 2.403038501739502, 'learning_rate': 4.352874000761325e-06, 'epoch': 0.67}
+{'loss': 1.5561, 'grad_norm': 2.3261778354644775, 'learning_rate': 4.3509706889988584e-06, 'epoch': 0.67}
+{'loss': 1.556, 'grad_norm': 2.4512174129486084, 'learning_rate': 4.349067377236392e-06, 'epoch': 0.67}
+{'eval_loss': 1.8238279819488525, 'eval_runtime': 37.9988, 'eval_samples_per_second': 26.317, 'eval_steps_per_second': 1.105, 'epoch': 0.67}
+{'loss': 1.5676, 'grad_norm': 2.4523823261260986, 'learning_rate': 4.347164065473925e-06, 'epoch': 0.67}
+{'loss': 1.4815, 'grad_norm': 2.3770365715026855, 'learning_rate': 4.3452607537114585e-06, 'epoch': 0.67}
+{'loss': 1.5141, 'grad_norm': 2.2440760135650635, 'learning_rate': 4.343357441948992e-06, 'epoch': 0.67}
+{'loss': 1.4859, 'grad_norm': 2.3341948986053467, 'learning_rate': 4.341454130186525e-06, 'epoch': 0.67}
+{'loss': 1.4734, 'grad_norm': 2.507354497909546, 'learning_rate': 4.339550818424058e-06, 'epoch': 0.67}
+{'loss': 1.5069, 'grad_norm': 2.395954132080078, 'learning_rate': 4.337647506661591e-06, 'epoch': 0.67}
+{'loss': 1.5299, 'grad_norm': 2.362211227416992, 'learning_rate': 4.3357441948991245e-06, 'epoch': 0.67}
+{'loss': 1.4795, 'grad_norm': 2.460008144378662, 'learning_rate': 4.333840883136658e-06, 'epoch': 0.68}
+{'loss': 1.4906, 'grad_norm': 2.3578217029571533, 'learning_rate': 4.331937571374191e-06, 'epoch': 0.68}
+{'loss': 1.4986, 'grad_norm': 2.398843288421631, 'learning_rate': 4.3300342596117246e-06, 'epoch': 0.68}
+{'eval_loss': 1.8206881284713745, 'eval_runtime': 38.044, 'eval_samples_per_second': 26.285, 'eval_steps_per_second': 1.104, 'epoch': 0.68}
+{'loss': 1.461, 'grad_norm': 2.3587260246276855, 'learning_rate': 4.328130947849258e-06, 'epoch': 0.68}
+{'loss': 1.5041, 'grad_norm': 2.311952590942383, 'learning_rate': 4.326227636086791e-06, 'epoch': 0.68}
+{'loss': 1.5042, 'grad_norm': 2.376188278198242, 'learning_rate': 4.324324324324325e-06, 'epoch': 0.68}
+{'loss': 1.4935, 'grad_norm': 2.5807230472564697, 'learning_rate': 4.322421012561858e-06, 'epoch': 0.68}
+{'loss': 1.5851, 'grad_norm': 2.368128538131714, 'learning_rate': 4.320517700799391e-06, 'epoch': 0.68}
+{'loss': 1.5528, 'grad_norm': 2.4517524242401123, 'learning_rate': 4.318614389036925e-06, 'epoch': 0.68}
+{'loss': 1.4633, 'grad_norm': 2.5436811447143555, 'learning_rate': 4.316711077274458e-06, 'epoch': 0.69}
+{'loss': 1.5454, 'grad_norm': 2.4287915229797363, 'learning_rate': 4.3148077655119915e-06, 'epoch': 0.69}
+{'loss': 1.5116, 'grad_norm': 2.386528730392456, 'learning_rate': 4.312904453749525e-06, 'epoch': 0.69}
+{'loss': 1.5199, 'grad_norm': 2.6602251529693604, 'learning_rate': 4.311001141987058e-06, 'epoch': 0.69}
+{'eval_loss': 1.8252663612365723, 'eval_runtime': 38.0791, 'eval_samples_per_second': 26.261, 'eval_steps_per_second': 1.103, 'epoch': 0.69}
+{'loss': 1.507, 'grad_norm': 2.351128339767456, 'learning_rate': 4.3090978302245916e-06, 'epoch': 0.69}
+{'loss': 1.579, 'grad_norm': 2.393441677093506, 'learning_rate': 4.307194518462124e-06, 'epoch': 0.69}
+{'loss': 1.5446, 'grad_norm': 2.3730578422546387, 'learning_rate': 4.3052912066996574e-06, 'epoch': 0.69}
+{'loss': 1.4705, 'grad_norm': 2.2522945404052734, 'learning_rate': 4.303387894937191e-06, 'epoch': 0.69}
+{'loss': 1.4636, 'grad_norm': 2.384563446044922, 'learning_rate': 4.301484583174724e-06, 'epoch': 0.69}
+{'loss': 1.4914, 'grad_norm': 2.2879116535186768, 'learning_rate': 4.2995812714122575e-06, 'epoch': 0.69}
+{'loss': 1.5126, 'grad_norm': 2.494788646697998, 'learning_rate': 4.297677959649791e-06, 'epoch': 0.7}
+{'loss': 1.5362, 'grad_norm': 2.700012683868408, 'learning_rate': 4.295774647887324e-06, 'epoch': 0.7}
+{'loss': 1.5075, 'grad_norm': 2.5130302906036377, 'learning_rate': 4.293871336124858e-06, 'epoch': 0.7}
+{'loss': 1.5338, 'grad_norm': 2.486236572265625, 'learning_rate': 4.291968024362391e-06, 'epoch': 0.7}
+{'eval_loss': 1.8229657411575317, 'eval_runtime': 38.0642, 'eval_samples_per_second': 26.271, 'eval_steps_per_second': 1.103, 'epoch': 0.7}
+{'loss': 1.537, 'grad_norm': 2.441683530807495, 'learning_rate': 4.290064712599924e-06, 'epoch': 0.7}
+{'loss': 1.4553, 'grad_norm': 2.396798610687256, 'learning_rate': 4.288161400837458e-06, 'epoch': 0.7}
+{'loss': 1.5138, 'grad_norm': 2.3636221885681152, 'learning_rate': 4.286258089074991e-06, 'epoch': 0.7}
+{'loss': 1.4725, 'grad_norm': 2.4584708213806152, 'learning_rate': 4.284354777312524e-06, 'epoch': 0.7}
+{'loss': 1.5075, 'grad_norm': 2.850332498550415, 'learning_rate': 4.282451465550058e-06, 'epoch': 0.7}
+{'loss': 1.5054, 'grad_norm': 2.6345887184143066, 'learning_rate': 4.280548153787591e-06, 'epoch': 0.7}
+{'loss': 1.4607, 'grad_norm': 2.3535311222076416, 'learning_rate': 4.2786448420251245e-06, 'epoch': 0.71}
+{'loss': 1.4852, 'grad_norm': 2.490431547164917, 'learning_rate': 4.276741530262658e-06, 'epoch': 0.71}
+{'loss': 1.5503, 'grad_norm': 2.4353036880493164, 'learning_rate': 4.27483821850019e-06, 'epoch': 0.71}
+{'loss': 1.5416, 'grad_norm': 2.3356940746307373, 'learning_rate': 4.272934906737724e-06, 'epoch': 0.71}
+{'eval_loss': 1.8164218664169312, 'eval_runtime': 38.0592, 'eval_samples_per_second': 26.275, 'eval_steps_per_second': 1.104, 'epoch': 0.71}
+{'loss': 1.5392, 'grad_norm': 2.4772775173187256, 'learning_rate': 4.271031594975257e-06, 'epoch': 0.71}
+{'loss': 1.4935, 'grad_norm': 2.2921438217163086, 'learning_rate': 4.2691282832127905e-06, 'epoch': 0.71}
+{'loss': 1.4451, 'grad_norm': 2.3176305294036865, 'learning_rate': 4.267224971450324e-06, 'epoch': 0.71}
+{'loss': 1.4878, 'grad_norm': 2.6825685501098633, 'learning_rate': 4.265321659687857e-06, 'epoch': 0.71}
+{'loss': 1.4695, 'grad_norm': 2.6141414642333984, 'learning_rate': 4.2634183479253906e-06, 'epoch': 0.71}
+{'loss': 1.492, 'grad_norm': 2.5179429054260254, 'learning_rate': 4.261515036162924e-06, 'epoch': 0.71}
+{'loss': 1.4752, 'grad_norm': 2.4744884967803955, 'learning_rate': 4.259611724400457e-06, 'epoch': 0.72}
+{'loss': 1.423, 'grad_norm': 2.4911048412323, 'learning_rate': 4.257708412637991e-06, 'epoch': 0.72}
+{'loss': 1.4535, 'grad_norm': 2.5116214752197266, 'learning_rate': 4.255805100875523e-06, 'epoch': 0.72}
+{'loss': 1.5349, 'grad_norm': 2.476651430130005, 'learning_rate': 4.2539017891130565e-06, 'epoch': 0.72}
+{'eval_loss': 1.8069179058074951, 'eval_runtime': 38.0292, 'eval_samples_per_second': 26.296, 'eval_steps_per_second': 1.104, 'epoch': 0.72}
+{'loss': 1.4596, 'grad_norm': 2.5234575271606445, 'learning_rate': 4.25199847735059e-06, 'epoch': 0.72}
+{'loss': 1.5147, 'grad_norm': 2.33290433883667, 'learning_rate': 4.250095165588123e-06, 'epoch': 0.72}
+{'loss': 1.47, 'grad_norm': 2.479883909225464, 'learning_rate': 4.2481918538256575e-06, 'epoch': 0.72}
+{'loss': 1.5152, 'grad_norm': 2.432253837585449, 'learning_rate': 4.246288542063191e-06, 'epoch': 0.72}
+{'loss': 1.4562, 'grad_norm': 2.358304738998413, 'learning_rate': 4.244385230300724e-06, 'epoch': 0.72}
+{'loss': 1.4906, 'grad_norm': 2.480877161026001, 'learning_rate': 4.242481918538257e-06, 'epoch': 0.73}
+{'loss': 1.5294, 'grad_norm': 2.4287192821502686, 'learning_rate': 4.24057860677579e-06, 'epoch': 0.73}
+{'loss': 1.4767, 'grad_norm': 2.4782888889312744, 'learning_rate': 4.2386752950133234e-06, 'epoch': 0.73}
+{'loss': 1.4664, 'grad_norm': 2.4948253631591797, 'learning_rate': 4.236771983250857e-06, 'epoch': 0.73}
+{'loss': 1.495, 'grad_norm': 2.4625205993652344, 'learning_rate': 4.23486867148839e-06, 'epoch': 0.73}
+{'eval_loss': 1.8140079975128174, 'eval_runtime': 37.6964, 'eval_samples_per_second': 26.528, 'eval_steps_per_second': 1.114, 'epoch': 0.73}
+{'loss': 1.5204, 'grad_norm': 2.669027805328369, 'learning_rate': 4.2329653597259235e-06, 'epoch': 0.73}
+{'loss': 1.5283, 'grad_norm': 2.5024707317352295, 'learning_rate': 4.231062047963457e-06, 'epoch': 0.73}
+{'loss': 1.5139, 'grad_norm': 2.498258590698242, 'learning_rate': 4.22915873620099e-06, 'epoch': 0.73}
+{'loss': 1.5337, 'grad_norm': 2.4305667877197266, 'learning_rate': 4.227255424438524e-06, 'epoch': 0.73}
+{'loss': 1.4646, 'grad_norm': 2.3153419494628906, 'learning_rate': 4.225352112676057e-06, 'epoch': 0.73}
+{'loss': 1.4328, 'grad_norm': 2.2835583686828613, 'learning_rate': 4.2234488009135895e-06, 'epoch': 0.74}
+{'loss': 1.4685, 'grad_norm': 2.401418924331665, 'learning_rate': 4.221545489151123e-06, 'epoch': 0.74}
+{'loss': 1.4925, 'grad_norm': 2.454864978790283, 'learning_rate': 4.219642177388656e-06, 'epoch': 0.74}
+{'loss': 1.4481, 'grad_norm': 2.2332873344421387, 'learning_rate': 4.2177388656261896e-06, 'epoch': 0.74}
+{'loss': 1.4173, 'grad_norm': 2.46628475189209, 'learning_rate': 4.215835553863723e-06, 'epoch': 0.74}
+{'eval_loss': 1.817592740058899, 'eval_runtime': 37.8086, 'eval_samples_per_second': 26.449, 'eval_steps_per_second': 1.111, 'epoch': 0.74}
+{'loss': 1.4688, 'grad_norm': 2.346245765686035, 'learning_rate': 4.213932242101256e-06, 'epoch': 0.74}
+{'loss': 1.4937, 'grad_norm': 2.2708640098571777, 'learning_rate': 4.21202893033879e-06, 'epoch': 0.74}
+{'loss': 1.4869, 'grad_norm': 2.3716516494750977, 'learning_rate': 4.210125618576323e-06, 'epoch': 0.74}
+{'loss': 1.542, 'grad_norm': 2.443058490753174, 'learning_rate': 4.208222306813856e-06, 'epoch': 0.74}
+{'loss': 1.3933, 'grad_norm': 2.327270984649658, 'learning_rate': 4.20631899505139e-06, 'epoch': 0.74}
+{'loss': 1.5109, 'grad_norm': 2.3734512329101562, 'learning_rate': 4.204415683288923e-06, 'epoch': 0.75}
+{'loss': 1.474, 'grad_norm': 2.3631174564361572, 'learning_rate': 4.2025123715264565e-06, 'epoch': 0.75}
+{'loss': 1.42, 'grad_norm': 2.306068181991577, 'learning_rate': 4.20060905976399e-06, 'epoch': 0.75}
+{'loss': 1.5178, 'grad_norm': 2.391889810562134, 'learning_rate': 4.198705748001523e-06, 'epoch': 0.75}
+{'loss': 1.4808, 'grad_norm': 2.3151705265045166, 'learning_rate': 4.1968024362390566e-06, 'epoch': 0.75}
+{'eval_loss': 1.8157070875167847, 'eval_runtime': 37.8799, 'eval_samples_per_second': 26.399, 'eval_steps_per_second': 1.109, 'epoch': 0.75}
+{'loss': 1.5438, 'grad_norm': 2.336479902267456, 'learning_rate': 4.19489912447659e-06, 'epoch': 0.75}
+{'loss': 1.4869, 'grad_norm': 2.338242292404175, 'learning_rate': 4.192995812714123e-06, 'epoch': 0.75}
+{'loss': 1.4787, 'grad_norm': 2.268650770187378, 'learning_rate': 4.191092500951656e-06, 'epoch': 0.75}
+{'loss': 1.4711, 'grad_norm': 2.3010005950927734, 'learning_rate': 4.189189189189189e-06, 'epoch': 0.75}
+{'loss': 1.5351, 'grad_norm': 2.54770827293396, 'learning_rate': 4.1872858774267225e-06, 'epoch': 0.76}
+{'loss': 1.4655, 'grad_norm': 2.3412787914276123, 'learning_rate': 4.185382565664256e-06, 'epoch': 0.76}
+{'loss': 1.4402, 'grad_norm': 2.266413927078247, 'learning_rate': 4.183479253901789e-06, 'epoch': 0.76}
+{'loss': 1.4874, 'grad_norm': 2.2785308361053467, 'learning_rate': 4.181575942139323e-06, 'epoch': 0.76}
+{'loss': 1.4644, 'grad_norm': 2.2710752487182617, 'learning_rate': 4.179672630376856e-06, 'epoch': 0.76}
+{'loss': 1.5267, 'grad_norm': 2.2460498809814453, 'learning_rate': 4.177769318614389e-06, 'epoch': 0.76}
+{'eval_loss': 1.8187947273254395, 'eval_runtime': 37.9464, 'eval_samples_per_second': 26.353, 'eval_steps_per_second': 1.107, 'epoch': 0.76}
+{'loss': 1.5115, 'grad_norm': 2.3589370250701904, 'learning_rate': 4.175866006851923e-06, 'epoch': 0.76}
+{'loss': 1.4945, 'grad_norm': 2.2818758487701416, 'learning_rate': 4.173962695089456e-06, 'epoch': 0.76}
+{'loss': 1.5076, 'grad_norm': 2.338085889816284, 'learning_rate': 4.1720593833269894e-06, 'epoch': 0.76}
+{'loss': 1.5665, 'grad_norm': 2.3874809741973877, 'learning_rate': 4.170156071564523e-06, 'epoch': 0.76}
+{'loss': 1.4827, 'grad_norm': 2.2418739795684814, 'learning_rate': 4.168252759802056e-06, 'epoch': 0.77}
+{'loss': 1.5171, 'grad_norm': 2.441315174102783, 'learning_rate': 4.1663494480395895e-06, 'epoch': 0.77}
+{'loss': 1.5153, 'grad_norm': 2.3201963901519775, 'learning_rate': 4.164446136277123e-06, 'epoch': 0.77}
+{'loss': 1.4911, 'grad_norm': 2.3395135402679443, 'learning_rate': 4.162542824514656e-06, 'epoch': 0.77}
+{'loss': 1.4493, 'grad_norm': 2.3455941677093506, 'learning_rate': 4.16063951275219e-06, 'epoch': 0.77}
+{'loss': 1.4893, 'grad_norm': 2.3737382888793945, 'learning_rate': 4.158736200989722e-06, 'epoch': 0.77}
+{'eval_loss': 1.8153141736984253, 'eval_runtime': 37.9216, 'eval_samples_per_second': 26.37, 'eval_steps_per_second': 1.108, 'epoch': 0.77}
+{'loss': 1.499, 'grad_norm': 2.503803014755249, 'learning_rate': 4.1568328892272555e-06, 'epoch': 0.77}
+{'loss': 1.4984, 'grad_norm': 2.469083547592163, 'learning_rate': 4.154929577464789e-06, 'epoch': 0.77}
+{'loss': 1.4283, 'grad_norm': 2.387991428375244, 'learning_rate': 4.153026265702322e-06, 'epoch': 0.77}
+{'loss': 1.4869, 'grad_norm': 2.3355393409729004, 'learning_rate': 4.1511229539398556e-06, 'epoch': 0.77}
+{'loss': 1.4885, 'grad_norm': 2.629345417022705, 'learning_rate': 4.149219642177389e-06, 'epoch': 0.78}
+{'loss': 1.415, 'grad_norm': 2.458944797515869, 'learning_rate': 4.147316330414922e-06, 'epoch': 0.78}
+{'loss': 1.5129, 'grad_norm': 2.40051531791687, 'learning_rate': 4.145413018652456e-06, 'epoch': 0.78}
+{'loss': 1.5002, 'grad_norm': 2.5249011516571045, 'learning_rate': 4.143509706889989e-06, 'epoch': 0.78}
+{'loss': 1.4837, 'grad_norm': 2.413422107696533, 'learning_rate': 4.141606395127522e-06, 'epoch': 0.78}
+{'loss': 1.5213, 'grad_norm': 2.3438029289245605, 'learning_rate': 4.139703083365056e-06, 'epoch': 0.78}
+{'eval_loss': 1.8037596940994263, 'eval_runtime': 37.9229, 'eval_samples_per_second': 26.369, 'eval_steps_per_second': 1.108, 'epoch': 0.78}
+{'loss': 1.5031, 'grad_norm': 2.326828718185425, 'learning_rate': 4.137799771602588e-06, 'epoch': 0.78}
+{'loss': 1.4602, 'grad_norm': 2.4902493953704834, 'learning_rate': 4.135896459840122e-06, 'epoch': 0.78}
+{'loss': 1.4764, 'grad_norm': 2.488004684448242, 'learning_rate': 4.133993148077656e-06, 'epoch': 0.78}
+{'loss': 1.4946, 'grad_norm': 2.5515761375427246, 'learning_rate': 4.132089836315189e-06, 'epoch': 0.78}
+{'loss': 1.4338, 'grad_norm': 2.556278705596924, 'learning_rate': 4.1301865245527226e-06, 'epoch': 0.79}
+{'loss': 1.4053, 'grad_norm': 2.3017969131469727, 'learning_rate': 4.128283212790256e-06, 'epoch': 0.79}
+{'loss': 1.5238, 'grad_norm': 2.4371304512023926, 'learning_rate': 4.1263799010277884e-06, 'epoch': 0.79}
+{'loss': 1.4672, 'grad_norm': 2.6256046295166016, 'learning_rate': 4.124476589265322e-06, 'epoch': 0.79}
+{'loss': 1.4677, 'grad_norm': 2.3725669384002686, 'learning_rate': 4.122573277502855e-06, 'epoch': 0.79}
+{'loss': 1.4927, 'grad_norm': 2.2928454875946045, 'learning_rate': 4.1206699657403885e-06, 'epoch': 0.79}
+{'eval_loss': 1.792726755142212, 'eval_runtime': 37.9273, 'eval_samples_per_second': 26.366, 'eval_steps_per_second': 1.107, 'epoch': 0.79}
+{'loss': 1.4632, 'grad_norm': 2.315674066543579, 'learning_rate': 4.118766653977922e-06, 'epoch': 0.79}
+{'loss': 1.446, 'grad_norm': 2.418849468231201, 'learning_rate': 4.116863342215455e-06, 'epoch': 0.79}
+{'loss': 1.4755, 'grad_norm': 2.3209879398345947, 'learning_rate': 4.114960030452989e-06, 'epoch': 0.79}
+{'loss': 1.4149, 'grad_norm': 2.2322115898132324, 'learning_rate': 4.113056718690522e-06, 'epoch': 0.8}
+{'loss': 1.5323, 'grad_norm': 2.6517558097839355, 'learning_rate': 4.111153406928055e-06, 'epoch': 0.8}
+{'loss': 1.5179, 'grad_norm': 2.4602737426757812, 'learning_rate': 4.109250095165589e-06, 'epoch': 0.8}
+{'loss': 1.4711, 'grad_norm': 2.4015536308288574, 'learning_rate': 4.107346783403122e-06, 'epoch': 0.8}
+{'loss': 1.4425, 'grad_norm': 2.4367337226867676, 'learning_rate': 4.105443471640655e-06, 'epoch': 0.8}
+{'loss': 1.4832, 'grad_norm': 2.5161020755767822, 'learning_rate': 4.103540159878188e-06, 'epoch': 0.8}
+{'loss': 1.4508, 'grad_norm': 2.483154773712158, 'learning_rate': 4.101636848115721e-06, 'epoch': 0.8}
+{'eval_loss': 1.792397379875183, 'eval_runtime': 37.8937, 'eval_samples_per_second': 26.39, 'eval_steps_per_second': 1.108, 'epoch': 0.8}
+{'loss': 1.4919, 'grad_norm': 2.4649806022644043, 'learning_rate': 4.099733536353255e-06, 'epoch': 0.8}
+{'loss': 1.565, 'grad_norm': 2.578634262084961, 'learning_rate': 4.097830224590788e-06, 'epoch': 0.8}
+{'loss': 1.5309, 'grad_norm': 2.444427967071533, 'learning_rate': 4.095926912828322e-06, 'epoch': 0.8}
+{'loss': 1.4777, 'grad_norm': 2.32051420211792, 'learning_rate': 4.094023601065855e-06, 'epoch': 0.81}
+{'loss': 1.4863, 'grad_norm': 2.3207180500030518, 'learning_rate': 4.092120289303388e-06, 'epoch': 0.81}
+{'loss': 1.437, 'grad_norm': 2.1404120922088623, 'learning_rate': 4.0902169775409215e-06, 'epoch': 0.81}
+{'loss': 1.4571, 'grad_norm': 2.2980856895446777, 'learning_rate': 4.088313665778455e-06, 'epoch': 0.81}
+{'loss': 1.4451, 'grad_norm': 2.2555243968963623, 'learning_rate': 4.086410354015988e-06, 'epoch': 0.81}
+{'loss': 1.4641, 'grad_norm': 2.3837077617645264, 'learning_rate': 4.0845070422535216e-06, 'epoch': 0.81}
+{'loss': 1.5048, 'grad_norm': 2.5199060440063477, 'learning_rate': 4.082603730491055e-06, 'epoch': 0.81}
+{'eval_loss': 1.8019492626190186, 'eval_runtime': 37.8805, 'eval_samples_per_second': 26.399, 'eval_steps_per_second': 1.109, 'epoch': 0.81}
+{'loss': 1.4881, 'grad_norm': 2.4010138511657715, 'learning_rate': 4.080700418728588e-06, 'epoch': 0.81}
+{'loss': 1.3792, 'grad_norm': 2.342094898223877, 'learning_rate': 4.078797106966122e-06, 'epoch': 0.81}
+{'loss': 1.4539, 'grad_norm': 2.276772975921631, 'learning_rate': 4.076893795203655e-06, 'epoch': 0.81}
+{'loss': 1.5059, 'grad_norm': 2.569275140762329, 'learning_rate': 4.074990483441188e-06, 'epoch': 0.82}
+{'loss': 1.494, 'grad_norm': 2.345761299133301, 'learning_rate': 4.073087171678721e-06, 'epoch': 0.82}
+{'loss': 1.471, 'grad_norm': 2.4425504207611084, 'learning_rate': 4.071183859916254e-06, 'epoch': 0.82}
+{'loss': 1.4378, 'grad_norm': 2.5758635997772217, 'learning_rate': 4.069280548153788e-06, 'epoch': 0.82}
+{'loss': 1.474, 'grad_norm': 2.4320778846740723, 'learning_rate': 4.067377236391321e-06, 'epoch': 0.82}
+{'loss': 1.4997, 'grad_norm': 2.466978073120117, 'learning_rate': 4.065473924628854e-06, 'epoch': 0.82}
+{'loss': 1.5, 'grad_norm': 2.462489128112793, 'learning_rate': 4.063570612866388e-06, 'epoch': 0.82}
+{'eval_loss': 1.783312201499939, 'eval_runtime': 37.8832, 'eval_samples_per_second': 26.397, 'eval_steps_per_second': 1.109, 'epoch': 0.82}
+{'loss': 1.4658, 'grad_norm': 2.367455005645752, 'learning_rate': 4.061667301103921e-06, 'epoch': 0.82}
+{'loss': 1.476, 'grad_norm': 2.292250394821167, 'learning_rate': 4.0597639893414544e-06, 'epoch': 0.82}
+{'loss': 1.4932, 'grad_norm': 2.3460025787353516, 'learning_rate': 4.057860677578988e-06, 'epoch': 0.82}
+{'loss': 1.4396, 'grad_norm': 2.3708906173706055, 'learning_rate': 4.055957365816521e-06, 'epoch': 0.83}
+{'loss': 1.4285, 'grad_norm': 2.353513479232788, 'learning_rate': 4.0540540540540545e-06, 'epoch': 0.83}
+{'loss': 1.4326, 'grad_norm': 2.319577932357788, 'learning_rate': 4.052150742291588e-06, 'epoch': 0.83}
+{'loss': 1.5109, 'grad_norm': 2.450364112854004, 'learning_rate': 4.050247430529121e-06, 'epoch': 0.83}
+{'loss': 1.4948, 'grad_norm': 2.393907070159912, 'learning_rate': 4.048344118766655e-06, 'epoch': 0.83}
+{'loss': 1.4851, 'grad_norm': 2.336002826690674, 'learning_rate': 4.046440807004188e-06, 'epoch': 0.83}
+{'loss': 1.4445, 'grad_norm': 2.281139850616455, 'learning_rate': 4.044537495241721e-06, 'epoch': 0.83}
+{'eval_loss': 1.784231185913086, 'eval_runtime': 37.6614, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 0.83}
+{'loss': 1.4982, 'grad_norm': 2.4848175048828125, 'learning_rate': 4.042634183479255e-06, 'epoch': 0.83}
+{'loss': 1.4795, 'grad_norm': 2.263347864151001, 'learning_rate': 4.040730871716787e-06, 'epoch': 0.83}
+{'loss': 1.5231, 'grad_norm': 2.394005060195923, 'learning_rate': 4.038827559954321e-06, 'epoch': 0.84}
+{'loss': 1.4886, 'grad_norm': 2.5051357746124268, 'learning_rate': 4.036924248191854e-06, 'epoch': 0.84}
+{'loss': 1.4713, 'grad_norm': 2.3580374717712402, 'learning_rate': 4.035020936429387e-06, 'epoch': 0.84}
+{'loss': 1.4369, 'grad_norm': 2.3179264068603516, 'learning_rate': 4.033117624666921e-06, 'epoch': 0.84}
+{'loss': 1.4326, 'grad_norm': 2.269911289215088, 'learning_rate': 4.031214312904454e-06, 'epoch': 0.84}
+{'loss': 1.4096, 'grad_norm': 2.3177807331085205, 'learning_rate': 4.029311001141987e-06, 'epoch': 0.84}
+{'loss': 1.4647, 'grad_norm': 2.394324541091919, 'learning_rate': 4.027407689379521e-06, 'epoch': 0.84}
+{'loss': 1.4472, 'grad_norm': 2.288536548614502, 'learning_rate': 4.025504377617054e-06, 'epoch': 0.84}
+{'eval_loss': 1.7811495065689087, 'eval_runtime': 37.8132, 'eval_samples_per_second': 26.446, 'eval_steps_per_second': 1.111, 'epoch': 0.84}
+{'loss': 1.4918, 'grad_norm': 2.376574754714966, 'learning_rate': 4.0236010658545875e-06, 'epoch': 0.84}
+{'loss': 1.5342, 'grad_norm': 2.5850327014923096, 'learning_rate': 4.02169775409212e-06, 'epoch': 0.84}
+{'loss': 1.4177, 'grad_norm': 2.247206211090088, 'learning_rate': 4.019794442329653e-06, 'epoch': 0.85}
+{'loss': 1.4992, 'grad_norm': 2.4411795139312744, 'learning_rate': 4.0178911305671876e-06, 'epoch': 0.85}
+{'loss': 1.4359, 'grad_norm': 2.3377397060394287, 'learning_rate': 4.015987818804721e-06, 'epoch': 0.85}
+{'loss': 1.4096, 'grad_norm': 2.329857349395752, 'learning_rate': 4.014084507042254e-06, 'epoch': 0.85}
+{'loss': 1.5174, 'grad_norm': 2.563685178756714, 'learning_rate': 4.012181195279788e-06, 'epoch': 0.85}
+{'loss': 1.5028, 'grad_norm': 2.4521079063415527, 'learning_rate': 4.010277883517321e-06, 'epoch': 0.85}
+{'loss': 1.4615, 'grad_norm': 2.4091477394104004, 'learning_rate': 4.0083745717548535e-06, 'epoch': 0.85}
+{'loss': 1.4834, 'grad_norm': 2.4010677337646484, 'learning_rate': 4.006471259992387e-06, 'epoch': 0.85}
+{'eval_loss': 1.7797678709030151, 'eval_runtime': 37.9378, 'eval_samples_per_second': 26.359, 'eval_steps_per_second': 1.107, 'epoch': 0.85}
+{'loss': 1.5196, 'grad_norm': 2.3712635040283203, 'learning_rate': 4.00456794822992e-06, 'epoch': 0.85}
+{'loss': 1.4769, 'grad_norm': 2.4096601009368896, 'learning_rate': 4.002664636467454e-06, 'epoch': 0.85}
+{'loss': 1.4268, 'grad_norm': 2.408466100692749, 'learning_rate': 4.000761324704987e-06, 'epoch': 0.86}
+{'loss': 1.492, 'grad_norm': 2.6857047080993652, 'learning_rate': 3.99885801294252e-06, 'epoch': 0.86}
+{'loss': 1.4184, 'grad_norm': 2.297550916671753, 'learning_rate': 3.996954701180054e-06, 'epoch': 0.86}
+{'loss': 1.4337, 'grad_norm': 2.423224925994873, 'learning_rate': 3.995051389417587e-06, 'epoch': 0.86}
+{'loss': 1.5267, 'grad_norm': 2.260493040084839, 'learning_rate': 3.9931480776551204e-06, 'epoch': 0.86}
+{'loss': 1.4426, 'grad_norm': 2.3803012371063232, 'learning_rate': 3.991244765892654e-06, 'epoch': 0.86}
+{'loss': 1.4148, 'grad_norm': 2.1425721645355225, 'learning_rate': 3.989341454130186e-06, 'epoch': 0.86}
+{'loss': 1.4544, 'grad_norm': 2.316624641418457, 'learning_rate': 3.98743814236772e-06, 'epoch': 0.86}
+{'eval_loss': 1.7824597358703613, 'eval_runtime': 37.9676, 'eval_samples_per_second': 26.338, 'eval_steps_per_second': 1.106, 'epoch': 0.86}
+{'loss': 1.473, 'grad_norm': 2.3723156452178955, 'learning_rate': 3.985534830605253e-06, 'epoch': 0.86}
+{'loss': 1.4919, 'grad_norm': 2.5167760848999023, 'learning_rate': 3.983631518842786e-06, 'epoch': 0.86}
+{'loss': 1.447, 'grad_norm': 2.3018670082092285, 'learning_rate': 3.98172820708032e-06, 'epoch': 0.87}
+{'loss': 1.4159, 'grad_norm': 2.420483112335205, 'learning_rate': 3.979824895317854e-06, 'epoch': 0.87}
+{'loss': 1.4984, 'grad_norm': 2.39443039894104, 'learning_rate': 3.977921583555387e-06, 'epoch': 0.87}
+{'loss': 1.4297, 'grad_norm': 2.2953920364379883, 'learning_rate': 3.97601827179292e-06, 'epoch': 0.87}
+{'loss': 1.4728, 'grad_norm': 2.2919528484344482, 'learning_rate': 3.974114960030453e-06, 'epoch': 0.87}
+{'loss': 1.4584, 'grad_norm': 2.327914237976074, 'learning_rate': 3.9722116482679866e-06, 'epoch': 0.87}
+{'loss': 1.4688, 'grad_norm': 2.305720567703247, 'learning_rate': 3.97030833650552e-06, 'epoch': 0.87}
+{'loss': 1.3972, 'grad_norm': 2.2969236373901367, 'learning_rate': 3.968405024743053e-06, 'epoch': 0.87}
+{'eval_loss': 1.775634765625, 'eval_runtime': 37.9916, 'eval_samples_per_second': 26.322, 'eval_steps_per_second': 1.106, 'epoch': 0.87}
+{'loss': 1.4476, 'grad_norm': 2.314387083053589, 'learning_rate': 3.966501712980587e-06, 'epoch': 0.87}
+{'loss': 1.4615, 'grad_norm': 2.3271584510803223, 'learning_rate': 3.96459840121812e-06, 'epoch': 0.88}
+{'loss': 1.5062, 'grad_norm': 2.494795322418213, 'learning_rate': 3.962695089455653e-06, 'epoch': 0.88}
+{'loss': 1.4861, 'grad_norm': 2.4132444858551025, 'learning_rate': 3.960791777693187e-06, 'epoch': 0.88}
+{'loss': 1.4923, 'grad_norm': 2.3869900703430176, 'learning_rate': 3.95888846593072e-06, 'epoch': 0.88}
+{'loss': 1.5137, 'grad_norm': 2.5167367458343506, 'learning_rate': 3.956985154168253e-06, 'epoch': 0.88}
+{'loss': 1.5414, 'grad_norm': 2.510361671447754, 'learning_rate': 3.955081842405786e-06, 'epoch': 0.88}
+{'loss': 1.5569, 'grad_norm': 2.554427146911621, 'learning_rate': 3.953178530643319e-06, 'epoch': 0.88}
+{'loss': 1.3982, 'grad_norm': 2.306509256362915, 'learning_rate': 3.951275218880853e-06, 'epoch': 0.88}
+{'loss': 1.4977, 'grad_norm': 2.3805363178253174, 'learning_rate': 3.949371907118386e-06, 'epoch': 0.88}
+{'eval_loss': 1.7882694005966187, 'eval_runtime': 38.0072, 'eval_samples_per_second': 26.311, 'eval_steps_per_second': 1.105, 'epoch': 0.88}
+{'loss': 1.472, 'grad_norm': 2.5413448810577393, 'learning_rate': 3.9474685953559194e-06, 'epoch': 0.88}
+{'loss': 1.4597, 'grad_norm': 2.484834909439087, 'learning_rate': 3.945565283593453e-06, 'epoch': 0.89}
+{'loss': 1.509, 'grad_norm': 2.6060585975646973, 'learning_rate': 3.943661971830986e-06, 'epoch': 0.89}
+{'loss': 1.4836, 'grad_norm': 2.6536927223205566, 'learning_rate': 3.9417586600685195e-06, 'epoch': 0.89}
+{'loss': 1.486, 'grad_norm': 2.5198960304260254, 'learning_rate': 3.939855348306053e-06, 'epoch': 0.89}
+{'loss': 1.4701, 'grad_norm': 2.335204839706421, 'learning_rate': 3.937952036543586e-06, 'epoch': 0.89}
+{'loss': 1.4798, 'grad_norm': 2.7058098316192627, 'learning_rate': 3.93604872478112e-06, 'epoch': 0.89}
+{'loss': 1.4364, 'grad_norm': 2.4798922538757324, 'learning_rate': 3.934145413018653e-06, 'epoch': 0.89}
+{'loss': 1.4405, 'grad_norm': 2.3090760707855225, 'learning_rate': 3.932242101256186e-06, 'epoch': 0.89}
+{'loss': 1.4113, 'grad_norm': 2.4251503944396973, 'learning_rate': 3.93033878949372e-06, 'epoch': 0.89}
+{'eval_loss': 1.794334888458252, 'eval_runtime': 38.0197, 'eval_samples_per_second': 26.302, 'eval_steps_per_second': 1.105, 'epoch': 0.89}
+{'loss': 1.502, 'grad_norm': 2.594945192337036, 'learning_rate': 3.928435477731253e-06, 'epoch': 0.89}
+{'loss': 1.5005, 'grad_norm': 2.4224843978881836, 'learning_rate': 3.9265321659687864e-06, 'epoch': 0.9}
+{'loss': 1.481, 'grad_norm': 2.3968186378479004, 'learning_rate': 3.924628854206319e-06, 'epoch': 0.9}
+{'loss': 1.4259, 'grad_norm': 2.4923524856567383, 'learning_rate': 3.922725542443852e-06, 'epoch': 0.9}
+{'loss': 1.4497, 'grad_norm': 2.5386104583740234, 'learning_rate': 3.920822230681386e-06, 'epoch': 0.9}
+{'loss': 1.4816, 'grad_norm': 2.4014909267425537, 'learning_rate': 3.918918918918919e-06, 'epoch': 0.9}
+{'loss': 1.4669, 'grad_norm': 2.4019317626953125, 'learning_rate': 3.917015607156452e-06, 'epoch': 0.9}
+{'loss': 1.5343, 'grad_norm': 2.5408380031585693, 'learning_rate': 3.915112295393986e-06, 'epoch': 0.9}
+{'loss': 1.5229, 'grad_norm': 2.364053964614868, 'learning_rate': 3.913208983631519e-06, 'epoch': 0.9}
+{'loss': 1.4444, 'grad_norm': 2.307412624359131, 'learning_rate': 3.9113056718690525e-06, 'epoch': 0.9}
+{'eval_loss': 1.7910975217819214, 'eval_runtime': 38.0659, 'eval_samples_per_second': 26.27, 'eval_steps_per_second': 1.103, 'epoch': 0.9}
+{'loss': 1.4853, 'grad_norm': 2.496135950088501, 'learning_rate': 3.909402360106586e-06, 'epoch': 0.9}
+{'loss': 1.4886, 'grad_norm': 2.4825589656829834, 'learning_rate': 3.907499048344119e-06, 'epoch': 0.91}
+{'loss': 1.4882, 'grad_norm': 2.3458824157714844, 'learning_rate': 3.905595736581652e-06, 'epoch': 0.91}
+{'loss': 1.4417, 'grad_norm': 2.2699403762817383, 'learning_rate': 3.903692424819186e-06, 'epoch': 0.91}
+{'loss': 1.4991, 'grad_norm': 2.348593235015869, 'learning_rate': 3.901789113056719e-06, 'epoch': 0.91}
+{'loss': 1.4752, 'grad_norm': 2.3292129039764404, 'learning_rate': 3.899885801294253e-06, 'epoch': 0.91}
+{'loss': 1.5317, 'grad_norm': 2.487183094024658, 'learning_rate': 3.897982489531786e-06, 'epoch': 0.91}
+{'loss': 1.4964, 'grad_norm': 2.3300845623016357, 'learning_rate': 3.896079177769319e-06, 'epoch': 0.91}
+{'loss': 1.5221, 'grad_norm': 2.3292312622070312, 'learning_rate': 3.894175866006853e-06, 'epoch': 0.91}
+{'loss': 1.4471, 'grad_norm': 2.3556439876556396, 'learning_rate': 3.892272554244385e-06, 'epoch': 0.91}
+{'eval_loss': 1.7807039022445679, 'eval_runtime': 38.0614, 'eval_samples_per_second': 26.273, 'eval_steps_per_second': 1.103, 'epoch': 0.91}
+{'loss': 1.5179, 'grad_norm': 2.3302760124206543, 'learning_rate': 3.890369242481919e-06, 'epoch': 0.92}
+{'loss': 1.4474, 'grad_norm': 2.327072858810425, 'learning_rate': 3.888465930719452e-06, 'epoch': 0.92}
+{'loss': 1.4783, 'grad_norm': 2.2773101329803467, 'learning_rate': 3.886562618956985e-06, 'epoch': 0.92}
+{'loss': 1.4062, 'grad_norm': 2.2717974185943604, 'learning_rate': 3.884659307194519e-06, 'epoch': 0.92}
+{'loss': 1.483, 'grad_norm': 2.3350367546081543, 'learning_rate': 3.882755995432052e-06, 'epoch': 0.92}
+{'loss': 1.4407, 'grad_norm': 2.302811622619629, 'learning_rate': 3.8808526836695854e-06, 'epoch': 0.92}
+{'loss': 1.4331, 'grad_norm': 2.4031271934509277, 'learning_rate': 3.878949371907119e-06, 'epoch': 0.92}
+{'loss': 1.4341, 'grad_norm': 2.4806716442108154, 'learning_rate': 3.877046060144652e-06, 'epoch': 0.92}
+{'loss': 1.4701, 'grad_norm': 2.4243357181549072, 'learning_rate': 3.8751427483821855e-06, 'epoch': 0.92}
+{'loss': 1.4287, 'grad_norm': 2.4953269958496094, 'learning_rate': 3.873239436619718e-06, 'epoch': 0.92}
+{'eval_loss': 1.7872728109359741, 'eval_runtime': 38.0906, 'eval_samples_per_second': 26.253, 'eval_steps_per_second': 1.103, 'epoch': 0.92}
+{'loss': 1.4693, 'grad_norm': 2.307490587234497, 'learning_rate': 3.871336124857251e-06, 'epoch': 0.93}
+{'loss': 1.4779, 'grad_norm': 2.4745755195617676, 'learning_rate': 3.869432813094785e-06, 'epoch': 0.93}
+{'loss': 1.4771, 'grad_norm': 2.367715358734131, 'learning_rate': 3.867529501332318e-06, 'epoch': 0.93}
+{'loss': 1.4648, 'grad_norm': 2.388549566268921, 'learning_rate': 3.8656261895698515e-06, 'epoch': 0.93}
+{'loss': 1.4932, 'grad_norm': 2.39432954788208, 'learning_rate': 3.863722877807386e-06, 'epoch': 0.93}
+{'loss': 1.5312, 'grad_norm': 2.3921315670013428, 'learning_rate': 3.861819566044919e-06, 'epoch': 0.93}
+{'loss': 1.4651, 'grad_norm': 2.400240659713745, 'learning_rate': 3.859916254282452e-06, 'epoch': 0.93}
+{'loss': 1.4759, 'grad_norm': 2.394559860229492, 'learning_rate': 3.858012942519985e-06, 'epoch': 0.93}
+{'loss': 1.4502, 'grad_norm': 2.3365273475646973, 'learning_rate': 3.856109630757518e-06, 'epoch': 0.93}
+{'loss': 1.5036, 'grad_norm': 2.465691328048706, 'learning_rate': 3.854206318995052e-06, 'epoch': 0.93}
+{'eval_loss': 1.7682362794876099, 'eval_runtime': 37.6624, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 0.93}
+{'loss': 1.4342, 'grad_norm': 2.3376758098602295, 'learning_rate': 3.852303007232585e-06, 'epoch': 0.94}
+{'loss': 1.4444, 'grad_norm': 2.345855236053467, 'learning_rate': 3.850399695470118e-06, 'epoch': 0.94}
+{'loss': 1.4315, 'grad_norm': 2.4444501399993896, 'learning_rate': 3.848496383707652e-06, 'epoch': 0.94}
+{'loss': 1.4228, 'grad_norm': 2.4896373748779297, 'learning_rate': 3.846593071945185e-06, 'epoch': 0.94}
+{'loss': 1.5283, 'grad_norm': 2.3970463275909424, 'learning_rate': 3.8446897601827185e-06, 'epoch': 0.94}
+{'loss': 1.5445, 'grad_norm': 2.5194883346557617, 'learning_rate': 3.842786448420252e-06, 'epoch': 0.94}
+{'loss': 1.5248, 'grad_norm': 2.446465253829956, 'learning_rate': 3.840883136657785e-06, 'epoch': 0.94}
+{'loss': 1.402, 'grad_norm': 2.348477840423584, 'learning_rate': 3.838979824895318e-06, 'epoch': 0.94}
+{'loss': 1.4893, 'grad_norm': 2.4511539936065674, 'learning_rate': 3.837076513132851e-06, 'epoch': 0.94}
+{'loss': 1.4457, 'grad_norm': 2.3801777362823486, 'learning_rate': 3.8351732013703844e-06, 'epoch': 0.95}
+{'eval_loss': 1.7810813188552856, 'eval_runtime': 37.7647, 'eval_samples_per_second': 26.48, 'eval_steps_per_second': 1.112, 'epoch': 0.95}
+{'loss': 1.4267, 'grad_norm': 2.5260043144226074, 'learning_rate': 3.833269889607918e-06, 'epoch': 0.95}
+{'loss': 1.4313, 'grad_norm': 2.270653009414673, 'learning_rate': 3.831366577845451e-06, 'epoch': 0.95}
+{'loss': 1.4588, 'grad_norm': 2.5123250484466553, 'learning_rate': 3.8294632660829845e-06, 'epoch': 0.95}
+{'loss': 1.4659, 'grad_norm': 2.4242913722991943, 'learning_rate': 3.827559954320518e-06, 'epoch': 0.95}
+{'loss': 1.4838, 'grad_norm': 2.4337117671966553, 'learning_rate': 3.825656642558051e-06, 'epoch': 0.95}
+{'loss': 1.4674, 'grad_norm': 2.3577871322631836, 'learning_rate': 3.823753330795585e-06, 'epoch': 0.95}
+{'loss': 1.4011, 'grad_norm': 2.2574679851531982, 'learning_rate': 3.821850019033118e-06, 'epoch': 0.95}
+{'loss': 1.459, 'grad_norm': 2.38043475151062, 'learning_rate': 3.819946707270651e-06, 'epoch': 0.95}
+{'loss': 1.4649, 'grad_norm': 2.4249954223632812, 'learning_rate': 3.818043395508185e-06, 'epoch': 0.95}
+{'loss': 1.532, 'grad_norm': 2.4420788288116455, 'learning_rate': 3.816140083745718e-06, 'epoch': 0.96}
+{'eval_loss': 1.7805145978927612, 'eval_runtime': 37.8606, 'eval_samples_per_second': 26.413, 'eval_steps_per_second': 1.109, 'epoch': 0.96}
+{'loss': 1.4365, 'grad_norm': 2.391042470932007, 'learning_rate': 3.8142367719832514e-06, 'epoch': 0.96}
+{'loss': 1.4367, 'grad_norm': 2.462303876876831, 'learning_rate': 3.8123334602207844e-06, 'epoch': 0.96}
+{'loss': 1.427, 'grad_norm': 2.330714702606201, 'learning_rate': 3.8104301484583177e-06, 'epoch': 0.96}
+{'loss': 1.4836, 'grad_norm': 2.3475441932678223, 'learning_rate': 3.808526836695851e-06, 'epoch': 0.96}
+{'loss': 1.4601, 'grad_norm': 2.4546470642089844, 'learning_rate': 3.8066235249333845e-06, 'epoch': 0.96}
+{'loss': 1.4616, 'grad_norm': 2.4604640007019043, 'learning_rate': 3.804720213170918e-06, 'epoch': 0.96}
+{'loss': 1.4816, 'grad_norm': 2.3087422847747803, 'learning_rate': 3.8028169014084508e-06, 'epoch': 0.96}
+{'loss': 1.471, 'grad_norm': 2.375377893447876, 'learning_rate': 3.800913589645984e-06, 'epoch': 0.96}
+{'loss': 1.4754, 'grad_norm': 2.358741283416748, 'learning_rate': 3.7990102778835175e-06, 'epoch': 0.96}
+{'loss': 1.534, 'grad_norm': 2.3990139961242676, 'learning_rate': 3.797106966121051e-06, 'epoch': 0.97}
+{'eval_loss': 1.7745739221572876, 'eval_runtime': 37.8883, 'eval_samples_per_second': 26.393, 'eval_steps_per_second': 1.109, 'epoch': 0.97}
+{'loss': 1.4994, 'grad_norm': 2.417396068572998, 'learning_rate': 3.7952036543585842e-06, 'epoch': 0.97}
+{'loss': 1.5045, 'grad_norm': 2.323125123977661, 'learning_rate': 3.793300342596117e-06, 'epoch': 0.97}
+{'loss': 1.4936, 'grad_norm': 2.4424829483032227, 'learning_rate': 3.7913970308336505e-06, 'epoch': 0.97}
+{'loss': 1.4453, 'grad_norm': 2.2769429683685303, 'learning_rate': 3.789493719071184e-06, 'epoch': 0.97}
+{'loss': 1.4005, 'grad_norm': 2.183701276779175, 'learning_rate': 3.7875904073087177e-06, 'epoch': 0.97}
+{'loss': 1.4521, 'grad_norm': 3.4538655281066895, 'learning_rate': 3.785687095546251e-06, 'epoch': 0.97}
+{'loss': 1.4328, 'grad_norm': 2.3735523223876953, 'learning_rate': 3.7837837837837844e-06, 'epoch': 0.97}
+{'loss': 1.4004, 'grad_norm': 2.6214165687561035, 'learning_rate': 3.7818804720213178e-06, 'epoch': 0.97}
+{'loss': 1.4006, 'grad_norm': 2.365091562271118, 'learning_rate': 3.7799771602588507e-06, 'epoch': 0.97}
+{'loss': 1.4587, 'grad_norm': 2.1926634311676025, 'learning_rate': 3.778073848496384e-06, 'epoch': 0.98}
+{'eval_loss': 1.767502784729004, 'eval_runtime': 37.9287, 'eval_samples_per_second': 26.365, 'eval_steps_per_second': 1.107, 'epoch': 0.98}
+{'loss': 1.4826, 'grad_norm': 2.3047192096710205, 'learning_rate': 3.7761705367339174e-06, 'epoch': 0.98}
+{'loss': 1.4914, 'grad_norm': 2.3306028842926025, 'learning_rate': 3.7742672249714508e-06, 'epoch': 0.98}
+{'loss': 1.4556, 'grad_norm': 2.3409693241119385, 'learning_rate': 3.772363913208984e-06, 'epoch': 0.98}
+{'loss': 1.4751, 'grad_norm': 2.3337934017181396, 'learning_rate': 3.770460601446517e-06, 'epoch': 0.98}
+{'loss': 1.4176, 'grad_norm': 2.3354830741882324, 'learning_rate': 3.7685572896840504e-06, 'epoch': 0.98}
+{'loss': 1.3715, 'grad_norm': 2.4049782752990723, 'learning_rate': 3.766653977921584e-06, 'epoch': 0.98}
+{'loss': 1.468, 'grad_norm': 2.5127065181732178, 'learning_rate': 3.764750666159117e-06, 'epoch': 0.98}
+{'loss': 1.4237, 'grad_norm': 2.5576820373535156, 'learning_rate': 3.7628473543966505e-06, 'epoch': 0.98}
+{'loss': 1.5126, 'grad_norm': 2.394098997116089, 'learning_rate': 3.7609440426341835e-06, 'epoch': 0.99}
+{'loss': 1.4109, 'grad_norm': 2.3358702659606934, 'learning_rate': 3.759040730871717e-06, 'epoch': 0.99}
+{'eval_loss': 1.7665778398513794, 'eval_runtime': 37.9028, 'eval_samples_per_second': 26.383, 'eval_steps_per_second': 1.108, 'epoch': 0.99}
+{'loss': 1.3995, 'grad_norm': 2.4213271141052246, 'learning_rate': 3.75713741910925e-06, 'epoch': 0.99}
+{'loss': 1.4491, 'grad_norm': 2.367835760116577, 'learning_rate': 3.7552341073467836e-06, 'epoch': 0.99}
+{'loss': 1.5078, 'grad_norm': 2.433840751647949, 'learning_rate': 3.753330795584317e-06, 'epoch': 0.99}
+{'loss': 1.4107, 'grad_norm': 2.3976447582244873, 'learning_rate': 3.75142748382185e-06, 'epoch': 0.99}
+{'loss': 1.4569, 'grad_norm': 2.4369053840637207, 'learning_rate': 3.749524172059384e-06, 'epoch': 0.99}
+{'loss': 1.4976, 'grad_norm': 2.3203182220458984, 'learning_rate': 3.747620860296917e-06, 'epoch': 0.99}
+{'loss': 1.4945, 'grad_norm': 2.431885242462158, 'learning_rate': 3.7457175485344504e-06, 'epoch': 0.99}
+{'loss': 1.48, 'grad_norm': 2.2997021675109863, 'learning_rate': 3.7438142367719837e-06, 'epoch': 0.99}
+{'loss': 1.4322, 'grad_norm': 2.2502849102020264, 'learning_rate': 3.741910925009517e-06, 'epoch': 1.0}
+{'loss': 1.4498, 'grad_norm': 2.311049222946167, 'learning_rate': 3.7400076132470505e-06, 'epoch': 1.0}
+{'eval_loss': 1.771975040435791, 'eval_runtime': 37.852, 'eval_samples_per_second': 26.419, 'eval_steps_per_second': 1.11, 'epoch': 1.0}
+{'loss': 1.4796, 'grad_norm': 2.431821584701538, 'learning_rate': 3.7381043014845834e-06, 'epoch': 1.0}
+{'loss': 1.459, 'grad_norm': 2.319145441055298, 'learning_rate': 3.7362009897221168e-06, 'epoch': 1.0}
+{'loss': 1.4764, 'grad_norm': 2.4445269107818604, 'learning_rate': 3.73429767795965e-06, 'epoch': 1.0}
+{'loss': 1.3799, 'grad_norm': 2.272233009338379, 'learning_rate': 3.7323943661971835e-06, 'epoch': 1.0}
+{'loss': 1.3257, 'grad_norm': 2.5421202182769775, 'learning_rate': 3.730491054434717e-06, 'epoch': 1.0}
+{'loss': 1.4244, 'grad_norm': 2.3988611698150635, 'learning_rate': 3.72858774267225e-06, 'epoch': 1.0}
+{'loss': 1.4461, 'grad_norm': 2.5080084800720215, 'learning_rate': 3.726684430909783e-06, 'epoch': 1.0}
+{'loss': 1.45, 'grad_norm': 2.411081314086914, 'learning_rate': 3.7247811191473165e-06, 'epoch': 1.0}
+{'loss': 1.4296, 'grad_norm': 2.729546070098877, 'learning_rate': 3.72287780738485e-06, 'epoch': 1.01}
+{'loss': 1.4312, 'grad_norm': 2.5932579040527344, 'learning_rate': 3.7209744956223832e-06, 'epoch': 1.01}
+{'eval_loss': 1.770633339881897, 'eval_runtime': 37.8977, 'eval_samples_per_second': 26.387, 'eval_steps_per_second': 1.108, 'epoch': 1.01}
+{'loss': 1.3637, 'grad_norm': 2.4512336254119873, 'learning_rate': 3.719071183859916e-06, 'epoch': 1.01}
+{'loss': 1.4591, 'grad_norm': 2.5416886806488037, 'learning_rate': 3.7171678720974495e-06, 'epoch': 1.01}
+{'loss': 1.4306, 'grad_norm': 2.464679002761841, 'learning_rate': 3.715264560334983e-06, 'epoch': 1.01}
+{'loss': 1.4426, 'grad_norm': 2.3745839595794678, 'learning_rate': 3.7133612485725163e-06, 'epoch': 1.01}
+{'loss': 1.3618, 'grad_norm': 2.3606340885162354, 'learning_rate': 3.71145793681005e-06, 'epoch': 1.01}
+{'loss': 1.4776, 'grad_norm': 2.5836591720581055, 'learning_rate': 3.7095546250475834e-06, 'epoch': 1.01}
+{'loss': 1.4047, 'grad_norm': 2.4108684062957764, 'learning_rate': 3.7076513132851168e-06, 'epoch': 1.01}
+{'loss': 1.3772, 'grad_norm': 2.4316983222961426, 'learning_rate': 3.7057480015226497e-06, 'epoch': 1.01}
+{'loss': 1.4536, 'grad_norm': 2.5510315895080566, 'learning_rate': 3.703844689760183e-06, 'epoch': 1.02}
+{'loss': 1.434, 'grad_norm': 2.4947116374969482, 'learning_rate': 3.7019413779977164e-06, 'epoch': 1.02}
+{'eval_loss': 1.7928223609924316, 'eval_runtime': 37.8838, 'eval_samples_per_second': 26.397, 'eval_steps_per_second': 1.109, 'epoch': 1.02}
+{'loss': 1.4083, 'grad_norm': 2.5938122272491455, 'learning_rate': 3.70003806623525e-06, 'epoch': 1.02}
+{'loss': 1.4696, 'grad_norm': 2.472865581512451, 'learning_rate': 3.698134754472783e-06, 'epoch': 1.02}
+{'loss': 1.403, 'grad_norm': 2.374344825744629, 'learning_rate': 3.696231442710316e-06, 'epoch': 1.02}
+{'loss': 1.4216, 'grad_norm': 2.6928529739379883, 'learning_rate': 3.6943281309478495e-06, 'epoch': 1.02}
+{'loss': 1.4362, 'grad_norm': 2.640890598297119, 'learning_rate': 3.692424819185383e-06, 'epoch': 1.02}
+{'loss': 1.382, 'grad_norm': 2.45357084274292, 'learning_rate': 3.690521507422916e-06, 'epoch': 1.02}
+{'loss': 1.395, 'grad_norm': 2.712517023086548, 'learning_rate': 3.6886181956604496e-06, 'epoch': 1.02}
+{'loss': 1.4589, 'grad_norm': 2.7127771377563477, 'learning_rate': 3.686714883897983e-06, 'epoch': 1.03}
+{'loss': 1.4551, 'grad_norm': 2.5379409790039062, 'learning_rate': 3.684811572135516e-06, 'epoch': 1.03}
+{'loss': 1.4112, 'grad_norm': 2.5015134811401367, 'learning_rate': 3.6829082603730492e-06, 'epoch': 1.03}
+{'eval_loss': 1.7806837558746338, 'eval_runtime': 37.9091, 'eval_samples_per_second': 26.379, 'eval_steps_per_second': 1.108, 'epoch': 1.03}
+{'loss': 1.4469, 'grad_norm': 2.481306314468384, 'learning_rate': 3.6810049486105826e-06, 'epoch': 1.03}
+{'loss': 1.4284, 'grad_norm': 2.481520891189575, 'learning_rate': 3.679101636848116e-06, 'epoch': 1.03}
+{'loss': 1.4067, 'grad_norm': 2.4291019439697266, 'learning_rate': 3.6771983250856493e-06, 'epoch': 1.03}
+{'loss': 1.4347, 'grad_norm': 2.5361173152923584, 'learning_rate': 3.6752950133231822e-06, 'epoch': 1.03}
+{'loss': 1.4455, 'grad_norm': 2.5588085651397705, 'learning_rate': 3.6733917015607156e-06, 'epoch': 1.03}
+{'loss': 1.399, 'grad_norm': 2.555091619491577, 'learning_rate': 3.6714883897982494e-06, 'epoch': 1.03}
+{'loss': 1.3894, 'grad_norm': 2.5489652156829834, 'learning_rate': 3.6695850780357828e-06, 'epoch': 1.03}
+{'loss': 1.3962, 'grad_norm': 2.5258426666259766, 'learning_rate': 3.667681766273316e-06, 'epoch': 1.04}
+{'loss': 1.4773, 'grad_norm': 2.455916166305542, 'learning_rate': 3.6657784545108495e-06, 'epoch': 1.04}
+{'loss': 1.4337, 'grad_norm': 2.5466208457946777, 'learning_rate': 3.6638751427483824e-06, 'epoch': 1.04}
+{'eval_loss': 1.7840261459350586, 'eval_runtime': 37.6685, 'eval_samples_per_second': 26.547, 'eval_steps_per_second': 1.115, 'epoch': 1.04}
+{'loss': 1.4777, 'grad_norm': 2.5446081161499023, 'learning_rate': 3.6619718309859158e-06, 'epoch': 1.04}
+{'loss': 1.4295, 'grad_norm': 2.509493350982666, 'learning_rate': 3.660068519223449e-06, 'epoch': 1.04}
+{'loss': 1.4044, 'grad_norm': 2.417632818222046, 'learning_rate': 3.6581652074609825e-06, 'epoch': 1.04}
+{'loss': 1.3948, 'grad_norm': 2.457902193069458, 'learning_rate': 3.656261895698516e-06, 'epoch': 1.04}
+{'loss': 1.397, 'grad_norm': 2.4869253635406494, 'learning_rate': 3.6543585839360492e-06, 'epoch': 1.04}
+{'loss': 1.4037, 'grad_norm': 2.495419979095459, 'learning_rate': 3.652455272173582e-06, 'epoch': 1.04}
+{'loss': 1.4156, 'grad_norm': 2.5231642723083496, 'learning_rate': 3.6505519604111155e-06, 'epoch': 1.04}
+{'loss': 1.4529, 'grad_norm': 2.8302087783813477, 'learning_rate': 3.648648648648649e-06, 'epoch': 1.05}
+{'loss': 1.4078, 'grad_norm': 2.467430353164673, 'learning_rate': 3.6467453368861823e-06, 'epoch': 1.05}
+{'loss': 1.4344, 'grad_norm': 2.469128131866455, 'learning_rate': 3.6448420251237156e-06, 'epoch': 1.05}
+{'eval_loss': 1.7800015211105347, 'eval_runtime': 37.854, 'eval_samples_per_second': 26.417, 'eval_steps_per_second': 1.11, 'epoch': 1.05}
+{'loss': 1.451, 'grad_norm': 2.59389328956604, 'learning_rate': 3.6429387133612486e-06, 'epoch': 1.05}
+{'loss': 1.4026, 'grad_norm': 2.5882468223571777, 'learning_rate': 3.641035401598782e-06, 'epoch': 1.05}
+{'loss': 1.4382, 'grad_norm': 2.601926565170288, 'learning_rate': 3.6391320898363153e-06, 'epoch': 1.05}
+{'loss': 1.4184, 'grad_norm': 2.5336716175079346, 'learning_rate': 3.6372287780738487e-06, 'epoch': 1.05}
+{'loss': 1.4426, 'grad_norm': 2.503507614135742, 'learning_rate': 3.635325466311382e-06, 'epoch': 1.05}
+{'loss': 1.4563, 'grad_norm': 2.483013153076172, 'learning_rate': 3.633422154548916e-06, 'epoch': 1.05}
+{'loss': 1.4284, 'grad_norm': 2.4803354740142822, 'learning_rate': 3.6315188427864487e-06, 'epoch': 1.05}
+{'loss': 1.3772, 'grad_norm': 2.3735713958740234, 'learning_rate': 3.629615531023982e-06, 'epoch': 1.06}
+{'loss': 1.4399, 'grad_norm': 2.471226215362549, 'learning_rate': 3.6277122192615155e-06, 'epoch': 1.06}
+{'loss': 1.3951, 'grad_norm': 2.3827438354492188, 'learning_rate': 3.625808907499049e-06, 'epoch': 1.06}
+{'eval_loss': 1.7787058353424072, 'eval_runtime': 37.9484, 'eval_samples_per_second': 26.352, 'eval_steps_per_second': 1.107, 'epoch': 1.06}
+{'loss': 1.3946, 'grad_norm': 2.403416633605957, 'learning_rate': 3.623905595736582e-06, 'epoch': 1.06}
+{'loss': 1.3859, 'grad_norm': 2.455740213394165, 'learning_rate': 3.6220022839741156e-06, 'epoch': 1.06}
+{'loss': 1.4092, 'grad_norm': 2.6349902153015137, 'learning_rate': 3.6200989722116485e-06, 'epoch': 1.06}
+{'loss': 1.419, 'grad_norm': 2.6292974948883057, 'learning_rate': 3.618195660449182e-06, 'epoch': 1.06}
+{'loss': 1.3546, 'grad_norm': 2.4338958263397217, 'learning_rate': 3.6162923486867152e-06, 'epoch': 1.06}
+{'loss': 1.3899, 'grad_norm': 2.376420259475708, 'learning_rate': 3.6143890369242486e-06, 'epoch': 1.06}
+{'loss': 1.3955, 'grad_norm': 2.428738832473755, 'learning_rate': 3.612485725161782e-06, 'epoch': 1.07}
+{'loss': 1.3875, 'grad_norm': 2.4316651821136475, 'learning_rate': 3.610582413399315e-06, 'epoch': 1.07}
+{'loss': 1.404, 'grad_norm': 2.3969266414642334, 'learning_rate': 3.6086791016368482e-06, 'epoch': 1.07}
+{'loss': 1.4639, 'grad_norm': 2.662283420562744, 'learning_rate': 3.6067757898743816e-06, 'epoch': 1.07}
+{'eval_loss': 1.7603929042816162, 'eval_runtime': 38.0098, 'eval_samples_per_second': 26.309, 'eval_steps_per_second': 1.105, 'epoch': 1.07}
+{'loss': 1.47, 'grad_norm': 2.601452112197876, 'learning_rate': 3.604872478111915e-06, 'epoch': 1.07}
+{'loss': 1.4162, 'grad_norm': 2.4221863746643066, 'learning_rate': 3.6029691663494483e-06, 'epoch': 1.07}
+{'loss': 1.443, 'grad_norm': 2.4996650218963623, 'learning_rate': 3.6010658545869813e-06, 'epoch': 1.07}
+{'loss': 1.4464, 'grad_norm': 2.547239303588867, 'learning_rate': 3.5991625428245146e-06, 'epoch': 1.07}
+{'loss': 1.3749, 'grad_norm': 2.481187343597412, 'learning_rate': 3.597259231062048e-06, 'epoch': 1.07}
+{'loss': 1.4231, 'grad_norm': 2.5504934787750244, 'learning_rate': 3.5953559192995818e-06, 'epoch': 1.07}
+{'loss': 1.4805, 'grad_norm': 2.465390205383301, 'learning_rate': 3.593452607537115e-06, 'epoch': 1.08}
+{'loss': 1.4091, 'grad_norm': 2.4399969577789307, 'learning_rate': 3.5915492957746485e-06, 'epoch': 1.08}
+{'loss': 1.4367, 'grad_norm': 2.4819061756134033, 'learning_rate': 3.589645984012182e-06, 'epoch': 1.08}
+{'loss': 1.3882, 'grad_norm': 2.459517002105713, 'learning_rate': 3.587742672249715e-06, 'epoch': 1.08}
+{'eval_loss': 1.7557458877563477, 'eval_runtime': 38.0271, 'eval_samples_per_second': 26.297, 'eval_steps_per_second': 1.104, 'epoch': 1.08}
+{'loss': 1.3926, 'grad_norm': 2.5434813499450684, 'learning_rate': 3.585839360487248e-06, 'epoch': 1.08}
+{'loss': 1.4044, 'grad_norm': 2.6173205375671387, 'learning_rate': 3.5839360487247815e-06, 'epoch': 1.08}
+{'loss': 1.4695, 'grad_norm': 2.677584171295166, 'learning_rate': 3.582032736962315e-06, 'epoch': 1.08}
+{'loss': 1.3699, 'grad_norm': 2.4151623249053955, 'learning_rate': 3.5801294251998483e-06, 'epoch': 1.08}
+{'loss': 1.4132, 'grad_norm': 2.4683942794799805, 'learning_rate': 3.578226113437381e-06, 'epoch': 1.08}
+{'loss': 1.4729, 'grad_norm': 2.6076581478118896, 'learning_rate': 3.5763228016749146e-06, 'epoch': 1.08}
+{'loss': 1.4196, 'grad_norm': 2.4766876697540283, 'learning_rate': 3.574419489912448e-06, 'epoch': 1.09}
+{'loss': 1.4049, 'grad_norm': 2.466458559036255, 'learning_rate': 3.5725161781499813e-06, 'epoch': 1.09}
+{'loss': 1.4246, 'grad_norm': 2.4220409393310547, 'learning_rate': 3.5706128663875147e-06, 'epoch': 1.09}
+{'loss': 1.4397, 'grad_norm': 2.5571770668029785, 'learning_rate': 3.5687095546250476e-06, 'epoch': 1.09}
+{'eval_loss': 1.7701127529144287, 'eval_runtime': 38.0754, 'eval_samples_per_second': 26.264, 'eval_steps_per_second': 1.103, 'epoch': 1.09}
+{'loss': 1.423, 'grad_norm': 2.648768186569214, 'learning_rate': 3.566806242862581e-06, 'epoch': 1.09}
+{'loss': 1.3995, 'grad_norm': 2.403651714324951, 'learning_rate': 3.5649029311001143e-06, 'epoch': 1.09}
+{'loss': 1.4139, 'grad_norm': 2.465538263320923, 'learning_rate': 3.5629996193376477e-06, 'epoch': 1.09}
+{'loss': 1.4499, 'grad_norm': 2.464662551879883, 'learning_rate': 3.561096307575181e-06, 'epoch': 1.09}
+{'loss': 1.4555, 'grad_norm': 2.4943597316741943, 'learning_rate': 3.559192995812714e-06, 'epoch': 1.09}
+{'loss': 1.4484, 'grad_norm': 2.6332199573516846, 'learning_rate': 3.557289684050248e-06, 'epoch': 1.1}
+{'loss': 1.4588, 'grad_norm': 2.4370667934417725, 'learning_rate': 3.555386372287781e-06, 'epoch': 1.1}
+{'loss': 1.4269, 'grad_norm': 2.568368673324585, 'learning_rate': 3.5534830605253145e-06, 'epoch': 1.1}
+{'loss': 1.4165, 'grad_norm': 2.4618077278137207, 'learning_rate': 3.551579748762848e-06, 'epoch': 1.1}
+{'loss': 1.3991, 'grad_norm': 2.551320791244507, 'learning_rate': 3.5496764370003812e-06, 'epoch': 1.1}
+{'eval_loss': 1.7648736238479614, 'eval_runtime': 38.0273, 'eval_samples_per_second': 26.297, 'eval_steps_per_second': 1.104, 'epoch': 1.1}
+{'loss': 1.3556, 'grad_norm': 2.350905418395996, 'learning_rate': 3.5477731252379146e-06, 'epoch': 1.1}
+{'loss': 1.3801, 'grad_norm': 2.4294588565826416, 'learning_rate': 3.5458698134754475e-06, 'epoch': 1.1}
+{'loss': 1.3876, 'grad_norm': 2.576774835586548, 'learning_rate': 3.543966501712981e-06, 'epoch': 1.1}
+{'loss': 1.4907, 'grad_norm': 2.716935873031616, 'learning_rate': 3.5420631899505142e-06, 'epoch': 1.1}
+{'loss': 1.3161, 'grad_norm': 2.425305128097534, 'learning_rate': 3.5401598781880476e-06, 'epoch': 1.1}
+{'loss': 1.4462, 'grad_norm': 2.54738712310791, 'learning_rate': 3.538256566425581e-06, 'epoch': 1.11}
+{'loss': 1.4022, 'grad_norm': 2.5109341144561768, 'learning_rate': 3.536353254663114e-06, 'epoch': 1.11}
+{'loss': 1.3857, 'grad_norm': 2.468749523162842, 'learning_rate': 3.5344499429006473e-06, 'epoch': 1.11}
+{'loss': 1.4309, 'grad_norm': 2.5285134315490723, 'learning_rate': 3.5325466311381806e-06, 'epoch': 1.11}
+{'loss': 1.3644, 'grad_norm': 2.6391055583953857, 'learning_rate': 3.530643319375714e-06, 'epoch': 1.11}
+{'eval_loss': 1.7846598625183105, 'eval_runtime': 38.0604, 'eval_samples_per_second': 26.274, 'eval_steps_per_second': 1.104, 'epoch': 1.11}
+{'loss': 1.3922, 'grad_norm': 2.660356283187866, 'learning_rate': 3.5287400076132474e-06, 'epoch': 1.11}
+{'loss': 1.4282, 'grad_norm': 2.5648741722106934, 'learning_rate': 3.5268366958507803e-06, 'epoch': 1.11}
+{'loss': 1.4208, 'grad_norm': 2.6862876415252686, 'learning_rate': 3.5249333840883137e-06, 'epoch': 1.11}
+{'loss': 1.3883, 'grad_norm': 2.6200191974639893, 'learning_rate': 3.523030072325847e-06, 'epoch': 1.11}
+{'loss': 1.4033, 'grad_norm': 2.5802111625671387, 'learning_rate': 3.5211267605633804e-06, 'epoch': 1.11}
+{'loss': 1.4085, 'grad_norm': 2.4148080348968506, 'learning_rate': 3.519223448800914e-06, 'epoch': 1.12}
+{'loss': 1.4021, 'grad_norm': 2.7452127933502197, 'learning_rate': 3.5173201370384475e-06, 'epoch': 1.12}
+{'loss': 1.4161, 'grad_norm': 2.6437106132507324, 'learning_rate': 3.515416825275981e-06, 'epoch': 1.12}
+{'loss': 1.4322, 'grad_norm': 2.4709842205047607, 'learning_rate': 3.513513513513514e-06, 'epoch': 1.12}
+{'loss': 1.3435, 'grad_norm': 2.5138099193573, 'learning_rate': 3.511610201751047e-06, 'epoch': 1.12}
+{'eval_loss': 1.7687023878097534, 'eval_runtime': 38.0137, 'eval_samples_per_second': 26.306, 'eval_steps_per_second': 1.105, 'epoch': 1.12}
+{'loss': 1.4133, 'grad_norm': 2.4194881916046143, 'learning_rate': 3.5097068899885806e-06, 'epoch': 1.12}
+{'loss': 1.4759, 'grad_norm': 2.6564371585845947, 'learning_rate': 3.507803578226114e-06, 'epoch': 1.12}
+{'loss': 1.3577, 'grad_norm': 2.4480180740356445, 'learning_rate': 3.5059002664636473e-06, 'epoch': 1.12}
+{'loss': 1.3984, 'grad_norm': 2.5538978576660156, 'learning_rate': 3.5039969547011802e-06, 'epoch': 1.12}
+{'loss': 1.4049, 'grad_norm': 2.6467089653015137, 'learning_rate': 3.5020936429387136e-06, 'epoch': 1.12}
+{'loss': 1.462, 'grad_norm': 2.6502673625946045, 'learning_rate': 3.500190331176247e-06, 'epoch': 1.13}
+{'loss': 1.3926, 'grad_norm': 2.5696403980255127, 'learning_rate': 3.4982870194137803e-06, 'epoch': 1.13}
+{'loss': 1.4031, 'grad_norm': 2.5951733589172363, 'learning_rate': 3.4963837076513137e-06, 'epoch': 1.13}
+{'loss': 1.3348, 'grad_norm': 2.4910218715667725, 'learning_rate': 3.4944803958888466e-06, 'epoch': 1.13}
+{'loss': 1.4641, 'grad_norm': 2.6325888633728027, 'learning_rate': 3.49257708412638e-06, 'epoch': 1.13}
+{'eval_loss': 1.7720683813095093, 'eval_runtime': 37.9585, 'eval_samples_per_second': 26.345, 'eval_steps_per_second': 1.106, 'epoch': 1.13}
+{'loss': 1.4726, 'grad_norm': 2.6712775230407715, 'learning_rate': 3.4906737723639133e-06, 'epoch': 1.13}
+{'loss': 1.4158, 'grad_norm': 2.580404043197632, 'learning_rate': 3.4887704606014467e-06, 'epoch': 1.13}
+{'loss': 1.4636, 'grad_norm': 2.467453718185425, 'learning_rate': 3.48686714883898e-06, 'epoch': 1.13}
+{'loss': 1.4082, 'grad_norm': 2.627136468887329, 'learning_rate': 3.484963837076513e-06, 'epoch': 1.13}
+{'loss': 1.3628, 'grad_norm': 2.6198604106903076, 'learning_rate': 3.4830605253140464e-06, 'epoch': 1.14}
+{'loss': 1.3885, 'grad_norm': 2.439512014389038, 'learning_rate': 3.4811572135515797e-06, 'epoch': 1.14}
+{'loss': 1.3674, 'grad_norm': 2.5543010234832764, 'learning_rate': 3.4792539017891135e-06, 'epoch': 1.14}
+{'loss': 1.4387, 'grad_norm': 2.7263364791870117, 'learning_rate': 3.477350590026647e-06, 'epoch': 1.14}
+{'loss': 1.4222, 'grad_norm': 2.5030503273010254, 'learning_rate': 3.4754472782641802e-06, 'epoch': 1.14}
+{'loss': 1.3981, 'grad_norm': 2.5090320110321045, 'learning_rate': 3.4735439665017136e-06, 'epoch': 1.14}
+{'eval_loss': 1.769408941268921, 'eval_runtime': 37.608, 'eval_samples_per_second': 26.59, 'eval_steps_per_second': 1.117, 'epoch': 1.14}
+{'loss': 1.4074, 'grad_norm': 2.575934648513794, 'learning_rate': 3.4716406547392465e-06, 'epoch': 1.14}
+{'loss': 1.4162, 'grad_norm': 2.6381359100341797, 'learning_rate': 3.46973734297678e-06, 'epoch': 1.14}
+{'loss': 1.4616, 'grad_norm': 2.7605674266815186, 'learning_rate': 3.4678340312143133e-06, 'epoch': 1.14}
+{'loss': 1.4511, 'grad_norm': 2.5548479557037354, 'learning_rate': 3.4659307194518466e-06, 'epoch': 1.14}
+{'loss': 1.3777, 'grad_norm': 2.471168279647827, 'learning_rate': 3.46402740768938e-06, 'epoch': 1.15}
+{'loss': 1.3805, 'grad_norm': 2.4416346549987793, 'learning_rate': 3.462124095926913e-06, 'epoch': 1.15}
+{'loss': 1.4282, 'grad_norm': 2.4972171783447266, 'learning_rate': 3.4602207841644463e-06, 'epoch': 1.15}
+{'loss': 1.4744, 'grad_norm': 2.4379162788391113, 'learning_rate': 3.4583174724019797e-06, 'epoch': 1.15}
+{'loss': 1.4303, 'grad_norm': 2.508047580718994, 'learning_rate': 3.456414160639513e-06, 'epoch': 1.15}
+{'loss': 1.4179, 'grad_norm': 2.4299631118774414, 'learning_rate': 3.4545108488770464e-06, 'epoch': 1.15}
+{'eval_loss': 1.7768158912658691, 'eval_runtime': 37.736, 'eval_samples_per_second': 26.5, 'eval_steps_per_second': 1.113, 'epoch': 1.15}
+{'loss': 1.4235, 'grad_norm': 2.41538143157959, 'learning_rate': 3.4526075371145793e-06, 'epoch': 1.15}
+{'loss': 1.4879, 'grad_norm': 2.5614655017852783, 'learning_rate': 3.4507042253521127e-06, 'epoch': 1.15}
+{'loss': 1.3968, 'grad_norm': 2.4826605319976807, 'learning_rate': 3.448800913589646e-06, 'epoch': 1.15}
+{'loss': 1.4903, 'grad_norm': 2.5341391563415527, 'learning_rate': 3.4468976018271794e-06, 'epoch': 1.15}
+{'loss': 1.4466, 'grad_norm': 2.493818998336792, 'learning_rate': 3.4449942900647128e-06, 'epoch': 1.16}
+{'loss': 1.4425, 'grad_norm': 2.6057965755462646, 'learning_rate': 3.443090978302246e-06, 'epoch': 1.16}
+{'loss': 1.4296, 'grad_norm': 2.5481390953063965, 'learning_rate': 3.44118766653978e-06, 'epoch': 1.16}
+{'loss': 1.4408, 'grad_norm': 2.5753650665283203, 'learning_rate': 3.439284354777313e-06, 'epoch': 1.16}
+{'loss': 1.373, 'grad_norm': 2.5423803329467773, 'learning_rate': 3.4373810430148462e-06, 'epoch': 1.16}
+{'loss': 1.3992, 'grad_norm': 2.593487024307251, 'learning_rate': 3.4354777312523796e-06, 'epoch': 1.16}
+{'eval_loss': 1.7784411907196045, 'eval_runtime': 37.8687, 'eval_samples_per_second': 26.407, 'eval_steps_per_second': 1.109, 'epoch': 1.16}
+{'loss': 1.4339, 'grad_norm': 2.4693503379821777, 'learning_rate': 3.433574419489913e-06, 'epoch': 1.16}
+{'loss': 1.4035, 'grad_norm': 2.5477423667907715, 'learning_rate': 3.4316711077274463e-06, 'epoch': 1.16}
+{'loss': 1.4517, 'grad_norm': 2.5650672912597656, 'learning_rate': 3.4297677959649792e-06, 'epoch': 1.16}
+{'loss': 1.3983, 'grad_norm': 2.3217973709106445, 'learning_rate': 3.4278644842025126e-06, 'epoch': 1.16}
+{'loss': 1.4799, 'grad_norm': 2.674342155456543, 'learning_rate': 3.425961172440046e-06, 'epoch': 1.17}
+{'loss': 1.414, 'grad_norm': 2.4861397743225098, 'learning_rate': 3.4240578606775793e-06, 'epoch': 1.17}
+{'loss': 1.3918, 'grad_norm': 2.4306106567382812, 'learning_rate': 3.4221545489151127e-06, 'epoch': 1.17}
+{'loss': 1.4979, 'grad_norm': 2.6873955726623535, 'learning_rate': 3.4202512371526456e-06, 'epoch': 1.17}
+{'loss': 1.4424, 'grad_norm': 2.559042453765869, 'learning_rate': 3.418347925390179e-06, 'epoch': 1.17}
+{'loss': 1.418, 'grad_norm': 2.397489547729492, 'learning_rate': 3.4164446136277124e-06, 'epoch': 1.17}
+{'eval_loss': 1.7702736854553223, 'eval_runtime': 37.8963, 'eval_samples_per_second': 26.388, 'eval_steps_per_second': 1.108, 'epoch': 1.17}
+{'loss': 1.4436, 'grad_norm': 2.4295787811279297, 'learning_rate': 3.4145413018652457e-06, 'epoch': 1.17}
+{'loss': 1.4598, 'grad_norm': 2.503202199935913, 'learning_rate': 3.412637990102779e-06, 'epoch': 1.17}
+{'loss': 1.3704, 'grad_norm': 2.540195941925049, 'learning_rate': 3.4107346783403125e-06, 'epoch': 1.17}
+{'loss': 1.4081, 'grad_norm': 2.4832522869110107, 'learning_rate': 3.4088313665778454e-06, 'epoch': 1.18}
+{'loss': 1.3866, 'grad_norm': 2.5639121532440186, 'learning_rate': 3.4069280548153788e-06, 'epoch': 1.18}
+{'loss': 1.4181, 'grad_norm': 2.526610851287842, 'learning_rate': 3.405024743052912e-06, 'epoch': 1.18}
+{'loss': 1.3871, 'grad_norm': 2.6945254802703857, 'learning_rate': 3.403121431290446e-06, 'epoch': 1.18}
+{'loss': 1.3987, 'grad_norm': 2.6561484336853027, 'learning_rate': 3.4012181195279793e-06, 'epoch': 1.18}
+{'loss': 1.4057, 'grad_norm': 2.6104650497436523, 'learning_rate': 3.3993148077655126e-06, 'epoch': 1.18}
+{'loss': 1.3606, 'grad_norm': 2.571707248687744, 'learning_rate': 3.3974114960030456e-06, 'epoch': 1.18}
+{'eval_loss': 1.7780840396881104, 'eval_runtime': 37.8616, 'eval_samples_per_second': 26.412, 'eval_steps_per_second': 1.109, 'epoch': 1.18}
+{'loss': 1.3876, 'grad_norm': 2.5804402828216553, 'learning_rate': 3.395508184240579e-06, 'epoch': 1.18}
+{'loss': 1.4674, 'grad_norm': 2.832446336746216, 'learning_rate': 3.3936048724781123e-06, 'epoch': 1.18}
+{'loss': 1.3643, 'grad_norm': 2.6478688716888428, 'learning_rate': 3.3917015607156457e-06, 'epoch': 1.18}
+{'loss': 1.3874, 'grad_norm': 2.579416513442993, 'learning_rate': 3.389798248953179e-06, 'epoch': 1.19}
+{'loss': 1.4323, 'grad_norm': 2.487861156463623, 'learning_rate': 3.387894937190712e-06, 'epoch': 1.19}
+{'loss': 1.423, 'grad_norm': 2.5020716190338135, 'learning_rate': 3.3859916254282453e-06, 'epoch': 1.19}
+{'loss': 1.4808, 'grad_norm': 2.6588852405548096, 'learning_rate': 3.3840883136657787e-06, 'epoch': 1.19}
+{'loss': 1.4007, 'grad_norm': 2.5702178478240967, 'learning_rate': 3.382185001903312e-06, 'epoch': 1.19}
+{'loss': 1.4278, 'grad_norm': 2.5082061290740967, 'learning_rate': 3.3802816901408454e-06, 'epoch': 1.19}
+{'loss': 1.4088, 'grad_norm': 2.4165053367614746, 'learning_rate': 3.3783783783783788e-06, 'epoch': 1.19}
+{'eval_loss': 1.7722209692001343, 'eval_runtime': 37.8843, 'eval_samples_per_second': 26.396, 'eval_steps_per_second': 1.109, 'epoch': 1.19}
+{'loss': 1.4089, 'grad_norm': 2.4510512351989746, 'learning_rate': 3.3764750666159117e-06, 'epoch': 1.19}
+{'loss': 1.3988, 'grad_norm': 2.5006556510925293, 'learning_rate': 3.374571754853445e-06, 'epoch': 1.19}
+{'loss': 1.3576, 'grad_norm': 2.416264057159424, 'learning_rate': 3.3726684430909784e-06, 'epoch': 1.19}
+{'loss': 1.3796, 'grad_norm': 2.465613842010498, 'learning_rate': 3.370765131328512e-06, 'epoch': 1.2}
+{'loss': 1.391, 'grad_norm': 2.510542154312134, 'learning_rate': 3.368861819566045e-06, 'epoch': 1.2}
+{'loss': 1.431, 'grad_norm': 2.729495048522949, 'learning_rate': 3.366958507803578e-06, 'epoch': 1.2}
+{'loss': 1.376, 'grad_norm': 2.4473495483398438, 'learning_rate': 3.365055196041112e-06, 'epoch': 1.2}
+{'loss': 1.4498, 'grad_norm': 2.3869211673736572, 'learning_rate': 3.3631518842786452e-06, 'epoch': 1.2}
+{'loss': 1.3754, 'grad_norm': 2.4202256202697754, 'learning_rate': 3.3612485725161786e-06, 'epoch': 1.2}
+{'loss': 1.4647, 'grad_norm': 2.452707529067993, 'learning_rate': 3.359345260753712e-06, 'epoch': 1.2}
+{'eval_loss': 1.769252896308899, 'eval_runtime': 37.9385, 'eval_samples_per_second': 26.358, 'eval_steps_per_second': 1.107, 'epoch': 1.2}
+{'loss': 1.443, 'grad_norm': 2.56616473197937, 'learning_rate': 3.3574419489912453e-06, 'epoch': 1.2}
+{'loss': 1.4755, 'grad_norm': 2.6483540534973145, 'learning_rate': 3.3555386372287783e-06, 'epoch': 1.2}
+{'loss': 1.3732, 'grad_norm': 2.5579090118408203, 'learning_rate': 3.3536353254663116e-06, 'epoch': 1.2}
+{'loss': 1.4077, 'grad_norm': 2.5310683250427246, 'learning_rate': 3.351732013703845e-06, 'epoch': 1.21}
+{'loss': 1.4237, 'grad_norm': 2.616957187652588, 'learning_rate': 3.3498287019413784e-06, 'epoch': 1.21}
+{'loss': 1.4381, 'grad_norm': 2.6008999347686768, 'learning_rate': 3.3479253901789117e-06, 'epoch': 1.21}
+{'loss': 1.3471, 'grad_norm': 2.5235824584960938, 'learning_rate': 3.346022078416445e-06, 'epoch': 1.21}
+{'loss': 1.417, 'grad_norm': 2.3749704360961914, 'learning_rate': 3.344118766653978e-06, 'epoch': 1.21}
+{'loss': 1.3924, 'grad_norm': 2.493380069732666, 'learning_rate': 3.3422154548915114e-06, 'epoch': 1.21}
+{'loss': 1.4257, 'grad_norm': 2.4233086109161377, 'learning_rate': 3.3403121431290448e-06, 'epoch': 1.21}
+{'eval_loss': 1.7660146951675415, 'eval_runtime': 37.9268, 'eval_samples_per_second': 26.367, 'eval_steps_per_second': 1.107, 'epoch': 1.21}
+{'loss': 1.3587, 'grad_norm': 2.535982608795166, 'learning_rate': 3.338408831366578e-06, 'epoch': 1.21}
+{'loss': 1.436, 'grad_norm': 2.5744845867156982, 'learning_rate': 3.3365055196041115e-06, 'epoch': 1.21}
+{'loss': 1.464, 'grad_norm': 2.5544042587280273, 'learning_rate': 3.3346022078416444e-06, 'epoch': 1.22}
+{'loss': 1.3915, 'grad_norm': 2.4980483055114746, 'learning_rate': 3.3326988960791778e-06, 'epoch': 1.22}
+{'loss': 1.3239, 'grad_norm': 2.403468608856201, 'learning_rate': 3.330795584316711e-06, 'epoch': 1.22}
+{'loss': 1.4013, 'grad_norm': 2.6861846446990967, 'learning_rate': 3.3288922725542445e-06, 'epoch': 1.22}
+{'loss': 1.4135, 'grad_norm': 2.525033712387085, 'learning_rate': 3.326988960791778e-06, 'epoch': 1.22}
+{'loss': 1.4587, 'grad_norm': 2.6705894470214844, 'learning_rate': 3.3250856490293117e-06, 'epoch': 1.22}
+{'loss': 1.4482, 'grad_norm': 2.6108217239379883, 'learning_rate': 3.323182337266845e-06, 'epoch': 1.22}
+{'loss': 1.432, 'grad_norm': 2.5227413177490234, 'learning_rate': 3.321279025504378e-06, 'epoch': 1.22}
+{'eval_loss': 1.756821870803833, 'eval_runtime': 37.9929, 'eval_samples_per_second': 26.321, 'eval_steps_per_second': 1.105, 'epoch': 1.22}
+{'loss': 1.4215, 'grad_norm': 2.469766139984131, 'learning_rate': 3.3193757137419113e-06, 'epoch': 1.22}
+{'loss': 1.4624, 'grad_norm': 2.5257861614227295, 'learning_rate': 3.3174724019794447e-06, 'epoch': 1.22}
+{'loss': 1.3799, 'grad_norm': 2.5281760692596436, 'learning_rate': 3.315569090216978e-06, 'epoch': 1.23}
+{'loss': 1.4631, 'grad_norm': 2.701521396636963, 'learning_rate': 3.3136657784545114e-06, 'epoch': 1.23}
+{'loss': 1.3746, 'grad_norm': 2.4239444732666016, 'learning_rate': 3.3117624666920443e-06, 'epoch': 1.23}
+{'loss': 1.3584, 'grad_norm': 2.430377721786499, 'learning_rate': 3.3098591549295777e-06, 'epoch': 1.23}
+{'loss': 1.4301, 'grad_norm': 2.7177658081054688, 'learning_rate': 3.307955843167111e-06, 'epoch': 1.23}
+{'loss': 1.4111, 'grad_norm': 2.512943983078003, 'learning_rate': 3.3060525314046444e-06, 'epoch': 1.23}
+{'loss': 1.4096, 'grad_norm': 2.5269784927368164, 'learning_rate': 3.304149219642178e-06, 'epoch': 1.23}
+{'loss': 1.4322, 'grad_norm': 2.476409673690796, 'learning_rate': 3.3022459078797107e-06, 'epoch': 1.23}
+{'eval_loss': 1.7645230293273926, 'eval_runtime': 37.9898, 'eval_samples_per_second': 26.323, 'eval_steps_per_second': 1.106, 'epoch': 1.23}
+{'loss': 1.4093, 'grad_norm': 2.5339248180389404, 'learning_rate': 3.300342596117244e-06, 'epoch': 1.23}
+{'loss': 1.3623, 'grad_norm': 2.3505656719207764, 'learning_rate': 3.2984392843547775e-06, 'epoch': 1.23}
+{'loss': 1.3512, 'grad_norm': 2.400259256362915, 'learning_rate': 3.296535972592311e-06, 'epoch': 1.24}
+{'loss': 1.3946, 'grad_norm': 2.561558723449707, 'learning_rate': 3.294632660829844e-06, 'epoch': 1.24}
+{'loss': 1.3972, 'grad_norm': 2.623100519180298, 'learning_rate': 3.292729349067377e-06, 'epoch': 1.24}
+{'loss': 1.381, 'grad_norm': 2.4889469146728516, 'learning_rate': 3.2908260373049105e-06, 'epoch': 1.24}
+{'loss': 1.4345, 'grad_norm': 2.457334518432617, 'learning_rate': 3.288922725542444e-06, 'epoch': 1.24}
+{'loss': 1.3901, 'grad_norm': 2.440988540649414, 'learning_rate': 3.2870194137799776e-06, 'epoch': 1.24}
+{'loss': 1.3694, 'grad_norm': 2.4992308616638184, 'learning_rate': 3.285116102017511e-06, 'epoch': 1.24}
+{'loss': 1.4344, 'grad_norm': 2.611128091812134, 'learning_rate': 3.2832127902550444e-06, 'epoch': 1.24}
+{'eval_loss': 1.763407826423645, 'eval_runtime': 37.7142, 'eval_samples_per_second': 26.515, 'eval_steps_per_second': 1.114, 'epoch': 1.24}
+{'loss': 1.4204, 'grad_norm': 2.6573522090911865, 'learning_rate': 3.2813094784925777e-06, 'epoch': 1.24}
+{'loss': 1.3617, 'grad_norm': 2.4785778522491455, 'learning_rate': 3.2794061667301107e-06, 'epoch': 1.24}
+{'loss': 1.4004, 'grad_norm': 2.4831974506378174, 'learning_rate': 3.277502854967644e-06, 'epoch': 1.25}
+{'loss': 1.3881, 'grad_norm': 2.6142327785491943, 'learning_rate': 3.2755995432051774e-06, 'epoch': 1.25}
+{'loss': 1.3984, 'grad_norm': 2.447962999343872, 'learning_rate': 3.2736962314427107e-06, 'epoch': 1.25}
+{'loss': 1.4099, 'grad_norm': 2.3895885944366455, 'learning_rate': 3.271792919680244e-06, 'epoch': 1.25}
+{'loss': 1.4575, 'grad_norm': 2.599364995956421, 'learning_rate': 3.269889607917777e-06, 'epoch': 1.25}
+{'loss': 1.3752, 'grad_norm': 2.6294758319854736, 'learning_rate': 3.2679862961553104e-06, 'epoch': 1.25}
+{'loss': 1.4017, 'grad_norm': 2.50923228263855, 'learning_rate': 3.2660829843928438e-06, 'epoch': 1.25}
+{'loss': 1.4505, 'grad_norm': 2.626434564590454, 'learning_rate': 3.264179672630377e-06, 'epoch': 1.25}
+{'eval_loss': 1.7672324180603027, 'eval_runtime': 37.8605, 'eval_samples_per_second': 26.413, 'eval_steps_per_second': 1.109, 'epoch': 1.25}
+{'loss': 1.4129, 'grad_norm': 2.541663885116577, 'learning_rate': 3.2622763608679105e-06, 'epoch': 1.25}
+{'loss': 1.3793, 'grad_norm': 2.559877395629883, 'learning_rate': 3.2603730491054434e-06, 'epoch': 1.26}
+{'loss': 1.3895, 'grad_norm': 2.4085795879364014, 'learning_rate': 3.258469737342977e-06, 'epoch': 1.26}
+{'loss': 1.3713, 'grad_norm': 2.2942678928375244, 'learning_rate': 3.25656642558051e-06, 'epoch': 1.26}
+{'loss': 1.3835, 'grad_norm': 2.561086893081665, 'learning_rate': 3.2546631138180435e-06, 'epoch': 1.26}
+{'loss': 1.3793, 'grad_norm': 2.4947667121887207, 'learning_rate': 3.252759802055577e-06, 'epoch': 1.26}
+{'loss': 1.3935, 'grad_norm': 2.6293253898620605, 'learning_rate': 3.25085649029311e-06, 'epoch': 1.26}
+{'loss': 1.4201, 'grad_norm': 2.5461983680725098, 'learning_rate': 3.248953178530644e-06, 'epoch': 1.26}
+{'loss': 1.3932, 'grad_norm': 2.381537675857544, 'learning_rate': 3.247049866768177e-06, 'epoch': 1.26}
+{'loss': 1.3425, 'grad_norm': 2.381558418273926, 'learning_rate': 3.2451465550057103e-06, 'epoch': 1.26}
+{'eval_loss': 1.7713288068771362, 'eval_runtime': 37.9629, 'eval_samples_per_second': 26.342, 'eval_steps_per_second': 1.106, 'epoch': 1.26}
+{'loss': 1.3917, 'grad_norm': 2.5877468585968018, 'learning_rate': 3.2432432432432437e-06, 'epoch': 1.26}
+{'loss': 1.4217, 'grad_norm': 2.6057848930358887, 'learning_rate': 3.241339931480777e-06, 'epoch': 1.27}
+{'loss': 1.427, 'grad_norm': 2.5157413482666016, 'learning_rate': 3.2394366197183104e-06, 'epoch': 1.27}
+{'loss': 1.3822, 'grad_norm': 2.4153692722320557, 'learning_rate': 3.2375333079558434e-06, 'epoch': 1.27}
+{'loss': 1.4152, 'grad_norm': 2.5459582805633545, 'learning_rate': 3.2356299961933767e-06, 'epoch': 1.27}
+{'loss': 1.4278, 'grad_norm': 2.606468915939331, 'learning_rate': 3.23372668443091e-06, 'epoch': 1.27}
+{'loss': 1.4512, 'grad_norm': 2.5061633586883545, 'learning_rate': 3.2318233726684435e-06, 'epoch': 1.27}
+{'loss': 1.3791, 'grad_norm': 2.3693087100982666, 'learning_rate': 3.229920060905977e-06, 'epoch': 1.27}
+{'loss': 1.3814, 'grad_norm': 2.479583978652954, 'learning_rate': 3.2280167491435098e-06, 'epoch': 1.27}
+{'loss': 1.3904, 'grad_norm': 2.3258883953094482, 'learning_rate': 3.226113437381043e-06, 'epoch': 1.27}
+{'eval_loss': 1.7602728605270386, 'eval_runtime': 37.9604, 'eval_samples_per_second': 26.343, 'eval_steps_per_second': 1.106, 'epoch': 1.27}
+{'loss': 1.4045, 'grad_norm': 2.4170308113098145, 'learning_rate': 3.2242101256185765e-06, 'epoch': 1.27}
+{'loss': 1.4556, 'grad_norm': 2.578066825866699, 'learning_rate': 3.22230681385611e-06, 'epoch': 1.28}
+{'loss': 1.4036, 'grad_norm': 2.558187246322632, 'learning_rate': 3.220403502093643e-06, 'epoch': 1.28}
+{'loss': 1.4462, 'grad_norm': 2.598916530609131, 'learning_rate': 3.218500190331176e-06, 'epoch': 1.28}
+{'loss': 1.3855, 'grad_norm': 2.4528257846832275, 'learning_rate': 3.2165968785687095e-06, 'epoch': 1.28}
+{'loss': 1.4191, 'grad_norm': 2.5937459468841553, 'learning_rate': 3.214693566806243e-06, 'epoch': 1.28}
+{'loss': 1.4162, 'grad_norm': 2.5324676036834717, 'learning_rate': 3.2127902550437762e-06, 'epoch': 1.28}
+{'loss': 1.4037, 'grad_norm': 2.4849791526794434, 'learning_rate': 3.21088694328131e-06, 'epoch': 1.28}
+{'loss': 1.3966, 'grad_norm': 2.389582633972168, 'learning_rate': 3.2089836315188434e-06, 'epoch': 1.28}
+{'loss': 1.396, 'grad_norm': 2.387909173965454, 'learning_rate': 3.2070803197563767e-06, 'epoch': 1.28}
+{'eval_loss': 1.7642556428909302, 'eval_runtime': 37.9446, 'eval_samples_per_second': 26.354, 'eval_steps_per_second': 1.107, 'epoch': 1.28}
+{'loss': 1.4128, 'grad_norm': 2.5014612674713135, 'learning_rate': 3.2051770079939097e-06, 'epoch': 1.29}
+{'loss': 1.4412, 'grad_norm': 2.497950553894043, 'learning_rate': 3.203273696231443e-06, 'epoch': 1.29}
+{'loss': 1.3754, 'grad_norm': 2.4371297359466553, 'learning_rate': 3.2013703844689764e-06, 'epoch': 1.29}
+{'loss': 1.4258, 'grad_norm': 2.4336745738983154, 'learning_rate': 3.1994670727065098e-06, 'epoch': 1.29}
+{'loss': 1.4414, 'grad_norm': 2.5165536403656006, 'learning_rate': 3.197563760944043e-06, 'epoch': 1.29}
+{'loss': 1.4336, 'grad_norm': 2.5060458183288574, 'learning_rate': 3.195660449181576e-06, 'epoch': 1.29}
+{'loss': 1.3768, 'grad_norm': 2.584284543991089, 'learning_rate': 3.1937571374191094e-06, 'epoch': 1.29}
+{'loss': 1.401, 'grad_norm': 2.615629196166992, 'learning_rate': 3.191853825656643e-06, 'epoch': 1.29}
+{'loss': 1.3915, 'grad_norm': 2.5989596843719482, 'learning_rate': 3.189950513894176e-06, 'epoch': 1.29}
+{'loss': 1.3979, 'grad_norm': 2.5507843494415283, 'learning_rate': 3.1880472021317095e-06, 'epoch': 1.29}
+{'eval_loss': 1.7715612649917603, 'eval_runtime': 37.9859, 'eval_samples_per_second': 26.326, 'eval_steps_per_second': 1.106, 'epoch': 1.29}
+{'loss': 1.3523, 'grad_norm': 2.512140989303589, 'learning_rate': 3.1861438903692425e-06, 'epoch': 1.3}
+{'loss': 1.3828, 'grad_norm': 2.4311885833740234, 'learning_rate': 3.184240578606776e-06, 'epoch': 1.3}
+{'loss': 1.402, 'grad_norm': 2.439265489578247, 'learning_rate': 3.182337266844309e-06, 'epoch': 1.3}
+{'loss': 1.4362, 'grad_norm': 2.5773651599884033, 'learning_rate': 3.1804339550818426e-06, 'epoch': 1.3}
+{'loss': 1.3918, 'grad_norm': 2.456021547317505, 'learning_rate': 3.178530643319376e-06, 'epoch': 1.3}
+{'loss': 1.3662, 'grad_norm': 2.44404673576355, 'learning_rate': 3.176627331556909e-06, 'epoch': 1.3}
+{'loss': 1.4112, 'grad_norm': 2.778027057647705, 'learning_rate': 3.1747240197944422e-06, 'epoch': 1.3}
+{'loss': 1.3654, 'grad_norm': 2.476496934890747, 'learning_rate': 3.172820708031976e-06, 'epoch': 1.3}
+{'loss': 1.4441, 'grad_norm': 2.6415998935699463, 'learning_rate': 3.1709173962695094e-06, 'epoch': 1.3}
+{'loss': 1.4316, 'grad_norm': 2.5046234130859375, 'learning_rate': 3.1690140845070427e-06, 'epoch': 1.3}
+{'eval_loss': 1.7736135721206665, 'eval_runtime': 37.9392, 'eval_samples_per_second': 26.358, 'eval_steps_per_second': 1.107, 'epoch': 1.3}
+{'loss': 1.4, 'grad_norm': 2.6234474182128906, 'learning_rate': 3.167110772744576e-06, 'epoch': 1.31}
+{'loss': 1.3908, 'grad_norm': 2.488297700881958, 'learning_rate': 3.1652074609821095e-06, 'epoch': 1.31}
+{'loss': 1.3908, 'grad_norm': 2.3759512901306152, 'learning_rate': 3.1633041492196424e-06, 'epoch': 1.31}
+{'loss': 1.4217, 'grad_norm': 2.487281084060669, 'learning_rate': 3.1614008374571758e-06, 'epoch': 1.31}
+{'loss': 1.4229, 'grad_norm': 2.5366780757904053, 'learning_rate': 3.159497525694709e-06, 'epoch': 1.31}
+{'loss': 1.3865, 'grad_norm': 2.416141986846924, 'learning_rate': 3.1575942139322425e-06, 'epoch': 1.31}
+{'loss': 1.4141, 'grad_norm': 2.537964344024658, 'learning_rate': 3.155690902169776e-06, 'epoch': 1.31}
+{'loss': 1.383, 'grad_norm': 2.481692314147949, 'learning_rate': 3.1537875904073088e-06, 'epoch': 1.31}
+{'loss': 1.4078, 'grad_norm': 2.4898593425750732, 'learning_rate': 3.151884278644842e-06, 'epoch': 1.31}
+{'loss': 1.3818, 'grad_norm': 2.4692323207855225, 'learning_rate': 3.1499809668823755e-06, 'epoch': 1.31}
+{'eval_loss': 1.7660051584243774, 'eval_runtime': 37.8922, 'eval_samples_per_second': 26.391, 'eval_steps_per_second': 1.108, 'epoch': 1.31}
+{'loss': 1.4384, 'grad_norm': 2.475862503051758, 'learning_rate': 3.148077655119909e-06, 'epoch': 1.32}
+{'loss': 1.3722, 'grad_norm': 2.2839648723602295, 'learning_rate': 3.1461743433574422e-06, 'epoch': 1.32}
+{'loss': 1.4262, 'grad_norm': 2.3965585231781006, 'learning_rate': 3.144271031594975e-06, 'epoch': 1.32}
+{'loss': 1.4216, 'grad_norm': 2.4107236862182617, 'learning_rate': 3.1423677198325085e-06, 'epoch': 1.32}
+{'loss': 1.383, 'grad_norm': 2.438899040222168, 'learning_rate': 3.140464408070042e-06, 'epoch': 1.32}
+{'loss': 1.3827, 'grad_norm': 2.4146060943603516, 'learning_rate': 3.1385610963075753e-06, 'epoch': 1.32}
+{'loss': 1.3707, 'grad_norm': 2.4193496704101562, 'learning_rate': 3.1366577845451086e-06, 'epoch': 1.32}
+{'loss': 1.3623, 'grad_norm': 2.5284323692321777, 'learning_rate': 3.134754472782642e-06, 'epoch': 1.32}
+{'loss': 1.35, 'grad_norm': 2.421509265899658, 'learning_rate': 3.1328511610201758e-06, 'epoch': 1.32}
+{'loss': 1.3486, 'grad_norm': 2.3964431285858154, 'learning_rate': 3.1309478492577087e-06, 'epoch': 1.33}
+{'eval_loss': 1.7699168920516968, 'eval_runtime': 37.9003, 'eval_samples_per_second': 26.385, 'eval_steps_per_second': 1.108, 'epoch': 1.33}
+{'loss': 1.3958, 'grad_norm': 2.4371817111968994, 'learning_rate': 3.129044537495242e-06, 'epoch': 1.33}
+{'loss': 1.4175, 'grad_norm': 2.45233154296875, 'learning_rate': 3.1271412257327754e-06, 'epoch': 1.33}
+{'loss': 1.3701, 'grad_norm': 2.314384937286377, 'learning_rate': 3.125237913970309e-06, 'epoch': 1.33}
+{'loss': 1.3489, 'grad_norm': 2.5603694915771484, 'learning_rate': 3.123334602207842e-06, 'epoch': 1.33}
+{'loss': 1.4472, 'grad_norm': 2.5919623374938965, 'learning_rate': 3.121431290445375e-06, 'epoch': 1.33}
+{'loss': 1.4917, 'grad_norm': 2.6912758350372314, 'learning_rate': 3.1195279786829085e-06, 'epoch': 1.33}
+{'loss': 1.3776, 'grad_norm': 2.439089298248291, 'learning_rate': 3.117624666920442e-06, 'epoch': 1.33}
+{'loss': 1.3784, 'grad_norm': 2.5207953453063965, 'learning_rate': 3.115721355157975e-06, 'epoch': 1.33}
+{'loss': 1.3346, 'grad_norm': 2.507791519165039, 'learning_rate': 3.1138180433955085e-06, 'epoch': 1.33}
+{'loss': 1.4151, 'grad_norm': 2.450531482696533, 'learning_rate': 3.1119147316330415e-06, 'epoch': 1.34}
+{'eval_loss': 1.7761608362197876, 'eval_runtime': 37.9041, 'eval_samples_per_second': 26.382, 'eval_steps_per_second': 1.108, 'epoch': 1.34}
+{'loss': 1.4475, 'grad_norm': 2.488255262374878, 'learning_rate': 3.110011419870575e-06, 'epoch': 1.34}
+{'loss': 1.3812, 'grad_norm': 2.5059807300567627, 'learning_rate': 3.1081081081081082e-06, 'epoch': 1.34}
+{'loss': 1.4134, 'grad_norm': 2.5579488277435303, 'learning_rate': 3.1062047963456416e-06, 'epoch': 1.34}
+{'loss': 1.459, 'grad_norm': 2.6170148849487305, 'learning_rate': 3.104301484583175e-06, 'epoch': 1.34}
+{'loss': 1.4354, 'grad_norm': 2.5572125911712646, 'learning_rate': 3.1023981728207083e-06, 'epoch': 1.34}
+{'loss': 1.4016, 'grad_norm': 2.396883487701416, 'learning_rate': 3.1004948610582412e-06, 'epoch': 1.34}
+{'loss': 1.3945, 'grad_norm': 2.5869390964508057, 'learning_rate': 3.0985915492957746e-06, 'epoch': 1.34}
+{'loss': 1.3506, 'grad_norm': 2.4271085262298584, 'learning_rate': 3.096688237533308e-06, 'epoch': 1.34}
+{'loss': 1.4475, 'grad_norm': 2.398407220840454, 'learning_rate': 3.0947849257708418e-06, 'epoch': 1.34}
+{'loss': 1.3972, 'grad_norm': 2.441934823989868, 'learning_rate': 3.092881614008375e-06, 'epoch': 1.35}
+{'eval_loss': 1.774910569190979, 'eval_runtime': 37.6105, 'eval_samples_per_second': 26.588, 'eval_steps_per_second': 1.117, 'epoch': 1.35}
+{'loss': 1.4418, 'grad_norm': 2.5015370845794678, 'learning_rate': 3.0909783022459085e-06, 'epoch': 1.35}
+{'loss': 1.3833, 'grad_norm': 2.4616997241973877, 'learning_rate': 3.0890749904834414e-06, 'epoch': 1.35}
+{'loss': 1.4385, 'grad_norm': 2.5993902683258057, 'learning_rate': 3.0871716787209748e-06, 'epoch': 1.35}
+{'loss': 1.4127, 'grad_norm': 2.518195867538452, 'learning_rate': 3.085268366958508e-06, 'epoch': 1.35}
+{'loss': 1.42, 'grad_norm': 2.545189380645752, 'learning_rate': 3.0833650551960415e-06, 'epoch': 1.35}
+{'loss': 1.3796, 'grad_norm': 2.461818218231201, 'learning_rate': 3.081461743433575e-06, 'epoch': 1.35}
+{'loss': 1.3939, 'grad_norm': 2.4081408977508545, 'learning_rate': 3.079558431671108e-06, 'epoch': 1.35}
+{'loss': 1.3645, 'grad_norm': 2.2885539531707764, 'learning_rate': 3.077655119908641e-06, 'epoch': 1.35}
+{'loss': 1.3906, 'grad_norm': 2.453791618347168, 'learning_rate': 3.0757518081461745e-06, 'epoch': 1.35}
+{'loss': 1.4127, 'grad_norm': 2.4538352489471436, 'learning_rate': 3.073848496383708e-06, 'epoch': 1.36}
+{'eval_loss': 1.7821755409240723, 'eval_runtime': 37.7585, 'eval_samples_per_second': 26.484, 'eval_steps_per_second': 1.112, 'epoch': 1.36}
+{'loss': 1.3763, 'grad_norm': 2.438425064086914, 'learning_rate': 3.0719451846212413e-06, 'epoch': 1.36}
+{'loss': 1.3963, 'grad_norm': 2.4398279190063477, 'learning_rate': 3.0700418728587746e-06, 'epoch': 1.36}
+{'loss': 1.3837, 'grad_norm': 2.6763861179351807, 'learning_rate': 3.0681385610963076e-06, 'epoch': 1.36}
+{'loss': 1.4158, 'grad_norm': 2.685056209564209, 'learning_rate': 3.066235249333841e-06, 'epoch': 1.36}
+{'loss': 1.4533, 'grad_norm': 2.6663355827331543, 'learning_rate': 3.0643319375713743e-06, 'epoch': 1.36}
+{'loss': 1.3927, 'grad_norm': 2.4613428115844727, 'learning_rate': 3.0624286258089076e-06, 'epoch': 1.36}
+{'loss': 1.3782, 'grad_norm': 2.348334789276123, 'learning_rate': 3.060525314046441e-06, 'epoch': 1.36}
+{'loss': 1.4175, 'grad_norm': 2.5011332035064697, 'learning_rate': 3.058622002283974e-06, 'epoch': 1.36}
+{'loss': 1.4319, 'grad_norm': 2.4692256450653076, 'learning_rate': 3.0567186905215077e-06, 'epoch': 1.37}
+{'loss': 1.4264, 'grad_norm': 2.616990089416504, 'learning_rate': 3.054815378759041e-06, 'epoch': 1.37}
+{'eval_loss': 1.781583309173584, 'eval_runtime': 37.9291, 'eval_samples_per_second': 26.365, 'eval_steps_per_second': 1.107, 'epoch': 1.37}
+{'loss': 1.4249, 'grad_norm': 2.5416364669799805, 'learning_rate': 3.0529120669965745e-06, 'epoch': 1.37}
+{'loss': 1.3647, 'grad_norm': 2.5346689224243164, 'learning_rate': 3.051008755234108e-06, 'epoch': 1.37}
+{'loss': 1.3714, 'grad_norm': 2.585714340209961, 'learning_rate': 3.049105443471641e-06, 'epoch': 1.37}
+{'loss': 1.5041, 'grad_norm': 2.5958940982818604, 'learning_rate': 3.0472021317091745e-06, 'epoch': 1.37}
+{'loss': 1.4317, 'grad_norm': 2.4795925617218018, 'learning_rate': 3.0452988199467075e-06, 'epoch': 1.37}
+{'loss': 1.4259, 'grad_norm': 2.4608285427093506, 'learning_rate': 3.043395508184241e-06, 'epoch': 1.37}
+{'loss': 1.3859, 'grad_norm': 2.5970380306243896, 'learning_rate': 3.041492196421774e-06, 'epoch': 1.37}
+{'loss': 1.4086, 'grad_norm': 2.517047166824341, 'learning_rate': 3.0395888846593076e-06, 'epoch': 1.37}
+{'loss': 1.3959, 'grad_norm': 2.4541358947753906, 'learning_rate': 3.037685572896841e-06, 'epoch': 1.38}
+{'loss': 1.4088, 'grad_norm': 2.6143250465393066, 'learning_rate': 3.035782261134374e-06, 'epoch': 1.38}
+{'eval_loss': 1.7629026174545288, 'eval_runtime': 38.0156, 'eval_samples_per_second': 26.305, 'eval_steps_per_second': 1.105, 'epoch': 1.38}
+{'loss': 1.4104, 'grad_norm': 2.763033151626587, 'learning_rate': 3.0338789493719072e-06, 'epoch': 1.38}
+{'loss': 1.4073, 'grad_norm': 2.523888349533081, 'learning_rate': 3.0319756376094406e-06, 'epoch': 1.38}
+{'loss': 1.4145, 'grad_norm': 2.5393309593200684, 'learning_rate': 3.030072325846974e-06, 'epoch': 1.38}
+{'loss': 1.3782, 'grad_norm': 2.455733060836792, 'learning_rate': 3.0281690140845073e-06, 'epoch': 1.38}
+{'loss': 1.4158, 'grad_norm': 2.600311517715454, 'learning_rate': 3.0262657023220403e-06, 'epoch': 1.38}
+{'loss': 1.414, 'grad_norm': 2.453249931335449, 'learning_rate': 3.0243623905595736e-06, 'epoch': 1.38}
+{'loss': 1.4102, 'grad_norm': 2.603515625, 'learning_rate': 3.022459078797107e-06, 'epoch': 1.38}
+{'loss': 1.4063, 'grad_norm': 2.6515872478485107, 'learning_rate': 3.0205557670346404e-06, 'epoch': 1.38}
+{'loss': 1.3739, 'grad_norm': 2.412846565246582, 'learning_rate': 3.018652455272174e-06, 'epoch': 1.39}
+{'loss': 1.4909, 'grad_norm': 2.748563051223755, 'learning_rate': 3.0167491435097075e-06, 'epoch': 1.39}
+{'eval_loss': 1.7653924226760864, 'eval_runtime': 37.9855, 'eval_samples_per_second': 26.326, 'eval_steps_per_second': 1.106, 'epoch': 1.39}
+{'loss': 1.4028, 'grad_norm': 2.7861363887786865, 'learning_rate': 3.014845831747241e-06, 'epoch': 1.39}
+{'loss': 1.3793, 'grad_norm': 2.5898189544677734, 'learning_rate': 3.012942519984774e-06, 'epoch': 1.39}
+{'loss': 1.3889, 'grad_norm': 2.4240355491638184, 'learning_rate': 3.011039208222307e-06, 'epoch': 1.39}
+{'loss': 1.3464, 'grad_norm': 2.4492504596710205, 'learning_rate': 3.0091358964598405e-06, 'epoch': 1.39}
+{'loss': 1.4073, 'grad_norm': 2.4425718784332275, 'learning_rate': 3.007232584697374e-06, 'epoch': 1.39}
+{'loss': 1.4053, 'grad_norm': 2.5057594776153564, 'learning_rate': 3.0053292729349073e-06, 'epoch': 1.39}
+{'loss': 1.3991, 'grad_norm': 2.5386273860931396, 'learning_rate': 3.00342596117244e-06, 'epoch': 1.39}
+{'loss': 1.3971, 'grad_norm': 2.6289730072021484, 'learning_rate': 3.0015226494099736e-06, 'epoch': 1.39}
+{'loss': 1.3815, 'grad_norm': 2.5091774463653564, 'learning_rate': 2.999619337647507e-06, 'epoch': 1.4}
+{'loss': 1.3786, 'grad_norm': 2.567659616470337, 'learning_rate': 2.9977160258850403e-06, 'epoch': 1.4}
+{'eval_loss': 1.7706127166748047, 'eval_runtime': 37.9897, 'eval_samples_per_second': 26.323, 'eval_steps_per_second': 1.106, 'epoch': 1.4}
+{'loss': 1.3629, 'grad_norm': 2.5508553981781006, 'learning_rate': 2.9958127141225736e-06, 'epoch': 1.4}
+{'loss': 1.4355, 'grad_norm': 2.624800205230713, 'learning_rate': 2.9939094023601066e-06, 'epoch': 1.4}
+{'loss': 1.3995, 'grad_norm': 2.432114839553833, 'learning_rate': 2.99200609059764e-06, 'epoch': 1.4}
+{'loss': 1.3499, 'grad_norm': 2.4633607864379883, 'learning_rate': 2.9901027788351733e-06, 'epoch': 1.4}
+{'loss': 1.3614, 'grad_norm': 2.557415246963501, 'learning_rate': 2.9881994670727067e-06, 'epoch': 1.4}
+{'loss': 1.3857, 'grad_norm': 2.411295175552368, 'learning_rate': 2.98629615531024e-06, 'epoch': 1.4}
+{'loss': 1.3701, 'grad_norm': 2.429797410964966, 'learning_rate': 2.984392843547773e-06, 'epoch': 1.4}
+{'loss': 1.3996, 'grad_norm': 2.6080522537231445, 'learning_rate': 2.9824895317853063e-06, 'epoch': 1.41}
+{'loss': 1.3973, 'grad_norm': 2.5128798484802246, 'learning_rate': 2.98058622002284e-06, 'epoch': 1.41}
+{'loss': 1.4412, 'grad_norm': 2.5906126499176025, 'learning_rate': 2.9786829082603735e-06, 'epoch': 1.41}
+{'eval_loss': 1.7700779438018799, 'eval_runtime': 38.017, 'eval_samples_per_second': 26.304, 'eval_steps_per_second': 1.105, 'epoch': 1.41}
+{'loss': 1.4251, 'grad_norm': 2.4890248775482178, 'learning_rate': 2.976779596497907e-06, 'epoch': 1.41}
+{'loss': 1.4363, 'grad_norm': 2.3803439140319824, 'learning_rate': 2.97487628473544e-06, 'epoch': 1.41}
+{'loss': 1.3948, 'grad_norm': 2.461958646774292, 'learning_rate': 2.9729729729729736e-06, 'epoch': 1.41}
+{'loss': 1.4367, 'grad_norm': 2.419793128967285, 'learning_rate': 2.9710696612105065e-06, 'epoch': 1.41}
+{'loss': 1.3873, 'grad_norm': 2.5748846530914307, 'learning_rate': 2.96916634944804e-06, 'epoch': 1.41}
+{'loss': 1.4395, 'grad_norm': 2.564558506011963, 'learning_rate': 2.9672630376855732e-06, 'epoch': 1.41}
+{'loss': 1.4091, 'grad_norm': 2.596085548400879, 'learning_rate': 2.9653597259231066e-06, 'epoch': 1.41}
+{'loss': 1.3639, 'grad_norm': 2.49029278755188, 'learning_rate': 2.96345641416064e-06, 'epoch': 1.42}
+{'loss': 1.3065, 'grad_norm': 2.506887912750244, 'learning_rate': 2.961553102398173e-06, 'epoch': 1.42}
+{'loss': 1.4365, 'grad_norm': 2.517609119415283, 'learning_rate': 2.9596497906357063e-06, 'epoch': 1.42}
+{'eval_loss': 1.7673696279525757, 'eval_runtime': 37.9941, 'eval_samples_per_second': 26.32, 'eval_steps_per_second': 1.105, 'epoch': 1.42}
+{'loss': 1.4386, 'grad_norm': 2.6870028972625732, 'learning_rate': 2.9577464788732396e-06, 'epoch': 1.42}
+{'loss': 1.3771, 'grad_norm': 2.3195550441741943, 'learning_rate': 2.955843167110773e-06, 'epoch': 1.42}
+{'loss': 1.3963, 'grad_norm': 2.4306302070617676, 'learning_rate': 2.9539398553483064e-06, 'epoch': 1.42}
+{'loss': 1.394, 'grad_norm': 2.4227781295776367, 'learning_rate': 2.9520365435858393e-06, 'epoch': 1.42}
+{'loss': 1.4664, 'grad_norm': 2.521425485610962, 'learning_rate': 2.9501332318233727e-06, 'epoch': 1.42}
+{'loss': 1.4072, 'grad_norm': 2.533363103866577, 'learning_rate': 2.948229920060906e-06, 'epoch': 1.42}
+{'loss': 1.38, 'grad_norm': 2.378007173538208, 'learning_rate': 2.9463266082984394e-06, 'epoch': 1.42}
+{'loss': 1.3864, 'grad_norm': 2.476451873779297, 'learning_rate': 2.9444232965359727e-06, 'epoch': 1.43}
+{'loss': 1.4081, 'grad_norm': 2.428365707397461, 'learning_rate': 2.9425199847735057e-06, 'epoch': 1.43}
+{'loss': 1.3806, 'grad_norm': 2.4382991790771484, 'learning_rate': 2.94061667301104e-06, 'epoch': 1.43}
+{'eval_loss': 1.7905043363571167, 'eval_runtime': 38.0264, 'eval_samples_per_second': 26.298, 'eval_steps_per_second': 1.104, 'epoch': 1.43}
+{'loss': 1.3113, 'grad_norm': 2.414433240890503, 'learning_rate': 2.938713361248573e-06, 'epoch': 1.43}
+{'loss': 1.4023, 'grad_norm': 2.450570821762085, 'learning_rate': 2.936810049486106e-06, 'epoch': 1.43}
+{'loss': 1.4057, 'grad_norm': 2.4372148513793945, 'learning_rate': 2.9349067377236396e-06, 'epoch': 1.43}
+{'loss': 1.3574, 'grad_norm': 2.4278311729431152, 'learning_rate': 2.933003425961173e-06, 'epoch': 1.43}
+{'loss': 1.3722, 'grad_norm': 2.448517322540283, 'learning_rate': 2.9311001141987063e-06, 'epoch': 1.43}
+{'loss': 1.3682, 'grad_norm': 2.354310989379883, 'learning_rate': 2.9291968024362392e-06, 'epoch': 1.43}
+{'loss': 1.3604, 'grad_norm': 2.3318262100219727, 'learning_rate': 2.9272934906737726e-06, 'epoch': 1.44}
+{'loss': 1.372, 'grad_norm': 2.377561092376709, 'learning_rate': 2.925390178911306e-06, 'epoch': 1.44}
+{'loss': 1.3846, 'grad_norm': 2.5543324947357178, 'learning_rate': 2.9234868671488393e-06, 'epoch': 1.44}
+{'loss': 1.3989, 'grad_norm': 2.6063973903656006, 'learning_rate': 2.9215835553863727e-06, 'epoch': 1.44}
+{'eval_loss': 1.7730437517166138, 'eval_runtime': 38.0407, 'eval_samples_per_second': 26.288, 'eval_steps_per_second': 1.104, 'epoch': 1.44}
+{'loss': 1.3945, 'grad_norm': 2.4241244792938232, 'learning_rate': 2.9196802436239056e-06, 'epoch': 1.44}
+{'loss': 1.3686, 'grad_norm': 2.306528329849243, 'learning_rate': 2.917776931861439e-06, 'epoch': 1.44}
+{'loss': 1.3714, 'grad_norm': 2.4980850219726562, 'learning_rate': 2.9158736200989723e-06, 'epoch': 1.44}
+{'loss': 1.3706, 'grad_norm': 2.385195732116699, 'learning_rate': 2.9139703083365057e-06, 'epoch': 1.44}
+{'loss': 1.3967, 'grad_norm': 2.4087095260620117, 'learning_rate': 2.912066996574039e-06, 'epoch': 1.44}
+{'loss': 1.3351, 'grad_norm': 2.470900535583496, 'learning_rate': 2.910163684811572e-06, 'epoch': 1.44}
+{'loss': 1.4413, 'grad_norm': 2.8330743312835693, 'learning_rate': 2.9082603730491054e-06, 'epoch': 1.45}
+{'loss': 1.4207, 'grad_norm': 2.5553359985351562, 'learning_rate': 2.9063570612866387e-06, 'epoch': 1.45}
+{'loss': 1.3387, 'grad_norm': 2.509373903274536, 'learning_rate': 2.904453749524172e-06, 'epoch': 1.45}
+{'loss': 1.3765, 'grad_norm': 2.5485401153564453, 'learning_rate': 2.902550437761706e-06, 'epoch': 1.45}
+{'eval_loss': 1.7703789472579956, 'eval_runtime': 37.7078, 'eval_samples_per_second': 26.52, 'eval_steps_per_second': 1.114, 'epoch': 1.45}
+{'loss': 1.3842, 'grad_norm': 2.502002716064453, 'learning_rate': 2.9006471259992392e-06, 'epoch': 1.45}
+{'loss': 1.3809, 'grad_norm': 2.4621520042419434, 'learning_rate': 2.8987438142367726e-06, 'epoch': 1.45}
+{'loss': 1.4411, 'grad_norm': 2.4255263805389404, 'learning_rate': 2.8968405024743055e-06, 'epoch': 1.45}
+{'loss': 1.3389, 'grad_norm': 2.2450802326202393, 'learning_rate': 2.894937190711839e-06, 'epoch': 1.45}
+{'loss': 1.4066, 'grad_norm': 2.502903938293457, 'learning_rate': 2.8930338789493723e-06, 'epoch': 1.45}
+{'loss': 1.3995, 'grad_norm': 2.3685200214385986, 'learning_rate': 2.8911305671869056e-06, 'epoch': 1.45}
+{'loss': 1.3352, 'grad_norm': 2.355095624923706, 'learning_rate': 2.889227255424439e-06, 'epoch': 1.46}
+{'loss': 1.3792, 'grad_norm': 2.363035202026367, 'learning_rate': 2.887323943661972e-06, 'epoch': 1.46}
+{'loss': 1.358, 'grad_norm': 2.451078176498413, 'learning_rate': 2.8854206318995053e-06, 'epoch': 1.46}
+{'loss': 1.3811, 'grad_norm': 2.554501533508301, 'learning_rate': 2.8835173201370386e-06, 'epoch': 1.46}
+{'eval_loss': 1.773111343383789, 'eval_runtime': 37.7693, 'eval_samples_per_second': 26.477, 'eval_steps_per_second': 1.112, 'epoch': 1.46}
+{'loss': 1.4397, 'grad_norm': 2.556537389755249, 'learning_rate': 2.881614008374572e-06, 'epoch': 1.46}
+{'loss': 1.3976, 'grad_norm': 2.5945091247558594, 'learning_rate': 2.8797106966121054e-06, 'epoch': 1.46}
+{'loss': 1.381, 'grad_norm': 2.5158495903015137, 'learning_rate': 2.8778073848496383e-06, 'epoch': 1.46}
+{'loss': 1.4156, 'grad_norm': 2.359591007232666, 'learning_rate': 2.8759040730871717e-06, 'epoch': 1.46}
+{'loss': 1.3808, 'grad_norm': 2.3388748168945312, 'learning_rate': 2.874000761324705e-06, 'epoch': 1.46}
+{'loss': 1.4158, 'grad_norm': 2.438465118408203, 'learning_rate': 2.8720974495622384e-06, 'epoch': 1.46}
+{'loss': 1.3917, 'grad_norm': 2.5624589920043945, 'learning_rate': 2.8701941377997718e-06, 'epoch': 1.47}
+{'loss': 1.4316, 'grad_norm': 2.467921495437622, 'learning_rate': 2.8682908260373047e-06, 'epoch': 1.47}
+{'loss': 1.4058, 'grad_norm': 2.6034083366394043, 'learning_rate': 2.866387514274838e-06, 'epoch': 1.47}
+{'loss': 1.4114, 'grad_norm': 2.560844898223877, 'learning_rate': 2.864484202512372e-06, 'epoch': 1.47}
+{'eval_loss': 1.7799324989318848, 'eval_runtime': 37.8814, 'eval_samples_per_second': 26.398, 'eval_steps_per_second': 1.109, 'epoch': 1.47}
+{'loss': 1.3767, 'grad_norm': 2.469799280166626, 'learning_rate': 2.8625808907499052e-06, 'epoch': 1.47}
+{'loss': 1.4064, 'grad_norm': 2.408665895462036, 'learning_rate': 2.8606775789874386e-06, 'epoch': 1.47}
+{'loss': 1.3747, 'grad_norm': 2.497950553894043, 'learning_rate': 2.858774267224972e-06, 'epoch': 1.47}
+{'loss': 1.3994, 'grad_norm': 2.6274573802948, 'learning_rate': 2.8568709554625053e-06, 'epoch': 1.47}
+{'loss': 1.4354, 'grad_norm': 2.545614719390869, 'learning_rate': 2.8549676437000382e-06, 'epoch': 1.47}
+{'loss': 1.4081, 'grad_norm': 2.796013355255127, 'learning_rate': 2.8530643319375716e-06, 'epoch': 1.48}
+{'loss': 1.3833, 'grad_norm': 2.68571400642395, 'learning_rate': 2.851161020175105e-06, 'epoch': 1.48}
+{'loss': 1.3587, 'grad_norm': 2.455244541168213, 'learning_rate': 2.8492577084126383e-06, 'epoch': 1.48}
+{'loss': 1.4004, 'grad_norm': 2.552747964859009, 'learning_rate': 2.8473543966501717e-06, 'epoch': 1.48}
+{'loss': 1.437, 'grad_norm': 2.9428722858428955, 'learning_rate': 2.8454510848877046e-06, 'epoch': 1.48}
+{'eval_loss': 1.7853318452835083, 'eval_runtime': 37.8848, 'eval_samples_per_second': 26.396, 'eval_steps_per_second': 1.109, 'epoch': 1.48}
+{'loss': 1.3901, 'grad_norm': 2.686199188232422, 'learning_rate': 2.843547773125238e-06, 'epoch': 1.48}
+{'loss': 1.3887, 'grad_norm': 2.47476863861084, 'learning_rate': 2.8416444613627714e-06, 'epoch': 1.48}
+{'loss': 1.3502, 'grad_norm': 2.425445795059204, 'learning_rate': 2.8397411496003047e-06, 'epoch': 1.48}
+{'loss': 1.3973, 'grad_norm': 2.529341459274292, 'learning_rate': 2.837837837837838e-06, 'epoch': 1.48}
+{'loss': 1.4072, 'grad_norm': 2.3861210346221924, 'learning_rate': 2.835934526075371e-06, 'epoch': 1.48}
+{'loss': 1.3553, 'grad_norm': 2.359403371810913, 'learning_rate': 2.8340312143129044e-06, 'epoch': 1.49}
+{'loss': 1.3539, 'grad_norm': 2.417792558670044, 'learning_rate': 2.8321279025504377e-06, 'epoch': 1.49}
+{'loss': 1.4575, 'grad_norm': 2.7177648544311523, 'learning_rate': 2.830224590787971e-06, 'epoch': 1.49}
+{'loss': 1.388, 'grad_norm': 2.514181613922119, 'learning_rate': 2.8283212790255045e-06, 'epoch': 1.49}
+{'loss': 1.4143, 'grad_norm': 2.4293761253356934, 'learning_rate': 2.8264179672630383e-06, 'epoch': 1.49}
+{'eval_loss': 1.781496286392212, 'eval_runtime': 37.8942, 'eval_samples_per_second': 26.389, 'eval_steps_per_second': 1.108, 'epoch': 1.49}
+{'loss': 1.3809, 'grad_norm': 2.495591878890991, 'learning_rate': 2.8245146555005716e-06, 'epoch': 1.49}
+{'loss': 1.3297, 'grad_norm': 2.520158290863037, 'learning_rate': 2.8226113437381046e-06, 'epoch': 1.49}
+{'loss': 1.3985, 'grad_norm': 2.403061866760254, 'learning_rate': 2.820708031975638e-06, 'epoch': 1.49}
+{'loss': 1.4179, 'grad_norm': 2.606884479522705, 'learning_rate': 2.8188047202131713e-06, 'epoch': 1.49}
+{'loss': 1.4325, 'grad_norm': 2.4543404579162598, 'learning_rate': 2.8169014084507046e-06, 'epoch': 1.49}
+{'loss': 1.3876, 'grad_norm': 2.3947877883911133, 'learning_rate': 2.814998096688238e-06, 'epoch': 1.5}
+{'loss': 1.3392, 'grad_norm': 2.4632408618927, 'learning_rate': 2.813094784925771e-06, 'epoch': 1.5}
+{'loss': 1.4351, 'grad_norm': 2.507312059402466, 'learning_rate': 2.8111914731633043e-06, 'epoch': 1.5}
+{'loss': 1.389, 'grad_norm': 2.6338255405426025, 'learning_rate': 2.8092881614008377e-06, 'epoch': 1.5}
+{'loss': 1.3655, 'grad_norm': 2.3906662464141846, 'learning_rate': 2.807384849638371e-06, 'epoch': 1.5}
+{'eval_loss': 1.7716007232666016, 'eval_runtime': 37.8931, 'eval_samples_per_second': 26.39, 'eval_steps_per_second': 1.108, 'epoch': 1.5}
+{'loss': 1.4046, 'grad_norm': 2.4841926097869873, 'learning_rate': 2.8054815378759044e-06, 'epoch': 1.5}
+{'loss': 1.3781, 'grad_norm': 2.4934608936309814, 'learning_rate': 2.8035782261134378e-06, 'epoch': 1.5}
+{'loss': 1.383, 'grad_norm': 2.538504123687744, 'learning_rate': 2.8016749143509707e-06, 'epoch': 1.5}
+{'loss': 1.3892, 'grad_norm': 2.461595058441162, 'learning_rate': 2.799771602588504e-06, 'epoch': 1.5}
+{'loss': 1.4037, 'grad_norm': 2.3686397075653076, 'learning_rate': 2.7978682908260374e-06, 'epoch': 1.5}
+{'loss': 1.4173, 'grad_norm': 2.47755765914917, 'learning_rate': 2.795964979063571e-06, 'epoch': 1.51}
+{'loss': 1.3955, 'grad_norm': 2.504168748855591, 'learning_rate': 2.794061667301104e-06, 'epoch': 1.51}
+{'loss': 1.4079, 'grad_norm': 2.4311411380767822, 'learning_rate': 2.792158355538637e-06, 'epoch': 1.51}
+{'loss': 1.4019, 'grad_norm': 2.523200273513794, 'learning_rate': 2.7902550437761705e-06, 'epoch': 1.51}
+{'loss': 1.3677, 'grad_norm': 2.3743972778320312, 'learning_rate': 2.7883517320137042e-06, 'epoch': 1.51}
+{'eval_loss': 1.7622252702713013, 'eval_runtime': 37.8933, 'eval_samples_per_second': 26.39, 'eval_steps_per_second': 1.108, 'epoch': 1.51}
+{'loss': 1.3623, 'grad_norm': 2.4073667526245117, 'learning_rate': 2.7864484202512376e-06, 'epoch': 1.51}
+{'loss': 1.382, 'grad_norm': 2.5012941360473633, 'learning_rate': 2.784545108488771e-06, 'epoch': 1.51}
+{'loss': 1.3896, 'grad_norm': 2.425480365753174, 'learning_rate': 2.7826417967263043e-06, 'epoch': 1.51}
+{'loss': 1.4364, 'grad_norm': 2.4600207805633545, 'learning_rate': 2.7807384849638373e-06, 'epoch': 1.51}
+{'loss': 1.3832, 'grad_norm': 2.5489892959594727, 'learning_rate': 2.7788351732013706e-06, 'epoch': 1.52}
+{'loss': 1.3755, 'grad_norm': 2.4228315353393555, 'learning_rate': 2.776931861438904e-06, 'epoch': 1.52}
+{'loss': 1.3915, 'grad_norm': 2.519340991973877, 'learning_rate': 2.7750285496764374e-06, 'epoch': 1.52}
+{'loss': 1.394, 'grad_norm': 2.3544020652770996, 'learning_rate': 2.7731252379139707e-06, 'epoch': 1.52}
+{'loss': 1.3396, 'grad_norm': 2.4037892818450928, 'learning_rate': 2.771221926151504e-06, 'epoch': 1.52}
+{'loss': 1.4052, 'grad_norm': 2.409222364425659, 'learning_rate': 2.769318614389037e-06, 'epoch': 1.52}
+{'eval_loss': 1.7622238397598267, 'eval_runtime': 37.9064, 'eval_samples_per_second': 26.381, 'eval_steps_per_second': 1.108, 'epoch': 1.52}
+{'loss': 1.401, 'grad_norm': 2.3649749755859375, 'learning_rate': 2.7674153026265704e-06, 'epoch': 1.52}
+{'loss': 1.4026, 'grad_norm': 2.4484262466430664, 'learning_rate': 2.7655119908641037e-06, 'epoch': 1.52}
+{'loss': 1.3985, 'grad_norm': 2.492107629776001, 'learning_rate': 2.763608679101637e-06, 'epoch': 1.52}
+{'loss': 1.4282, 'grad_norm': 2.5192503929138184, 'learning_rate': 2.7617053673391705e-06, 'epoch': 1.52}
+{'loss': 1.4217, 'grad_norm': 2.471250534057617, 'learning_rate': 2.7598020555767034e-06, 'epoch': 1.53}
+{'loss': 1.3599, 'grad_norm': 2.2985496520996094, 'learning_rate': 2.7578987438142368e-06, 'epoch': 1.53}
+{'loss': 1.4036, 'grad_norm': 2.492047071456909, 'learning_rate': 2.75599543205177e-06, 'epoch': 1.53}
+{'loss': 1.4206, 'grad_norm': 2.5131945610046387, 'learning_rate': 2.7540921202893035e-06, 'epoch': 1.53}
+{'loss': 1.4055, 'grad_norm': 2.619874954223633, 'learning_rate': 2.752188808526837e-06, 'epoch': 1.53}
+{'loss': 1.3955, 'grad_norm': 2.4526877403259277, 'learning_rate': 2.75028549676437e-06, 'epoch': 1.53}
+{'eval_loss': 1.758982539176941, 'eval_runtime': 37.8756, 'eval_samples_per_second': 26.402, 'eval_steps_per_second': 1.109, 'epoch': 1.53}
+{'loss': 1.3899, 'grad_norm': 2.4925529956817627, 'learning_rate': 2.7483821850019036e-06, 'epoch': 1.53}
+{'loss': 1.377, 'grad_norm': 2.3789961338043213, 'learning_rate': 2.746478873239437e-06, 'epoch': 1.53}
+{'loss': 1.384, 'grad_norm': 2.4063172340393066, 'learning_rate': 2.7445755614769703e-06, 'epoch': 1.53}
+{'loss': 1.3635, 'grad_norm': 2.3189985752105713, 'learning_rate': 2.7426722497145037e-06, 'epoch': 1.53}
+{'loss': 1.3676, 'grad_norm': 2.4792535305023193, 'learning_rate': 2.740768937952037e-06, 'epoch': 1.54}
+{'loss': 1.3812, 'grad_norm': 2.342355489730835, 'learning_rate': 2.7388656261895704e-06, 'epoch': 1.54}
+{'loss': 1.4529, 'grad_norm': 2.556312084197998, 'learning_rate': 2.7369623144271033e-06, 'epoch': 1.54}
+{'loss': 1.3819, 'grad_norm': 2.555600643157959, 'learning_rate': 2.7350590026646367e-06, 'epoch': 1.54}
+{'loss': 1.3383, 'grad_norm': 2.4179797172546387, 'learning_rate': 2.73315569090217e-06, 'epoch': 1.54}
+{'loss': 1.4217, 'grad_norm': 2.5075631141662598, 'learning_rate': 2.7312523791397034e-06, 'epoch': 1.54}
+{'eval_loss': 1.769559621810913, 'eval_runtime': 37.8701, 'eval_samples_per_second': 26.406, 'eval_steps_per_second': 1.109, 'epoch': 1.54}
+{'loss': 1.4437, 'grad_norm': 2.5675160884857178, 'learning_rate': 2.7293490673772368e-06, 'epoch': 1.54}
+{'loss': 1.4022, 'grad_norm': 2.4768013954162598, 'learning_rate': 2.7274457556147697e-06, 'epoch': 1.54}
+{'loss': 1.385, 'grad_norm': 2.4523043632507324, 'learning_rate': 2.725542443852303e-06, 'epoch': 1.54}
+{'loss': 1.398, 'grad_norm': 2.504263401031494, 'learning_rate': 2.7236391320898365e-06, 'epoch': 1.54}
+{'loss': 1.3651, 'grad_norm': 2.6203269958496094, 'learning_rate': 2.72173582032737e-06, 'epoch': 1.55}
+{'loss': 1.3861, 'grad_norm': 2.3805699348449707, 'learning_rate': 2.719832508564903e-06, 'epoch': 1.55}
+{'loss': 1.3931, 'grad_norm': 2.5000486373901367, 'learning_rate': 2.717929196802436e-06, 'epoch': 1.55}
+{'loss': 1.3608, 'grad_norm': 2.5567827224731445, 'learning_rate': 2.7160258850399695e-06, 'epoch': 1.55}
+{'loss': 1.3863, 'grad_norm': 2.531614303588867, 'learning_rate': 2.714122573277503e-06, 'epoch': 1.55}
+{'loss': 1.3963, 'grad_norm': 2.419722318649292, 'learning_rate': 2.712219261515036e-06, 'epoch': 1.55}
+{'eval_loss': 1.7669111490249634, 'eval_runtime': 37.6622, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 1.55}
+{'loss': 1.4044, 'grad_norm': 2.4597935676574707, 'learning_rate': 2.71031594975257e-06, 'epoch': 1.55}
+{'loss': 1.4092, 'grad_norm': 2.386899471282959, 'learning_rate': 2.7084126379901034e-06, 'epoch': 1.55}
+{'loss': 1.4185, 'grad_norm': 2.4398958683013916, 'learning_rate': 2.7065093262276367e-06, 'epoch': 1.55}
+{'loss': 1.4316, 'grad_norm': 2.319274663925171, 'learning_rate': 2.7046060144651697e-06, 'epoch': 1.56}
+{'loss': 1.4387, 'grad_norm': 2.4519565105438232, 'learning_rate': 2.702702702702703e-06, 'epoch': 1.56}
+{'loss': 1.3167, 'grad_norm': 2.2890849113464355, 'learning_rate': 2.7007993909402364e-06, 'epoch': 1.56}
+{'loss': 1.4332, 'grad_norm': 2.6062512397766113, 'learning_rate': 2.6988960791777697e-06, 'epoch': 1.56}
+{'loss': 1.3995, 'grad_norm': 2.508957862854004, 'learning_rate': 2.696992767415303e-06, 'epoch': 1.56}
+{'loss': 1.3793, 'grad_norm': 2.4134879112243652, 'learning_rate': 2.695089455652836e-06, 'epoch': 1.56}
+{'loss': 1.3564, 'grad_norm': 2.498729705810547, 'learning_rate': 2.6931861438903694e-06, 'epoch': 1.56}
+{'eval_loss': 1.76124107837677, 'eval_runtime': 37.831, 'eval_samples_per_second': 26.433, 'eval_steps_per_second': 1.11, 'epoch': 1.56}
+{'loss': 1.4109, 'grad_norm': 2.455510139465332, 'learning_rate': 2.6912828321279028e-06, 'epoch': 1.56}
+{'loss': 1.3811, 'grad_norm': 2.422098159790039, 'learning_rate': 2.689379520365436e-06, 'epoch': 1.56}
+{'loss': 1.4215, 'grad_norm': 2.380890369415283, 'learning_rate': 2.6874762086029695e-06, 'epoch': 1.56}
+{'loss': 1.3708, 'grad_norm': 2.39363169670105, 'learning_rate': 2.6855728968405024e-06, 'epoch': 1.57}
+{'loss': 1.4084, 'grad_norm': 2.3624465465545654, 'learning_rate': 2.683669585078036e-06, 'epoch': 1.57}
+{'loss': 1.3465, 'grad_norm': 2.3589534759521484, 'learning_rate': 2.681766273315569e-06, 'epoch': 1.57}
+{'loss': 1.3915, 'grad_norm': 2.4358372688293457, 'learning_rate': 2.6798629615531025e-06, 'epoch': 1.57}
+{'loss': 1.3842, 'grad_norm': 2.4162042140960693, 'learning_rate': 2.677959649790636e-06, 'epoch': 1.57}
+{'loss': 1.4197, 'grad_norm': 2.568127155303955, 'learning_rate': 2.676056338028169e-06, 'epoch': 1.57}
+{'loss': 1.4132, 'grad_norm': 2.5098628997802734, 'learning_rate': 2.674153026265702e-06, 'epoch': 1.57}
+{'eval_loss': 1.7691000699996948, 'eval_runtime': 37.9709, 'eval_samples_per_second': 26.336, 'eval_steps_per_second': 1.106, 'epoch': 1.57}
+{'loss': 1.4223, 'grad_norm': 2.5882396697998047, 'learning_rate': 2.672249714503236e-06, 'epoch': 1.57}
+{'loss': 1.3804, 'grad_norm': 2.5202438831329346, 'learning_rate': 2.6703464027407693e-06, 'epoch': 1.57}
+{'loss': 1.3987, 'grad_norm': 2.4582319259643555, 'learning_rate': 2.6684430909783027e-06, 'epoch': 1.57}
+{'loss': 1.3878, 'grad_norm': 2.3516597747802734, 'learning_rate': 2.666539779215836e-06, 'epoch': 1.58}
+{'loss': 1.3737, 'grad_norm': 2.410268783569336, 'learning_rate': 2.6646364674533694e-06, 'epoch': 1.58}
+{'loss': 1.2908, 'grad_norm': 2.2420742511749268, 'learning_rate': 2.6627331556909024e-06, 'epoch': 1.58}
+{'loss': 1.383, 'grad_norm': 2.498166084289551, 'learning_rate': 2.6608298439284357e-06, 'epoch': 1.58}
+{'loss': 1.3829, 'grad_norm': 2.389152765274048, 'learning_rate': 2.658926532165969e-06, 'epoch': 1.58}
+{'loss': 1.3438, 'grad_norm': 2.4197394847869873, 'learning_rate': 2.6570232204035024e-06, 'epoch': 1.58}
+{'loss': 1.3741, 'grad_norm': 2.321922540664673, 'learning_rate': 2.655119908641036e-06, 'epoch': 1.58}
+{'eval_loss': 1.7643449306488037, 'eval_runtime': 38.0047, 'eval_samples_per_second': 26.313, 'eval_steps_per_second': 1.105, 'epoch': 1.58}
+{'loss': 1.3857, 'grad_norm': 2.4056994915008545, 'learning_rate': 2.6532165968785687e-06, 'epoch': 1.58}
+{'loss': 1.3517, 'grad_norm': 2.2752463817596436, 'learning_rate': 2.651313285116102e-06, 'epoch': 1.58}
+{'loss': 1.3548, 'grad_norm': 2.411092519760132, 'learning_rate': 2.6494099733536355e-06, 'epoch': 1.59}
+{'loss': 1.5273, 'grad_norm': 2.7468392848968506, 'learning_rate': 2.647506661591169e-06, 'epoch': 1.59}
+{'loss': 1.4064, 'grad_norm': 2.5081777572631836, 'learning_rate': 2.645603349828702e-06, 'epoch': 1.59}
+{'loss': 1.3444, 'grad_norm': 2.3444366455078125, 'learning_rate': 2.643700038066235e-06, 'epoch': 1.59}
+{'loss': 1.4078, 'grad_norm': 2.437304973602295, 'learning_rate': 2.6417967263037685e-06, 'epoch': 1.59}
+{'loss': 1.4212, 'grad_norm': 2.456725597381592, 'learning_rate': 2.639893414541302e-06, 'epoch': 1.59}
+{'loss': 1.4439, 'grad_norm': 2.4959378242492676, 'learning_rate': 2.6379901027788352e-06, 'epoch': 1.59}
+{'loss': 1.3748, 'grad_norm': 2.3856401443481445, 'learning_rate': 2.6360867910163686e-06, 'epoch': 1.59}
+{'eval_loss': 1.7585556507110596, 'eval_runtime': 38.038, 'eval_samples_per_second': 26.289, 'eval_steps_per_second': 1.104, 'epoch': 1.59}
+{'loss': 1.3912, 'grad_norm': 2.3285882472991943, 'learning_rate': 2.6341834792539024e-06, 'epoch': 1.59}
+{'loss': 1.3922, 'grad_norm': 2.365633249282837, 'learning_rate': 2.6322801674914357e-06, 'epoch': 1.59}
+{'loss': 1.3899, 'grad_norm': 2.460118293762207, 'learning_rate': 2.6303768557289687e-06, 'epoch': 1.6}
+{'loss': 1.347, 'grad_norm': 2.244420051574707, 'learning_rate': 2.628473543966502e-06, 'epoch': 1.6}
+{'loss': 1.4163, 'grad_norm': 2.404733180999756, 'learning_rate': 2.6265702322040354e-06, 'epoch': 1.6}
+{'loss': 1.3578, 'grad_norm': 2.3252789974212646, 'learning_rate': 2.6246669204415688e-06, 'epoch': 1.6}
+{'loss': 1.3585, 'grad_norm': 2.3664159774780273, 'learning_rate': 2.622763608679102e-06, 'epoch': 1.6}
+{'loss': 1.3794, 'grad_norm': 2.3188118934631348, 'learning_rate': 2.620860296916635e-06, 'epoch': 1.6}
+{'loss': 1.3157, 'grad_norm': 2.3163065910339355, 'learning_rate': 2.6189569851541684e-06, 'epoch': 1.6}
+{'loss': 1.413, 'grad_norm': 2.4271090030670166, 'learning_rate': 2.617053673391702e-06, 'epoch': 1.6}
+{'eval_loss': 1.7588003873825073, 'eval_runtime': 38.0406, 'eval_samples_per_second': 26.288, 'eval_steps_per_second': 1.104, 'epoch': 1.6}
+{'loss': 1.4431, 'grad_norm': 2.5792505741119385, 'learning_rate': 2.615150361629235e-06, 'epoch': 1.6}
+{'loss': 1.3967, 'grad_norm': 2.4612159729003906, 'learning_rate': 2.6132470498667685e-06, 'epoch': 1.6}
+{'loss': 1.3779, 'grad_norm': 2.4364020824432373, 'learning_rate': 2.6113437381043015e-06, 'epoch': 1.61}
+{'loss': 1.3685, 'grad_norm': 2.464442253112793, 'learning_rate': 2.609440426341835e-06, 'epoch': 1.61}
+{'loss': 1.3979, 'grad_norm': 2.4871442317962646, 'learning_rate': 2.607537114579368e-06, 'epoch': 1.61}
+{'loss': 1.3836, 'grad_norm': 2.375364303588867, 'learning_rate': 2.6056338028169015e-06, 'epoch': 1.61}
+{'loss': 1.3655, 'grad_norm': 2.364389657974243, 'learning_rate': 2.603730491054435e-06, 'epoch': 1.61}
+{'loss': 1.398, 'grad_norm': 2.421839714050293, 'learning_rate': 2.601827179291968e-06, 'epoch': 1.61}
+{'loss': 1.4061, 'grad_norm': 2.3270041942596436, 'learning_rate': 2.599923867529501e-06, 'epoch': 1.61}
+{'loss': 1.3808, 'grad_norm': 2.4831383228302, 'learning_rate': 2.5980205557670346e-06, 'epoch': 1.61}
+{'eval_loss': 1.773654818534851, 'eval_runtime': 38.046, 'eval_samples_per_second': 26.284, 'eval_steps_per_second': 1.104, 'epoch': 1.61}
+{'loss': 1.4167, 'grad_norm': 2.499079942703247, 'learning_rate': 2.5961172440045684e-06, 'epoch': 1.61}
+{'loss': 1.4319, 'grad_norm': 2.3598642349243164, 'learning_rate': 2.5942139322421017e-06, 'epoch': 1.61}
+{'loss': 1.3723, 'grad_norm': 2.3554258346557617, 'learning_rate': 2.592310620479635e-06, 'epoch': 1.62}
+{'loss': 1.339, 'grad_norm': 2.2909231185913086, 'learning_rate': 2.5904073087171684e-06, 'epoch': 1.62}
+{'loss': 1.4026, 'grad_norm': 2.3029019832611084, 'learning_rate': 2.5885039969547014e-06, 'epoch': 1.62}
+{'loss': 1.3531, 'grad_norm': 2.2370176315307617, 'learning_rate': 2.5866006851922347e-06, 'epoch': 1.62}
+{'loss': 1.3585, 'grad_norm': 2.2932159900665283, 'learning_rate': 2.584697373429768e-06, 'epoch': 1.62}
+{'loss': 1.3817, 'grad_norm': 2.391493797302246, 'learning_rate': 2.5827940616673015e-06, 'epoch': 1.62}
+{'loss': 1.4241, 'grad_norm': 2.476572036743164, 'learning_rate': 2.580890749904835e-06, 'epoch': 1.62}
+{'loss': 1.3734, 'grad_norm': 2.3396525382995605, 'learning_rate': 2.5789874381423678e-06, 'epoch': 1.62}
+{'eval_loss': 1.7641068696975708, 'eval_runtime': 38.0413, 'eval_samples_per_second': 26.287, 'eval_steps_per_second': 1.104, 'epoch': 1.62}
+{'loss': 1.3764, 'grad_norm': 2.381436824798584, 'learning_rate': 2.577084126379901e-06, 'epoch': 1.62}
+{'loss': 1.3419, 'grad_norm': 2.391737937927246, 'learning_rate': 2.5751808146174345e-06, 'epoch': 1.63}
+{'loss': 1.398, 'grad_norm': 2.453653573989868, 'learning_rate': 2.573277502854968e-06, 'epoch': 1.63}
+{'loss': 1.3605, 'grad_norm': 2.3906450271606445, 'learning_rate': 2.5713741910925012e-06, 'epoch': 1.63}
+{'loss': 1.369, 'grad_norm': 2.347041606903076, 'learning_rate': 2.569470879330034e-06, 'epoch': 1.63}
+{'loss': 1.421, 'grad_norm': 2.571047306060791, 'learning_rate': 2.5675675675675675e-06, 'epoch': 1.63}
+{'loss': 1.3736, 'grad_norm': 2.3640646934509277, 'learning_rate': 2.565664255805101e-06, 'epoch': 1.63}
+{'loss': 1.4008, 'grad_norm': 2.419844388961792, 'learning_rate': 2.5637609440426343e-06, 'epoch': 1.63}
+{'loss': 1.3473, 'grad_norm': 2.3414361476898193, 'learning_rate': 2.5618576322801676e-06, 'epoch': 1.63}
+{'loss': 1.4418, 'grad_norm': 2.462259292602539, 'learning_rate': 2.5599543205177006e-06, 'epoch': 1.63}
+{'eval_loss': 1.760501503944397, 'eval_runtime': 38.0428, 'eval_samples_per_second': 26.286, 'eval_steps_per_second': 1.104, 'epoch': 1.63}
+{'loss': 1.3859, 'grad_norm': 2.49070405960083, 'learning_rate': 2.558051008755234e-06, 'epoch': 1.63}
+{'loss': 1.4379, 'grad_norm': 2.500180244445801, 'learning_rate': 2.5561476969927677e-06, 'epoch': 1.64}
+{'loss': 1.3656, 'grad_norm': 2.4660637378692627, 'learning_rate': 2.554244385230301e-06, 'epoch': 1.64}
+{'loss': 1.3939, 'grad_norm': 2.5678634643554688, 'learning_rate': 2.5523410734678344e-06, 'epoch': 1.64}
+{'loss': 1.3281, 'grad_norm': 2.358930826187134, 'learning_rate': 2.550437761705368e-06, 'epoch': 1.64}
+{'loss': 1.3643, 'grad_norm': 2.462233543395996, 'learning_rate': 2.548534449942901e-06, 'epoch': 1.64}
+{'loss': 1.4009, 'grad_norm': 2.5294501781463623, 'learning_rate': 2.546631138180434e-06, 'epoch': 1.64}
+{'loss': 1.3797, 'grad_norm': 2.5325710773468018, 'learning_rate': 2.5447278264179675e-06, 'epoch': 1.64}
+{'loss': 1.3492, 'grad_norm': 2.3293585777282715, 'learning_rate': 2.542824514655501e-06, 'epoch': 1.64}
+{'loss': 1.4295, 'grad_norm': 2.5357868671417236, 'learning_rate': 2.540921202893034e-06, 'epoch': 1.64}
+{'eval_loss': 1.7499933242797852, 'eval_runtime': 38.0219, 'eval_samples_per_second': 26.301, 'eval_steps_per_second': 1.105, 'epoch': 1.64}
+{'loss': 1.4174, 'grad_norm': 2.509333848953247, 'learning_rate': 2.5390178911305675e-06, 'epoch': 1.64}
+{'loss': 1.3898, 'grad_norm': 2.4453277587890625, 'learning_rate': 2.5371145793681005e-06, 'epoch': 1.65}
+{'loss': 1.3881, 'grad_norm': 2.506847381591797, 'learning_rate': 2.535211267605634e-06, 'epoch': 1.65}
+{'loss': 1.3268, 'grad_norm': 2.2735178470611572, 'learning_rate': 2.533307955843167e-06, 'epoch': 1.65}
+{'loss': 1.3897, 'grad_norm': 2.479081630706787, 'learning_rate': 2.5314046440807006e-06, 'epoch': 1.65}
+{'loss': 1.3734, 'grad_norm': 2.3882839679718018, 'learning_rate': 2.529501332318234e-06, 'epoch': 1.65}
+{'loss': 1.4298, 'grad_norm': 2.521341323852539, 'learning_rate': 2.5275980205557673e-06, 'epoch': 1.65}
+{'loss': 1.4497, 'grad_norm': 2.55405855178833, 'learning_rate': 2.5256947087933002e-06, 'epoch': 1.65}
+{'loss': 1.438, 'grad_norm': 2.534478187561035, 'learning_rate': 2.5237913970308336e-06, 'epoch': 1.65}
+{'loss': 1.3834, 'grad_norm': 2.453374147415161, 'learning_rate': 2.521888085268367e-06, 'epoch': 1.65}
+{'eval_loss': 1.7550541162490845, 'eval_runtime': 37.6671, 'eval_samples_per_second': 26.548, 'eval_steps_per_second': 1.115, 'epoch': 1.65}
+{'loss': 1.434, 'grad_norm': 2.4754152297973633, 'learning_rate': 2.5199847735059003e-06, 'epoch': 1.65}
+{'loss': 1.3706, 'grad_norm': 2.3785831928253174, 'learning_rate': 2.518081461743434e-06, 'epoch': 1.66}
+{'loss': 1.3955, 'grad_norm': 2.3936359882354736, 'learning_rate': 2.5161781499809675e-06, 'epoch': 1.66}
+{'loss': 1.3532, 'grad_norm': 2.338012456893921, 'learning_rate': 2.5142748382185004e-06, 'epoch': 1.66}
+{'loss': 1.3522, 'grad_norm': 2.5027408599853516, 'learning_rate': 2.5123715264560338e-06, 'epoch': 1.66}
+{'loss': 1.3767, 'grad_norm': 2.4059648513793945, 'learning_rate': 2.510468214693567e-06, 'epoch': 1.66}
+{'loss': 1.3248, 'grad_norm': 2.324235200881958, 'learning_rate': 2.5085649029311005e-06, 'epoch': 1.66}
+{'loss': 1.288, 'grad_norm': 2.336317300796509, 'learning_rate': 2.506661591168634e-06, 'epoch': 1.66}
+{'loss': 1.3715, 'grad_norm': 2.3386120796203613, 'learning_rate': 2.504758279406167e-06, 'epoch': 1.66}
+{'loss': 1.4157, 'grad_norm': 2.5584142208099365, 'learning_rate': 2.5028549676437e-06, 'epoch': 1.66}
+{'eval_loss': 1.7575956583023071, 'eval_runtime': 37.7897, 'eval_samples_per_second': 26.462, 'eval_steps_per_second': 1.111, 'epoch': 1.66}
+{'loss': 1.357, 'grad_norm': 2.475881338119507, 'learning_rate': 2.5009516558812335e-06, 'epoch': 1.67}
+{'loss': 1.4077, 'grad_norm': 2.4611690044403076, 'learning_rate': 2.499048344118767e-06, 'epoch': 1.67}
+{'loss': 1.443, 'grad_norm': 2.4230902194976807, 'learning_rate': 2.4971450323563002e-06, 'epoch': 1.67}
+{'loss': 1.3595, 'grad_norm': 2.359095335006714, 'learning_rate': 2.4952417205938336e-06, 'epoch': 1.67}
+{'loss': 1.3636, 'grad_norm': 2.4128329753875732, 'learning_rate': 2.4933384088313666e-06, 'epoch': 1.67}
+{'loss': 1.3536, 'grad_norm': 2.3391597270965576, 'learning_rate': 2.4914350970689e-06, 'epoch': 1.67}
+{'loss': 1.3642, 'grad_norm': 2.478581190109253, 'learning_rate': 2.4895317853064337e-06, 'epoch': 1.67}
+{'loss': 1.4192, 'grad_norm': 2.7438251972198486, 'learning_rate': 2.4876284735439666e-06, 'epoch': 1.67}
+{'loss': 1.3879, 'grad_norm': 2.508089542388916, 'learning_rate': 2.4857251617815e-06, 'epoch': 1.67}
+{'loss': 1.3936, 'grad_norm': 2.5251338481903076, 'learning_rate': 2.4838218500190334e-06, 'epoch': 1.67}
+{'eval_loss': 1.7578516006469727, 'eval_runtime': 37.8753, 'eval_samples_per_second': 26.402, 'eval_steps_per_second': 1.109, 'epoch': 1.67}
+{'loss': 1.3839, 'grad_norm': 2.3655474185943604, 'learning_rate': 2.4819185382565667e-06, 'epoch': 1.68}
+{'loss': 1.3767, 'grad_norm': 2.4703869819641113, 'learning_rate': 2.4800152264941e-06, 'epoch': 1.68}
+{'loss': 1.3465, 'grad_norm': 2.4739503860473633, 'learning_rate': 2.478111914731633e-06, 'epoch': 1.68}
+{'loss': 1.3828, 'grad_norm': 2.356006383895874, 'learning_rate': 2.4762086029691664e-06, 'epoch': 1.68}
+{'loss': 1.4875, 'grad_norm': 2.7019715309143066, 'learning_rate': 2.4743052912066998e-06, 'epoch': 1.68}
+{'loss': 1.3494, 'grad_norm': 2.3504486083984375, 'learning_rate': 2.472401979444233e-06, 'epoch': 1.68}
+{'loss': 1.4399, 'grad_norm': 2.6056807041168213, 'learning_rate': 2.4704986676817665e-06, 'epoch': 1.68}
+{'loss': 1.3803, 'grad_norm': 2.481422185897827, 'learning_rate': 2.4685953559193e-06, 'epoch': 1.68}
+{'loss': 1.4255, 'grad_norm': 2.483227491378784, 'learning_rate': 2.466692044156833e-06, 'epoch': 1.68}
+{'loss': 1.3541, 'grad_norm': 2.4171221256256104, 'learning_rate': 2.4647887323943666e-06, 'epoch': 1.68}
+{'eval_loss': 1.7658556699752808, 'eval_runtime': 37.8673, 'eval_samples_per_second': 26.408, 'eval_steps_per_second': 1.109, 'epoch': 1.68}
+{'loss': 1.334, 'grad_norm': 2.2551865577697754, 'learning_rate': 2.4628854206319e-06, 'epoch': 1.69}
+{'loss': 1.3416, 'grad_norm': 2.45120906829834, 'learning_rate': 2.460982108869433e-06, 'epoch': 1.69}
+{'loss': 1.4222, 'grad_norm': 2.4356141090393066, 'learning_rate': 2.4590787971069662e-06, 'epoch': 1.69}
+{'loss': 1.3654, 'grad_norm': 2.3313231468200684, 'learning_rate': 2.4571754853444996e-06, 'epoch': 1.69}
+{'loss': 1.3521, 'grad_norm': 2.3518543243408203, 'learning_rate': 2.455272173582033e-06, 'epoch': 1.69}
+{'loss': 1.3665, 'grad_norm': 2.477158546447754, 'learning_rate': 2.4533688618195663e-06, 'epoch': 1.69}
+{'loss': 1.2992, 'grad_norm': 2.2717649936676025, 'learning_rate': 2.4514655500570997e-06, 'epoch': 1.69}
+{'loss': 1.3458, 'grad_norm': 2.2843265533447266, 'learning_rate': 2.449562238294633e-06, 'epoch': 1.69}
+{'loss': 1.3143, 'grad_norm': 2.4243931770324707, 'learning_rate': 2.4476589265321664e-06, 'epoch': 1.69}
+{'loss': 1.41, 'grad_norm': 2.4439947605133057, 'learning_rate': 2.4457556147696993e-06, 'epoch': 1.69}
+{'eval_loss': 1.762351155281067, 'eval_runtime': 37.8973, 'eval_samples_per_second': 26.387, 'eval_steps_per_second': 1.108, 'epoch': 1.69}
+{'loss': 1.388, 'grad_norm': 2.3726727962493896, 'learning_rate': 2.4438523030072327e-06, 'epoch': 1.7}
+{'loss': 1.4023, 'grad_norm': 2.4449899196624756, 'learning_rate': 2.441948991244766e-06, 'epoch': 1.7}
+{'loss': 1.3761, 'grad_norm': 2.4462502002716064, 'learning_rate': 2.4400456794822994e-06, 'epoch': 1.7}
+{'loss': 1.4017, 'grad_norm': 2.413308620452881, 'learning_rate': 2.438142367719833e-06, 'epoch': 1.7}
+{'loss': 1.3709, 'grad_norm': 2.398103952407837, 'learning_rate': 2.4362390559573657e-06, 'epoch': 1.7}
+{'loss': 1.3657, 'grad_norm': 2.4637506008148193, 'learning_rate': 2.434335744194899e-06, 'epoch': 1.7}
+{'loss': 1.4071, 'grad_norm': 2.419947385787964, 'learning_rate': 2.432432432432433e-06, 'epoch': 1.7}
+{'loss': 1.3288, 'grad_norm': 2.4477648735046387, 'learning_rate': 2.4305291206699662e-06, 'epoch': 1.7}
+{'loss': 1.396, 'grad_norm': 2.3359293937683105, 'learning_rate': 2.428625808907499e-06, 'epoch': 1.7}
+{'loss': 1.4246, 'grad_norm': 2.396193742752075, 'learning_rate': 2.4267224971450325e-06, 'epoch': 1.71}
+{'eval_loss': 1.7526435852050781, 'eval_runtime': 37.9178, 'eval_samples_per_second': 26.373, 'eval_steps_per_second': 1.108, 'epoch': 1.71}
+{'loss': 1.3877, 'grad_norm': 2.511453628540039, 'learning_rate': 2.424819185382566e-06, 'epoch': 1.71}
+{'loss': 1.3346, 'grad_norm': 2.4472320079803467, 'learning_rate': 2.4229158736200993e-06, 'epoch': 1.71}
+{'loss': 1.3352, 'grad_norm': 2.2219882011413574, 'learning_rate': 2.4210125618576326e-06, 'epoch': 1.71}
+{'loss': 1.3644, 'grad_norm': 2.440121650695801, 'learning_rate': 2.4191092500951656e-06, 'epoch': 1.71}
+{'loss': 1.4073, 'grad_norm': 2.5501232147216797, 'learning_rate': 2.417205938332699e-06, 'epoch': 1.71}
+{'loss': 1.3137, 'grad_norm': 2.4315030574798584, 'learning_rate': 2.4153026265702323e-06, 'epoch': 1.71}
+{'loss': 1.3484, 'grad_norm': 2.3719727993011475, 'learning_rate': 2.4133993148077657e-06, 'epoch': 1.71}
+{'loss': 1.4106, 'grad_norm': 2.3800482749938965, 'learning_rate': 2.411496003045299e-06, 'epoch': 1.71}
+{'loss': 1.3603, 'grad_norm': 2.4554190635681152, 'learning_rate': 2.4095926912828324e-06, 'epoch': 1.71}
+{'loss': 1.3739, 'grad_norm': 2.2984702587127686, 'learning_rate': 2.4076893795203658e-06, 'epoch': 1.72}
+{'eval_loss': 1.752260446548462, 'eval_runtime': 37.9208, 'eval_samples_per_second': 26.371, 'eval_steps_per_second': 1.108, 'epoch': 1.72}
+{'loss': 1.3598, 'grad_norm': 2.3967223167419434, 'learning_rate': 2.405786067757899e-06, 'epoch': 1.72}
+{'loss': 1.4489, 'grad_norm': 2.585935592651367, 'learning_rate': 2.403882755995432e-06, 'epoch': 1.72}
+{'loss': 1.3745, 'grad_norm': 2.4227662086486816, 'learning_rate': 2.4019794442329654e-06, 'epoch': 1.72}
+{'loss': 1.3405, 'grad_norm': 2.485344648361206, 'learning_rate': 2.4000761324704988e-06, 'epoch': 1.72}
+{'loss': 1.3914, 'grad_norm': 2.4055545330047607, 'learning_rate': 2.398172820708032e-06, 'epoch': 1.72}
+{'loss': 1.3637, 'grad_norm': 2.3449783325195312, 'learning_rate': 2.3962695089455655e-06, 'epoch': 1.72}
+{'loss': 1.3571, 'grad_norm': 2.338590621948242, 'learning_rate': 2.3943661971830984e-06, 'epoch': 1.72}
+{'loss': 1.3632, 'grad_norm': 2.3274776935577393, 'learning_rate': 2.3924628854206322e-06, 'epoch': 1.72}
+{'loss': 1.3568, 'grad_norm': 2.3467724323272705, 'learning_rate': 2.3905595736581656e-06, 'epoch': 1.72}
+{'loss': 1.4099, 'grad_norm': 2.552039861679077, 'learning_rate': 2.388656261895699e-06, 'epoch': 1.73}
+{'eval_loss': 1.745519995689392, 'eval_runtime': 37.9527, 'eval_samples_per_second': 26.349, 'eval_steps_per_second': 1.107, 'epoch': 1.73}
+{'loss': 1.4017, 'grad_norm': 2.5332300662994385, 'learning_rate': 2.386752950133232e-06, 'epoch': 1.73}
+{'loss': 1.3866, 'grad_norm': 2.4033122062683105, 'learning_rate': 2.3848496383707653e-06, 'epoch': 1.73}
+{'loss': 1.3824, 'grad_norm': 2.460071086883545, 'learning_rate': 2.3829463266082986e-06, 'epoch': 1.73}
+{'loss': 1.398, 'grad_norm': 2.5089826583862305, 'learning_rate': 2.381043014845832e-06, 'epoch': 1.73}
+{'loss': 1.3852, 'grad_norm': 2.419689893722534, 'learning_rate': 2.3791397030833653e-06, 'epoch': 1.73}
+{'loss': 1.3666, 'grad_norm': 2.314080238342285, 'learning_rate': 2.3772363913208983e-06, 'epoch': 1.73}
+{'loss': 1.3495, 'grad_norm': 2.324474334716797, 'learning_rate': 2.3753330795584316e-06, 'epoch': 1.73}
+{'loss': 1.3731, 'grad_norm': 2.5079402923583984, 'learning_rate': 2.3734297677959654e-06, 'epoch': 1.73}
+{'loss': 1.413, 'grad_norm': 2.492154598236084, 'learning_rate': 2.3715264560334984e-06, 'epoch': 1.73}
+{'loss': 1.3952, 'grad_norm': 2.3400940895080566, 'learning_rate': 2.3696231442710317e-06, 'epoch': 1.74}
+{'eval_loss': 1.7412214279174805, 'eval_runtime': 37.9159, 'eval_samples_per_second': 26.374, 'eval_steps_per_second': 1.108, 'epoch': 1.74}
+{'loss': 1.396, 'grad_norm': 2.3744688034057617, 'learning_rate': 2.367719832508565e-06, 'epoch': 1.74}
+{'loss': 1.4113, 'grad_norm': 2.4762585163116455, 'learning_rate': 2.3658165207460985e-06, 'epoch': 1.74}
+{'loss': 1.3962, 'grad_norm': 2.361391305923462, 'learning_rate': 2.363913208983632e-06, 'epoch': 1.74}
+{'loss': 1.4098, 'grad_norm': 2.4838762283325195, 'learning_rate': 2.362009897221165e-06, 'epoch': 1.74}
+{'loss': 1.4006, 'grad_norm': 2.4860999584198, 'learning_rate': 2.360106585458698e-06, 'epoch': 1.74}
+{'loss': 1.3445, 'grad_norm': 2.3834593296051025, 'learning_rate': 2.3582032736962315e-06, 'epoch': 1.74}
+{'loss': 1.3849, 'grad_norm': 2.5383975505828857, 'learning_rate': 2.356299961933765e-06, 'epoch': 1.74}
+{'loss': 1.356, 'grad_norm': 2.414038896560669, 'learning_rate': 2.354396650171298e-06, 'epoch': 1.74}
+{'loss': 1.3422, 'grad_norm': 2.3932273387908936, 'learning_rate': 2.3524933384088316e-06, 'epoch': 1.75}
+{'loss': 1.4324, 'grad_norm': 2.5618491172790527, 'learning_rate': 2.350590026646365e-06, 'epoch': 1.75}
+{'eval_loss': 1.7560412883758545, 'eval_runtime': 37.9455, 'eval_samples_per_second': 26.354, 'eval_steps_per_second': 1.107, 'epoch': 1.75}
+{'loss': 1.3631, 'grad_norm': 2.450718879699707, 'learning_rate': 2.3486867148838983e-06, 'epoch': 1.75}
+{'loss': 1.3528, 'grad_norm': 2.4136962890625, 'learning_rate': 2.3467834031214317e-06, 'epoch': 1.75}
+{'loss': 1.369, 'grad_norm': 2.4310078620910645, 'learning_rate': 2.3448800913589646e-06, 'epoch': 1.75}
+{'loss': 1.3897, 'grad_norm': 2.5222883224487305, 'learning_rate': 2.342976779596498e-06, 'epoch': 1.75}
+{'loss': 1.3526, 'grad_norm': 2.3903377056121826, 'learning_rate': 2.3410734678340313e-06, 'epoch': 1.75}
+{'loss': 1.4091, 'grad_norm': 2.3869972229003906, 'learning_rate': 2.3391701560715647e-06, 'epoch': 1.75}
+{'loss': 1.3671, 'grad_norm': 2.3368723392486572, 'learning_rate': 2.337266844309098e-06, 'epoch': 1.75}
+{'loss': 1.3701, 'grad_norm': 2.4195168018341064, 'learning_rate': 2.3353635325466314e-06, 'epoch': 1.75}
+{'loss': 1.3795, 'grad_norm': 2.4312965869903564, 'learning_rate': 2.3334602207841648e-06, 'epoch': 1.76}
+{'loss': 1.3743, 'grad_norm': 2.582592725753784, 'learning_rate': 2.331556909021698e-06, 'epoch': 1.76}
+{'eval_loss': 1.7604093551635742, 'eval_runtime': 37.6917, 'eval_samples_per_second': 26.531, 'eval_steps_per_second': 1.114, 'epoch': 1.76}
+{'loss': 1.4049, 'grad_norm': 2.4194061756134033, 'learning_rate': 2.3296535972592315e-06, 'epoch': 1.76}
+{'loss': 1.352, 'grad_norm': 2.4093074798583984, 'learning_rate': 2.3277502854967644e-06, 'epoch': 1.76}
+{'loss': 1.4221, 'grad_norm': 2.509335517883301, 'learning_rate': 2.325846973734298e-06, 'epoch': 1.76}
+{'loss': 1.3508, 'grad_norm': 2.422558069229126, 'learning_rate': 2.323943661971831e-06, 'epoch': 1.76}
+{'loss': 1.4146, 'grad_norm': 2.3949813842773438, 'learning_rate': 2.3220403502093645e-06, 'epoch': 1.76}
+{'loss': 1.413, 'grad_norm': 2.47383189201355, 'learning_rate': 2.320137038446898e-06, 'epoch': 1.76}
+{'loss': 1.4181, 'grad_norm': 2.403531312942505, 'learning_rate': 2.318233726684431e-06, 'epoch': 1.76}
+{'loss': 1.4121, 'grad_norm': 2.463175058364868, 'learning_rate': 2.3163304149219646e-06, 'epoch': 1.76}
+{'loss': 1.3844, 'grad_norm': 2.4082279205322266, 'learning_rate': 2.314427103159498e-06, 'epoch': 1.77}
+{'loss': 1.3647, 'grad_norm': 2.2674102783203125, 'learning_rate': 2.312523791397031e-06, 'epoch': 1.77}
+{'eval_loss': 1.7476056814193726, 'eval_runtime': 37.8818, 'eval_samples_per_second': 26.398, 'eval_steps_per_second': 1.109, 'epoch': 1.77}
+{'loss': 1.3425, 'grad_norm': 2.2334558963775635, 'learning_rate': 2.3106204796345643e-06, 'epoch': 1.77}
+{'loss': 1.3707, 'grad_norm': 2.3458974361419678, 'learning_rate': 2.3087171678720976e-06, 'epoch': 1.77}
+{'loss': 1.422, 'grad_norm': 2.437530040740967, 'learning_rate': 2.306813856109631e-06, 'epoch': 1.77}
+{'loss': 1.3795, 'grad_norm': 2.467456817626953, 'learning_rate': 2.3049105443471644e-06, 'epoch': 1.77}
+{'loss': 1.3648, 'grad_norm': 2.485546827316284, 'learning_rate': 2.3030072325846973e-06, 'epoch': 1.77}
+{'loss': 1.3508, 'grad_norm': 2.4228715896606445, 'learning_rate': 2.3011039208222307e-06, 'epoch': 1.77}
+{'loss': 1.3587, 'grad_norm': 2.3490238189697266, 'learning_rate': 2.299200609059764e-06, 'epoch': 1.77}
+{'loss': 1.3593, 'grad_norm': 2.333501100540161, 'learning_rate': 2.297297297297298e-06, 'epoch': 1.78}
+{'loss': 1.3333, 'grad_norm': 2.459859609603882, 'learning_rate': 2.2953939855348308e-06, 'epoch': 1.78}
+{'loss': 1.4137, 'grad_norm': 2.476691961288452, 'learning_rate': 2.293490673772364e-06, 'epoch': 1.78}
+{'eval_loss': 1.7561018466949463, 'eval_runtime': 37.9778, 'eval_samples_per_second': 26.331, 'eval_steps_per_second': 1.106, 'epoch': 1.78}
+{'loss': 1.3981, 'grad_norm': 2.443805694580078, 'learning_rate': 2.2915873620098975e-06, 'epoch': 1.78}
+{'loss': 1.392, 'grad_norm': 2.4164700508117676, 'learning_rate': 2.289684050247431e-06, 'epoch': 1.78}
+{'loss': 1.3603, 'grad_norm': 2.3005855083465576, 'learning_rate': 2.287780738484964e-06, 'epoch': 1.78}
+{'loss': 1.383, 'grad_norm': 2.395570755004883, 'learning_rate': 2.285877426722497e-06, 'epoch': 1.78}
+{'loss': 1.4121, 'grad_norm': 2.4991118907928467, 'learning_rate': 2.2839741149600305e-06, 'epoch': 1.78}
+{'loss': 1.3997, 'grad_norm': 2.420830726623535, 'learning_rate': 2.282070803197564e-06, 'epoch': 1.78}
+{'loss': 1.3825, 'grad_norm': 2.3576571941375732, 'learning_rate': 2.2801674914350972e-06, 'epoch': 1.78}
+{'loss': 1.3716, 'grad_norm': 2.355811595916748, 'learning_rate': 2.2782641796726306e-06, 'epoch': 1.79}
+{'loss': 1.4064, 'grad_norm': 2.3596901893615723, 'learning_rate': 2.276360867910164e-06, 'epoch': 1.79}
+{'loss': 1.3358, 'grad_norm': 2.301748514175415, 'learning_rate': 2.2744575561476973e-06, 'epoch': 1.79}
+{'eval_loss': 1.7705498933792114, 'eval_runtime': 37.9787, 'eval_samples_per_second': 26.331, 'eval_steps_per_second': 1.106, 'epoch': 1.79}
+{'loss': 1.3749, 'grad_norm': 2.3325891494750977, 'learning_rate': 2.2725542443852307e-06, 'epoch': 1.79}
+{'loss': 1.4153, 'grad_norm': 2.3880693912506104, 'learning_rate': 2.2706509326227636e-06, 'epoch': 1.79}
+{'loss': 1.3899, 'grad_norm': 2.3157029151916504, 'learning_rate': 2.268747620860297e-06, 'epoch': 1.79}
+{'loss': 1.3804, 'grad_norm': 2.4292151927948, 'learning_rate': 2.2668443090978303e-06, 'epoch': 1.79}
+{'loss': 1.4036, 'grad_norm': 2.4811818599700928, 'learning_rate': 2.2649409973353637e-06, 'epoch': 1.79}
+{'loss': 1.3616, 'grad_norm': 2.260420799255371, 'learning_rate': 2.263037685572897e-06, 'epoch': 1.79}
+{'loss': 1.351, 'grad_norm': 2.262769937515259, 'learning_rate': 2.26113437381043e-06, 'epoch': 1.79}
+{'loss': 1.3816, 'grad_norm': 2.481602191925049, 'learning_rate': 2.259231062047964e-06, 'epoch': 1.8}
+{'loss': 1.4026, 'grad_norm': 2.584700345993042, 'learning_rate': 2.257327750285497e-06, 'epoch': 1.8}
+{'loss': 1.37, 'grad_norm': 2.3472707271575928, 'learning_rate': 2.2554244385230305e-06, 'epoch': 1.8}
+{'eval_loss': 1.7779643535614014, 'eval_runtime': 38.0042, 'eval_samples_per_second': 26.313, 'eval_steps_per_second': 1.105, 'epoch': 1.8}
+{'loss': 1.3713, 'grad_norm': 2.3616456985473633, 'learning_rate': 2.2535211267605635e-06, 'epoch': 1.8}
+{'loss': 1.3797, 'grad_norm': 2.4747135639190674, 'learning_rate': 2.251617814998097e-06, 'epoch': 1.8}
+{'loss': 1.3081, 'grad_norm': 2.396944284439087, 'learning_rate': 2.24971450323563e-06, 'epoch': 1.8}
+{'loss': 1.3888, 'grad_norm': 2.5272505283355713, 'learning_rate': 2.2478111914731636e-06, 'epoch': 1.8}
+{'loss': 1.2698, 'grad_norm': 2.319617748260498, 'learning_rate': 2.245907879710697e-06, 'epoch': 1.8}
+{'loss': 1.4026, 'grad_norm': 2.4994258880615234, 'learning_rate': 2.24400456794823e-06, 'epoch': 1.8}
+{'loss': 1.3682, 'grad_norm': 2.3463289737701416, 'learning_rate': 2.2421012561857632e-06, 'epoch': 1.8}
+{'loss': 1.3486, 'grad_norm': 2.3547732830047607, 'learning_rate': 2.240197944423297e-06, 'epoch': 1.81}
+{'loss': 1.3531, 'grad_norm': 2.381570816040039, 'learning_rate': 2.23829463266083e-06, 'epoch': 1.81}
+{'loss': 1.3467, 'grad_norm': 2.2834391593933105, 'learning_rate': 2.2363913208983633e-06, 'epoch': 1.81}
+{'eval_loss': 1.7836403846740723, 'eval_runtime': 37.966, 'eval_samples_per_second': 26.339, 'eval_steps_per_second': 1.106, 'epoch': 1.81}
+{'loss': 1.3867, 'grad_norm': 2.3574178218841553, 'learning_rate': 2.2344880091358967e-06, 'epoch': 1.81}
+{'loss': 1.3652, 'grad_norm': 2.3440022468566895, 'learning_rate': 2.23258469737343e-06, 'epoch': 1.81}
+{'loss': 1.4059, 'grad_norm': 2.4115090370178223, 'learning_rate': 2.2306813856109634e-06, 'epoch': 1.81}
+{'loss': 1.3572, 'grad_norm': 2.3989944458007812, 'learning_rate': 2.2287780738484963e-06, 'epoch': 1.81}
+{'loss': 1.433, 'grad_norm': 2.394892930984497, 'learning_rate': 2.2268747620860297e-06, 'epoch': 1.81}
+{'loss': 1.3714, 'grad_norm': 2.5118515491485596, 'learning_rate': 2.224971450323563e-06, 'epoch': 1.81}
+{'loss': 1.3061, 'grad_norm': 2.392695426940918, 'learning_rate': 2.2230681385610964e-06, 'epoch': 1.82}
+{'loss': 1.3681, 'grad_norm': 2.4015321731567383, 'learning_rate': 2.2211648267986298e-06, 'epoch': 1.82}
+{'loss': 1.3549, 'grad_norm': 2.3518455028533936, 'learning_rate': 2.219261515036163e-06, 'epoch': 1.82}
+{'loss': 1.3882, 'grad_norm': 2.40037202835083, 'learning_rate': 2.2173582032736965e-06, 'epoch': 1.82}
+{'eval_loss': 1.7858384847640991, 'eval_runtime': 37.9787, 'eval_samples_per_second': 26.331, 'eval_steps_per_second': 1.106, 'epoch': 1.82}
+{'loss': 1.4019, 'grad_norm': 2.4189655780792236, 'learning_rate': 2.21545489151123e-06, 'epoch': 1.82}
+{'loss': 1.3703, 'grad_norm': 2.4965226650238037, 'learning_rate': 2.2135515797487632e-06, 'epoch': 1.82}
+{'loss': 1.3689, 'grad_norm': 2.4330036640167236, 'learning_rate': 2.211648267986296e-06, 'epoch': 1.82}
+{'loss': 1.3677, 'grad_norm': 2.3654327392578125, 'learning_rate': 2.2097449562238295e-06, 'epoch': 1.82}
+{'loss': 1.3626, 'grad_norm': 2.4047489166259766, 'learning_rate': 2.207841644461363e-06, 'epoch': 1.82}
+{'loss': 1.424, 'grad_norm': 2.563310146331787, 'learning_rate': 2.2059383326988963e-06, 'epoch': 1.82}
+{'loss': 1.3727, 'grad_norm': 2.506540536880493, 'learning_rate': 2.2040350209364296e-06, 'epoch': 1.83}
+{'loss': 1.3412, 'grad_norm': 2.271742105484009, 'learning_rate': 2.2021317091739626e-06, 'epoch': 1.83}
+{'loss': 1.3812, 'grad_norm': 2.3172881603240967, 'learning_rate': 2.2002283974114963e-06, 'epoch': 1.83}
+{'loss': 1.3148, 'grad_norm': 2.3927204608917236, 'learning_rate': 2.1983250856490297e-06, 'epoch': 1.83}
+{'eval_loss': 1.7755651473999023, 'eval_runtime': 37.9896, 'eval_samples_per_second': 26.323, 'eval_steps_per_second': 1.106, 'epoch': 1.83}
+{'loss': 1.3553, 'grad_norm': 2.391972303390503, 'learning_rate': 2.1964217738865626e-06, 'epoch': 1.83}
+{'loss': 1.377, 'grad_norm': 2.3727471828460693, 'learning_rate': 2.194518462124096e-06, 'epoch': 1.83}
+{'loss': 1.4188, 'grad_norm': 2.5614147186279297, 'learning_rate': 2.1926151503616294e-06, 'epoch': 1.83}
+{'loss': 1.3877, 'grad_norm': 2.344714641571045, 'learning_rate': 2.1907118385991627e-06, 'epoch': 1.83}
+{'loss': 1.351, 'grad_norm': 2.34287428855896, 'learning_rate': 2.188808526836696e-06, 'epoch': 1.83}
+{'loss': 1.382, 'grad_norm': 2.343554735183716, 'learning_rate': 2.1869052150742295e-06, 'epoch': 1.83}
+{'loss': 1.3062, 'grad_norm': 2.2418034076690674, 'learning_rate': 2.1850019033117624e-06, 'epoch': 1.84}
+{'loss': 1.3681, 'grad_norm': 2.4358294010162354, 'learning_rate': 2.1830985915492958e-06, 'epoch': 1.84}
+{'loss': 1.3791, 'grad_norm': 2.460731029510498, 'learning_rate': 2.1811952797868295e-06, 'epoch': 1.84}
+{'loss': 1.3528, 'grad_norm': 2.4244463443756104, 'learning_rate': 2.1792919680243625e-06, 'epoch': 1.84}
+{'eval_loss': 1.764306664466858, 'eval_runtime': 37.9906, 'eval_samples_per_second': 26.322, 'eval_steps_per_second': 1.106, 'epoch': 1.84}
+{'loss': 1.3882, 'grad_norm': 2.3808743953704834, 'learning_rate': 2.177388656261896e-06, 'epoch': 1.84}
+{'loss': 1.4542, 'grad_norm': 2.443690538406372, 'learning_rate': 2.1754853444994292e-06, 'epoch': 1.84}
+{'loss': 1.2815, 'grad_norm': 2.3968520164489746, 'learning_rate': 2.1735820327369626e-06, 'epoch': 1.84}
+{'loss': 1.3986, 'grad_norm': 2.5139951705932617, 'learning_rate': 2.171678720974496e-06, 'epoch': 1.84}
+{'loss': 1.3923, 'grad_norm': 2.3268849849700928, 'learning_rate': 2.169775409212029e-06, 'epoch': 1.84}
+{'loss': 1.4046, 'grad_norm': 2.424268960952759, 'learning_rate': 2.1678720974495622e-06, 'epoch': 1.84}
+{'loss': 1.391, 'grad_norm': 2.3144543170928955, 'learning_rate': 2.1659687856870956e-06, 'epoch': 1.85}
+{'loss': 1.4084, 'grad_norm': 2.4157726764678955, 'learning_rate': 2.164065473924629e-06, 'epoch': 1.85}
+{'loss': 1.3372, 'grad_norm': 2.3993160724639893, 'learning_rate': 2.1621621621621623e-06, 'epoch': 1.85}
+{'loss': 1.3899, 'grad_norm': 2.3267669677734375, 'learning_rate': 2.1602588503996957e-06, 'epoch': 1.85}
+{'eval_loss': 1.7611773014068604, 'eval_runtime': 37.9582, 'eval_samples_per_second': 26.345, 'eval_steps_per_second': 1.106, 'epoch': 1.85}
+{'loss': 1.3647, 'grad_norm': 2.488994836807251, 'learning_rate': 2.158355538637229e-06, 'epoch': 1.85}
+{'loss': 1.3615, 'grad_norm': 2.32352876663208, 'learning_rate': 2.1564522268747624e-06, 'epoch': 1.85}
+{'loss': 1.4388, 'grad_norm': 2.667987585067749, 'learning_rate': 2.1545489151122958e-06, 'epoch': 1.85}
+{'loss': 1.3939, 'grad_norm': 2.4570565223693848, 'learning_rate': 2.1526456033498287e-06, 'epoch': 1.85}
+{'loss': 1.3834, 'grad_norm': 2.4037978649139404, 'learning_rate': 2.150742291587362e-06, 'epoch': 1.85}
+{'loss': 1.3758, 'grad_norm': 2.42080020904541, 'learning_rate': 2.1488389798248954e-06, 'epoch': 1.86}
+{'loss': 1.4024, 'grad_norm': 2.3361966609954834, 'learning_rate': 2.146935668062429e-06, 'epoch': 1.86}
+{'loss': 1.3365, 'grad_norm': 2.251089334487915, 'learning_rate': 2.145032356299962e-06, 'epoch': 1.86}
+{'loss': 1.3831, 'grad_norm': 2.4046289920806885, 'learning_rate': 2.1431290445374955e-06, 'epoch': 1.86}
+{'loss': 1.3423, 'grad_norm': 2.2613766193389893, 'learning_rate': 2.141225732775029e-06, 'epoch': 1.86}
+{'eval_loss': 1.752854347229004, 'eval_runtime': 37.6469, 'eval_samples_per_second': 26.563, 'eval_steps_per_second': 1.116, 'epoch': 1.86}
+{'loss': 1.3796, 'grad_norm': 2.377535581588745, 'learning_rate': 2.1393224210125623e-06, 'epoch': 1.86}
+{'loss': 1.3664, 'grad_norm': 2.3959462642669678, 'learning_rate': 2.137419109250095e-06, 'epoch': 1.86}
+{'loss': 1.418, 'grad_norm': 2.5317859649658203, 'learning_rate': 2.1355157974876286e-06, 'epoch': 1.86}
+{'loss': 1.4117, 'grad_norm': 2.5266010761260986, 'learning_rate': 2.133612485725162e-06, 'epoch': 1.86}
+{'loss': 1.3206, 'grad_norm': 2.3911185264587402, 'learning_rate': 2.1317091739626953e-06, 'epoch': 1.86}
+{'loss': 1.3475, 'grad_norm': 2.358596086502075, 'learning_rate': 2.1298058622002286e-06, 'epoch': 1.87}
+{'loss': 1.3769, 'grad_norm': 2.348175048828125, 'learning_rate': 2.1279025504377616e-06, 'epoch': 1.87}
+{'loss': 1.3667, 'grad_norm': 2.417470932006836, 'learning_rate': 2.125999238675295e-06, 'epoch': 1.87}
+{'loss': 1.4139, 'grad_norm': 2.5871050357818604, 'learning_rate': 2.1240959269128287e-06, 'epoch': 1.87}
+{'loss': 1.3755, 'grad_norm': 2.384218692779541, 'learning_rate': 2.122192615150362e-06, 'epoch': 1.87}
+{'eval_loss': 1.7497111558914185, 'eval_runtime': 37.7655, 'eval_samples_per_second': 26.479, 'eval_steps_per_second': 1.112, 'epoch': 1.87}
+{'loss': 1.3174, 'grad_norm': 2.354877233505249, 'learning_rate': 2.120289303387895e-06, 'epoch': 1.87}
+{'loss': 1.3699, 'grad_norm': 2.4020509719848633, 'learning_rate': 2.1183859916254284e-06, 'epoch': 1.87}
+{'loss': 1.4053, 'grad_norm': 2.2876627445220947, 'learning_rate': 2.1164826798629618e-06, 'epoch': 1.87}
+{'loss': 1.3569, 'grad_norm': 2.2526464462280273, 'learning_rate': 2.114579368100495e-06, 'epoch': 1.87}
+{'loss': 1.3439, 'grad_norm': 2.340773344039917, 'learning_rate': 2.1126760563380285e-06, 'epoch': 1.87}
+{'loss': 1.3129, 'grad_norm': 2.315812110900879, 'learning_rate': 2.1107727445755614e-06, 'epoch': 1.88}
+{'loss': 1.4372, 'grad_norm': 2.480487108230591, 'learning_rate': 2.1088694328130948e-06, 'epoch': 1.88}
+{'loss': 1.3429, 'grad_norm': 2.267662286758423, 'learning_rate': 2.106966121050628e-06, 'epoch': 1.88}
+{'loss': 1.3963, 'grad_norm': 2.383023977279663, 'learning_rate': 2.1050628092881615e-06, 'epoch': 1.88}
+{'loss': 1.4405, 'grad_norm': 2.4784996509552, 'learning_rate': 2.103159497525695e-06, 'epoch': 1.88}
+{'eval_loss': 1.7609645128250122, 'eval_runtime': 37.904, 'eval_samples_per_second': 26.382, 'eval_steps_per_second': 1.108, 'epoch': 1.88}
+{'loss': 1.3577, 'grad_norm': 2.359614133834839, 'learning_rate': 2.1012561857632282e-06, 'epoch': 1.88}
+{'loss': 1.4082, 'grad_norm': 2.452862501144409, 'learning_rate': 2.0993528740007616e-06, 'epoch': 1.88}
+{'loss': 1.4175, 'grad_norm': 2.384011745452881, 'learning_rate': 2.097449562238295e-06, 'epoch': 1.88}
+{'loss': 1.3693, 'grad_norm': 2.4906508922576904, 'learning_rate': 2.095546250475828e-06, 'epoch': 1.88}
+{'loss': 1.3703, 'grad_norm': 2.510040521621704, 'learning_rate': 2.0936429387133613e-06, 'epoch': 1.88}
+{'loss': 1.4311, 'grad_norm': 2.3438405990600586, 'learning_rate': 2.0917396269508946e-06, 'epoch': 1.89}
+{'loss': 1.3986, 'grad_norm': 2.532226800918579, 'learning_rate': 2.089836315188428e-06, 'epoch': 1.89}
+{'loss': 1.4025, 'grad_norm': 2.4368748664855957, 'learning_rate': 2.0879330034259614e-06, 'epoch': 1.89}
+{'loss': 1.3562, 'grad_norm': 2.4487054347991943, 'learning_rate': 2.0860296916634947e-06, 'epoch': 1.89}
+{'loss': 1.4384, 'grad_norm': 2.6636273860931396, 'learning_rate': 2.084126379901028e-06, 'epoch': 1.89}
+{'eval_loss': 1.7675000429153442, 'eval_runtime': 37.9371, 'eval_samples_per_second': 26.359, 'eval_steps_per_second': 1.107, 'epoch': 1.89}
+{'loss': 1.3462, 'grad_norm': 2.497738838195801, 'learning_rate': 2.0822230681385614e-06, 'epoch': 1.89}
+{'loss': 1.3974, 'grad_norm': 2.4419288635253906, 'learning_rate': 2.080319756376095e-06, 'epoch': 1.89}
+{'loss': 1.3917, 'grad_norm': 2.3671085834503174, 'learning_rate': 2.0784164446136277e-06, 'epoch': 1.89}
+{'loss': 1.3663, 'grad_norm': 2.3837625980377197, 'learning_rate': 2.076513132851161e-06, 'epoch': 1.89}
+{'loss': 1.3962, 'grad_norm': 2.590935468673706, 'learning_rate': 2.0746098210886945e-06, 'epoch': 1.9}
+{'loss': 1.3641, 'grad_norm': 2.2917118072509766, 'learning_rate': 2.072706509326228e-06, 'epoch': 1.9}
+{'loss': 1.3749, 'grad_norm': 2.4366025924682617, 'learning_rate': 2.070803197563761e-06, 'epoch': 1.9}
+{'loss': 1.3655, 'grad_norm': 2.385152816772461, 'learning_rate': 2.068899885801294e-06, 'epoch': 1.9}
+{'loss': 1.3917, 'grad_norm': 2.473550796508789, 'learning_rate': 2.066996574038828e-06, 'epoch': 1.9}
+{'loss': 1.4089, 'grad_norm': 2.360003709793091, 'learning_rate': 2.0650932622763613e-06, 'epoch': 1.9}
+{'eval_loss': 1.7553730010986328, 'eval_runtime': 37.9412, 'eval_samples_per_second': 26.357, 'eval_steps_per_second': 1.107, 'epoch': 1.9}
+{'loss': 1.3033, 'grad_norm': 2.3891544342041016, 'learning_rate': 2.0631899505138942e-06, 'epoch': 1.9}
+{'loss': 1.3446, 'grad_norm': 2.330413341522217, 'learning_rate': 2.0612866387514276e-06, 'epoch': 1.9}
+{'loss': 1.3872, 'grad_norm': 2.3061635494232178, 'learning_rate': 2.059383326988961e-06, 'epoch': 1.9}
+{'loss': 1.362, 'grad_norm': 2.4351041316986084, 'learning_rate': 2.0574800152264943e-06, 'epoch': 1.9}
+{'loss': 1.3417, 'grad_norm': 2.447535991668701, 'learning_rate': 2.0555767034640277e-06, 'epoch': 1.91}
+{'loss': 1.3181, 'grad_norm': 2.369133472442627, 'learning_rate': 2.053673391701561e-06, 'epoch': 1.91}
+{'loss': 1.3913, 'grad_norm': 2.3961751461029053, 'learning_rate': 2.051770079939094e-06, 'epoch': 1.91}
+{'loss': 1.3447, 'grad_norm': 2.40244460105896, 'learning_rate': 2.0498667681766273e-06, 'epoch': 1.91}
+{'loss': 1.3427, 'grad_norm': 2.4332613945007324, 'learning_rate': 2.047963456414161e-06, 'epoch': 1.91}
+{'loss': 1.3697, 'grad_norm': 2.3410897254943848, 'learning_rate': 2.046060144651694e-06, 'epoch': 1.91}
+{'eval_loss': 1.74896240234375, 'eval_runtime': 37.9315, 'eval_samples_per_second': 26.363, 'eval_steps_per_second': 1.107, 'epoch': 1.91}
+{'loss': 1.3752, 'grad_norm': 2.3965389728546143, 'learning_rate': 2.0441568328892274e-06, 'epoch': 1.91}
+{'loss': 1.3807, 'grad_norm': 2.3173274993896484, 'learning_rate': 2.0422535211267608e-06, 'epoch': 1.91}
+{'loss': 1.3551, 'grad_norm': 2.2883224487304688, 'learning_rate': 2.040350209364294e-06, 'epoch': 1.91}
+{'loss': 1.3405, 'grad_norm': 2.2770445346832275, 'learning_rate': 2.0384468976018275e-06, 'epoch': 1.91}
+{'loss': 1.3538, 'grad_norm': 2.3694701194763184, 'learning_rate': 2.0365435858393604e-06, 'epoch': 1.92}
+{'loss': 1.353, 'grad_norm': 2.4186787605285645, 'learning_rate': 2.034640274076894e-06, 'epoch': 1.92}
+{'loss': 1.4149, 'grad_norm': 2.4059510231018066, 'learning_rate': 2.032736962314427e-06, 'epoch': 1.92}
+{'loss': 1.3669, 'grad_norm': 2.5529062747955322, 'learning_rate': 2.0308336505519605e-06, 'epoch': 1.92}
+{'loss': 1.4178, 'grad_norm': 2.3925650119781494, 'learning_rate': 2.028930338789494e-06, 'epoch': 1.92}
+{'loss': 1.3418, 'grad_norm': 2.5203816890716553, 'learning_rate': 2.0270270270270273e-06, 'epoch': 1.92}
+{'eval_loss': 1.7473065853118896, 'eval_runtime': 37.9634, 'eval_samples_per_second': 26.341, 'eval_steps_per_second': 1.106, 'epoch': 1.92}
+{'loss': 1.3611, 'grad_norm': 2.4792747497558594, 'learning_rate': 2.0251237152645606e-06, 'epoch': 1.92}
+{'loss': 1.3433, 'grad_norm': 2.357645273208618, 'learning_rate': 2.023220403502094e-06, 'epoch': 1.92}
+{'loss': 1.3157, 'grad_norm': 2.284149408340454, 'learning_rate': 2.0213170917396273e-06, 'epoch': 1.92}
+{'loss': 1.3435, 'grad_norm': 2.3971638679504395, 'learning_rate': 2.0194137799771603e-06, 'epoch': 1.93}
+{'loss': 1.3619, 'grad_norm': 2.605325222015381, 'learning_rate': 2.0175104682146937e-06, 'epoch': 1.93}
+{'loss': 1.3078, 'grad_norm': 2.3957643508911133, 'learning_rate': 2.015607156452227e-06, 'epoch': 1.93}
+{'loss': 1.3447, 'grad_norm': 2.3887429237365723, 'learning_rate': 2.0137038446897604e-06, 'epoch': 1.93}
+{'loss': 1.3467, 'grad_norm': 2.31253719329834, 'learning_rate': 2.0118005329272937e-06, 'epoch': 1.93}
+{'loss': 1.3466, 'grad_norm': 2.3084523677825928, 'learning_rate': 2.0098972211648267e-06, 'epoch': 1.93}
+{'loss': 1.3525, 'grad_norm': 2.3024210929870605, 'learning_rate': 2.0079939094023605e-06, 'epoch': 1.93}
+{'eval_loss': 1.7498610019683838, 'eval_runtime': 37.9363, 'eval_samples_per_second': 26.36, 'eval_steps_per_second': 1.107, 'epoch': 1.93}
+{'loss': 1.4013, 'grad_norm': 2.342660665512085, 'learning_rate': 2.006090597639894e-06, 'epoch': 1.93}
+{'loss': 1.4154, 'grad_norm': 2.4165151119232178, 'learning_rate': 2.0041872858774268e-06, 'epoch': 1.93}
+{'loss': 1.3903, 'grad_norm': 2.3674707412719727, 'learning_rate': 2.00228397411496e-06, 'epoch': 1.93}
+{'loss': 1.3708, 'grad_norm': 2.2478187084198, 'learning_rate': 2.0003806623524935e-06, 'epoch': 1.94}
+{'loss': 1.3013, 'grad_norm': 2.328073740005493, 'learning_rate': 1.998477350590027e-06, 'epoch': 1.94}
+{'loss': 1.3818, 'grad_norm': 2.4772889614105225, 'learning_rate': 1.9965740388275602e-06, 'epoch': 1.94}
+{'loss': 1.3806, 'grad_norm': 2.456451892852783, 'learning_rate': 1.994670727065093e-06, 'epoch': 1.94}
+{'loss': 1.3262, 'grad_norm': 2.325561046600342, 'learning_rate': 1.9927674153026265e-06, 'epoch': 1.94}
+{'loss': 1.3776, 'grad_norm': 2.447673797607422, 'learning_rate': 1.99086410354016e-06, 'epoch': 1.94}
+{'loss': 1.3593, 'grad_norm': 2.4231903553009033, 'learning_rate': 1.9889607917776937e-06, 'epoch': 1.94}
+{'eval_loss': 1.7612230777740479, 'eval_runtime': 37.9427, 'eval_samples_per_second': 26.356, 'eval_steps_per_second': 1.107, 'epoch': 1.94}
+{'loss': 1.3737, 'grad_norm': 2.5399789810180664, 'learning_rate': 1.9870574800152266e-06, 'epoch': 1.94}
+{'loss': 1.388, 'grad_norm': 2.3155572414398193, 'learning_rate': 1.98515416825276e-06, 'epoch': 1.94}
+{'loss': 1.3734, 'grad_norm': 2.33693265914917, 'learning_rate': 1.9832508564902933e-06, 'epoch': 1.94}
+{'loss': 1.3011, 'grad_norm': 2.2426419258117676, 'learning_rate': 1.9813475447278267e-06, 'epoch': 1.95}
+{'loss': 1.3721, 'grad_norm': 2.4306788444519043, 'learning_rate': 1.97944423296536e-06, 'epoch': 1.95}
+{'loss': 1.363, 'grad_norm': 2.329252004623413, 'learning_rate': 1.977540921202893e-06, 'epoch': 1.95}
+{'loss': 1.3485, 'grad_norm': 2.3523757457733154, 'learning_rate': 1.9756376094404264e-06, 'epoch': 1.95}
+{'loss': 1.3258, 'grad_norm': 2.3240344524383545, 'learning_rate': 1.9737342976779597e-06, 'epoch': 1.95}
+{'loss': 1.406, 'grad_norm': 2.4068586826324463, 'learning_rate': 1.971830985915493e-06, 'epoch': 1.95}
+{'loss': 1.3641, 'grad_norm': 2.385835886001587, 'learning_rate': 1.9699276741530264e-06, 'epoch': 1.95}
+{'eval_loss': 1.747411847114563, 'eval_runtime': 37.9419, 'eval_samples_per_second': 26.356, 'eval_steps_per_second': 1.107, 'epoch': 1.95}
+{'loss': 1.3647, 'grad_norm': 2.3512096405029297, 'learning_rate': 1.96802436239056e-06, 'epoch': 1.95}
+{'loss': 1.3422, 'grad_norm': 2.3813812732696533, 'learning_rate': 1.966121050628093e-06, 'epoch': 1.95}
+{'loss': 1.3918, 'grad_norm': 2.404499053955078, 'learning_rate': 1.9642177388656265e-06, 'epoch': 1.95}
+{'loss': 1.4049, 'grad_norm': 2.4429967403411865, 'learning_rate': 1.9623144271031595e-06, 'epoch': 1.96}
+{'loss': 1.4112, 'grad_norm': 2.505833864212036, 'learning_rate': 1.960411115340693e-06, 'epoch': 1.96}
+{'loss': 1.3648, 'grad_norm': 2.4441304206848145, 'learning_rate': 1.958507803578226e-06, 'epoch': 1.96}
+{'loss': 1.3879, 'grad_norm': 2.4598183631896973, 'learning_rate': 1.9566044918157596e-06, 'epoch': 1.96}
+{'loss': 1.3831, 'grad_norm': 2.3862075805664062, 'learning_rate': 1.954701180053293e-06, 'epoch': 1.96}
+{'loss': 1.3499, 'grad_norm': 2.434634208679199, 'learning_rate': 1.952797868290826e-06, 'epoch': 1.96}
+{'loss': 1.3941, 'grad_norm': 2.4674196243286133, 'learning_rate': 1.9508945565283596e-06, 'epoch': 1.96}
+{'eval_loss': 1.734555959701538, 'eval_runtime': 37.6492, 'eval_samples_per_second': 26.561, 'eval_steps_per_second': 1.116, 'epoch': 1.96}
+{'loss': 1.3731, 'grad_norm': 2.336597442626953, 'learning_rate': 1.948991244765893e-06, 'epoch': 1.96}
+{'loss': 1.3926, 'grad_norm': 2.4431259632110596, 'learning_rate': 1.9470879330034264e-06, 'epoch': 1.96}
+{'loss': 1.3291, 'grad_norm': 2.4182162284851074, 'learning_rate': 1.9451846212409593e-06, 'epoch': 1.97}
+{'loss': 1.3891, 'grad_norm': 2.382519483566284, 'learning_rate': 1.9432813094784927e-06, 'epoch': 1.97}
+{'loss': 1.3206, 'grad_norm': 2.3186089992523193, 'learning_rate': 1.941377997716026e-06, 'epoch': 1.97}
+{'loss': 1.3564, 'grad_norm': 2.32810378074646, 'learning_rate': 1.9394746859535594e-06, 'epoch': 1.97}
+{'loss': 1.3154, 'grad_norm': 2.3164830207824707, 'learning_rate': 1.9375713741910928e-06, 'epoch': 1.97}
+{'loss': 1.3533, 'grad_norm': 2.3495121002197266, 'learning_rate': 1.9356680624286257e-06, 'epoch': 1.97}
+{'loss': 1.3142, 'grad_norm': 2.307860851287842, 'learning_rate': 1.933764750666159e-06, 'epoch': 1.97}
+{'loss': 1.3672, 'grad_norm': 2.2913570404052734, 'learning_rate': 1.931861438903693e-06, 'epoch': 1.97}
+{'eval_loss': 1.7303361892700195, 'eval_runtime': 37.7597, 'eval_samples_per_second': 26.483, 'eval_steps_per_second': 1.112, 'epoch': 1.97}
+{'loss': 1.3317, 'grad_norm': 2.3222689628601074, 'learning_rate': 1.929958127141226e-06, 'epoch': 1.97}
+{'loss': 1.3518, 'grad_norm': 2.2708919048309326, 'learning_rate': 1.928054815378759e-06, 'epoch': 1.97}
+{'loss': 1.4332, 'grad_norm': 2.4408884048461914, 'learning_rate': 1.9261515036162925e-06, 'epoch': 1.98}
+{'loss': 1.3927, 'grad_norm': 2.469506025314331, 'learning_rate': 1.924248191853826e-06, 'epoch': 1.98}
+{'loss': 1.3692, 'grad_norm': 2.3409810066223145, 'learning_rate': 1.9223448800913592e-06, 'epoch': 1.98}
+{'loss': 1.3491, 'grad_norm': 2.293306589126587, 'learning_rate': 1.9204415683288926e-06, 'epoch': 1.98}
+{'loss': 1.381, 'grad_norm': 2.428431272506714, 'learning_rate': 1.9185382565664255e-06, 'epoch': 1.98}
+{'loss': 1.3953, 'grad_norm': 2.4767544269561768, 'learning_rate': 1.916634944803959e-06, 'epoch': 1.98}
+{'loss': 1.3746, 'grad_norm': 2.44821834564209, 'learning_rate': 1.9147316330414923e-06, 'epoch': 1.98}
+{'loss': 1.3619, 'grad_norm': 2.349822759628296, 'learning_rate': 1.9128283212790256e-06, 'epoch': 1.98}
+{'eval_loss': 1.7362234592437744, 'eval_runtime': 37.8754, 'eval_samples_per_second': 26.402, 'eval_steps_per_second': 1.109, 'epoch': 1.98}
+{'loss': 1.4051, 'grad_norm': 2.5379276275634766, 'learning_rate': 1.910925009516559e-06, 'epoch': 1.98}
+{'loss': 1.3693, 'grad_norm': 2.329698324203491, 'learning_rate': 1.9090216977540924e-06, 'epoch': 1.98}
+{'loss': 1.4073, 'grad_norm': 2.424672842025757, 'learning_rate': 1.9071183859916257e-06, 'epoch': 1.99}
+{'loss': 1.3816, 'grad_norm': 2.480088949203491, 'learning_rate': 1.9052150742291589e-06, 'epoch': 1.99}
+{'loss': 1.3804, 'grad_norm': 2.4967830181121826, 'learning_rate': 1.9033117624666922e-06, 'epoch': 1.99}
+{'loss': 1.3452, 'grad_norm': 2.337944984436035, 'learning_rate': 1.9014084507042254e-06, 'epoch': 1.99}
+{'loss': 1.3382, 'grad_norm': 2.4424421787261963, 'learning_rate': 1.8995051389417587e-06, 'epoch': 1.99}
+{'loss': 1.3229, 'grad_norm': 2.2587194442749023, 'learning_rate': 1.8976018271792921e-06, 'epoch': 1.99}
+{'loss': 1.3828, 'grad_norm': 2.4167850017547607, 'learning_rate': 1.8956985154168253e-06, 'epoch': 1.99}
+{'loss': 1.3499, 'grad_norm': 2.397630214691162, 'learning_rate': 1.8937952036543588e-06, 'epoch': 1.99}
+{'eval_loss': 1.7392780780792236, 'eval_runtime': 37.93, 'eval_samples_per_second': 26.364, 'eval_steps_per_second': 1.107, 'epoch': 1.99}
+{'loss': 1.3157, 'grad_norm': 2.3320090770721436, 'learning_rate': 1.8918918918918922e-06, 'epoch': 1.99}
+{'loss': 1.3693, 'grad_norm': 2.4160780906677246, 'learning_rate': 1.8899885801294253e-06, 'epoch': 1.99}
+{'loss': 1.3787, 'grad_norm': 2.4204070568084717, 'learning_rate': 1.8880852683669587e-06, 'epoch': 2.0}
+{'loss': 1.3449, 'grad_norm': 2.3747220039367676, 'learning_rate': 1.886181956604492e-06, 'epoch': 2.0}
+{'loss': 1.3478, 'grad_norm': 2.454822063446045, 'learning_rate': 1.8842786448420252e-06, 'epoch': 2.0}
+{'loss': 1.3786, 'grad_norm': 2.3999180793762207, 'learning_rate': 1.8823753330795586e-06, 'epoch': 2.0}
+{'loss': 1.2788, 'grad_norm': 2.295583963394165, 'learning_rate': 1.8804720213170917e-06, 'epoch': 2.0}
+{'loss': 1.2981, 'grad_norm': 2.5762782096862793, 'learning_rate': 1.878568709554625e-06, 'epoch': 2.0}
+{'loss': 1.3315, 'grad_norm': 2.7369227409362793, 'learning_rate': 1.8766653977921585e-06, 'epoch': 2.0}
+{'loss': 1.3112, 'grad_norm': 2.5014007091522217, 'learning_rate': 1.874762086029692e-06, 'epoch': 2.0}
+{'eval_loss': 1.7656217813491821, 'eval_runtime': 37.9186, 'eval_samples_per_second': 26.372, 'eval_steps_per_second': 1.108, 'epoch': 2.0}
+{'loss': 1.3328, 'grad_norm': 2.7794134616851807, 'learning_rate': 1.8728587742672252e-06, 'epoch': 2.0}
+{'loss': 1.3467, 'grad_norm': 2.9862377643585205, 'learning_rate': 1.8709554625047585e-06, 'epoch': 2.01}
+{'loss': 1.2869, 'grad_norm': 2.8717260360717773, 'learning_rate': 1.8690521507422917e-06, 'epoch': 2.01}
+{'loss': 1.3081, 'grad_norm': 2.6782584190368652, 'learning_rate': 1.867148838979825e-06, 'epoch': 2.01}
+{'loss': 1.3089, 'grad_norm': 2.804760456085205, 'learning_rate': 1.8652455272173584e-06, 'epoch': 2.01}
+{'loss': 1.352, 'grad_norm': 2.8827545642852783, 'learning_rate': 1.8633422154548916e-06, 'epoch': 2.01}
+{'loss': 1.2582, 'grad_norm': 2.6346447467803955, 'learning_rate': 1.861438903692425e-06, 'epoch': 2.01}
+{'loss': 1.2807, 'grad_norm': 2.690293073654175, 'learning_rate': 1.859535591929958e-06, 'epoch': 2.01}
+{'loss': 1.3553, 'grad_norm': 2.8933660984039307, 'learning_rate': 1.8576322801674915e-06, 'epoch': 2.01}
+{'loss': 1.2971, 'grad_norm': 2.6514511108398438, 'learning_rate': 1.855728968405025e-06, 'epoch': 2.01}
+{'eval_loss': 1.7628012895584106, 'eval_runtime': 37.9132, 'eval_samples_per_second': 26.376, 'eval_steps_per_second': 1.108, 'epoch': 2.01}
+{'loss': 1.3132, 'grad_norm': 2.8454601764678955, 'learning_rate': 1.8538256566425584e-06, 'epoch': 2.01}
+{'loss': 1.3503, 'grad_norm': 2.715981960296631, 'learning_rate': 1.8519223448800915e-06, 'epoch': 2.02}
+{'loss': 1.2966, 'grad_norm': 2.688493251800537, 'learning_rate': 1.850019033117625e-06, 'epoch': 2.02}
+{'loss': 1.2969, 'grad_norm': 2.6956987380981445, 'learning_rate': 1.848115721355158e-06, 'epoch': 2.02}
+{'loss': 1.3207, 'grad_norm': 2.697744607925415, 'learning_rate': 1.8462124095926914e-06, 'epoch': 2.02}
+{'loss': 1.3311, 'grad_norm': 2.7628865242004395, 'learning_rate': 1.8443090978302248e-06, 'epoch': 2.02}
+{'loss': 1.3411, 'grad_norm': 2.801499366760254, 'learning_rate': 1.842405786067758e-06, 'epoch': 2.02}
+{'loss': 1.2985, 'grad_norm': 2.6009418964385986, 'learning_rate': 1.8405024743052913e-06, 'epoch': 2.02}
+{'loss': 1.3407, 'grad_norm': 2.772385358810425, 'learning_rate': 1.8385991625428247e-06, 'epoch': 2.02}
+{'loss': 1.2814, 'grad_norm': 2.558302164077759, 'learning_rate': 1.8366958507803578e-06, 'epoch': 2.02}
+{'eval_loss': 1.7421122789382935, 'eval_runtime': 37.9255, 'eval_samples_per_second': 26.367, 'eval_steps_per_second': 1.107, 'epoch': 2.02}
+{'loss': 1.3309, 'grad_norm': 2.813371181488037, 'learning_rate': 1.8347925390178914e-06, 'epoch': 2.02}
+{'loss': 1.2711, 'grad_norm': 2.742785692214966, 'learning_rate': 1.8328892272554247e-06, 'epoch': 2.03}
+{'loss': 1.3309, 'grad_norm': 2.889450788497925, 'learning_rate': 1.8309859154929579e-06, 'epoch': 2.03}
+{'loss': 1.3168, 'grad_norm': 2.919278860092163, 'learning_rate': 1.8290826037304913e-06, 'epoch': 2.03}
+{'loss': 1.29, 'grad_norm': 2.6912894248962402, 'learning_rate': 1.8271792919680246e-06, 'epoch': 2.03}
+{'loss': 1.2873, 'grad_norm': 2.584214687347412, 'learning_rate': 1.8252759802055578e-06, 'epoch': 2.03}
+{'loss': 1.3335, 'grad_norm': 2.6445112228393555, 'learning_rate': 1.8233726684430911e-06, 'epoch': 2.03}
+{'loss': 1.2795, 'grad_norm': 2.6441738605499268, 'learning_rate': 1.8214693566806243e-06, 'epoch': 2.03}
+{'loss': 1.3142, 'grad_norm': 2.7365334033966064, 'learning_rate': 1.8195660449181576e-06, 'epoch': 2.03}
+{'loss': 1.3175, 'grad_norm': 2.7914040088653564, 'learning_rate': 1.817662733155691e-06, 'epoch': 2.03}
+{'eval_loss': 1.7680878639221191, 'eval_runtime': 37.9012, 'eval_samples_per_second': 26.384, 'eval_steps_per_second': 1.108, 'epoch': 2.03}
+{'loss': 1.3157, 'grad_norm': 2.6883442401885986, 'learning_rate': 1.8157594213932244e-06, 'epoch': 2.03}
+{'loss': 1.33, 'grad_norm': 2.7459399700164795, 'learning_rate': 1.8138561096307577e-06, 'epoch': 2.04}
+{'loss': 1.2664, 'grad_norm': 2.620150327682495, 'learning_rate': 1.811952797868291e-06, 'epoch': 2.04}
+{'loss': 1.3174, 'grad_norm': 2.6702964305877686, 'learning_rate': 1.8100494861058242e-06, 'epoch': 2.04}
+{'loss': 1.3224, 'grad_norm': 2.6688029766082764, 'learning_rate': 1.8081461743433576e-06, 'epoch': 2.04}
+{'loss': 1.2804, 'grad_norm': 2.7634220123291016, 'learning_rate': 1.806242862580891e-06, 'epoch': 2.04}
+{'loss': 1.3242, 'grad_norm': 2.8583552837371826, 'learning_rate': 1.8043395508184241e-06, 'epoch': 2.04}
+{'loss': 1.3101, 'grad_norm': 2.776536703109741, 'learning_rate': 1.8024362390559575e-06, 'epoch': 2.04}
+{'loss': 1.2875, 'grad_norm': 2.8194644451141357, 'learning_rate': 1.8005329272934906e-06, 'epoch': 2.04}
+{'loss': 1.365, 'grad_norm': 3.063290596008301, 'learning_rate': 1.798629615531024e-06, 'epoch': 2.04}
+{'eval_loss': 1.7815766334533691, 'eval_runtime': 37.9473, 'eval_samples_per_second': 26.352, 'eval_steps_per_second': 1.107, 'epoch': 2.04}
+{'loss': 1.3109, 'grad_norm': 2.8954226970672607, 'learning_rate': 1.7967263037685576e-06, 'epoch': 2.05}
+{'loss': 1.2983, 'grad_norm': 2.9319002628326416, 'learning_rate': 1.794822992006091e-06, 'epoch': 2.05}
+{'loss': 1.3571, 'grad_norm': 2.920145034790039, 'learning_rate': 1.792919680243624e-06, 'epoch': 2.05}
+{'loss': 1.2752, 'grad_norm': 2.6473276615142822, 'learning_rate': 1.7910163684811574e-06, 'epoch': 2.05}
+{'loss': 1.311, 'grad_norm': 2.6453239917755127, 'learning_rate': 1.7891130567186906e-06, 'epoch': 2.05}
+{'loss': 1.2817, 'grad_norm': 2.6123287677764893, 'learning_rate': 1.787209744956224e-06, 'epoch': 2.05}
+{'loss': 1.3067, 'grad_norm': 2.6542904376983643, 'learning_rate': 1.7853064331937573e-06, 'epoch': 2.05}
+{'loss': 1.3436, 'grad_norm': 2.799492835998535, 'learning_rate': 1.7834031214312905e-06, 'epoch': 2.05}
+{'loss': 1.2819, 'grad_norm': 2.6220905780792236, 'learning_rate': 1.7814998096688238e-06, 'epoch': 2.05}
+{'loss': 1.3099, 'grad_norm': 2.691195487976074, 'learning_rate': 1.779596497906357e-06, 'epoch': 2.05}
+{'eval_loss': 1.770631194114685, 'eval_runtime': 37.9652, 'eval_samples_per_second': 26.34, 'eval_steps_per_second': 1.106, 'epoch': 2.05}
+{'loss': 1.3599, 'grad_norm': 2.8053042888641357, 'learning_rate': 1.7776931861438906e-06, 'epoch': 2.06}
+{'loss': 1.3527, 'grad_norm': 2.784608840942383, 'learning_rate': 1.775789874381424e-06, 'epoch': 2.06}
+{'loss': 1.3363, 'grad_norm': 2.8933472633361816, 'learning_rate': 1.7738865626189573e-06, 'epoch': 2.06}
+{'loss': 1.2678, 'grad_norm': 2.691600799560547, 'learning_rate': 1.7719832508564904e-06, 'epoch': 2.06}
+{'loss': 1.3002, 'grad_norm': 2.627678394317627, 'learning_rate': 1.7700799390940238e-06, 'epoch': 2.06}
+{'loss': 1.3237, 'grad_norm': 2.724674940109253, 'learning_rate': 1.768176627331557e-06, 'epoch': 2.06}
+{'loss': 1.3165, 'grad_norm': 2.59698224067688, 'learning_rate': 1.7662733155690903e-06, 'epoch': 2.06}
+{'loss': 1.3478, 'grad_norm': 2.7686543464660645, 'learning_rate': 1.7643700038066237e-06, 'epoch': 2.06}
+{'loss': 1.2851, 'grad_norm': 2.6561412811279297, 'learning_rate': 1.7624666920441568e-06, 'epoch': 2.06}
+{'loss': 1.2726, 'grad_norm': 2.722731351852417, 'learning_rate': 1.7605633802816902e-06, 'epoch': 2.06}
+{'eval_loss': 1.7728410959243774, 'eval_runtime': 37.6541, 'eval_samples_per_second': 26.558, 'eval_steps_per_second': 1.115, 'epoch': 2.06}
+{'loss': 1.3603, 'grad_norm': 2.910609483718872, 'learning_rate': 1.7586600685192238e-06, 'epoch': 2.07}
+{'loss': 1.3705, 'grad_norm': 2.9910264015197754, 'learning_rate': 1.756756756756757e-06, 'epoch': 2.07}
+{'loss': 1.3372, 'grad_norm': 2.6477038860321045, 'learning_rate': 1.7548534449942903e-06, 'epoch': 2.07}
+{'loss': 1.3068, 'grad_norm': 2.667626142501831, 'learning_rate': 1.7529501332318236e-06, 'epoch': 2.07}
+{'loss': 1.2813, 'grad_norm': 2.7895913124084473, 'learning_rate': 1.7510468214693568e-06, 'epoch': 2.07}
+{'loss': 1.2852, 'grad_norm': 2.5626792907714844, 'learning_rate': 1.7491435097068902e-06, 'epoch': 2.07}
+{'loss': 1.3203, 'grad_norm': 2.71805739402771, 'learning_rate': 1.7472401979444233e-06, 'epoch': 2.07}
+{'loss': 1.2617, 'grad_norm': 2.6200578212738037, 'learning_rate': 1.7453368861819567e-06, 'epoch': 2.07}
+{'loss': 1.3082, 'grad_norm': 2.7212417125701904, 'learning_rate': 1.74343357441949e-06, 'epoch': 2.07}
+{'loss': 1.3699, 'grad_norm': 2.983325958251953, 'learning_rate': 1.7415302626570232e-06, 'epoch': 2.07}
+{'eval_loss': 1.756274700164795, 'eval_runtime': 37.7628, 'eval_samples_per_second': 26.481, 'eval_steps_per_second': 1.112, 'epoch': 2.07}
+{'loss': 1.3024, 'grad_norm': 2.6345975399017334, 'learning_rate': 1.7396269508945568e-06, 'epoch': 2.08}
+{'loss': 1.2737, 'grad_norm': 2.670807123184204, 'learning_rate': 1.7377236391320901e-06, 'epoch': 2.08}
+{'loss': 1.3459, 'grad_norm': 2.788457155227661, 'learning_rate': 1.7358203273696233e-06, 'epoch': 2.08}
+{'loss': 1.3019, 'grad_norm': 2.740338087081909, 'learning_rate': 1.7339170156071566e-06, 'epoch': 2.08}
+{'loss': 1.3096, 'grad_norm': 2.605855941772461, 'learning_rate': 1.73201370384469e-06, 'epoch': 2.08}
+{'loss': 1.3168, 'grad_norm': 2.640096664428711, 'learning_rate': 1.7301103920822231e-06, 'epoch': 2.08}
+{'loss': 1.3121, 'grad_norm': 2.7602169513702393, 'learning_rate': 1.7282070803197565e-06, 'epoch': 2.08}
+{'loss': 1.3071, 'grad_norm': 2.658534526824951, 'learning_rate': 1.7263037685572897e-06, 'epoch': 2.08}
+{'loss': 1.3336, 'grad_norm': 2.7146220207214355, 'learning_rate': 1.724400456794823e-06, 'epoch': 2.08}
+{'loss': 1.3013, 'grad_norm': 2.694387197494507, 'learning_rate': 1.7224971450323564e-06, 'epoch': 2.09}
+{'eval_loss': 1.7371397018432617, 'eval_runtime': 37.848, 'eval_samples_per_second': 26.421, 'eval_steps_per_second': 1.11, 'epoch': 2.09}
+{'loss': 1.3048, 'grad_norm': 2.7298598289489746, 'learning_rate': 1.72059383326989e-06, 'epoch': 2.09}
+{'loss': 1.3561, 'grad_norm': 2.9527862071990967, 'learning_rate': 1.7186905215074231e-06, 'epoch': 2.09}
+{'loss': 1.2897, 'grad_norm': 2.7970757484436035, 'learning_rate': 1.7167872097449565e-06, 'epoch': 2.09}
+{'loss': 1.3092, 'grad_norm': 2.7579336166381836, 'learning_rate': 1.7148838979824896e-06, 'epoch': 2.09}
+{'loss': 1.3056, 'grad_norm': 2.8146934509277344, 'learning_rate': 1.712980586220023e-06, 'epoch': 2.09}
+{'loss': 1.2924, 'grad_norm': 2.812089443206787, 'learning_rate': 1.7110772744575563e-06, 'epoch': 2.09}
+{'loss': 1.3058, 'grad_norm': 2.7205023765563965, 'learning_rate': 1.7091739626950895e-06, 'epoch': 2.09}
+{'loss': 1.3336, 'grad_norm': 2.692681312561035, 'learning_rate': 1.7072706509326229e-06, 'epoch': 2.09}
+{'loss': 1.3171, 'grad_norm': 2.8189735412597656, 'learning_rate': 1.7053673391701562e-06, 'epoch': 2.09}
+{'loss': 1.285, 'grad_norm': 2.664710760116577, 'learning_rate': 1.7034640274076894e-06, 'epoch': 2.1}
+{'eval_loss': 1.7483630180358887, 'eval_runtime': 37.9016, 'eval_samples_per_second': 26.384, 'eval_steps_per_second': 1.108, 'epoch': 2.1}
+{'loss': 1.35, 'grad_norm': 2.664710760116577, 'learning_rate': 1.7034640274076894e-06, 'epoch': 2.1}
+{'loss': 1.2723, 'grad_norm': 2.6864893436431885, 'learning_rate': 1.701560715645223e-06, 'epoch': 2.1}
+{'loss': 1.3154, 'grad_norm': 2.751150608062744, 'learning_rate': 1.6996574038827563e-06, 'epoch': 2.1}
+{'loss': 1.3043, 'grad_norm': 2.7600581645965576, 'learning_rate': 1.6977540921202895e-06, 'epoch': 2.1}
+{'loss': 1.3183, 'grad_norm': 2.7397212982177734, 'learning_rate': 1.6958507803578228e-06, 'epoch': 2.1}
+{'loss': 1.3367, 'grad_norm': 2.7808914184570312, 'learning_rate': 1.693947468595356e-06, 'epoch': 2.1}
+{'loss': 1.2638, 'grad_norm': 2.534454584121704, 'learning_rate': 1.6920441568328893e-06, 'epoch': 2.1}
+{'loss': 1.2955, 'grad_norm': 2.6857175827026367, 'learning_rate': 1.6901408450704227e-06, 'epoch': 2.1}
+{'loss': 1.3482, 'grad_norm': 2.689323663711548, 'learning_rate': 1.6882375333079559e-06, 'epoch': 2.1}
+{'loss': 1.3405, 'grad_norm': 2.7330009937286377, 'learning_rate': 1.6863342215454892e-06, 'epoch': 2.11}
+{'eval_loss': 1.757278323173523, 'eval_runtime': 37.9263, 'eval_samples_per_second': 26.367, 'eval_steps_per_second': 1.107, 'epoch': 2.11}
+{'loss': 1.3338, 'grad_norm': 2.847092628479004, 'learning_rate': 1.6844309097830226e-06, 'epoch': 2.11}
+{'loss': 1.3446, 'grad_norm': 2.8156185150146484, 'learning_rate': 1.682527598020556e-06, 'epoch': 2.11}
+{'loss': 1.2962, 'grad_norm': 2.665828227996826, 'learning_rate': 1.6806242862580893e-06, 'epoch': 2.11}
+{'loss': 1.2798, 'grad_norm': 2.6218175888061523, 'learning_rate': 1.6787209744956227e-06, 'epoch': 2.11}
+{'loss': 1.3243, 'grad_norm': 2.622291326522827, 'learning_rate': 1.6768176627331558e-06, 'epoch': 2.11}
+{'loss': 1.2919, 'grad_norm': 2.7171177864074707, 'learning_rate': 1.6749143509706892e-06, 'epoch': 2.11}
+{'loss': 1.3152, 'grad_norm': 2.655845880508423, 'learning_rate': 1.6730110392082225e-06, 'epoch': 2.11}
+{'loss': 1.2694, 'grad_norm': 2.7783730030059814, 'learning_rate': 1.6711077274457557e-06, 'epoch': 2.11}
+{'loss': 1.3335, 'grad_norm': 2.819627046585083, 'learning_rate': 1.669204415683289e-06, 'epoch': 2.12}
+{'loss': 1.3172, 'grad_norm': 2.817685127258301, 'learning_rate': 1.6673011039208222e-06, 'epoch': 2.12}
+{'eval_loss': 1.7683359384536743, 'eval_runtime': 37.8941, 'eval_samples_per_second': 26.389, 'eval_steps_per_second': 1.108, 'epoch': 2.12}
+{'loss': 1.3356, 'grad_norm': 2.9053642749786377, 'learning_rate': 1.6653977921583556e-06, 'epoch': 2.12}
+{'loss': 1.2915, 'grad_norm': 2.6939432621002197, 'learning_rate': 1.663494480395889e-06, 'epoch': 2.12}
+{'loss': 1.3188, 'grad_norm': 2.8870749473571777, 'learning_rate': 1.6615911686334225e-06, 'epoch': 2.12}
+{'loss': 1.2984, 'grad_norm': 2.6949965953826904, 'learning_rate': 1.6596878568709557e-06, 'epoch': 2.12}
+{'loss': 1.3328, 'grad_norm': 2.6951143741607666, 'learning_rate': 1.657784545108489e-06, 'epoch': 2.12}
+{'loss': 1.3327, 'grad_norm': 2.6718437671661377, 'learning_rate': 1.6558812333460222e-06, 'epoch': 2.12}
+{'loss': 1.2941, 'grad_norm': 2.7002549171447754, 'learning_rate': 1.6539779215835555e-06, 'epoch': 2.12}
+{'loss': 1.301, 'grad_norm': 2.695836305618286, 'learning_rate': 1.652074609821089e-06, 'epoch': 2.12}
+{'loss': 1.3084, 'grad_norm': 2.7710680961608887, 'learning_rate': 1.650171298058622e-06, 'epoch': 2.13}
+{'loss': 1.2984, 'grad_norm': 2.7416014671325684, 'learning_rate': 1.6482679862961554e-06, 'epoch': 2.13}
+{'eval_loss': 1.7566925287246704, 'eval_runtime': 37.9783, 'eval_samples_per_second': 26.331, 'eval_steps_per_second': 1.106, 'epoch': 2.13}
+{'loss': 1.2817, 'grad_norm': 2.570422887802124, 'learning_rate': 1.6463646745336886e-06, 'epoch': 2.13}
+{'loss': 1.308, 'grad_norm': 2.658071517944336, 'learning_rate': 1.644461362771222e-06, 'epoch': 2.13}
+{'loss': 1.2854, 'grad_norm': 2.65232515335083, 'learning_rate': 1.6425580510087555e-06, 'epoch': 2.13}
+{'loss': 1.2836, 'grad_norm': 2.6072998046875, 'learning_rate': 1.6406547392462889e-06, 'epoch': 2.13}
+{'loss': 1.3258, 'grad_norm': 2.6997647285461426, 'learning_rate': 1.638751427483822e-06, 'epoch': 2.13}
+{'loss': 1.2987, 'grad_norm': 2.5479812622070312, 'learning_rate': 1.6368481157213554e-06, 'epoch': 2.13}
+{'loss': 1.3542, 'grad_norm': 2.801560878753662, 'learning_rate': 1.6349448039588885e-06, 'epoch': 2.13}
+{'loss': 1.2832, 'grad_norm': 2.6710598468780518, 'learning_rate': 1.6330414921964219e-06, 'epoch': 2.13}
+{'loss': 1.327, 'grad_norm': 2.8505167961120605, 'learning_rate': 1.6311381804339553e-06, 'epoch': 2.14}
+{'loss': 1.3003, 'grad_norm': 2.6584553718566895, 'learning_rate': 1.6292348686714884e-06, 'epoch': 2.14}
+{'eval_loss': 1.7610517740249634, 'eval_runtime': 37.9139, 'eval_samples_per_second': 26.376, 'eval_steps_per_second': 1.108, 'epoch': 2.14}
+{'loss': 1.3759, 'grad_norm': 2.7930376529693604, 'learning_rate': 1.6273315569090218e-06, 'epoch': 2.14}
+{'loss': 1.3512, 'grad_norm': 2.6514129638671875, 'learning_rate': 1.625428245146555e-06, 'epoch': 2.14}
+{'loss': 1.3074, 'grad_norm': 2.626838445663452, 'learning_rate': 1.6235249333840885e-06, 'epoch': 2.14}
+{'loss': 1.3327, 'grad_norm': 2.741288661956787, 'learning_rate': 1.6216216216216219e-06, 'epoch': 2.14}
+{'loss': 1.3193, 'grad_norm': 2.7371652126312256, 'learning_rate': 1.6197183098591552e-06, 'epoch': 2.14}
+{'loss': 1.2899, 'grad_norm': 2.631516218185425, 'learning_rate': 1.6178149980966884e-06, 'epoch': 2.14}
+{'loss': 1.356, 'grad_norm': 2.7853667736053467, 'learning_rate': 1.6159116863342217e-06, 'epoch': 2.14}
+{'loss': 1.2885, 'grad_norm': 2.598886489868164, 'learning_rate': 1.6140083745717549e-06, 'epoch': 2.14}
+{'loss': 1.3471, 'grad_norm': 2.700669288635254, 'learning_rate': 1.6121050628092882e-06, 'epoch': 2.15}
+{'loss': 1.2635, 'grad_norm': 2.6174018383026123, 'learning_rate': 1.6102017510468216e-06, 'epoch': 2.15}
+{'eval_loss': 1.764804482460022, 'eval_runtime': 37.8935, 'eval_samples_per_second': 26.39, 'eval_steps_per_second': 1.108, 'epoch': 2.15}
+{'loss': 1.3178, 'grad_norm': 2.8135688304901123, 'learning_rate': 1.6082984392843548e-06, 'epoch': 2.15}
+{'loss': 1.3652, 'grad_norm': 2.8416011333465576, 'learning_rate': 1.6063951275218881e-06, 'epoch': 2.15}
+{'loss': 1.2921, 'grad_norm': 2.780001640319824, 'learning_rate': 1.6044918157594217e-06, 'epoch': 2.15}
+{'loss': 1.3224, 'grad_norm': 2.634460926055908, 'learning_rate': 1.6025885039969548e-06, 'epoch': 2.15}
+{'loss': 1.3297, 'grad_norm': 2.6783623695373535, 'learning_rate': 1.6006851922344882e-06, 'epoch': 2.15}
+{'loss': 1.3324, 'grad_norm': 2.7781169414520264, 'learning_rate': 1.5987818804720216e-06, 'epoch': 2.15}
+{'loss': 1.2801, 'grad_norm': 2.587174415588379, 'learning_rate': 1.5968785687095547e-06, 'epoch': 2.15}
+{'loss': 1.3323, 'grad_norm': 2.654083728790283, 'learning_rate': 1.594975256947088e-06, 'epoch': 2.16}
+{'loss': 1.289, 'grad_norm': 2.6695969104766846, 'learning_rate': 1.5930719451846212e-06, 'epoch': 2.16}
+{'loss': 1.3425, 'grad_norm': 2.7060039043426514, 'learning_rate': 1.5911686334221546e-06, 'epoch': 2.16}
+{'eval_loss': 1.7727104425430298, 'eval_runtime': 37.9001, 'eval_samples_per_second': 26.385, 'eval_steps_per_second': 1.108, 'epoch': 2.16}
+{'loss': 1.2538, 'grad_norm': 2.536756753921509, 'learning_rate': 1.589265321659688e-06, 'epoch': 2.16}
+{'loss': 1.2925, 'grad_norm': 2.655916213989258, 'learning_rate': 1.5873620098972211e-06, 'epoch': 2.16}
+{'loss': 1.3386, 'grad_norm': 2.686228036880493, 'learning_rate': 1.5854586981347547e-06, 'epoch': 2.16}
+{'loss': 1.348, 'grad_norm': 2.794640302658081, 'learning_rate': 1.583555386372288e-06, 'epoch': 2.16}
+{'loss': 1.3029, 'grad_norm': 2.6761186122894287, 'learning_rate': 1.5816520746098212e-06, 'epoch': 2.16}
+{'loss': 1.2802, 'grad_norm': 2.5585744380950928, 'learning_rate': 1.5797487628473546e-06, 'epoch': 2.16}
+{'loss': 1.3048, 'grad_norm': 2.6511101722717285, 'learning_rate': 1.577845451084888e-06, 'epoch': 2.16}
+{'loss': 1.2433, 'grad_norm': 2.601940870285034, 'learning_rate': 1.575942139322421e-06, 'epoch': 2.17}
+{'loss': 1.3296, 'grad_norm': 2.676440954208374, 'learning_rate': 1.5740388275599544e-06, 'epoch': 2.17}
+{'loss': 1.2931, 'grad_norm': 2.7463326454162598, 'learning_rate': 1.5721355157974876e-06, 'epoch': 2.17}
+{'eval_loss': 1.7691689729690552, 'eval_runtime': 37.6043, 'eval_samples_per_second': 26.593, 'eval_steps_per_second': 1.117, 'epoch': 2.17}
+{'loss': 1.3091, 'grad_norm': 2.895216464996338, 'learning_rate': 1.570232204035021e-06, 'epoch': 2.17}
+{'loss': 1.3197, 'grad_norm': 2.765704870223999, 'learning_rate': 1.5683288922725543e-06, 'epoch': 2.17}
+{'loss': 1.3016, 'grad_norm': 2.750681161880493, 'learning_rate': 1.5664255805100879e-06, 'epoch': 2.17}
+{'loss': 1.3176, 'grad_norm': 2.6807963848114014, 'learning_rate': 1.564522268747621e-06, 'epoch': 2.17}
+{'loss': 1.2391, 'grad_norm': 2.618666410446167, 'learning_rate': 1.5626189569851544e-06, 'epoch': 2.17}
+{'loss': 1.3264, 'grad_norm': 2.745319128036499, 'learning_rate': 1.5607156452226875e-06, 'epoch': 2.17}
+{'loss': 1.319, 'grad_norm': 2.787904977798462, 'learning_rate': 1.558812333460221e-06, 'epoch': 2.17}
+{'loss': 1.3216, 'grad_norm': 2.6901752948760986, 'learning_rate': 1.5569090216977543e-06, 'epoch': 2.18}
+{'loss': 1.3241, 'grad_norm': 2.723172426223755, 'learning_rate': 1.5550057099352874e-06, 'epoch': 2.18}
+{'loss': 1.2892, 'grad_norm': 2.6102678775787354, 'learning_rate': 1.5531023981728208e-06, 'epoch': 2.18}
+{'eval_loss': 1.7888449430465698, 'eval_runtime': 37.7503, 'eval_samples_per_second': 26.49, 'eval_steps_per_second': 1.113, 'epoch': 2.18}
+{'loss': 1.322, 'grad_norm': 2.653026819229126, 'learning_rate': 1.5511990864103542e-06, 'epoch': 2.18}
+{'loss': 1.3412, 'grad_norm': 2.806363344192505, 'learning_rate': 1.5492957746478873e-06, 'epoch': 2.18}
+{'loss': 1.2953, 'grad_norm': 2.682968854904175, 'learning_rate': 1.5473924628854209e-06, 'epoch': 2.18}
+{'loss': 1.312, 'grad_norm': 2.7165629863739014, 'learning_rate': 1.5454891511229542e-06, 'epoch': 2.18}
+{'loss': 1.3318, 'grad_norm': 2.8055427074432373, 'learning_rate': 1.5435858393604874e-06, 'epoch': 2.18}
+{'loss': 1.3059, 'grad_norm': 2.731459617614746, 'learning_rate': 1.5416825275980208e-06, 'epoch': 2.18}
+{'loss': 1.2945, 'grad_norm': 2.6671993732452393, 'learning_rate': 1.539779215835554e-06, 'epoch': 2.18}
+{'loss': 1.3437, 'grad_norm': 2.8046534061431885, 'learning_rate': 1.5378759040730873e-06, 'epoch': 2.19}
+{'loss': 1.3221, 'grad_norm': 2.717656135559082, 'learning_rate': 1.5359725923106206e-06, 'epoch': 2.19}
+{'loss': 1.2857, 'grad_norm': 2.746224880218506, 'learning_rate': 1.5340692805481538e-06, 'epoch': 2.19}
+{'eval_loss': 1.777937889099121, 'eval_runtime': 37.8481, 'eval_samples_per_second': 26.421, 'eval_steps_per_second': 1.11, 'epoch': 2.19}
+{'loss': 1.2811, 'grad_norm': 2.6477184295654297, 'learning_rate': 1.5321659687856871e-06, 'epoch': 2.19}
+{'loss': 1.2542, 'grad_norm': 2.664757251739502, 'learning_rate': 1.5302626570232205e-06, 'epoch': 2.19}
+{'loss': 1.3485, 'grad_norm': 2.8133883476257324, 'learning_rate': 1.5283593452607539e-06, 'epoch': 2.19}
+{'loss': 1.2974, 'grad_norm': 2.723867893218994, 'learning_rate': 1.5264560334982872e-06, 'epoch': 2.19}
+{'loss': 1.3219, 'grad_norm': 2.776700496673584, 'learning_rate': 1.5245527217358206e-06, 'epoch': 2.19}
+{'loss': 1.2923, 'grad_norm': 2.547466993331909, 'learning_rate': 1.5226494099733537e-06, 'epoch': 2.19}
+{'loss': 1.3466, 'grad_norm': 2.7371773719787598, 'learning_rate': 1.520746098210887e-06, 'epoch': 2.2}
+{'loss': 1.2865, 'grad_norm': 2.4609546661376953, 'learning_rate': 1.5188427864484205e-06, 'epoch': 2.2}
+{'loss': 1.3071, 'grad_norm': 2.6336286067962646, 'learning_rate': 1.5169394746859536e-06, 'epoch': 2.2}
+{'loss': 1.3216, 'grad_norm': 2.6983938217163086, 'learning_rate': 1.515036162923487e-06, 'epoch': 2.2}
+{'eval_loss': 1.7778681516647339, 'eval_runtime': 37.873, 'eval_samples_per_second': 26.404, 'eval_steps_per_second': 1.109, 'epoch': 2.2}
+{'loss': 1.3517, 'grad_norm': 2.8055241107940674, 'learning_rate': 1.5131328511610201e-06, 'epoch': 2.2}
+{'loss': 1.3242, 'grad_norm': 2.760460615158081, 'learning_rate': 1.5112295393985535e-06, 'epoch': 2.2}
+{'loss': 1.2595, 'grad_norm': 2.574289560317993, 'learning_rate': 1.509326227636087e-06, 'epoch': 2.2}
+{'loss': 1.3167, 'grad_norm': 2.827829360961914, 'learning_rate': 1.5074229158736204e-06, 'epoch': 2.2}
+{'loss': 1.3161, 'grad_norm': 2.7533328533172607, 'learning_rate': 1.5055196041111536e-06, 'epoch': 2.2}
+{'loss': 1.3444, 'grad_norm': 2.865976095199585, 'learning_rate': 1.503616292348687e-06, 'epoch': 2.2}
+{'loss': 1.2566, 'grad_norm': 2.5228123664855957, 'learning_rate': 1.50171298058622e-06, 'epoch': 2.21}
+{'loss': 1.3284, 'grad_norm': 2.682549238204956, 'learning_rate': 1.4998096688237535e-06, 'epoch': 2.21}
+{'loss': 1.3148, 'grad_norm': 2.8158624172210693, 'learning_rate': 1.4979063570612868e-06, 'epoch': 2.21}
+{'loss': 1.2914, 'grad_norm': 2.7644388675689697, 'learning_rate': 1.49600304529882e-06, 'epoch': 2.21}
+{'eval_loss': 1.7767399549484253, 'eval_runtime': 37.8771, 'eval_samples_per_second': 26.401, 'eval_steps_per_second': 1.109, 'epoch': 2.21}
+{'loss': 1.3165, 'grad_norm': 2.7370104789733887, 'learning_rate': 1.4940997335363533e-06, 'epoch': 2.21}
+{'loss': 1.3038, 'grad_norm': 2.692795753479004, 'learning_rate': 1.4921964217738865e-06, 'epoch': 2.21}
+{'loss': 1.3315, 'grad_norm': 2.8083877563476562, 'learning_rate': 1.49029311001142e-06, 'epoch': 2.21}
+{'loss': 1.3319, 'grad_norm': 2.816497325897217, 'learning_rate': 1.4883897982489534e-06, 'epoch': 2.21}
+{'loss': 1.3057, 'grad_norm': 2.7338058948516846, 'learning_rate': 1.4864864864864868e-06, 'epoch': 2.21}
+{'loss': 1.3123, 'grad_norm': 2.631532669067383, 'learning_rate': 1.48458317472402e-06, 'epoch': 2.21}
+{'loss': 1.2714, 'grad_norm': 2.511723279953003, 'learning_rate': 1.4826798629615533e-06, 'epoch': 2.22}
+{'loss': 1.2806, 'grad_norm': 2.6720175743103027, 'learning_rate': 1.4807765511990864e-06, 'epoch': 2.22}
+{'loss': 1.3057, 'grad_norm': 2.6232240200042725, 'learning_rate': 1.4788732394366198e-06, 'epoch': 2.22}
+{'loss': 1.2896, 'grad_norm': 2.7055530548095703, 'learning_rate': 1.4769699276741532e-06, 'epoch': 2.22}
+{'eval_loss': 1.780350923538208, 'eval_runtime': 37.9284, 'eval_samples_per_second': 26.366, 'eval_steps_per_second': 1.107, 'epoch': 2.22}
+{'loss': 1.2688, 'grad_norm': 2.7227275371551514, 'learning_rate': 1.4750666159116863e-06, 'epoch': 2.22}
+{'loss': 1.3318, 'grad_norm': 2.741649866104126, 'learning_rate': 1.4731633041492197e-06, 'epoch': 2.22}
+{'loss': 1.3502, 'grad_norm': 2.901906967163086, 'learning_rate': 1.4712599923867528e-06, 'epoch': 2.22}
+{'loss': 1.2753, 'grad_norm': 2.6306073665618896, 'learning_rate': 1.4693566806242864e-06, 'epoch': 2.22}
+{'loss': 1.3006, 'grad_norm': 2.806844472885132, 'learning_rate': 1.4674533688618198e-06, 'epoch': 2.22}
+{'loss': 1.3036, 'grad_norm': 2.754244089126587, 'learning_rate': 1.4655500570993531e-06, 'epoch': 2.22}
+{'loss': 1.3551, 'grad_norm': 2.7528069019317627, 'learning_rate': 1.4636467453368863e-06, 'epoch': 2.23}
+{'loss': 1.3444, 'grad_norm': 2.9147045612335205, 'learning_rate': 1.4617434335744197e-06, 'epoch': 2.23}
+{'loss': 1.3333, 'grad_norm': 2.7143068313598633, 'learning_rate': 1.4598401218119528e-06, 'epoch': 2.23}
+{'loss': 1.32, 'grad_norm': 2.7245426177978516, 'learning_rate': 1.4579368100494862e-06, 'epoch': 2.23}
+{'eval_loss': 1.7687398195266724, 'eval_runtime': 37.931, 'eval_samples_per_second': 26.364, 'eval_steps_per_second': 1.107, 'epoch': 2.23}
+{'loss': 1.316, 'grad_norm': 2.614847421646118, 'learning_rate': 1.4560334982870195e-06, 'epoch': 2.23}
+{'loss': 1.3271, 'grad_norm': 2.6008236408233643, 'learning_rate': 1.4541301865245527e-06, 'epoch': 2.23}
+{'loss': 1.2838, 'grad_norm': 2.6043577194213867, 'learning_rate': 1.452226874762086e-06, 'epoch': 2.23}
+{'loss': 1.3542, 'grad_norm': 2.800450325012207, 'learning_rate': 1.4503235629996196e-06, 'epoch': 2.23}
+{'loss': 1.2573, 'grad_norm': 2.6808807849884033, 'learning_rate': 1.4484202512371528e-06, 'epoch': 2.23}
+{'loss': 1.3598, 'grad_norm': 3.005553722381592, 'learning_rate': 1.4465169394746861e-06, 'epoch': 2.24}
+{'loss': 1.2687, 'grad_norm': 2.8075437545776367, 'learning_rate': 1.4446136277122195e-06, 'epoch': 2.24}
+{'loss': 1.2906, 'grad_norm': 2.828524589538574, 'learning_rate': 1.4427103159497526e-06, 'epoch': 2.24}
+{'loss': 1.3199, 'grad_norm': 2.7086875438690186, 'learning_rate': 1.440807004187286e-06, 'epoch': 2.24}
+{'loss': 1.3414, 'grad_norm': 2.8826253414154053, 'learning_rate': 1.4389036924248192e-06, 'epoch': 2.24}
+{'eval_loss': 1.7614880800247192, 'eval_runtime': 37.9058, 'eval_samples_per_second': 26.381, 'eval_steps_per_second': 1.108, 'epoch': 2.24}
+{'loss': 1.3127, 'grad_norm': 2.8024802207946777, 'learning_rate': 1.4370003806623525e-06, 'epoch': 2.24}
+{'loss': 1.3589, 'grad_norm': 2.7175004482269287, 'learning_rate': 1.4350970688998859e-06, 'epoch': 2.24}
+{'loss': 1.2934, 'grad_norm': 2.7450461387634277, 'learning_rate': 1.433193757137419e-06, 'epoch': 2.24}
+{'loss': 1.2605, 'grad_norm': 2.627926826477051, 'learning_rate': 1.4312904453749526e-06, 'epoch': 2.24}
+{'loss': 1.2993, 'grad_norm': 2.7466957569122314, 'learning_rate': 1.429387133612486e-06, 'epoch': 2.24}
+{'loss': 1.3251, 'grad_norm': 2.8719801902770996, 'learning_rate': 1.4274838218500191e-06, 'epoch': 2.25}
+{'loss': 1.3638, 'grad_norm': 3.052253007888794, 'learning_rate': 1.4255805100875525e-06, 'epoch': 2.25}
+{'loss': 1.3121, 'grad_norm': 2.860090970993042, 'learning_rate': 1.4236771983250858e-06, 'epoch': 2.25}
+{'loss': 1.2857, 'grad_norm': 2.656618356704712, 'learning_rate': 1.421773886562619e-06, 'epoch': 2.25}
+{'loss': 1.3094, 'grad_norm': 2.6252174377441406, 'learning_rate': 1.4198705748001524e-06, 'epoch': 2.25}
+{'eval_loss': 1.7660510540008545, 'eval_runtime': 37.9085, 'eval_samples_per_second': 26.379, 'eval_steps_per_second': 1.108, 'epoch': 2.25}
+{'loss': 1.2809, 'grad_norm': 2.610424757003784, 'learning_rate': 1.4179672630376855e-06, 'epoch': 2.25}
+{'loss': 1.3009, 'grad_norm': 2.5957748889923096, 'learning_rate': 1.4160639512752189e-06, 'epoch': 2.25}
+{'loss': 1.2697, 'grad_norm': 2.6947720050811768, 'learning_rate': 1.4141606395127522e-06, 'epoch': 2.25}
+{'loss': 1.3245, 'grad_norm': 2.5192782878875732, 'learning_rate': 1.4122573277502858e-06, 'epoch': 2.25}
+{'loss': 1.3012, 'grad_norm': 2.7121758460998535, 'learning_rate': 1.410354015987819e-06, 'epoch': 2.25}
+{'loss': 1.3411, 'grad_norm': 2.8090286254882812, 'learning_rate': 1.4084507042253523e-06, 'epoch': 2.26}
+{'loss': 1.3059, 'grad_norm': 2.6683340072631836, 'learning_rate': 1.4065473924628855e-06, 'epoch': 2.26}
+{'loss': 1.2978, 'grad_norm': 2.782543659210205, 'learning_rate': 1.4046440807004188e-06, 'epoch': 2.26}
+{'loss': 1.2785, 'grad_norm': 2.693094253540039, 'learning_rate': 1.4027407689379522e-06, 'epoch': 2.26}
+{'loss': 1.3178, 'grad_norm': 2.7780873775482178, 'learning_rate': 1.4008374571754854e-06, 'epoch': 2.26}
+{'eval_loss': 1.7748886346817017, 'eval_runtime': 37.9075, 'eval_samples_per_second': 26.38, 'eval_steps_per_second': 1.108, 'epoch': 2.26}
+{'loss': 1.3095, 'grad_norm': 2.670476198196411, 'learning_rate': 1.3989341454130187e-06, 'epoch': 2.26}
+{'loss': 1.3342, 'grad_norm': 2.7604143619537354, 'learning_rate': 1.397030833650552e-06, 'epoch': 2.26}
+{'loss': 1.3734, 'grad_norm': 2.7799160480499268, 'learning_rate': 1.3951275218880852e-06, 'epoch': 2.26}
+{'loss': 1.2775, 'grad_norm': 2.5651214122772217, 'learning_rate': 1.3932242101256188e-06, 'epoch': 2.26}
+{'loss': 1.3148, 'grad_norm': 2.8254587650299072, 'learning_rate': 1.3913208983631522e-06, 'epoch': 2.27}
+{'loss': 1.2702, 'grad_norm': 2.694624662399292, 'learning_rate': 1.3894175866006853e-06, 'epoch': 2.27}
+{'loss': 1.2516, 'grad_norm': 2.789055824279785, 'learning_rate': 1.3875142748382187e-06, 'epoch': 2.27}
+{'loss': 1.3162, 'grad_norm': 2.848062753677368, 'learning_rate': 1.385610963075752e-06, 'epoch': 2.27}
+{'loss': 1.3428, 'grad_norm': 2.939532518386841, 'learning_rate': 1.3837076513132852e-06, 'epoch': 2.27}
+{'loss': 1.3277, 'grad_norm': 2.9084253311157227, 'learning_rate': 1.3818043395508186e-06, 'epoch': 2.27}
+{'eval_loss': 1.786512017250061, 'eval_runtime': 37.685, 'eval_samples_per_second': 26.536, 'eval_steps_per_second': 1.115, 'epoch': 2.27}
+{'loss': 1.3128, 'grad_norm': 2.6281025409698486, 'learning_rate': 1.3799010277883517e-06, 'epoch': 2.27}
+{'loss': 1.3114, 'grad_norm': 2.748809337615967, 'learning_rate': 1.377997716025885e-06, 'epoch': 2.27}
+{'loss': 1.3401, 'grad_norm': 2.5523533821105957, 'learning_rate': 1.3760944042634184e-06, 'epoch': 2.27}
+{'loss': 1.3338, 'grad_norm': 2.6466875076293945, 'learning_rate': 1.3741910925009518e-06, 'epoch': 2.27}
+{'loss': 1.3321, 'grad_norm': 2.7305641174316406, 'learning_rate': 1.3722877807384852e-06, 'epoch': 2.28}
+{'loss': 1.3053, 'grad_norm': 2.6950535774230957, 'learning_rate': 1.3703844689760185e-06, 'epoch': 2.28}
+{'loss': 1.2622, 'grad_norm': 2.5823051929473877, 'learning_rate': 1.3684811572135517e-06, 'epoch': 2.28}
+{'loss': 1.3346, 'grad_norm': 2.891983985900879, 'learning_rate': 1.366577845451085e-06, 'epoch': 2.28}
+{'loss': 1.3336, 'grad_norm': 2.8419189453125, 'learning_rate': 1.3646745336886184e-06, 'epoch': 2.28}
+{'loss': 1.2895, 'grad_norm': 2.632622480392456, 'learning_rate': 1.3627712219261515e-06, 'epoch': 2.28}
+{'eval_loss': 1.7908138036727905, 'eval_runtime': 37.8557, 'eval_samples_per_second': 26.416, 'eval_steps_per_second': 1.109, 'epoch': 2.28}
+{'loss': 1.3073, 'grad_norm': 2.6359457969665527, 'learning_rate': 1.360867910163685e-06, 'epoch': 2.28}
+{'loss': 1.3131, 'grad_norm': 2.6809372901916504, 'learning_rate': 1.358964598401218e-06, 'epoch': 2.28}
+{'loss': 1.2958, 'grad_norm': 2.579667806625366, 'learning_rate': 1.3570612866387514e-06, 'epoch': 2.28}
+{'loss': 1.3478, 'grad_norm': 2.8612430095672607, 'learning_rate': 1.355157974876285e-06, 'epoch': 2.28}
+{'loss': 1.3238, 'grad_norm': 2.728100061416626, 'learning_rate': 1.3532546631138184e-06, 'epoch': 2.29}
+{'loss': 1.2984, 'grad_norm': 2.665339469909668, 'learning_rate': 1.3513513513513515e-06, 'epoch': 2.29}
+{'loss': 1.3052, 'grad_norm': 2.677293062210083, 'learning_rate': 1.3494480395888849e-06, 'epoch': 2.29}
+{'loss': 1.2887, 'grad_norm': 2.8480992317199707, 'learning_rate': 1.347544727826418e-06, 'epoch': 2.29}
+{'loss': 1.3243, 'grad_norm': 2.6627776622772217, 'learning_rate': 1.3456414160639514e-06, 'epoch': 2.29}
+{'loss': 1.3112, 'grad_norm': 2.711862087249756, 'learning_rate': 1.3437381043014847e-06, 'epoch': 2.29}
+{'eval_loss': 1.781941533088684, 'eval_runtime': 37.9343, 'eval_samples_per_second': 26.361, 'eval_steps_per_second': 1.107, 'epoch': 2.29}
+{'loss': 1.2945, 'grad_norm': 2.6429977416992188, 'learning_rate': 1.341834792539018e-06, 'epoch': 2.29}
+{'loss': 1.32, 'grad_norm': 2.557021379470825, 'learning_rate': 1.3399314807765513e-06, 'epoch': 2.29}
+{'loss': 1.3161, 'grad_norm': 2.5697803497314453, 'learning_rate': 1.3380281690140844e-06, 'epoch': 2.29}
+{'loss': 1.2822, 'grad_norm': 2.5973010063171387, 'learning_rate': 1.336124857251618e-06, 'epoch': 2.29}
+{'loss': 1.2853, 'grad_norm': 2.622098207473755, 'learning_rate': 1.3342215454891513e-06, 'epoch': 2.3}
+{'loss': 1.3009, 'grad_norm': 2.75445294380188, 'learning_rate': 1.3323182337266847e-06, 'epoch': 2.3}
+{'loss': 1.3547, 'grad_norm': 2.8000597953796387, 'learning_rate': 1.3304149219642179e-06, 'epoch': 2.3}
+{'loss': 1.3128, 'grad_norm': 2.7219057083129883, 'learning_rate': 1.3285116102017512e-06, 'epoch': 2.3}
+{'loss': 1.3077, 'grad_norm': 2.5688209533691406, 'learning_rate': 1.3266082984392844e-06, 'epoch': 2.3}
+{'loss': 1.2929, 'grad_norm': 2.629265546798706, 'learning_rate': 1.3247049866768177e-06, 'epoch': 2.3}
+{'eval_loss': 1.7657849788665771, 'eval_runtime': 37.9938, 'eval_samples_per_second': 26.32, 'eval_steps_per_second': 1.105, 'epoch': 2.3}
+{'loss': 1.2815, 'grad_norm': 2.6893677711486816, 'learning_rate': 1.322801674914351e-06, 'epoch': 2.3}
+{'loss': 1.3231, 'grad_norm': 2.6499500274658203, 'learning_rate': 1.3208983631518843e-06, 'epoch': 2.3}
+{'loss': 1.3084, 'grad_norm': 2.6495258808135986, 'learning_rate': 1.3189950513894176e-06, 'epoch': 2.3}
+{'loss': 1.3182, 'grad_norm': 2.6610732078552246, 'learning_rate': 1.3170917396269512e-06, 'epoch': 2.31}
+{'loss': 1.327, 'grad_norm': 2.8128137588500977, 'learning_rate': 1.3151884278644843e-06, 'epoch': 2.31}
+{'loss': 1.2781, 'grad_norm': 2.7301197052001953, 'learning_rate': 1.3132851161020177e-06, 'epoch': 2.31}
+{'loss': 1.3728, 'grad_norm': 2.9533233642578125, 'learning_rate': 1.311381804339551e-06, 'epoch': 2.31}
+{'loss': 1.2931, 'grad_norm': 2.6429927349090576, 'learning_rate': 1.3094784925770842e-06, 'epoch': 2.31}
+{'loss': 1.3158, 'grad_norm': 2.649885416030884, 'learning_rate': 1.3075751808146176e-06, 'epoch': 2.31}
+{'loss': 1.2875, 'grad_norm': 2.6279773712158203, 'learning_rate': 1.3056718690521507e-06, 'epoch': 2.31}
+{'eval_loss': 1.777553915977478, 'eval_runtime': 38.0475, 'eval_samples_per_second': 26.283, 'eval_steps_per_second': 1.104, 'epoch': 2.31}
+{'loss': 1.289, 'grad_norm': 2.6415603160858154, 'learning_rate': 1.303768557289684e-06, 'epoch': 2.31}
+{'loss': 1.2985, 'grad_norm': 2.586108684539795, 'learning_rate': 1.3018652455272175e-06, 'epoch': 2.31}
+{'loss': 1.2964, 'grad_norm': 2.592040538787842, 'learning_rate': 1.2999619337647506e-06, 'epoch': 2.31}
+{'loss': 1.3257, 'grad_norm': 2.6993772983551025, 'learning_rate': 1.2980586220022842e-06, 'epoch': 2.32}
+{'loss': 1.3463, 'grad_norm': 2.7006278038024902, 'learning_rate': 1.2961553102398175e-06, 'epoch': 2.32}
+{'loss': 1.3183, 'grad_norm': 2.749055862426758, 'learning_rate': 1.2942519984773507e-06, 'epoch': 2.32}
+{'loss': 1.2923, 'grad_norm': 2.8093061447143555, 'learning_rate': 1.292348686714884e-06, 'epoch': 2.32}
+{'loss': 1.3332, 'grad_norm': 2.6441662311553955, 'learning_rate': 1.2904453749524174e-06, 'epoch': 2.32}
+{'loss': 1.2563, 'grad_norm': 2.588270425796509, 'learning_rate': 1.2885420631899506e-06, 'epoch': 2.32}
+{'loss': 1.2948, 'grad_norm': 2.659374952316284, 'learning_rate': 1.286638751427484e-06, 'epoch': 2.32}
+{'eval_loss': 1.7904608249664307, 'eval_runtime': 38.0335, 'eval_samples_per_second': 26.293, 'eval_steps_per_second': 1.104, 'epoch': 2.32}
+{'loss': 1.3183, 'grad_norm': 2.6419613361358643, 'learning_rate': 1.284735439665017e-06, 'epoch': 2.32}
+{'loss': 1.3301, 'grad_norm': 2.7432727813720703, 'learning_rate': 1.2828321279025504e-06, 'epoch': 2.32}
+{'loss': 1.3091, 'grad_norm': 2.7030932903289795, 'learning_rate': 1.2809288161400838e-06, 'epoch': 2.32}
+{'loss': 1.2925, 'grad_norm': 2.621903896331787, 'learning_rate': 1.279025504377617e-06, 'epoch': 2.33}
+{'loss': 1.3613, 'grad_norm': 2.811548948287964, 'learning_rate': 1.2771221926151505e-06, 'epoch': 2.33}
+{'loss': 1.2973, 'grad_norm': 2.543182134628296, 'learning_rate': 1.275218880852684e-06, 'epoch': 2.33}
+{'loss': 1.2844, 'grad_norm': 2.6845998764038086, 'learning_rate': 1.273315569090217e-06, 'epoch': 2.33}
+{'loss': 1.3607, 'grad_norm': 2.812823534011841, 'learning_rate': 1.2714122573277504e-06, 'epoch': 2.33}
+{'loss': 1.3648, 'grad_norm': 3.091813325881958, 'learning_rate': 1.2695089455652838e-06, 'epoch': 2.33}
+{'loss': 1.326, 'grad_norm': 2.7097294330596924, 'learning_rate': 1.267605633802817e-06, 'epoch': 2.33}
+{'eval_loss': 1.791210412979126, 'eval_runtime': 38.0649, 'eval_samples_per_second': 26.271, 'eval_steps_per_second': 1.103, 'epoch': 2.33}
+{'loss': 1.3186, 'grad_norm': 2.68989896774292, 'learning_rate': 1.2657023220403503e-06, 'epoch': 2.33}
+{'loss': 1.3014, 'grad_norm': 2.7425694465637207, 'learning_rate': 1.2637990102778836e-06, 'epoch': 2.33}
+{'loss': 1.3023, 'grad_norm': 2.641493797302246, 'learning_rate': 1.2618956985154168e-06, 'epoch': 2.33}
+{'loss': 1.3508, 'grad_norm': 2.6478893756866455, 'learning_rate': 1.2599923867529502e-06, 'epoch': 2.34}
+{'loss': 1.3164, 'grad_norm': 2.744187831878662, 'learning_rate': 1.2580890749904837e-06, 'epoch': 2.34}
+{'loss': 1.3418, 'grad_norm': 2.823047161102295, 'learning_rate': 1.2561857632280169e-06, 'epoch': 2.34}
+{'loss': 1.3739, 'grad_norm': 2.9462826251983643, 'learning_rate': 1.2542824514655502e-06, 'epoch': 2.34}
+{'loss': 1.3254, 'grad_norm': 2.7174856662750244, 'learning_rate': 1.2523791397030834e-06, 'epoch': 2.34}
+{'loss': 1.306, 'grad_norm': 2.6504011154174805, 'learning_rate': 1.2504758279406168e-06, 'epoch': 2.34}
+{'loss': 1.3302, 'grad_norm': 2.701664447784424, 'learning_rate': 1.2485725161781501e-06, 'epoch': 2.34}
+{'eval_loss': 1.770766019821167, 'eval_runtime': 38.0551, 'eval_samples_per_second': 26.278, 'eval_steps_per_second': 1.104, 'epoch': 2.34}
+{'loss': 1.4107, 'grad_norm': 2.7651360034942627, 'learning_rate': 1.2466692044156833e-06, 'epoch': 2.34}
+{'loss': 1.2769, 'grad_norm': 2.60256028175354, 'learning_rate': 1.2447658926532168e-06, 'epoch': 2.34}
+{'loss': 1.3148, 'grad_norm': 2.6077115535736084, 'learning_rate': 1.24286258089075e-06, 'epoch': 2.35}
+{'loss': 1.2795, 'grad_norm': 2.6873903274536133, 'learning_rate': 1.2409592691282834e-06, 'epoch': 2.35}
+{'loss': 1.3257, 'grad_norm': 2.9477450847625732, 'learning_rate': 1.2390559573658165e-06, 'epoch': 2.35}
+{'loss': 1.3274, 'grad_norm': 2.799549102783203, 'learning_rate': 1.2371526456033499e-06, 'epoch': 2.35}
+{'loss': 1.2803, 'grad_norm': 2.7725980281829834, 'learning_rate': 1.2352493338408832e-06, 'epoch': 2.35}
+{'loss': 1.3907, 'grad_norm': 3.027376413345337, 'learning_rate': 1.2333460220784166e-06, 'epoch': 2.35}
+{'loss': 1.3458, 'grad_norm': 2.7917747497558594, 'learning_rate': 1.23144271031595e-06, 'epoch': 2.35}
+{'loss': 1.3496, 'grad_norm': 2.7375993728637695, 'learning_rate': 1.2295393985534831e-06, 'epoch': 2.35}
+{'eval_loss': 1.7680095434188843, 'eval_runtime': 38.0425, 'eval_samples_per_second': 26.286, 'eval_steps_per_second': 1.104, 'epoch': 2.35}
+{'loss': 1.2395, 'grad_norm': 2.593547821044922, 'learning_rate': 1.2276360867910165e-06, 'epoch': 2.35}
+{'loss': 1.3629, 'grad_norm': 2.7914979457855225, 'learning_rate': 1.2257327750285498e-06, 'epoch': 2.35}
+{'loss': 1.2883, 'grad_norm': 2.802846670150757, 'learning_rate': 1.2238294632660832e-06, 'epoch': 2.36}
+{'loss': 1.2894, 'grad_norm': 2.5035150051116943, 'learning_rate': 1.2219261515036164e-06, 'epoch': 2.36}
+{'loss': 1.3327, 'grad_norm': 2.745405435562134, 'learning_rate': 1.2200228397411497e-06, 'epoch': 2.36}
+{'loss': 1.3636, 'grad_norm': 2.9135396480560303, 'learning_rate': 1.2181195279786829e-06, 'epoch': 2.36}
+{'loss': 1.3059, 'grad_norm': 2.8527722358703613, 'learning_rate': 1.2162162162162164e-06, 'epoch': 2.36}
+{'loss': 1.295, 'grad_norm': 2.641160249710083, 'learning_rate': 1.2143129044537496e-06, 'epoch': 2.36}
+{'loss': 1.3052, 'grad_norm': 2.6421735286712646, 'learning_rate': 1.212409592691283e-06, 'epoch': 2.36}
+{'loss': 1.3108, 'grad_norm': 2.6424500942230225, 'learning_rate': 1.2105062809288163e-06, 'epoch': 2.36}
+{'eval_loss': 1.765913724899292, 'eval_runtime': 38.0324, 'eval_samples_per_second': 26.293, 'eval_steps_per_second': 1.104, 'epoch': 2.36}
+{'loss': 1.3234, 'grad_norm': 2.814763307571411, 'learning_rate': 1.2086029691663495e-06, 'epoch': 2.36}
+{'loss': 1.2656, 'grad_norm': 2.5212297439575195, 'learning_rate': 1.2066996574038828e-06, 'epoch': 2.36}
+{'loss': 1.3229, 'grad_norm': 2.8822665214538574, 'learning_rate': 1.2047963456414162e-06, 'epoch': 2.37}
+{'loss': 1.3194, 'grad_norm': 2.6476027965545654, 'learning_rate': 1.2028930338789496e-06, 'epoch': 2.37}
+{'loss': 1.2621, 'grad_norm': 2.634824514389038, 'learning_rate': 1.2009897221164827e-06, 'epoch': 2.37}
+{'loss': 1.3255, 'grad_norm': 2.7401492595672607, 'learning_rate': 1.199086410354016e-06, 'epoch': 2.37}
+{'loss': 1.3003, 'grad_norm': 2.6971330642700195, 'learning_rate': 1.1971830985915492e-06, 'epoch': 2.37}
+{'loss': 1.2978, 'grad_norm': 2.7432987689971924, 'learning_rate': 1.1952797868290828e-06, 'epoch': 2.37}
+{'loss': 1.3168, 'grad_norm': 2.7680413722991943, 'learning_rate': 1.193376475066616e-06, 'epoch': 2.37}
+{'loss': 1.3253, 'grad_norm': 2.7269768714904785, 'learning_rate': 1.1914731633041493e-06, 'epoch': 2.37}
+{'eval_loss': 1.7663168907165527, 'eval_runtime': 37.7171, 'eval_samples_per_second': 26.513, 'eval_steps_per_second': 1.114, 'epoch': 2.37}
+{'loss': 1.2929, 'grad_norm': 2.6725943088531494, 'learning_rate': 1.1895698515416827e-06, 'epoch': 2.37}
+{'loss': 1.2936, 'grad_norm': 2.5516929626464844, 'learning_rate': 1.1876665397792158e-06, 'epoch': 2.37}
+{'loss': 1.3228, 'grad_norm': 2.7443480491638184, 'learning_rate': 1.1857632280167492e-06, 'epoch': 2.38}
+{'loss': 1.2625, 'grad_norm': 2.7275967597961426, 'learning_rate': 1.1838599162542825e-06, 'epoch': 2.38}
+{'loss': 1.3307, 'grad_norm': 2.8085899353027344, 'learning_rate': 1.181956604491816e-06, 'epoch': 2.38}
+{'loss': 1.3144, 'grad_norm': 2.6398675441741943, 'learning_rate': 1.180053292729349e-06, 'epoch': 2.38}
+{'loss': 1.3722, 'grad_norm': 2.800874948501587, 'learning_rate': 1.1781499809668824e-06, 'epoch': 2.38}
+{'loss': 1.3142, 'grad_norm': 2.65503191947937, 'learning_rate': 1.1762466692044158e-06, 'epoch': 2.38}
+{'loss': 1.3473, 'grad_norm': 2.7648980617523193, 'learning_rate': 1.1743433574419491e-06, 'epoch': 2.38}
+{'loss': 1.2912, 'grad_norm': 2.656358242034912, 'learning_rate': 1.1724400456794823e-06, 'epoch': 2.38}
+{'eval_loss': 1.7656192779541016, 'eval_runtime': 37.8498, 'eval_samples_per_second': 26.42, 'eval_steps_per_second': 1.11, 'epoch': 2.38}
+{'loss': 1.3367, 'grad_norm': 2.813964605331421, 'learning_rate': 1.1705367339170157e-06, 'epoch': 2.38}
+{'loss': 1.3138, 'grad_norm': 2.7210686206817627, 'learning_rate': 1.168633422154549e-06, 'epoch': 2.39}
+{'loss': 1.2812, 'grad_norm': 2.65240216255188, 'learning_rate': 1.1667301103920824e-06, 'epoch': 2.39}
+{'loss': 1.2484, 'grad_norm': 2.672790288925171, 'learning_rate': 1.1648267986296157e-06, 'epoch': 2.39}
+{'loss': 1.3027, 'grad_norm': 2.737819194793701, 'learning_rate': 1.162923486867149e-06, 'epoch': 2.39}
+{'loss': 1.3115, 'grad_norm': 2.662963390350342, 'learning_rate': 1.1610201751046823e-06, 'epoch': 2.39}
+{'loss': 1.3755, 'grad_norm': 2.83809232711792, 'learning_rate': 1.1591168633422154e-06, 'epoch': 2.39}
+{'loss': 1.3285, 'grad_norm': 2.722337484359741, 'learning_rate': 1.157213551579749e-06, 'epoch': 2.39}
+{'loss': 1.3057, 'grad_norm': 2.699765205383301, 'learning_rate': 1.1553102398172821e-06, 'epoch': 2.39}
+{'loss': 1.2963, 'grad_norm': 2.5885703563690186, 'learning_rate': 1.1534069280548155e-06, 'epoch': 2.39}
+{'eval_loss': 1.7690107822418213, 'eval_runtime': 37.9639, 'eval_samples_per_second': 26.341, 'eval_steps_per_second': 1.106, 'epoch': 2.39}
+{'loss': 1.3144, 'grad_norm': 2.732694387435913, 'learning_rate': 1.1515036162923487e-06, 'epoch': 2.39}
+{'loss': 1.283, 'grad_norm': 2.6117560863494873, 'learning_rate': 1.149600304529882e-06, 'epoch': 2.4}
+{'loss': 1.2959, 'grad_norm': 2.6792120933532715, 'learning_rate': 1.1476969927674154e-06, 'epoch': 2.4}
+{'loss': 1.309, 'grad_norm': 2.7566049098968506, 'learning_rate': 1.1457936810049487e-06, 'epoch': 2.4}
+{'loss': 1.3432, 'grad_norm': 2.9152936935424805, 'learning_rate': 1.143890369242482e-06, 'epoch': 2.4}
+{'loss': 1.2709, 'grad_norm': 2.6911866664886475, 'learning_rate': 1.1419870574800153e-06, 'epoch': 2.4}
+{'loss': 1.2974, 'grad_norm': 2.67596697807312, 'learning_rate': 1.1400837457175486e-06, 'epoch': 2.4}
+{'loss': 1.2691, 'grad_norm': 2.5220348834991455, 'learning_rate': 1.138180433955082e-06, 'epoch': 2.4}
+{'loss': 1.3438, 'grad_norm': 2.7079286575317383, 'learning_rate': 1.1362771221926153e-06, 'epoch': 2.4}
+{'loss': 1.3093, 'grad_norm': 2.5796804428100586, 'learning_rate': 1.1343738104301485e-06, 'epoch': 2.4}
+{'eval_loss': 1.7833822965621948, 'eval_runtime': 38.0179, 'eval_samples_per_second': 26.303, 'eval_steps_per_second': 1.105, 'epoch': 2.4}
+{'loss': 1.2876, 'grad_norm': 2.533360242843628, 'learning_rate': 1.1324704986676819e-06, 'epoch': 2.4}
+{'loss': 1.3615, 'grad_norm': 2.8825149536132812, 'learning_rate': 1.130567186905215e-06, 'epoch': 2.41}
+{'loss': 1.2974, 'grad_norm': 2.5276525020599365, 'learning_rate': 1.1286638751427486e-06, 'epoch': 2.41}
+{'loss': 1.3046, 'grad_norm': 2.660332202911377, 'learning_rate': 1.1267605633802817e-06, 'epoch': 2.41}
+{'loss': 1.329, 'grad_norm': 2.81973934173584, 'learning_rate': 1.124857251617815e-06, 'epoch': 2.41}
+{'loss': 1.3621, 'grad_norm': 2.6832475662231445, 'learning_rate': 1.1229539398553485e-06, 'epoch': 2.41}
+{'loss': 1.3043, 'grad_norm': 2.5246076583862305, 'learning_rate': 1.1210506280928816e-06, 'epoch': 2.41}
+{'loss': 1.3412, 'grad_norm': 2.889202117919922, 'learning_rate': 1.119147316330415e-06, 'epoch': 2.41}
+{'loss': 1.3069, 'grad_norm': 2.761444091796875, 'learning_rate': 1.1172440045679483e-06, 'epoch': 2.41}
+{'loss': 1.3057, 'grad_norm': 2.7676186561584473, 'learning_rate': 1.1153406928054817e-06, 'epoch': 2.41}
+{'eval_loss': 1.7964602708816528, 'eval_runtime': 38.0018, 'eval_samples_per_second': 26.315, 'eval_steps_per_second': 1.105, 'epoch': 2.41}
+{'loss': 1.3355, 'grad_norm': 2.761202096939087, 'learning_rate': 1.1134373810430148e-06, 'epoch': 2.41}
+{'loss': 1.3415, 'grad_norm': 2.74330735206604, 'learning_rate': 1.1115340692805482e-06, 'epoch': 2.42}
+{'loss': 1.314, 'grad_norm': 2.6388099193573, 'learning_rate': 1.1096307575180816e-06, 'epoch': 2.42}
+{'loss': 1.2745, 'grad_norm': 2.6058437824249268, 'learning_rate': 1.107727445755615e-06, 'epoch': 2.42}
+{'loss': 1.2943, 'grad_norm': 2.674837350845337, 'learning_rate': 1.105824133993148e-06, 'epoch': 2.42}
+{'loss': 1.3136, 'grad_norm': 2.777331829071045, 'learning_rate': 1.1039208222306814e-06, 'epoch': 2.42}
+{'loss': 1.3051, 'grad_norm': 2.7025792598724365, 'learning_rate': 1.1020175104682148e-06, 'epoch': 2.42}
+{'loss': 1.2964, 'grad_norm': 2.570185899734497, 'learning_rate': 1.1001141987057482e-06, 'epoch': 2.42}
+{'loss': 1.3073, 'grad_norm': 2.6053781509399414, 'learning_rate': 1.0982108869432813e-06, 'epoch': 2.42}
+{'loss': 1.3415, 'grad_norm': 2.680983543395996, 'learning_rate': 1.0963075751808147e-06, 'epoch': 2.42}
+{'eval_loss': 1.7697505950927734, 'eval_runtime': 37.9457, 'eval_samples_per_second': 26.353, 'eval_steps_per_second': 1.107, 'epoch': 2.42}
+{'loss': 1.3074, 'grad_norm': 2.558598518371582, 'learning_rate': 1.094404263418348e-06, 'epoch': 2.43}
+{'loss': 1.3031, 'grad_norm': 2.6231720447540283, 'learning_rate': 1.0925009516558812e-06, 'epoch': 2.43}
+{'loss': 1.3017, 'grad_norm': 2.730914831161499, 'learning_rate': 1.0905976398934148e-06, 'epoch': 2.43}
+{'loss': 1.3154, 'grad_norm': 2.82137393951416, 'learning_rate': 1.088694328130948e-06, 'epoch': 2.43}
+{'loss': 1.2774, 'grad_norm': 2.6977908611297607, 'learning_rate': 1.0867910163684813e-06, 'epoch': 2.43}
+{'loss': 1.3035, 'grad_norm': 2.784348964691162, 'learning_rate': 1.0848877046060144e-06, 'epoch': 2.43}
+{'loss': 1.3026, 'grad_norm': 2.663001537322998, 'learning_rate': 1.0829843928435478e-06, 'epoch': 2.43}
+{'loss': 1.3085, 'grad_norm': 2.7743303775787354, 'learning_rate': 1.0810810810810812e-06, 'epoch': 2.43}
+{'loss': 1.3254, 'grad_norm': 2.797743082046509, 'learning_rate': 1.0791777693186145e-06, 'epoch': 2.43}
+{'loss': 1.3098, 'grad_norm': 2.625260829925537, 'learning_rate': 1.0772744575561479e-06, 'epoch': 2.43}
+{'eval_loss': 1.7611181735992432, 'eval_runtime': 37.9845, 'eval_samples_per_second': 26.327, 'eval_steps_per_second': 1.106, 'epoch': 2.43}
+{'loss': 1.2925, 'grad_norm': 2.580679178237915, 'learning_rate': 1.075371145793681e-06, 'epoch': 2.44}
+{'loss': 1.3122, 'grad_norm': 2.655032157897949, 'learning_rate': 1.0734678340312144e-06, 'epoch': 2.44}
+{'loss': 1.3037, 'grad_norm': 2.6039280891418457, 'learning_rate': 1.0715645222687478e-06, 'epoch': 2.44}
+{'loss': 1.2921, 'grad_norm': 2.532874822616577, 'learning_rate': 1.0696612105062811e-06, 'epoch': 2.44}
+{'loss': 1.3249, 'grad_norm': 2.71315336227417, 'learning_rate': 1.0677578987438143e-06, 'epoch': 2.44}
+{'loss': 1.2849, 'grad_norm': 2.797964334487915, 'learning_rate': 1.0658545869813476e-06, 'epoch': 2.44}
+{'loss': 1.2956, 'grad_norm': 2.8070008754730225, 'learning_rate': 1.0639512752188808e-06, 'epoch': 2.44}
+{'loss': 1.3076, 'grad_norm': 2.6451804637908936, 'learning_rate': 1.0620479634564144e-06, 'epoch': 2.44}
+{'loss': 1.2766, 'grad_norm': 2.6175758838653564, 'learning_rate': 1.0601446516939475e-06, 'epoch': 2.44}
+{'loss': 1.2777, 'grad_norm': 2.5483524799346924, 'learning_rate': 1.0582413399314809e-06, 'epoch': 2.44}
+{'eval_loss': 1.7605587244033813, 'eval_runtime': 37.9393, 'eval_samples_per_second': 26.358, 'eval_steps_per_second': 1.107, 'epoch': 2.44}
+{'loss': 1.2826, 'grad_norm': 2.6982779502868652, 'learning_rate': 1.0563380281690142e-06, 'epoch': 2.45}
+{'loss': 1.2855, 'grad_norm': 2.575270891189575, 'learning_rate': 1.0544347164065474e-06, 'epoch': 2.45}
+{'loss': 1.3179, 'grad_norm': 2.7389488220214844, 'learning_rate': 1.0525314046440808e-06, 'epoch': 2.45}
+{'loss': 1.2919, 'grad_norm': 2.555800199508667, 'learning_rate': 1.0506280928816141e-06, 'epoch': 2.45}
+{'loss': 1.2943, 'grad_norm': 2.580599546432495, 'learning_rate': 1.0487247811191475e-06, 'epoch': 2.45}
+{'loss': 1.3054, 'grad_norm': 2.763772964477539, 'learning_rate': 1.0468214693566806e-06, 'epoch': 2.45}
+{'loss': 1.3428, 'grad_norm': 2.7483937740325928, 'learning_rate': 1.044918157594214e-06, 'epoch': 2.45}
+{'loss': 1.299, 'grad_norm': 2.644343376159668, 'learning_rate': 1.0430148458317474e-06, 'epoch': 2.45}
+{'loss': 1.271, 'grad_norm': 2.6011316776275635, 'learning_rate': 1.0411115340692807e-06, 'epoch': 2.45}
+{'loss': 1.3426, 'grad_norm': 2.8445608615875244, 'learning_rate': 1.0392082223068139e-06, 'epoch': 2.46}
+{'eval_loss': 1.764119267463684, 'eval_runtime': 37.9678, 'eval_samples_per_second': 26.338, 'eval_steps_per_second': 1.106, 'epoch': 2.46}
+{'loss': 1.3083, 'grad_norm': 2.7232890129089355, 'learning_rate': 1.0373049105443472e-06, 'epoch': 2.46}
+{'loss': 1.3206, 'grad_norm': 2.7028329372406006, 'learning_rate': 1.0354015987818806e-06, 'epoch': 2.46}
+{'loss': 1.2851, 'grad_norm': 2.7255351543426514, 'learning_rate': 1.033498287019414e-06, 'epoch': 2.46}
+{'loss': 1.335, 'grad_norm': 2.9048759937286377, 'learning_rate': 1.0315949752569471e-06, 'epoch': 2.46}
+{'loss': 1.2832, 'grad_norm': 2.680952310562134, 'learning_rate': 1.0296916634944805e-06, 'epoch': 2.46}
+{'loss': 1.3055, 'grad_norm': 2.6702933311462402, 'learning_rate': 1.0277883517320138e-06, 'epoch': 2.46}
+{'loss': 1.3422, 'grad_norm': 2.851332664489746, 'learning_rate': 1.025885039969547e-06, 'epoch': 2.46}
+{'loss': 1.2412, 'grad_norm': 2.5233068466186523, 'learning_rate': 1.0239817282070806e-06, 'epoch': 2.46}
+{'loss': 1.2725, 'grad_norm': 2.6488661766052246, 'learning_rate': 1.0220784164446137e-06, 'epoch': 2.46}
+{'loss': 1.3043, 'grad_norm': 2.558196544647217, 'learning_rate': 1.020175104682147e-06, 'epoch': 2.47}
+{'eval_loss': 1.7678213119506836, 'eval_runtime': 37.9906, 'eval_samples_per_second': 26.322, 'eval_steps_per_second': 1.106, 'epoch': 2.47}
+{'loss': 1.2979, 'grad_norm': 2.601803779602051, 'learning_rate': 1.0182717929196802e-06, 'epoch': 2.47}
+{'loss': 1.3215, 'grad_norm': 2.6790895462036133, 'learning_rate': 1.0163684811572136e-06, 'epoch': 2.47}
+{'loss': 1.2561, 'grad_norm': 2.6814472675323486, 'learning_rate': 1.014465169394747e-06, 'epoch': 2.47}
+{'loss': 1.2966, 'grad_norm': 2.7114996910095215, 'learning_rate': 1.0125618576322803e-06, 'epoch': 2.47}
+{'loss': 1.278, 'grad_norm': 2.6394622325897217, 'learning_rate': 1.0106585458698137e-06, 'epoch': 2.47}
+{'loss': 1.2798, 'grad_norm': 2.656283140182495, 'learning_rate': 1.0087552341073468e-06, 'epoch': 2.47}
+{'loss': 1.3656, 'grad_norm': 2.719639539718628, 'learning_rate': 1.0068519223448802e-06, 'epoch': 2.47}
+{'loss': 1.3384, 'grad_norm': 2.7754440307617188, 'learning_rate': 1.0049486105824133e-06, 'epoch': 2.47}
+{'loss': 1.2859, 'grad_norm': 2.6474952697753906, 'learning_rate': 1.003045298819947e-06, 'epoch': 2.47}
+{'loss': 1.2753, 'grad_norm': 2.6622884273529053, 'learning_rate': 1.00114198705748e-06, 'epoch': 2.48}
+{'eval_loss': 1.7663556337356567, 'eval_runtime': 37.6695, 'eval_samples_per_second': 26.547, 'eval_steps_per_second': 1.115, 'epoch': 2.48}
+{'loss': 1.2807, 'grad_norm': 2.721719741821289, 'learning_rate': 9.992386752950134e-07, 'epoch': 2.48}
+{'loss': 1.269, 'grad_norm': 2.5972471237182617, 'learning_rate': 9.973353635325466e-07, 'epoch': 2.48}
+{'loss': 1.2789, 'grad_norm': 2.616769790649414, 'learning_rate': 9.9543205177008e-07, 'epoch': 2.48}
+{'loss': 1.282, 'grad_norm': 2.573221206665039, 'learning_rate': 9.935287400076133e-07, 'epoch': 2.48}
+{'loss': 1.2676, 'grad_norm': 2.6644439697265625, 'learning_rate': 9.916254282451467e-07, 'epoch': 2.48}
+{'loss': 1.2999, 'grad_norm': 2.6775522232055664, 'learning_rate': 9.8972211648268e-07, 'epoch': 2.48}
+{'loss': 1.3202, 'grad_norm': 2.785191297531128, 'learning_rate': 9.878188047202132e-07, 'epoch': 2.48}
+{'loss': 1.295, 'grad_norm': 2.7016355991363525, 'learning_rate': 9.859154929577465e-07, 'epoch': 2.48}
+{'loss': 1.2846, 'grad_norm': 2.6089084148406982, 'learning_rate': 9.8401218119528e-07, 'epoch': 2.48}
+{'loss': 1.2883, 'grad_norm': 2.8124489784240723, 'learning_rate': 9.821088694328133e-07, 'epoch': 2.49}
+{'eval_loss': 1.7576653957366943, 'eval_runtime': 37.867, 'eval_samples_per_second': 26.408, 'eval_steps_per_second': 1.109, 'epoch': 2.49}
+{'loss': 1.3321, 'grad_norm': 2.7730648517608643, 'learning_rate': 9.802055576703464e-07, 'epoch': 2.49}
+{'loss': 1.2931, 'grad_norm': 2.725834846496582, 'learning_rate': 9.783022459078798e-07, 'epoch': 2.49}
+{'loss': 1.3002, 'grad_norm': 2.607725143432617, 'learning_rate': 9.76398934145413e-07, 'epoch': 2.49}
+{'loss': 1.3102, 'grad_norm': 2.6080846786499023, 'learning_rate': 9.744956223829465e-07, 'epoch': 2.49}
+{'loss': 1.3234, 'grad_norm': 2.6172633171081543, 'learning_rate': 9.725923106204797e-07, 'epoch': 2.49}
+{'loss': 1.3442, 'grad_norm': 2.6781582832336426, 'learning_rate': 9.70688998858013e-07, 'epoch': 2.49}
+{'loss': 1.3401, 'grad_norm': 2.8291099071502686, 'learning_rate': 9.687856870955464e-07, 'epoch': 2.49}
+{'loss': 1.3241, 'grad_norm': 2.589317560195923, 'learning_rate': 9.668823753330795e-07, 'epoch': 2.49}
+{'loss': 1.2589, 'grad_norm': 2.5891406536102295, 'learning_rate': 9.64979063570613e-07, 'epoch': 2.5}
+{'loss': 1.3036, 'grad_norm': 2.589101791381836, 'learning_rate': 9.630757518081463e-07, 'epoch': 2.5}
+{'eval_loss': 1.7622722387313843, 'eval_runtime': 38.0143, 'eval_samples_per_second': 26.306, 'eval_steps_per_second': 1.105, 'epoch': 2.5}
+{'loss': 1.2969, 'grad_norm': 2.75529146194458, 'learning_rate': 9.611724400456796e-07, 'epoch': 2.5}
+{'loss': 1.2881, 'grad_norm': 2.557976722717285, 'learning_rate': 9.592691282832128e-07, 'epoch': 2.5}
+{'loss': 1.3007, 'grad_norm': 2.638200521469116, 'learning_rate': 9.573658165207461e-07, 'epoch': 2.5}
+{'loss': 1.316, 'grad_norm': 2.6940360069274902, 'learning_rate': 9.554625047582795e-07, 'epoch': 2.5}
+{'loss': 1.2844, 'grad_norm': 2.517789602279663, 'learning_rate': 9.535591929958129e-07, 'epoch': 2.5}
+{'loss': 1.3084, 'grad_norm': 2.5775527954101562, 'learning_rate': 9.516558812333461e-07, 'epoch': 2.5}
+{'loss': 1.3242, 'grad_norm': 2.605240821838379, 'learning_rate': 9.497525694708794e-07, 'epoch': 2.5}
+{'loss': 1.2799, 'grad_norm': 2.56835675239563, 'learning_rate': 9.478492577084126e-07, 'epoch': 2.5}
+{'loss': 1.2987, 'grad_norm': 2.564911127090454, 'learning_rate': 9.459459459459461e-07, 'epoch': 2.51}
+{'loss': 1.29, 'grad_norm': 2.6561388969421387, 'learning_rate': 9.440426341834794e-07, 'epoch': 2.51}
+{'eval_loss': 1.766339898109436, 'eval_runtime': 38.0448, 'eval_samples_per_second': 26.285, 'eval_steps_per_second': 1.104, 'epoch': 2.51}
+{'loss': 1.3058, 'grad_norm': 2.5807695388793945, 'learning_rate': 9.421393224210126e-07, 'epoch': 2.51}
+{'loss': 1.3012, 'grad_norm': 2.6242141723632812, 'learning_rate': 9.402360106585459e-07, 'epoch': 2.51}
+{'loss': 1.2716, 'grad_norm': 2.6174166202545166, 'learning_rate': 9.383326988960792e-07, 'epoch': 2.51}
+{'loss': 1.2625, 'grad_norm': 2.5244762897491455, 'learning_rate': 9.364293871336126e-07, 'epoch': 2.51}
+{'loss': 1.3049, 'grad_norm': 2.61104679107666, 'learning_rate': 9.345260753711458e-07, 'epoch': 2.51}
+{'loss': 1.3159, 'grad_norm': 2.735579013824463, 'learning_rate': 9.326227636086792e-07, 'epoch': 2.51}
+{'loss': 1.2611, 'grad_norm': 2.5533411502838135, 'learning_rate': 9.307194518462125e-07, 'epoch': 2.51}
+{'loss': 1.3754, 'grad_norm': 2.705458164215088, 'learning_rate': 9.288161400837457e-07, 'epoch': 2.51}
+{'loss': 1.272, 'grad_norm': 2.5326483249664307, 'learning_rate': 9.269128283212792e-07, 'epoch': 2.52}
+{'loss': 1.3067, 'grad_norm': 2.6174025535583496, 'learning_rate': 9.250095165588125e-07, 'epoch': 2.52}
+{'eval_loss': 1.7679108381271362, 'eval_runtime': 38.0209, 'eval_samples_per_second': 26.301, 'eval_steps_per_second': 1.105, 'epoch': 2.52}
+{'loss': 1.3485, 'grad_norm': 2.6596055030822754, 'learning_rate': 9.231062047963457e-07, 'epoch': 2.52}
+{'loss': 1.3559, 'grad_norm': 2.7891628742218018, 'learning_rate': 9.21202893033879e-07, 'epoch': 2.52}
+{'loss': 1.3187, 'grad_norm': 2.560696840286255, 'learning_rate': 9.192995812714123e-07, 'epoch': 2.52}
+{'loss': 1.3129, 'grad_norm': 2.6536800861358643, 'learning_rate': 9.173962695089457e-07, 'epoch': 2.52}
+{'loss': 1.3111, 'grad_norm': 2.6149590015411377, 'learning_rate': 9.154929577464789e-07, 'epoch': 2.52}
+{'loss': 1.3172, 'grad_norm': 2.672088861465454, 'learning_rate': 9.135896459840123e-07, 'epoch': 2.52}
+{'loss': 1.3029, 'grad_norm': 2.7675814628601074, 'learning_rate': 9.116863342215456e-07, 'epoch': 2.52}
+{'loss': 1.3424, 'grad_norm': 2.931568145751953, 'learning_rate': 9.097830224590788e-07, 'epoch': 2.52}
+{'loss': 1.2604, 'grad_norm': 2.6001431941986084, 'learning_rate': 9.078797106966122e-07, 'epoch': 2.53}
+{'loss': 1.3386, 'grad_norm': 2.8028078079223633, 'learning_rate': 9.059763989341455e-07, 'epoch': 2.53}
+{'eval_loss': 1.7729586362838745, 'eval_runtime': 38.0609, 'eval_samples_per_second': 26.274, 'eval_steps_per_second': 1.103, 'epoch': 2.53}
+{'loss': 1.2824, 'grad_norm': 2.6733815670013428, 'learning_rate': 9.040730871716788e-07, 'epoch': 2.53}
+{'loss': 1.3075, 'grad_norm': 2.6084516048431396, 'learning_rate': 9.021697754092121e-07, 'epoch': 2.53}
+{'loss': 1.3112, 'grad_norm': 2.6287853717803955, 'learning_rate': 9.002664636467453e-07, 'epoch': 2.53}
+{'loss': 1.3282, 'grad_norm': 2.702615976333618, 'learning_rate': 8.983631518842788e-07, 'epoch': 2.53}
+{'loss': 1.3386, 'grad_norm': 2.60542893409729, 'learning_rate': 8.96459840121812e-07, 'epoch': 2.53}
+{'loss': 1.3019, 'grad_norm': 2.6633386611938477, 'learning_rate': 8.945565283593453e-07, 'epoch': 2.53}
+{'loss': 1.3085, 'grad_norm': 2.5968427658081055, 'learning_rate': 8.926532165968787e-07, 'epoch': 2.53}
+{'loss': 1.3233, 'grad_norm': 2.746767044067383, 'learning_rate': 8.907499048344119e-07, 'epoch': 2.54}
+{'loss': 1.258, 'grad_norm': 2.589085578918457, 'learning_rate': 8.888465930719453e-07, 'epoch': 2.54}
+{'loss': 1.2664, 'grad_norm': 2.61661434173584, 'learning_rate': 8.869432813094786e-07, 'epoch': 2.54}
+{'eval_loss': 1.7717350721359253, 'eval_runtime': 38.0362, 'eval_samples_per_second': 26.291, 'eval_steps_per_second': 1.104, 'epoch': 2.54}
+{'loss': 1.3052, 'grad_norm': 2.657177448272705, 'learning_rate': 8.850399695470119e-07, 'epoch': 2.54}
+{'loss': 1.3235, 'grad_norm': 2.603573799133301, 'learning_rate': 8.831366577845452e-07, 'epoch': 2.54}
+{'loss': 1.2742, 'grad_norm': 2.6154067516326904, 'learning_rate': 8.812333460220784e-07, 'epoch': 2.54}
+{'loss': 1.2535, 'grad_norm': 2.515085220336914, 'learning_rate': 8.793300342596119e-07, 'epoch': 2.54}
+{'loss': 1.3088, 'grad_norm': 2.6949517726898193, 'learning_rate': 8.774267224971451e-07, 'epoch': 2.54}
+{'loss': 1.3416, 'grad_norm': 2.891838312149048, 'learning_rate': 8.755234107346784e-07, 'epoch': 2.54}
+{'loss': 1.2775, 'grad_norm': 2.623758554458618, 'learning_rate': 8.736200989722117e-07, 'epoch': 2.54}
+{'loss': 1.2999, 'grad_norm': 2.65680193901062, 'learning_rate': 8.71716787209745e-07, 'epoch': 2.55}
+{'loss': 1.3453, 'grad_norm': 2.85903000831604, 'learning_rate': 8.698134754472784e-07, 'epoch': 2.55}
+{'loss': 1.2432, 'grad_norm': 2.7487850189208984, 'learning_rate': 8.679101636848116e-07, 'epoch': 2.55}
+{'eval_loss': 1.7745047807693481, 'eval_runtime': 37.9926, 'eval_samples_per_second': 26.321, 'eval_steps_per_second': 1.105, 'epoch': 2.55}
+{'loss': 1.3116, 'grad_norm': 2.737975835800171, 'learning_rate': 8.66006851922345e-07, 'epoch': 2.55}
+{'loss': 1.2989, 'grad_norm': 2.6670281887054443, 'learning_rate': 8.641035401598783e-07, 'epoch': 2.55}
+{'loss': 1.2907, 'grad_norm': 2.6732940673828125, 'learning_rate': 8.622002283974115e-07, 'epoch': 2.55}
+{'loss': 1.3347, 'grad_norm': 2.7414166927337646, 'learning_rate': 8.60296916634945e-07, 'epoch': 2.55}
+{'loss': 1.2939, 'grad_norm': 2.557168960571289, 'learning_rate': 8.583936048724782e-07, 'epoch': 2.55}
+{'loss': 1.285, 'grad_norm': 2.5460598468780518, 'learning_rate': 8.564902931100115e-07, 'epoch': 2.55}
+{'loss': 1.3066, 'grad_norm': 2.7185349464416504, 'learning_rate': 8.545869813475448e-07, 'epoch': 2.55}
+{'loss': 1.3032, 'grad_norm': 2.6216139793395996, 'learning_rate': 8.526836695850781e-07, 'epoch': 2.56}
+{'loss': 1.3279, 'grad_norm': 2.7842869758605957, 'learning_rate': 8.507803578226115e-07, 'epoch': 2.56}
+{'loss': 1.3119, 'grad_norm': 2.6502983570098877, 'learning_rate': 8.488770460601447e-07, 'epoch': 2.56}
+{'eval_loss': 1.7768635749816895, 'eval_runtime': 37.9867, 'eval_samples_per_second': 26.325, 'eval_steps_per_second': 1.106, 'epoch': 2.56}
+{'loss': 1.2769, 'grad_norm': 2.695314645767212, 'learning_rate': 8.46973734297678e-07, 'epoch': 2.56}
+{'loss': 1.2892, 'grad_norm': 2.661893844604492, 'learning_rate': 8.450704225352114e-07, 'epoch': 2.56}
+{'loss': 1.2883, 'grad_norm': 2.686737537384033, 'learning_rate': 8.431671107727446e-07, 'epoch': 2.56}
+{'loss': 1.3139, 'grad_norm': 2.661504030227661, 'learning_rate': 8.41263799010278e-07, 'epoch': 2.56}
+{'loss': 1.2981, 'grad_norm': 2.6665518283843994, 'learning_rate': 8.393604872478113e-07, 'epoch': 2.56}
+{'loss': 1.2862, 'grad_norm': 2.722047805786133, 'learning_rate': 8.374571754853446e-07, 'epoch': 2.56}
+{'loss': 1.2934, 'grad_norm': 2.6358418464660645, 'learning_rate': 8.355538637228778e-07, 'epoch': 2.56}
+{'loss': 1.2874, 'grad_norm': 2.7137503623962402, 'learning_rate': 8.336505519604111e-07, 'epoch': 2.57}
+{'loss': 1.3229, 'grad_norm': 2.589345693588257, 'learning_rate': 8.317472401979445e-07, 'epoch': 2.57}
+{'loss': 1.3481, 'grad_norm': 2.597588062286377, 'learning_rate': 8.298439284354778e-07, 'epoch': 2.57}
+{'eval_loss': 1.7751270532608032, 'eval_runtime': 37.9958, 'eval_samples_per_second': 26.319, 'eval_steps_per_second': 1.105, 'epoch': 2.57}
+{'loss': 1.3318, 'grad_norm': 2.7178173065185547, 'learning_rate': 8.279406166730111e-07, 'epoch': 2.57}
+{'loss': 1.332, 'grad_norm': 2.6459460258483887, 'learning_rate': 8.260373049105444e-07, 'epoch': 2.57}
+{'loss': 1.311, 'grad_norm': 2.6359541416168213, 'learning_rate': 8.241339931480777e-07, 'epoch': 2.57}
+{'loss': 1.3391, 'grad_norm': 2.706570863723755, 'learning_rate': 8.22230681385611e-07, 'epoch': 2.57}
+{'loss': 1.3058, 'grad_norm': 2.591161012649536, 'learning_rate': 8.203273696231444e-07, 'epoch': 2.57}
+{'loss': 1.2646, 'grad_norm': 2.595672607421875, 'learning_rate': 8.184240578606777e-07, 'epoch': 2.57}
+{'loss': 1.3191, 'grad_norm': 2.7604939937591553, 'learning_rate': 8.165207460982109e-07, 'epoch': 2.58}
+{'loss': 1.2735, 'grad_norm': 2.6298060417175293, 'learning_rate': 8.146174343357442e-07, 'epoch': 2.58}
+{'loss': 1.3164, 'grad_norm': 2.7220308780670166, 'learning_rate': 8.127141225732775e-07, 'epoch': 2.58}
+{'loss': 1.3236, 'grad_norm': 2.875459671020508, 'learning_rate': 8.108108108108109e-07, 'epoch': 2.58}
+{'eval_loss': 1.7866631746292114, 'eval_runtime': 37.6739, 'eval_samples_per_second': 26.544, 'eval_steps_per_second': 1.115, 'epoch': 2.58}
+{'loss': 1.3147, 'grad_norm': 2.747443675994873, 'learning_rate': 8.089074990483442e-07, 'epoch': 2.58}
+{'loss': 1.3016, 'grad_norm': 2.7403504848480225, 'learning_rate': 8.070041872858774e-07, 'epoch': 2.58}
+{'loss': 1.3118, 'grad_norm': 2.700188159942627, 'learning_rate': 8.051008755234108e-07, 'epoch': 2.58}
+{'loss': 1.255, 'grad_norm': 2.575113296508789, 'learning_rate': 8.031975637609441e-07, 'epoch': 2.58}
+{'loss': 1.305, 'grad_norm': 2.7600820064544678, 'learning_rate': 8.012942519984774e-07, 'epoch': 2.58}
+{'loss': 1.327, 'grad_norm': 2.5697903633117676, 'learning_rate': 7.993909402360108e-07, 'epoch': 2.58}
+{'loss': 1.3196, 'grad_norm': 2.617521047592163, 'learning_rate': 7.97487628473544e-07, 'epoch': 2.59}
+{'loss': 1.2993, 'grad_norm': 2.708566427230835, 'learning_rate': 7.955843167110773e-07, 'epoch': 2.59}
+{'loss': 1.2748, 'grad_norm': 2.683959722518921, 'learning_rate': 7.936810049486106e-07, 'epoch': 2.59}
+{'loss': 1.2935, 'grad_norm': 2.6184964179992676, 'learning_rate': 7.91777693186144e-07, 'epoch': 2.59}
+{'eval_loss': 1.7722079753875732, 'eval_runtime': 37.7975, 'eval_samples_per_second': 26.457, 'eval_steps_per_second': 1.111, 'epoch': 2.59}
+{'loss': 1.3149, 'grad_norm': 2.538283586502075, 'learning_rate': 7.898743814236773e-07, 'epoch': 2.59}
+{'loss': 1.2907, 'grad_norm': 2.5143439769744873, 'learning_rate': 7.879710696612105e-07, 'epoch': 2.59}
+{'loss': 1.3575, 'grad_norm': 2.5969698429107666, 'learning_rate': 7.860677578987438e-07, 'epoch': 2.59}
+{'loss': 1.3152, 'grad_norm': 2.617640733718872, 'learning_rate': 7.841644461362772e-07, 'epoch': 2.59}
+{'loss': 1.2949, 'grad_norm': 2.649030923843384, 'learning_rate': 7.822611343738105e-07, 'epoch': 2.59}
+{'loss': 1.3333, 'grad_norm': 2.694195032119751, 'learning_rate': 7.803578226113438e-07, 'epoch': 2.59}
+{'loss': 1.282, 'grad_norm': 2.559192657470703, 'learning_rate': 7.784545108488771e-07, 'epoch': 2.6}
+{'loss': 1.3033, 'grad_norm': 2.5788307189941406, 'learning_rate': 7.765511990864104e-07, 'epoch': 2.6}
+{'loss': 1.3569, 'grad_norm': 2.8756697177886963, 'learning_rate': 7.746478873239437e-07, 'epoch': 2.6}
+{'loss': 1.319, 'grad_norm': 2.632779598236084, 'learning_rate': 7.727445755614771e-07, 'epoch': 2.6}
+{'eval_loss': 1.7722663879394531, 'eval_runtime': 37.9166, 'eval_samples_per_second': 26.374, 'eval_steps_per_second': 1.108, 'epoch': 2.6}
+{'loss': 1.3142, 'grad_norm': 2.76119065284729, 'learning_rate': 7.708412637990104e-07, 'epoch': 2.6}
+{'loss': 1.3286, 'grad_norm': 2.593604803085327, 'learning_rate': 7.689379520365436e-07, 'epoch': 2.6}
+{'loss': 1.2933, 'grad_norm': 2.6926052570343018, 'learning_rate': 7.670346402740769e-07, 'epoch': 2.6}
+{'loss': 1.3187, 'grad_norm': 2.734140157699585, 'learning_rate': 7.651313285116103e-07, 'epoch': 2.6}
+{'loss': 1.3427, 'grad_norm': 2.7742362022399902, 'learning_rate': 7.632280167491436e-07, 'epoch': 2.6}
+{'loss': 1.2652, 'grad_norm': 2.5474061965942383, 'learning_rate': 7.613247049866769e-07, 'epoch': 2.61}
+{'loss': 1.2405, 'grad_norm': 2.704885959625244, 'learning_rate': 7.594213932242102e-07, 'epoch': 2.61}
+{'loss': 1.2702, 'grad_norm': 2.67887020111084, 'learning_rate': 7.575180814617435e-07, 'epoch': 2.61}
+{'loss': 1.3046, 'grad_norm': 2.6307291984558105, 'learning_rate': 7.556147696992767e-07, 'epoch': 2.61}
+{'loss': 1.3121, 'grad_norm': 2.7046597003936768, 'learning_rate': 7.537114579368102e-07, 'epoch': 2.61}
+{'eval_loss': 1.7705127000808716, 'eval_runtime': 38.0131, 'eval_samples_per_second': 26.307, 'eval_steps_per_second': 1.105, 'epoch': 2.61}
+{'loss': 1.28, 'grad_norm': 2.564473867416382, 'learning_rate': 7.518081461743435e-07, 'epoch': 2.61}
+{'loss': 1.2945, 'grad_norm': 2.63580322265625, 'learning_rate': 7.499048344118767e-07, 'epoch': 2.61}
+{'loss': 1.3265, 'grad_norm': 2.6448638439178467, 'learning_rate': 7.4800152264941e-07, 'epoch': 2.61}
+{'loss': 1.3035, 'grad_norm': 2.490447521209717, 'learning_rate': 7.460982108869432e-07, 'epoch': 2.61}
+{'loss': 1.288, 'grad_norm': 2.5429506301879883, 'learning_rate': 7.441948991244767e-07, 'epoch': 2.61}
+{'loss': 1.3119, 'grad_norm': 2.6845016479492188, 'learning_rate': 7.4229158736201e-07, 'epoch': 2.62}
+{'loss': 1.3213, 'grad_norm': 2.6247217655181885, 'learning_rate': 7.403882755995432e-07, 'epoch': 2.62}
+{'loss': 1.2831, 'grad_norm': 2.5123143196105957, 'learning_rate': 7.384849638370766e-07, 'epoch': 2.62}
+{'loss': 1.2393, 'grad_norm': 2.5071399211883545, 'learning_rate': 7.365816520746098e-07, 'epoch': 2.62}
+{'loss': 1.3083, 'grad_norm': 2.744621515274048, 'learning_rate': 7.346783403121432e-07, 'epoch': 2.62}
+{'eval_loss': 1.7846120595932007, 'eval_runtime': 37.9987, 'eval_samples_per_second': 26.317, 'eval_steps_per_second': 1.105, 'epoch': 2.62}
+{'loss': 1.287, 'grad_norm': 2.714101552963257, 'learning_rate': 7.327750285496766e-07, 'epoch': 2.62}
+{'loss': 1.2873, 'grad_norm': 2.792046546936035, 'learning_rate': 7.308717167872098e-07, 'epoch': 2.62}
+{'loss': 1.255, 'grad_norm': 2.493668556213379, 'learning_rate': 7.289684050247431e-07, 'epoch': 2.62}
+{'loss': 1.3418, 'grad_norm': 2.631716012954712, 'learning_rate': 7.270650932622763e-07, 'epoch': 2.62}
+{'loss': 1.2512, 'grad_norm': 2.443617820739746, 'learning_rate': 7.251617814998098e-07, 'epoch': 2.62}
+{'loss': 1.3131, 'grad_norm': 2.4819979667663574, 'learning_rate': 7.232584697373431e-07, 'epoch': 2.63}
+{'loss': 1.2812, 'grad_norm': 2.5260822772979736, 'learning_rate': 7.213551579748763e-07, 'epoch': 2.63}
+{'loss': 1.3065, 'grad_norm': 2.614377498626709, 'learning_rate': 7.194518462124096e-07, 'epoch': 2.63}
+{'loss': 1.3813, 'grad_norm': 2.619166374206543, 'learning_rate': 7.175485344499429e-07, 'epoch': 2.63}
+{'loss': 1.2856, 'grad_norm': 2.6223137378692627, 'learning_rate': 7.156452226874763e-07, 'epoch': 2.63}
+{'eval_loss': 1.7834736108779907, 'eval_runtime': 38.0086, 'eval_samples_per_second': 26.31, 'eval_steps_per_second': 1.105, 'epoch': 2.63}
+{'loss': 1.375, 'grad_norm': 2.7283148765563965, 'learning_rate': 7.137419109250096e-07, 'epoch': 2.63}
+{'loss': 1.2915, 'grad_norm': 2.629539728164673, 'learning_rate': 7.118385991625429e-07, 'epoch': 2.63}
+{'loss': 1.2818, 'grad_norm': 2.576698064804077, 'learning_rate': 7.099352874000762e-07, 'epoch': 2.63}
+{'loss': 1.285, 'grad_norm': 2.5807430744171143, 'learning_rate': 7.080319756376094e-07, 'epoch': 2.63}
+{'loss': 1.2594, 'grad_norm': 2.461386203765869, 'learning_rate': 7.061286638751429e-07, 'epoch': 2.63}
+{'loss': 1.3038, 'grad_norm': 2.6482107639312744, 'learning_rate': 7.042253521126762e-07, 'epoch': 2.64}
+{'loss': 1.2453, 'grad_norm': 2.637989044189453, 'learning_rate': 7.023220403502094e-07, 'epoch': 2.64}
+{'loss': 1.3413, 'grad_norm': 2.6575927734375, 'learning_rate': 7.004187285877427e-07, 'epoch': 2.64}
+{'loss': 1.3212, 'grad_norm': 2.616055727005005, 'learning_rate': 6.98515416825276e-07, 'epoch': 2.64}
+{'loss': 1.2999, 'grad_norm': 2.5758297443389893, 'learning_rate': 6.966121050628094e-07, 'epoch': 2.64}
+{'eval_loss': 1.7819379568099976, 'eval_runtime': 38.0358, 'eval_samples_per_second': 26.291, 'eval_steps_per_second': 1.104, 'epoch': 2.64}
+{'loss': 1.3519, 'grad_norm': 2.7511165142059326, 'learning_rate': 6.947087933003427e-07, 'epoch': 2.64}
+{'loss': 1.2944, 'grad_norm': 2.6978421211242676, 'learning_rate': 6.92805481537876e-07, 'epoch': 2.64}
+{'loss': 1.3496, 'grad_norm': 2.7035439014434814, 'learning_rate': 6.909021697754093e-07, 'epoch': 2.64}
+{'loss': 1.3233, 'grad_norm': 2.6517820358276367, 'learning_rate': 6.889988580129425e-07, 'epoch': 2.64}
+{'loss': 1.2826, 'grad_norm': 2.65956974029541, 'learning_rate': 6.870955462504759e-07, 'epoch': 2.65}
+{'loss': 1.3257, 'grad_norm': 2.671339988708496, 'learning_rate': 6.851922344880093e-07, 'epoch': 2.65}
+{'loss': 1.3015, 'grad_norm': 2.648261785507202, 'learning_rate': 6.832889227255425e-07, 'epoch': 2.65}
+{'loss': 1.3129, 'grad_norm': 2.700082540512085, 'learning_rate': 6.813856109630758e-07, 'epoch': 2.65}
+{'loss': 1.3185, 'grad_norm': 2.7364165782928467, 'learning_rate': 6.79482299200609e-07, 'epoch': 2.65}
+{'loss': 1.2796, 'grad_norm': 2.5831615924835205, 'learning_rate': 6.775789874381425e-07, 'epoch': 2.65}
+{'eval_loss': 1.7886762619018555, 'eval_runtime': 38.0048, 'eval_samples_per_second': 26.312, 'eval_steps_per_second': 1.105, 'epoch': 2.65}
+{'loss': 1.3447, 'grad_norm': 2.6888351440429688, 'learning_rate': 6.756756756756758e-07, 'epoch': 2.65}
+{'loss': 1.3234, 'grad_norm': 2.643916606903076, 'learning_rate': 6.73772363913209e-07, 'epoch': 2.65}
+{'loss': 1.3164, 'grad_norm': 2.593222141265869, 'learning_rate': 6.718690521507424e-07, 'epoch': 2.65}
+{'loss': 1.2637, 'grad_norm': 2.535433053970337, 'learning_rate': 6.699657403882756e-07, 'epoch': 2.65}
+{'loss': 1.328, 'grad_norm': 2.5683724880218506, 'learning_rate': 6.68062428625809e-07, 'epoch': 2.66}
+{'loss': 1.3393, 'grad_norm': 2.6119470596313477, 'learning_rate': 6.661591168633424e-07, 'epoch': 2.66}
+{'loss': 1.3219, 'grad_norm': 2.646026134490967, 'learning_rate': 6.642558051008756e-07, 'epoch': 2.66}
+{'loss': 1.326, 'grad_norm': 2.7056374549865723, 'learning_rate': 6.623524933384089e-07, 'epoch': 2.66}
+{'loss': 1.2979, 'grad_norm': 2.638749361038208, 'learning_rate': 6.604491815759421e-07, 'epoch': 2.66}
+{'loss': 1.292, 'grad_norm': 2.6330184936523438, 'learning_rate': 6.585458698134756e-07, 'epoch': 2.66}
+{'eval_loss': 1.7978336811065674, 'eval_runtime': 38.019, 'eval_samples_per_second': 26.303, 'eval_steps_per_second': 1.105, 'epoch': 2.66}
+{'loss': 1.2541, 'grad_norm': 2.577609062194824, 'learning_rate': 6.566425580510089e-07, 'epoch': 2.66}
+{'loss': 1.3183, 'grad_norm': 2.666790008544922, 'learning_rate': 6.547392462885421e-07, 'epoch': 2.66}
+{'loss': 1.3303, 'grad_norm': 2.6628904342651367, 'learning_rate': 6.528359345260754e-07, 'epoch': 2.66}
+{'loss': 1.3019, 'grad_norm': 2.6553924083709717, 'learning_rate': 6.509326227636087e-07, 'epoch': 2.66}
+{'loss': 1.3111, 'grad_norm': 2.7442100048065186, 'learning_rate': 6.490293110011421e-07, 'epoch': 2.67}
+{'loss': 1.2986, 'grad_norm': 2.6254689693450928, 'learning_rate': 6.471259992386753e-07, 'epoch': 2.67}
+{'loss': 1.3471, 'grad_norm': 2.5442848205566406, 'learning_rate': 6.452226874762087e-07, 'epoch': 2.67}
+{'loss': 1.2879, 'grad_norm': 2.5967025756835938, 'learning_rate': 6.43319375713742e-07, 'epoch': 2.67}
+{'loss': 1.3201, 'grad_norm': 2.69215989112854, 'learning_rate': 6.414160639512752e-07, 'epoch': 2.67}
+{'loss': 1.31, 'grad_norm': 2.7470815181732178, 'learning_rate': 6.395127521888085e-07, 'epoch': 2.67}
+{'eval_loss': 1.8076120615005493, 'eval_runtime': 38.023, 'eval_samples_per_second': 26.3, 'eval_steps_per_second': 1.105, 'epoch': 2.67}
+{'loss': 1.2818, 'grad_norm': 2.681523561477661, 'learning_rate': 6.37609440426342e-07, 'epoch': 2.67}
+{'loss': 1.3465, 'grad_norm': 2.7073915004730225, 'learning_rate': 6.357061286638752e-07, 'epoch': 2.67}
+{'loss': 1.3072, 'grad_norm': 2.7676303386688232, 'learning_rate': 6.338028169014085e-07, 'epoch': 2.67}
+{'loss': 1.3415, 'grad_norm': 2.7673637866973877, 'learning_rate': 6.318995051389418e-07, 'epoch': 2.67}
+{'loss': 1.2292, 'grad_norm': 2.518784284591675, 'learning_rate': 6.299961933764751e-07, 'epoch': 2.68}
+{'loss': 1.3314, 'grad_norm': 2.569060802459717, 'learning_rate': 6.280928816140084e-07, 'epoch': 2.68}
+{'loss': 1.3806, 'grad_norm': 2.70438814163208, 'learning_rate': 6.261895698515417e-07, 'epoch': 2.68}
+{'loss': 1.326, 'grad_norm': 2.6343674659729004, 'learning_rate': 6.242862580890751e-07, 'epoch': 2.68}
+{'loss': 1.2799, 'grad_norm': 2.5554616451263428, 'learning_rate': 6.223829463266084e-07, 'epoch': 2.68}
+{'loss': 1.2466, 'grad_norm': 2.6620726585388184, 'learning_rate': 6.204796345641417e-07, 'epoch': 2.68}
+{'eval_loss': 1.8074779510498047, 'eval_runtime': 37.6679, 'eval_samples_per_second': 26.548, 'eval_steps_per_second': 1.115, 'epoch': 2.68}
+{'loss': 1.3034, 'grad_norm': 2.7202115058898926, 'learning_rate': 6.185763228016749e-07, 'epoch': 2.68}
+{'loss': 1.3341, 'grad_norm': 2.912074089050293, 'learning_rate': 6.166730110392083e-07, 'epoch': 2.68}
+{'loss': 1.3551, 'grad_norm': 3.0352418422698975, 'learning_rate': 6.147696992767416e-07, 'epoch': 2.68}
+{'loss': 1.3205, 'grad_norm': 2.603231191635132, 'learning_rate': 6.128663875142749e-07, 'epoch': 2.69}
+{'loss': 1.2837, 'grad_norm': 2.6780762672424316, 'learning_rate': 6.109630757518082e-07, 'epoch': 2.69}
+{'loss': 1.3635, 'grad_norm': 2.8105902671813965, 'learning_rate': 6.090597639893414e-07, 'epoch': 2.69}
+{'loss': 1.2684, 'grad_norm': 2.609379291534424, 'learning_rate': 6.071564522268748e-07, 'epoch': 2.69}
+{'loss': 1.3132, 'grad_norm': 2.6364426612854004, 'learning_rate': 6.052531404644082e-07, 'epoch': 2.69}
+{'loss': 1.3828, 'grad_norm': 2.7625892162323, 'learning_rate': 6.033498287019414e-07, 'epoch': 2.69}
+{'loss': 1.2953, 'grad_norm': 2.5761687755584717, 'learning_rate': 6.014465169394748e-07, 'epoch': 2.69}
+{'eval_loss': 1.7990498542785645, 'eval_runtime': 37.8153, 'eval_samples_per_second': 26.444, 'eval_steps_per_second': 1.111, 'epoch': 2.69}
+{'loss': 1.2924, 'grad_norm': 2.7242608070373535, 'learning_rate': 5.99543205177008e-07, 'epoch': 2.69}
+{'loss': 1.2918, 'grad_norm': 2.589207410812378, 'learning_rate': 5.976398934145414e-07, 'epoch': 2.69}
+{'loss': 1.288, 'grad_norm': 2.5671799182891846, 'learning_rate': 5.957365816520747e-07, 'epoch': 2.69}
+{'loss': 1.3131, 'grad_norm': 2.6533076763153076, 'learning_rate': 5.938332698896079e-07, 'epoch': 2.7}
+{'loss': 1.3049, 'grad_norm': 2.60552716255188, 'learning_rate': 5.919299581271413e-07, 'epoch': 2.7}
+{'loss': 1.3068, 'grad_norm': 2.6435978412628174, 'learning_rate': 5.900266463646745e-07, 'epoch': 2.7}
+{'loss': 1.2941, 'grad_norm': 2.551628589630127, 'learning_rate': 5.881233346022079e-07, 'epoch': 2.7}
+{'loss': 1.3361, 'grad_norm': 2.829988479614258, 'learning_rate': 5.862200228397411e-07, 'epoch': 2.7}
+{'loss': 1.3516, 'grad_norm': 2.6916370391845703, 'learning_rate': 5.843167110772745e-07, 'epoch': 2.7}
+{'loss': 1.3286, 'grad_norm': 2.6523451805114746, 'learning_rate': 5.824133993148079e-07, 'epoch': 2.7}
+{'eval_loss': 1.7828145027160645, 'eval_runtime': 37.9485, 'eval_samples_per_second': 26.351, 'eval_steps_per_second': 1.107, 'epoch': 2.7}
+{'loss': 1.2778, 'grad_norm': 2.6095120906829834, 'learning_rate': 5.805100875523411e-07, 'epoch': 2.7}
+{'loss': 1.2549, 'grad_norm': 2.630551338195801, 'learning_rate': 5.786067757898745e-07, 'epoch': 2.7}
+{'loss': 1.2639, 'grad_norm': 2.585043430328369, 'learning_rate': 5.767034640274078e-07, 'epoch': 2.7}
+{'loss': 1.3636, 'grad_norm': 2.8497092723846436, 'learning_rate': 5.74800152264941e-07, 'epoch': 2.71}
+{'loss': 1.2788, 'grad_norm': 2.7136929035186768, 'learning_rate': 5.728968405024744e-07, 'epoch': 2.71}
+{'loss': 1.3561, 'grad_norm': 2.7176077365875244, 'learning_rate': 5.709935287400076e-07, 'epoch': 2.71}
+{'loss': 1.3105, 'grad_norm': 2.754312515258789, 'learning_rate': 5.69090216977541e-07, 'epoch': 2.71}
+{'loss': 1.2946, 'grad_norm': 2.6190314292907715, 'learning_rate': 5.671869052150742e-07, 'epoch': 2.71}
+{'loss': 1.2989, 'grad_norm': 2.5728366374969482, 'learning_rate': 5.652835934526075e-07, 'epoch': 2.71}
+{'loss': 1.3021, 'grad_norm': 2.5806870460510254, 'learning_rate': 5.633802816901409e-07, 'epoch': 2.71}
+{'eval_loss': 1.7884520292282104, 'eval_runtime': 38.0067, 'eval_samples_per_second': 26.311, 'eval_steps_per_second': 1.105, 'epoch': 2.71}
+{'loss': 1.2784, 'grad_norm': 2.5025806427001953, 'learning_rate': 5.614769699276742e-07, 'epoch': 2.71}
+{'loss': 1.2955, 'grad_norm': 2.7000210285186768, 'learning_rate': 5.595736581652075e-07, 'epoch': 2.71}
+{'loss': 1.3036, 'grad_norm': 2.5144412517547607, 'learning_rate': 5.576703464027408e-07, 'epoch': 2.71}
+{'loss': 1.3266, 'grad_norm': 2.511216878890991, 'learning_rate': 5.557670346402741e-07, 'epoch': 2.72}
+{'loss': 1.3082, 'grad_norm': 2.7001969814300537, 'learning_rate': 5.538637228778075e-07, 'epoch': 2.72}
+{'loss': 1.3354, 'grad_norm': 2.7682130336761475, 'learning_rate': 5.519604111153407e-07, 'epoch': 2.72}
+{'loss': 1.2606, 'grad_norm': 2.7113163471221924, 'learning_rate': 5.500570993528741e-07, 'epoch': 2.72}
+{'loss': 1.3362, 'grad_norm': 2.772627592086792, 'learning_rate': 5.481537875904073e-07, 'epoch': 2.72}
+{'loss': 1.3503, 'grad_norm': 2.7985000610351562, 'learning_rate': 5.462504758279406e-07, 'epoch': 2.72}
+{'loss': 1.2854, 'grad_norm': 2.6800785064697266, 'learning_rate': 5.44347164065474e-07, 'epoch': 2.72}
+{'eval_loss': 1.7845864295959473, 'eval_runtime': 38.0453, 'eval_samples_per_second': 26.284, 'eval_steps_per_second': 1.104, 'epoch': 2.72}
+{'loss': 1.3161, 'grad_norm': 2.610942840576172, 'learning_rate': 5.424438523030072e-07, 'epoch': 2.72}
+{'loss': 1.357, 'grad_norm': 2.7399675846099854, 'learning_rate': 5.405405405405406e-07, 'epoch': 2.72}
+{'loss': 1.3198, 'grad_norm': 2.6037936210632324, 'learning_rate': 5.386372287780739e-07, 'epoch': 2.73}
+{'loss': 1.3382, 'grad_norm': 2.5747087001800537, 'learning_rate': 5.367339170156072e-07, 'epoch': 2.73}
+{'loss': 1.3049, 'grad_norm': 2.8241353034973145, 'learning_rate': 5.348306052531406e-07, 'epoch': 2.73}
+{'loss': 1.3272, 'grad_norm': 2.624354600906372, 'learning_rate': 5.329272934906738e-07, 'epoch': 2.73}
+{'loss': 1.2704, 'grad_norm': 2.5246741771698, 'learning_rate': 5.310239817282072e-07, 'epoch': 2.73}
+{'loss': 1.3404, 'grad_norm': 2.817598342895508, 'learning_rate': 5.291206699657404e-07, 'epoch': 2.73}
+{'loss': 1.2904, 'grad_norm': 2.4856812953948975, 'learning_rate': 5.272173582032737e-07, 'epoch': 2.73}
+{'loss': 1.3131, 'grad_norm': 2.7321617603302, 'learning_rate': 5.253140464408071e-07, 'epoch': 2.73}
+{'eval_loss': 1.784244418144226, 'eval_runtime': 38.0266, 'eval_samples_per_second': 26.297, 'eval_steps_per_second': 1.104, 'epoch': 2.73}
+{'loss': 1.2882, 'grad_norm': 2.5358948707580566, 'learning_rate': 5.234107346783403e-07, 'epoch': 2.73}
+{'loss': 1.2577, 'grad_norm': 2.5920722484588623, 'learning_rate': 5.215074229158737e-07, 'epoch': 2.73}
+{'loss': 1.2934, 'grad_norm': 2.589002847671509, 'learning_rate': 5.196041111534069e-07, 'epoch': 2.74}
+{'loss': 1.3088, 'grad_norm': 2.5873234272003174, 'learning_rate': 5.177007993909403e-07, 'epoch': 2.74}
+{'loss': 1.3226, 'grad_norm': 2.7201805114746094, 'learning_rate': 5.157974876284736e-07, 'epoch': 2.74}
+{'loss': 1.3197, 'grad_norm': 2.5658745765686035, 'learning_rate': 5.138941758660069e-07, 'epoch': 2.74}
+{'loss': 1.3035, 'grad_norm': 2.6131479740142822, 'learning_rate': 5.119908641035403e-07, 'epoch': 2.74}
+{'loss': 1.2709, 'grad_norm': 2.5535855293273926, 'learning_rate': 5.100875523410735e-07, 'epoch': 2.74}
+{'loss': 1.2773, 'grad_norm': 2.4551708698272705, 'learning_rate': 5.081842405786068e-07, 'epoch': 2.74}
+{'loss': 1.2932, 'grad_norm': 2.6793084144592285, 'learning_rate': 5.062809288161402e-07, 'epoch': 2.74}
+{'eval_loss': 1.7706480026245117, 'eval_runtime': 38.033, 'eval_samples_per_second': 26.293, 'eval_steps_per_second': 1.104, 'epoch': 2.74}
+{'loss': 1.3053, 'grad_norm': 2.6757824420928955, 'learning_rate': 5.043776170536734e-07, 'epoch': 2.74}
+{'loss': 1.3196, 'grad_norm': 2.7082114219665527, 'learning_rate': 5.024743052912067e-07, 'epoch': 2.74}
+{'loss': 1.3112, 'grad_norm': 2.6333837509155273, 'learning_rate': 5.0057099352874e-07, 'epoch': 2.75}
+{'loss': 1.3421, 'grad_norm': 2.7922589778900146, 'learning_rate': 4.986676817662733e-07, 'epoch': 2.75}
+{'loss': 1.3001, 'grad_norm': 2.5689852237701416, 'learning_rate': 4.967643700038067e-07, 'epoch': 2.75}
+{'loss': 1.3132, 'grad_norm': 2.6763274669647217, 'learning_rate': 4.9486105824134e-07, 'epoch': 2.75}
+{'loss': 1.3548, 'grad_norm': 2.778526544570923, 'learning_rate': 4.929577464788733e-07, 'epoch': 2.75}
+{'loss': 1.3193, 'grad_norm': 2.6535632610321045, 'learning_rate': 4.910544347164066e-07, 'epoch': 2.75}
+{'loss': 1.2681, 'grad_norm': 2.5167694091796875, 'learning_rate': 4.891511229539399e-07, 'epoch': 2.75}
+{'loss': 1.3046, 'grad_norm': 2.6354637145996094, 'learning_rate': 4.872478111914733e-07, 'epoch': 2.75}
+{'eval_loss': 1.7752299308776855, 'eval_runtime': 38.0209, 'eval_samples_per_second': 26.301, 'eval_steps_per_second': 1.105, 'epoch': 2.75}
+{'loss': 1.2766, 'grad_norm': 2.5887973308563232, 'learning_rate': 4.853444994290065e-07, 'epoch': 2.75}
+{'loss': 1.3078, 'grad_norm': 2.693185567855835, 'learning_rate': 4.834411876665398e-07, 'epoch': 2.76}
+{'loss': 1.286, 'grad_norm': 2.7474021911621094, 'learning_rate': 4.815378759040731e-07, 'epoch': 2.76}
+{'loss': 1.3296, 'grad_norm': 2.7882676124572754, 'learning_rate': 4.796345641416064e-07, 'epoch': 2.76}
+{'loss': 1.29, 'grad_norm': 2.633437156677246, 'learning_rate': 4.777312523791397e-07, 'epoch': 2.76}
+{'loss': 1.3181, 'grad_norm': 2.5937581062316895, 'learning_rate': 4.7582794061667306e-07, 'epoch': 2.76}
+{'loss': 1.3347, 'grad_norm': 2.710019588470459, 'learning_rate': 4.739246288542063e-07, 'epoch': 2.76}
+{'loss': 1.2981, 'grad_norm': 2.728793144226074, 'learning_rate': 4.720213170917397e-07, 'epoch': 2.76}
+{'loss': 1.3758, 'grad_norm': 2.6515908241271973, 'learning_rate': 4.7011800532927293e-07, 'epoch': 2.76}
+{'loss': 1.2745, 'grad_norm': 2.585145950317383, 'learning_rate': 4.682146935668063e-07, 'epoch': 2.76}
+{'eval_loss': 1.7617937326431274, 'eval_runtime': 38.0261, 'eval_samples_per_second': 26.298, 'eval_steps_per_second': 1.105, 'epoch': 2.76}
+{'loss': 1.3174, 'grad_norm': 2.5894737243652344, 'learning_rate': 4.663113818043396e-07, 'epoch': 2.76}
+{'loss': 1.3024, 'grad_norm': 2.718618392944336, 'learning_rate': 4.6440807004187286e-07, 'epoch': 2.77}
+{'loss': 1.3204, 'grad_norm': 2.6753177642822266, 'learning_rate': 4.625047582794062e-07, 'epoch': 2.77}
+{'loss': 1.2935, 'grad_norm': 2.5795040130615234, 'learning_rate': 4.606014465169395e-07, 'epoch': 2.77}
+{'loss': 1.2988, 'grad_norm': 2.5900628566741943, 'learning_rate': 4.5869813475447284e-07, 'epoch': 2.77}
+{'loss': 1.3121, 'grad_norm': 2.565168619155884, 'learning_rate': 4.5679482299200615e-07, 'epoch': 2.77}
+{'loss': 1.3062, 'grad_norm': 2.666557788848877, 'learning_rate': 4.548915112295394e-07, 'epoch': 2.77}
+{'loss': 1.2633, 'grad_norm': 2.5423285961151123, 'learning_rate': 4.529881994670728e-07, 'epoch': 2.77}
+{'loss': 1.3067, 'grad_norm': 2.5645787715911865, 'learning_rate': 4.5108488770460603e-07, 'epoch': 2.77}
+{'loss': 1.3153, 'grad_norm': 2.4956552982330322, 'learning_rate': 4.491815759421394e-07, 'epoch': 2.77}
+{'eval_loss': 1.7727458477020264, 'eval_runtime': 38.0396, 'eval_samples_per_second': 26.288, 'eval_steps_per_second': 1.104, 'epoch': 2.77}
+{'loss': 1.206, 'grad_norm': 2.3624420166015625, 'learning_rate': 4.4727826417967265e-07, 'epoch': 2.77}
+{'loss': 1.2452, 'grad_norm': 2.462627410888672, 'learning_rate': 4.4537495241720596e-07, 'epoch': 2.78}
+{'loss': 1.2931, 'grad_norm': 2.6404151916503906, 'learning_rate': 4.434716406547393e-07, 'epoch': 2.78}
+{'loss': 1.3024, 'grad_norm': 2.5767128467559814, 'learning_rate': 4.415683288922726e-07, 'epoch': 2.78}
+{'loss': 1.2854, 'grad_norm': 2.6911098957061768, 'learning_rate': 4.3966501712980594e-07, 'epoch': 2.78}
+{'loss': 1.2672, 'grad_norm': 2.5582408905029297, 'learning_rate': 4.377617053673392e-07, 'epoch': 2.78}
+{'loss': 1.3574, 'grad_norm': 2.7786879539489746, 'learning_rate': 4.358583936048725e-07, 'epoch': 2.78}
+{'loss': 1.3238, 'grad_norm': 2.8259687423706055, 'learning_rate': 4.339550818424058e-07, 'epoch': 2.78}
+{'loss': 1.3005, 'grad_norm': 2.754877805709839, 'learning_rate': 4.3205177007993913e-07, 'epoch': 2.78}
+{'loss': 1.3251, 'grad_norm': 2.618274688720703, 'learning_rate': 4.301484583174725e-07, 'epoch': 2.78}
+{'eval_loss': 1.7750599384307861, 'eval_runtime': 37.6386, 'eval_samples_per_second': 26.568, 'eval_steps_per_second': 1.116, 'epoch': 2.78}
+{'loss': 1.2748, 'grad_norm': 2.4981017112731934, 'learning_rate': 4.2824514655500575e-07, 'epoch': 2.78}
+{'loss': 1.3121, 'grad_norm': 2.6884243488311768, 'learning_rate': 4.2634183479253906e-07, 'epoch': 2.79}
+{'loss': 1.2651, 'grad_norm': 2.609513759613037, 'learning_rate': 4.2443852303007237e-07, 'epoch': 2.79}
+{'loss': 1.3599, 'grad_norm': 2.650463581085205, 'learning_rate': 4.225352112676057e-07, 'epoch': 2.79}
+{'loss': 1.3087, 'grad_norm': 2.6558997631073, 'learning_rate': 4.20631899505139e-07, 'epoch': 2.79}
+{'loss': 1.2407, 'grad_norm': 2.54502010345459, 'learning_rate': 4.187285877426723e-07, 'epoch': 2.79}
+{'loss': 1.2722, 'grad_norm': 2.538921356201172, 'learning_rate': 4.1682527598020555e-07, 'epoch': 2.79}
+{'loss': 1.3689, 'grad_norm': 2.765803813934326, 'learning_rate': 4.149219642177389e-07, 'epoch': 2.79}
+{'loss': 1.2992, 'grad_norm': 2.7181074619293213, 'learning_rate': 4.130186524552722e-07, 'epoch': 2.79}
+{'loss': 1.3008, 'grad_norm': 2.636695384979248, 'learning_rate': 4.111153406928055e-07, 'epoch': 2.79}
+{'eval_loss': 1.7647284269332886, 'eval_runtime': 37.8262, 'eval_samples_per_second': 26.437, 'eval_steps_per_second': 1.11, 'epoch': 2.79}
+{'loss': 1.2691, 'grad_norm': 2.471787214279175, 'learning_rate': 4.0921202893033884e-07, 'epoch': 2.8}
+{'loss': 1.3343, 'grad_norm': 2.7055912017822266, 'learning_rate': 4.073087171678721e-07, 'epoch': 2.8}
+{'loss': 1.3289, 'grad_norm': 2.736154556274414, 'learning_rate': 4.0540540540540546e-07, 'epoch': 2.8}
+{'loss': 1.2881, 'grad_norm': 2.6181352138519287, 'learning_rate': 4.035020936429387e-07, 'epoch': 2.8}
+{'loss': 1.2523, 'grad_norm': 2.5176339149475098, 'learning_rate': 4.0159878188047203e-07, 'epoch': 2.8}
+{'loss': 1.2911, 'grad_norm': 2.5560781955718994, 'learning_rate': 3.996954701180054e-07, 'epoch': 2.8}
+{'loss': 1.2895, 'grad_norm': 2.636842727661133, 'learning_rate': 3.9779215835553865e-07, 'epoch': 2.8}
+{'loss': 1.3084, 'grad_norm': 2.6112375259399414, 'learning_rate': 3.95888846593072e-07, 'epoch': 2.8}
+{'loss': 1.2969, 'grad_norm': 2.6065049171447754, 'learning_rate': 3.9398553483060527e-07, 'epoch': 2.8}
+{'loss': 1.3095, 'grad_norm': 2.492626905441284, 'learning_rate': 3.920822230681386e-07, 'epoch': 2.8}
+{'eval_loss': 1.7692224979400635, 'eval_runtime': 37.8818, 'eval_samples_per_second': 26.398, 'eval_steps_per_second': 1.109, 'epoch': 2.8}
+{'loss': 1.3137, 'grad_norm': 2.727534055709839, 'learning_rate': 3.901789113056719e-07, 'epoch': 2.81}
+{'loss': 1.2365, 'grad_norm': 2.5522494316101074, 'learning_rate': 3.882755995432052e-07, 'epoch': 2.81}
+{'loss': 1.367, 'grad_norm': 2.674705982208252, 'learning_rate': 3.8637228778073856e-07, 'epoch': 2.81}
+{'loss': 1.2882, 'grad_norm': 2.577897071838379, 'learning_rate': 3.844689760182718e-07, 'epoch': 2.81}
+{'loss': 1.2781, 'grad_norm': 2.490436553955078, 'learning_rate': 3.825656642558051e-07, 'epoch': 2.81}
+{'loss': 1.3248, 'grad_norm': 2.531339406967163, 'learning_rate': 3.8066235249333844e-07, 'epoch': 2.81}
+{'loss': 1.3249, 'grad_norm': 2.6713733673095703, 'learning_rate': 3.7875904073087175e-07, 'epoch': 2.81}
+{'loss': 1.3405, 'grad_norm': 2.6347765922546387, 'learning_rate': 3.768557289684051e-07, 'epoch': 2.81}
+{'loss': 1.315, 'grad_norm': 2.6573073863983154, 'learning_rate': 3.7495241720593836e-07, 'epoch': 2.81}
+{'loss': 1.2925, 'grad_norm': 2.5330655574798584, 'learning_rate': 3.730491054434716e-07, 'epoch': 2.81}
+{'eval_loss': 1.762029767036438, 'eval_runtime': 37.9299, 'eval_samples_per_second': 26.364, 'eval_steps_per_second': 1.107, 'epoch': 2.81}
+{'loss': 1.2857, 'grad_norm': 2.5661964416503906, 'learning_rate': 3.71145793681005e-07, 'epoch': 2.82}
+{'loss': 1.3445, 'grad_norm': 2.6637752056121826, 'learning_rate': 3.692424819185383e-07, 'epoch': 2.82}
+{'loss': 1.3293, 'grad_norm': 2.7280433177948, 'learning_rate': 3.673391701560716e-07, 'epoch': 2.82}
+{'loss': 1.2899, 'grad_norm': 2.5757462978363037, 'learning_rate': 3.654358583936049e-07, 'epoch': 2.82}
+{'loss': 1.29, 'grad_norm': 2.515266180038452, 'learning_rate': 3.6353254663113817e-07, 'epoch': 2.82}
+{'loss': 1.2959, 'grad_norm': 2.607907295227051, 'learning_rate': 3.6162923486867153e-07, 'epoch': 2.82}
+{'loss': 1.3026, 'grad_norm': 2.6733455657958984, 'learning_rate': 3.597259231062048e-07, 'epoch': 2.82}
+{'loss': 1.2633, 'grad_norm': 2.608802318572998, 'learning_rate': 3.5782261134373815e-07, 'epoch': 2.82}
+{'loss': 1.2745, 'grad_norm': 2.553936004638672, 'learning_rate': 3.5591929958127146e-07, 'epoch': 2.82}
+{'loss': 1.3157, 'grad_norm': 2.7180869579315186, 'learning_rate': 3.540159878188047e-07, 'epoch': 2.82}
+{'eval_loss': 1.7729238271713257, 'eval_runtime': 37.9877, 'eval_samples_per_second': 26.324, 'eval_steps_per_second': 1.106, 'epoch': 2.82}
+{'loss': 1.3174, 'grad_norm': 2.7445926666259766, 'learning_rate': 3.521126760563381e-07, 'epoch': 2.83}
+{'loss': 1.3095, 'grad_norm': 2.578984022140503, 'learning_rate': 3.5020936429387134e-07, 'epoch': 2.83}
+{'loss': 1.2648, 'grad_norm': 2.6088266372680664, 'learning_rate': 3.483060525314047e-07, 'epoch': 2.83}
+{'loss': 1.3675, 'grad_norm': 2.6487412452697754, 'learning_rate': 3.46402740768938e-07, 'epoch': 2.83}
+{'loss': 1.2722, 'grad_norm': 2.604130506515503, 'learning_rate': 3.4449942900647127e-07, 'epoch': 2.83}
+{'loss': 1.3354, 'grad_norm': 2.6885905265808105, 'learning_rate': 3.4259611724400463e-07, 'epoch': 2.83}
+{'loss': 1.403, 'grad_norm': 2.709333896636963, 'learning_rate': 3.406928054815379e-07, 'epoch': 2.83}
+{'loss': 1.2836, 'grad_norm': 2.6402320861816406, 'learning_rate': 3.3878949371907125e-07, 'epoch': 2.83}
+{'loss': 1.2743, 'grad_norm': 2.6921451091766357, 'learning_rate': 3.368861819566045e-07, 'epoch': 2.83}
+{'loss': 1.2691, 'grad_norm': 2.5713753700256348, 'learning_rate': 3.349828701941378e-07, 'epoch': 2.84}
+{'eval_loss': 1.7677931785583496, 'eval_runtime': 37.9668, 'eval_samples_per_second': 26.339, 'eval_steps_per_second': 1.106, 'epoch': 2.84}
+{'loss': 1.2537, 'grad_norm': 2.3884944915771484, 'learning_rate': 3.330795584316712e-07, 'epoch': 2.84}
+{'loss': 1.2779, 'grad_norm': 2.579089641571045, 'learning_rate': 3.3117624666920443e-07, 'epoch': 2.84}
+{'loss': 1.3303, 'grad_norm': 2.796998977661133, 'learning_rate': 3.292729349067378e-07, 'epoch': 2.84}
+{'loss': 1.3029, 'grad_norm': 2.4984240531921387, 'learning_rate': 3.2736962314427105e-07, 'epoch': 2.84}
+{'loss': 1.352, 'grad_norm': 2.6721031665802, 'learning_rate': 3.2546631138180436e-07, 'epoch': 2.84}
+{'loss': 1.2783, 'grad_norm': 2.7240445613861084, 'learning_rate': 3.2356299961933767e-07, 'epoch': 2.84}
+{'loss': 1.3461, 'grad_norm': 2.72751784324646, 'learning_rate': 3.21659687856871e-07, 'epoch': 2.84}
+{'loss': 1.2654, 'grad_norm': 2.6866025924682617, 'learning_rate': 3.1975637609440424e-07, 'epoch': 2.84}
+{'loss': 1.3543, 'grad_norm': 2.7173006534576416, 'learning_rate': 3.178530643319376e-07, 'epoch': 2.84}
+{'loss': 1.3036, 'grad_norm': 2.65193247795105, 'learning_rate': 3.159497525694709e-07, 'epoch': 2.85}
+{'eval_loss': 1.7600867748260498, 'eval_runtime': 38.0302, 'eval_samples_per_second': 26.295, 'eval_steps_per_second': 1.104, 'epoch': 2.85}
+{'loss': 1.3017, 'grad_norm': 2.647165298461914, 'learning_rate': 3.140464408070042e-07, 'epoch': 2.85}
+{'loss': 1.3689, 'grad_norm': 2.7047841548919678, 'learning_rate': 3.1214312904453753e-07, 'epoch': 2.85}
+{'loss': 1.3024, 'grad_norm': 2.618946075439453, 'learning_rate': 3.1023981728207084e-07, 'epoch': 2.85}
+{'loss': 1.3304, 'grad_norm': 2.6727678775787354, 'learning_rate': 3.0833650551960415e-07, 'epoch': 2.85}
+{'loss': 1.303, 'grad_norm': 2.559290647506714, 'learning_rate': 3.0643319375713746e-07, 'epoch': 2.85}
+{'loss': 1.3081, 'grad_norm': 2.5195682048797607, 'learning_rate': 3.045298819946707e-07, 'epoch': 2.85}
+{'loss': 1.2692, 'grad_norm': 2.586885452270508, 'learning_rate': 3.026265702322041e-07, 'epoch': 2.85}
+{'loss': 1.2742, 'grad_norm': 2.5503077507019043, 'learning_rate': 3.007232584697374e-07, 'epoch': 2.85}
+{'loss': 1.2725, 'grad_norm': 2.515547275543213, 'learning_rate': 2.988199467072707e-07, 'epoch': 2.85}
+{'loss': 1.2256, 'grad_norm': 2.402459144592285, 'learning_rate': 2.9691663494480396e-07, 'epoch': 2.86}
+{'eval_loss': 1.76780104637146, 'eval_runtime': 38.0687, 'eval_samples_per_second': 26.268, 'eval_steps_per_second': 1.103, 'epoch': 2.86}
+{'loss': 1.3251, 'grad_norm': 2.5463836193084717, 'learning_rate': 2.9501332318233727e-07, 'epoch': 2.86}
+{'loss': 1.275, 'grad_norm': 2.532472610473633, 'learning_rate': 2.931100114198706e-07, 'epoch': 2.86}
+{'loss': 1.3001, 'grad_norm': 2.6995961666107178, 'learning_rate': 2.9120669965740394e-07, 'epoch': 2.86}
+{'loss': 1.2636, 'grad_norm': 2.5292301177978516, 'learning_rate': 2.8930338789493725e-07, 'epoch': 2.86}
+{'loss': 1.2888, 'grad_norm': 2.7945351600646973, 'learning_rate': 2.874000761324705e-07, 'epoch': 2.86}
+{'loss': 1.3016, 'grad_norm': 2.607816457748413, 'learning_rate': 2.854967643700038e-07, 'epoch': 2.86}
+{'loss': 1.3108, 'grad_norm': 2.7001326084136963, 'learning_rate': 2.835934526075371e-07, 'epoch': 2.86}
+{'loss': 1.3215, 'grad_norm': 2.8196349143981934, 'learning_rate': 2.8169014084507043e-07, 'epoch': 2.86}
+{'loss': 1.3218, 'grad_norm': 2.7477948665618896, 'learning_rate': 2.7978682908260374e-07, 'epoch': 2.86}
+{'loss': 1.301, 'grad_norm': 2.605776309967041, 'learning_rate': 2.7788351732013705e-07, 'epoch': 2.87}
+{'eval_loss': 1.7605133056640625, 'eval_runtime': 38.0458, 'eval_samples_per_second': 26.284, 'eval_steps_per_second': 1.104, 'epoch': 2.87}
+{'loss': 1.2655, 'grad_norm': 2.417668104171753, 'learning_rate': 2.7598020555767036e-07, 'epoch': 2.87}
+{'loss': 1.2828, 'grad_norm': 2.551400899887085, 'learning_rate': 2.7407689379520367e-07, 'epoch': 2.87}
+{'loss': 1.3466, 'grad_norm': 2.5882434844970703, 'learning_rate': 2.72173582032737e-07, 'epoch': 2.87}
+{'loss': 1.3224, 'grad_norm': 2.5469772815704346, 'learning_rate': 2.702702702702703e-07, 'epoch': 2.87}
+{'loss': 1.2682, 'grad_norm': 2.5152812004089355, 'learning_rate': 2.683669585078036e-07, 'epoch': 2.87}
+{'loss': 1.3311, 'grad_norm': 2.587076425552368, 'learning_rate': 2.664636467453369e-07, 'epoch': 2.87}
+{'loss': 1.2956, 'grad_norm': 2.647310256958008, 'learning_rate': 2.645603349828702e-07, 'epoch': 2.87}
+{'loss': 1.2552, 'grad_norm': 2.5272367000579834, 'learning_rate': 2.6265702322040353e-07, 'epoch': 2.87}
+{'loss': 1.2629, 'grad_norm': 2.5864880084991455, 'learning_rate': 2.6075371145793684e-07, 'epoch': 2.88}
+{'loss': 1.2948, 'grad_norm': 2.6133804321289062, 'learning_rate': 2.5885039969547015e-07, 'epoch': 2.88}
+{'eval_loss': 1.755886435508728, 'eval_runtime': 38.0646, 'eval_samples_per_second': 26.271, 'eval_steps_per_second': 1.103, 'epoch': 2.88}
+{'loss': 1.251, 'grad_norm': 2.581003189086914, 'learning_rate': 2.5694708793300346e-07, 'epoch': 2.88}
+{'loss': 1.2834, 'grad_norm': 2.617664337158203, 'learning_rate': 2.5504377617053677e-07, 'epoch': 2.88}
+{'loss': 1.2943, 'grad_norm': 2.5373620986938477, 'learning_rate': 2.531404644080701e-07, 'epoch': 2.88}
+{'loss': 1.3091, 'grad_norm': 2.5740702152252197, 'learning_rate': 2.5123715264560333e-07, 'epoch': 2.88}
+{'loss': 1.3096, 'grad_norm': 2.6244497299194336, 'learning_rate': 2.4933384088313664e-07, 'epoch': 2.88}
+{'loss': 1.32, 'grad_norm': 2.568964719772339, 'learning_rate': 2.4743052912067e-07, 'epoch': 2.88}
+{'loss': 1.2663, 'grad_norm': 2.4921417236328125, 'learning_rate': 2.455272173582033e-07, 'epoch': 2.88}
+{'loss': 1.3325, 'grad_norm': 2.457496404647827, 'learning_rate': 2.436239055957366e-07, 'epoch': 2.88}
+{'loss': 1.3544, 'grad_norm': 2.797403573989868, 'learning_rate': 2.417205938332699e-07, 'epoch': 2.89}
+{'loss': 1.3008, 'grad_norm': 2.635730266571045, 'learning_rate': 2.398172820708032e-07, 'epoch': 2.89}
+{'eval_loss': 1.7717928886413574, 'eval_runtime': 37.6949, 'eval_samples_per_second': 26.529, 'eval_steps_per_second': 1.114, 'epoch': 2.89}
+{'loss': 1.3438, 'grad_norm': 2.687199592590332, 'learning_rate': 2.3791397030833653e-07, 'epoch': 2.89}
+{'loss': 1.2972, 'grad_norm': 2.510181188583374, 'learning_rate': 2.3601065854586984e-07, 'epoch': 2.89}
+{'loss': 1.3009, 'grad_norm': 2.5739052295684814, 'learning_rate': 2.3410734678340315e-07, 'epoch': 2.89}
+{'loss': 1.2711, 'grad_norm': 2.590186834335327, 'learning_rate': 2.3220403502093643e-07, 'epoch': 2.89}
+{'loss': 1.2883, 'grad_norm': 2.64300799369812, 'learning_rate': 2.3030072325846974e-07, 'epoch': 2.89}
+{'loss': 1.2493, 'grad_norm': 2.673630714416504, 'learning_rate': 2.2839741149600308e-07, 'epoch': 2.89}
+{'loss': 1.3046, 'grad_norm': 2.8108747005462646, 'learning_rate': 2.264940997335364e-07, 'epoch': 2.89}
+{'loss': 1.3026, 'grad_norm': 2.6422648429870605, 'learning_rate': 2.245907879710697e-07, 'epoch': 2.89}
+{'loss': 1.2762, 'grad_norm': 2.637664556503296, 'learning_rate': 2.2268747620860298e-07, 'epoch': 2.9}
+{'loss': 1.3211, 'grad_norm': 2.700580596923828, 'learning_rate': 2.207841644461363e-07, 'epoch': 2.9}
+{'eval_loss': 1.7740252017974854, 'eval_runtime': 37.8573, 'eval_samples_per_second': 26.415, 'eval_steps_per_second': 1.109, 'epoch': 2.9}
+{'loss': 1.2616, 'grad_norm': 2.5184342861175537, 'learning_rate': 2.188808526836696e-07, 'epoch': 2.9}
+{'loss': 1.39, 'grad_norm': 2.716503381729126, 'learning_rate': 2.169775409212029e-07, 'epoch': 2.9}
+{'loss': 1.2786, 'grad_norm': 2.5148370265960693, 'learning_rate': 2.1507422915873625e-07, 'epoch': 2.9}
+{'loss': 1.3297, 'grad_norm': 2.6032865047454834, 'learning_rate': 2.1317091739626953e-07, 'epoch': 2.9}
+{'loss': 1.3277, 'grad_norm': 2.642293930053711, 'learning_rate': 2.1126760563380284e-07, 'epoch': 2.9}
+{'loss': 1.273, 'grad_norm': 2.4964346885681152, 'learning_rate': 2.0936429387133615e-07, 'epoch': 2.9}
+{'loss': 1.2879, 'grad_norm': 2.6109700202941895, 'learning_rate': 2.0746098210886946e-07, 'epoch': 2.9}
+{'loss': 1.2992, 'grad_norm': 2.631652593612671, 'learning_rate': 2.0555767034640274e-07, 'epoch': 2.9}
+{'loss': 1.3625, 'grad_norm': 2.7252166271209717, 'learning_rate': 2.0365435858393605e-07, 'epoch': 2.91}
+{'loss': 1.2974, 'grad_norm': 2.556710720062256, 'learning_rate': 2.0175104682146936e-07, 'epoch': 2.91}
+{'eval_loss': 1.7611210346221924, 'eval_runtime': 37.9618, 'eval_samples_per_second': 26.342, 'eval_steps_per_second': 1.106, 'epoch': 2.91}
+{'loss': 1.3144, 'grad_norm': 2.6725974082946777, 'learning_rate': 1.998477350590027e-07, 'epoch': 2.91}
+{'loss': 1.2903, 'grad_norm': 2.5859169960021973, 'learning_rate': 1.97944423296536e-07, 'epoch': 2.91}
+{'loss': 1.3295, 'grad_norm': 2.5611412525177, 'learning_rate': 1.960411115340693e-07, 'epoch': 2.91}
+{'loss': 1.3239, 'grad_norm': 2.5633907318115234, 'learning_rate': 1.941377997716026e-07, 'epoch': 2.91}
+{'loss': 1.2854, 'grad_norm': 2.5077147483825684, 'learning_rate': 1.922344880091359e-07, 'epoch': 2.91}
+{'loss': 1.2955, 'grad_norm': 2.582174062728882, 'learning_rate': 1.9033117624666922e-07, 'epoch': 2.91}
+{'loss': 1.2537, 'grad_norm': 2.447506904602051, 'learning_rate': 1.8842786448420255e-07, 'epoch': 2.91}
+{'loss': 1.3014, 'grad_norm': 2.6061720848083496, 'learning_rate': 1.865245527217358e-07, 'epoch': 2.92}
+{'loss': 1.3382, 'grad_norm': 2.691216468811035, 'learning_rate': 1.8462124095926915e-07, 'epoch': 2.92}
+{'loss': 1.2599, 'grad_norm': 2.541931390762329, 'learning_rate': 1.8271792919680246e-07, 'epoch': 2.92}
+{'eval_loss': 1.7685185670852661, 'eval_runtime': 37.9961, 'eval_samples_per_second': 26.318, 'eval_steps_per_second': 1.105, 'epoch': 2.92}
+{'loss': 1.3164, 'grad_norm': 2.6509108543395996, 'learning_rate': 1.8081461743433577e-07, 'epoch': 2.92}
+{'loss': 1.2777, 'grad_norm': 2.5785300731658936, 'learning_rate': 1.7891130567186908e-07, 'epoch': 2.92}
+{'loss': 1.3187, 'grad_norm': 2.621399402618408, 'learning_rate': 1.7700799390940236e-07, 'epoch': 2.92}
+{'loss': 1.2718, 'grad_norm': 2.5683820247650146, 'learning_rate': 1.7510468214693567e-07, 'epoch': 2.92}
+{'loss': 1.3185, 'grad_norm': 2.581298589706421, 'learning_rate': 1.73201370384469e-07, 'epoch': 2.92}
+{'loss': 1.3099, 'grad_norm': 2.4775500297546387, 'learning_rate': 1.7129805862200231e-07, 'epoch': 2.92}
+{'loss': 1.284, 'grad_norm': 2.5610580444335938, 'learning_rate': 1.6939474685953562e-07, 'epoch': 2.92}
+{'loss': 1.3279, 'grad_norm': 2.5270745754241943, 'learning_rate': 1.674914350970689e-07, 'epoch': 2.93}
+{'loss': 1.3127, 'grad_norm': 2.5251827239990234, 'learning_rate': 1.6558812333460222e-07, 'epoch': 2.93}
+{'loss': 1.3068, 'grad_norm': 2.5263609886169434, 'learning_rate': 1.6368481157213553e-07, 'epoch': 2.93}
+{'eval_loss': 1.7712348699569702, 'eval_runtime': 38.0713, 'eval_samples_per_second': 26.267, 'eval_steps_per_second': 1.103, 'epoch': 2.93}
+{'loss': 1.2879, 'grad_norm': 2.5240910053253174, 'learning_rate': 1.6178149980966884e-07, 'epoch': 2.93}
+{'loss': 1.3068, 'grad_norm': 2.5428097248077393, 'learning_rate': 1.5987818804720212e-07, 'epoch': 2.93}
+{'loss': 1.2917, 'grad_norm': 2.562764883041382, 'learning_rate': 1.5797487628473546e-07, 'epoch': 2.93}
+{'loss': 1.3124, 'grad_norm': 2.68951153755188, 'learning_rate': 1.5607156452226877e-07, 'epoch': 2.93}
+{'loss': 1.2865, 'grad_norm': 2.521895170211792, 'learning_rate': 1.5416825275980208e-07, 'epoch': 2.93}
+{'loss': 1.3136, 'grad_norm': 2.6974024772644043, 'learning_rate': 1.5226494099733536e-07, 'epoch': 2.93}
+{'loss': 1.3265, 'grad_norm': 2.673924207687378, 'learning_rate': 1.503616292348687e-07, 'epoch': 2.93}
+{'loss': 1.2894, 'grad_norm': 2.605788469314575, 'learning_rate': 1.4845831747240198e-07, 'epoch': 2.94}
+{'loss': 1.3085, 'grad_norm': 2.7430074214935303, 'learning_rate': 1.465550057099353e-07, 'epoch': 2.94}
+{'loss': 1.3228, 'grad_norm': 2.6493849754333496, 'learning_rate': 1.4465169394746862e-07, 'epoch': 2.94}
+{'eval_loss': 1.778856635093689, 'eval_runtime': 38.0447, 'eval_samples_per_second': 26.285, 'eval_steps_per_second': 1.104, 'epoch': 2.94}
+{'loss': 1.296, 'grad_norm': 2.7383079528808594, 'learning_rate': 1.427483821850019e-07, 'epoch': 2.94}
+{'loss': 1.2738, 'grad_norm': 2.5898325443267822, 'learning_rate': 1.4084507042253522e-07, 'epoch': 2.94}
+{'loss': 1.283, 'grad_norm': 2.617520809173584, 'learning_rate': 1.3894175866006853e-07, 'epoch': 2.94}
+{'loss': 1.2752, 'grad_norm': 2.5761914253234863, 'learning_rate': 1.3703844689760184e-07, 'epoch': 2.94}
+{'loss': 1.3019, 'grad_norm': 2.5721006393432617, 'learning_rate': 1.3513513513513515e-07, 'epoch': 2.94}
+{'loss': 1.2709, 'grad_norm': 2.5242764949798584, 'learning_rate': 1.3323182337266846e-07, 'epoch': 2.94}
+{'loss': 1.3178, 'grad_norm': 2.5600898265838623, 'learning_rate': 1.3132851161020176e-07, 'epoch': 2.95}
+{'loss': 1.27, 'grad_norm': 2.4490609169006348, 'learning_rate': 1.2942519984773507e-07, 'epoch': 2.95}
+{'loss': 1.285, 'grad_norm': 2.6730990409851074, 'learning_rate': 1.2752188808526838e-07, 'epoch': 2.95}
+{'loss': 1.3251, 'grad_norm': 2.5714759826660156, 'learning_rate': 1.2561857632280167e-07, 'epoch': 2.95}
+{'eval_loss': 1.7652958631515503, 'eval_runtime': 38.0497, 'eval_samples_per_second': 26.281, 'eval_steps_per_second': 1.104, 'epoch': 2.95}
+{'loss': 1.349, 'grad_norm': 2.668329954147339, 'learning_rate': 1.23715264560335e-07, 'epoch': 2.95}
+{'loss': 1.3064, 'grad_norm': 2.5298960208892822, 'learning_rate': 1.218119527978683e-07, 'epoch': 2.95}
+{'loss': 1.3315, 'grad_norm': 2.5941309928894043, 'learning_rate': 1.199086410354016e-07, 'epoch': 2.95}
+{'loss': 1.2641, 'grad_norm': 2.622615098953247, 'learning_rate': 1.1800532927293492e-07, 'epoch': 2.95}
+{'loss': 1.2865, 'grad_norm': 2.590561866760254, 'learning_rate': 1.1610201751046822e-07, 'epoch': 2.95}
+{'loss': 1.297, 'grad_norm': 2.612455129623413, 'learning_rate': 1.1419870574800154e-07, 'epoch': 2.95}
+{'loss': 1.3467, 'grad_norm': 2.672116279602051, 'learning_rate': 1.1229539398553485e-07, 'epoch': 2.96}
+{'loss': 1.282, 'grad_norm': 2.6142027378082275, 'learning_rate': 1.1039208222306814e-07, 'epoch': 2.96}
+{'loss': 1.3018, 'grad_norm': 2.7042629718780518, 'learning_rate': 1.0848877046060145e-07, 'epoch': 2.96}
+{'loss': 1.3141, 'grad_norm': 2.5736732482910156, 'learning_rate': 1.0658545869813476e-07, 'epoch': 2.96}
+{'eval_loss': 1.7524182796478271, 'eval_runtime': 38.0088, 'eval_samples_per_second': 26.31, 'eval_steps_per_second': 1.105, 'epoch': 2.96}
+{'loss': 1.3132, 'grad_norm': 2.7072103023529053, 'learning_rate': 1.0468214693566807e-07, 'epoch': 2.96}
+{'loss': 1.2867, 'grad_norm': 2.4957451820373535, 'learning_rate': 1.0277883517320137e-07, 'epoch': 2.96}
+{'loss': 1.2959, 'grad_norm': 2.572026014328003, 'learning_rate': 1.0087552341073468e-07, 'epoch': 2.96}
+{'loss': 1.2952, 'grad_norm': 2.6354286670684814, 'learning_rate': 9.8972211648268e-08, 'epoch': 2.96}
+{'loss': 1.2844, 'grad_norm': 2.4952967166900635, 'learning_rate': 9.70688998858013e-08, 'epoch': 2.96}
+{'loss': 1.2462, 'grad_norm': 2.5860595703125, 'learning_rate': 9.516558812333461e-08, 'epoch': 2.96}
+{'loss': 1.3064, 'grad_norm': 2.6458609104156494, 'learning_rate': 9.32622763608679e-08, 'epoch': 2.97}
+{'loss': 1.3074, 'grad_norm': 2.5705668926239014, 'learning_rate': 9.135896459840123e-08, 'epoch': 2.97}
+{'loss': 1.2931, 'grad_norm': 2.5741384029388428, 'learning_rate': 8.945565283593454e-08, 'epoch': 2.97}
+{'loss': 1.3144, 'grad_norm': 2.6422197818756104, 'learning_rate': 8.755234107346783e-08, 'epoch': 2.97}
+{'eval_loss': 1.7483710050582886, 'eval_runtime': 38.0597, 'eval_samples_per_second': 26.275, 'eval_steps_per_second': 1.104, 'epoch': 2.97}
+{'loss': 1.2642, 'grad_norm': 2.4819366931915283, 'learning_rate': 8.564902931100116e-08, 'epoch': 2.97}
+{'loss': 1.2536, 'grad_norm': 2.5297718048095703, 'learning_rate': 8.374571754853445e-08, 'epoch': 2.97}
+{'loss': 1.3091, 'grad_norm': 2.512047052383423, 'learning_rate': 8.184240578606776e-08, 'epoch': 2.97}
+{'loss': 1.3269, 'grad_norm': 2.7100260257720947, 'learning_rate': 7.993909402360106e-08, 'epoch': 2.97}
+{'loss': 1.2929, 'grad_norm': 2.6287920475006104, 'learning_rate': 7.803578226113438e-08, 'epoch': 2.97}
+{'loss': 1.361, 'grad_norm': 2.650087356567383, 'learning_rate': 7.613247049866768e-08, 'epoch': 2.97}
+{'loss': 1.3077, 'grad_norm': 2.646580457687378, 'learning_rate': 7.422915873620099e-08, 'epoch': 2.98}
+{'loss': 1.276, 'grad_norm': 2.4880261421203613, 'learning_rate': 7.232584697373431e-08, 'epoch': 2.98}
+{'loss': 1.304, 'grad_norm': 2.5483410358428955, 'learning_rate': 7.042253521126761e-08, 'epoch': 2.98}
+{'loss': 1.2682, 'grad_norm': 2.468510389328003, 'learning_rate': 6.851922344880092e-08, 'epoch': 2.98}
+{'eval_loss': 1.7464934587478638, 'eval_runtime': 38.0201, 'eval_samples_per_second': 26.302, 'eval_steps_per_second': 1.105, 'epoch': 2.98}
+{'loss': 1.2744, 'grad_norm': 2.502958059310913, 'learning_rate': 6.661591168633423e-08, 'epoch': 2.98}
+{'loss': 1.3449, 'grad_norm': 2.8128011226654053, 'learning_rate': 6.471259992386754e-08, 'epoch': 2.98}
+{'loss': 1.3282, 'grad_norm': 2.7207062244415283, 'learning_rate': 6.280928816140083e-08, 'epoch': 2.98}
+{'loss': 1.2927, 'grad_norm': 2.7468044757843018, 'learning_rate': 6.090597639893416e-08, 'epoch': 2.98}
+{'loss': 1.2789, 'grad_norm': 2.5978646278381348, 'learning_rate': 5.900266463646746e-08, 'epoch': 2.98}
+{'loss': 1.2858, 'grad_norm': 2.6372761726379395, 'learning_rate': 5.709935287400077e-08, 'epoch': 2.99}
+{'loss': 1.2726, 'grad_norm': 2.4788858890533447, 'learning_rate': 5.519604111153407e-08, 'epoch': 2.99}
+{'loss': 1.2306, 'grad_norm': 2.4479143619537354, 'learning_rate': 5.329272934906738e-08, 'epoch': 2.99}
+{'loss': 1.2682, 'grad_norm': 2.542419910430908, 'learning_rate': 5.1389417586600685e-08, 'epoch': 2.99}
+{'loss': 1.2609, 'grad_norm': 2.5090270042419434, 'learning_rate': 4.9486105824134e-08, 'epoch': 2.99}
+{'eval_loss': 1.751560091972351, 'eval_runtime': 37.6685, 'eval_samples_per_second': 26.547, 'eval_steps_per_second': 1.115, 'epoch': 2.99}
+{'loss': 1.3379, 'grad_norm': 2.6508572101593018, 'learning_rate': 4.7582794061667304e-08, 'epoch': 2.99}
+{'loss': 1.3058, 'grad_norm': 2.511770486831665, 'learning_rate': 4.5679482299200614e-08, 'epoch': 2.99}
+{'loss': 1.3348, 'grad_norm': 2.592280149459839, 'learning_rate': 4.377617053673392e-08, 'epoch': 2.99}
+{'loss': 1.3159, 'grad_norm': 2.5459935665130615, 'learning_rate': 4.187285877426723e-08, 'epoch': 2.99}
+{'loss': 1.2869, 'grad_norm': 2.5060341358184814, 'learning_rate': 3.996954701180053e-08, 'epoch': 2.99}
+{'loss': 1.2845, 'grad_norm': 2.4990108013153076, 'learning_rate': 3.806623524933384e-08, 'epoch': 3.0}
+{'loss': 1.3399, 'grad_norm': 2.636683940887451, 'learning_rate': 3.6162923486867156e-08, 'epoch': 3.0}
+{'loss': 1.2782, 'grad_norm': 2.4763123989105225, 'learning_rate': 3.425961172440046e-08, 'epoch': 3.0}
+{'loss': 1.2783, 'grad_norm': 2.456406354904175, 'learning_rate': 3.235629996193377e-08, 'epoch': 3.0}
+{'train_runtime': 46193.2037, 'train_samples_per_second': 1.138, 'train_steps_per_second': 0.063, 'train_loss': 1.4417247301750535, 'epoch': 3.0}
diff --git a/wandb/run-20241114_090201-9k76d4eg/files/wandb-metadata.json b/wandb/run-20241114_090201-9k76d4eg/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..e6c55ed6b8006b4168dc0b93f0f257c41317e934
--- /dev/null
+++ b/wandb/run-20241114_090201-9k76d4eg/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-14T14:02:01.494570Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py",
+  "codePath":  "train/train_ftp.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_ftp.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1745683763200"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241114_090201-9k76d4eg/files/wandb-summary.json b/wandb/run-20241114_090201-9k76d4eg/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..33b6dc4685c94ecac0dcc3101180c9e357840038
--- /dev/null
+++ b/wandb/run-20241114_090201-9k76d4eg/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_step":3210,"eval/loss":1.751560091972351,"train/global_step":2919,"eval/runtime":37.6685,"train/epoch":2.9984591679506933,"train_steps_per_second":0.063,"train_loss":1.4417247301750535,"_runtime":46316.876232786,"train/grad_norm":2.456406354904175,"eval/steps_per_second":1.115,"train_runtime":46193.2037,"train/learning_rate":3.235629996193377e-08,"_timestamp":1.731639238361314e+09,"_wandb":{"runtime":46316},"eval/samples_per_second":26.547,"train_samples_per_second":1.138,"total_flos":9.099426165927444e+17,"train/loss":1.2783}
\ No newline at end of file
diff --git a/wandb/run-20241114_090201-9k76d4eg/logs/debug-internal.log b/wandb/run-20241114_090201-9k76d4eg/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..fbd4bd7e9c6303fb5766fcf9d3a5ed1ccfd10b2a
--- /dev/null
+++ b/wandb/run-20241114_090201-9k76d4eg/logs/debug-internal.log
@@ -0,0 +1,21 @@
+{"time":"2024-11-14T09:02:01.497065066-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-14T09:02:01.497073326-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241114_090201-9k76d4eg/logs/debug-core.log"}
+{"time":"2024-11-14T09:02:01.605777877-05:00","level":"INFO","msg":"created new stream","id":"9k76d4eg"}
+{"time":"2024-11-14T09:02:01.605818328-05:00","level":"INFO","msg":"stream: started","id":"9k76d4eg"}
+{"time":"2024-11-14T09:02:01.605876068-05:00","level":"INFO","msg":"sender: started","stream_id":"9k76d4eg"}
+{"time":"2024-11-14T09:02:01.605839638-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"9k76d4eg"}}
+{"time":"2024-11-14T09:02:01.605865118-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"9k76d4eg"}}
+{"time":"2024-11-14T09:02:01.847001378-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-14T15:33:32.326298264-05:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-reverse/9k76d4eg/file_stream"}
+{"time":"2024-11-14T15:38:41.920422305-05:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-reverse/9k76d4eg/file_stream"}
+{"time":"2024-11-14T19:06:39.501083228-05:00","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2024-11-14T19:07:41.81501227-05:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-reverse/9k76d4eg/file_stream"}
+{"time":"2024-11-14T21:53:58.491622367-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-14T21:53:58.654352578-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-14T21:53:59.339751726-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-14T21:53:59.469088174-05:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"uploading history, summary, console logs","runtime_seconds":0.129112436}],"total_operations":1}}
+{"time":"2024-11-14T21:54:00.677542712-05:00","level":"INFO","msg":"stream: closing","id":"9k76d4eg"}
+{"time":"2024-11-14T21:54:00.677588062-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"9k76d4eg"}}
+{"time":"2024-11-14T21:54:00.677631252-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"9k76d4eg"}}
+{"time":"2024-11-14T21:54:00.677680572-05:00","level":"INFO","msg":"sender: closed","stream_id":"9k76d4eg"}
+{"time":"2024-11-14T21:54:00.677746533-05:00","level":"INFO","msg":"stream: closed","id":"9k76d4eg"}
diff --git a/wandb/run-20241114_090201-9k76d4eg/logs/debug.log b/wandb/run-20241114_090201-9k76d4eg/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..82ce38e2e2848aaa2b3e0561ece1b29b92e83313
--- /dev/null
+++ b/wandb/run-20241114_090201-9k76d4eg/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Configure stats pid to 2573812
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_ftp.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py'}
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241114_090201-9k76d4eg/logs/debug.log
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241114_090201-9k76d4eg/logs/debug-internal.log
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_init.py:init():621] calling init triggers
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_init.py:init():671] starting backend
+2024-11-14 09:02:01,492 INFO    MainThread:2573812 [wandb_init.py:init():675] sending inform_init request
+2024-11-14 09:02:01,494 INFO    MainThread:2573812 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-14 09:02:01,494 INFO    MainThread:2573812 [wandb_init.py:init():688] backend started and connected
+2024-11-14 09:02:01,497 INFO    MainThread:2573812 [wandb_init.py:init():783] updated telemetry
+2024-11-14 09:02:01,524 INFO    MainThread:2573812 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-14 09:02:01,842 INFO    MainThread:2573812 [wandb_init.py:init():867] starting run threads in backend
+2024-11-14 09:02:01,965 INFO    MainThread:2573812 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-14 09:02:01,966 INFO    MainThread:2573812 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-14 09:02:01,966 INFO    MainThread:2573812 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-14 09:02:01,966 INFO    MainThread:2573812 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-14 09:02:01,968 INFO    MainThread:2573812 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-14 09:02:01,968 INFO    MainThread:2573812 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-14 09:04:05,159 INFO    MainThread:2573812 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B-FTP/babylm_reverse_full_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B-FTP/babylm_reverse_full_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-14 09:04:05,162 INFO    MainThread:2573812 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f5ee390d9a0>>
+2024-11-14 09:04:05,162 INFO    MainThread:2573812 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-11-14 21:53:58,435 INFO    MainThread:2573812 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-reverse/9k76d4eg
+2024-11-14 21:53:58,467 INFO    MainThread:2573812 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-14 21:53:58,467 INFO    MainThread:2573812 [wandb_run.py:_restore():2408] restore
+2024-11-14 21:53:58,467 INFO    MainThread:2573812 [wandb_run.py:_restore():2414] restore done
+2024-11-14 21:54:00,666 INFO    MainThread:2573812 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-14 21:54:00,668 INFO    MainThread:2573812 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-14 21:54:00,677 INFO    MainThread:2573812 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241119_135256-i48f8k8i/files/wandb-metadata.json b/wandb/run-20241119_135256-i48f8k8i/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..bc0d81e39cc04cae488be6a1c47dfa1303f5062d
--- /dev/null
+++ b/wandb/run-20241119_135256-i48f8k8i/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-19T18:52:56.892964Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_local10",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py",
+  "codePath":  "train/train_ftp.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_ftp.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1758792753152"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file