diff --git a/.gitattributes b/.gitattributes
index 4a58d2912f3c3acfe06a6707ffad50fbcbadd049..984c0f532f5b9629abb71dc949c00bde8d0184dd 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -97,3 +97,7 @@ wandb/run-20241101_202058-hjyig8so/run-hjyig8so.wandb filter=lfs diff=lfs merge=
 wandb/run-20241101_012733-3tsgnm2p/run-3tsgnm2p.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241030_112852-av3r7rx8/run-av3r7rx8.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241115_125218-rrve0rbk/run-rrve0rbk.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241129_083813-1lx1o6j4/run-1lx1o6j4.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241101_200535-kh416n4m/run-kh416n4m.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241101_202058-jijqbvs1/run-jijqbvs1.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241129_083813-gsvlu1z8/run-gsvlu1z8.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/wandb/run-20241030_010759-v4mz2z5o/files/config.yaml b/wandb/run-20241030_010759-v4mz2z5o/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f8546482f67cbb9041af9d756594322c485d67a9
--- /dev/null
+++ b/wandb/run-20241030_010759-v4mz2z5o/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 7
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_010759-v4mz2z5o/files/output.log b/wandb/run-20241030_010759-v4mz2z5o/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..1777f063b107f651dddc063d1d3a3fa80015bf9e
--- /dev/null
+++ b/wandb/run-20241030_010759-v4mz2z5o/files/output.log
@@ -0,0 +1,4 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 162, in <module>
+    dataset_name = f"babylm_{args.perturbation}_{args.train_zset}_seed{args.seed}"
+AttributeError: 'Namespace' object has no attribute 'train_zset'
diff --git a/wandb/run-20241030_010759-v4mz2z5o/files/wandb-metadata.json b/wandb/run-20241030_010759-v4mz2z5o/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..81fa495538c5360cbc4e0add5ddf68767c8b416f
--- /dev/null
+++ b/wandb/run-20241030_010759-v4mz2z5o/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-30T05:07:59.035692Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "7",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1719200268288"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_010759-v4mz2z5o/files/wandb-summary.json b/wandb/run-20241030_010759-v4mz2z5o/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20241030_010759-v4mz2z5o/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20241030_010759-v4mz2z5o/logs/debug-internal.log b/wandb/run-20241030_010759-v4mz2z5o/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..d20f41b3d95001d6250c2f10562cd4225f92075e
--- /dev/null
+++ b/wandb/run-20241030_010759-v4mz2z5o/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-10-30T01:07:59.037884269-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:07:59.037895309-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010759-v4mz2z5o/logs/debug-core.log"}
+{"time":"2024-10-30T01:07:59.144238393-04:00","level":"INFO","msg":"created new stream","id":"v4mz2z5o"}
+{"time":"2024-10-30T01:07:59.144273343-04:00","level":"INFO","msg":"stream: started","id":"v4mz2z5o"}
+{"time":"2024-10-30T01:07:59.144297273-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"v4mz2z5o"}}
+{"time":"2024-10-30T01:07:59.144344244-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"v4mz2z5o"}}
+{"time":"2024-10-30T01:07:59.144382634-04:00","level":"INFO","msg":"sender: started","stream_id":"v4mz2z5o"}
+{"time":"2024-10-30T01:07:59.298984547-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T01:07:59.387117067-04:00","level":"INFO","msg":"stream: closing","id":"v4mz2z5o"}
+{"time":"2024-10-30T01:07:59.387151617-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T01:07:59.387463689-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-30T01:07:59.920617799-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-30T01:08:00.033586148-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"v4mz2z5o"}}
+{"time":"2024-10-30T01:08:00.033615528-04:00","level":"INFO","msg":"sender: closed","stream_id":"v4mz2z5o"}
+{"time":"2024-10-30T01:08:00.033608968-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"v4mz2z5o"}}
+{"time":"2024-10-30T01:08:00.033726869-04:00","level":"INFO","msg":"stream: closed","id":"v4mz2z5o"}
diff --git a/wandb/run-20241030_010759-v4mz2z5o/logs/debug.log b/wandb/run-20241030_010759-v4mz2z5o/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d9652b15f00c19ef0e4b55fd941b7ed1f1810fd5
--- /dev/null
+++ b/wandb/run-20241030_010759-v4mz2z5o/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Configure stats pid to 322461
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010759-v4mz2z5o/logs/debug.log
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010759-v4mz2z5o/logs/debug-internal.log
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_init.py:init():621] calling init triggers
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_init.py:init():671] starting backend
+2024-10-30 01:07:59,034 INFO    MainThread:322461 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 01:07:59,035 INFO    MainThread:322461 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 01:07:59,035 INFO    MainThread:322461 [wandb_init.py:init():688] backend started and connected
+2024-10-30 01:07:59,038 INFO    MainThread:322461 [wandb_init.py:init():783] updated telemetry
+2024-10-30 01:07:59,069 INFO    MainThread:322461 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 01:07:59,295 INFO    MainThread:322461 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 01:07:59,384 INFO    MainThread:322461 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 01:07:59,384 INFO    MainThread:322461 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 01:07:59,384 INFO    MainThread:322461 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 01:07:59,384 INFO    MainThread:322461 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 01:07:59,385 INFO    MainThread:322461 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 01:07:59,386 INFO    MainThread:322461 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0}
+2024-10-30 01:07:59,387 WARNING MsgRouterThr:322461 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241030_010759-v4mz2z5o/run-v4mz2z5o.wandb b/wandb/run-20241030_010759-v4mz2z5o/run-v4mz2z5o.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..8b2b12f2b6c24e412e2feecf52020b32c7f85e8d
Binary files /dev/null and b/wandb/run-20241030_010759-v4mz2z5o/run-v4mz2z5o.wandb differ
diff --git a/wandb/run-20241030_231835-o1t74f3e/files/output.log b/wandb/run-20241030_231835-o1t74f3e/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..fc4df11c88e6dd21a1d2ada0b578ca3ba7273159
--- /dev/null
+++ b/wandb/run-20241030_231835-o1t74f3e/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.78s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-30 23:18:42,945] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-30 23:18:52,440] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.8972320556640625 seconds
diff --git a/wandb/run-20241030_231835-o1t74f3e/files/requirements.txt b/wandb/run-20241030_231835-o1t74f3e/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_231835-o1t74f3e/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_231835-o1t74f3e/files/wandb-metadata.json b/wandb/run-20241030_231835-o1t74f3e/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..fd693ecd1d4eeffbb5c325eb9e537da16cd11654
--- /dev/null
+++ b/wandb/run-20241030_231835-o1t74f3e/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T03:18:35.151538Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1711064555520"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_231835-o1t74f3e/logs/debug-internal.log b/wandb/run-20241030_231835-o1t74f3e/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..56669e0e6cb90c2c1d51923956b6551c8dc5e0c4
--- /dev/null
+++ b/wandb/run-20241030_231835-o1t74f3e/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T23:18:35.153366138-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T23:18:35.153377718-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_231835-o1t74f3e/logs/debug-core.log"}
+{"time":"2024-10-30T23:18:35.259200227-04:00","level":"INFO","msg":"created new stream","id":"o1t74f3e"}
+{"time":"2024-10-30T23:18:35.259239637-04:00","level":"INFO","msg":"stream: started","id":"o1t74f3e"}
+{"time":"2024-10-30T23:18:35.259262897-04:00","level":"INFO","msg":"sender: started","stream_id":"o1t74f3e"}
+{"time":"2024-10-30T23:18:35.259258987-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"o1t74f3e"}}
+{"time":"2024-10-30T23:18:35.259247477-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"o1t74f3e"}}
+{"time":"2024-10-30T23:18:35.435477397-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241030_231835-o1t74f3e/logs/debug.log b/wandb/run-20241030_231835-o1t74f3e/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..60f44f3fb30f6b6675554cd7153f5f50991be7c8
--- /dev/null
+++ b/wandb/run-20241030_231835-o1t74f3e/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Configure stats pid to 457831
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 23:18:35,149 INFO    MainThread:457831 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_231835-o1t74f3e/logs/debug.log
+2024-10-30 23:18:35,150 INFO    MainThread:457831 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_231835-o1t74f3e/logs/debug-internal.log
+2024-10-30 23:18:35,150 INFO    MainThread:457831 [wandb_init.py:init():621] calling init triggers
+2024-10-30 23:18:35,150 INFO    MainThread:457831 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 23:18:35,150 INFO    MainThread:457831 [wandb_init.py:init():671] starting backend
+2024-10-30 23:18:35,150 INFO    MainThread:457831 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 23:18:35,151 INFO    MainThread:457831 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 23:18:35,151 INFO    MainThread:457831 [wandb_init.py:init():688] backend started and connected
+2024-10-30 23:18:35,154 INFO    MainThread:457831 [wandb_init.py:init():783] updated telemetry
+2024-10-30 23:18:35,179 INFO    MainThread:457831 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 23:18:35,432 INFO    MainThread:457831 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 23:18:35,527 INFO    MainThread:457831 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 23:18:35,527 INFO    MainThread:457831 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 23:18:35,527 INFO    MainThread:457831 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 23:18:35,527 INFO    MainThread:457831 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 23:18:35,528 INFO    MainThread:457831 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 23:18:35,529 INFO    MainThread:457831 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
diff --git a/wandb/run-20241030_233740-98qje3cr/files/output.log b/wandb/run-20241030_233740-98qje3cr/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..b49c99b2c80ae2e45d9f95f0ab68bd2ac5d6dea6
--- /dev/null
+++ b/wandb/run-20241030_233740-98qje3cr/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.98s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-30 23:37:50,812] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-30 23:37:58,524] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.6087868213653564 seconds
diff --git a/wandb/run-20241030_233740-98qje3cr/files/requirements.txt b/wandb/run-20241030_233740-98qje3cr/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_233740-98qje3cr/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_233740-98qje3cr/files/wandb-metadata.json b/wandb/run-20241030_233740-98qje3cr/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..3d74596df5efa6bd8d0f6deaeb4003a95652a0d7
--- /dev/null
+++ b/wandb/run-20241030_233740-98qje3cr/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T03:37:40.841144Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1711065919488"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_233740-98qje3cr/logs/debug-internal.log b/wandb/run-20241030_233740-98qje3cr/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..0137e3dc942ec2ae0bd6d99b9b6093fce34f9d09
--- /dev/null
+++ b/wandb/run-20241030_233740-98qje3cr/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T23:37:40.845317238-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T23:37:40.845328408-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_233740-98qje3cr/logs/debug-core.log"}
+{"time":"2024-10-30T23:37:40.951923871-04:00","level":"INFO","msg":"created new stream","id":"98qje3cr"}
+{"time":"2024-10-30T23:37:40.951953631-04:00","level":"INFO","msg":"stream: started","id":"98qje3cr"}
+{"time":"2024-10-30T23:37:40.952025931-04:00","level":"INFO","msg":"sender: started","stream_id":"98qje3cr"}
+{"time":"2024-10-30T23:37:40.951990871-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"98qje3cr"}}
+{"time":"2024-10-30T23:37:40.952005801-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"98qje3cr"}}
+{"time":"2024-10-30T23:37:41.405269516-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241030_233740-98qje3cr/logs/debug.log b/wandb/run-20241030_233740-98qje3cr/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..8ebbe2286dada4b85295c686a0f9ceeb0ce28f6c
--- /dev/null
+++ b/wandb/run-20241030_233740-98qje3cr/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Configure stats pid to 464534
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_233740-98qje3cr/logs/debug.log
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_233740-98qje3cr/logs/debug-internal.log
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_init.py:init():621] calling init triggers
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_init.py:init():671] starting backend
+2024-10-30 23:37:40,839 INFO    MainThread:464534 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 23:37:40,840 INFO    MainThread:464534 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 23:37:40,840 INFO    MainThread:464534 [wandb_init.py:init():688] backend started and connected
+2024-10-30 23:37:40,844 INFO    MainThread:464534 [wandb_init.py:init():783] updated telemetry
+2024-10-30 23:37:40,871 INFO    MainThread:464534 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 23:37:41,402 INFO    MainThread:464534 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 23:37:42,837 INFO    MainThread:464534 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 23:37:42,837 INFO    MainThread:464534 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 23:37:42,837 INFO    MainThread:464534 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 23:37:42,837 INFO    MainThread:464534 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 23:37:42,860 INFO    MainThread:464534 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 23:37:42,861 INFO    MainThread:464534 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
diff --git a/wandb/run-20241101_093116-n3c1zje4/files/output.log b/wandb/run-20241101_093116-n3c1zje4/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..9cdb81433f6770b11fb177b7f2f0ade219c9ade2
--- /dev/null
+++ b/wandb/run-20241101_093116-n3c1zje4/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.08s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-01 09:31:37,042] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-01 09:31:45,660] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.823585748672485 seconds
diff --git a/wandb/run-20241101_093116-n3c1zje4/files/requirements.txt b/wandb/run-20241101_093116-n3c1zje4/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_093116-n3c1zje4/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_093116-n3c1zje4/files/wandb-metadata.json b/wandb/run-20241101_093116-n3c1zje4/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..4d47439651d2643613586034dd44705e6afbf0aa
--- /dev/null
+++ b/wandb/run-20241101_093116-n3c1zje4/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-01T13:31:16.510021Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "7",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754716262400"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_093116-n3c1zje4/logs/debug-internal.log b/wandb/run-20241101_093116-n3c1zje4/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..291f1f5a78e5e4fef48d0331c0d22dd239167327
--- /dev/null
+++ b/wandb/run-20241101_093116-n3c1zje4/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-01T09:31:16.512866181-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T09:31:16.512881061-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_093116-n3c1zje4/logs/debug-core.log"}
+{"time":"2024-11-01T09:31:16.623420531-04:00","level":"INFO","msg":"created new stream","id":"n3c1zje4"}
+{"time":"2024-11-01T09:31:16.623477982-04:00","level":"INFO","msg":"stream: started","id":"n3c1zje4"}
+{"time":"2024-11-01T09:31:16.623527602-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"n3c1zje4"}}
+{"time":"2024-11-01T09:31:16.623492722-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"n3c1zje4"}}
+{"time":"2024-11-01T09:31:16.623569862-04:00","level":"INFO","msg":"sender: started","stream_id":"n3c1zje4"}
+{"time":"2024-11-01T09:31:16.840771598-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241101_093116-n3c1zje4/logs/debug.log b/wandb/run-20241101_093116-n3c1zje4/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d568578dfc1798c049a649891a917dad0afe5ead
--- /dev/null
+++ b/wandb/run-20241101_093116-n3c1zje4/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Configure stats pid to 781950
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_093116-n3c1zje4/logs/debug.log
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_093116-n3c1zje4/logs/debug-internal.log
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_init.py:init():621] calling init triggers
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_init.py:init():671] starting backend
+2024-11-01 09:31:16,508 INFO    MainThread:781950 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 09:31:16,509 INFO    MainThread:781950 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 09:31:16,509 INFO    MainThread:781950 [wandb_init.py:init():688] backend started and connected
+2024-11-01 09:31:16,513 INFO    MainThread:781950 [wandb_init.py:init():783] updated telemetry
+2024-11-01 09:31:16,546 INFO    MainThread:781950 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 09:31:16,836 INFO    MainThread:781950 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 09:31:16,962 INFO    MainThread:781950 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 09:31:16,962 INFO    MainThread:781950 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 09:31:16,963 INFO    MainThread:781950 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 09:31:16,963 INFO    MainThread:781950 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 09:31:16,964 INFO    MainThread:781950 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 09:31:16,964 INFO    MainThread:781950 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241101_093116-n3c1zje4/run-n3c1zje4.wandb b/wandb/run-20241101_093116-n3c1zje4/run-n3c1zje4.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..c49f26b1f63e5ce8aa45f1b054097fa386b95254
Binary files /dev/null and b/wandb/run-20241101_093116-n3c1zje4/run-n3c1zje4.wandb differ
diff --git a/wandb/run-20241101_200535-kh416n4m/run-kh416n4m.wandb b/wandb/run-20241101_200535-kh416n4m/run-kh416n4m.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..7d5394bfd78b5fdea0461e7872ba36be2ce538e5
--- /dev/null
+++ b/wandb/run-20241101_200535-kh416n4m/run-kh416n4m.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:262a348816d9419ec3403966b5e76fe2cb0a701d902903bc04dc131eabf5c8f4
+size 131072
diff --git a/wandb/run-20241101_201927-k1t1l8u4/run-k1t1l8u4.wandb b/wandb/run-20241101_201927-k1t1l8u4/run-k1t1l8u4.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..60c34183746151917f758de227d3ff957674d645
Binary files /dev/null and b/wandb/run-20241101_201927-k1t1l8u4/run-k1t1l8u4.wandb differ
diff --git a/wandb/run-20241101_202058-jijqbvs1/run-jijqbvs1.wandb b/wandb/run-20241101_202058-jijqbvs1/run-jijqbvs1.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..c9975aec96fc499be1dd9a0002c0e52f087ed68b
--- /dev/null
+++ b/wandb/run-20241101_202058-jijqbvs1/run-jijqbvs1.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a6daebef05a7995ff2c2936db987cd658c3b9b8ee650c82f84f0b76c724dcff4
+size 13287862
diff --git a/wandb/run-20241105_160652-il3id7gi/files/config.yaml b/wandb/run-20241105_160652-il3id7gi/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ba0e0eb5aa81d7186d91b3c8f342ad5574a4c100
--- /dev/null
+++ b/wandb/run-20241105_160652-il3id7gi/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic21
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241105_160652-il3id7gi/files/output.log b/wandb/run-20241105_160652-il3id7gi/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5cf4e355b562d16f06ef7e980576314b71cea8f8
--- /dev/null
+++ b/wandb/run-20241105_160652-il3id7gi/files/output.log
@@ -0,0 +1,8 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 165, in <module>
+    dataset = load_dataset('babylm_dataset_test.py', name=dataset_name, trust_remote_code=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 2096, in load_dataset
+    builder_instance.download_and_prepare(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 875, in download_and_prepare
+    raise OSError(
+OSError: Not enough disk space. Needed: Unknown size (download: Unknown size, generated: Unknown size, post-processed: Unknown size)
diff --git a/wandb/run-20241105_160652-il3id7gi/files/requirements.txt b/wandb/run-20241105_160652-il3id7gi/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241105_160652-il3id7gi/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241105_160652-il3id7gi/files/wandb-metadata.json b/wandb/run-20241105_160652-il3id7gi/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..0fd95bd6f295a755203969abf065d4ce3baff521
--- /dev/null
+++ b/wandb/run-20241105_160652-il3id7gi/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T21:06:52.164993Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic21",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1792542826496"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_160652-il3id7gi/files/wandb-summary.json b/wandb/run-20241105_160652-il3id7gi/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..a59211b910c7b68e6827eb6c887d30d98244727c
--- /dev/null
+++ b/wandb/run-20241105_160652-il3id7gi/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":5}}
\ No newline at end of file
diff --git a/wandb/run-20241105_160652-il3id7gi/logs/debug-internal.log b/wandb/run-20241105_160652-il3id7gi/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..896fc96058301117027b0b93100dcf6488fe74b1
--- /dev/null
+++ b/wandb/run-20241105_160652-il3id7gi/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-05T16:06:52.167714581-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T16:06:52.167734171-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_160652-il3id7gi/logs/debug-core.log"}
+{"time":"2024-11-05T16:06:52.276915561-05:00","level":"INFO","msg":"created new stream","id":"il3id7gi"}
+{"time":"2024-11-05T16:06:52.276986211-05:00","level":"INFO","msg":"stream: started","id":"il3id7gi"}
+{"time":"2024-11-05T16:06:52.277107652-05:00","level":"INFO","msg":"sender: started","stream_id":"il3id7gi"}
+{"time":"2024-11-05T16:06:52.277018542-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"il3id7gi"}}
+{"time":"2024-11-05T16:06:52.277107022-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"il3id7gi"}}
+{"time":"2024-11-05T16:06:52.50033616-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-05T16:06:57.72841623-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-05T16:06:57.72836442-05:00","level":"INFO","msg":"stream: closing","id":"il3id7gi"}
+{"time":"2024-11-05T16:06:57.729503476-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-05T16:06:57.814719044-05:00","level":"ERROR","msg":"sender: sendDefer: failed to build job artifact","error":"failed to write data to file: write /tmp/tmpfile-193938247: no space left on device"}
+{"time":"2024-11-05T16:06:58.075824688-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-05T16:06:58.203385044-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"il3id7gi"}}
+{"time":"2024-11-05T16:06:58.203426045-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"il3id7gi"}}
+{"time":"2024-11-05T16:06:58.203465995-05:00","level":"INFO","msg":"sender: closed","stream_id":"il3id7gi"}
+{"time":"2024-11-05T16:06:58.203502235-05:00","level":"INFO","msg":"stream: closed","id":"il3id7gi"}
diff --git a/wandb/run-20241105_160652-il3id7gi/logs/debug.log b/wandb/run-20241105_160652-il3id7gi/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..f98dc189b204a5fdcf32b1e17136fe1bbcb620c0
--- /dev/null
+++ b/wandb/run-20241105_160652-il3id7gi/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Configure stats pid to 1771275
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_160652-il3id7gi/logs/debug.log
+2024-11-05 16:06:52,161 INFO    MainThread:1771275 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_160652-il3id7gi/logs/debug-internal.log
+2024-11-05 16:06:52,162 INFO    MainThread:1771275 [wandb_init.py:init():621] calling init triggers
+2024-11-05 16:06:52,162 INFO    MainThread:1771275 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-05 16:06:52,162 INFO    MainThread:1771275 [wandb_init.py:init():671] starting backend
+2024-11-05 16:06:52,162 INFO    MainThread:1771275 [wandb_init.py:init():675] sending inform_init request
+2024-11-05 16:06:52,164 INFO    MainThread:1771275 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-05 16:06:52,164 INFO    MainThread:1771275 [wandb_init.py:init():688] backend started and connected
+2024-11-05 16:06:52,167 INFO    MainThread:1771275 [wandb_init.py:init():783] updated telemetry
+2024-11-05 16:06:52,198 INFO    MainThread:1771275 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-05 16:06:52,497 INFO    MainThread:1771275 [wandb_init.py:init():867] starting run threads in backend
+2024-11-05 16:06:52,584 INFO    MainThread:1771275 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-05 16:06:52,584 INFO    MainThread:1771275 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-05 16:06:52,584 INFO    MainThread:1771275 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-05 16:06:52,584 INFO    MainThread:1771275 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-05 16:06:52,586 INFO    MainThread:1771275 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-05 16:06:52,586 INFO    MainThread:1771275 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic21', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-05 16:06:57,728 WARNING MsgRouterThr:1771275 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241105_160652-il3id7gi/run-il3id7gi.wandb b/wandb/run-20241105_160652-il3id7gi/run-il3id7gi.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..d1e0789429cffb3c3a1ac18229ed18be70357f2c
Binary files /dev/null and b/wandb/run-20241105_160652-il3id7gi/run-il3id7gi.wandb differ
diff --git a/wandb/run-20241105_163039-q4e8d8hm/files/config.yaml b/wandb/run-20241105_163039-q4e8d8hm/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ba0e0eb5aa81d7186d91b3c8f342ad5574a4c100
--- /dev/null
+++ b/wandb/run-20241105_163039-q4e8d8hm/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic21
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241105_163039-q4e8d8hm/files/wandb-metadata.json b/wandb/run-20241105_163039-q4e8d8hm/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..91fef64f0de317168f257cbc3b7f93ae1043f0c4
--- /dev/null
+++ b/wandb/run-20241105_163039-q4e8d8hm/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T21:30:39.177983Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic21",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1785984999424"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_163039-q4e8d8hm/logs/debug.log b/wandb/run-20241105_163039-q4e8d8hm/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..f7b60673a8b14f4773525dbac40e27622231e9af
--- /dev/null
+++ b/wandb/run-20241105_163039-q4e8d8hm/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Configure stats pid to 1780128
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_163039-q4e8d8hm/logs/debug.log
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_163039-q4e8d8hm/logs/debug-internal.log
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_init.py:init():621] calling init triggers
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-05 16:30:39,175 INFO    MainThread:1780128 [wandb_init.py:init():671] starting backend
+2024-11-05 16:30:39,176 INFO    MainThread:1780128 [wandb_init.py:init():675] sending inform_init request
+2024-11-05 16:30:39,177 INFO    MainThread:1780128 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-05 16:30:39,177 INFO    MainThread:1780128 [wandb_init.py:init():688] backend started and connected
+2024-11-05 16:30:39,181 INFO    MainThread:1780128 [wandb_init.py:init():783] updated telemetry
+2024-11-05 16:30:39,205 INFO    MainThread:1780128 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-05 16:30:40,353 INFO    MainThread:1780128 [wandb_init.py:init():867] starting run threads in backend
+2024-11-05 16:30:40,466 INFO    MainThread:1780128 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-05 16:30:40,466 INFO    MainThread:1780128 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-05 16:30:40,466 INFO    MainThread:1780128 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-05 16:30:40,466 INFO    MainThread:1780128 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-05 16:30:40,467 INFO    MainThread:1780128 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-05 16:30:40,468 INFO    MainThread:1780128 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic21', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-05 16:32:00,266 WARNING MsgRouterThr:1780128 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241105_163039-q4e8d8hm/run-q4e8d8hm.wandb b/wandb/run-20241105_163039-q4e8d8hm/run-q4e8d8hm.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..254e3a482425fcb8523a49cd5fb63d14067c0d3c
Binary files /dev/null and b/wandb/run-20241105_163039-q4e8d8hm/run-q4e8d8hm.wandb differ
diff --git a/wandb/run-20241105_163244-o1vw2gev/logs/debug-internal.log b/wandb/run-20241105_163244-o1vw2gev/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..0ddddc8d6da2779e099e348effdeee7b75b3a11d
--- /dev/null
+++ b/wandb/run-20241105_163244-o1vw2gev/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-05T16:32:44.915617704-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T16:32:44.915629374-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_163244-o1vw2gev/logs/debug-core.log"}
+{"time":"2024-11-05T16:32:45.021934355-05:00","level":"INFO","msg":"created new stream","id":"o1vw2gev"}
+{"time":"2024-11-05T16:32:45.021967635-05:00","level":"INFO","msg":"stream: started","id":"o1vw2gev"}
+{"time":"2024-11-05T16:32:45.022053626-05:00","level":"INFO","msg":"sender: started","stream_id":"o1vw2gev"}
+{"time":"2024-11-05T16:32:45.022012265-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"o1vw2gev"}}
+{"time":"2024-11-05T16:32:45.022137556-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"o1vw2gev"}}
+{"time":"2024-11-05T16:32:45.194150228-05:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241105_223736-2kagvv0a/files/config.yaml b/wandb/run-20241105_223736-2kagvv0a/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..8ed5f3e0652990885328043b08ff49634377a7bb
--- /dev/null
+++ b/wandb/run-20241105_223736-2kagvv0a/files/config.yaml
@@ -0,0 +1,50 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic21
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241105_223736-2kagvv0a/files/output.log b/wandb/run-20241105_223736-2kagvv0a/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..2b6378d75ceccb5d85c0ea115cceea69d91b66fa
--- /dev/null
+++ b/wandb/run-20241105_223736-2kagvv0a/files/output.log
@@ -0,0 +1,18 @@
+[34m[1mwandb[0m: 500 encountered ({"errors":[{"message":"An internal error occurred. Please contact support.","path":["upsertBucket"]}],"data":{"upsertBucket":null}}), retrying request
+Downloading shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:32<00:00, 76.10s/it]
+Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.45s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-05 22:40:19,363] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-05 22:40:27,697] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Emitting ninja build file /home/chunhui/.cache/torch_extensions/py39_cu117/cpu_adam/build.ninja...
+Building extension module cpu_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.439234256744385 seconds
diff --git a/wandb/run-20241105_223736-2kagvv0a/files/wandb-metadata.json b/wandb/run-20241105_223736-2kagvv0a/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..212eb35de1b9402ea8177ab5ae962fde17db574a
--- /dev/null
+++ b/wandb/run-20241105_223736-2kagvv0a/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-06T03:37:36.194798Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic21",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1785078390784"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_223736-2kagvv0a/files/wandb-summary.json b/wandb/run-20241105_223736-2kagvv0a/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..64311f244ffe9ea9c73269340cf9f3fb2f620b3c
--- /dev/null
+++ b/wandb/run-20241105_223736-2kagvv0a/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":77797}}
\ No newline at end of file
diff --git a/wandb/run-20241105_223736-2kagvv0a/logs/debug-internal.log b/wandb/run-20241105_223736-2kagvv0a/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..57bf1088999f0a314831dd197587be129314778d
--- /dev/null
+++ b/wandb/run-20241105_223736-2kagvv0a/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2024-11-05T22:37:36.202357237-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T22:37:36.202369547-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_223736-2kagvv0a/logs/debug-core.log"}
+{"time":"2024-11-05T22:37:36.311435374-05:00","level":"INFO","msg":"created new stream","id":"2kagvv0a"}
+{"time":"2024-11-05T22:37:36.311490154-05:00","level":"INFO","msg":"stream: started","id":"2kagvv0a"}
+{"time":"2024-11-05T22:37:36.311518374-05:00","level":"INFO","msg":"sender: started","stream_id":"2kagvv0a"}
+{"time":"2024-11-05T22:37:36.311506174-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"2kagvv0a"}}
+{"time":"2024-11-05T22:37:36.311515264-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"2kagvv0a"}}
+{"time":"2024-11-05T22:37:36.430260321-05:00","level":"INFO","msg":"api: retrying HTTP error","status":500,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-11-05T22:37:38.657390136-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T20:14:13.275515344-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T20:14:13.36533327-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T20:14:14.247035454-05:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"saving job artifact","runtime_seconds":0.766071365,"subtasks":[{"desc":"requirements.frozen.txt","runtime_seconds":0.267306342,"progress":"2.6KB/2.6KB"}]}],"total_operations":1}}
+{"time":"2024-11-06T20:14:14.897915803-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T20:14:16.038235461-05:00","level":"INFO","msg":"stream: closing","id":"2kagvv0a"}
+{"time":"2024-11-06T20:14:16.038268531-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"2kagvv0a"}}
+{"time":"2024-11-06T20:14:16.038289471-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"2kagvv0a"}}
+{"time":"2024-11-06T20:14:16.038310401-05:00","level":"INFO","msg":"sender: closed","stream_id":"2kagvv0a"}
+{"time":"2024-11-06T20:14:16.038388792-05:00","level":"INFO","msg":"stream: closed","id":"2kagvv0a"}
diff --git a/wandb/run-20241105_223736-2kagvv0a/logs/debug.log b/wandb/run-20241105_223736-2kagvv0a/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..5158474228a20ba887bd1f238e3ddc681efb3be1
--- /dev/null
+++ b/wandb/run-20241105_223736-2kagvv0a/logs/debug.log
@@ -0,0 +1,33 @@
+2024-11-05 22:37:36,192 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Configure stats pid to 1802405
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_223736-2kagvv0a/logs/debug.log
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_223736-2kagvv0a/logs/debug-internal.log
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_init.py:init():621] calling init triggers
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_init.py:init():671] starting backend
+2024-11-05 22:37:36,193 INFO    MainThread:1802405 [wandb_init.py:init():675] sending inform_init request
+2024-11-05 22:37:36,194 INFO    MainThread:1802405 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-05 22:37:36,194 INFO    MainThread:1802405 [wandb_init.py:init():688] backend started and connected
+2024-11-05 22:37:36,197 INFO    MainThread:1802405 [wandb_init.py:init():783] updated telemetry
+2024-11-05 22:37:36,222 INFO    MainThread:1802405 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-05 22:37:38,650 INFO    MainThread:1802405 [wandb_init.py:init():867] starting run threads in backend
+2024-11-05 22:37:38,746 INFO    MainThread:1802405 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-05 22:37:38,746 INFO    MainThread:1802405 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-05 22:37:38,746 INFO    MainThread:1802405 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-05 22:37:38,746 INFO    MainThread:1802405 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-05 22:37:38,747 INFO    MainThread:1802405 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-05 22:37:38,747 INFO    MainThread:1802405 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic21', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 20:14:13,216 INFO    MainThread:1802405 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-shuffle/2kagvv0a
+2024-11-06 20:14:13,227 INFO    MainThread:1802405 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-06 20:14:13,227 INFO    MainThread:1802405 [wandb_run.py:_restore():2408] restore
+2024-11-06 20:14:13,246 INFO    MainThread:1802405 [wandb_run.py:_restore():2414] restore done
+2024-11-06 20:14:16,032 INFO    MainThread:1802405 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-06 20:14:16,032 INFO    MainThread:1802405 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-06 20:14:16,037 INFO    MainThread:1802405 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241106_203647-jauklpbe/files/config.yaml b/wandb/run-20241106_203647-jauklpbe/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..507bc548a43d1c7afb495d052831f04f348b9c17
--- /dev/null
+++ b/wandb/run-20241106_203647-jauklpbe/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic84
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_203647-jauklpbe/files/output.log b/wandb/run-20241106_203647-jauklpbe/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..efc27cea7ca3979af6a3e7e56afa93bd17b5604b
--- /dev/null
+++ b/wandb/run-20241106_203647-jauklpbe/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c19c6-4ab49c2772cb92404817a4a6;d7309389-7bc2-43ca-8268-d31dc94d9f27)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c19c6-4ab49c2772cb92404817a4a6;d7309389-7bc2-43ca-8268-d31dc94d9f27)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_203647-jauklpbe/files/wandb-metadata.json b/wandb/run-20241106_203647-jauklpbe/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..262ee151a88d4a53dd22fff554d8bf75aa22943a
--- /dev/null
+++ b/wandb/run-20241106_203647-jauklpbe/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T01:36:47.516115Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic84",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1791616151552"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_203647-jauklpbe/files/wandb-summary.json b/wandb/run-20241106_203647-jauklpbe/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..15f6b8e9049a55292dab131278b3f2fc1f52e50d
--- /dev/null
+++ b/wandb/run-20241106_203647-jauklpbe/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":23}}
\ No newline at end of file
diff --git a/wandb/run-20241106_203647-jauklpbe/logs/debug-internal.log b/wandb/run-20241106_203647-jauklpbe/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..dd6565cd43a3f76c20f8f8d235bcab9500f9707a
--- /dev/null
+++ b/wandb/run-20241106_203647-jauklpbe/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T20:36:47.518877387-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T20:36:47.518900247-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_203647-jauklpbe/logs/debug-core.log"}
+{"time":"2024-11-06T20:36:47.628084594-05:00","level":"INFO","msg":"created new stream","id":"jauklpbe"}
+{"time":"2024-11-06T20:36:47.628112834-05:00","level":"INFO","msg":"stream: started","id":"jauklpbe"}
+{"time":"2024-11-06T20:36:47.628220125-05:00","level":"INFO","msg":"sender: started","stream_id":"jauklpbe"}
+{"time":"2024-11-06T20:36:47.628176255-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"jauklpbe"}}
+{"time":"2024-11-06T20:36:47.628305836-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"jauklpbe"}}
+{"time":"2024-11-06T20:36:47.812683655-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T20:37:10.552301687-05:00","level":"INFO","msg":"stream: closing","id":"jauklpbe"}
+{"time":"2024-11-06T20:37:10.552349908-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T20:37:10.552918862-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T20:37:11.038094193-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T20:37:11.179714471-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"jauklpbe"}}
+{"time":"2024-11-06T20:37:11.179741331-05:00","level":"INFO","msg":"sender: closed","stream_id":"jauklpbe"}
+{"time":"2024-11-06T20:37:11.179739851-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"jauklpbe"}}
+{"time":"2024-11-06T20:37:11.179861012-05:00","level":"INFO","msg":"stream: closed","id":"jauklpbe"}
diff --git a/wandb/run-20241106_203647-jauklpbe/logs/debug.log b/wandb/run-20241106_203647-jauklpbe/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..8769224394886bd563d849c211aaee2a0157baab
--- /dev/null
+++ b/wandb/run-20241106_203647-jauklpbe/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Configure stats pid to 1970622
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 20:36:47,513 INFO    MainThread:1970622 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_203647-jauklpbe/logs/debug.log
+2024-11-06 20:36:47,514 INFO    MainThread:1970622 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_203647-jauklpbe/logs/debug-internal.log
+2024-11-06 20:36:47,514 INFO    MainThread:1970622 [wandb_init.py:init():621] calling init triggers
+2024-11-06 20:36:47,514 INFO    MainThread:1970622 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 20:36:47,514 INFO    MainThread:1970622 [wandb_init.py:init():671] starting backend
+2024-11-06 20:36:47,514 INFO    MainThread:1970622 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 20:36:47,515 INFO    MainThread:1970622 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 20:36:47,515 INFO    MainThread:1970622 [wandb_init.py:init():688] backend started and connected
+2024-11-06 20:36:47,519 INFO    MainThread:1970622 [wandb_init.py:init():783] updated telemetry
+2024-11-06 20:36:47,542 INFO    MainThread:1970622 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 20:36:47,810 INFO    MainThread:1970622 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 20:36:47,951 INFO    MainThread:1970622 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 20:36:47,951 INFO    MainThread:1970622 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 20:36:47,951 INFO    MainThread:1970622 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 20:36:47,951 INFO    MainThread:1970622 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 20:36:47,954 INFO    MainThread:1970622 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 20:36:47,954 INFO    MainThread:1970622 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic84', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 20:37:10,552 WARNING MsgRouterThr:1970622 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_203647-jauklpbe/run-jauklpbe.wandb b/wandb/run-20241106_203647-jauklpbe/run-jauklpbe.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..7a31a91256e2d3b0fe5d198ed905c63e30d7d8d8
Binary files /dev/null and b/wandb/run-20241106_203647-jauklpbe/run-jauklpbe.wandb differ
diff --git a/wandb/run-20241107_160818-c1m5haik/files/config.yaml b/wandb/run-20241107_160818-c1m5haik/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..45c9885a80c6c6551af0939982b4765da8541cf4
--- /dev/null
+++ b/wandb/run-20241107_160818-c1m5haik/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241107_160818-c1m5haik/files/output.log b/wandb/run-20241107_160818-c1m5haik/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..8419bf5a98f8e4ad29176680ab3f4c8dd3c582c8
--- /dev/null
+++ b/wandb/run-20241107_160818-c1m5haik/files/output.log
@@ -0,0 +1,29 @@
+Error in sys.excepthook:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/linecache.py", line 46, in getlines
+    return updatecache(filename, module_globals)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/linecache.py", line 136, in updatecache
+    with tokenize.open(fullname) as fp:
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/tokenize.py", line 394, in open
+    encoding, lines = detect_encoding(buffer.readline)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/tokenize.py", line 363, in detect_encoding
+    first = read_or_stop()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/tokenize.py", line 321, in read_or_stop
+    return readline()
+KeyboardInterrupt
+
+Original exception was:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 165, in <module>
+    dataset = load_dataset('babylm_dataset_test.py', name=dataset_name, trust_remote_code=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 2074, in load_dataset
+    builder_instance = load_dataset_builder(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 1830, in load_dataset_builder
+    builder_cls = get_dataset_builder_class(dataset_module, dataset_name=dataset_name)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 238, in get_dataset_builder_class
+    with lock_importable_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 255, in __enter__
+    self.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241107_160818-c1m5haik/files/wandb-metadata.json b/wandb/run-20241107_160818-c1m5haik/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..c4e8ee7d7778b62100b92608f045cef3d6655329
--- /dev/null
+++ b/wandb/run-20241107_160818-c1m5haik/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T21:08:18.497569Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1742796255232"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241107_160818-c1m5haik/files/wandb-summary.json b/wandb/run-20241107_160818-c1m5haik/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20241107_160818-c1m5haik/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20241107_160818-c1m5haik/logs/debug-internal.log b/wandb/run-20241107_160818-c1m5haik/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..bc6ca2dbf3d4ffc008b2bbe1f1f520b0e5fec4ce
--- /dev/null
+++ b/wandb/run-20241107_160818-c1m5haik/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-07T16:08:18.502589777-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-07T16:08:18.502605717-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160818-c1m5haik/logs/debug-core.log"}
+{"time":"2024-11-07T16:08:18.612244938-05:00","level":"INFO","msg":"created new stream","id":"c1m5haik"}
+{"time":"2024-11-07T16:08:18.612290158-05:00","level":"INFO","msg":"stream: started","id":"c1m5haik"}
+{"time":"2024-11-07T16:08:18.612311039-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"c1m5haik"}}
+{"time":"2024-11-07T16:08:18.612392659-05:00","level":"INFO","msg":"sender: started","stream_id":"c1m5haik"}
+{"time":"2024-11-07T16:08:18.612327659-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"c1m5haik"}}
+{"time":"2024-11-07T16:08:18.818986022-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-07T16:08:18.94248854-05:00","level":"INFO","msg":"stream: closing","id":"c1m5haik"}
+{"time":"2024-11-07T16:08:18.94250756-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-07T16:08:18.942857372-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-07T16:08:19.561470633-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-07T16:08:19.677161703-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"c1m5haik"}}
+{"time":"2024-11-07T16:08:19.677203913-05:00","level":"INFO","msg":"sender: closed","stream_id":"c1m5haik"}
+{"time":"2024-11-07T16:08:19.677192853-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"c1m5haik"}}
+{"time":"2024-11-07T16:08:19.677288163-05:00","level":"INFO","msg":"stream: closed","id":"c1m5haik"}
diff --git a/wandb/run-20241107_160818-c1m5haik/logs/debug.log b/wandb/run-20241107_160818-c1m5haik/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..04cfdf4c980a951856e514e93beba8ea0a2a875c
--- /dev/null
+++ b/wandb/run-20241107_160818-c1m5haik/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Configure stats pid to 2097268
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-07 16:08:18,495 INFO    MainThread:2097268 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-07 16:08:18,496 INFO    MainThread:2097268 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160818-c1m5haik/logs/debug.log
+2024-11-07 16:08:18,496 INFO    MainThread:2097268 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160818-c1m5haik/logs/debug-internal.log
+2024-11-07 16:08:18,496 INFO    MainThread:2097268 [wandb_init.py:init():621] calling init triggers
+2024-11-07 16:08:18,496 INFO    MainThread:2097268 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-07 16:08:18,496 INFO    MainThread:2097268 [wandb_init.py:init():671] starting backend
+2024-11-07 16:08:18,496 INFO    MainThread:2097268 [wandb_init.py:init():675] sending inform_init request
+2024-11-07 16:08:18,497 INFO    MainThread:2097268 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-07 16:08:18,497 INFO    MainThread:2097268 [wandb_init.py:init():688] backend started and connected
+2024-11-07 16:08:18,500 INFO    MainThread:2097268 [wandb_init.py:init():783] updated telemetry
+2024-11-07 16:08:18,532 INFO    MainThread:2097268 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-07 16:08:18,816 INFO    MainThread:2097268 [wandb_init.py:init():867] starting run threads in backend
+2024-11-07 16:08:18,917 INFO    MainThread:2097268 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-07 16:08:18,917 INFO    MainThread:2097268 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-07 16:08:18,917 INFO    MainThread:2097268 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-07 16:08:18,917 INFO    MainThread:2097268 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-07 16:08:18,919 INFO    MainThread:2097268 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-07 16:08:18,919 INFO    MainThread:2097268 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-07 16:08:18,942 WARNING MsgRouterThr:2097268 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241107_160818-c1m5haik/run-c1m5haik.wandb b/wandb/run-20241107_160818-c1m5haik/run-c1m5haik.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..68e4e0391066ffbb5ef61f140df6cdd721fc23dd
Binary files /dev/null and b/wandb/run-20241107_160818-c1m5haik/run-c1m5haik.wandb differ
diff --git a/wandb/run-20241107_160909-ujjrpzmo/files/config.yaml b/wandb/run-20241107_160909-ujjrpzmo/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..fd95ac2cc1e8b0e86de5279948ebc99ce88ce371
--- /dev/null
+++ b/wandb/run-20241107_160909-ujjrpzmo/files/config.yaml
@@ -0,0 +1,531 @@
+_name_or_path:
+    value: meta-llama/Llama-3.2-3B
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": train/learning_rate
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": eval/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/epoch
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/runtime
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+epoch:
+    value: 3
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+head_dim:
+    value: 128
+hidden_act:
+    value: silu
+hidden_size:
+    value: 3072
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 8192
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 131072
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mlp_bias:
+    value: false
+model/num_parameters:
+    value: 3212749824
+model_type:
+    value: llama
+mp_parameters:
+    value: ""
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 24
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 28
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 3
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/Llama-3.2-3B/babylm_shuffle_even_odd_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: shuffle_even_odd
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value:
+        factor: 32
+        high_freq_factor: 4
+        low_freq_factor: 1
+        original_max_position_embeddings: 8192
+        rope_type: llama3
+rope_theta:
+    value: 500000
+run_name:
+    value: ./checkpoints/Llama-3.2-3B/babylm_shuffle_even_odd_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.1
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241107_160909-ujjrpzmo/files/output.log b/wandb/run-20241107_160909-ujjrpzmo/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..0b0de9fe46cbed749947f07a709893ca01238d35
--- /dev/null
+++ b/wandb/run-20241107_160909-ujjrpzmo/files/output.log
@@ -0,0 +1,3033 @@
+model.safetensors.index.json: 100%|███████████████████████| 20.9k/20.9k [00:00<00:00, 9.05MB/s]
+model-00001-of-00002.safetensors: 100%|███████████████████| 4.97G/4.97G [01:57<00:00, 42.2MB/s]
+model-00002-of-00002.safetensors: 100%|███████████████████| 1.46G/1.46G [00:34<00:00, 42.6MB/s]
+Downloading shards: 100%|████████████████████████████████████████| 2/2 [02:32<00:00, 76.12s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████| 2/2 [00:05<00:00,  2.86s/it]
+Map: 100%|███████████████████████████████████████| 17013/17013 [00:48<00:00, 347.94 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-07 16:12:40,280] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-07 16:12:51,322] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-07 16:12:51,323] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 6.3058085441589355 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                                                               
+{'loss': 2.9228, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.913, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.8792, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.9058, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.8737, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0114, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9157, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9441, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9234, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9776, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                                                               
+{'eval_loss': 2.9550302028656006, 'eval_runtime': 38.1653, 'eval_samples_per_second': 26.202, 'eval_steps_per_second': 1.1, 'epoch': 0.01}
+{'loss': 2.9516, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.8598, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9358, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9103, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 2.9657, 'grad_norm': 4.499549865722656, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 2.9001, 'grad_norm': 4.579676151275635, 'learning_rate': 3.6496350364963505e-08, 'epoch': 0.02}
+{'loss': 2.9116, 'grad_norm': 4.628462791442871, 'learning_rate': 5.4744525547445264e-08, 'epoch': 0.02}
+{'loss': 2.9414, 'grad_norm': 4.7823486328125, 'learning_rate': 7.299270072992701e-08, 'epoch': 0.02}
+{'loss': 2.8951, 'grad_norm': 4.603215217590332, 'learning_rate': 9.124087591240876e-08, 'epoch': 0.02}
+{'loss': 2.9784, 'grad_norm': 4.287731647491455, 'learning_rate': 1.0948905109489053e-07, 'epoch': 0.02}
+{'eval_loss': 2.9541079998016357, 'eval_runtime': 37.3608, 'eval_samples_per_second': 26.766, 'eval_steps_per_second': 1.124, 'epoch': 0.02}
+{'loss': 2.9397, 'grad_norm': 4.563065052032471, 'learning_rate': 1.2773722627737227e-07, 'epoch': 0.02}
+{'loss': 2.8689, 'grad_norm': 4.157818794250488, 'learning_rate': 1.4598540145985402e-07, 'epoch': 0.02}
+{'loss': 2.9083, 'grad_norm': 4.302506923675537, 'learning_rate': 1.642335766423358e-07, 'epoch': 0.03}
+{'loss': 2.9395, 'grad_norm': 4.426967620849609, 'learning_rate': 1.8248175182481753e-07, 'epoch': 0.03}
+{'loss': 2.9514, 'grad_norm': 4.171821117401123, 'learning_rate': 2.0072992700729928e-07, 'epoch': 0.03}
+{'loss': 2.936, 'grad_norm': 4.069268703460693, 'learning_rate': 2.1897810218978106e-07, 'epoch': 0.03}
+{'loss': 2.9444, 'grad_norm': 3.878473997116089, 'learning_rate': 2.3722627737226278e-07, 'epoch': 0.03}
+{'loss': 2.8972, 'grad_norm': 3.790377616882324, 'learning_rate': 2.5547445255474454e-07, 'epoch': 0.03}
+{'loss': 2.8909, 'grad_norm': 3.6787664890289307, 'learning_rate': 2.737226277372263e-07, 'epoch': 0.03}
+{'loss': 2.862, 'grad_norm': 3.9471073150634766, 'learning_rate': 2.9197080291970804e-07, 'epoch': 0.03}
+{'eval_loss': 2.918577194213867, 'eval_runtime': 37.1005, 'eval_samples_per_second': 26.954, 'eval_steps_per_second': 1.132, 'epoch': 0.03}
+{'loss': 2.88, 'grad_norm': 3.1942155361175537, 'learning_rate': 3.102189781021898e-07, 'epoch': 0.03}
+{'loss': 2.8781, 'grad_norm': 3.4512293338775635, 'learning_rate': 3.284671532846716e-07, 'epoch': 0.04}
+{'loss': 2.8464, 'grad_norm': 3.199559450149536, 'learning_rate': 3.467153284671533e-07, 'epoch': 0.04}
+{'loss': 2.8377, 'grad_norm': 3.15679931640625, 'learning_rate': 3.6496350364963505e-07, 'epoch': 0.04}
+{'loss': 2.8638, 'grad_norm': 3.015956163406372, 'learning_rate': 3.8321167883211686e-07, 'epoch': 0.04}
+{'loss': 2.8819, 'grad_norm': 2.8539278507232666, 'learning_rate': 4.0145985401459856e-07, 'epoch': 0.04}
+{'loss': 2.8232, 'grad_norm': 2.819194793701172, 'learning_rate': 4.197080291970803e-07, 'epoch': 0.04}
+{'loss': 2.783, 'grad_norm': 2.6231954097747803, 'learning_rate': 4.379562043795621e-07, 'epoch': 0.04}
+{'loss': 2.8905, 'grad_norm': 2.633301258087158, 'learning_rate': 4.562043795620438e-07, 'epoch': 0.04}
+{'loss': 2.7851, 'grad_norm': 2.5322017669677734, 'learning_rate': 4.7445255474452557e-07, 'epoch': 0.04}
+{'eval_loss': 2.8536036014556885, 'eval_runtime': 37.1542, 'eval_samples_per_second': 26.915, 'eval_steps_per_second': 1.13, 'epoch': 0.04}
+{'loss': 2.82, 'grad_norm': 2.608207941055298, 'learning_rate': 4.927007299270073e-07, 'epoch': 0.04}
+{'loss': 2.8473, 'grad_norm': 2.4030039310455322, 'learning_rate': 5.109489051094891e-07, 'epoch': 0.05}
+{'loss': 2.8239, 'grad_norm': 2.4047887325286865, 'learning_rate': 5.291970802919708e-07, 'epoch': 0.05}
+{'loss': 2.8342, 'grad_norm': 2.3790647983551025, 'learning_rate': 5.474452554744526e-07, 'epoch': 0.05}
+{'loss': 2.8208, 'grad_norm': 2.2825446128845215, 'learning_rate': 5.656934306569343e-07, 'epoch': 0.05}
+{'loss': 2.7658, 'grad_norm': 2.2430613040924072, 'learning_rate': 5.839416058394161e-07, 'epoch': 0.05}
+{'loss': 2.7467, 'grad_norm': 2.2379651069641113, 'learning_rate': 6.021897810218979e-07, 'epoch': 0.05}
+{'loss': 2.7785, 'grad_norm': 2.1349596977233887, 'learning_rate': 6.204379562043796e-07, 'epoch': 0.05}
+{'loss': 2.7127, 'grad_norm': 1.9866257905960083, 'learning_rate': 6.386861313868614e-07, 'epoch': 0.05}
+{'loss': 2.8342, 'grad_norm': 2.013187885284424, 'learning_rate': 6.569343065693432e-07, 'epoch': 0.05}
+{'eval_loss': 2.779691457748413, 'eval_runtime': 37.2292, 'eval_samples_per_second': 26.861, 'eval_steps_per_second': 1.128, 'epoch': 0.05}
+{'loss': 2.7202, 'grad_norm': 2.3823800086975098, 'learning_rate': 6.751824817518248e-07, 'epoch': 0.06}
+{'loss': 2.7472, 'grad_norm': 1.9252759218215942, 'learning_rate': 6.934306569343066e-07, 'epoch': 0.06}
+{'loss': 2.6801, 'grad_norm': 1.8134092092514038, 'learning_rate': 7.116788321167883e-07, 'epoch': 0.06}
+{'loss': 2.6931, 'grad_norm': 1.7787110805511475, 'learning_rate': 7.299270072992701e-07, 'epoch': 0.06}
+{'loss': 2.7037, 'grad_norm': 1.8264989852905273, 'learning_rate': 7.48175182481752e-07, 'epoch': 0.06}
+{'loss': 2.7206, 'grad_norm': 1.779778242111206, 'learning_rate': 7.664233576642337e-07, 'epoch': 0.06}
+{'loss': 2.7215, 'grad_norm': 1.9083834886550903, 'learning_rate': 7.846715328467154e-07, 'epoch': 0.06}
+{'loss': 2.706, 'grad_norm': 1.614102840423584, 'learning_rate': 8.029197080291971e-07, 'epoch': 0.06}
+{'loss': 2.6451, 'grad_norm': 1.6313952207565308, 'learning_rate': 8.211678832116789e-07, 'epoch': 0.06}
+{'loss': 2.6168, 'grad_norm': 1.8218132257461548, 'learning_rate': 8.394160583941606e-07, 'epoch': 0.07}
+{'eval_loss': 2.719381332397461, 'eval_runtime': 37.2407, 'eval_samples_per_second': 26.852, 'eval_steps_per_second': 1.128, 'epoch': 0.07}
+{'loss': 2.6559, 'grad_norm': 1.7891069650650024, 'learning_rate': 8.576642335766425e-07, 'epoch': 0.07}
+{'loss': 2.6428, 'grad_norm': 1.6071841716766357, 'learning_rate': 8.759124087591242e-07, 'epoch': 0.07}
+{'loss': 2.6496, 'grad_norm': 1.7150017023086548, 'learning_rate': 8.94160583941606e-07, 'epoch': 0.07}
+{'loss': 2.6671, 'grad_norm': 1.7664421796798706, 'learning_rate': 9.124087591240876e-07, 'epoch': 0.07}
+{'loss': 2.6309, 'grad_norm': 1.684327483177185, 'learning_rate': 9.306569343065694e-07, 'epoch': 0.07}
+{'loss': 2.6513, 'grad_norm': 1.5630618333816528, 'learning_rate': 9.489051094890511e-07, 'epoch': 0.07}
+{'loss': 2.6346, 'grad_norm': 1.622764229774475, 'learning_rate': 9.67153284671533e-07, 'epoch': 0.07}
+{'loss': 2.6784, 'grad_norm': 1.7873258590698242, 'learning_rate': 9.854014598540146e-07, 'epoch': 0.07}
+{'loss': 2.6063, 'grad_norm': 2.058234214782715, 'learning_rate': 1.0036496350364965e-06, 'epoch': 0.08}
+{'loss': 2.575, 'grad_norm': 1.9183952808380127, 'learning_rate': 1.0218978102189781e-06, 'epoch': 0.08}
+{'eval_loss': 2.6536612510681152, 'eval_runtime': 37.2183, 'eval_samples_per_second': 26.869, 'eval_steps_per_second': 1.128, 'epoch': 0.08}
+{'loss': 2.6429, 'grad_norm': 1.931950330734253, 'learning_rate': 1.04014598540146e-06, 'epoch': 0.08}
+{'loss': 2.5218, 'grad_norm': 2.045337438583374, 'learning_rate': 1.0583941605839416e-06, 'epoch': 0.08}
+{'loss': 2.5277, 'grad_norm': 1.9110971689224243, 'learning_rate': 1.0766423357664233e-06, 'epoch': 0.08}
+{'loss': 2.547, 'grad_norm': 2.4468348026275635, 'learning_rate': 1.0948905109489052e-06, 'epoch': 0.08}
+{'loss': 2.5713, 'grad_norm': 1.887924075126648, 'learning_rate': 1.113138686131387e-06, 'epoch': 0.08}
+{'loss': 2.5812, 'grad_norm': 2.891157865524292, 'learning_rate': 1.1313868613138687e-06, 'epoch': 0.08}
+{'loss': 2.4991, 'grad_norm': 2.295057773590088, 'learning_rate': 1.1496350364963505e-06, 'epoch': 0.08}
+{'loss': 2.4947, 'grad_norm': 2.3006889820098877, 'learning_rate': 1.1678832116788322e-06, 'epoch': 0.09}
+{'loss': 2.4912, 'grad_norm': 2.439432382583618, 'learning_rate': 1.1861313868613138e-06, 'epoch': 0.09}
+{'loss': 2.4802, 'grad_norm': 2.269310712814331, 'learning_rate': 1.2043795620437959e-06, 'epoch': 0.09}
+{'eval_loss': 2.5736074447631836, 'eval_runtime': 37.2255, 'eval_samples_per_second': 26.863, 'eval_steps_per_second': 1.128, 'epoch': 0.09}
+{'loss': 2.481, 'grad_norm': 2.1347496509552, 'learning_rate': 1.2226277372262775e-06, 'epoch': 0.09}
+{'loss': 2.5204, 'grad_norm': 2.369415760040283, 'learning_rate': 1.2408759124087592e-06, 'epoch': 0.09}
+{'loss': 2.4783, 'grad_norm': 2.8223581314086914, 'learning_rate': 1.259124087591241e-06, 'epoch': 0.09}
+{'loss': 2.4926, 'grad_norm': 2.6199405193328857, 'learning_rate': 1.2773722627737229e-06, 'epoch': 0.09}
+{'loss': 2.4781, 'grad_norm': 2.776623487472534, 'learning_rate': 1.2956204379562045e-06, 'epoch': 0.09}
+{'loss': 2.4184, 'grad_norm': 2.649749755859375, 'learning_rate': 1.3138686131386864e-06, 'epoch': 0.09}
+{'loss': 2.4466, 'grad_norm': 2.62575101852417, 'learning_rate': 1.332116788321168e-06, 'epoch': 0.1}
+{'loss': 2.3681, 'grad_norm': 3.135901689529419, 'learning_rate': 1.3503649635036497e-06, 'epoch': 0.1}
+{'loss': 2.4107, 'grad_norm': 2.8516979217529297, 'learning_rate': 1.3686131386861315e-06, 'epoch': 0.1}
+{'loss': 2.3323, 'grad_norm': 2.5140628814697266, 'learning_rate': 1.3868613138686132e-06, 'epoch': 0.1}
+{'eval_loss': 2.4967005252838135, 'eval_runtime': 37.2089, 'eval_samples_per_second': 26.875, 'eval_steps_per_second': 1.129, 'epoch': 0.1}
+{'loss': 2.4448, 'grad_norm': 3.1235268115997314, 'learning_rate': 1.405109489051095e-06, 'epoch': 0.1}
+{'loss': 2.3931, 'grad_norm': 2.7377545833587646, 'learning_rate': 1.4233576642335767e-06, 'epoch': 0.1}
+{'loss': 2.4274, 'grad_norm': 2.8881747722625732, 'learning_rate': 1.4416058394160583e-06, 'epoch': 0.1}
+{'loss': 2.385, 'grad_norm': 2.584059000015259, 'learning_rate': 1.4598540145985402e-06, 'epoch': 0.1}
+{'loss': 2.3554, 'grad_norm': 3.4064419269561768, 'learning_rate': 1.478102189781022e-06, 'epoch': 0.1}
+{'loss': 2.4137, 'grad_norm': 2.2290151119232178, 'learning_rate': 1.496350364963504e-06, 'epoch': 0.11}
+{'loss': 2.3843, 'grad_norm': 2.7750914096832275, 'learning_rate': 1.5145985401459856e-06, 'epoch': 0.11}
+{'loss': 2.4046, 'grad_norm': 2.619952440261841, 'learning_rate': 1.5328467153284674e-06, 'epoch': 0.11}
+{'loss': 2.3543, 'grad_norm': 2.54819917678833, 'learning_rate': 1.551094890510949e-06, 'epoch': 0.11}
+{'loss': 2.3001, 'grad_norm': 2.44057559967041, 'learning_rate': 1.5693430656934307e-06, 'epoch': 0.11}
+{'eval_loss': 2.432290554046631, 'eval_runtime': 37.2517, 'eval_samples_per_second': 26.844, 'eval_steps_per_second': 1.127, 'epoch': 0.11}
+{'loss': 2.2975, 'grad_norm': 2.51607608795166, 'learning_rate': 1.5875912408759126e-06, 'epoch': 0.11}
+{'loss': 2.3619, 'grad_norm': 2.2553768157958984, 'learning_rate': 1.6058394160583942e-06, 'epoch': 0.11}
+{'loss': 2.4066, 'grad_norm': 2.4806911945343018, 'learning_rate': 1.624087591240876e-06, 'epoch': 0.11}
+{'loss': 2.3172, 'grad_norm': 2.5546786785125732, 'learning_rate': 1.6423357664233577e-06, 'epoch': 0.11}
+{'loss': 2.2578, 'grad_norm': 2.4799184799194336, 'learning_rate': 1.6605839416058394e-06, 'epoch': 0.12}
+{'loss': 2.2898, 'grad_norm': 3.2751758098602295, 'learning_rate': 1.6788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.3128, 'grad_norm': 2.386707067489624, 'learning_rate': 1.6970802919708029e-06, 'epoch': 0.12}
+{'loss': 2.2404, 'grad_norm': 2.480304002761841, 'learning_rate': 1.715328467153285e-06, 'epoch': 0.12}
+{'loss': 2.2934, 'grad_norm': 2.4512832164764404, 'learning_rate': 1.7335766423357666e-06, 'epoch': 0.12}
+{'loss': 2.2941, 'grad_norm': 2.758535623550415, 'learning_rate': 1.7518248175182485e-06, 'epoch': 0.12}
+{'eval_loss': 2.3837950229644775, 'eval_runtime': 36.9129, 'eval_samples_per_second': 27.091, 'eval_steps_per_second': 1.138, 'epoch': 0.12}
+{'loss': 2.3243, 'grad_norm': 3.0642340183258057, 'learning_rate': 1.77007299270073e-06, 'epoch': 0.12}
+{'loss': 2.3018, 'grad_norm': 2.8591346740722656, 'learning_rate': 1.788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.3535, 'grad_norm': 3.4537875652313232, 'learning_rate': 1.8065693430656936e-06, 'epoch': 0.12}
+{'loss': 2.2885, 'grad_norm': 2.427309274673462, 'learning_rate': 1.8248175182481753e-06, 'epoch': 0.12}
+{'loss': 2.2312, 'grad_norm': 3.87589168548584, 'learning_rate': 1.8430656934306571e-06, 'epoch': 0.13}
+{'loss': 2.2565, 'grad_norm': 2.833167314529419, 'learning_rate': 1.8613138686131388e-06, 'epoch': 0.13}
+{'loss': 2.2555, 'grad_norm': 3.1881866455078125, 'learning_rate': 1.8795620437956206e-06, 'epoch': 0.13}
+{'loss': 2.25, 'grad_norm': 2.531094551086426, 'learning_rate': 1.8978102189781023e-06, 'epoch': 0.13}
+{'loss': 2.2533, 'grad_norm': 2.865161418914795, 'learning_rate': 1.916058394160584e-06, 'epoch': 0.13}
+{'loss': 2.2679, 'grad_norm': 2.625645160675049, 'learning_rate': 1.934306569343066e-06, 'epoch': 0.13}
+{'eval_loss': 2.3434090614318848, 'eval_runtime': 37.0839, 'eval_samples_per_second': 26.966, 'eval_steps_per_second': 1.133, 'epoch': 0.13}
+{'loss': 2.17, 'grad_norm': 3.7083628177642822, 'learning_rate': 1.952554744525548e-06, 'epoch': 0.13}
+{'loss': 2.2228, 'grad_norm': 2.7827553749084473, 'learning_rate': 1.9708029197080293e-06, 'epoch': 0.13}
+{'loss': 2.2112, 'grad_norm': 3.553680419921875, 'learning_rate': 1.989051094890511e-06, 'epoch': 0.13}
+{'loss': 2.2178, 'grad_norm': 2.5528950691223145, 'learning_rate': 2.007299270072993e-06, 'epoch': 0.14}
+{'loss': 2.2694, 'grad_norm': 3.2710938453674316, 'learning_rate': 2.025547445255475e-06, 'epoch': 0.14}
+{'loss': 2.2046, 'grad_norm': 3.0480809211730957, 'learning_rate': 2.0437956204379563e-06, 'epoch': 0.14}
+{'loss': 2.2175, 'grad_norm': 2.5092124938964844, 'learning_rate': 2.062043795620438e-06, 'epoch': 0.14}
+{'loss': 2.205, 'grad_norm': 2.8840532302856445, 'learning_rate': 2.08029197080292e-06, 'epoch': 0.14}
+{'loss': 2.2614, 'grad_norm': 2.737955093383789, 'learning_rate': 2.0985401459854014e-06, 'epoch': 0.14}
+{'loss': 2.1636, 'grad_norm': 3.1381702423095703, 'learning_rate': 2.1167883211678833e-06, 'epoch': 0.14}
+{'eval_loss': 2.311958074569702, 'eval_runtime': 37.1344, 'eval_samples_per_second': 26.929, 'eval_steps_per_second': 1.131, 'epoch': 0.14}
+{'loss': 2.2203, 'grad_norm': 2.687152862548828, 'learning_rate': 2.135036496350365e-06, 'epoch': 0.14}
+{'loss': 2.2515, 'grad_norm': 2.971111536026001, 'learning_rate': 2.1532846715328466e-06, 'epoch': 0.14}
+{'loss': 2.1551, 'grad_norm': 3.1336281299591064, 'learning_rate': 2.171532846715329e-06, 'epoch': 0.15}
+{'loss': 2.1714, 'grad_norm': 2.6687278747558594, 'learning_rate': 2.1897810218978103e-06, 'epoch': 0.15}
+{'loss': 2.2141, 'grad_norm': 3.571277141571045, 'learning_rate': 2.208029197080292e-06, 'epoch': 0.15}
+{'loss': 2.1816, 'grad_norm': 2.6429405212402344, 'learning_rate': 2.226277372262774e-06, 'epoch': 0.15}
+{'loss': 2.1693, 'grad_norm': 3.824120283126831, 'learning_rate': 2.244525547445256e-06, 'epoch': 0.15}
+{'loss': 2.2146, 'grad_norm': 3.0339856147766113, 'learning_rate': 2.2627737226277373e-06, 'epoch': 0.15}
+{'loss': 2.2108, 'grad_norm': 3.3885395526885986, 'learning_rate': 2.281021897810219e-06, 'epoch': 0.15}
+{'loss': 2.1697, 'grad_norm': 3.108035087585449, 'learning_rate': 2.299270072992701e-06, 'epoch': 0.15}
+{'eval_loss': 2.2911388874053955, 'eval_runtime': 37.1917, 'eval_samples_per_second': 26.888, 'eval_steps_per_second': 1.129, 'epoch': 0.15}
+{'loss': 2.1562, 'grad_norm': 3.0966873168945312, 'learning_rate': 2.3175182481751825e-06, 'epoch': 0.15}
+{'loss': 2.166, 'grad_norm': 2.5972113609313965, 'learning_rate': 2.3357664233576643e-06, 'epoch': 0.16}
+{'loss': 2.1402, 'grad_norm': 3.031276226043701, 'learning_rate': 2.354014598540146e-06, 'epoch': 0.16}
+{'loss': 2.1671, 'grad_norm': 2.853633403778076, 'learning_rate': 2.3722627737226276e-06, 'epoch': 0.16}
+{'loss': 2.1801, 'grad_norm': 3.707199811935425, 'learning_rate': 2.39051094890511e-06, 'epoch': 0.16}
+{'loss': 2.1157, 'grad_norm': 3.106747627258301, 'learning_rate': 2.4087591240875918e-06, 'epoch': 0.16}
+{'loss': 2.1314, 'grad_norm': 2.863614320755005, 'learning_rate': 2.427007299270073e-06, 'epoch': 0.16}
+{'loss': 2.1378, 'grad_norm': 3.0352959632873535, 'learning_rate': 2.445255474452555e-06, 'epoch': 0.16}
+{'loss': 2.1985, 'grad_norm': 3.101146936416626, 'learning_rate': 2.463503649635037e-06, 'epoch': 0.16}
+{'loss': 2.0982, 'grad_norm': 2.923638343811035, 'learning_rate': 2.4817518248175183e-06, 'epoch': 0.16}
+{'eval_loss': 2.265890121459961, 'eval_runtime': 37.1154, 'eval_samples_per_second': 26.943, 'eval_steps_per_second': 1.132, 'epoch': 0.16}
+{'loss': 2.071, 'grad_norm': 3.429690361022949, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 2.1976, 'grad_norm': 2.803128480911255, 'learning_rate': 2.518248175182482e-06, 'epoch': 0.17}
+{'loss': 2.1014, 'grad_norm': 2.969264507293701, 'learning_rate': 2.5364963503649635e-06, 'epoch': 0.17}
+{'loss': 2.0907, 'grad_norm': 2.749788999557495, 'learning_rate': 2.5547445255474458e-06, 'epoch': 0.17}
+{'loss': 2.1504, 'grad_norm': 2.8180391788482666, 'learning_rate': 2.5729927007299272e-06, 'epoch': 0.17}
+{'loss': 2.1247, 'grad_norm': 2.956796407699585, 'learning_rate': 2.591240875912409e-06, 'epoch': 0.17}
+{'loss': 2.1235, 'grad_norm': 2.518430709838867, 'learning_rate': 2.6094890510948905e-06, 'epoch': 0.17}
+{'loss': 2.1458, 'grad_norm': 3.3999993801116943, 'learning_rate': 2.627737226277373e-06, 'epoch': 0.17}
+{'loss': 2.1712, 'grad_norm': 3.6163454055786133, 'learning_rate': 2.6459854014598542e-06, 'epoch': 0.17}
+{'loss': 2.1236, 'grad_norm': 2.844896078109741, 'learning_rate': 2.664233576642336e-06, 'epoch': 0.18}
+{'eval_loss': 2.247826099395752, 'eval_runtime': 37.1672, 'eval_samples_per_second': 26.905, 'eval_steps_per_second': 1.13, 'epoch': 0.18}
+{'loss': 2.0972, 'grad_norm': 3.897892713546753, 'learning_rate': 2.6824817518248175e-06, 'epoch': 0.18}
+{'loss': 2.135, 'grad_norm': 3.7879202365875244, 'learning_rate': 2.7007299270072994e-06, 'epoch': 0.18}
+{'loss': 2.1016, 'grad_norm': 2.4167919158935547, 'learning_rate': 2.718978102189781e-06, 'epoch': 0.18}
+{'loss': 2.17, 'grad_norm': 3.054913282394409, 'learning_rate': 2.737226277372263e-06, 'epoch': 0.18}
+{'loss': 2.1402, 'grad_norm': 2.6863350868225098, 'learning_rate': 2.755474452554745e-06, 'epoch': 0.18}
+{'loss': 2.0967, 'grad_norm': 3.4107234477996826, 'learning_rate': 2.7737226277372264e-06, 'epoch': 0.18}
+{'loss': 2.2011, 'grad_norm': 2.360496997833252, 'learning_rate': 2.7919708029197082e-06, 'epoch': 0.18}
+{'loss': 2.1396, 'grad_norm': 3.5195155143737793, 'learning_rate': 2.81021897810219e-06, 'epoch': 0.18}
+{'loss': 2.0842, 'grad_norm': 3.1431586742401123, 'learning_rate': 2.828467153284672e-06, 'epoch': 0.19}
+{'loss': 2.1278, 'grad_norm': 2.77384090423584, 'learning_rate': 2.8467153284671534e-06, 'epoch': 0.19}
+{'eval_loss': 2.2353579998016357, 'eval_runtime': 37.1635, 'eval_samples_per_second': 26.908, 'eval_steps_per_second': 1.13, 'epoch': 0.19}
+{'loss': 2.0448, 'grad_norm': 2.8373658657073975, 'learning_rate': 2.8649635036496353e-06, 'epoch': 0.19}
+{'loss': 2.086, 'grad_norm': 3.4246926307678223, 'learning_rate': 2.8832116788321167e-06, 'epoch': 0.19}
+{'loss': 2.0495, 'grad_norm': 3.76779842376709, 'learning_rate': 2.901459854014599e-06, 'epoch': 0.19}
+{'loss': 2.1436, 'grad_norm': 2.7396318912506104, 'learning_rate': 2.9197080291970804e-06, 'epoch': 0.19}
+{'loss': 2.1175, 'grad_norm': 2.7848520278930664, 'learning_rate': 2.9379562043795623e-06, 'epoch': 0.19}
+{'loss': 2.1036, 'grad_norm': 2.672060489654541, 'learning_rate': 2.956204379562044e-06, 'epoch': 0.19}
+{'loss': 2.1422, 'grad_norm': 3.0901851654052734, 'learning_rate': 2.9744525547445256e-06, 'epoch': 0.19}
+{'loss': 2.1018, 'grad_norm': 2.8616273403167725, 'learning_rate': 2.992700729927008e-06, 'epoch': 0.2}
+{'loss': 2.0624, 'grad_norm': 3.3321707248687744, 'learning_rate': 3.0109489051094893e-06, 'epoch': 0.2}
+{'loss': 2.0417, 'grad_norm': 3.1142725944519043, 'learning_rate': 3.029197080291971e-06, 'epoch': 0.2}
+{'eval_loss': 2.2239184379577637, 'eval_runtime': 37.1327, 'eval_samples_per_second': 26.93, 'eval_steps_per_second': 1.131, 'epoch': 0.2}
+{'loss': 2.1352, 'grad_norm': 2.9385526180267334, 'learning_rate': 3.0474452554744526e-06, 'epoch': 0.2}
+{'loss': 2.1138, 'grad_norm': 3.4400417804718018, 'learning_rate': 3.065693430656935e-06, 'epoch': 0.2}
+{'loss': 2.1048, 'grad_norm': 2.871488094329834, 'learning_rate': 3.0839416058394163e-06, 'epoch': 0.2}
+{'loss': 2.1185, 'grad_norm': 2.614055633544922, 'learning_rate': 3.102189781021898e-06, 'epoch': 0.2}
+{'loss': 2.1052, 'grad_norm': 3.247382640838623, 'learning_rate': 3.1204379562043796e-06, 'epoch': 0.2}
+{'loss': 2.0419, 'grad_norm': 2.6722798347473145, 'learning_rate': 3.1386861313868614e-06, 'epoch': 0.2}
+{'loss': 2.0283, 'grad_norm': 3.482536554336548, 'learning_rate': 3.156934306569343e-06, 'epoch': 0.2}
+{'loss': 2.1435, 'grad_norm': 2.8816161155700684, 'learning_rate': 3.175182481751825e-06, 'epoch': 0.21}
+{'loss': 2.0987, 'grad_norm': 3.5030934810638428, 'learning_rate': 3.193430656934307e-06, 'epoch': 0.21}
+{'loss': 2.0511, 'grad_norm': 2.4934983253479004, 'learning_rate': 3.2116788321167884e-06, 'epoch': 0.21}
+{'eval_loss': 2.2034926414489746, 'eval_runtime': 37.1051, 'eval_samples_per_second': 26.95, 'eval_steps_per_second': 1.132, 'epoch': 0.21}
+{'loss': 2.0801, 'grad_norm': 2.9186456203460693, 'learning_rate': 3.2299270072992707e-06, 'epoch': 0.21}
+{'loss': 2.0577, 'grad_norm': 2.7397220134735107, 'learning_rate': 3.248175182481752e-06, 'epoch': 0.21}
+{'loss': 1.9916, 'grad_norm': 2.7978568077087402, 'learning_rate': 3.266423357664234e-06, 'epoch': 0.21}
+{'loss': 2.0868, 'grad_norm': 2.6294498443603516, 'learning_rate': 3.2846715328467155e-06, 'epoch': 0.21}
+{'loss': 2.0626, 'grad_norm': 2.6224911212921143, 'learning_rate': 3.3029197080291973e-06, 'epoch': 0.21}
+{'loss': 2.0906, 'grad_norm': 2.7921297550201416, 'learning_rate': 3.3211678832116788e-06, 'epoch': 0.21}
+{'loss': 2.0625, 'grad_norm': 2.9427266120910645, 'learning_rate': 3.339416058394161e-06, 'epoch': 0.22}
+{'loss': 2.064, 'grad_norm': 2.5963096618652344, 'learning_rate': 3.3576642335766425e-06, 'epoch': 0.22}
+{'loss': 2.0615, 'grad_norm': 2.7042300701141357, 'learning_rate': 3.3759124087591243e-06, 'epoch': 0.22}
+{'loss': 2.0666, 'grad_norm': 2.6845407485961914, 'learning_rate': 3.3941605839416058e-06, 'epoch': 0.22}
+{'eval_loss': 2.193758726119995, 'eval_runtime': 37.1155, 'eval_samples_per_second': 26.943, 'eval_steps_per_second': 1.132, 'epoch': 0.22}
+{'loss': 2.0607, 'grad_norm': 2.6319382190704346, 'learning_rate': 3.412408759124088e-06, 'epoch': 0.22}
+{'loss': 2.0841, 'grad_norm': 2.993312120437622, 'learning_rate': 3.43065693430657e-06, 'epoch': 0.22}
+{'loss': 1.9966, 'grad_norm': 3.092479944229126, 'learning_rate': 3.4489051094890513e-06, 'epoch': 0.22}
+{'loss': 2.0652, 'grad_norm': 3.04301381111145, 'learning_rate': 3.467153284671533e-06, 'epoch': 0.22}
+{'loss': 2.0167, 'grad_norm': 2.7950596809387207, 'learning_rate': 3.4854014598540146e-06, 'epoch': 0.22}
+{'loss': 2.0511, 'grad_norm': 3.0609445571899414, 'learning_rate': 3.503649635036497e-06, 'epoch': 0.23}
+{'loss': 2.0507, 'grad_norm': 3.079122543334961, 'learning_rate': 3.5218978102189783e-06, 'epoch': 0.23}
+{'loss': 2.0657, 'grad_norm': 2.6499931812286377, 'learning_rate': 3.54014598540146e-06, 'epoch': 0.23}
+{'loss': 2.0959, 'grad_norm': 3.3667314052581787, 'learning_rate': 3.5583941605839416e-06, 'epoch': 0.23}
+{'loss': 2.128, 'grad_norm': 2.955397129058838, 'learning_rate': 3.576642335766424e-06, 'epoch': 0.23}
+{'eval_loss': 2.189744234085083, 'eval_runtime': 36.8022, 'eval_samples_per_second': 27.172, 'eval_steps_per_second': 1.141, 'epoch': 0.23}
+{'loss': 2.1244, 'grad_norm': 2.9283270835876465, 'learning_rate': 3.5948905109489054e-06, 'epoch': 0.23}
+{'loss': 1.9598, 'grad_norm': 3.3702054023742676, 'learning_rate': 3.6131386861313872e-06, 'epoch': 0.23}
+{'loss': 1.9655, 'grad_norm': 3.0767223834991455, 'learning_rate': 3.6313868613138687e-06, 'epoch': 0.23}
+{'loss': 2.0019, 'grad_norm': 2.8419556617736816, 'learning_rate': 3.6496350364963505e-06, 'epoch': 0.23}
+{'loss': 2.028, 'grad_norm': 2.9517970085144043, 'learning_rate': 3.667883211678833e-06, 'epoch': 0.24}
+{'loss': 1.9962, 'grad_norm': 3.122650384902954, 'learning_rate': 3.6861313868613142e-06, 'epoch': 0.24}
+{'loss': 1.994, 'grad_norm': 2.7380897998809814, 'learning_rate': 3.704379562043796e-06, 'epoch': 0.24}
+{'loss': 2.0991, 'grad_norm': 2.9314167499542236, 'learning_rate': 3.7226277372262775e-06, 'epoch': 0.24}
+{'loss': 2.0525, 'grad_norm': 2.9320032596588135, 'learning_rate': 3.7408759124087594e-06, 'epoch': 0.24}
+{'loss': 1.999, 'grad_norm': 2.8559162616729736, 'learning_rate': 3.7591240875912412e-06, 'epoch': 0.24}
+{'eval_loss': 2.168269634246826, 'eval_runtime': 37.0075, 'eval_samples_per_second': 27.022, 'eval_steps_per_second': 1.135, 'epoch': 0.24}
+{'loss': 2.0338, 'grad_norm': 2.692728281021118, 'learning_rate': 3.777372262773723e-06, 'epoch': 0.24}
+{'loss': 2.0188, 'grad_norm': 3.3898634910583496, 'learning_rate': 3.7956204379562045e-06, 'epoch': 0.24}
+{'loss': 2.0173, 'grad_norm': 4.22472620010376, 'learning_rate': 3.8138686131386864e-06, 'epoch': 0.24}
+{'loss': 2.0552, 'grad_norm': 4.254660129547119, 'learning_rate': 3.832116788321168e-06, 'epoch': 0.25}
+{'loss': 1.9933, 'grad_norm': 2.9048502445220947, 'learning_rate': 3.85036496350365e-06, 'epoch': 0.25}
+{'loss': 1.9841, 'grad_norm': 3.3615903854370117, 'learning_rate': 3.868613138686132e-06, 'epoch': 0.25}
+{'loss': 2.008, 'grad_norm': 3.673733711242676, 'learning_rate': 3.886861313868613e-06, 'epoch': 0.25}
+{'loss': 2.0353, 'grad_norm': 2.8139588832855225, 'learning_rate': 3.905109489051096e-06, 'epoch': 0.25}
+{'loss': 2.0665, 'grad_norm': 3.1198532581329346, 'learning_rate': 3.923357664233577e-06, 'epoch': 0.25}
+{'loss': 2.0086, 'grad_norm': 2.9415290355682373, 'learning_rate': 3.9416058394160585e-06, 'epoch': 0.25}
+{'eval_loss': 2.158285140991211, 'eval_runtime': 37.098, 'eval_samples_per_second': 26.956, 'eval_steps_per_second': 1.132, 'epoch': 0.25}
+{'loss': 2.0766, 'grad_norm': 2.797816514968872, 'learning_rate': 3.95985401459854e-06, 'epoch': 0.25}
+{'loss': 2.0902, 'grad_norm': 2.702988386154175, 'learning_rate': 3.978102189781022e-06, 'epoch': 0.25}
+{'loss': 1.9482, 'grad_norm': 2.6598644256591797, 'learning_rate': 3.996350364963504e-06, 'epoch': 0.26}
+{'loss': 2.0437, 'grad_norm': 2.961045026779175, 'learning_rate': 4.014598540145986e-06, 'epoch': 0.26}
+{'loss': 1.938, 'grad_norm': 2.663412094116211, 'learning_rate': 4.032846715328467e-06, 'epoch': 0.26}
+{'loss': 1.9949, 'grad_norm': 2.650676965713501, 'learning_rate': 4.05109489051095e-06, 'epoch': 0.26}
+{'loss': 2.0114, 'grad_norm': 3.020890951156616, 'learning_rate': 4.069343065693431e-06, 'epoch': 0.26}
+{'loss': 1.9733, 'grad_norm': 2.584810972213745, 'learning_rate': 4.0875912408759126e-06, 'epoch': 0.26}
+{'loss': 1.9983, 'grad_norm': 2.735201358795166, 'learning_rate': 4.105839416058395e-06, 'epoch': 0.26}
+{'loss': 2.0639, 'grad_norm': 2.4640519618988037, 'learning_rate': 4.124087591240876e-06, 'epoch': 0.26}
+{'eval_loss': 2.1486563682556152, 'eval_runtime': 37.1245, 'eval_samples_per_second': 26.936, 'eval_steps_per_second': 1.131, 'epoch': 0.26}
+{'loss': 1.985, 'grad_norm': 2.472024440765381, 'learning_rate': 4.1423357664233586e-06, 'epoch': 0.26}
+{'loss': 1.9904, 'grad_norm': 2.689582586288452, 'learning_rate': 4.16058394160584e-06, 'epoch': 0.27}
+{'loss': 2.0685, 'grad_norm': 3.031712293624878, 'learning_rate': 4.1788321167883214e-06, 'epoch': 0.27}
+{'loss': 1.9359, 'grad_norm': 2.758924722671509, 'learning_rate': 4.197080291970803e-06, 'epoch': 0.27}
+{'loss': 2.0103, 'grad_norm': 2.8976337909698486, 'learning_rate': 4.215328467153285e-06, 'epoch': 0.27}
+{'loss': 1.9749, 'grad_norm': 3.1584532260894775, 'learning_rate': 4.233576642335767e-06, 'epoch': 0.27}
+{'loss': 1.9712, 'grad_norm': 2.826107978820801, 'learning_rate': 4.251824817518249e-06, 'epoch': 0.27}
+{'loss': 1.9967, 'grad_norm': 2.8240978717803955, 'learning_rate': 4.27007299270073e-06, 'epoch': 0.27}
+{'loss': 1.9523, 'grad_norm': 2.875216484069824, 'learning_rate': 4.288321167883212e-06, 'epoch': 0.27}
+{'loss': 1.967, 'grad_norm': 2.85149884223938, 'learning_rate': 4.306569343065693e-06, 'epoch': 0.27}
+{'eval_loss': 2.1425344944000244, 'eval_runtime': 37.1683, 'eval_samples_per_second': 26.905, 'eval_steps_per_second': 1.13, 'epoch': 0.27}
+{'loss': 1.9345, 'grad_norm': 2.7668282985687256, 'learning_rate': 4.3248175182481755e-06, 'epoch': 0.28}
+{'loss': 1.994, 'grad_norm': 2.5530643463134766, 'learning_rate': 4.343065693430658e-06, 'epoch': 0.28}
+{'loss': 1.982, 'grad_norm': 2.8284707069396973, 'learning_rate': 4.361313868613139e-06, 'epoch': 0.28}
+{'loss': 1.9636, 'grad_norm': 3.2699639797210693, 'learning_rate': 4.379562043795621e-06, 'epoch': 0.28}
+{'loss': 2.0257, 'grad_norm': 3.0885937213897705, 'learning_rate': 4.397810218978102e-06, 'epoch': 0.28}
+{'loss': 1.9844, 'grad_norm': 2.753086805343628, 'learning_rate': 4.416058394160584e-06, 'epoch': 0.28}
+{'loss': 1.9733, 'grad_norm': 2.7163126468658447, 'learning_rate': 4.434306569343066e-06, 'epoch': 0.28}
+{'loss': 1.9609, 'grad_norm': 3.2078559398651123, 'learning_rate': 4.452554744525548e-06, 'epoch': 0.28}
+{'loss': 2.0062, 'grad_norm': 2.6238415241241455, 'learning_rate': 4.4708029197080295e-06, 'epoch': 0.28}
+{'loss': 2.004, 'grad_norm': 2.8016085624694824, 'learning_rate': 4.489051094890512e-06, 'epoch': 0.28}
+{'eval_loss': 2.1314096450805664, 'eval_runtime': 37.181, 'eval_samples_per_second': 26.895, 'eval_steps_per_second': 1.13, 'epoch': 0.28}
+{'loss': 2.0389, 'grad_norm': 3.6612119674682617, 'learning_rate': 4.507299270072993e-06, 'epoch': 0.29}
+{'loss': 1.9978, 'grad_norm': 3.0465657711029053, 'learning_rate': 4.525547445255475e-06, 'epoch': 0.29}
+{'loss': 1.9734, 'grad_norm': 2.766305685043335, 'learning_rate': 4.543795620437956e-06, 'epoch': 0.29}
+{'loss': 1.9313, 'grad_norm': 2.971726655960083, 'learning_rate': 4.562043795620438e-06, 'epoch': 0.29}
+{'loss': 2.031, 'grad_norm': 2.9012374877929688, 'learning_rate': 4.580291970802921e-06, 'epoch': 0.29}
+{'loss': 2.0319, 'grad_norm': 2.5543956756591797, 'learning_rate': 4.598540145985402e-06, 'epoch': 0.29}
+{'loss': 1.9949, 'grad_norm': 3.143434762954712, 'learning_rate': 4.6167883211678835e-06, 'epoch': 0.29}
+{'loss': 1.9567, 'grad_norm': 2.559908628463745, 'learning_rate': 4.635036496350365e-06, 'epoch': 0.29}
+{'loss': 1.9552, 'grad_norm': 3.090074062347412, 'learning_rate': 4.653284671532847e-06, 'epoch': 0.29}
+{'loss': 2.0083, 'grad_norm': 2.9278085231781006, 'learning_rate': 4.671532846715329e-06, 'epoch': 0.3}
+{'eval_loss': 2.120840072631836, 'eval_runtime': 37.2226, 'eval_samples_per_second': 26.865, 'eval_steps_per_second': 1.128, 'epoch': 0.3}
+{'loss': 1.9958, 'grad_norm': 3.458752155303955, 'learning_rate': 4.689781021897811e-06, 'epoch': 0.3}
+{'loss': 1.969, 'grad_norm': 3.8958938121795654, 'learning_rate': 4.708029197080292e-06, 'epoch': 0.3}
+{'loss': 2.0298, 'grad_norm': 2.8383052349090576, 'learning_rate': 4.726277372262774e-06, 'epoch': 0.3}
+{'loss': 1.9996, 'grad_norm': 4.117269039154053, 'learning_rate': 4.744525547445255e-06, 'epoch': 0.3}
+{'loss': 1.9275, 'grad_norm': 3.134629249572754, 'learning_rate': 4.7627737226277375e-06, 'epoch': 0.3}
+{'loss': 1.9821, 'grad_norm': 2.904829978942871, 'learning_rate': 4.78102189781022e-06, 'epoch': 0.3}
+{'loss': 1.9963, 'grad_norm': 3.429172992706299, 'learning_rate': 4.799270072992701e-06, 'epoch': 0.3}
+{'loss': 1.9388, 'grad_norm': 2.6045989990234375, 'learning_rate': 4.8175182481751835e-06, 'epoch': 0.3}
+{'loss': 1.9813, 'grad_norm': 3.114208459854126, 'learning_rate': 4.835766423357665e-06, 'epoch': 0.31}
+{'loss': 1.9761, 'grad_norm': 2.4997620582580566, 'learning_rate': 4.854014598540146e-06, 'epoch': 0.31}
+{'eval_loss': 2.1167938709259033, 'eval_runtime': 37.1676, 'eval_samples_per_second': 26.905, 'eval_steps_per_second': 1.13, 'epoch': 0.31}
+{'loss': 1.9097, 'grad_norm': 2.8907406330108643, 'learning_rate': 4.872262773722628e-06, 'epoch': 0.31}
+{'loss': 1.9296, 'grad_norm': 2.529203176498413, 'learning_rate': 4.89051094890511e-06, 'epoch': 0.31}
+{'loss': 1.9099, 'grad_norm': 2.6994636058807373, 'learning_rate': 4.9087591240875915e-06, 'epoch': 0.31}
+{'loss': 1.9545, 'grad_norm': 3.2694296836853027, 'learning_rate': 4.927007299270074e-06, 'epoch': 0.31}
+{'loss': 1.9679, 'grad_norm': 2.5501177310943604, 'learning_rate': 4.945255474452555e-06, 'epoch': 0.31}
+{'loss': 1.9237, 'grad_norm': 3.156254291534424, 'learning_rate': 4.963503649635037e-06, 'epoch': 0.31}
+{'loss': 2.0199, 'grad_norm': 2.8147518634796143, 'learning_rate': 4.981751824817518e-06, 'epoch': 0.31}
+{'loss': 2.0092, 'grad_norm': 2.8747735023498535, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'loss': 1.9589, 'grad_norm': 2.829530954360962, 'learning_rate': 4.997969130787978e-06, 'epoch': 0.32}
+{'loss': 1.9746, 'grad_norm': 2.843920946121216, 'learning_rate': 4.995938261575955e-06, 'epoch': 0.32}
+{'eval_loss': 2.099478244781494, 'eval_runtime': 37.2052, 'eval_samples_per_second': 26.878, 'eval_steps_per_second': 1.129, 'epoch': 0.32}
+{'loss': 1.8964, 'grad_norm': 2.5574231147766113, 'learning_rate': 4.993907392363932e-06, 'epoch': 0.32}
+{'loss': 1.9762, 'grad_norm': 2.888542890548706, 'learning_rate': 4.9918765231519095e-06, 'epoch': 0.32}
+{'loss': 1.9051, 'grad_norm': 2.7378697395324707, 'learning_rate': 4.989845653939887e-06, 'epoch': 0.32}
+{'loss': 1.9309, 'grad_norm': 3.1764118671417236, 'learning_rate': 4.987814784727864e-06, 'epoch': 0.32}
+{'loss': 1.9348, 'grad_norm': 3.3455569744110107, 'learning_rate': 4.985783915515841e-06, 'epoch': 0.32}
+{'loss': 1.9167, 'grad_norm': 2.8268158435821533, 'learning_rate': 4.983753046303819e-06, 'epoch': 0.32}
+{'loss': 1.9385, 'grad_norm': 2.625690460205078, 'learning_rate': 4.981722177091796e-06, 'epoch': 0.33}
+{'loss': 1.9129, 'grad_norm': 2.5886993408203125, 'learning_rate': 4.979691307879773e-06, 'epoch': 0.33}
+{'loss': 1.9424, 'grad_norm': 2.554054021835327, 'learning_rate': 4.9776604386677504e-06, 'epoch': 0.33}
+{'loss': 1.9453, 'grad_norm': 2.731053113937378, 'learning_rate': 4.975629569455728e-06, 'epoch': 0.33}
+{'eval_loss': 2.095012664794922, 'eval_runtime': 37.2385, 'eval_samples_per_second': 26.854, 'eval_steps_per_second': 1.128, 'epoch': 0.33}
+{'loss': 1.9849, 'grad_norm': 2.7957098484039307, 'learning_rate': 4.973598700243705e-06, 'epoch': 0.33}
+{'loss': 1.8948, 'grad_norm': 2.9258270263671875, 'learning_rate': 4.971567831031681e-06, 'epoch': 0.33}
+{'loss': 1.9141, 'grad_norm': 3.202796459197998, 'learning_rate': 4.9695369618196595e-06, 'epoch': 0.33}
+{'loss': 1.7926, 'grad_norm': 2.5909249782562256, 'learning_rate': 4.967506092607636e-06, 'epoch': 0.33}
+{'loss': 1.8774, 'grad_norm': 2.7584893703460693, 'learning_rate': 4.965475223395614e-06, 'epoch': 0.33}
+{'loss': 1.9049, 'grad_norm': 2.855374336242676, 'learning_rate': 4.9634443541835905e-06, 'epoch': 0.34}
+{'loss': 1.8887, 'grad_norm': 2.845473289489746, 'learning_rate': 4.961413484971569e-06, 'epoch': 0.34}
+{'loss': 1.9363, 'grad_norm': 2.7958481311798096, 'learning_rate': 4.959382615759545e-06, 'epoch': 0.34}
+{'loss': 1.916, 'grad_norm': 2.7589993476867676, 'learning_rate': 4.957351746547523e-06, 'epoch': 0.34}
+{'loss': 1.9018, 'grad_norm': 2.8347692489624023, 'learning_rate': 4.9553208773355e-06, 'epoch': 0.34}
+{'eval_loss': 2.0926122665405273, 'eval_runtime': 36.8827, 'eval_samples_per_second': 27.113, 'eval_steps_per_second': 1.139, 'epoch': 0.34}
+{'loss': 2.039, 'grad_norm': 2.9393861293792725, 'learning_rate': 4.953290008123478e-06, 'epoch': 0.34}
+{'loss': 1.923, 'grad_norm': 3.011475086212158, 'learning_rate': 4.951259138911454e-06, 'epoch': 0.34}
+{'loss': 1.8759, 'grad_norm': 2.689653158187866, 'learning_rate': 4.9492282696994315e-06, 'epoch': 0.34}
+{'loss': 1.9979, 'grad_norm': 2.696784257888794, 'learning_rate': 4.947197400487409e-06, 'epoch': 0.34}
+{'loss': 1.9241, 'grad_norm': 3.7033591270446777, 'learning_rate': 4.945166531275386e-06, 'epoch': 0.35}
+{'loss': 1.8909, 'grad_norm': 2.8621737957000732, 'learning_rate': 4.943135662063363e-06, 'epoch': 0.35}
+{'loss': 1.9197, 'grad_norm': 2.570342779159546, 'learning_rate': 4.9411047928513406e-06, 'epoch': 0.35}
+{'loss': 1.9666, 'grad_norm': 3.081667184829712, 'learning_rate': 4.939073923639318e-06, 'epoch': 0.35}
+{'loss': 1.9616, 'grad_norm': 2.598898410797119, 'learning_rate': 4.937043054427295e-06, 'epoch': 0.35}
+{'loss': 1.8894, 'grad_norm': 2.8304622173309326, 'learning_rate': 4.935012185215272e-06, 'epoch': 0.35}
+{'eval_loss': 2.0831871032714844, 'eval_runtime': 37.0685, 'eval_samples_per_second': 26.977, 'eval_steps_per_second': 1.133, 'epoch': 0.35}
+{'loss': 1.8689, 'grad_norm': 2.767806053161621, 'learning_rate': 4.93298131600325e-06, 'epoch': 0.35}
+{'loss': 1.9446, 'grad_norm': 2.7915256023406982, 'learning_rate': 4.930950446791227e-06, 'epoch': 0.35}
+{'loss': 1.9165, 'grad_norm': 2.5830628871917725, 'learning_rate': 4.928919577579204e-06, 'epoch': 0.35}
+{'loss': 1.937, 'grad_norm': 2.7124366760253906, 'learning_rate': 4.9268887083671815e-06, 'epoch': 0.36}
+{'loss': 1.9088, 'grad_norm': 2.853339910507202, 'learning_rate': 4.924857839155159e-06, 'epoch': 0.36}
+{'loss': 1.8973, 'grad_norm': 2.569329023361206, 'learning_rate': 4.922826969943136e-06, 'epoch': 0.36}
+{'loss': 1.9285, 'grad_norm': 2.7952170372009277, 'learning_rate': 4.920796100731113e-06, 'epoch': 0.36}
+{'loss': 1.8472, 'grad_norm': 2.518095016479492, 'learning_rate': 4.918765231519091e-06, 'epoch': 0.36}
+{'loss': 1.9084, 'grad_norm': 2.5369744300842285, 'learning_rate': 4.916734362307068e-06, 'epoch': 0.36}
+{'loss': 1.8692, 'grad_norm': 2.834768056869507, 'learning_rate': 4.914703493095045e-06, 'epoch': 0.36}
+{'eval_loss': 2.0748064517974854, 'eval_runtime': 37.1611, 'eval_samples_per_second': 26.91, 'eval_steps_per_second': 1.13, 'epoch': 0.36}
+{'loss': 1.8688, 'grad_norm': 2.496169090270996, 'learning_rate': 4.912672623883022e-06, 'epoch': 0.36}
+{'loss': 1.8616, 'grad_norm': 2.615295886993408, 'learning_rate': 4.910641754671e-06, 'epoch': 0.36}
+{'loss': 1.9066, 'grad_norm': 2.8769407272338867, 'learning_rate': 4.908610885458977e-06, 'epoch': 0.36}
+{'loss': 1.8801, 'grad_norm': 2.5247085094451904, 'learning_rate': 4.906580016246954e-06, 'epoch': 0.37}
+{'loss': 1.9397, 'grad_norm': 3.1026415824890137, 'learning_rate': 4.9045491470349315e-06, 'epoch': 0.37}
+{'loss': 1.917, 'grad_norm': 3.14855694770813, 'learning_rate': 4.902518277822909e-06, 'epoch': 0.37}
+{'loss': 1.9197, 'grad_norm': 2.33418345451355, 'learning_rate': 4.900487408610886e-06, 'epoch': 0.37}
+{'loss': 1.9312, 'grad_norm': 3.7271599769592285, 'learning_rate': 4.898456539398863e-06, 'epoch': 0.37}
+{'loss': 1.949, 'grad_norm': 3.115157127380371, 'learning_rate': 4.89642567018684e-06, 'epoch': 0.37}
+{'loss': 1.9971, 'grad_norm': 2.969817638397217, 'learning_rate': 4.894394800974818e-06, 'epoch': 0.37}
+{'eval_loss': 2.068490743637085, 'eval_runtime': 37.2019, 'eval_samples_per_second': 26.88, 'eval_steps_per_second': 1.129, 'epoch': 0.37}
+{'loss': 1.8629, 'grad_norm': 3.2445967197418213, 'learning_rate': 4.892363931762794e-06, 'epoch': 0.37}
+{'loss': 1.9455, 'grad_norm': 2.711249589920044, 'learning_rate': 4.8903330625507725e-06, 'epoch': 0.37}
+{'loss': 1.8738, 'grad_norm': 2.970963716506958, 'learning_rate': 4.888302193338749e-06, 'epoch': 0.38}
+{'loss': 1.8396, 'grad_norm': 2.625316858291626, 'learning_rate': 4.886271324126727e-06, 'epoch': 0.38}
+{'loss': 1.9576, 'grad_norm': 2.5299627780914307, 'learning_rate': 4.8842404549147034e-06, 'epoch': 0.38}
+{'loss': 1.9354, 'grad_norm': 2.6957638263702393, 'learning_rate': 4.8822095857026816e-06, 'epoch': 0.38}
+{'loss': 1.8891, 'grad_norm': 2.644958734512329, 'learning_rate': 4.880178716490658e-06, 'epoch': 0.38}
+{'loss': 1.8545, 'grad_norm': 2.7591962814331055, 'learning_rate': 4.878147847278636e-06, 'epoch': 0.38}
+{'loss': 1.8584, 'grad_norm': 2.7353060245513916, 'learning_rate': 4.8761169780666125e-06, 'epoch': 0.38}
+{'loss': 1.8294, 'grad_norm': 2.9095821380615234, 'learning_rate': 4.874086108854591e-06, 'epoch': 0.38}
+{'eval_loss': 2.0575802326202393, 'eval_runtime': 37.2237, 'eval_samples_per_second': 26.865, 'eval_steps_per_second': 1.128, 'epoch': 0.38}
+{'loss': 1.8584, 'grad_norm': 3.0609660148620605, 'learning_rate': 4.872055239642567e-06, 'epoch': 0.38}
+{'loss': 1.8226, 'grad_norm': 3.1720101833343506, 'learning_rate': 4.870024370430544e-06, 'epoch': 0.39}
+{'loss': 1.8816, 'grad_norm': 2.734989881515503, 'learning_rate': 4.867993501218522e-06, 'epoch': 0.39}
+{'loss': 1.9108, 'grad_norm': 2.7359373569488525, 'learning_rate': 4.865962632006499e-06, 'epoch': 0.39}
+{'loss': 1.8402, 'grad_norm': 3.5148444175720215, 'learning_rate': 4.863931762794476e-06, 'epoch': 0.39}
+{'loss': 1.8873, 'grad_norm': 2.5981862545013428, 'learning_rate': 4.8619008935824535e-06, 'epoch': 0.39}
+{'loss': 1.9222, 'grad_norm': 3.42146372795105, 'learning_rate': 4.859870024370431e-06, 'epoch': 0.39}
+{'loss': 1.9199, 'grad_norm': 2.795802354812622, 'learning_rate': 4.857839155158408e-06, 'epoch': 0.39}
+{'loss': 1.9374, 'grad_norm': 3.0176706314086914, 'learning_rate': 4.855808285946385e-06, 'epoch': 0.39}
+{'loss': 1.8891, 'grad_norm': 2.607785940170288, 'learning_rate': 4.8537774167343626e-06, 'epoch': 0.39}
+{'eval_loss': 2.0473363399505615, 'eval_runtime': 37.2406, 'eval_samples_per_second': 26.852, 'eval_steps_per_second': 1.128, 'epoch': 0.39}
+{'loss': 1.8772, 'grad_norm': 3.1632132530212402, 'learning_rate': 4.85174654752234e-06, 'epoch': 0.4}
+{'loss': 1.8952, 'grad_norm': 2.6246979236602783, 'learning_rate': 4.849715678310317e-06, 'epoch': 0.4}
+{'loss': 1.9017, 'grad_norm': 2.4879660606384277, 'learning_rate': 4.847684809098294e-06, 'epoch': 0.4}
+{'loss': 1.8788, 'grad_norm': 3.2623815536499023, 'learning_rate': 4.845653939886272e-06, 'epoch': 0.4}
+{'loss': 1.8912, 'grad_norm': 2.6892051696777344, 'learning_rate': 4.843623070674249e-06, 'epoch': 0.4}
+{'loss': 1.8763, 'grad_norm': 2.720777750015259, 'learning_rate': 4.841592201462226e-06, 'epoch': 0.4}
+{'loss': 1.9202, 'grad_norm': 2.4111084938049316, 'learning_rate': 4.8395613322502035e-06, 'epoch': 0.4}
+{'loss': 1.8335, 'grad_norm': 2.875309944152832, 'learning_rate': 4.837530463038181e-06, 'epoch': 0.4}
+{'loss': 1.8571, 'grad_norm': 2.7094228267669678, 'learning_rate': 4.835499593826158e-06, 'epoch': 0.4}
+{'loss': 1.9049, 'grad_norm': 2.55806565284729, 'learning_rate': 4.833468724614135e-06, 'epoch': 0.41}
+{'eval_loss': 2.0418052673339844, 'eval_runtime': 37.2181, 'eval_samples_per_second': 26.869, 'eval_steps_per_second': 1.128, 'epoch': 0.41}
+{'loss': 1.8717, 'grad_norm': 2.5894389152526855, 'learning_rate': 4.831437855402113e-06, 'epoch': 0.41}
+{'loss': 1.7785, 'grad_norm': 2.5270323753356934, 'learning_rate': 4.82940698619009e-06, 'epoch': 0.41}
+{'loss': 1.8603, 'grad_norm': 2.4306442737579346, 'learning_rate': 4.827376116978067e-06, 'epoch': 0.41}
+{'loss': 1.8907, 'grad_norm': 2.7987163066864014, 'learning_rate': 4.8253452477660444e-06, 'epoch': 0.41}
+{'loss': 1.8965, 'grad_norm': 2.455786943435669, 'learning_rate': 4.823314378554022e-06, 'epoch': 0.41}
+{'loss': 1.8986, 'grad_norm': 2.573777198791504, 'learning_rate': 4.821283509341998e-06, 'epoch': 0.41}
+{'loss': 1.8622, 'grad_norm': 2.6333072185516357, 'learning_rate': 4.819252640129976e-06, 'epoch': 0.41}
+{'loss': 1.8671, 'grad_norm': 2.5853562355041504, 'learning_rate': 4.817221770917953e-06, 'epoch': 0.41}
+{'loss': 1.8307, 'grad_norm': 2.583556890487671, 'learning_rate': 4.815190901705931e-06, 'epoch': 0.42}
+{'loss': 1.884, 'grad_norm': 2.544290542602539, 'learning_rate': 4.813160032493907e-06, 'epoch': 0.42}
+{'eval_loss': 2.0327165126800537, 'eval_runtime': 37.234, 'eval_samples_per_second': 26.857, 'eval_steps_per_second': 1.128, 'epoch': 0.42}
+{'loss': 1.842, 'grad_norm': 2.63576340675354, 'learning_rate': 4.811129163281885e-06, 'epoch': 0.42}
+{'loss': 1.8964, 'grad_norm': 2.5061604976654053, 'learning_rate': 4.809098294069862e-06, 'epoch': 0.42}
+{'loss': 1.8802, 'grad_norm': 2.737086534500122, 'learning_rate': 4.80706742485784e-06, 'epoch': 0.42}
+{'loss': 1.9279, 'grad_norm': 2.686113119125366, 'learning_rate': 4.805036555645816e-06, 'epoch': 0.42}
+{'loss': 1.8442, 'grad_norm': 2.530296802520752, 'learning_rate': 4.8030056864337945e-06, 'epoch': 0.42}
+{'loss': 1.9247, 'grad_norm': 2.854804277420044, 'learning_rate': 4.800974817221771e-06, 'epoch': 0.42}
+{'loss': 1.8614, 'grad_norm': 2.6104133129119873, 'learning_rate': 4.798943948009749e-06, 'epoch': 0.42}
+{'loss': 1.8743, 'grad_norm': 2.8105721473693848, 'learning_rate': 4.7969130787977254e-06, 'epoch': 0.43}
+{'loss': 1.8735, 'grad_norm': 2.4551901817321777, 'learning_rate': 4.794882209585703e-06, 'epoch': 0.43}
+{'loss': 1.8989, 'grad_norm': 2.4942400455474854, 'learning_rate': 4.79285134037368e-06, 'epoch': 0.43}
+{'eval_loss': 2.028289794921875, 'eval_runtime': 37.1679, 'eval_samples_per_second': 26.905, 'eval_steps_per_second': 1.13, 'epoch': 0.43}
+{'loss': 1.8479, 'grad_norm': 3.1998565196990967, 'learning_rate': 4.790820471161657e-06, 'epoch': 0.43}
+{'loss': 1.8474, 'grad_norm': 2.4295566082000732, 'learning_rate': 4.7887896019496345e-06, 'epoch': 0.43}
+{'loss': 1.848, 'grad_norm': 2.6794519424438477, 'learning_rate': 4.786758732737612e-06, 'epoch': 0.43}
+{'loss': 1.8989, 'grad_norm': 2.7655680179595947, 'learning_rate': 4.784727863525589e-06, 'epoch': 0.43}
+{'loss': 1.8028, 'grad_norm': 2.3869338035583496, 'learning_rate': 4.782696994313566e-06, 'epoch': 0.43}
+{'loss': 1.8631, 'grad_norm': 2.776850461959839, 'learning_rate': 4.780666125101544e-06, 'epoch': 0.43}
+{'loss': 1.804, 'grad_norm': 2.678173303604126, 'learning_rate': 4.778635255889521e-06, 'epoch': 0.44}
+{'loss': 1.8311, 'grad_norm': 2.5821075439453125, 'learning_rate': 4.776604386677498e-06, 'epoch': 0.44}
+{'loss': 1.8461, 'grad_norm': 2.8446664810180664, 'learning_rate': 4.7745735174654755e-06, 'epoch': 0.44}
+{'loss': 1.9053, 'grad_norm': 2.760930061340332, 'learning_rate': 4.772542648253453e-06, 'epoch': 0.44}
+{'eval_loss': 2.019589900970459, 'eval_runtime': 37.1584, 'eval_samples_per_second': 26.912, 'eval_steps_per_second': 1.13, 'epoch': 0.44}
+{'loss': 1.8893, 'grad_norm': 2.6788735389709473, 'learning_rate': 4.77051177904143e-06, 'epoch': 0.44}
+{'loss': 1.8156, 'grad_norm': 2.4157094955444336, 'learning_rate': 4.768480909829407e-06, 'epoch': 0.44}
+{'loss': 1.8701, 'grad_norm': 2.675287961959839, 'learning_rate': 4.766450040617385e-06, 'epoch': 0.44}
+{'loss': 1.8435, 'grad_norm': 2.470655918121338, 'learning_rate': 4.764419171405362e-06, 'epoch': 0.44}
+{'loss': 1.9061, 'grad_norm': 2.711153984069824, 'learning_rate': 4.762388302193339e-06, 'epoch': 0.44}
+{'loss': 1.867, 'grad_norm': 3.007571220397949, 'learning_rate': 4.760357432981316e-06, 'epoch': 0.44}
+{'loss': 1.8559, 'grad_norm': 2.5110905170440674, 'learning_rate': 4.758326563769294e-06, 'epoch': 0.45}
+{'loss': 1.8635, 'grad_norm': 2.5284948348999023, 'learning_rate': 4.756295694557271e-06, 'epoch': 0.45}
+{'loss': 1.8642, 'grad_norm': 2.6240103244781494, 'learning_rate': 4.754264825345248e-06, 'epoch': 0.45}
+{'loss': 1.8007, 'grad_norm': 2.4638724327087402, 'learning_rate': 4.7522339561332255e-06, 'epoch': 0.45}
+{'eval_loss': 2.017984628677368, 'eval_runtime': 36.7959, 'eval_samples_per_second': 27.177, 'eval_steps_per_second': 1.141, 'epoch': 0.45}
+{'loss': 1.8261, 'grad_norm': 2.5062263011932373, 'learning_rate': 4.750203086921203e-06, 'epoch': 0.45}
+{'loss': 1.772, 'grad_norm': 2.77105712890625, 'learning_rate': 4.74817221770918e-06, 'epoch': 0.45}
+{'loss': 1.8772, 'grad_norm': 2.376661539077759, 'learning_rate': 4.7461413484971565e-06, 'epoch': 0.45}
+{'loss': 1.9047, 'grad_norm': 2.664144277572632, 'learning_rate': 4.744110479285135e-06, 'epoch': 0.45}
+{'loss': 1.7809, 'grad_norm': 2.4807093143463135, 'learning_rate': 4.742079610073111e-06, 'epoch': 0.45}
+{'loss': 1.807, 'grad_norm': 2.4022881984710693, 'learning_rate': 4.740048740861089e-06, 'epoch': 0.46}
+{'loss': 1.8418, 'grad_norm': 2.475606679916382, 'learning_rate': 4.738017871649066e-06, 'epoch': 0.46}
+{'loss': 1.8537, 'grad_norm': 2.6839230060577393, 'learning_rate': 4.735987002437044e-06, 'epoch': 0.46}
+{'loss': 1.8906, 'grad_norm': 3.063843011856079, 'learning_rate': 4.73395613322502e-06, 'epoch': 0.46}
+{'loss': 1.9112, 'grad_norm': 2.7786505222320557, 'learning_rate': 4.731925264012998e-06, 'epoch': 0.46}
+{'eval_loss': 2.012242317199707, 'eval_runtime': 36.9477, 'eval_samples_per_second': 27.065, 'eval_steps_per_second': 1.137, 'epoch': 0.46}
+{'loss': 1.8901, 'grad_norm': 2.669280767440796, 'learning_rate': 4.729894394800975e-06, 'epoch': 0.46}
+{'loss': 1.8101, 'grad_norm': 2.86869478225708, 'learning_rate': 4.727863525588953e-06, 'epoch': 0.46}
+{'loss': 1.7711, 'grad_norm': 2.6715657711029053, 'learning_rate': 4.725832656376929e-06, 'epoch': 0.46}
+{'loss': 1.815, 'grad_norm': 2.894533395767212, 'learning_rate': 4.723801787164907e-06, 'epoch': 0.46}
+{'loss': 1.8788, 'grad_norm': 3.145872116088867, 'learning_rate': 4.721770917952885e-06, 'epoch': 0.47}
+{'loss': 1.8018, 'grad_norm': 2.6268310546875, 'learning_rate': 4.719740048740861e-06, 'epoch': 0.47}
+{'loss': 1.8431, 'grad_norm': 2.9428443908691406, 'learning_rate': 4.717709179528839e-06, 'epoch': 0.47}
+{'loss': 1.8719, 'grad_norm': 2.6178042888641357, 'learning_rate': 4.715678310316816e-06, 'epoch': 0.47}
+{'loss': 1.8506, 'grad_norm': 2.695261001586914, 'learning_rate': 4.713647441104794e-06, 'epoch': 0.47}
+{'loss': 1.8033, 'grad_norm': 2.529327630996704, 'learning_rate': 4.71161657189277e-06, 'epoch': 0.47}
+{'eval_loss': 2.0065560340881348, 'eval_runtime': 37.0073, 'eval_samples_per_second': 27.022, 'eval_steps_per_second': 1.135, 'epoch': 0.47}
+{'loss': 1.801, 'grad_norm': 2.7176175117492676, 'learning_rate': 4.709585702680748e-06, 'epoch': 0.47}
+{'loss': 1.8774, 'grad_norm': 2.439375638961792, 'learning_rate': 4.707554833468725e-06, 'epoch': 0.47}
+{'loss': 1.9315, 'grad_norm': 2.583240509033203, 'learning_rate': 4.705523964256703e-06, 'epoch': 0.47}
+{'loss': 1.8089, 'grad_norm': 2.486970901489258, 'learning_rate': 4.703493095044679e-06, 'epoch': 0.48}
+{'loss': 1.832, 'grad_norm': 2.729233503341675, 'learning_rate': 4.701462225832657e-06, 'epoch': 0.48}
+{'loss': 1.7688, 'grad_norm': 2.707348346710205, 'learning_rate': 4.699431356620634e-06, 'epoch': 0.48}
+{'loss': 1.9149, 'grad_norm': 2.61710786819458, 'learning_rate': 4.697400487408612e-06, 'epoch': 0.48}
+{'loss': 1.8606, 'grad_norm': 2.4853103160858154, 'learning_rate': 4.695369618196588e-06, 'epoch': 0.48}
+{'loss': 1.8466, 'grad_norm': 2.7008261680603027, 'learning_rate': 4.693338748984566e-06, 'epoch': 0.48}
+{'loss': 1.8176, 'grad_norm': 2.7126548290252686, 'learning_rate': 4.691307879772543e-06, 'epoch': 0.48}
+{'eval_loss': 1.9978634119033813, 'eval_runtime': 37.1045, 'eval_samples_per_second': 26.951, 'eval_steps_per_second': 1.132, 'epoch': 0.48}
+{'loss': 1.7871, 'grad_norm': 2.4356260299682617, 'learning_rate': 4.68927701056052e-06, 'epoch': 0.48}
+{'loss': 1.869, 'grad_norm': 2.533386468887329, 'learning_rate': 4.6872461413484975e-06, 'epoch': 0.48}
+{'loss': 1.8441, 'grad_norm': 2.406616687774658, 'learning_rate': 4.685215272136475e-06, 'epoch': 0.49}
+{'loss': 1.8378, 'grad_norm': 2.573341131210327, 'learning_rate': 4.683184402924452e-06, 'epoch': 0.49}
+{'loss': 1.8289, 'grad_norm': 2.38126540184021, 'learning_rate': 4.681153533712429e-06, 'epoch': 0.49}
+{'loss': 1.9087, 'grad_norm': 2.48789381980896, 'learning_rate': 4.679122664500407e-06, 'epoch': 0.49}
+{'loss': 1.8072, 'grad_norm': 2.701105833053589, 'learning_rate': 4.677091795288384e-06, 'epoch': 0.49}
+{'loss': 1.7734, 'grad_norm': 2.4330027103424072, 'learning_rate': 4.675060926076361e-06, 'epoch': 0.49}
+{'loss': 1.8826, 'grad_norm': 2.5766141414642334, 'learning_rate': 4.673030056864338e-06, 'epoch': 0.49}
+{'loss': 1.7688, 'grad_norm': 2.516427516937256, 'learning_rate': 4.670999187652316e-06, 'epoch': 0.49}
+{'eval_loss': 1.9994404315948486, 'eval_runtime': 37.1559, 'eval_samples_per_second': 26.914, 'eval_steps_per_second': 1.13, 'epoch': 0.49}
+{'loss': 1.7906, 'grad_norm': 2.5246028900146484, 'learning_rate': 4.668968318440293e-06, 'epoch': 0.49}
+{'loss': 1.7793, 'grad_norm': 2.5245795249938965, 'learning_rate': 4.66693744922827e-06, 'epoch': 0.5}
+{'loss': 1.8586, 'grad_norm': 2.537071466445923, 'learning_rate': 4.6649065800162475e-06, 'epoch': 0.5}
+{'loss': 1.7657, 'grad_norm': 2.709639072418213, 'learning_rate': 4.662875710804225e-06, 'epoch': 0.5}
+{'loss': 1.8319, 'grad_norm': 2.5277726650238037, 'learning_rate': 4.660844841592202e-06, 'epoch': 0.5}
+{'loss': 1.7612, 'grad_norm': 2.5228514671325684, 'learning_rate': 4.658813972380179e-06, 'epoch': 0.5}
+{'loss': 1.8727, 'grad_norm': 2.784677267074585, 'learning_rate': 4.656783103168157e-06, 'epoch': 0.5}
+{'loss': 1.7435, 'grad_norm': 2.570239305496216, 'learning_rate': 4.654752233956134e-06, 'epoch': 0.5}
+{'loss': 1.8351, 'grad_norm': 2.5987436771392822, 'learning_rate': 4.652721364744111e-06, 'epoch': 0.5}
+{'loss': 1.81, 'grad_norm': 2.610114097595215, 'learning_rate': 4.6506904955320885e-06, 'epoch': 0.5}
+{'eval_loss': 1.9993067979812622, 'eval_runtime': 37.1803, 'eval_samples_per_second': 26.896, 'eval_steps_per_second': 1.13, 'epoch': 0.5}
+{'loss': 1.8693, 'grad_norm': 2.751809597015381, 'learning_rate': 4.648659626320066e-06, 'epoch': 0.51}
+{'loss': 1.8593, 'grad_norm': 2.467066764831543, 'learning_rate': 4.646628757108043e-06, 'epoch': 0.51}
+{'loss': 1.8136, 'grad_norm': 2.4966063499450684, 'learning_rate': 4.6445978878960194e-06, 'epoch': 0.51}
+{'loss': 1.7826, 'grad_norm': 2.506410598754883, 'learning_rate': 4.6425670186839976e-06, 'epoch': 0.51}
+{'loss': 1.8173, 'grad_norm': 2.651237964630127, 'learning_rate': 4.640536149471974e-06, 'epoch': 0.51}
+{'loss': 1.849, 'grad_norm': 2.7836928367614746, 'learning_rate': 4.638505280259952e-06, 'epoch': 0.51}
+{'loss': 1.8577, 'grad_norm': 2.6783299446105957, 'learning_rate': 4.6364744110479285e-06, 'epoch': 0.51}
+{'loss': 1.8237, 'grad_norm': 2.4898788928985596, 'learning_rate': 4.634443541835907e-06, 'epoch': 0.51}
+{'loss': 1.8577, 'grad_norm': 2.74481201171875, 'learning_rate': 4.632412672623883e-06, 'epoch': 0.51}
+{'loss': 1.8211, 'grad_norm': 2.56190824508667, 'learning_rate': 4.630381803411861e-06, 'epoch': 0.52}
+{'eval_loss': 1.9867504835128784, 'eval_runtime': 37.1359, 'eval_samples_per_second': 26.928, 'eval_steps_per_second': 1.131, 'epoch': 0.52}
+{'loss': 1.6976, 'grad_norm': 2.485008478164673, 'learning_rate': 4.628350934199838e-06, 'epoch': 0.52}
+{'loss': 1.8071, 'grad_norm': 2.645906448364258, 'learning_rate': 4.626320064987816e-06, 'epoch': 0.52}
+{'loss': 1.8582, 'grad_norm': 2.457845687866211, 'learning_rate': 4.624289195775792e-06, 'epoch': 0.52}
+{'loss': 1.8103, 'grad_norm': 2.6392905712127686, 'learning_rate': 4.62225832656377e-06, 'epoch': 0.52}
+{'loss': 1.8021, 'grad_norm': 2.8293070793151855, 'learning_rate': 4.620227457351747e-06, 'epoch': 0.52}
+{'loss': 1.8064, 'grad_norm': 2.6029255390167236, 'learning_rate': 4.618196588139724e-06, 'epoch': 0.52}
+{'loss': 1.8176, 'grad_norm': 2.618307590484619, 'learning_rate': 4.616165718927701e-06, 'epoch': 0.52}
+{'loss': 1.7908, 'grad_norm': 2.7881240844726562, 'learning_rate': 4.6141348497156786e-06, 'epoch': 0.52}
+{'loss': 1.8788, 'grad_norm': 2.4347259998321533, 'learning_rate': 4.612103980503656e-06, 'epoch': 0.52}
+{'loss': 1.8469, 'grad_norm': 2.581630229949951, 'learning_rate': 4.610073111291633e-06, 'epoch': 0.53}
+{'eval_loss': 1.988048791885376, 'eval_runtime': 37.1521, 'eval_samples_per_second': 26.916, 'eval_steps_per_second': 1.13, 'epoch': 0.53}
+{'loss': 1.8168, 'grad_norm': 2.40920090675354, 'learning_rate': 4.60804224207961e-06, 'epoch': 0.53}
+{'loss': 1.8088, 'grad_norm': 2.4435620307922363, 'learning_rate': 4.606011372867588e-06, 'epoch': 0.53}
+{'loss': 1.8343, 'grad_norm': 2.460261106491089, 'learning_rate': 4.603980503655565e-06, 'epoch': 0.53}
+{'loss': 1.806, 'grad_norm': 2.472010850906372, 'learning_rate': 4.601949634443542e-06, 'epoch': 0.53}
+{'loss': 1.7372, 'grad_norm': 2.578524589538574, 'learning_rate': 4.5999187652315195e-06, 'epoch': 0.53}
+{'loss': 1.7519, 'grad_norm': 2.654944658279419, 'learning_rate': 4.597887896019497e-06, 'epoch': 0.53}
+{'loss': 1.8048, 'grad_norm': 2.6866676807403564, 'learning_rate': 4.595857026807474e-06, 'epoch': 0.53}
+{'loss': 1.8096, 'grad_norm': 2.708998918533325, 'learning_rate': 4.593826157595451e-06, 'epoch': 0.53}
+{'loss': 1.778, 'grad_norm': 2.841792345046997, 'learning_rate': 4.591795288383429e-06, 'epoch': 0.54}
+{'loss': 1.8524, 'grad_norm': 2.6368772983551025, 'learning_rate': 4.589764419171406e-06, 'epoch': 0.54}
+{'eval_loss': 1.9821399450302124, 'eval_runtime': 37.1274, 'eval_samples_per_second': 26.934, 'eval_steps_per_second': 1.131, 'epoch': 0.54}
+{'loss': 1.8284, 'grad_norm': 2.739165782928467, 'learning_rate': 4.587733549959383e-06, 'epoch': 0.54}
+{'loss': 1.7719, 'grad_norm': 2.428269147872925, 'learning_rate': 4.5857026807473604e-06, 'epoch': 0.54}
+{'loss': 1.7707, 'grad_norm': 2.379875659942627, 'learning_rate': 4.583671811535338e-06, 'epoch': 0.54}
+{'loss': 1.7442, 'grad_norm': 2.624039888381958, 'learning_rate': 4.581640942323315e-06, 'epoch': 0.54}
+{'loss': 1.8391, 'grad_norm': 2.6703460216522217, 'learning_rate': 4.579610073111292e-06, 'epoch': 0.54}
+{'loss': 1.8463, 'grad_norm': 2.724379062652588, 'learning_rate': 4.5775792038992695e-06, 'epoch': 0.54}
+{'loss': 1.8401, 'grad_norm': 2.375727415084839, 'learning_rate': 4.575548334687247e-06, 'epoch': 0.54}
+{'loss': 1.8636, 'grad_norm': 2.542696475982666, 'learning_rate': 4.573517465475224e-06, 'epoch': 0.55}
+{'loss': 1.7639, 'grad_norm': 2.5622928142547607, 'learning_rate': 4.571486596263201e-06, 'epoch': 0.55}
+{'loss': 1.8198, 'grad_norm': 2.5569279193878174, 'learning_rate': 4.569455727051178e-06, 'epoch': 0.55}
+{'eval_loss': 1.9778796434402466, 'eval_runtime': 37.1657, 'eval_samples_per_second': 26.906, 'eval_steps_per_second': 1.13, 'epoch': 0.55}
+{'loss': 1.8139, 'grad_norm': 2.6474053859710693, 'learning_rate': 4.567424857839156e-06, 'epoch': 0.55}
+{'loss': 1.8293, 'grad_norm': 2.636495590209961, 'learning_rate': 4.565393988627132e-06, 'epoch': 0.55}
+{'loss': 1.8475, 'grad_norm': 2.6525604724884033, 'learning_rate': 4.5633631194151105e-06, 'epoch': 0.55}
+{'loss': 1.7908, 'grad_norm': 2.700871229171753, 'learning_rate': 4.561332250203087e-06, 'epoch': 0.55}
+{'loss': 1.8141, 'grad_norm': 2.7101478576660156, 'learning_rate': 4.559301380991065e-06, 'epoch': 0.55}
+{'loss': 1.7579, 'grad_norm': 2.6825270652770996, 'learning_rate': 4.5572705117790414e-06, 'epoch': 0.55}
+{'loss': 1.7814, 'grad_norm': 2.5643324851989746, 'learning_rate': 4.5552396425670196e-06, 'epoch': 0.56}
+{'loss': 1.8451, 'grad_norm': 2.9949214458465576, 'learning_rate': 4.553208773354996e-06, 'epoch': 0.56}
+{'loss': 1.7665, 'grad_norm': 2.6214592456817627, 'learning_rate': 4.551177904142974e-06, 'epoch': 0.56}
+{'loss': 1.8566, 'grad_norm': 2.4616057872772217, 'learning_rate': 4.5491470349309505e-06, 'epoch': 0.56}
+{'eval_loss': 1.975143551826477, 'eval_runtime': 36.8303, 'eval_samples_per_second': 27.152, 'eval_steps_per_second': 1.14, 'epoch': 0.56}
+{'loss': 1.7764, 'grad_norm': 2.7507705688476562, 'learning_rate': 4.547116165718929e-06, 'epoch': 0.56}
+{'loss': 1.8143, 'grad_norm': 2.7398650646209717, 'learning_rate': 4.545085296506905e-06, 'epoch': 0.56}
+{'loss': 1.7684, 'grad_norm': 2.476698398590088, 'learning_rate': 4.543054427294882e-06, 'epoch': 0.56}
+{'loss': 1.7734, 'grad_norm': 2.440007209777832, 'learning_rate': 4.54102355808286e-06, 'epoch': 0.56}
+{'loss': 1.7694, 'grad_norm': 2.857173204421997, 'learning_rate': 4.538992688870837e-06, 'epoch': 0.56}
+{'loss': 1.7974, 'grad_norm': 2.4049761295318604, 'learning_rate': 4.536961819658814e-06, 'epoch': 0.57}
+{'loss': 1.793, 'grad_norm': 2.478177309036255, 'learning_rate': 4.5349309504467915e-06, 'epoch': 0.57}
+{'loss': 1.8157, 'grad_norm': 2.849869728088379, 'learning_rate': 4.532900081234769e-06, 'epoch': 0.57}
+{'loss': 1.7698, 'grad_norm': 2.495866537094116, 'learning_rate': 4.530869212022746e-06, 'epoch': 0.57}
+{'loss': 1.8023, 'grad_norm': 2.674063205718994, 'learning_rate': 4.528838342810723e-06, 'epoch': 0.57}
+{'eval_loss': 1.971044659614563, 'eval_runtime': 37.0575, 'eval_samples_per_second': 26.985, 'eval_steps_per_second': 1.133, 'epoch': 0.57}
+{'loss': 1.7905, 'grad_norm': 2.8688297271728516, 'learning_rate': 4.526807473598701e-06, 'epoch': 0.57}
+{'loss': 1.7955, 'grad_norm': 2.4092676639556885, 'learning_rate': 4.524776604386678e-06, 'epoch': 0.57}
+{'loss': 1.7912, 'grad_norm': 2.4861643314361572, 'learning_rate': 4.522745735174655e-06, 'epoch': 0.57}
+{'loss': 1.8499, 'grad_norm': 2.632859945297241, 'learning_rate': 4.520714865962632e-06, 'epoch': 0.57}
+{'loss': 1.7913, 'grad_norm': 2.6263527870178223, 'learning_rate': 4.51868399675061e-06, 'epoch': 0.58}
+{'loss': 1.8213, 'grad_norm': 2.4004664421081543, 'learning_rate': 4.516653127538587e-06, 'epoch': 0.58}
+{'loss': 1.7722, 'grad_norm': 2.467395067214966, 'learning_rate': 4.514622258326564e-06, 'epoch': 0.58}
+{'loss': 1.7589, 'grad_norm': 2.62382435798645, 'learning_rate': 4.5125913891145415e-06, 'epoch': 0.58}
+{'loss': 1.7847, 'grad_norm': 2.5330324172973633, 'learning_rate': 4.510560519902519e-06, 'epoch': 0.58}
+{'loss': 1.8447, 'grad_norm': 2.4729249477386475, 'learning_rate': 4.508529650690496e-06, 'epoch': 0.58}
+{'eval_loss': 1.9698253870010376, 'eval_runtime': 37.2137, 'eval_samples_per_second': 26.872, 'eval_steps_per_second': 1.129, 'epoch': 0.58}
+{'loss': 1.7383, 'grad_norm': 2.7225241661071777, 'learning_rate': 4.506498781478473e-06, 'epoch': 0.58}
+{'loss': 1.7323, 'grad_norm': 2.677614212036133, 'learning_rate': 4.504467912266451e-06, 'epoch': 0.58}
+{'loss': 1.8017, 'grad_norm': 2.3463661670684814, 'learning_rate': 4.502437043054428e-06, 'epoch': 0.58}
+{'loss': 1.8743, 'grad_norm': 2.403362512588501, 'learning_rate': 4.500406173842405e-06, 'epoch': 0.59}
+{'loss': 1.802, 'grad_norm': 2.609267234802246, 'learning_rate': 4.4983753046303824e-06, 'epoch': 0.59}
+{'loss': 1.7896, 'grad_norm': 2.394679307937622, 'learning_rate': 4.49634443541836e-06, 'epoch': 0.59}
+{'loss': 1.7716, 'grad_norm': 2.532957077026367, 'learning_rate': 4.494313566206336e-06, 'epoch': 0.59}
+{'loss': 1.8528, 'grad_norm': 2.659764289855957, 'learning_rate': 4.492282696994314e-06, 'epoch': 0.59}
+{'loss': 1.7947, 'grad_norm': 2.442457914352417, 'learning_rate': 4.490251827782291e-06, 'epoch': 0.59}
+{'loss': 1.7351, 'grad_norm': 2.443274736404419, 'learning_rate': 4.488220958570269e-06, 'epoch': 0.59}
+{'eval_loss': 1.9651908874511719, 'eval_runtime': 37.1745, 'eval_samples_per_second': 26.9, 'eval_steps_per_second': 1.13, 'epoch': 0.59}
+{'loss': 1.7653, 'grad_norm': 2.402625322341919, 'learning_rate': 4.486190089358245e-06, 'epoch': 0.59}
+{'loss': 1.7177, 'grad_norm': 2.4391021728515625, 'learning_rate': 4.484159220146223e-06, 'epoch': 0.59}
+{'loss': 1.8174, 'grad_norm': 2.587466239929199, 'learning_rate': 4.4821283509342e-06, 'epoch': 0.6}
+{'loss': 1.7943, 'grad_norm': 2.3635201454162598, 'learning_rate': 4.480097481722178e-06, 'epoch': 0.6}
+{'loss': 1.7927, 'grad_norm': 2.5390195846557617, 'learning_rate': 4.478066612510154e-06, 'epoch': 0.6}
+{'loss': 1.7499, 'grad_norm': 2.5881011486053467, 'learning_rate': 4.4760357432981325e-06, 'epoch': 0.6}
+{'loss': 1.7773, 'grad_norm': 2.4159603118896484, 'learning_rate': 4.474004874086109e-06, 'epoch': 0.6}
+{'loss': 1.9111, 'grad_norm': 2.908005475997925, 'learning_rate': 4.471974004874087e-06, 'epoch': 0.6}
+{'loss': 1.727, 'grad_norm': 2.4689557552337646, 'learning_rate': 4.4699431356620635e-06, 'epoch': 0.6}
+{'loss': 1.8425, 'grad_norm': 2.5731844902038574, 'learning_rate': 4.467912266450041e-06, 'epoch': 0.6}
+{'eval_loss': 1.9631503820419312, 'eval_runtime': 37.2189, 'eval_samples_per_second': 26.868, 'eval_steps_per_second': 1.128, 'epoch': 0.6}
+{'loss': 1.7985, 'grad_norm': 2.4711105823516846, 'learning_rate': 4.465881397238018e-06, 'epoch': 0.6}
+{'loss': 1.768, 'grad_norm': 2.5799551010131836, 'learning_rate': 4.463850528025995e-06, 'epoch': 0.6}
+{'loss': 1.8141, 'grad_norm': 2.5204827785491943, 'learning_rate': 4.4618196588139726e-06, 'epoch': 0.61}
+{'loss': 1.8273, 'grad_norm': 2.595759391784668, 'learning_rate': 4.45978878960195e-06, 'epoch': 0.61}
+{'loss': 1.8023, 'grad_norm': 2.5692834854125977, 'learning_rate': 4.457757920389927e-06, 'epoch': 0.61}
+{'loss': 1.7329, 'grad_norm': 2.402923345565796, 'learning_rate': 4.455727051177904e-06, 'epoch': 0.61}
+{'loss': 1.7722, 'grad_norm': 2.480069160461426, 'learning_rate': 4.453696181965882e-06, 'epoch': 0.61}
+{'loss': 1.8269, 'grad_norm': 2.685495138168335, 'learning_rate': 4.451665312753859e-06, 'epoch': 0.61}
+{'loss': 1.7996, 'grad_norm': 2.513362407684326, 'learning_rate': 4.449634443541836e-06, 'epoch': 0.61}
+{'loss': 1.8341, 'grad_norm': 2.535891532897949, 'learning_rate': 4.4476035743298135e-06, 'epoch': 0.61}
+{'eval_loss': 1.9630459547042847, 'eval_runtime': 37.1854, 'eval_samples_per_second': 26.892, 'eval_steps_per_second': 1.129, 'epoch': 0.61}
+{'loss': 1.7514, 'grad_norm': 2.440772771835327, 'learning_rate': 4.445572705117791e-06, 'epoch': 0.61}
+{'loss': 1.7599, 'grad_norm': 2.398111343383789, 'learning_rate': 4.443541835905768e-06, 'epoch': 0.62}
+{'loss': 1.8262, 'grad_norm': 2.5974881649017334, 'learning_rate': 4.441510966693745e-06, 'epoch': 0.62}
+{'loss': 1.7638, 'grad_norm': 2.5586795806884766, 'learning_rate': 4.439480097481723e-06, 'epoch': 0.62}
+{'loss': 1.8434, 'grad_norm': 2.5561492443084717, 'learning_rate': 4.4374492282697e-06, 'epoch': 0.62}
+{'loss': 1.702, 'grad_norm': 2.7550947666168213, 'learning_rate': 4.435418359057677e-06, 'epoch': 0.62}
+{'loss': 1.7973, 'grad_norm': 2.6542508602142334, 'learning_rate': 4.433387489845654e-06, 'epoch': 0.62}
+{'loss': 1.788, 'grad_norm': 2.592461585998535, 'learning_rate': 4.431356620633632e-06, 'epoch': 0.62}
+{'loss': 1.7536, 'grad_norm': 2.7114830017089844, 'learning_rate': 4.429325751421609e-06, 'epoch': 0.62}
+{'loss': 1.7875, 'grad_norm': 2.414747476577759, 'learning_rate': 4.427294882209586e-06, 'epoch': 0.62}
+{'eval_loss': 1.9587609767913818, 'eval_runtime': 37.2007, 'eval_samples_per_second': 26.881, 'eval_steps_per_second': 1.129, 'epoch': 0.62}
+{'loss': 1.771, 'grad_norm': 2.369011878967285, 'learning_rate': 4.4252640129975635e-06, 'epoch': 0.63}
+{'loss': 1.7064, 'grad_norm': 2.6837189197540283, 'learning_rate': 4.423233143785541e-06, 'epoch': 0.63}
+{'loss': 1.7772, 'grad_norm': 2.4707508087158203, 'learning_rate': 4.421202274573518e-06, 'epoch': 0.63}
+{'loss': 1.8008, 'grad_norm': 2.63283109664917, 'learning_rate': 4.4191714053614945e-06, 'epoch': 0.63}
+{'loss': 1.6774, 'grad_norm': 2.4014840126037598, 'learning_rate': 4.417140536149473e-06, 'epoch': 0.63}
+{'loss': 1.7338, 'grad_norm': 2.4078781604766846, 'learning_rate': 4.415109666937449e-06, 'epoch': 0.63}
+{'loss': 1.8084, 'grad_norm': 2.5279288291931152, 'learning_rate': 4.413078797725427e-06, 'epoch': 0.63}
+{'loss': 1.7504, 'grad_norm': 2.410296678543091, 'learning_rate': 4.411047928513404e-06, 'epoch': 0.63}
+{'loss': 1.7761, 'grad_norm': 2.397796630859375, 'learning_rate': 4.409017059301382e-06, 'epoch': 0.63}
+{'loss': 1.7741, 'grad_norm': 2.6257503032684326, 'learning_rate': 4.406986190089358e-06, 'epoch': 0.64}
+{'eval_loss': 1.9512827396392822, 'eval_runtime': 37.1932, 'eval_samples_per_second': 26.887, 'eval_steps_per_second': 1.129, 'epoch': 0.64}
+{'loss': 1.8043, 'grad_norm': 2.516399383544922, 'learning_rate': 4.404955320877336e-06, 'epoch': 0.64}
+{'loss': 1.8018, 'grad_norm': 2.4476537704467773, 'learning_rate': 4.402924451665313e-06, 'epoch': 0.64}
+{'loss': 1.7419, 'grad_norm': 2.3977835178375244, 'learning_rate': 4.400893582453291e-06, 'epoch': 0.64}
+{'loss': 1.7319, 'grad_norm': 2.4341602325439453, 'learning_rate': 4.398862713241267e-06, 'epoch': 0.64}
+{'loss': 1.7661, 'grad_norm': 2.611096143722534, 'learning_rate': 4.396831844029245e-06, 'epoch': 0.64}
+{'loss': 1.7834, 'grad_norm': 2.5748324394226074, 'learning_rate': 4.394800974817222e-06, 'epoch': 0.64}
+{'loss': 1.7718, 'grad_norm': 2.5776925086975098, 'learning_rate': 4.392770105605199e-06, 'epoch': 0.64}
+{'loss': 1.7803, 'grad_norm': 2.6215028762817383, 'learning_rate': 4.390739236393176e-06, 'epoch': 0.64}
+{'loss': 1.7986, 'grad_norm': 2.517838954925537, 'learning_rate': 4.388708367181154e-06, 'epoch': 0.65}
+{'loss': 1.7996, 'grad_norm': 2.981196165084839, 'learning_rate': 4.386677497969131e-06, 'epoch': 0.65}
+{'eval_loss': 1.9492793083190918, 'eval_runtime': 37.1837, 'eval_samples_per_second': 26.893, 'eval_steps_per_second': 1.13, 'epoch': 0.65}
+{'loss': 1.7935, 'grad_norm': 2.7888052463531494, 'learning_rate': 4.384646628757108e-06, 'epoch': 0.65}
+{'loss': 1.8281, 'grad_norm': 2.807997226715088, 'learning_rate': 4.3826157595450855e-06, 'epoch': 0.65}
+{'loss': 1.7655, 'grad_norm': 2.5797502994537354, 'learning_rate': 4.380584890333063e-06, 'epoch': 0.65}
+{'loss': 1.7329, 'grad_norm': 2.68839168548584, 'learning_rate': 4.37855402112104e-06, 'epoch': 0.65}
+{'loss': 1.6756, 'grad_norm': 2.6886773109436035, 'learning_rate': 4.376523151909017e-06, 'epoch': 0.65}
+{'loss': 1.8444, 'grad_norm': 3.0069046020507812, 'learning_rate': 4.3744922826969946e-06, 'epoch': 0.65}
+{'loss': 1.7632, 'grad_norm': 2.382343292236328, 'learning_rate': 4.372461413484972e-06, 'epoch': 0.65}
+{'loss': 1.779, 'grad_norm': 2.983272075653076, 'learning_rate': 4.370430544272949e-06, 'epoch': 0.66}
+{'loss': 1.7994, 'grad_norm': 2.544196844100952, 'learning_rate': 4.368399675060926e-06, 'epoch': 0.66}
+{'loss': 1.8101, 'grad_norm': 2.836195468902588, 'learning_rate': 4.366368805848904e-06, 'epoch': 0.66}
+{'eval_loss': 1.9479612112045288, 'eval_runtime': 37.2259, 'eval_samples_per_second': 26.863, 'eval_steps_per_second': 1.128, 'epoch': 0.66}
+{'loss': 1.7848, 'grad_norm': 2.6008102893829346, 'learning_rate': 4.364337936636881e-06, 'epoch': 0.66}
+{'loss': 1.7135, 'grad_norm': 2.630127429962158, 'learning_rate': 4.362307067424858e-06, 'epoch': 0.66}
+{'loss': 1.7897, 'grad_norm': 2.720945358276367, 'learning_rate': 4.3602761982128355e-06, 'epoch': 0.66}
+{'loss': 1.7434, 'grad_norm': 2.898836851119995, 'learning_rate': 4.358245329000813e-06, 'epoch': 0.66}
+{'loss': 1.7683, 'grad_norm': 2.6548235416412354, 'learning_rate': 4.35621445978879e-06, 'epoch': 0.66}
+{'loss': 1.7729, 'grad_norm': 2.7218399047851562, 'learning_rate': 4.354183590576767e-06, 'epoch': 0.66}
+{'loss': 1.7517, 'grad_norm': 2.5972483158111572, 'learning_rate': 4.352152721364745e-06, 'epoch': 0.67}
+{'loss': 1.7354, 'grad_norm': 2.6741726398468018, 'learning_rate': 4.350121852152722e-06, 'epoch': 0.67}
+{'loss': 1.7843, 'grad_norm': 2.898418426513672, 'learning_rate': 4.348090982940699e-06, 'epoch': 0.67}
+{'loss': 1.808, 'grad_norm': 2.3964333534240723, 'learning_rate': 4.3460601137286764e-06, 'epoch': 0.67}
+{'eval_loss': 1.9525212049484253, 'eval_runtime': 36.8297, 'eval_samples_per_second': 27.152, 'eval_steps_per_second': 1.14, 'epoch': 0.67}
+{'loss': 1.7856, 'grad_norm': 2.9952592849731445, 'learning_rate': 4.344029244516654e-06, 'epoch': 0.67}
+{'loss': 1.7613, 'grad_norm': 2.81740140914917, 'learning_rate': 4.341998375304631e-06, 'epoch': 0.67}
+{'loss': 1.8409, 'grad_norm': 2.6271541118621826, 'learning_rate': 4.339967506092607e-06, 'epoch': 0.67}
+{'loss': 1.7765, 'grad_norm': 2.540395498275757, 'learning_rate': 4.3379366368805855e-06, 'epoch': 0.67}
+{'loss': 1.7634, 'grad_norm': 2.629131317138672, 'learning_rate': 4.335905767668562e-06, 'epoch': 0.67}
+{'loss': 1.7414, 'grad_norm': 2.5796725749969482, 'learning_rate': 4.33387489845654e-06, 'epoch': 0.68}
+{'loss': 1.8048, 'grad_norm': 2.6980209350585938, 'learning_rate': 4.3318440292445165e-06, 'epoch': 0.68}
+{'loss': 1.7725, 'grad_norm': 2.658919095993042, 'learning_rate': 4.329813160032495e-06, 'epoch': 0.68}
+{'loss': 1.7559, 'grad_norm': 2.5237927436828613, 'learning_rate': 4.327782290820471e-06, 'epoch': 0.68}
+{'loss': 1.7129, 'grad_norm': 2.5822298526763916, 'learning_rate': 4.325751421608449e-06, 'epoch': 0.68}
+{'eval_loss': 1.9492865800857544, 'eval_runtime': 37.0012, 'eval_samples_per_second': 27.026, 'eval_steps_per_second': 1.135, 'epoch': 0.68}
+{'loss': 1.7895, 'grad_norm': 2.762810468673706, 'learning_rate': 4.323720552396426e-06, 'epoch': 0.68}
+{'loss': 1.7667, 'grad_norm': 2.48427414894104, 'learning_rate': 4.321689683184404e-06, 'epoch': 0.68}
+{'loss': 1.7548, 'grad_norm': 2.790052890777588, 'learning_rate': 4.31965881397238e-06, 'epoch': 0.68}
+{'loss': 1.7489, 'grad_norm': 2.927957773208618, 'learning_rate': 4.3176279447603574e-06, 'epoch': 0.68}
+{'loss': 1.7947, 'grad_norm': 2.4964418411254883, 'learning_rate': 4.315597075548335e-06, 'epoch': 0.68}
+{'loss': 1.7886, 'grad_norm': 2.4845147132873535, 'learning_rate': 4.313566206336312e-06, 'epoch': 0.69}
+{'loss': 1.7968, 'grad_norm': 2.687361717224121, 'learning_rate': 4.311535337124289e-06, 'epoch': 0.69}
+{'loss': 1.7332, 'grad_norm': 2.568202018737793, 'learning_rate': 4.3095044679122665e-06, 'epoch': 0.69}
+{'loss': 1.7583, 'grad_norm': 2.496429443359375, 'learning_rate': 4.307473598700244e-06, 'epoch': 0.69}
+{'loss': 1.779, 'grad_norm': 2.6063425540924072, 'learning_rate': 4.305442729488221e-06, 'epoch': 0.69}
+{'eval_loss': 1.9421359300613403, 'eval_runtime': 37.0712, 'eval_samples_per_second': 26.975, 'eval_steps_per_second': 1.133, 'epoch': 0.69}
+{'loss': 1.7133, 'grad_norm': 2.5371274948120117, 'learning_rate': 4.303411860276198e-06, 'epoch': 0.69}
+{'loss': 1.8089, 'grad_norm': 2.5601038932800293, 'learning_rate': 4.301380991064176e-06, 'epoch': 0.69}
+{'loss': 1.7983, 'grad_norm': 2.6244118213653564, 'learning_rate': 4.299350121852153e-06, 'epoch': 0.69}
+{'loss': 1.8221, 'grad_norm': 2.4798192977905273, 'learning_rate': 4.29731925264013e-06, 'epoch': 0.69}
+{'loss': 1.8032, 'grad_norm': 2.483376979827881, 'learning_rate': 4.2952883834281075e-06, 'epoch': 0.7}
+{'loss': 1.7583, 'grad_norm': 2.716745615005493, 'learning_rate': 4.293257514216085e-06, 'epoch': 0.7}
+{'loss': 1.7365, 'grad_norm': 2.6685945987701416, 'learning_rate': 4.291226645004062e-06, 'epoch': 0.7}
+{'loss': 1.7682, 'grad_norm': 2.465810537338257, 'learning_rate': 4.289195775792039e-06, 'epoch': 0.7}
+{'loss': 1.809, 'grad_norm': 2.7629129886627197, 'learning_rate': 4.287164906580017e-06, 'epoch': 0.7}
+{'loss': 1.7464, 'grad_norm': 2.5273563861846924, 'learning_rate': 4.285134037367994e-06, 'epoch': 0.7}
+{'eval_loss': 1.9359965324401855, 'eval_runtime': 37.1317, 'eval_samples_per_second': 26.931, 'eval_steps_per_second': 1.131, 'epoch': 0.7}
+{'loss': 1.7365, 'grad_norm': 2.514230966567993, 'learning_rate': 4.283103168155971e-06, 'epoch': 0.7}
+{'loss': 1.7268, 'grad_norm': 2.704042911529541, 'learning_rate': 4.281072298943948e-06, 'epoch': 0.7}
+{'loss': 1.7212, 'grad_norm': 2.4716262817382812, 'learning_rate': 4.279041429731926e-06, 'epoch': 0.7}
+{'loss': 1.7398, 'grad_norm': 2.5695507526397705, 'learning_rate': 4.277010560519903e-06, 'epoch': 0.71}
+{'loss': 1.7158, 'grad_norm': 2.762845039367676, 'learning_rate': 4.27497969130788e-06, 'epoch': 0.71}
+{'loss': 1.7685, 'grad_norm': 2.571054220199585, 'learning_rate': 4.2729488220958575e-06, 'epoch': 0.71}
+{'loss': 1.7865, 'grad_norm': 2.908184289932251, 'learning_rate': 4.270917952883835e-06, 'epoch': 0.71}
+{'loss': 1.7922, 'grad_norm': 2.705479621887207, 'learning_rate': 4.268887083671812e-06, 'epoch': 0.71}
+{'loss': 1.7312, 'grad_norm': 2.4418110847473145, 'learning_rate': 4.266856214459789e-06, 'epoch': 0.71}
+{'loss': 1.8343, 'grad_norm': 2.4619884490966797, 'learning_rate': 4.264825345247766e-06, 'epoch': 0.71}
+{'eval_loss': 1.9352803230285645, 'eval_runtime': 37.0958, 'eval_samples_per_second': 26.957, 'eval_steps_per_second': 1.132, 'epoch': 0.71}
+{'loss': 1.6902, 'grad_norm': 2.5386202335357666, 'learning_rate': 4.262794476035744e-06, 'epoch': 0.71}
+{'loss': 1.7552, 'grad_norm': 2.9012045860290527, 'learning_rate': 4.26076360682372e-06, 'epoch': 0.71}
+{'loss': 1.6872, 'grad_norm': 2.8028385639190674, 'learning_rate': 4.2587327376116984e-06, 'epoch': 0.72}
+{'loss': 1.75, 'grad_norm': 2.4505386352539062, 'learning_rate': 4.256701868399675e-06, 'epoch': 0.72}
+{'loss': 1.7612, 'grad_norm': 2.7551822662353516, 'learning_rate': 4.254670999187653e-06, 'epoch': 0.72}
+{'loss': 1.7694, 'grad_norm': 2.596270799636841, 'learning_rate': 4.252640129975629e-06, 'epoch': 0.72}
+{'loss': 1.7776, 'grad_norm': 2.387662172317505, 'learning_rate': 4.2506092607636075e-06, 'epoch': 0.72}
+{'loss': 1.7375, 'grad_norm': 2.7208738327026367, 'learning_rate': 4.248578391551584e-06, 'epoch': 0.72}
+{'loss': 1.6922, 'grad_norm': 2.5317776203155518, 'learning_rate': 4.246547522339562e-06, 'epoch': 0.72}
+{'loss': 1.741, 'grad_norm': 2.4803197383880615, 'learning_rate': 4.2445166531275385e-06, 'epoch': 0.72}
+{'eval_loss': 1.9322715997695923, 'eval_runtime': 37.0962, 'eval_samples_per_second': 26.957, 'eval_steps_per_second': 1.132, 'epoch': 0.72}
+{'loss': 1.7518, 'grad_norm': 2.5688276290893555, 'learning_rate': 4.242485783915517e-06, 'epoch': 0.72}
+{'loss': 1.6853, 'grad_norm': 2.4652810096740723, 'learning_rate': 4.240454914703493e-06, 'epoch': 0.73}
+{'loss': 1.6841, 'grad_norm': 2.541903257369995, 'learning_rate': 4.23842404549147e-06, 'epoch': 0.73}
+{'loss': 1.7312, 'grad_norm': 2.377857208251953, 'learning_rate': 4.236393176279448e-06, 'epoch': 0.73}
+{'loss': 1.6892, 'grad_norm': 2.418323040008545, 'learning_rate': 4.234362307067425e-06, 'epoch': 0.73}
+{'loss': 1.7719, 'grad_norm': 2.5374410152435303, 'learning_rate': 4.232331437855402e-06, 'epoch': 0.73}
+{'loss': 1.7819, 'grad_norm': 2.7119228839874268, 'learning_rate': 4.2303005686433795e-06, 'epoch': 0.73}
+{'loss': 1.7758, 'grad_norm': 2.5333240032196045, 'learning_rate': 4.228269699431357e-06, 'epoch': 0.73}
+{'loss': 1.75, 'grad_norm': 2.528696060180664, 'learning_rate': 4.226238830219334e-06, 'epoch': 0.73}
+{'loss': 1.7498, 'grad_norm': 2.539039134979248, 'learning_rate': 4.224207961007311e-06, 'epoch': 0.73}
+{'eval_loss': 1.934200644493103, 'eval_runtime': 37.098, 'eval_samples_per_second': 26.956, 'eval_steps_per_second': 1.132, 'epoch': 0.73}
+{'loss': 1.7615, 'grad_norm': 2.5384178161621094, 'learning_rate': 4.2221770917952886e-06, 'epoch': 0.74}
+{'loss': 1.7645, 'grad_norm': 2.601658821105957, 'learning_rate': 4.220146222583266e-06, 'epoch': 0.74}
+{'loss': 1.7549, 'grad_norm': 2.5359764099121094, 'learning_rate': 4.218115353371243e-06, 'epoch': 0.74}
+{'loss': 1.7487, 'grad_norm': 2.641118049621582, 'learning_rate': 4.21608448415922e-06, 'epoch': 0.74}
+{'loss': 1.7102, 'grad_norm': 2.4146382808685303, 'learning_rate': 4.214053614947198e-06, 'epoch': 0.74}
+{'loss': 1.7842, 'grad_norm': 2.4245245456695557, 'learning_rate': 4.212022745735175e-06, 'epoch': 0.74}
+{'loss': 1.6876, 'grad_norm': 2.509824752807617, 'learning_rate': 4.209991876523152e-06, 'epoch': 0.74}
+{'loss': 1.7681, 'grad_norm': 2.636444330215454, 'learning_rate': 4.2079610073111295e-06, 'epoch': 0.74}
+{'loss': 1.7049, 'grad_norm': 2.476858615875244, 'learning_rate': 4.205930138099107e-06, 'epoch': 0.74}
+{'loss': 1.7833, 'grad_norm': 2.75732159614563, 'learning_rate': 4.203899268887084e-06, 'epoch': 0.75}
+{'eval_loss': 1.931411623954773, 'eval_runtime': 37.0994, 'eval_samples_per_second': 26.955, 'eval_steps_per_second': 1.132, 'epoch': 0.75}
+{'loss': 1.7751, 'grad_norm': 2.5437941551208496, 'learning_rate': 4.201868399675061e-06, 'epoch': 0.75}
+{'loss': 1.7715, 'grad_norm': 2.5010673999786377, 'learning_rate': 4.199837530463039e-06, 'epoch': 0.75}
+{'loss': 1.6798, 'grad_norm': 2.6352853775024414, 'learning_rate': 4.197806661251016e-06, 'epoch': 0.75}
+{'loss': 1.7575, 'grad_norm': 2.588247776031494, 'learning_rate': 4.195775792038993e-06, 'epoch': 0.75}
+{'loss': 1.7245, 'grad_norm': 2.349921226501465, 'learning_rate': 4.19374492282697e-06, 'epoch': 0.75}
+{'loss': 1.6778, 'grad_norm': 2.394432783126831, 'learning_rate': 4.191714053614948e-06, 'epoch': 0.75}
+{'loss': 1.7701, 'grad_norm': 2.883906602859497, 'learning_rate': 4.189683184402924e-06, 'epoch': 0.75}
+{'loss': 1.7286, 'grad_norm': 2.537799596786499, 'learning_rate': 4.187652315190902e-06, 'epoch': 0.75}
+{'loss': 1.7812, 'grad_norm': 2.575700283050537, 'learning_rate': 4.185621445978879e-06, 'epoch': 0.76}
+{'loss': 1.7176, 'grad_norm': 2.592252492904663, 'learning_rate': 4.183590576766857e-06, 'epoch': 0.76}
+{'eval_loss': 1.9259952306747437, 'eval_runtime': 37.144, 'eval_samples_per_second': 26.922, 'eval_steps_per_second': 1.131, 'epoch': 0.76}
+{'loss': 1.7564, 'grad_norm': 2.511845111846924, 'learning_rate': 4.181559707554833e-06, 'epoch': 0.76}
+{'loss': 1.7943, 'grad_norm': 2.575446367263794, 'learning_rate': 4.179528838342811e-06, 'epoch': 0.76}
+{'loss': 1.7098, 'grad_norm': 2.379391670227051, 'learning_rate': 4.177497969130788e-06, 'epoch': 0.76}
+{'loss': 1.7292, 'grad_norm': 2.701812982559204, 'learning_rate': 4.175467099918766e-06, 'epoch': 0.76}
+{'loss': 1.7963, 'grad_norm': 2.486640453338623, 'learning_rate': 4.173436230706742e-06, 'epoch': 0.76}
+{'loss': 1.7153, 'grad_norm': 2.561983823776245, 'learning_rate': 4.1714053614947205e-06, 'epoch': 0.76}
+{'loss': 1.7412, 'grad_norm': 2.5709176063537598, 'learning_rate': 4.169374492282697e-06, 'epoch': 0.76}
+{'loss': 1.7188, 'grad_norm': 2.3308839797973633, 'learning_rate': 4.167343623070675e-06, 'epoch': 0.76}
+{'loss': 1.7599, 'grad_norm': 2.592470169067383, 'learning_rate': 4.165312753858652e-06, 'epoch': 0.77}
+{'loss': 1.7361, 'grad_norm': 2.3747010231018066, 'learning_rate': 4.163281884646629e-06, 'epoch': 0.77}
+{'eval_loss': 1.9229093790054321, 'eval_runtime': 37.1417, 'eval_samples_per_second': 26.924, 'eval_steps_per_second': 1.131, 'epoch': 0.77}
+{'loss': 1.7256, 'grad_norm': 2.4062509536743164, 'learning_rate': 4.161251015434607e-06, 'epoch': 0.77}
+{'loss': 1.7622, 'grad_norm': 2.4951181411743164, 'learning_rate': 4.159220146222583e-06, 'epoch': 0.77}
+{'loss': 1.6969, 'grad_norm': 2.3453004360198975, 'learning_rate': 4.157189277010561e-06, 'epoch': 0.77}
+{'loss': 1.7109, 'grad_norm': 2.382671594619751, 'learning_rate': 4.155158407798538e-06, 'epoch': 0.77}
+{'loss': 1.7471, 'grad_norm': 2.4277336597442627, 'learning_rate': 4.153127538586516e-06, 'epoch': 0.77}
+{'loss': 1.7483, 'grad_norm': 2.4476678371429443, 'learning_rate': 4.151096669374492e-06, 'epoch': 0.77}
+{'loss': 1.7366, 'grad_norm': 2.451099395751953, 'learning_rate': 4.1490658001624705e-06, 'epoch': 0.77}
+{'loss': 1.7282, 'grad_norm': 2.618217706680298, 'learning_rate': 4.147034930950447e-06, 'epoch': 0.78}
+{'loss': 1.7409, 'grad_norm': 2.414400100708008, 'learning_rate': 4.145004061738425e-06, 'epoch': 0.78}
+{'loss': 1.7346, 'grad_norm': 2.535353422164917, 'learning_rate': 4.1429731925264015e-06, 'epoch': 0.78}
+{'eval_loss': 1.9240931272506714, 'eval_runtime': 36.844, 'eval_samples_per_second': 27.141, 'eval_steps_per_second': 1.14, 'epoch': 0.78}
+{'loss': 1.6668, 'grad_norm': 2.5075416564941406, 'learning_rate': 4.140942323314379e-06, 'epoch': 0.78}
+{'loss': 1.696, 'grad_norm': 2.4136979579925537, 'learning_rate': 4.138911454102356e-06, 'epoch': 0.78}
+{'loss': 1.7174, 'grad_norm': 2.4363577365875244, 'learning_rate': 4.136880584890333e-06, 'epoch': 0.78}
+{'loss': 1.7621, 'grad_norm': 2.4578073024749756, 'learning_rate': 4.1348497156783106e-06, 'epoch': 0.78}
+{'loss': 1.7443, 'grad_norm': 2.370976686477661, 'learning_rate': 4.132818846466288e-06, 'epoch': 0.78}
+{'loss': 1.7399, 'grad_norm': 2.363755702972412, 'learning_rate': 4.130787977254265e-06, 'epoch': 0.78}
+{'loss': 1.7481, 'grad_norm': 2.44704532623291, 'learning_rate': 4.128757108042242e-06, 'epoch': 0.79}
+{'loss': 1.7646, 'grad_norm': 2.5463340282440186, 'learning_rate': 4.12672623883022e-06, 'epoch': 0.79}
+{'loss': 1.8108, 'grad_norm': 2.7088072299957275, 'learning_rate': 4.124695369618197e-06, 'epoch': 0.79}
+{'loss': 1.7311, 'grad_norm': 2.463271141052246, 'learning_rate': 4.122664500406174e-06, 'epoch': 0.79}
+{'eval_loss': 1.918715238571167, 'eval_runtime': 37.0468, 'eval_samples_per_second': 26.993, 'eval_steps_per_second': 1.134, 'epoch': 0.79}
+{'loss': 1.7295, 'grad_norm': 2.6165266036987305, 'learning_rate': 4.1206336311941515e-06, 'epoch': 0.79}
+{'loss': 1.7512, 'grad_norm': 2.3432133197784424, 'learning_rate': 4.118602761982129e-06, 'epoch': 0.79}
+{'loss': 1.6976, 'grad_norm': 2.552751302719116, 'learning_rate': 4.116571892770106e-06, 'epoch': 0.79}
+{'loss': 1.6708, 'grad_norm': 2.7586560249328613, 'learning_rate': 4.114541023558083e-06, 'epoch': 0.79}
+{'loss': 1.7824, 'grad_norm': 2.5326449871063232, 'learning_rate': 4.112510154346061e-06, 'epoch': 0.79}
+{'loss': 1.7093, 'grad_norm': 2.7658956050872803, 'learning_rate': 4.110479285134038e-06, 'epoch': 0.8}
+{'loss': 1.7475, 'grad_norm': 2.6868369579315186, 'learning_rate': 4.108448415922015e-06, 'epoch': 0.8}
+{'loss': 1.7714, 'grad_norm': 2.543748140335083, 'learning_rate': 4.1064175467099924e-06, 'epoch': 0.8}
+{'loss': 1.7593, 'grad_norm': 2.7235589027404785, 'learning_rate': 4.10438667749797e-06, 'epoch': 0.8}
+{'loss': 1.6296, 'grad_norm': 2.697038173675537, 'learning_rate': 4.102355808285947e-06, 'epoch': 0.8}
+{'eval_loss': 1.91779363155365, 'eval_runtime': 37.1168, 'eval_samples_per_second': 26.942, 'eval_steps_per_second': 1.132, 'epoch': 0.8}
+{'loss': 1.7971, 'grad_norm': 2.6746180057525635, 'learning_rate': 4.100324939073924e-06, 'epoch': 0.8}
+{'loss': 1.7212, 'grad_norm': 2.6281094551086426, 'learning_rate': 4.0982940698619015e-06, 'epoch': 0.8}
+{'loss': 1.7324, 'grad_norm': 2.446025848388672, 'learning_rate': 4.096263200649879e-06, 'epoch': 0.8}
+{'loss': 1.7435, 'grad_norm': 2.5460824966430664, 'learning_rate': 4.094232331437856e-06, 'epoch': 0.8}
+{'loss': 1.6979, 'grad_norm': 2.5419771671295166, 'learning_rate': 4.092201462225833e-06, 'epoch': 0.81}
+{'loss': 1.7042, 'grad_norm': 2.5545520782470703, 'learning_rate': 4.090170593013811e-06, 'epoch': 0.81}
+{'loss': 1.7313, 'grad_norm': 2.8353254795074463, 'learning_rate': 4.088139723801787e-06, 'epoch': 0.81}
+{'loss': 1.6901, 'grad_norm': 2.6521668434143066, 'learning_rate': 4.086108854589765e-06, 'epoch': 0.81}
+{'loss': 1.7064, 'grad_norm': 2.6611177921295166, 'learning_rate': 4.084077985377742e-06, 'epoch': 0.81}
+{'loss': 1.729, 'grad_norm': 2.411482572555542, 'learning_rate': 4.08204711616572e-06, 'epoch': 0.81}
+{'eval_loss': 1.9176616668701172, 'eval_runtime': 37.1603, 'eval_samples_per_second': 26.91, 'eval_steps_per_second': 1.13, 'epoch': 0.81}
+{'loss': 1.7707, 'grad_norm': 2.689110279083252, 'learning_rate': 4.080016246953696e-06, 'epoch': 0.81}
+{'loss': 1.6724, 'grad_norm': 2.544018268585205, 'learning_rate': 4.077985377741674e-06, 'epoch': 0.81}
+{'loss': 1.7677, 'grad_norm': 2.55307936668396, 'learning_rate': 4.075954508529651e-06, 'epoch': 0.81}
+{'loss': 1.7729, 'grad_norm': 2.3896875381469727, 'learning_rate': 4.073923639317629e-06, 'epoch': 0.82}
+{'loss': 1.7737, 'grad_norm': 2.381887197494507, 'learning_rate': 4.071892770105605e-06, 'epoch': 0.82}
+{'loss': 1.6928, 'grad_norm': 2.4873931407928467, 'learning_rate': 4.069861900893583e-06, 'epoch': 0.82}
+{'loss': 1.6674, 'grad_norm': 2.4908432960510254, 'learning_rate': 4.06783103168156e-06, 'epoch': 0.82}
+{'loss': 1.6947, 'grad_norm': 2.4346399307250977, 'learning_rate': 4.065800162469538e-06, 'epoch': 0.82}
+{'loss': 1.701, 'grad_norm': 2.6459081172943115, 'learning_rate': 4.063769293257514e-06, 'epoch': 0.82}
+{'loss': 1.7425, 'grad_norm': 2.6092610359191895, 'learning_rate': 4.061738424045492e-06, 'epoch': 0.82}
+{'eval_loss': 1.919799566268921, 'eval_runtime': 37.1632, 'eval_samples_per_second': 26.908, 'eval_steps_per_second': 1.13, 'epoch': 0.82}
+{'loss': 1.7267, 'grad_norm': 2.4443421363830566, 'learning_rate': 4.059707554833469e-06, 'epoch': 0.82}
+{'loss': 1.7412, 'grad_norm': 2.8252694606781006, 'learning_rate': 4.057676685621446e-06, 'epoch': 0.82}
+{'loss': 1.7916, 'grad_norm': 2.3391194343566895, 'learning_rate': 4.0556458164094235e-06, 'epoch': 0.83}
+{'loss': 1.7438, 'grad_norm': 2.57979679107666, 'learning_rate': 4.053614947197401e-06, 'epoch': 0.83}
+{'loss': 1.6606, 'grad_norm': 2.398383855819702, 'learning_rate': 4.051584077985378e-06, 'epoch': 0.83}
+{'loss': 1.736, 'grad_norm': 2.394498348236084, 'learning_rate': 4.049553208773355e-06, 'epoch': 0.83}
+{'loss': 1.7559, 'grad_norm': 2.5070464611053467, 'learning_rate': 4.047522339561333e-06, 'epoch': 0.83}
+{'loss': 1.7133, 'grad_norm': 2.439722776412964, 'learning_rate': 4.04549147034931e-06, 'epoch': 0.83}
+{'loss': 1.7123, 'grad_norm': 2.569152593612671, 'learning_rate': 4.043460601137287e-06, 'epoch': 0.83}
+{'loss': 1.8267, 'grad_norm': 2.637657642364502, 'learning_rate': 4.041429731925264e-06, 'epoch': 0.83}
+{'eval_loss': 1.9148659706115723, 'eval_runtime': 37.2248, 'eval_samples_per_second': 26.864, 'eval_steps_per_second': 1.128, 'epoch': 0.83}
+{'loss': 1.7106, 'grad_norm': 2.441269636154175, 'learning_rate': 4.039398862713242e-06, 'epoch': 0.83}
+{'loss': 1.7167, 'grad_norm': 2.582172155380249, 'learning_rate': 4.037367993501219e-06, 'epoch': 0.84}
+{'loss': 1.8031, 'grad_norm': 2.5083518028259277, 'learning_rate': 4.035337124289196e-06, 'epoch': 0.84}
+{'loss': 1.694, 'grad_norm': 2.504112958908081, 'learning_rate': 4.0333062550771735e-06, 'epoch': 0.84}
+{'loss': 1.6798, 'grad_norm': 2.5068695545196533, 'learning_rate': 4.031275385865151e-06, 'epoch': 0.84}
+{'loss': 1.7346, 'grad_norm': 2.600541114807129, 'learning_rate': 4.029244516653128e-06, 'epoch': 0.84}
+{'loss': 1.7507, 'grad_norm': 2.503020763397217, 'learning_rate': 4.027213647441105e-06, 'epoch': 0.84}
+{'loss': 1.6737, 'grad_norm': 2.7774016857147217, 'learning_rate': 4.025182778229083e-06, 'epoch': 0.84}
+{'loss': 1.6943, 'grad_norm': 2.5771589279174805, 'learning_rate': 4.02315190901706e-06, 'epoch': 0.84}
+{'loss': 1.7142, 'grad_norm': 2.3841609954833984, 'learning_rate': 4.021121039805037e-06, 'epoch': 0.84}
+{'eval_loss': 1.9146945476531982, 'eval_runtime': 37.1701, 'eval_samples_per_second': 26.903, 'eval_steps_per_second': 1.13, 'epoch': 0.84}
+{'loss': 1.7192, 'grad_norm': 2.466207981109619, 'learning_rate': 4.0190901705930144e-06, 'epoch': 0.84}
+{'loss': 1.8082, 'grad_norm': 2.72037935256958, 'learning_rate': 4.017059301380992e-06, 'epoch': 0.85}
+{'loss': 1.6964, 'grad_norm': 2.36811900138855, 'learning_rate': 4.015028432168969e-06, 'epoch': 0.85}
+{'loss': 1.779, 'grad_norm': 2.4803504943847656, 'learning_rate': 4.012997562956945e-06, 'epoch': 0.85}
+{'loss': 1.6715, 'grad_norm': 2.707174777984619, 'learning_rate': 4.0109666937449235e-06, 'epoch': 0.85}
+{'loss': 1.7117, 'grad_norm': 2.462543249130249, 'learning_rate': 4.0089358245329e-06, 'epoch': 0.85}
+{'loss': 1.7007, 'grad_norm': 2.481444835662842, 'learning_rate': 4.006904955320878e-06, 'epoch': 0.85}
+{'loss': 1.703, 'grad_norm': 2.4432222843170166, 'learning_rate': 4.0048740861088545e-06, 'epoch': 0.85}
+{'loss': 1.7722, 'grad_norm': 2.611387014389038, 'learning_rate': 4.002843216896833e-06, 'epoch': 0.85}
+{'loss': 1.7615, 'grad_norm': 2.456305742263794, 'learning_rate': 4.000812347684809e-06, 'epoch': 0.85}
+{'eval_loss': 1.9089828729629517, 'eval_runtime': 37.1812, 'eval_samples_per_second': 26.895, 'eval_steps_per_second': 1.13, 'epoch': 0.85}
+{'loss': 1.7098, 'grad_norm': 2.4287772178649902, 'learning_rate': 3.998781478472787e-06, 'epoch': 0.86}
+{'loss': 1.7143, 'grad_norm': 2.5659544467926025, 'learning_rate': 3.996750609260764e-06, 'epoch': 0.86}
+{'loss': 1.6668, 'grad_norm': 2.467067003250122, 'learning_rate': 3.994719740048742e-06, 'epoch': 0.86}
+{'loss': 1.8185, 'grad_norm': 2.5660688877105713, 'learning_rate': 3.992688870836718e-06, 'epoch': 0.86}
+{'loss': 1.7356, 'grad_norm': 2.6185719966888428, 'learning_rate': 3.990658001624696e-06, 'epoch': 0.86}
+{'loss': 1.6973, 'grad_norm': 2.5389695167541504, 'learning_rate': 3.988627132412673e-06, 'epoch': 0.86}
+{'loss': 1.7539, 'grad_norm': 2.499234914779663, 'learning_rate': 3.98659626320065e-06, 'epoch': 0.86}
+{'loss': 1.7055, 'grad_norm': 2.6246273517608643, 'learning_rate': 3.984565393988627e-06, 'epoch': 0.86}
+{'loss': 1.7177, 'grad_norm': 2.6127917766571045, 'learning_rate': 3.9825345247766046e-06, 'epoch': 0.86}
+{'loss': 1.728, 'grad_norm': 2.4941787719726562, 'learning_rate': 3.980503655564582e-06, 'epoch': 0.87}
+{'eval_loss': 1.9063301086425781, 'eval_runtime': 37.3284, 'eval_samples_per_second': 26.789, 'eval_steps_per_second': 1.125, 'epoch': 0.87}
+{'loss': 1.7384, 'grad_norm': 2.4694740772247314, 'learning_rate': 3.978472786352559e-06, 'epoch': 0.87}
+{'loss': 1.7409, 'grad_norm': 2.8288261890411377, 'learning_rate': 3.976441917140536e-06, 'epoch': 0.87}
+{'loss': 1.714, 'grad_norm': 2.518359661102295, 'learning_rate': 3.974411047928514e-06, 'epoch': 0.87}
+{'loss': 1.781, 'grad_norm': 2.4874095916748047, 'learning_rate': 3.972380178716491e-06, 'epoch': 0.87}
+{'loss': 1.7474, 'grad_norm': 2.523772716522217, 'learning_rate': 3.970349309504468e-06, 'epoch': 0.87}
+{'loss': 1.7486, 'grad_norm': 2.406132459640503, 'learning_rate': 3.9683184402924455e-06, 'epoch': 0.87}
+{'loss': 1.67, 'grad_norm': 2.388207197189331, 'learning_rate': 3.966287571080423e-06, 'epoch': 0.87}
+{'loss': 1.6803, 'grad_norm': 2.5564754009246826, 'learning_rate': 3.9642567018684e-06, 'epoch': 0.87}
+{'loss': 1.7368, 'grad_norm': 2.531890869140625, 'learning_rate': 3.962225832656377e-06, 'epoch': 0.88}
+{'loss': 1.7247, 'grad_norm': 2.404284954071045, 'learning_rate': 3.960194963444355e-06, 'epoch': 0.88}
+{'eval_loss': 1.9008547067642212, 'eval_runtime': 37.1962, 'eval_samples_per_second': 26.884, 'eval_steps_per_second': 1.129, 'epoch': 0.88}
+{'loss': 1.6465, 'grad_norm': 2.3903231620788574, 'learning_rate': 3.958164094232332e-06, 'epoch': 0.88}
+{'loss': 1.7126, 'grad_norm': 2.4444072246551514, 'learning_rate': 3.956133225020309e-06, 'epoch': 0.88}
+{'loss': 1.7174, 'grad_norm': 2.4444072246551514, 'learning_rate': 3.956133225020309e-06, 'epoch': 0.88}
+{'loss': 1.7166, 'grad_norm': 2.6466639041900635, 'learning_rate': 3.954102355808286e-06, 'epoch': 0.88}
+{'loss': 1.7155, 'grad_norm': 2.530284881591797, 'learning_rate': 3.952071486596264e-06, 'epoch': 0.88}
+{'loss': 1.7157, 'grad_norm': 2.601516008377075, 'learning_rate': 3.950040617384241e-06, 'epoch': 0.88}
+{'loss': 1.6931, 'grad_norm': 2.6146240234375, 'learning_rate': 3.948009748172218e-06, 'epoch': 0.88}
+{'loss': 1.7594, 'grad_norm': 2.4904634952545166, 'learning_rate': 3.9459788789601955e-06, 'epoch': 0.89}
+{'loss': 1.7175, 'grad_norm': 2.345689296722412, 'learning_rate': 3.943948009748173e-06, 'epoch': 0.89}
+{'loss': 1.7161, 'grad_norm': 2.4469082355499268, 'learning_rate': 3.94191714053615e-06, 'epoch': 0.89}
+{'eval_loss': 1.9021154642105103, 'eval_runtime': 36.8772, 'eval_samples_per_second': 27.117, 'eval_steps_per_second': 1.139, 'epoch': 0.89}
+{'loss': 1.7688, 'grad_norm': 2.473752737045288, 'learning_rate': 3.939886271324127e-06, 'epoch': 0.89}
+{'loss': 1.6752, 'grad_norm': 2.461033582687378, 'learning_rate': 3.937855402112104e-06, 'epoch': 0.89}
+{'loss': 1.6685, 'grad_norm': 2.419179916381836, 'learning_rate': 3.935824532900082e-06, 'epoch': 0.89}
+{'loss': 1.7348, 'grad_norm': 2.543102502822876, 'learning_rate': 3.933793663688058e-06, 'epoch': 0.89}
+{'loss': 1.7572, 'grad_norm': 2.4932174682617188, 'learning_rate': 3.9317627944760365e-06, 'epoch': 0.89}
+{'loss': 1.6691, 'grad_norm': 2.4563698768615723, 'learning_rate': 3.929731925264013e-06, 'epoch': 0.89}
+{'loss': 1.697, 'grad_norm': 2.566558837890625, 'learning_rate': 3.927701056051991e-06, 'epoch': 0.9}
+{'loss': 1.7194, 'grad_norm': 2.5550761222839355, 'learning_rate': 3.9256701868399674e-06, 'epoch': 0.9}
+{'loss': 1.6804, 'grad_norm': 2.51362681388855, 'learning_rate': 3.9236393176279456e-06, 'epoch': 0.9}
+{'loss': 1.6575, 'grad_norm': 2.448714017868042, 'learning_rate': 3.921608448415922e-06, 'epoch': 0.9}
+{'eval_loss': 1.904768943786621, 'eval_runtime': 37.0644, 'eval_samples_per_second': 26.98, 'eval_steps_per_second': 1.133, 'epoch': 0.9}
+{'loss': 1.717, 'grad_norm': 2.582794666290283, 'learning_rate': 3.9195775792039e-06, 'epoch': 0.9}
+{'loss': 1.6927, 'grad_norm': 2.613327980041504, 'learning_rate': 3.9175467099918765e-06, 'epoch': 0.9}
+{'loss': 1.7391, 'grad_norm': 2.522038221359253, 'learning_rate': 3.915515840779855e-06, 'epoch': 0.9}
+{'loss': 1.7448, 'grad_norm': 2.372134208679199, 'learning_rate': 3.913484971567831e-06, 'epoch': 0.9}
+{'loss': 1.6531, 'grad_norm': 2.246591329574585, 'learning_rate': 3.911454102355808e-06, 'epoch': 0.9}
+{'loss': 1.7268, 'grad_norm': 2.48276948928833, 'learning_rate': 3.909423233143786e-06, 'epoch': 0.91}
+{'loss': 1.7155, 'grad_norm': 2.7920989990234375, 'learning_rate': 3.907392363931763e-06, 'epoch': 0.91}
+{'loss': 1.7866, 'grad_norm': 2.5430562496185303, 'learning_rate': 3.90536149471974e-06, 'epoch': 0.91}
+{'loss': 1.8024, 'grad_norm': 2.5819969177246094, 'learning_rate': 3.9033306255077175e-06, 'epoch': 0.91}
+{'loss': 1.8467, 'grad_norm': 2.726024866104126, 'learning_rate': 3.901299756295695e-06, 'epoch': 0.91}
+{'eval_loss': 1.899052381515503, 'eval_runtime': 37.192, 'eval_samples_per_second': 26.888, 'eval_steps_per_second': 1.129, 'epoch': 0.91}
+{'loss': 1.6976, 'grad_norm': 2.6913323402404785, 'learning_rate': 3.899268887083672e-06, 'epoch': 0.91}
+{'loss': 1.7072, 'grad_norm': 2.5307703018188477, 'learning_rate': 3.897238017871649e-06, 'epoch': 0.91}
+{'loss': 1.7183, 'grad_norm': 2.4976935386657715, 'learning_rate': 3.8952071486596266e-06, 'epoch': 0.91}
+{'loss': 1.6845, 'grad_norm': 2.435443878173828, 'learning_rate': 3.893176279447604e-06, 'epoch': 0.91}
+{'loss': 1.78, 'grad_norm': 2.704554319381714, 'learning_rate': 3.891145410235581e-06, 'epoch': 0.92}
+{'loss': 1.7436, 'grad_norm': 2.4770138263702393, 'learning_rate': 3.889114541023558e-06, 'epoch': 0.92}
+{'loss': 1.7007, 'grad_norm': 2.472780227661133, 'learning_rate': 3.887083671811536e-06, 'epoch': 0.92}
+{'loss': 1.6487, 'grad_norm': 2.4693336486816406, 'learning_rate': 3.885052802599513e-06, 'epoch': 0.92}
+{'loss': 1.7895, 'grad_norm': 2.458834648132324, 'learning_rate': 3.88302193338749e-06, 'epoch': 0.92}
+{'loss': 1.72, 'grad_norm': 2.4430108070373535, 'learning_rate': 3.8809910641754675e-06, 'epoch': 0.92}
+{'eval_loss': 1.9009006023406982, 'eval_runtime': 37.1906, 'eval_samples_per_second': 26.889, 'eval_steps_per_second': 1.129, 'epoch': 0.92}
+{'loss': 1.6938, 'grad_norm': 2.6104867458343506, 'learning_rate': 3.878960194963445e-06, 'epoch': 0.92}
+{'loss': 1.7528, 'grad_norm': 2.5191142559051514, 'learning_rate': 3.876929325751422e-06, 'epoch': 0.92}
+{'loss': 1.6446, 'grad_norm': 2.3788414001464844, 'learning_rate': 3.874898456539399e-06, 'epoch': 0.92}
+{'loss': 1.7087, 'grad_norm': 2.485631227493286, 'learning_rate': 3.872867587327377e-06, 'epoch': 0.92}
+{'loss': 1.6752, 'grad_norm': 2.3721091747283936, 'learning_rate': 3.870836718115354e-06, 'epoch': 0.93}
+{'loss': 1.6883, 'grad_norm': 2.4648489952087402, 'learning_rate': 3.868805848903331e-06, 'epoch': 0.93}
+{'loss': 1.7109, 'grad_norm': 2.447054862976074, 'learning_rate': 3.8667749796913084e-06, 'epoch': 0.93}
+{'loss': 1.7342, 'grad_norm': 2.70007061958313, 'learning_rate': 3.864744110479286e-06, 'epoch': 0.93}
+{'loss': 1.7308, 'grad_norm': 2.6336557865142822, 'learning_rate': 3.862713241267262e-06, 'epoch': 0.93}
+{'loss': 1.7519, 'grad_norm': 2.807671070098877, 'learning_rate': 3.86068237205524e-06, 'epoch': 0.93}
+{'eval_loss': 1.8990603685379028, 'eval_runtime': 37.1643, 'eval_samples_per_second': 26.908, 'eval_steps_per_second': 1.13, 'epoch': 0.93}
+{'loss': 1.7065, 'grad_norm': 2.7177038192749023, 'learning_rate': 3.858651502843217e-06, 'epoch': 0.93}
+{'loss': 1.6529, 'grad_norm': 2.570364236831665, 'learning_rate': 3.856620633631195e-06, 'epoch': 0.93}
+{'loss': 1.6955, 'grad_norm': 2.590329170227051, 'learning_rate': 3.854589764419171e-06, 'epoch': 0.93}
+{'loss': 1.7803, 'grad_norm': 2.542722702026367, 'learning_rate': 3.852558895207149e-06, 'epoch': 0.94}
+{'loss': 1.7267, 'grad_norm': 2.6095776557922363, 'learning_rate': 3.850528025995126e-06, 'epoch': 0.94}
+{'loss': 1.6767, 'grad_norm': 2.550161838531494, 'learning_rate': 3.848497156783104e-06, 'epoch': 0.94}
+{'loss': 1.6897, 'grad_norm': 2.5079615116119385, 'learning_rate': 3.84646628757108e-06, 'epoch': 0.94}
+{'loss': 1.7024, 'grad_norm': 2.5113067626953125, 'learning_rate': 3.8444354183590585e-06, 'epoch': 0.94}
+{'loss': 1.695, 'grad_norm': 2.559811592102051, 'learning_rate': 3.842404549147035e-06, 'epoch': 0.94}
+{'loss': 1.661, 'grad_norm': 2.507901191711426, 'learning_rate': 3.840373679935013e-06, 'epoch': 0.94}
+{'eval_loss': 1.8952044248580933, 'eval_runtime': 37.2303, 'eval_samples_per_second': 26.86, 'eval_steps_per_second': 1.128, 'epoch': 0.94}
+{'loss': 1.7095, 'grad_norm': 2.288231134414673, 'learning_rate': 3.8383428107229894e-06, 'epoch': 0.94}
+{'loss': 1.6858, 'grad_norm': 2.260040044784546, 'learning_rate': 3.836311941510967e-06, 'epoch': 0.94}
+{'loss': 1.7362, 'grad_norm': 2.5524179935455322, 'learning_rate': 3.834281072298944e-06, 'epoch': 0.95}
+{'loss': 1.6803, 'grad_norm': 2.419013738632202, 'learning_rate': 3.832250203086921e-06, 'epoch': 0.95}
+{'loss': 1.7435, 'grad_norm': 2.5345773696899414, 'learning_rate': 3.8302193338748985e-06, 'epoch': 0.95}
+{'loss': 1.7932, 'grad_norm': 2.5771822929382324, 'learning_rate': 3.828188464662876e-06, 'epoch': 0.95}
+{'loss': 1.711, 'grad_norm': 2.4880053997039795, 'learning_rate': 3.826157595450853e-06, 'epoch': 0.95}
+{'loss': 1.6569, 'grad_norm': 2.596400022506714, 'learning_rate': 3.82412672623883e-06, 'epoch': 0.95}
+{'loss': 1.7159, 'grad_norm': 2.620776891708374, 'learning_rate': 3.822095857026808e-06, 'epoch': 0.95}
+{'loss': 1.6832, 'grad_norm': 2.512397527694702, 'learning_rate': 3.820064987814785e-06, 'epoch': 0.95}
+{'eval_loss': 1.8950546979904175, 'eval_runtime': 37.1526, 'eval_samples_per_second': 26.916, 'eval_steps_per_second': 1.13, 'epoch': 0.95}
+{'loss': 1.6977, 'grad_norm': 2.5925326347351074, 'learning_rate': 3.818034118602762e-06, 'epoch': 0.95}
+{'loss': 1.6997, 'grad_norm': 2.3980817794799805, 'learning_rate': 3.8160032493907395e-06, 'epoch': 0.96}
+{'loss': 1.7063, 'grad_norm': 2.4825663566589355, 'learning_rate': 3.813972380178717e-06, 'epoch': 0.96}
+{'loss': 1.7457, 'grad_norm': 2.535006284713745, 'learning_rate': 3.811941510966694e-06, 'epoch': 0.96}
+{'loss': 1.6521, 'grad_norm': 2.450657606124878, 'learning_rate': 3.809910641754671e-06, 'epoch': 0.96}
+{'loss': 1.6194, 'grad_norm': 2.3942458629608154, 'learning_rate': 3.8078797725426486e-06, 'epoch': 0.96}
+{'loss': 1.7105, 'grad_norm': 2.5781140327453613, 'learning_rate': 3.8058489033306254e-06, 'epoch': 0.96}
+{'loss': 1.6741, 'grad_norm': 2.5196564197540283, 'learning_rate': 3.803818034118603e-06, 'epoch': 0.96}
+{'loss': 1.7559, 'grad_norm': 2.4819812774658203, 'learning_rate': 3.80178716490658e-06, 'epoch': 0.96}
+{'loss': 1.7421, 'grad_norm': 2.6393206119537354, 'learning_rate': 3.7997562956945577e-06, 'epoch': 0.96}
+{'eval_loss': 1.8945845365524292, 'eval_runtime': 37.1175, 'eval_samples_per_second': 26.941, 'eval_steps_per_second': 1.132, 'epoch': 0.96}
+{'loss': 1.6933, 'grad_norm': 2.5286684036254883, 'learning_rate': 3.7977254264825345e-06, 'epoch': 0.97}
+{'loss': 1.6804, 'grad_norm': 2.690138339996338, 'learning_rate': 3.7956945572705122e-06, 'epoch': 0.97}
+{'loss': 1.7839, 'grad_norm': 2.7789907455444336, 'learning_rate': 3.793663688058489e-06, 'epoch': 0.97}
+{'loss': 1.7564, 'grad_norm': 2.5196211338043213, 'learning_rate': 3.791632818846467e-06, 'epoch': 0.97}
+{'loss': 1.758, 'grad_norm': 2.550898790359497, 'learning_rate': 3.7896019496344436e-06, 'epoch': 0.97}
+{'loss': 1.7497, 'grad_norm': 2.617361545562744, 'learning_rate': 3.787571080422421e-06, 'epoch': 0.97}
+{'loss': 1.7336, 'grad_norm': 2.533339500427246, 'learning_rate': 3.785540211210398e-06, 'epoch': 0.97}
+{'loss': 1.712, 'grad_norm': 2.475037097930908, 'learning_rate': 3.7835093419983755e-06, 'epoch': 0.97}
+{'loss': 1.6985, 'grad_norm': 2.485506534576416, 'learning_rate': 3.7814784727863527e-06, 'epoch': 0.97}
+{'loss': 1.812, 'grad_norm': 2.712912082672119, 'learning_rate': 3.77944760357433e-06, 'epoch': 0.98}
+{'eval_loss': 1.8921257257461548, 'eval_runtime': 37.1309, 'eval_samples_per_second': 26.932, 'eval_steps_per_second': 1.131, 'epoch': 0.98}
+{'loss': 1.7504, 'grad_norm': 2.6280291080474854, 'learning_rate': 3.7774167343623073e-06, 'epoch': 0.98}
+{'loss': 1.6793, 'grad_norm': 2.6162853240966797, 'learning_rate': 3.7753858651502846e-06, 'epoch': 0.98}
+{'loss': 1.7333, 'grad_norm': 2.665316581726074, 'learning_rate': 3.773354995938262e-06, 'epoch': 0.98}
+{'loss': 1.7298, 'grad_norm': 2.531297445297241, 'learning_rate': 3.771324126726239e-06, 'epoch': 0.98}
+{'loss': 1.7677, 'grad_norm': 2.543412446975708, 'learning_rate': 3.7692932575142164e-06, 'epoch': 0.98}
+{'loss': 1.7039, 'grad_norm': 2.3839635848999023, 'learning_rate': 3.7672623883021937e-06, 'epoch': 0.98}
+{'loss': 1.6206, 'grad_norm': 2.3417305946350098, 'learning_rate': 3.765231519090171e-06, 'epoch': 0.98}
+{'loss': 1.713, 'grad_norm': 2.4434802532196045, 'learning_rate': 3.7632006498781482e-06, 'epoch': 0.98}
+{'loss': 1.6587, 'grad_norm': 2.5223472118377686, 'learning_rate': 3.761169780666125e-06, 'epoch': 0.99}
+{'loss': 1.7032, 'grad_norm': 2.577479124069214, 'learning_rate': 3.7591389114541028e-06, 'epoch': 0.99}
+{'eval_loss': 1.8891643285751343, 'eval_runtime': 37.1123, 'eval_samples_per_second': 26.945, 'eval_steps_per_second': 1.132, 'epoch': 0.99}
+{'loss': 1.732, 'grad_norm': 2.468871593475342, 'learning_rate': 3.7571080422420796e-06, 'epoch': 0.99}
+{'loss': 1.6866, 'grad_norm': 2.5907723903656006, 'learning_rate': 3.7550771730300573e-06, 'epoch': 0.99}
+{'loss': 1.746, 'grad_norm': 2.4454426765441895, 'learning_rate': 3.753046303818034e-06, 'epoch': 0.99}
+{'loss': 1.7375, 'grad_norm': 2.4651715755462646, 'learning_rate': 3.751015434606012e-06, 'epoch': 0.99}
+{'loss': 1.7693, 'grad_norm': 2.6342053413391113, 'learning_rate': 3.7489845653939887e-06, 'epoch': 0.99}
+{'loss': 1.6796, 'grad_norm': 2.454977512359619, 'learning_rate': 3.7469536961819664e-06, 'epoch': 0.99}
+{'loss': 1.7075, 'grad_norm': 2.440626859664917, 'learning_rate': 3.7449228269699433e-06, 'epoch': 0.99}
+{'loss': 1.7422, 'grad_norm': 2.4905781745910645, 'learning_rate': 3.742891957757921e-06, 'epoch': 1.0}
+{'loss': 1.7107, 'grad_norm': 2.6843647956848145, 'learning_rate': 3.740861088545898e-06, 'epoch': 1.0}
+{'loss': 1.7545, 'grad_norm': 2.5906362533569336, 'learning_rate': 3.7388302193338755e-06, 'epoch': 1.0}
+{'eval_loss': 1.8889163732528687, 'eval_runtime': 36.8136, 'eval_samples_per_second': 27.164, 'eval_steps_per_second': 1.141, 'epoch': 1.0}
+{'loss': 1.6857, 'grad_norm': 2.5185422897338867, 'learning_rate': 3.7367993501218524e-06, 'epoch': 1.0}
+{'loss': 1.687, 'grad_norm': 2.4425783157348633, 'learning_rate': 3.7347684809098297e-06, 'epoch': 1.0}
+{'loss': 1.643, 'grad_norm': 2.5200576782226562, 'learning_rate': 3.732737611697807e-06, 'epoch': 1.0}
+{'loss': 1.5965, 'grad_norm': 2.4664227962493896, 'learning_rate': 3.7307067424857842e-06, 'epoch': 1.0}
+{'loss': 1.6663, 'grad_norm': 2.495962381362915, 'learning_rate': 3.7286758732737615e-06, 'epoch': 1.0}
+{'loss': 1.6388, 'grad_norm': 2.5607051849365234, 'learning_rate': 3.7266450040617388e-06, 'epoch': 1.0}
+{'loss': 1.7541, 'grad_norm': 2.9295718669891357, 'learning_rate': 3.724614134849716e-06, 'epoch': 1.0}
+{'loss': 1.6359, 'grad_norm': 2.5632426738739014, 'learning_rate': 3.7225832656376933e-06, 'epoch': 1.01}
+{'loss': 1.7427, 'grad_norm': 2.6059279441833496, 'learning_rate': 3.7205523964256706e-06, 'epoch': 1.01}
+{'loss': 1.7097, 'grad_norm': 2.6244208812713623, 'learning_rate': 3.718521527213648e-06, 'epoch': 1.01}
+{'eval_loss': 1.8882938623428345, 'eval_runtime': 36.9853, 'eval_samples_per_second': 27.038, 'eval_steps_per_second': 1.136, 'epoch': 1.01}
+{'loss': 1.6875, 'grad_norm': 2.434684991836548, 'learning_rate': 3.716490658001625e-06, 'epoch': 1.01}
+{'loss': 1.5726, 'grad_norm': 2.6481709480285645, 'learning_rate': 3.7144597887896024e-06, 'epoch': 1.01}
+{'loss': 1.6881, 'grad_norm': 2.5398213863372803, 'learning_rate': 3.7124289195775797e-06, 'epoch': 1.01}
+{'loss': 1.691, 'grad_norm': 2.684122085571289, 'learning_rate': 3.710398050365557e-06, 'epoch': 1.01}
+{'loss': 1.653, 'grad_norm': 2.712214946746826, 'learning_rate': 3.708367181153534e-06, 'epoch': 1.01}
+{'loss': 1.6853, 'grad_norm': 2.8427517414093018, 'learning_rate': 3.7063363119415115e-06, 'epoch': 1.01}
+{'loss': 1.645, 'grad_norm': 2.676410436630249, 'learning_rate': 3.7043054427294884e-06, 'epoch': 1.02}
+{'loss': 1.6171, 'grad_norm': 2.5397610664367676, 'learning_rate': 3.702274573517466e-06, 'epoch': 1.02}
+{'loss': 1.6729, 'grad_norm': 2.606250286102295, 'learning_rate': 3.700243704305443e-06, 'epoch': 1.02}
+{'loss': 1.6546, 'grad_norm': 2.3617212772369385, 'learning_rate': 3.6982128350934206e-06, 'epoch': 1.02}
+{'eval_loss': 1.8915373086929321, 'eval_runtime': 37.094, 'eval_samples_per_second': 26.959, 'eval_steps_per_second': 1.132, 'epoch': 1.02}
+{'loss': 1.628, 'grad_norm': 2.6635043621063232, 'learning_rate': 3.6961819658813975e-06, 'epoch': 1.02}
+{'loss': 1.7537, 'grad_norm': 2.724837303161621, 'learning_rate': 3.694151096669375e-06, 'epoch': 1.02}
+{'loss': 1.6638, 'grad_norm': 2.56447434425354, 'learning_rate': 3.692120227457352e-06, 'epoch': 1.02}
+{'loss': 1.6806, 'grad_norm': 2.6624584197998047, 'learning_rate': 3.6900893582453297e-06, 'epoch': 1.02}
+{'loss': 1.5887, 'grad_norm': 2.7147905826568604, 'learning_rate': 3.6880584890333066e-06, 'epoch': 1.02}
+{'loss': 1.6664, 'grad_norm': 2.683840751647949, 'learning_rate': 3.6860276198212834e-06, 'epoch': 1.03}
+{'loss': 1.6744, 'grad_norm': 2.8141531944274902, 'learning_rate': 3.683996750609261e-06, 'epoch': 1.03}
+{'loss': 1.6866, 'grad_norm': 2.6172802448272705, 'learning_rate': 3.681965881397238e-06, 'epoch': 1.03}
+{'loss': 1.7034, 'grad_norm': 2.7853286266326904, 'learning_rate': 3.6799350121852157e-06, 'epoch': 1.03}
+{'loss': 1.6573, 'grad_norm': 2.7121260166168213, 'learning_rate': 3.6779041429731925e-06, 'epoch': 1.03}
+{'eval_loss': 1.883426308631897, 'eval_runtime': 37.1964, 'eval_samples_per_second': 26.884, 'eval_steps_per_second': 1.129, 'epoch': 1.03}
+{'loss': 1.6651, 'grad_norm': 2.4775121212005615, 'learning_rate': 3.6758732737611702e-06, 'epoch': 1.03}
+{'loss': 1.6524, 'grad_norm': 2.5361502170562744, 'learning_rate': 3.673842404549147e-06, 'epoch': 1.03}
+{'loss': 1.6598, 'grad_norm': 2.7969970703125, 'learning_rate': 3.671811535337125e-06, 'epoch': 1.03}
+{'loss': 1.6821, 'grad_norm': 2.88427996635437, 'learning_rate': 3.6697806661251016e-06, 'epoch': 1.03}
+{'loss': 1.7777, 'grad_norm': 2.9321346282958984, 'learning_rate': 3.6677497969130793e-06, 'epoch': 1.04}
+{'loss': 1.6808, 'grad_norm': 2.802886724472046, 'learning_rate': 3.665718927701056e-06, 'epoch': 1.04}
+{'loss': 1.7375, 'grad_norm': 2.85810923576355, 'learning_rate': 3.663688058489034e-06, 'epoch': 1.04}
+{'loss': 1.6662, 'grad_norm': 2.6501998901367188, 'learning_rate': 3.6616571892770107e-06, 'epoch': 1.04}
+{'loss': 1.6084, 'grad_norm': 2.550652265548706, 'learning_rate': 3.659626320064988e-06, 'epoch': 1.04}
+{'loss': 1.681, 'grad_norm': 2.5003185272216797, 'learning_rate': 3.6575954508529653e-06, 'epoch': 1.04}
+{'eval_loss': 1.8800761699676514, 'eval_runtime': 37.2014, 'eval_samples_per_second': 26.881, 'eval_steps_per_second': 1.129, 'epoch': 1.04}
+{'loss': 1.6608, 'grad_norm': 2.4262983798980713, 'learning_rate': 3.6555645816409426e-06, 'epoch': 1.04}
+{'loss': 1.6972, 'grad_norm': 2.6474270820617676, 'learning_rate': 3.65353371242892e-06, 'epoch': 1.04}
+{'loss': 1.5581, 'grad_norm': 2.5103557109832764, 'learning_rate': 3.651502843216897e-06, 'epoch': 1.04}
+{'loss': 1.693, 'grad_norm': 2.529756546020508, 'learning_rate': 3.6494719740048744e-06, 'epoch': 1.05}
+{'loss': 1.6302, 'grad_norm': 2.578362464904785, 'learning_rate': 3.6474411047928517e-06, 'epoch': 1.05}
+{'loss': 1.6855, 'grad_norm': 2.8062336444854736, 'learning_rate': 3.645410235580829e-06, 'epoch': 1.05}
+{'loss': 1.6861, 'grad_norm': 2.935694932937622, 'learning_rate': 3.6433793663688062e-06, 'epoch': 1.05}
+{'loss': 1.6534, 'grad_norm': 2.5260093212127686, 'learning_rate': 3.6413484971567835e-06, 'epoch': 1.05}
+{'loss': 1.6833, 'grad_norm': 2.7627487182617188, 'learning_rate': 3.6393176279447608e-06, 'epoch': 1.05}
+{'loss': 1.6887, 'grad_norm': 2.9553534984588623, 'learning_rate': 3.637286758732738e-06, 'epoch': 1.05}
+{'eval_loss': 1.8832038640975952, 'eval_runtime': 37.1828, 'eval_samples_per_second': 26.894, 'eval_steps_per_second': 1.13, 'epoch': 1.05}
+{'loss': 1.7162, 'grad_norm': 2.5526084899902344, 'learning_rate': 3.6352558895207153e-06, 'epoch': 1.05}
+{'loss': 1.6823, 'grad_norm': 2.761218786239624, 'learning_rate': 3.633225020308692e-06, 'epoch': 1.05}
+{'loss': 1.6489, 'grad_norm': 2.672189950942993, 'learning_rate': 3.63119415109667e-06, 'epoch': 1.06}
+{'loss': 1.7201, 'grad_norm': 2.7650046348571777, 'learning_rate': 3.6291632818846467e-06, 'epoch': 1.06}
+{'loss': 1.6164, 'grad_norm': 2.6351473331451416, 'learning_rate': 3.6271324126726244e-06, 'epoch': 1.06}
+{'loss': 1.603, 'grad_norm': 2.5959131717681885, 'learning_rate': 3.6251015434606013e-06, 'epoch': 1.06}
+{'loss': 1.6671, 'grad_norm': 2.525513172149658, 'learning_rate': 3.623070674248579e-06, 'epoch': 1.06}
+{'loss': 1.6446, 'grad_norm': 2.5529232025146484, 'learning_rate': 3.621039805036556e-06, 'epoch': 1.06}
+{'loss': 1.6846, 'grad_norm': 2.648120403289795, 'learning_rate': 3.6190089358245335e-06, 'epoch': 1.06}
+{'loss': 1.6786, 'grad_norm': 2.648120403289795, 'learning_rate': 3.6190089358245335e-06, 'epoch': 1.06}
+{'eval_loss': 1.885197639465332, 'eval_runtime': 37.2374, 'eval_samples_per_second': 26.855, 'eval_steps_per_second': 1.128, 'epoch': 1.06}
+{'loss': 1.6892, 'grad_norm': 2.50577449798584, 'learning_rate': 3.6169780666125104e-06, 'epoch': 1.06}
+{'loss': 1.5863, 'grad_norm': 2.57772159576416, 'learning_rate': 3.614947197400488e-06, 'epoch': 1.07}
+{'loss': 1.692, 'grad_norm': 2.5455222129821777, 'learning_rate': 3.612916328188465e-06, 'epoch': 1.07}
+{'loss': 1.7027, 'grad_norm': 2.6154329776763916, 'learning_rate': 3.610885458976442e-06, 'epoch': 1.07}
+{'loss': 1.6353, 'grad_norm': 2.5776023864746094, 'learning_rate': 3.6088545897644195e-06, 'epoch': 1.07}
+{'loss': 1.6358, 'grad_norm': 2.5480730533599854, 'learning_rate': 3.6068237205523963e-06, 'epoch': 1.07}
+{'loss': 1.7099, 'grad_norm': 2.5939579010009766, 'learning_rate': 3.604792851340374e-06, 'epoch': 1.07}
+{'loss': 1.6763, 'grad_norm': 2.65395188331604, 'learning_rate': 3.602761982128351e-06, 'epoch': 1.07}
+{'loss': 1.613, 'grad_norm': 2.5302748680114746, 'learning_rate': 3.6007311129163286e-06, 'epoch': 1.07}
+{'loss': 1.6584, 'grad_norm': 2.669433832168579, 'learning_rate': 3.5987002437043054e-06, 'epoch': 1.07}
+{'eval_loss': 1.8816337585449219, 'eval_runtime': 37.2174, 'eval_samples_per_second': 26.869, 'eval_steps_per_second': 1.129, 'epoch': 1.07}
+{'loss': 1.7096, 'grad_norm': 2.859063148498535, 'learning_rate': 3.596669374492283e-06, 'epoch': 1.08}
+{'loss': 1.6168, 'grad_norm': 2.531301259994507, 'learning_rate': 3.59463850528026e-06, 'epoch': 1.08}
+{'loss': 1.6953, 'grad_norm': 2.5920488834381104, 'learning_rate': 3.5926076360682377e-06, 'epoch': 1.08}
+{'loss': 1.6602, 'grad_norm': 2.698284387588501, 'learning_rate': 3.5905767668562145e-06, 'epoch': 1.08}
+{'loss': 1.7073, 'grad_norm': 2.762387752532959, 'learning_rate': 3.5885458976441922e-06, 'epoch': 1.08}
+{'loss': 1.7151, 'grad_norm': 2.554579019546509, 'learning_rate': 3.586515028432169e-06, 'epoch': 1.08}
+{'loss': 1.6088, 'grad_norm': 2.644576072692871, 'learning_rate': 3.5844841592201464e-06, 'epoch': 1.08}
+{'loss': 1.6434, 'grad_norm': 2.6375787258148193, 'learning_rate': 3.5824532900081237e-06, 'epoch': 1.08}
+{'loss': 1.6936, 'grad_norm': 2.9475791454315186, 'learning_rate': 3.580422420796101e-06, 'epoch': 1.08}
+{'loss': 1.5915, 'grad_norm': 2.5753467082977295, 'learning_rate': 3.578391551584078e-06, 'epoch': 1.08}
+{'eval_loss': 1.8799077272415161, 'eval_runtime': 37.2335, 'eval_samples_per_second': 26.857, 'eval_steps_per_second': 1.128, 'epoch': 1.08}
+{'loss': 1.6824, 'grad_norm': 2.8163156509399414, 'learning_rate': 3.5763606823720555e-06, 'epoch': 1.09}
+{'loss': 1.7066, 'grad_norm': 2.6741368770599365, 'learning_rate': 3.5743298131600328e-06, 'epoch': 1.09}
+{'loss': 1.6779, 'grad_norm': 2.5235214233398438, 'learning_rate': 3.57229894394801e-06, 'epoch': 1.09}
+{'loss': 1.6392, 'grad_norm': 2.620927095413208, 'learning_rate': 3.5702680747359873e-06, 'epoch': 1.09}
+{'loss': 1.6768, 'grad_norm': 2.7678003311157227, 'learning_rate': 3.5682372055239646e-06, 'epoch': 1.09}
+{'loss': 1.618, 'grad_norm': 2.5900607109069824, 'learning_rate': 3.566206336311942e-06, 'epoch': 1.09}
+{'loss': 1.5981, 'grad_norm': 2.4440128803253174, 'learning_rate': 3.564175467099919e-06, 'epoch': 1.09}
+{'loss': 1.6649, 'grad_norm': 2.686119318008423, 'learning_rate': 3.5621445978878964e-06, 'epoch': 1.09}
+{'loss': 1.6426, 'grad_norm': 2.6912872791290283, 'learning_rate': 3.5601137286758737e-06, 'epoch': 1.09}
+{'loss': 1.6639, 'grad_norm': 2.7249274253845215, 'learning_rate': 3.5580828594638505e-06, 'epoch': 1.1}
+{'eval_loss': 1.8750032186508179, 'eval_runtime': 37.2319, 'eval_samples_per_second': 26.859, 'eval_steps_per_second': 1.128, 'epoch': 1.1}
+{'loss': 1.7014, 'grad_norm': 2.750321626663208, 'learning_rate': 3.5560519902518282e-06, 'epoch': 1.1}
+{'loss': 1.6557, 'grad_norm': 2.593047618865967, 'learning_rate': 3.554021121039805e-06, 'epoch': 1.1}
+{'loss': 1.6257, 'grad_norm': 2.744931936264038, 'learning_rate': 3.551990251827783e-06, 'epoch': 1.1}
+{'loss': 1.6546, 'grad_norm': 2.4940085411071777, 'learning_rate': 3.5499593826157596e-06, 'epoch': 1.1}
+{'loss': 1.6395, 'grad_norm': 2.6905856132507324, 'learning_rate': 3.5479285134037373e-06, 'epoch': 1.1}
+{'loss': 1.6159, 'grad_norm': 2.6744513511657715, 'learning_rate': 3.545897644191714e-06, 'epoch': 1.1}
+{'loss': 1.6754, 'grad_norm': 2.6766908168792725, 'learning_rate': 3.543866774979692e-06, 'epoch': 1.1}
+{'loss': 1.6273, 'grad_norm': 2.743103504180908, 'learning_rate': 3.5418359057676687e-06, 'epoch': 1.1}
+{'loss': 1.6836, 'grad_norm': 2.886472463607788, 'learning_rate': 3.5398050365556464e-06, 'epoch': 1.11}
+{'loss': 1.6475, 'grad_norm': 2.823476791381836, 'learning_rate': 3.5377741673436233e-06, 'epoch': 1.11}
+{'eval_loss': 1.8762013912200928, 'eval_runtime': 36.8594, 'eval_samples_per_second': 27.13, 'eval_steps_per_second': 1.139, 'epoch': 1.11}
+{'loss': 1.6765, 'grad_norm': 2.741985559463501, 'learning_rate': 3.535743298131601e-06, 'epoch': 1.11}
+{'loss': 1.6997, 'grad_norm': 2.6321418285369873, 'learning_rate': 3.533712428919578e-06, 'epoch': 1.11}
+{'loss': 1.6529, 'grad_norm': 2.7359395027160645, 'learning_rate': 3.5316815597075547e-06, 'epoch': 1.11}
+{'loss': 1.68, 'grad_norm': 2.610210657119751, 'learning_rate': 3.5296506904955324e-06, 'epoch': 1.11}
+{'loss': 1.6836, 'grad_norm': 2.7770233154296875, 'learning_rate': 3.5276198212835093e-06, 'epoch': 1.11}
+{'loss': 1.699, 'grad_norm': 2.7146646976470947, 'learning_rate': 3.525588952071487e-06, 'epoch': 1.11}
+{'loss': 1.6941, 'grad_norm': 2.782172679901123, 'learning_rate': 3.523558082859464e-06, 'epoch': 1.11}
+{'loss': 1.6303, 'grad_norm': 2.577692747116089, 'learning_rate': 3.5215272136474415e-06, 'epoch': 1.12}
+{'loss': 1.6381, 'grad_norm': 2.721348285675049, 'learning_rate': 3.5194963444354184e-06, 'epoch': 1.12}
+{'loss': 1.6144, 'grad_norm': 2.825709342956543, 'learning_rate': 3.517465475223396e-06, 'epoch': 1.12}
+{'eval_loss': 1.8759764432907104, 'eval_runtime': 37.1224, 'eval_samples_per_second': 26.938, 'eval_steps_per_second': 1.131, 'epoch': 1.12}
+{'loss': 1.685, 'grad_norm': 2.8446385860443115, 'learning_rate': 3.515434606011373e-06, 'epoch': 1.12}
+{'loss': 1.7276, 'grad_norm': 2.70577335357666, 'learning_rate': 3.5134037367993506e-06, 'epoch': 1.12}
+{'loss': 1.6735, 'grad_norm': 2.6624722480773926, 'learning_rate': 3.5113728675873275e-06, 'epoch': 1.12}
+{'loss': 1.6413, 'grad_norm': 2.7956180572509766, 'learning_rate': 3.5093419983753047e-06, 'epoch': 1.12}
+{'loss': 1.6035, 'grad_norm': 2.792559862136841, 'learning_rate': 3.507311129163282e-06, 'epoch': 1.12}
+{'loss': 1.6461, 'grad_norm': 2.7113680839538574, 'learning_rate': 3.5052802599512593e-06, 'epoch': 1.12}
+{'loss': 1.662, 'grad_norm': 2.656461715698242, 'learning_rate': 3.5032493907392366e-06, 'epoch': 1.13}
+{'loss': 1.5952, 'grad_norm': 2.8650670051574707, 'learning_rate': 3.501218521527214e-06, 'epoch': 1.13}
+{'loss': 1.6738, 'grad_norm': 2.8043570518493652, 'learning_rate': 3.499187652315191e-06, 'epoch': 1.13}
+{'loss': 1.6828, 'grad_norm': 2.607752799987793, 'learning_rate': 3.4971567831031684e-06, 'epoch': 1.13}
+{'eval_loss': 1.8729931116104126, 'eval_runtime': 37.2275, 'eval_samples_per_second': 26.862, 'eval_steps_per_second': 1.128, 'epoch': 1.13}
+{'loss': 1.6108, 'grad_norm': 2.5819315910339355, 'learning_rate': 3.4951259138911457e-06, 'epoch': 1.13}
+{'loss': 1.7348, 'grad_norm': 2.6494336128234863, 'learning_rate': 3.493095044679123e-06, 'epoch': 1.13}
+{'loss': 1.5534, 'grad_norm': 2.552762508392334, 'learning_rate': 3.4910641754671002e-06, 'epoch': 1.13}
+{'loss': 1.6675, 'grad_norm': 2.6580469608306885, 'learning_rate': 3.4890333062550775e-06, 'epoch': 1.13}
+{'loss': 1.5819, 'grad_norm': 2.922295331954956, 'learning_rate': 3.4870024370430548e-06, 'epoch': 1.13}
+{'loss': 1.6573, 'grad_norm': 2.7051825523376465, 'learning_rate': 3.484971567831032e-06, 'epoch': 1.14}
+{'loss': 1.6939, 'grad_norm': 2.738743782043457, 'learning_rate': 3.482940698619009e-06, 'epoch': 1.14}
+{'loss': 1.665, 'grad_norm': 2.51552677154541, 'learning_rate': 3.4809098294069866e-06, 'epoch': 1.14}
+{'loss': 1.6642, 'grad_norm': 2.578549385070801, 'learning_rate': 3.4788789601949634e-06, 'epoch': 1.14}
+{'loss': 1.6298, 'grad_norm': 2.7047011852264404, 'learning_rate': 3.476848090982941e-06, 'epoch': 1.14}
+{'eval_loss': 1.8726528882980347, 'eval_runtime': 37.25, 'eval_samples_per_second': 26.846, 'eval_steps_per_second': 1.128, 'epoch': 1.14}
+{'loss': 1.7522, 'grad_norm': 2.722877025604248, 'learning_rate': 3.474817221770918e-06, 'epoch': 1.14}
+{'loss': 1.6876, 'grad_norm': 2.464240074157715, 'learning_rate': 3.4727863525588957e-06, 'epoch': 1.14}
+{'loss': 1.6453, 'grad_norm': 2.6737945079803467, 'learning_rate': 3.4707554833468725e-06, 'epoch': 1.14}
+{'loss': 1.607, 'grad_norm': 2.7960164546966553, 'learning_rate': 3.4687246141348502e-06, 'epoch': 1.14}
+{'loss': 1.6385, 'grad_norm': 2.6985723972320557, 'learning_rate': 3.466693744922827e-06, 'epoch': 1.15}
+{'loss': 1.6753, 'grad_norm': 2.7561540603637695, 'learning_rate': 3.464662875710805e-06, 'epoch': 1.15}
+{'loss': 1.6402, 'grad_norm': 2.828885555267334, 'learning_rate': 3.4626320064987817e-06, 'epoch': 1.15}
+{'loss': 1.6889, 'grad_norm': 2.653183698654175, 'learning_rate': 3.4606011372867594e-06, 'epoch': 1.15}
+{'loss': 1.654, 'grad_norm': 2.5803189277648926, 'learning_rate': 3.458570268074736e-06, 'epoch': 1.15}
+{'loss': 1.6366, 'grad_norm': 2.5868985652923584, 'learning_rate': 3.4565393988627135e-06, 'epoch': 1.15}
+{'eval_loss': 1.8656586408615112, 'eval_runtime': 37.2805, 'eval_samples_per_second': 26.824, 'eval_steps_per_second': 1.127, 'epoch': 1.15}
+{'loss': 1.6019, 'grad_norm': 2.648036241531372, 'learning_rate': 3.4545085296506908e-06, 'epoch': 1.15}
+{'loss': 1.6597, 'grad_norm': 2.5482382774353027, 'learning_rate': 3.452477660438668e-06, 'epoch': 1.15}
+{'loss': 1.6075, 'grad_norm': 2.700294017791748, 'learning_rate': 3.4504467912266453e-06, 'epoch': 1.15}
+{'loss': 1.6558, 'grad_norm': 2.9346179962158203, 'learning_rate': 3.4484159220146226e-06, 'epoch': 1.16}
+{'loss': 1.6395, 'grad_norm': 2.893852710723877, 'learning_rate': 3.4463850528026e-06, 'epoch': 1.16}
+{'loss': 1.6833, 'grad_norm': 2.789057970046997, 'learning_rate': 3.444354183590577e-06, 'epoch': 1.16}
+{'loss': 1.6266, 'grad_norm': 2.745492935180664, 'learning_rate': 3.4423233143785544e-06, 'epoch': 1.16}
+{'loss': 1.5781, 'grad_norm': 2.7930359840393066, 'learning_rate': 3.4402924451665317e-06, 'epoch': 1.16}
+{'loss': 1.6518, 'grad_norm': 2.770575761795044, 'learning_rate': 3.438261575954509e-06, 'epoch': 1.16}
+{'loss': 1.6982, 'grad_norm': 2.7367143630981445, 'learning_rate': 3.4362307067424862e-06, 'epoch': 1.16}
+{'eval_loss': 1.8708553314208984, 'eval_runtime': 37.2843, 'eval_samples_per_second': 26.821, 'eval_steps_per_second': 1.126, 'epoch': 1.16}
+{'loss': 1.6587, 'grad_norm': 2.89182448387146, 'learning_rate': 3.434199837530463e-06, 'epoch': 1.16}
+{'loss': 1.5974, 'grad_norm': 2.5572729110717773, 'learning_rate': 3.432168968318441e-06, 'epoch': 1.16}
+{'loss': 1.6941, 'grad_norm': 2.8172996044158936, 'learning_rate': 3.4301380991064176e-06, 'epoch': 1.16}
+{'loss': 1.6902, 'grad_norm': 2.6480889320373535, 'learning_rate': 3.4281072298943953e-06, 'epoch': 1.17}
+{'loss': 1.7083, 'grad_norm': 2.654735803604126, 'learning_rate': 3.426076360682372e-06, 'epoch': 1.17}
+{'loss': 1.6494, 'grad_norm': 2.4182465076446533, 'learning_rate': 3.42404549147035e-06, 'epoch': 1.17}
+{'loss': 1.5782, 'grad_norm': 2.6808230876922607, 'learning_rate': 3.4220146222583267e-06, 'epoch': 1.17}
+{'loss': 1.6695, 'grad_norm': 2.648282527923584, 'learning_rate': 3.4199837530463044e-06, 'epoch': 1.17}
+{'loss': 1.7234, 'grad_norm': 2.5920112133026123, 'learning_rate': 3.4179528838342813e-06, 'epoch': 1.17}
+{'loss': 1.686, 'grad_norm': 2.690538167953491, 'learning_rate': 3.415922014622259e-06, 'epoch': 1.17}
+{'eval_loss': 1.8717143535614014, 'eval_runtime': 37.2714, 'eval_samples_per_second': 26.83, 'eval_steps_per_second': 1.127, 'epoch': 1.17}
+{'loss': 1.6883, 'grad_norm': 2.672515392303467, 'learning_rate': 3.413891145410236e-06, 'epoch': 1.17}
+{'loss': 1.6762, 'grad_norm': 2.8012726306915283, 'learning_rate': 3.4118602761982135e-06, 'epoch': 1.17}
+{'loss': 1.6694, 'grad_norm': 2.7551519870758057, 'learning_rate': 3.4098294069861904e-06, 'epoch': 1.18}
+{'loss': 1.6267, 'grad_norm': 2.687445878982544, 'learning_rate': 3.4077985377741673e-06, 'epoch': 1.18}
+{'loss': 1.6944, 'grad_norm': 2.674445390701294, 'learning_rate': 3.405767668562145e-06, 'epoch': 1.18}
+{'loss': 1.6735, 'grad_norm': 2.797832489013672, 'learning_rate': 3.403736799350122e-06, 'epoch': 1.18}
+{'loss': 1.6183, 'grad_norm': 2.7843174934387207, 'learning_rate': 3.4017059301380995e-06, 'epoch': 1.18}
+{'loss': 1.7336, 'grad_norm': 2.678809404373169, 'learning_rate': 3.3996750609260764e-06, 'epoch': 1.18}
+{'loss': 1.6499, 'grad_norm': 2.748838424682617, 'learning_rate': 3.397644191714054e-06, 'epoch': 1.18}
+{'loss': 1.6589, 'grad_norm': 2.5785276889801025, 'learning_rate': 3.395613322502031e-06, 'epoch': 1.18}
+{'eval_loss': 1.8695456981658936, 'eval_runtime': 37.2493, 'eval_samples_per_second': 26.846, 'eval_steps_per_second': 1.128, 'epoch': 1.18}
+{'loss': 1.5989, 'grad_norm': 2.7307844161987305, 'learning_rate': 3.3935824532900086e-06, 'epoch': 1.18}
+{'loss': 1.6568, 'grad_norm': 2.83357572555542, 'learning_rate': 3.3915515840779855e-06, 'epoch': 1.19}
+{'loss': 1.6654, 'grad_norm': 2.6178860664367676, 'learning_rate': 3.389520714865963e-06, 'epoch': 1.19}
+{'loss': 1.6657, 'grad_norm': 2.699328899383545, 'learning_rate': 3.38748984565394e-06, 'epoch': 1.19}
+{'loss': 1.6351, 'grad_norm': 2.7418158054351807, 'learning_rate': 3.3854589764419177e-06, 'epoch': 1.19}
+{'loss': 1.6351, 'grad_norm': 2.5589001178741455, 'learning_rate': 3.3834281072298946e-06, 'epoch': 1.19}
+{'loss': 1.6188, 'grad_norm': 2.492795944213867, 'learning_rate': 3.381397238017872e-06, 'epoch': 1.19}
+{'loss': 1.7127, 'grad_norm': 2.8586132526397705, 'learning_rate': 3.379366368805849e-06, 'epoch': 1.19}
+{'loss': 1.6529, 'grad_norm': 2.7773218154907227, 'learning_rate': 3.3773354995938264e-06, 'epoch': 1.19}
+{'loss': 1.6566, 'grad_norm': 2.6956539154052734, 'learning_rate': 3.3753046303818037e-06, 'epoch': 1.19}
+{'eval_loss': 1.8692638874053955, 'eval_runtime': 37.2317, 'eval_samples_per_second': 26.859, 'eval_steps_per_second': 1.128, 'epoch': 1.19}
+{'loss': 1.6482, 'grad_norm': 2.7406537532806396, 'learning_rate': 3.373273761169781e-06, 'epoch': 1.2}
+{'loss': 1.6343, 'grad_norm': 2.746194362640381, 'learning_rate': 3.3712428919577582e-06, 'epoch': 1.2}
+{'loss': 1.6577, 'grad_norm': 2.767970323562622, 'learning_rate': 3.3692120227457355e-06, 'epoch': 1.2}
+{'loss': 1.5941, 'grad_norm': 2.730640172958374, 'learning_rate': 3.3671811535337128e-06, 'epoch': 1.2}
+{'loss': 1.6362, 'grad_norm': 2.5661444664001465, 'learning_rate': 3.36515028432169e-06, 'epoch': 1.2}
+{'loss': 1.6526, 'grad_norm': 2.5915091037750244, 'learning_rate': 3.3631194151096673e-06, 'epoch': 1.2}
+{'loss': 1.6999, 'grad_norm': 2.7135071754455566, 'learning_rate': 3.3610885458976446e-06, 'epoch': 1.2}
+{'loss': 1.684, 'grad_norm': 2.591201066970825, 'learning_rate': 3.359057676685622e-06, 'epoch': 1.2}
+{'loss': 1.5815, 'grad_norm': 2.564439296722412, 'learning_rate': 3.357026807473599e-06, 'epoch': 1.2}
+{'loss': 1.6284, 'grad_norm': 2.4480631351470947, 'learning_rate': 3.354995938261576e-06, 'epoch': 1.21}
+{'eval_loss': 1.8628013134002686, 'eval_runtime': 37.23, 'eval_samples_per_second': 26.86, 'eval_steps_per_second': 1.128, 'epoch': 1.21}
+{'loss': 1.5841, 'grad_norm': 2.5392649173736572, 'learning_rate': 3.3529650690495537e-06, 'epoch': 1.21}
+{'loss': 1.6278, 'grad_norm': 2.6359004974365234, 'learning_rate': 3.3509341998375305e-06, 'epoch': 1.21}
+{'loss': 1.6602, 'grad_norm': 2.803671360015869, 'learning_rate': 3.3489033306255082e-06, 'epoch': 1.21}
+{'loss': 1.6021, 'grad_norm': 2.6031086444854736, 'learning_rate': 3.346872461413485e-06, 'epoch': 1.21}
+{'loss': 1.6207, 'grad_norm': 2.687382459640503, 'learning_rate': 3.344841592201463e-06, 'epoch': 1.21}
+{'loss': 1.6194, 'grad_norm': 2.6388001441955566, 'learning_rate': 3.3428107229894397e-06, 'epoch': 1.21}
+{'loss': 1.6532, 'grad_norm': 2.603121042251587, 'learning_rate': 3.3407798537774174e-06, 'epoch': 1.21}
+{'loss': 1.68, 'grad_norm': 2.8053836822509766, 'learning_rate': 3.338748984565394e-06, 'epoch': 1.21}
+{'loss': 1.7164, 'grad_norm': 2.5472421646118164, 'learning_rate': 3.336718115353372e-06, 'epoch': 1.22}
+{'loss': 1.6441, 'grad_norm': 2.5142838954925537, 'learning_rate': 3.3346872461413488e-06, 'epoch': 1.22}
+{'eval_loss': 1.8628681898117065, 'eval_runtime': 36.8298, 'eval_samples_per_second': 27.152, 'eval_steps_per_second': 1.14, 'epoch': 1.22}
+{'loss': 1.6235, 'grad_norm': 2.6917803287506104, 'learning_rate': 3.3326563769293256e-06, 'epoch': 1.22}
+{'loss': 1.6488, 'grad_norm': 2.6062285900115967, 'learning_rate': 3.3306255077173033e-06, 'epoch': 1.22}
+{'loss': 1.639, 'grad_norm': 2.5503156185150146, 'learning_rate': 3.32859463850528e-06, 'epoch': 1.22}
+{'loss': 1.5951, 'grad_norm': 2.433518648147583, 'learning_rate': 3.326563769293258e-06, 'epoch': 1.22}
+{'loss': 1.6148, 'grad_norm': 2.600661516189575, 'learning_rate': 3.3245329000812347e-06, 'epoch': 1.22}
+{'loss': 1.6334, 'grad_norm': 2.5558395385742188, 'learning_rate': 3.3225020308692124e-06, 'epoch': 1.22}
+{'loss': 1.5858, 'grad_norm': 2.6363396644592285, 'learning_rate': 3.3204711616571893e-06, 'epoch': 1.22}
+{'loss': 1.6274, 'grad_norm': 2.819617748260498, 'learning_rate': 3.318440292445167e-06, 'epoch': 1.23}
+{'loss': 1.6081, 'grad_norm': 2.9121081829071045, 'learning_rate': 3.316409423233144e-06, 'epoch': 1.23}
+{'loss': 1.6889, 'grad_norm': 2.734858989715576, 'learning_rate': 3.3143785540211215e-06, 'epoch': 1.23}
+{'eval_loss': 1.8644160032272339, 'eval_runtime': 37.0389, 'eval_samples_per_second': 26.999, 'eval_steps_per_second': 1.134, 'epoch': 1.23}
+{'loss': 1.6463, 'grad_norm': 2.6940014362335205, 'learning_rate': 3.3123476848090984e-06, 'epoch': 1.23}
+{'loss': 1.6474, 'grad_norm': 2.82663631439209, 'learning_rate': 3.310316815597076e-06, 'epoch': 1.23}
+{'loss': 1.7172, 'grad_norm': 2.634434223175049, 'learning_rate': 3.308285946385053e-06, 'epoch': 1.23}
+{'loss': 1.5795, 'grad_norm': 2.6721079349517822, 'learning_rate': 3.30625507717303e-06, 'epoch': 1.23}
+{'loss': 1.6634, 'grad_norm': 2.786130666732788, 'learning_rate': 3.3042242079610075e-06, 'epoch': 1.23}
+{'loss': 1.687, 'grad_norm': 2.7698960304260254, 'learning_rate': 3.3021933387489847e-06, 'epoch': 1.23}
+{'loss': 1.6372, 'grad_norm': 2.6305580139160156, 'learning_rate': 3.300162469536962e-06, 'epoch': 1.24}
+{'loss': 1.6746, 'grad_norm': 2.5221288204193115, 'learning_rate': 3.2981316003249393e-06, 'epoch': 1.24}
+{'loss': 1.6538, 'grad_norm': 2.583643674850464, 'learning_rate': 3.2961007311129166e-06, 'epoch': 1.24}
+{'loss': 1.7177, 'grad_norm': 2.5978968143463135, 'learning_rate': 3.294069861900894e-06, 'epoch': 1.24}
+{'eval_loss': 1.8665071725845337, 'eval_runtime': 37.1194, 'eval_samples_per_second': 26.94, 'eval_steps_per_second': 1.131, 'epoch': 1.24}
+{'loss': 1.657, 'grad_norm': 2.6446492671966553, 'learning_rate': 3.292038992688871e-06, 'epoch': 1.24}
+{'loss': 1.682, 'grad_norm': 2.646174192428589, 'learning_rate': 3.2900081234768484e-06, 'epoch': 1.24}
+{'loss': 1.7033, 'grad_norm': 2.671532392501831, 'learning_rate': 3.2879772542648257e-06, 'epoch': 1.24}
+{'loss': 1.586, 'grad_norm': 2.616450309753418, 'learning_rate': 3.285946385052803e-06, 'epoch': 1.24}
+{'loss': 1.6599, 'grad_norm': 2.552800416946411, 'learning_rate': 3.2839155158407802e-06, 'epoch': 1.24}
+{'loss': 1.5593, 'grad_norm': 2.5700533390045166, 'learning_rate': 3.2818846466287575e-06, 'epoch': 1.24}
+{'loss': 1.7097, 'grad_norm': 2.675553560256958, 'learning_rate': 3.2798537774167344e-06, 'epoch': 1.25}
+{'loss': 1.6408, 'grad_norm': 2.6610019207000732, 'learning_rate': 3.277822908204712e-06, 'epoch': 1.25}
+{'loss': 1.5909, 'grad_norm': 2.55435848236084, 'learning_rate': 3.275792038992689e-06, 'epoch': 1.25}
+{'loss': 1.6552, 'grad_norm': 2.811556816101074, 'learning_rate': 3.2737611697806666e-06, 'epoch': 1.25}
+{'eval_loss': 1.8618569374084473, 'eval_runtime': 37.1359, 'eval_samples_per_second': 26.928, 'eval_steps_per_second': 1.131, 'epoch': 1.25}
+{'loss': 1.6144, 'grad_norm': 2.7060115337371826, 'learning_rate': 3.2717303005686435e-06, 'epoch': 1.25}
+{'loss': 1.6481, 'grad_norm': 2.6817731857299805, 'learning_rate': 3.269699431356621e-06, 'epoch': 1.25}
+{'loss': 1.6294, 'grad_norm': 2.8206212520599365, 'learning_rate': 3.267668562144598e-06, 'epoch': 1.25}
+{'loss': 1.6103, 'grad_norm': 2.834332227706909, 'learning_rate': 3.2656376929325757e-06, 'epoch': 1.25}
+{'loss': 1.6788, 'grad_norm': 2.754049062728882, 'learning_rate': 3.2636068237205526e-06, 'epoch': 1.25}
+{'loss': 1.6469, 'grad_norm': 2.6089437007904053, 'learning_rate': 3.2615759545085303e-06, 'epoch': 1.26}
+{'loss': 1.7122, 'grad_norm': 2.6095848083496094, 'learning_rate': 3.259545085296507e-06, 'epoch': 1.26}
+{'loss': 1.5851, 'grad_norm': 2.606787919998169, 'learning_rate': 3.257514216084484e-06, 'epoch': 1.26}
+{'loss': 1.7042, 'grad_norm': 2.643245220184326, 'learning_rate': 3.2554833468724617e-06, 'epoch': 1.26}
+{'loss': 1.6526, 'grad_norm': 2.8400895595550537, 'learning_rate': 3.2534524776604385e-06, 'epoch': 1.26}
+{'eval_loss': 1.8640165328979492, 'eval_runtime': 37.162, 'eval_samples_per_second': 26.909, 'eval_steps_per_second': 1.13, 'epoch': 1.26}
+{'loss': 1.6268, 'grad_norm': 2.519524335861206, 'learning_rate': 3.2514216084484162e-06, 'epoch': 1.26}
+{'loss': 1.6562, 'grad_norm': 2.565365791320801, 'learning_rate': 3.249390739236393e-06, 'epoch': 1.26}
+{'loss': 1.6143, 'grad_norm': 2.6364638805389404, 'learning_rate': 3.2473598700243708e-06, 'epoch': 1.26}
+{'loss': 1.64, 'grad_norm': 2.6235382556915283, 'learning_rate': 3.2453290008123476e-06, 'epoch': 1.26}
+{'loss': 1.6509, 'grad_norm': 2.7358779907226562, 'learning_rate': 3.2432981316003253e-06, 'epoch': 1.27}
+{'loss': 1.5902, 'grad_norm': 2.6720035076141357, 'learning_rate': 3.241267262388302e-06, 'epoch': 1.27}
+{'loss': 1.6378, 'grad_norm': 2.5960681438446045, 'learning_rate': 3.23923639317628e-06, 'epoch': 1.27}
+{'loss': 1.6102, 'grad_norm': 2.6655092239379883, 'learning_rate': 3.2372055239642567e-06, 'epoch': 1.27}
+{'loss': 1.6558, 'grad_norm': 2.7873294353485107, 'learning_rate': 3.2351746547522344e-06, 'epoch': 1.27}
+{'loss': 1.7116, 'grad_norm': 2.746189594268799, 'learning_rate': 3.2331437855402113e-06, 'epoch': 1.27}
+{'eval_loss': 1.8605948686599731, 'eval_runtime': 37.1486, 'eval_samples_per_second': 26.919, 'eval_steps_per_second': 1.131, 'epoch': 1.27}
+{'loss': 1.6156, 'grad_norm': 2.5058770179748535, 'learning_rate': 3.2311129163281885e-06, 'epoch': 1.27}
+{'loss': 1.6884, 'grad_norm': 2.8002450466156006, 'learning_rate': 3.229082047116166e-06, 'epoch': 1.27}
+{'loss': 1.6403, 'grad_norm': 2.696186065673828, 'learning_rate': 3.227051177904143e-06, 'epoch': 1.27}
+{'loss': 1.6375, 'grad_norm': 2.5473484992980957, 'learning_rate': 3.2250203086921204e-06, 'epoch': 1.28}
+{'loss': 1.6597, 'grad_norm': 2.6391875743865967, 'learning_rate': 3.2229894394800977e-06, 'epoch': 1.28}
+{'loss': 1.5666, 'grad_norm': 2.647244453430176, 'learning_rate': 3.220958570268075e-06, 'epoch': 1.28}
+{'loss': 1.6211, 'grad_norm': 2.849031448364258, 'learning_rate': 3.218927701056052e-06, 'epoch': 1.28}
+{'loss': 1.5686, 'grad_norm': 2.7565410137176514, 'learning_rate': 3.2168968318440295e-06, 'epoch': 1.28}
+{'loss': 1.7046, 'grad_norm': 2.938270092010498, 'learning_rate': 3.2148659626320068e-06, 'epoch': 1.28}
+{'loss': 1.602, 'grad_norm': 2.6462385654449463, 'learning_rate': 3.212835093419984e-06, 'epoch': 1.28}
+{'eval_loss': 1.8577098846435547, 'eval_runtime': 37.1448, 'eval_samples_per_second': 26.922, 'eval_steps_per_second': 1.131, 'epoch': 1.28}
+{'loss': 1.636, 'grad_norm': 2.679330587387085, 'learning_rate': 3.2108042242079613e-06, 'epoch': 1.28}
+{'loss': 1.6904, 'grad_norm': 2.6410343647003174, 'learning_rate': 3.2087733549959386e-06, 'epoch': 1.28}
+{'loss': 1.597, 'grad_norm': 2.6398510932922363, 'learning_rate': 3.206742485783916e-06, 'epoch': 1.29}
+{'loss': 1.5823, 'grad_norm': 2.4636199474334717, 'learning_rate': 3.2047116165718927e-06, 'epoch': 1.29}
+{'loss': 1.6591, 'grad_norm': 2.646580457687378, 'learning_rate': 3.2026807473598704e-06, 'epoch': 1.29}
+{'loss': 1.6731, 'grad_norm': 2.8582923412323, 'learning_rate': 3.2006498781478473e-06, 'epoch': 1.29}
+{'loss': 1.5656, 'grad_norm': 2.5474820137023926, 'learning_rate': 3.198619008935825e-06, 'epoch': 1.29}
+{'loss': 1.6374, 'grad_norm': 2.6609606742858887, 'learning_rate': 3.196588139723802e-06, 'epoch': 1.29}
+{'loss': 1.6557, 'grad_norm': 2.651947021484375, 'learning_rate': 3.1945572705117795e-06, 'epoch': 1.29}
+{'loss': 1.6436, 'grad_norm': 2.6957671642303467, 'learning_rate': 3.1925264012997564e-06, 'epoch': 1.29}
+{'eval_loss': 1.8583322763442993, 'eval_runtime': 37.1374, 'eval_samples_per_second': 26.927, 'eval_steps_per_second': 1.131, 'epoch': 1.29}
+{'loss': 1.6424, 'grad_norm': 2.5442283153533936, 'learning_rate': 3.190495532087734e-06, 'epoch': 1.29}
+{'loss': 1.7012, 'grad_norm': 2.593792200088501, 'learning_rate': 3.188464662875711e-06, 'epoch': 1.3}
+{'loss': 1.6268, 'grad_norm': 2.5021846294403076, 'learning_rate': 3.1864337936636886e-06, 'epoch': 1.3}
+{'loss': 1.5953, 'grad_norm': 2.7368624210357666, 'learning_rate': 3.1844029244516655e-06, 'epoch': 1.3}
+{'loss': 1.5866, 'grad_norm': 2.5100302696228027, 'learning_rate': 3.182372055239643e-06, 'epoch': 1.3}
+{'loss': 1.6621, 'grad_norm': 2.5767033100128174, 'learning_rate': 3.18034118602762e-06, 'epoch': 1.3}
+{'loss': 1.6554, 'grad_norm': 2.4694652557373047, 'learning_rate': 3.1783103168155973e-06, 'epoch': 1.3}
+{'loss': 1.6238, 'grad_norm': 2.606158971786499, 'learning_rate': 3.1762794476035746e-06, 'epoch': 1.3}
+{'loss': 1.626, 'grad_norm': 2.857424020767212, 'learning_rate': 3.174248578391552e-06, 'epoch': 1.3}
+{'loss': 1.6134, 'grad_norm': 2.6120405197143555, 'learning_rate': 3.172217709179529e-06, 'epoch': 1.3}
+{'eval_loss': 1.8599685430526733, 'eval_runtime': 37.1373, 'eval_samples_per_second': 26.927, 'eval_steps_per_second': 1.131, 'epoch': 1.3}
+{'loss': 1.6303, 'grad_norm': 2.61995530128479, 'learning_rate': 3.1701868399675064e-06, 'epoch': 1.31}
+{'loss': 1.5886, 'grad_norm': 2.6253163814544678, 'learning_rate': 3.1681559707554837e-06, 'epoch': 1.31}
+{'loss': 1.6526, 'grad_norm': 2.627302885055542, 'learning_rate': 3.166125101543461e-06, 'epoch': 1.31}
+{'loss': 1.6581, 'grad_norm': 2.8007607460021973, 'learning_rate': 3.1640942323314382e-06, 'epoch': 1.31}
+{'loss': 1.5921, 'grad_norm': 2.551227331161499, 'learning_rate': 3.1620633631194155e-06, 'epoch': 1.31}
+{'loss': 1.6478, 'grad_norm': 2.7288761138916016, 'learning_rate': 3.1600324939073928e-06, 'epoch': 1.31}
+{'loss': 1.6552, 'grad_norm': 2.5698401927948, 'learning_rate': 3.15800162469537e-06, 'epoch': 1.31}
+{'loss': 1.6391, 'grad_norm': 2.796701192855835, 'learning_rate': 3.155970755483347e-06, 'epoch': 1.31}
+{'loss': 1.6495, 'grad_norm': 2.6523337364196777, 'learning_rate': 3.1539398862713246e-06, 'epoch': 1.31}
+{'loss': 1.6396, 'grad_norm': 2.5528745651245117, 'learning_rate': 3.1519090170593015e-06, 'epoch': 1.32}
+{'eval_loss': 1.8551454544067383, 'eval_runtime': 37.1721, 'eval_samples_per_second': 26.902, 'eval_steps_per_second': 1.13, 'epoch': 1.32}
+{'loss': 1.6803, 'grad_norm': 2.650125741958618, 'learning_rate': 3.149878147847279e-06, 'epoch': 1.32}
+{'loss': 1.726, 'grad_norm': 2.5522522926330566, 'learning_rate': 3.147847278635256e-06, 'epoch': 1.32}
+{'loss': 1.6238, 'grad_norm': 2.5302486419677734, 'learning_rate': 3.1458164094232337e-06, 'epoch': 1.32}
+{'loss': 1.5879, 'grad_norm': 2.517793893814087, 'learning_rate': 3.1437855402112106e-06, 'epoch': 1.32}
+{'loss': 1.6361, 'grad_norm': 2.5749523639678955, 'learning_rate': 3.1417546709991883e-06, 'epoch': 1.32}
+{'loss': 1.6143, 'grad_norm': 2.6382429599761963, 'learning_rate': 3.139723801787165e-06, 'epoch': 1.32}
+{'loss': 1.6608, 'grad_norm': 2.7513139247894287, 'learning_rate': 3.137692932575143e-06, 'epoch': 1.32}
+{'loss': 1.5842, 'grad_norm': 2.616007089614868, 'learning_rate': 3.1356620633631197e-06, 'epoch': 1.32}
+{'loss': 1.6419, 'grad_norm': 2.619389772415161, 'learning_rate': 3.1336311941510974e-06, 'epoch': 1.32}
+{'loss': 1.6726, 'grad_norm': 2.6845619678497314, 'learning_rate': 3.1316003249390742e-06, 'epoch': 1.33}
+{'eval_loss': 1.8519575595855713, 'eval_runtime': 36.823, 'eval_samples_per_second': 27.157, 'eval_steps_per_second': 1.141, 'epoch': 1.33}
+{'loss': 1.6813, 'grad_norm': 2.9907562732696533, 'learning_rate': 3.129569455727051e-06, 'epoch': 1.33}
+{'loss': 1.6449, 'grad_norm': 2.5070035457611084, 'learning_rate': 3.1275385865150288e-06, 'epoch': 1.33}
+{'loss': 1.6614, 'grad_norm': 2.6286256313323975, 'learning_rate': 3.1255077173030056e-06, 'epoch': 1.33}
+{'loss': 1.6191, 'grad_norm': 2.5735433101654053, 'learning_rate': 3.1234768480909833e-06, 'epoch': 1.33}
+{'loss': 1.6649, 'grad_norm': 2.637507438659668, 'learning_rate': 3.12144597887896e-06, 'epoch': 1.33}
+{'loss': 1.6779, 'grad_norm': 2.5027501583099365, 'learning_rate': 3.119415109666938e-06, 'epoch': 1.33}
+{'loss': 1.6428, 'grad_norm': 2.8430395126342773, 'learning_rate': 3.1173842404549147e-06, 'epoch': 1.33}
+{'loss': 1.655, 'grad_norm': 2.6394317150115967, 'learning_rate': 3.1153533712428924e-06, 'epoch': 1.33}
+{'loss': 1.6798, 'grad_norm': 2.7121026515960693, 'learning_rate': 3.1133225020308693e-06, 'epoch': 1.34}
+{'loss': 1.6937, 'grad_norm': 2.6572396755218506, 'learning_rate': 3.111291632818847e-06, 'epoch': 1.34}
+{'eval_loss': 1.857973575592041, 'eval_runtime': 37.0635, 'eval_samples_per_second': 26.981, 'eval_steps_per_second': 1.133, 'epoch': 1.34}
+{'loss': 1.6454, 'grad_norm': 2.660865306854248, 'learning_rate': 3.109260763606824e-06, 'epoch': 1.34}
+{'loss': 1.6562, 'grad_norm': 2.6230008602142334, 'learning_rate': 3.1072298943948015e-06, 'epoch': 1.34}
+{'loss': 1.6311, 'grad_norm': 2.60079026222229, 'learning_rate': 3.1051990251827784e-06, 'epoch': 1.34}
+{'loss': 1.6673, 'grad_norm': 2.6757969856262207, 'learning_rate': 3.1031681559707557e-06, 'epoch': 1.34}
+{'loss': 1.665, 'grad_norm': 2.6204211711883545, 'learning_rate': 3.101137286758733e-06, 'epoch': 1.34}
+{'loss': 1.6864, 'grad_norm': 2.7115979194641113, 'learning_rate': 3.09910641754671e-06, 'epoch': 1.34}
+{'loss': 1.6364, 'grad_norm': 2.604799270629883, 'learning_rate': 3.0970755483346875e-06, 'epoch': 1.34}
+{'loss': 1.699, 'grad_norm': 2.7463159561157227, 'learning_rate': 3.0950446791226648e-06, 'epoch': 1.35}
+{'loss': 1.665, 'grad_norm': 2.744046926498413, 'learning_rate': 3.093013809910642e-06, 'epoch': 1.35}
+{'loss': 1.7027, 'grad_norm': 2.8082664012908936, 'learning_rate': 3.0909829406986193e-06, 'epoch': 1.35}
+{'eval_loss': 1.8549033403396606, 'eval_runtime': 37.1604, 'eval_samples_per_second': 26.91, 'eval_steps_per_second': 1.13, 'epoch': 1.35}
+{'loss': 1.6635, 'grad_norm': 2.6146464347839355, 'learning_rate': 3.0889520714865966e-06, 'epoch': 1.35}
+{'loss': 1.64, 'grad_norm': 2.724843978881836, 'learning_rate': 3.086921202274574e-06, 'epoch': 1.35}
+{'loss': 1.5988, 'grad_norm': 2.699645757675171, 'learning_rate': 3.084890333062551e-06, 'epoch': 1.35}
+{'loss': 1.6478, 'grad_norm': 2.769742727279663, 'learning_rate': 3.0828594638505284e-06, 'epoch': 1.35}
+{'loss': 1.6285, 'grad_norm': 2.5372848510742188, 'learning_rate': 3.0808285946385057e-06, 'epoch': 1.35}
+{'loss': 1.5669, 'grad_norm': 2.6461033821105957, 'learning_rate': 3.078797725426483e-06, 'epoch': 1.35}
+{'loss': 1.6455, 'grad_norm': 2.8221795558929443, 'learning_rate': 3.07676685621446e-06, 'epoch': 1.36}
+{'loss': 1.6063, 'grad_norm': 2.6035211086273193, 'learning_rate': 3.0747359870024375e-06, 'epoch': 1.36}
+{'loss': 1.6234, 'grad_norm': 2.533945322036743, 'learning_rate': 3.0727051177904144e-06, 'epoch': 1.36}
+{'loss': 1.6381, 'grad_norm': 2.627448797225952, 'learning_rate': 3.070674248578392e-06, 'epoch': 1.36}
+{'eval_loss': 1.8547505140304565, 'eval_runtime': 37.226, 'eval_samples_per_second': 26.863, 'eval_steps_per_second': 1.128, 'epoch': 1.36}
+{'loss': 1.6436, 'grad_norm': 2.6822423934936523, 'learning_rate': 3.068643379366369e-06, 'epoch': 1.36}
+{'loss': 1.5901, 'grad_norm': 2.647813558578491, 'learning_rate': 3.0666125101543466e-06, 'epoch': 1.36}
+{'loss': 1.6559, 'grad_norm': 2.619610548019409, 'learning_rate': 3.0645816409423235e-06, 'epoch': 1.36}
+{'loss': 1.6167, 'grad_norm': 2.7284183502197266, 'learning_rate': 3.062550771730301e-06, 'epoch': 1.36}
+{'loss': 1.6176, 'grad_norm': 2.585660934448242, 'learning_rate': 3.060519902518278e-06, 'epoch': 1.36}
+{'loss': 1.5651, 'grad_norm': 2.689528465270996, 'learning_rate': 3.0584890333062557e-06, 'epoch': 1.37}
+{'loss': 1.6487, 'grad_norm': 2.484328508377075, 'learning_rate': 3.0564581640942326e-06, 'epoch': 1.37}
+{'loss': 1.6099, 'grad_norm': 2.629913806915283, 'learning_rate': 3.0544272948822094e-06, 'epoch': 1.37}
+{'loss': 1.6702, 'grad_norm': 2.711730480194092, 'learning_rate': 3.052396425670187e-06, 'epoch': 1.37}
+{'loss': 1.6078, 'grad_norm': 2.590545415878296, 'learning_rate': 3.050365556458164e-06, 'epoch': 1.37}
+{'eval_loss': 1.8545923233032227, 'eval_runtime': 37.2534, 'eval_samples_per_second': 26.843, 'eval_steps_per_second': 1.127, 'epoch': 1.37}
+{'loss': 1.6084, 'grad_norm': 2.5952389240264893, 'learning_rate': 3.0483346872461417e-06, 'epoch': 1.37}
+{'loss': 1.6427, 'grad_norm': 2.739316940307617, 'learning_rate': 3.0463038180341185e-06, 'epoch': 1.37}
+{'loss': 1.6817, 'grad_norm': 2.811095952987671, 'learning_rate': 3.0442729488220962e-06, 'epoch': 1.37}
+{'loss': 1.6695, 'grad_norm': 2.606715440750122, 'learning_rate': 3.042242079610073e-06, 'epoch': 1.37}
+{'loss': 1.5762, 'grad_norm': 2.481234550476074, 'learning_rate': 3.0402112103980508e-06, 'epoch': 1.38}
+{'loss': 1.612, 'grad_norm': 2.508068084716797, 'learning_rate': 3.0381803411860276e-06, 'epoch': 1.38}
+{'loss': 1.6457, 'grad_norm': 2.5694284439086914, 'learning_rate': 3.0361494719740053e-06, 'epoch': 1.38}
+{'loss': 1.6201, 'grad_norm': 2.7029778957366943, 'learning_rate': 3.034118602761982e-06, 'epoch': 1.38}
+{'loss': 1.5978, 'grad_norm': 2.578904867172241, 'learning_rate': 3.03208773354996e-06, 'epoch': 1.38}
+{'loss': 1.6793, 'grad_norm': 2.780586004257202, 'learning_rate': 3.0300568643379367e-06, 'epoch': 1.38}
+{'eval_loss': 1.8522270917892456, 'eval_runtime': 37.2388, 'eval_samples_per_second': 26.854, 'eval_steps_per_second': 1.128, 'epoch': 1.38}
+{'loss': 1.6626, 'grad_norm': 2.648653984069824, 'learning_rate': 3.028025995125914e-06, 'epoch': 1.38}
+{'loss': 1.5822, 'grad_norm': 2.631589651107788, 'learning_rate': 3.0259951259138913e-06, 'epoch': 1.38}
+{'loss': 1.6322, 'grad_norm': 2.5863327980041504, 'learning_rate': 3.0239642567018686e-06, 'epoch': 1.38}
+{'loss': 1.5727, 'grad_norm': 2.6556999683380127, 'learning_rate': 3.021933387489846e-06, 'epoch': 1.39}
+{'loss': 1.6334, 'grad_norm': 2.6391682624816895, 'learning_rate': 3.019902518277823e-06, 'epoch': 1.39}
+{'loss': 1.6588, 'grad_norm': 2.6488680839538574, 'learning_rate': 3.0178716490658004e-06, 'epoch': 1.39}
+{'loss': 1.5963, 'grad_norm': 2.743858814239502, 'learning_rate': 3.0158407798537777e-06, 'epoch': 1.39}
+{'loss': 1.5997, 'grad_norm': 2.6499438285827637, 'learning_rate': 3.013809910641755e-06, 'epoch': 1.39}
+{'loss': 1.6122, 'grad_norm': 2.5450377464294434, 'learning_rate': 3.0117790414297322e-06, 'epoch': 1.39}
+{'loss': 1.6362, 'grad_norm': 2.592026948928833, 'learning_rate': 3.0097481722177095e-06, 'epoch': 1.39}
+{'eval_loss': 1.84926176071167, 'eval_runtime': 37.2501, 'eval_samples_per_second': 26.846, 'eval_steps_per_second': 1.128, 'epoch': 1.39}
+{'loss': 1.6055, 'grad_norm': 2.5699622631073, 'learning_rate': 3.0077173030056868e-06, 'epoch': 1.39}
+{'loss': 1.6503, 'grad_norm': 2.779695987701416, 'learning_rate': 3.005686433793664e-06, 'epoch': 1.39}
+{'loss': 1.6121, 'grad_norm': 2.6080546379089355, 'learning_rate': 3.0036555645816413e-06, 'epoch': 1.4}
+{'loss': 1.6774, 'grad_norm': 2.70405650138855, 'learning_rate': 3.001624695369618e-06, 'epoch': 1.4}
+{'loss': 1.6186, 'grad_norm': 2.69488525390625, 'learning_rate': 2.999593826157596e-06, 'epoch': 1.4}
+{'loss': 1.6485, 'grad_norm': 2.9266953468322754, 'learning_rate': 2.9975629569455727e-06, 'epoch': 1.4}
+{'loss': 1.624, 'grad_norm': 2.615251302719116, 'learning_rate': 2.9955320877335504e-06, 'epoch': 1.4}
+{'loss': 1.6637, 'grad_norm': 2.574878215789795, 'learning_rate': 2.9935012185215273e-06, 'epoch': 1.4}
+{'loss': 1.627, 'grad_norm': 2.6952786445617676, 'learning_rate': 2.991470349309505e-06, 'epoch': 1.4}
+{'loss': 1.6175, 'grad_norm': 2.6076977252960205, 'learning_rate': 2.989439480097482e-06, 'epoch': 1.4}
+{'eval_loss': 1.8475773334503174, 'eval_runtime': 37.2328, 'eval_samples_per_second': 26.858, 'eval_steps_per_second': 1.128, 'epoch': 1.4}
+{'loss': 1.6332, 'grad_norm': 2.5707366466522217, 'learning_rate': 2.9874086108854595e-06, 'epoch': 1.4}
+{'loss': 1.6764, 'grad_norm': 2.838609457015991, 'learning_rate': 2.9853777416734364e-06, 'epoch': 1.4}
+{'loss': 1.6622, 'grad_norm': 2.771082878112793, 'learning_rate': 2.983346872461414e-06, 'epoch': 1.41}
+{'loss': 1.6405, 'grad_norm': 2.6113975048065186, 'learning_rate': 2.981316003249391e-06, 'epoch': 1.41}
+{'loss': 1.6376, 'grad_norm': 2.7537200450897217, 'learning_rate': 2.9792851340373678e-06, 'epoch': 1.41}
+{'loss': 1.6679, 'grad_norm': 2.683002471923828, 'learning_rate': 2.9772542648253455e-06, 'epoch': 1.41}
+{'loss': 1.6091, 'grad_norm': 2.651897430419922, 'learning_rate': 2.9752233956133223e-06, 'epoch': 1.41}
+{'loss': 1.6223, 'grad_norm': 2.6856229305267334, 'learning_rate': 2.9731925264013e-06, 'epoch': 1.41}
+{'loss': 1.6126, 'grad_norm': 2.646522045135498, 'learning_rate': 2.971161657189277e-06, 'epoch': 1.41}
+{'loss': 1.6088, 'grad_norm': 2.592247486114502, 'learning_rate': 2.9691307879772546e-06, 'epoch': 1.41}
+{'eval_loss': 1.8501410484313965, 'eval_runtime': 37.225, 'eval_samples_per_second': 26.864, 'eval_steps_per_second': 1.128, 'epoch': 1.41}
+{'loss': 1.6051, 'grad_norm': 3.03291392326355, 'learning_rate': 2.9670999187652314e-06, 'epoch': 1.41}
+{'loss': 1.6753, 'grad_norm': 2.903224468231201, 'learning_rate': 2.965069049553209e-06, 'epoch': 1.42}
+{'loss': 1.5894, 'grad_norm': 2.5178730487823486, 'learning_rate': 2.963038180341186e-06, 'epoch': 1.42}
+{'loss': 1.6687, 'grad_norm': 2.6278252601623535, 'learning_rate': 2.9610073111291637e-06, 'epoch': 1.42}
+{'loss': 1.6648, 'grad_norm': 2.8105742931365967, 'learning_rate': 2.9589764419171405e-06, 'epoch': 1.42}
+{'loss': 1.6012, 'grad_norm': 2.5897178649902344, 'learning_rate': 2.9569455727051182e-06, 'epoch': 1.42}
+{'loss': 1.6206, 'grad_norm': 2.7172093391418457, 'learning_rate': 2.954914703493095e-06, 'epoch': 1.42}
+{'loss': 1.6163, 'grad_norm': 2.6845815181732178, 'learning_rate': 2.9528838342810724e-06, 'epoch': 1.42}
+{'loss': 1.5916, 'grad_norm': 2.652451753616333, 'learning_rate': 2.9508529650690496e-06, 'epoch': 1.42}
+{'loss': 1.627, 'grad_norm': 2.740280866622925, 'learning_rate': 2.948822095857027e-06, 'epoch': 1.42}
+{'eval_loss': 1.8489265441894531, 'eval_runtime': 37.2517, 'eval_samples_per_second': 26.844, 'eval_steps_per_second': 1.127, 'epoch': 1.42}
+{'loss': 1.6005, 'grad_norm': 2.786797285079956, 'learning_rate': 2.946791226645004e-06, 'epoch': 1.43}
+{'loss': 1.5887, 'grad_norm': 2.6826601028442383, 'learning_rate': 2.9447603574329815e-06, 'epoch': 1.43}
+{'loss': 1.6198, 'grad_norm': 2.881887912750244, 'learning_rate': 2.9427294882209587e-06, 'epoch': 1.43}
+{'loss': 1.6252, 'grad_norm': 2.86600923538208, 'learning_rate': 2.940698619008936e-06, 'epoch': 1.43}
+{'loss': 1.6314, 'grad_norm': 2.7267069816589355, 'learning_rate': 2.9386677497969133e-06, 'epoch': 1.43}
+{'loss': 1.6434, 'grad_norm': 2.768399477005005, 'learning_rate': 2.9366368805848906e-06, 'epoch': 1.43}
+{'loss': 1.6412, 'grad_norm': 2.70622181892395, 'learning_rate': 2.934606011372868e-06, 'epoch': 1.43}
+{'loss': 1.6402, 'grad_norm': 2.803354501724243, 'learning_rate': 2.932575142160845e-06, 'epoch': 1.43}
+{'loss': 1.6244, 'grad_norm': 2.8491063117980957, 'learning_rate': 2.9305442729488224e-06, 'epoch': 1.43}
+{'loss': 1.6315, 'grad_norm': 2.5652339458465576, 'learning_rate': 2.9285134037367997e-06, 'epoch': 1.44}
+{'eval_loss': 1.8461908102035522, 'eval_runtime': 36.9233, 'eval_samples_per_second': 27.083, 'eval_steps_per_second': 1.137, 'epoch': 1.44}
+{'loss': 1.6714, 'grad_norm': 2.7153713703155518, 'learning_rate': 2.9264825345247765e-06, 'epoch': 1.44}
+{'loss': 1.6355, 'grad_norm': 2.779289484024048, 'learning_rate': 2.9244516653127542e-06, 'epoch': 1.44}
+{'loss': 1.5574, 'grad_norm': 2.6597917079925537, 'learning_rate': 2.922420796100731e-06, 'epoch': 1.44}
+{'loss': 1.6721, 'grad_norm': 2.7135894298553467, 'learning_rate': 2.9203899268887088e-06, 'epoch': 1.44}
+{'loss': 1.5745, 'grad_norm': 2.562045097351074, 'learning_rate': 2.9183590576766856e-06, 'epoch': 1.44}
+{'loss': 1.6324, 'grad_norm': 2.6727097034454346, 'learning_rate': 2.9163281884646633e-06, 'epoch': 1.44}
+{'loss': 1.6698, 'grad_norm': 2.688309907913208, 'learning_rate': 2.91429731925264e-06, 'epoch': 1.44}
+{'loss': 1.6378, 'grad_norm': 2.8429853916168213, 'learning_rate': 2.912266450040618e-06, 'epoch': 1.44}
+{'loss': 1.6237, 'grad_norm': 2.658046245574951, 'learning_rate': 2.9102355808285947e-06, 'epoch': 1.45}
+{'loss': 1.6163, 'grad_norm': 2.6601390838623047, 'learning_rate': 2.9082047116165724e-06, 'epoch': 1.45}
+{'eval_loss': 1.843716025352478, 'eval_runtime': 37.2087, 'eval_samples_per_second': 26.875, 'eval_steps_per_second': 1.129, 'epoch': 1.45}
+{'loss': 1.5883, 'grad_norm': 2.949215888977051, 'learning_rate': 2.9061738424045493e-06, 'epoch': 1.45}
+{'loss': 1.6786, 'grad_norm': 2.823991298675537, 'learning_rate': 2.904142973192527e-06, 'epoch': 1.45}
+{'loss': 1.6337, 'grad_norm': 2.6177661418914795, 'learning_rate': 2.902112103980504e-06, 'epoch': 1.45}
+{'loss': 1.6328, 'grad_norm': 2.493638038635254, 'learning_rate': 2.900081234768481e-06, 'epoch': 1.45}
+{'loss': 1.6068, 'grad_norm': 2.657914161682129, 'learning_rate': 2.8980503655564584e-06, 'epoch': 1.45}
+{'loss': 1.5963, 'grad_norm': 2.7800004482269287, 'learning_rate': 2.8960194963444357e-06, 'epoch': 1.45}
+{'loss': 1.611, 'grad_norm': 2.7934350967407227, 'learning_rate': 2.893988627132413e-06, 'epoch': 1.45}
+{'loss': 1.5621, 'grad_norm': 2.8139140605926514, 'learning_rate': 2.8919577579203902e-06, 'epoch': 1.46}
+{'loss': 1.6195, 'grad_norm': 2.5909969806671143, 'learning_rate': 2.8899268887083675e-06, 'epoch': 1.46}
+{'loss': 1.6146, 'grad_norm': 2.631871461868286, 'learning_rate': 2.8878960194963448e-06, 'epoch': 1.46}
+{'eval_loss': 1.846065878868103, 'eval_runtime': 37.2421, 'eval_samples_per_second': 26.851, 'eval_steps_per_second': 1.128, 'epoch': 1.46}
+{'loss': 1.6482, 'grad_norm': 2.667304754257202, 'learning_rate': 2.885865150284322e-06, 'epoch': 1.46}
+{'loss': 1.6231, 'grad_norm': 2.5922656059265137, 'learning_rate': 2.8838342810722993e-06, 'epoch': 1.46}
+{'loss': 1.5772, 'grad_norm': 2.663452386856079, 'learning_rate': 2.8818034118602766e-06, 'epoch': 1.46}
+{'loss': 1.6333, 'grad_norm': 2.6463005542755127, 'learning_rate': 2.879772542648254e-06, 'epoch': 1.46}
+{'loss': 1.5465, 'grad_norm': 2.5469250679016113, 'learning_rate': 2.8777416734362307e-06, 'epoch': 1.46}
+{'loss': 1.6856, 'grad_norm': 2.7316017150878906, 'learning_rate': 2.8757108042242084e-06, 'epoch': 1.46}
+{'loss': 1.667, 'grad_norm': 2.7127692699432373, 'learning_rate': 2.8736799350121853e-06, 'epoch': 1.47}
+{'loss': 1.677, 'grad_norm': 2.7006423473358154, 'learning_rate': 2.871649065800163e-06, 'epoch': 1.47}
+{'loss': 1.6092, 'grad_norm': 2.788804054260254, 'learning_rate': 2.86961819658814e-06, 'epoch': 1.47}
+{'loss': 1.6377, 'grad_norm': 2.7734181880950928, 'learning_rate': 2.8675873273761175e-06, 'epoch': 1.47}
+{'eval_loss': 1.8444476127624512, 'eval_runtime': 37.2371, 'eval_samples_per_second': 26.855, 'eval_steps_per_second': 1.128, 'epoch': 1.47}
+{'loss': 1.6072, 'grad_norm': 2.6005876064300537, 'learning_rate': 2.8655564581640944e-06, 'epoch': 1.47}
+{'loss': 1.6669, 'grad_norm': 2.684293270111084, 'learning_rate': 2.863525588952072e-06, 'epoch': 1.47}
+{'loss': 1.5439, 'grad_norm': 2.6160528659820557, 'learning_rate': 2.861494719740049e-06, 'epoch': 1.47}
+{'loss': 1.5909, 'grad_norm': 2.68396258354187, 'learning_rate': 2.8594638505280266e-06, 'epoch': 1.47}
+{'loss': 1.6225, 'grad_norm': 2.6292917728424072, 'learning_rate': 2.8574329813160035e-06, 'epoch': 1.47}
+{'loss': 1.6224, 'grad_norm': 2.702333450317383, 'learning_rate': 2.855402112103981e-06, 'epoch': 1.48}
+{'loss': 1.5995, 'grad_norm': 2.850862503051758, 'learning_rate': 2.853371242891958e-06, 'epoch': 1.48}
+{'loss': 1.6254, 'grad_norm': 2.861351490020752, 'learning_rate': 2.851340373679935e-06, 'epoch': 1.48}
+{'loss': 1.6555, 'grad_norm': 2.7731313705444336, 'learning_rate': 2.8493095044679126e-06, 'epoch': 1.48}
+{'loss': 1.6238, 'grad_norm': 2.669189691543579, 'learning_rate': 2.8472786352558894e-06, 'epoch': 1.48}
+{'eval_loss': 1.845217227935791, 'eval_runtime': 37.2809, 'eval_samples_per_second': 26.823, 'eval_steps_per_second': 1.127, 'epoch': 1.48}
+{'loss': 1.5989, 'grad_norm': 2.64485239982605, 'learning_rate': 2.845247766043867e-06, 'epoch': 1.48}
+{'loss': 1.5615, 'grad_norm': 2.7558820247650146, 'learning_rate': 2.843216896831844e-06, 'epoch': 1.48}
+{'loss': 1.5962, 'grad_norm': 2.7818500995635986, 'learning_rate': 2.8411860276198217e-06, 'epoch': 1.48}
+{'loss': 1.6434, 'grad_norm': 2.571547746658325, 'learning_rate': 2.8391551584077985e-06, 'epoch': 1.48}
+{'loss': 1.6537, 'grad_norm': 2.8242406845092773, 'learning_rate': 2.8371242891957762e-06, 'epoch': 1.48}
+{'loss': 1.6158, 'grad_norm': 2.5545597076416016, 'learning_rate': 2.835093419983753e-06, 'epoch': 1.49}
+{'loss': 1.591, 'grad_norm': 2.7329461574554443, 'learning_rate': 2.833062550771731e-06, 'epoch': 1.49}
+{'loss': 1.5727, 'grad_norm': 2.5414955615997314, 'learning_rate': 2.8310316815597076e-06, 'epoch': 1.49}
+{'loss': 1.6343, 'grad_norm': 2.7625439167022705, 'learning_rate': 2.8290008123476853e-06, 'epoch': 1.49}
+{'loss': 1.6187, 'grad_norm': 2.7839064598083496, 'learning_rate': 2.826969943135662e-06, 'epoch': 1.49}
+{'eval_loss': 1.8442766666412354, 'eval_runtime': 37.2101, 'eval_samples_per_second': 26.874, 'eval_steps_per_second': 1.129, 'epoch': 1.49}
+{'loss': 1.621, 'grad_norm': 2.615706443786621, 'learning_rate': 2.8249390739236395e-06, 'epoch': 1.49}
+{'loss': 1.5913, 'grad_norm': 2.6295979022979736, 'learning_rate': 2.8229082047116167e-06, 'epoch': 1.49}
+{'loss': 1.6015, 'grad_norm': 2.7428646087646484, 'learning_rate': 2.820877335499594e-06, 'epoch': 1.49}
+{'loss': 1.5798, 'grad_norm': 2.5353381633758545, 'learning_rate': 2.8188464662875713e-06, 'epoch': 1.49}
+{'loss': 1.5783, 'grad_norm': 2.6209659576416016, 'learning_rate': 2.8168155970755486e-06, 'epoch': 1.5}
+{'loss': 1.6082, 'grad_norm': 2.791372299194336, 'learning_rate': 2.814784727863526e-06, 'epoch': 1.5}
+{'loss': 1.6337, 'grad_norm': 2.781949520111084, 'learning_rate': 2.812753858651503e-06, 'epoch': 1.5}
+{'loss': 1.5969, 'grad_norm': 3.0437769889831543, 'learning_rate': 2.8107229894394804e-06, 'epoch': 1.5}
+{'loss': 1.5717, 'grad_norm': 2.7201249599456787, 'learning_rate': 2.8086921202274577e-06, 'epoch': 1.5}
+{'loss': 1.6654, 'grad_norm': 2.766634464263916, 'learning_rate': 2.806661251015435e-06, 'epoch': 1.5}
+{'eval_loss': 1.8452297449111938, 'eval_runtime': 37.2452, 'eval_samples_per_second': 26.849, 'eval_steps_per_second': 1.128, 'epoch': 1.5}
+{'loss': 1.6652, 'grad_norm': 2.726876735687256, 'learning_rate': 2.8046303818034122e-06, 'epoch': 1.5}
+{'loss': 1.7293, 'grad_norm': 2.775012969970703, 'learning_rate': 2.802599512591389e-06, 'epoch': 1.5}
+{'loss': 1.6226, 'grad_norm': 2.7603225708007812, 'learning_rate': 2.8005686433793668e-06, 'epoch': 1.5}
+{'loss': 1.5663, 'grad_norm': 2.723904609680176, 'learning_rate': 2.7985377741673436e-06, 'epoch': 1.51}
+{'loss': 1.6209, 'grad_norm': 2.667384624481201, 'learning_rate': 2.7965069049553213e-06, 'epoch': 1.51}
+{'loss': 1.6705, 'grad_norm': 2.7580318450927734, 'learning_rate': 2.794476035743298e-06, 'epoch': 1.51}
+{'loss': 1.6361, 'grad_norm': 2.9216315746307373, 'learning_rate': 2.792445166531276e-06, 'epoch': 1.51}
+{'loss': 1.6498, 'grad_norm': 2.6552748680114746, 'learning_rate': 2.7904142973192527e-06, 'epoch': 1.51}
+{'loss': 1.6009, 'grad_norm': 2.764836549758911, 'learning_rate': 2.7883834281072304e-06, 'epoch': 1.51}
+{'loss': 1.576, 'grad_norm': 2.5660064220428467, 'learning_rate': 2.7863525588952073e-06, 'epoch': 1.51}
+{'eval_loss': 1.8392945528030396, 'eval_runtime': 37.2515, 'eval_samples_per_second': 26.845, 'eval_steps_per_second': 1.127, 'epoch': 1.51}
+{'loss': 1.5744, 'grad_norm': 2.5110044479370117, 'learning_rate': 2.784321689683185e-06, 'epoch': 1.51}
+{'loss': 1.5852, 'grad_norm': 2.7352850437164307, 'learning_rate': 2.782290820471162e-06, 'epoch': 1.51}
+{'loss': 1.6692, 'grad_norm': 2.850947618484497, 'learning_rate': 2.7802599512591395e-06, 'epoch': 1.52}
+{'loss': 1.6427, 'grad_norm': 2.7107245922088623, 'learning_rate': 2.7782290820471164e-06, 'epoch': 1.52}
+{'loss': 1.6375, 'grad_norm': 2.8236117362976074, 'learning_rate': 2.7761982128350932e-06, 'epoch': 1.52}
+{'loss': 1.6864, 'grad_norm': 2.763416051864624, 'learning_rate': 2.774167343623071e-06, 'epoch': 1.52}
+{'loss': 1.6015, 'grad_norm': 2.7317910194396973, 'learning_rate': 2.772136474411048e-06, 'epoch': 1.52}
+{'loss': 1.5379, 'grad_norm': 2.7454333305358887, 'learning_rate': 2.7701056051990255e-06, 'epoch': 1.52}
+{'loss': 1.6282, 'grad_norm': 2.6102535724639893, 'learning_rate': 2.7680747359870023e-06, 'epoch': 1.52}
+{'loss': 1.6042, 'grad_norm': 2.658440113067627, 'learning_rate': 2.76604386677498e-06, 'epoch': 1.52}
+{'eval_loss': 1.8391484022140503, 'eval_runtime': 37.1746, 'eval_samples_per_second': 26.9, 'eval_steps_per_second': 1.13, 'epoch': 1.52}
+{'loss': 1.6446, 'grad_norm': 2.5731043815612793, 'learning_rate': 2.764012997562957e-06, 'epoch': 1.52}
+{'loss': 1.5663, 'grad_norm': 2.680983543395996, 'learning_rate': 2.7619821283509346e-06, 'epoch': 1.53}
+{'loss': 1.6628, 'grad_norm': 2.7525506019592285, 'learning_rate': 2.7599512591389114e-06, 'epoch': 1.53}
+{'loss': 1.6021, 'grad_norm': 2.6905839443206787, 'learning_rate': 2.757920389926889e-06, 'epoch': 1.53}
+{'loss': 1.5984, 'grad_norm': 2.850900888442993, 'learning_rate': 2.755889520714866e-06, 'epoch': 1.53}
+{'loss': 1.5627, 'grad_norm': 2.6612954139709473, 'learning_rate': 2.7538586515028437e-06, 'epoch': 1.53}
+{'loss': 1.6304, 'grad_norm': 2.632106304168701, 'learning_rate': 2.7518277822908205e-06, 'epoch': 1.53}
+{'loss': 1.6622, 'grad_norm': 2.660377025604248, 'learning_rate': 2.749796913078798e-06, 'epoch': 1.53}
+{'loss': 1.6152, 'grad_norm': 2.497938394546509, 'learning_rate': 2.747766043866775e-06, 'epoch': 1.53}
+{'loss': 1.6703, 'grad_norm': 2.655977725982666, 'learning_rate': 2.7457351746547524e-06, 'epoch': 1.53}
+{'eval_loss': 1.8361152410507202, 'eval_runtime': 37.2147, 'eval_samples_per_second': 26.871, 'eval_steps_per_second': 1.129, 'epoch': 1.53}
+{'loss': 1.7109, 'grad_norm': 2.664874792098999, 'learning_rate': 2.7437043054427297e-06, 'epoch': 1.54}
+{'loss': 1.6176, 'grad_norm': 2.5773956775665283, 'learning_rate': 2.741673436230707e-06, 'epoch': 1.54}
+{'loss': 1.6075, 'grad_norm': 2.7094814777374268, 'learning_rate': 2.739642567018684e-06, 'epoch': 1.54}
+{'loss': 1.6189, 'grad_norm': 2.652325391769409, 'learning_rate': 2.7376116978066615e-06, 'epoch': 1.54}
+{'loss': 1.6122, 'grad_norm': 2.6892807483673096, 'learning_rate': 2.7355808285946388e-06, 'epoch': 1.54}
+{'loss': 1.6008, 'grad_norm': 2.6621243953704834, 'learning_rate': 2.733549959382616e-06, 'epoch': 1.54}
+{'loss': 1.6723, 'grad_norm': 2.773747444152832, 'learning_rate': 2.7315190901705933e-06, 'epoch': 1.54}
+{'loss': 1.641, 'grad_norm': 2.853525400161743, 'learning_rate': 2.7294882209585706e-06, 'epoch': 1.54}
+{'loss': 1.587, 'grad_norm': 2.6333844661712646, 'learning_rate': 2.727457351746548e-06, 'epoch': 1.54}
+{'loss': 1.5807, 'grad_norm': 2.6299996376037598, 'learning_rate': 2.725426482534525e-06, 'epoch': 1.55}
+{'eval_loss': 1.8377478122711182, 'eval_runtime': 36.8958, 'eval_samples_per_second': 27.103, 'eval_steps_per_second': 1.138, 'epoch': 1.55}
+{'loss': 1.6225, 'grad_norm': 2.6222734451293945, 'learning_rate': 2.723395613322502e-06, 'epoch': 1.55}
+{'loss': 1.6031, 'grad_norm': 2.6702005863189697, 'learning_rate': 2.7213647441104797e-06, 'epoch': 1.55}
+{'loss': 1.5998, 'grad_norm': 2.6451900005340576, 'learning_rate': 2.7193338748984565e-06, 'epoch': 1.55}
+{'loss': 1.7579, 'grad_norm': 2.769784927368164, 'learning_rate': 2.7173030056864342e-06, 'epoch': 1.55}
+{'loss': 1.564, 'grad_norm': 2.629871368408203, 'learning_rate': 2.715272136474411e-06, 'epoch': 1.55}
+{'loss': 1.6236, 'grad_norm': 2.811937093734741, 'learning_rate': 2.713241267262389e-06, 'epoch': 1.55}
+{'loss': 1.5996, 'grad_norm': 2.883277654647827, 'learning_rate': 2.7112103980503656e-06, 'epoch': 1.55}
+{'loss': 1.6391, 'grad_norm': 2.610964059829712, 'learning_rate': 2.7091795288383433e-06, 'epoch': 1.55}
+{'loss': 1.5983, 'grad_norm': 2.6637415885925293, 'learning_rate': 2.70714865962632e-06, 'epoch': 1.56}
+{'loss': 1.6258, 'grad_norm': 2.5372607707977295, 'learning_rate': 2.705117790414298e-06, 'epoch': 1.56}
+{'eval_loss': 1.838557243347168, 'eval_runtime': 36.973, 'eval_samples_per_second': 27.047, 'eval_steps_per_second': 1.136, 'epoch': 1.56}
+{'loss': 1.67, 'grad_norm': 2.900594711303711, 'learning_rate': 2.7030869212022747e-06, 'epoch': 1.56}
+{'loss': 1.5879, 'grad_norm': 2.4924063682556152, 'learning_rate': 2.7010560519902516e-06, 'epoch': 1.56}
+{'loss': 1.6287, 'grad_norm': 2.5761115550994873, 'learning_rate': 2.6990251827782293e-06, 'epoch': 1.56}
+{'loss': 1.5925, 'grad_norm': 2.645463466644287, 'learning_rate': 2.696994313566206e-06, 'epoch': 1.56}
+{'loss': 1.6723, 'grad_norm': 2.682466506958008, 'learning_rate': 2.694963444354184e-06, 'epoch': 1.56}
+{'loss': 1.5998, 'grad_norm': 2.499749183654785, 'learning_rate': 2.6929325751421607e-06, 'epoch': 1.56}
+{'loss': 1.6311, 'grad_norm': 2.659956455230713, 'learning_rate': 2.6909017059301384e-06, 'epoch': 1.56}
+{'loss': 1.5648, 'grad_norm': 2.6684396266937256, 'learning_rate': 2.6888708367181153e-06, 'epoch': 1.56}
+{'loss': 1.6419, 'grad_norm': 2.6868791580200195, 'learning_rate': 2.686839967506093e-06, 'epoch': 1.57}
+{'loss': 1.55, 'grad_norm': 2.6999104022979736, 'learning_rate': 2.68480909829407e-06, 'epoch': 1.57}
+{'eval_loss': 1.83835768699646, 'eval_runtime': 37.0619, 'eval_samples_per_second': 26.982, 'eval_steps_per_second': 1.133, 'epoch': 1.57}
+{'loss': 1.5507, 'grad_norm': 2.7338085174560547, 'learning_rate': 2.6827782290820475e-06, 'epoch': 1.57}
+{'loss': 1.6659, 'grad_norm': 2.7358195781707764, 'learning_rate': 2.6807473598700244e-06, 'epoch': 1.57}
+{'loss': 1.6293, 'grad_norm': 2.671983242034912, 'learning_rate': 2.678716490658002e-06, 'epoch': 1.57}
+{'loss': 1.623, 'grad_norm': 2.551203489303589, 'learning_rate': 2.676685621445979e-06, 'epoch': 1.57}
+{'loss': 1.6127, 'grad_norm': 2.6485984325408936, 'learning_rate': 2.674654752233956e-06, 'epoch': 1.57}
+{'loss': 1.6155, 'grad_norm': 2.643105983734131, 'learning_rate': 2.6726238830219335e-06, 'epoch': 1.57}
+{'loss': 1.6576, 'grad_norm': 2.769458055496216, 'learning_rate': 2.6705930138099107e-06, 'epoch': 1.57}
+{'loss': 1.5276, 'grad_norm': 2.3996448516845703, 'learning_rate': 2.668562144597888e-06, 'epoch': 1.58}
+{'loss': 1.6321, 'grad_norm': 2.5827524662017822, 'learning_rate': 2.6665312753858653e-06, 'epoch': 1.58}
+{'loss': 1.6177, 'grad_norm': 2.728794813156128, 'learning_rate': 2.6645004061738426e-06, 'epoch': 1.58}
+{'eval_loss': 1.8374123573303223, 'eval_runtime': 37.1748, 'eval_samples_per_second': 26.9, 'eval_steps_per_second': 1.13, 'epoch': 1.58}
+{'loss': 1.5679, 'grad_norm': 2.7500123977661133, 'learning_rate': 2.66246953696182e-06, 'epoch': 1.58}
+{'loss': 1.5744, 'grad_norm': 2.6778831481933594, 'learning_rate': 2.660438667749797e-06, 'epoch': 1.58}
+{'loss': 1.6238, 'grad_norm': 2.933138847351074, 'learning_rate': 2.6584077985377744e-06, 'epoch': 1.58}
+{'loss': 1.6186, 'grad_norm': 2.642246961593628, 'learning_rate': 2.6563769293257517e-06, 'epoch': 1.58}
+{'loss': 1.5798, 'grad_norm': 2.5519111156463623, 'learning_rate': 2.654346060113729e-06, 'epoch': 1.58}
+{'loss': 1.5881, 'grad_norm': 2.569063186645508, 'learning_rate': 2.6523151909017062e-06, 'epoch': 1.58}
+{'loss': 1.5768, 'grad_norm': 2.501680850982666, 'learning_rate': 2.6502843216896835e-06, 'epoch': 1.59}
+{'loss': 1.6889, 'grad_norm': 2.7483339309692383, 'learning_rate': 2.6482534524776603e-06, 'epoch': 1.59}
+{'loss': 1.6565, 'grad_norm': 3.004084587097168, 'learning_rate': 2.646222583265638e-06, 'epoch': 1.59}
+{'loss': 1.6246, 'grad_norm': 2.793058156967163, 'learning_rate': 2.644191714053615e-06, 'epoch': 1.59}
+{'eval_loss': 1.83695387840271, 'eval_runtime': 37.1748, 'eval_samples_per_second': 26.9, 'eval_steps_per_second': 1.13, 'epoch': 1.59}
+{'loss': 1.6051, 'grad_norm': 2.803190231323242, 'learning_rate': 2.6421608448415926e-06, 'epoch': 1.59}
+{'loss': 1.5712, 'grad_norm': 2.7721307277679443, 'learning_rate': 2.6401299756295694e-06, 'epoch': 1.59}
+{'loss': 1.6197, 'grad_norm': 2.9235639572143555, 'learning_rate': 2.638099106417547e-06, 'epoch': 1.59}
+{'loss': 1.5976, 'grad_norm': 2.609719753265381, 'learning_rate': 2.636068237205524e-06, 'epoch': 1.59}
+{'loss': 1.6844, 'grad_norm': 2.7927262783050537, 'learning_rate': 2.6340373679935017e-06, 'epoch': 1.59}
+{'loss': 1.5285, 'grad_norm': 2.8688440322875977, 'learning_rate': 2.6320064987814785e-06, 'epoch': 1.6}
+{'loss': 1.6171, 'grad_norm': 2.819079637527466, 'learning_rate': 2.6299756295694562e-06, 'epoch': 1.6}
+{'loss': 1.6656, 'grad_norm': 2.825784206390381, 'learning_rate': 2.627944760357433e-06, 'epoch': 1.6}
+{'loss': 1.6839, 'grad_norm': 2.6807522773742676, 'learning_rate': 2.6259138911454104e-06, 'epoch': 1.6}
+{'loss': 1.6547, 'grad_norm': 2.9442570209503174, 'learning_rate': 2.6238830219333877e-06, 'epoch': 1.6}
+{'eval_loss': 1.8358429670333862, 'eval_runtime': 37.1499, 'eval_samples_per_second': 26.918, 'eval_steps_per_second': 1.131, 'epoch': 1.6}
+{'loss': 1.5688, 'grad_norm': 3.0025434494018555, 'learning_rate': 2.621852152721365e-06, 'epoch': 1.6}
+{'loss': 1.639, 'grad_norm': 3.0999062061309814, 'learning_rate': 2.619821283509342e-06, 'epoch': 1.6}
+{'loss': 1.5682, 'grad_norm': 2.7106330394744873, 'learning_rate': 2.6177904142973195e-06, 'epoch': 1.6}
+{'loss': 1.6421, 'grad_norm': 2.968259811401367, 'learning_rate': 2.6157595450852968e-06, 'epoch': 1.6}
+{'loss': 1.6626, 'grad_norm': 2.964728593826294, 'learning_rate': 2.613728675873274e-06, 'epoch': 1.61}
+{'loss': 1.6742, 'grad_norm': 2.8934402465820312, 'learning_rate': 2.6116978066612513e-06, 'epoch': 1.61}
+{'loss': 1.6139, 'grad_norm': 2.7678956985473633, 'learning_rate': 2.6096669374492286e-06, 'epoch': 1.61}
+{'loss': 1.5726, 'grad_norm': 2.74017333984375, 'learning_rate': 2.607636068237206e-06, 'epoch': 1.61}
+{'loss': 1.638, 'grad_norm': 2.8686470985412598, 'learning_rate': 2.605605199025183e-06, 'epoch': 1.61}
+{'loss': 1.6246, 'grad_norm': 3.008751392364502, 'learning_rate': 2.6035743298131604e-06, 'epoch': 1.61}
+{'eval_loss': 1.8375154733657837, 'eval_runtime': 37.1808, 'eval_samples_per_second': 26.896, 'eval_steps_per_second': 1.13, 'epoch': 1.61}
+{'loss': 1.6558, 'grad_norm': 3.030925989151001, 'learning_rate': 2.6015434606011377e-06, 'epoch': 1.61}
+{'loss': 1.6488, 'grad_norm': 3.1855311393737793, 'learning_rate': 2.5995125913891145e-06, 'epoch': 1.61}
+{'loss': 1.6211, 'grad_norm': 2.943204879760742, 'learning_rate': 2.5974817221770922e-06, 'epoch': 1.61}
+{'loss': 1.655, 'grad_norm': 2.681720733642578, 'learning_rate': 2.595450852965069e-06, 'epoch': 1.62}
+{'loss': 1.6624, 'grad_norm': 2.750523567199707, 'learning_rate': 2.593419983753047e-06, 'epoch': 1.62}
+{'loss': 1.6046, 'grad_norm': 2.8923532962799072, 'learning_rate': 2.5913891145410236e-06, 'epoch': 1.62}
+{'loss': 1.6557, 'grad_norm': 2.852468490600586, 'learning_rate': 2.5893582453290013e-06, 'epoch': 1.62}
+{'loss': 1.5888, 'grad_norm': 2.7146172523498535, 'learning_rate': 2.587327376116978e-06, 'epoch': 1.62}
+{'loss': 1.6049, 'grad_norm': 2.7109804153442383, 'learning_rate': 2.585296506904956e-06, 'epoch': 1.62}
+{'loss': 1.6046, 'grad_norm': 2.9429404735565186, 'learning_rate': 2.5832656376929327e-06, 'epoch': 1.62}
+{'eval_loss': 1.837095856666565, 'eval_runtime': 37.19, 'eval_samples_per_second': 26.889, 'eval_steps_per_second': 1.129, 'epoch': 1.62}
+{'loss': 1.5305, 'grad_norm': 2.89047908782959, 'learning_rate': 2.5812347684809104e-06, 'epoch': 1.62}
+{'loss': 1.7029, 'grad_norm': 3.0587005615234375, 'learning_rate': 2.5792038992688873e-06, 'epoch': 1.62}
+{'loss': 1.5424, 'grad_norm': 2.7209622859954834, 'learning_rate': 2.577173030056865e-06, 'epoch': 1.63}
+{'loss': 1.6411, 'grad_norm': 2.8400819301605225, 'learning_rate': 2.575142160844842e-06, 'epoch': 1.63}
+{'loss': 1.6421, 'grad_norm': 2.7427124977111816, 'learning_rate': 2.5731112916328187e-06, 'epoch': 1.63}
+{'loss': 1.5845, 'grad_norm': 2.6996700763702393, 'learning_rate': 2.5710804224207964e-06, 'epoch': 1.63}
+{'loss': 1.5472, 'grad_norm': 2.540188789367676, 'learning_rate': 2.5690495532087733e-06, 'epoch': 1.63}
+{'loss': 1.6347, 'grad_norm': 2.7682793140411377, 'learning_rate': 2.567018683996751e-06, 'epoch': 1.63}
+{'loss': 1.5826, 'grad_norm': 2.760413646697998, 'learning_rate': 2.564987814784728e-06, 'epoch': 1.63}
+{'loss': 1.6037, 'grad_norm': 2.9961049556732178, 'learning_rate': 2.5629569455727055e-06, 'epoch': 1.63}
+{'eval_loss': 1.8322792053222656, 'eval_runtime': 37.2227, 'eval_samples_per_second': 26.865, 'eval_steps_per_second': 1.128, 'epoch': 1.63}
+{'loss': 1.6142, 'grad_norm': 2.6983907222747803, 'learning_rate': 2.5609260763606824e-06, 'epoch': 1.63}
+{'loss': 1.7227, 'grad_norm': 2.867401599884033, 'learning_rate': 2.55889520714866e-06, 'epoch': 1.64}
+{'loss': 1.5856, 'grad_norm': 2.7735934257507324, 'learning_rate': 2.556864337936637e-06, 'epoch': 1.64}
+{'loss': 1.6084, 'grad_norm': 2.7661404609680176, 'learning_rate': 2.5548334687246146e-06, 'epoch': 1.64}
+{'loss': 1.659, 'grad_norm': 2.6881582736968994, 'learning_rate': 2.5528025995125915e-06, 'epoch': 1.64}
+{'loss': 1.6131, 'grad_norm': 2.5745224952697754, 'learning_rate': 2.550771730300569e-06, 'epoch': 1.64}
+{'loss': 1.6469, 'grad_norm': 2.736159563064575, 'learning_rate': 2.548740861088546e-06, 'epoch': 1.64}
+{'loss': 1.5452, 'grad_norm': 2.6255311965942383, 'learning_rate': 2.5467099918765233e-06, 'epoch': 1.64}
+{'loss': 1.5282, 'grad_norm': 2.6919801235198975, 'learning_rate': 2.5446791226645006e-06, 'epoch': 1.64}
+{'loss': 1.6524, 'grad_norm': 2.641533136367798, 'learning_rate': 2.542648253452478e-06, 'epoch': 1.64}
+{'eval_loss': 1.8287466764450073, 'eval_runtime': 37.2305, 'eval_samples_per_second': 26.86, 'eval_steps_per_second': 1.128, 'epoch': 1.64}
+{'loss': 1.6199, 'grad_norm': 2.7633602619171143, 'learning_rate': 2.540617384240455e-06, 'epoch': 1.64}
+{'loss': 1.5803, 'grad_norm': 2.618852376937866, 'learning_rate': 2.5385865150284324e-06, 'epoch': 1.65}
+{'loss': 1.5968, 'grad_norm': 2.857733964920044, 'learning_rate': 2.5365556458164097e-06, 'epoch': 1.65}
+{'loss': 1.611, 'grad_norm': 2.8334357738494873, 'learning_rate': 2.534524776604387e-06, 'epoch': 1.65}
+{'loss': 1.5048, 'grad_norm': 2.638340950012207, 'learning_rate': 2.5324939073923642e-06, 'epoch': 1.65}
+{'loss': 1.5967, 'grad_norm': 2.6521124839782715, 'learning_rate': 2.5304630381803415e-06, 'epoch': 1.65}
+{'loss': 1.6084, 'grad_norm': 2.639162540435791, 'learning_rate': 2.5284321689683188e-06, 'epoch': 1.65}
+{'loss': 1.6115, 'grad_norm': 2.6480295658111572, 'learning_rate': 2.526401299756296e-06, 'epoch': 1.65}
+{'loss': 1.5909, 'grad_norm': 2.7809157371520996, 'learning_rate': 2.524370430544273e-06, 'epoch': 1.65}
+{'loss': 1.575, 'grad_norm': 2.6947197914123535, 'learning_rate': 2.5223395613322506e-06, 'epoch': 1.65}
+{'eval_loss': 1.8312958478927612, 'eval_runtime': 36.8551, 'eval_samples_per_second': 27.133, 'eval_steps_per_second': 1.14, 'epoch': 1.65}
+{'loss': 1.6169, 'grad_norm': 2.7290775775909424, 'learning_rate': 2.5203086921202274e-06, 'epoch': 1.66}
+{'loss': 1.589, 'grad_norm': 2.7147257328033447, 'learning_rate': 2.518277822908205e-06, 'epoch': 1.66}
+{'loss': 1.6113, 'grad_norm': 2.648577928543091, 'learning_rate': 2.516246953696182e-06, 'epoch': 1.66}
+{'loss': 1.6128, 'grad_norm': 2.8041188716888428, 'learning_rate': 2.5142160844841597e-06, 'epoch': 1.66}
+{'loss': 1.6227, 'grad_norm': 2.7862393856048584, 'learning_rate': 2.5121852152721365e-06, 'epoch': 1.66}
+{'loss': 1.6169, 'grad_norm': 2.698709487915039, 'learning_rate': 2.5101543460601142e-06, 'epoch': 1.66}
+{'loss': 1.5522, 'grad_norm': 2.6966660022735596, 'learning_rate': 2.508123476848091e-06, 'epoch': 1.66}
+{'loss': 1.636, 'grad_norm': 2.86776065826416, 'learning_rate': 2.506092607636069e-06, 'epoch': 1.66}
+{'loss': 1.6021, 'grad_norm': 2.835958242416382, 'learning_rate': 2.5040617384240457e-06, 'epoch': 1.66}
+{'loss': 1.5842, 'grad_norm': 2.645120143890381, 'learning_rate': 2.5020308692120234e-06, 'epoch': 1.67}
+{'eval_loss': 1.8320025205612183, 'eval_runtime': 37.0745, 'eval_samples_per_second': 26.973, 'eval_steps_per_second': 1.133, 'epoch': 1.67}
+{'loss': 1.6579, 'grad_norm': 2.6796860694885254, 'learning_rate': 2.5e-06, 'epoch': 1.67}
+{'loss': 1.5842, 'grad_norm': 2.824993133544922, 'learning_rate': 2.4979691307879775e-06, 'epoch': 1.67}
+{'loss': 1.5956, 'grad_norm': 2.554858922958374, 'learning_rate': 2.4959382615759548e-06, 'epoch': 1.67}
+{'loss': 1.6622, 'grad_norm': 2.621208429336548, 'learning_rate': 2.493907392363932e-06, 'epoch': 1.67}
+{'loss': 1.6059, 'grad_norm': 2.711733818054199, 'learning_rate': 2.4918765231519093e-06, 'epoch': 1.67}
+{'loss': 1.6105, 'grad_norm': 2.6141200065612793, 'learning_rate': 2.4898456539398866e-06, 'epoch': 1.67}
+{'loss': 1.6675, 'grad_norm': 2.693882942199707, 'learning_rate': 2.487814784727864e-06, 'epoch': 1.67}
+{'loss': 1.5964, 'grad_norm': 2.71944260597229, 'learning_rate': 2.4857839155158407e-06, 'epoch': 1.67}
+{'loss': 1.5966, 'grad_norm': 2.6505935192108154, 'learning_rate': 2.483753046303818e-06, 'epoch': 1.68}
+{'loss': 1.6025, 'grad_norm': 2.710515022277832, 'learning_rate': 2.4817221770917953e-06, 'epoch': 1.68}
+{'eval_loss': 1.8318896293640137, 'eval_runtime': 37.2071, 'eval_samples_per_second': 26.877, 'eval_steps_per_second': 1.129, 'epoch': 1.68}
+{'loss': 1.6357, 'grad_norm': 2.8350000381469727, 'learning_rate': 2.4796913078797725e-06, 'epoch': 1.68}
+{'loss': 1.6338, 'grad_norm': 2.641923427581787, 'learning_rate': 2.47766043866775e-06, 'epoch': 1.68}
+{'loss': 1.6422, 'grad_norm': 2.6234304904937744, 'learning_rate': 2.475629569455727e-06, 'epoch': 1.68}
+{'loss': 1.5758, 'grad_norm': 2.7153754234313965, 'learning_rate': 2.4735987002437044e-06, 'epoch': 1.68}
+{'loss': 1.5684, 'grad_norm': 2.6731090545654297, 'learning_rate': 2.4715678310316816e-06, 'epoch': 1.68}
+{'loss': 1.6039, 'grad_norm': 2.64077091217041, 'learning_rate': 2.469536961819659e-06, 'epoch': 1.68}
+{'loss': 1.6054, 'grad_norm': 2.522536516189575, 'learning_rate': 2.467506092607636e-06, 'epoch': 1.68}
+{'loss': 1.5705, 'grad_norm': 2.5827460289001465, 'learning_rate': 2.4654752233956135e-06, 'epoch': 1.69}
+{'loss': 1.6657, 'grad_norm': 2.7648563385009766, 'learning_rate': 2.4634443541835907e-06, 'epoch': 1.69}
+{'loss': 1.6021, 'grad_norm': 2.6262803077697754, 'learning_rate': 2.461413484971568e-06, 'epoch': 1.69}
+{'eval_loss': 1.8337559700012207, 'eval_runtime': 37.2695, 'eval_samples_per_second': 26.832, 'eval_steps_per_second': 1.127, 'epoch': 1.69}
+{'loss': 1.6836, 'grad_norm': 2.735790491104126, 'learning_rate': 2.4593826157595453e-06, 'epoch': 1.69}
+{'loss': 1.5497, 'grad_norm': 2.601675271987915, 'learning_rate': 2.4573517465475226e-06, 'epoch': 1.69}
+{'loss': 1.5773, 'grad_norm': 2.7680232524871826, 'learning_rate': 2.4553208773355e-06, 'epoch': 1.69}
+{'loss': 1.61, 'grad_norm': 2.7184901237487793, 'learning_rate': 2.453290008123477e-06, 'epoch': 1.69}
+{'loss': 1.6277, 'grad_norm': 2.743377685546875, 'learning_rate': 2.4512591389114544e-06, 'epoch': 1.69}
+{'loss': 1.6108, 'grad_norm': 2.686190605163574, 'learning_rate': 2.4492282696994317e-06, 'epoch': 1.69}
+{'loss': 1.5984, 'grad_norm': 2.6933157444000244, 'learning_rate': 2.447197400487409e-06, 'epoch': 1.7}
+{'loss': 1.6154, 'grad_norm': 2.764714479446411, 'learning_rate': 2.4451665312753862e-06, 'epoch': 1.7}
+{'loss': 1.6502, 'grad_norm': 2.6571526527404785, 'learning_rate': 2.4431356620633635e-06, 'epoch': 1.7}
+{'loss': 1.6142, 'grad_norm': 2.739225149154663, 'learning_rate': 2.4411047928513408e-06, 'epoch': 1.7}
+{'eval_loss': 1.8304396867752075, 'eval_runtime': 37.271, 'eval_samples_per_second': 26.831, 'eval_steps_per_second': 1.127, 'epoch': 1.7}
+{'loss': 1.6155, 'grad_norm': 2.866999864578247, 'learning_rate': 2.439073923639318e-06, 'epoch': 1.7}
+{'loss': 1.5526, 'grad_norm': 2.670107364654541, 'learning_rate': 2.4370430544272953e-06, 'epoch': 1.7}
+{'loss': 1.5501, 'grad_norm': 2.5540761947631836, 'learning_rate': 2.435012185215272e-06, 'epoch': 1.7}
+{'loss': 1.5782, 'grad_norm': 2.8047935962677, 'learning_rate': 2.4329813160032495e-06, 'epoch': 1.7}
+{'loss': 1.6043, 'grad_norm': 2.717963218688965, 'learning_rate': 2.4309504467912267e-06, 'epoch': 1.7}
+{'loss': 1.596, 'grad_norm': 2.7823145389556885, 'learning_rate': 2.428919577579204e-06, 'epoch': 1.71}
+{'loss': 1.6807, 'grad_norm': 2.8534443378448486, 'learning_rate': 2.4268887083671813e-06, 'epoch': 1.71}
+{'loss': 1.5833, 'grad_norm': 2.6131157875061035, 'learning_rate': 2.4248578391551586e-06, 'epoch': 1.71}
+{'loss': 1.5799, 'grad_norm': 2.761531352996826, 'learning_rate': 2.422826969943136e-06, 'epoch': 1.71}
+{'loss': 1.5504, 'grad_norm': 2.550750970840454, 'learning_rate': 2.420796100731113e-06, 'epoch': 1.71}
+{'eval_loss': 1.8282228708267212, 'eval_runtime': 37.2167, 'eval_samples_per_second': 26.87, 'eval_steps_per_second': 1.129, 'epoch': 1.71}
+{'loss': 1.6141, 'grad_norm': 2.7341554164886475, 'learning_rate': 2.4187652315190904e-06, 'epoch': 1.71}
+{'loss': 1.6121, 'grad_norm': 2.5879876613616943, 'learning_rate': 2.4167343623070677e-06, 'epoch': 1.71}
+{'loss': 1.5993, 'grad_norm': 2.626166820526123, 'learning_rate': 2.414703493095045e-06, 'epoch': 1.71}
+{'loss': 1.5972, 'grad_norm': 2.620342254638672, 'learning_rate': 2.4126726238830222e-06, 'epoch': 1.71}
+{'loss': 1.5827, 'grad_norm': 2.596414566040039, 'learning_rate': 2.410641754670999e-06, 'epoch': 1.72}
+{'loss': 1.6427, 'grad_norm': 2.6863791942596436, 'learning_rate': 2.4086108854589763e-06, 'epoch': 1.72}
+{'loss': 1.5882, 'grad_norm': 2.741095781326294, 'learning_rate': 2.4065800162469536e-06, 'epoch': 1.72}
+{'loss': 1.6046, 'grad_norm': 2.890286922454834, 'learning_rate': 2.404549147034931e-06, 'epoch': 1.72}
+{'loss': 1.6395, 'grad_norm': 2.699467658996582, 'learning_rate': 2.402518277822908e-06, 'epoch': 1.72}
+{'loss': 1.5772, 'grad_norm': 2.6112730503082275, 'learning_rate': 2.4004874086108854e-06, 'epoch': 1.72}
+{'eval_loss': 1.824203372001648, 'eval_runtime': 37.271, 'eval_samples_per_second': 26.831, 'eval_steps_per_second': 1.127, 'epoch': 1.72}
+{'loss': 1.6177, 'grad_norm': 2.7761809825897217, 'learning_rate': 2.3984565393988627e-06, 'epoch': 1.72}
+{'loss': 1.5837, 'grad_norm': 2.691741704940796, 'learning_rate': 2.39642567018684e-06, 'epoch': 1.72}
+{'loss': 1.5896, 'grad_norm': 2.655440330505371, 'learning_rate': 2.3943948009748173e-06, 'epoch': 1.72}
+{'loss': 1.6267, 'grad_norm': 2.8032209873199463, 'learning_rate': 2.3923639317627945e-06, 'epoch': 1.72}
+{'loss': 1.5695, 'grad_norm': 2.7980844974517822, 'learning_rate': 2.390333062550772e-06, 'epoch': 1.73}
+{'loss': 1.4959, 'grad_norm': 2.6170504093170166, 'learning_rate': 2.388302193338749e-06, 'epoch': 1.73}
+{'loss': 1.6757, 'grad_norm': 2.836310386657715, 'learning_rate': 2.3862713241267264e-06, 'epoch': 1.73}
+{'loss': 1.6065, 'grad_norm': 2.868952751159668, 'learning_rate': 2.3842404549147037e-06, 'epoch': 1.73}
+{'loss': 1.5705, 'grad_norm': 2.8427889347076416, 'learning_rate': 2.382209585702681e-06, 'epoch': 1.73}
+{'loss': 1.6437, 'grad_norm': 2.6732518672943115, 'learning_rate': 2.380178716490658e-06, 'epoch': 1.73}
+{'eval_loss': 1.8212717771530151, 'eval_runtime': 37.3837, 'eval_samples_per_second': 26.75, 'eval_steps_per_second': 1.123, 'epoch': 1.73}
+{'loss': 1.5995, 'grad_norm': 2.7127609252929688, 'learning_rate': 2.3781478472786355e-06, 'epoch': 1.73}
+{'loss': 1.6416, 'grad_norm': 2.822373390197754, 'learning_rate': 2.3761169780666128e-06, 'epoch': 1.73}
+{'loss': 1.6504, 'grad_norm': 2.7300949096679688, 'learning_rate': 2.37408610885459e-06, 'epoch': 1.73}
+{'loss': 1.5873, 'grad_norm': 2.6506187915802, 'learning_rate': 2.3720552396425673e-06, 'epoch': 1.74}
+{'loss': 1.6743, 'grad_norm': 2.6960768699645996, 'learning_rate': 2.3700243704305446e-06, 'epoch': 1.74}
+{'loss': 1.6105, 'grad_norm': 2.640947103500366, 'learning_rate': 2.367993501218522e-06, 'epoch': 1.74}
+{'loss': 1.5965, 'grad_norm': 2.8700079917907715, 'learning_rate': 2.365962632006499e-06, 'epoch': 1.74}
+{'loss': 1.6386, 'grad_norm': 2.748927116394043, 'learning_rate': 2.3639317627944764e-06, 'epoch': 1.74}
+{'loss': 1.6392, 'grad_norm': 2.7105116844177246, 'learning_rate': 2.3619008935824537e-06, 'epoch': 1.74}
+{'loss': 1.6312, 'grad_norm': 2.6624841690063477, 'learning_rate': 2.3598700243704305e-06, 'epoch': 1.74}
+{'eval_loss': 1.8209728002548218, 'eval_runtime': 37.3533, 'eval_samples_per_second': 26.771, 'eval_steps_per_second': 1.124, 'epoch': 1.74}
+{'loss': 1.6263, 'grad_norm': 2.903249740600586, 'learning_rate': 2.357839155158408e-06, 'epoch': 1.74}
+{'loss': 1.6206, 'grad_norm': 2.792497158050537, 'learning_rate': 2.355808285946385e-06, 'epoch': 1.74}
+{'loss': 1.6394, 'grad_norm': 2.737065315246582, 'learning_rate': 2.3537774167343624e-06, 'epoch': 1.75}
+{'loss': 1.6307, 'grad_norm': 2.651978015899658, 'learning_rate': 2.3517465475223396e-06, 'epoch': 1.75}
+{'loss': 1.6203, 'grad_norm': 2.7566919326782227, 'learning_rate': 2.349715678310317e-06, 'epoch': 1.75}
+{'loss': 1.594, 'grad_norm': 2.7853057384490967, 'learning_rate': 2.347684809098294e-06, 'epoch': 1.75}
+{'loss': 1.6491, 'grad_norm': 2.770509719848633, 'learning_rate': 2.3456539398862715e-06, 'epoch': 1.75}
+{'loss': 1.5671, 'grad_norm': 2.718459367752075, 'learning_rate': 2.3436230706742487e-06, 'epoch': 1.75}
+{'loss': 1.5771, 'grad_norm': 2.724194288253784, 'learning_rate': 2.341592201462226e-06, 'epoch': 1.75}
+{'loss': 1.5889, 'grad_norm': 2.691155195236206, 'learning_rate': 2.3395613322502033e-06, 'epoch': 1.75}
+{'eval_loss': 1.8217312097549438, 'eval_runtime': 37.3364, 'eval_samples_per_second': 26.784, 'eval_steps_per_second': 1.125, 'epoch': 1.75}
+{'loss': 1.562, 'grad_norm': 2.7511825561523438, 'learning_rate': 2.3375304630381806e-06, 'epoch': 1.75}
+{'loss': 1.5685, 'grad_norm': 2.5794379711151123, 'learning_rate': 2.335499593826158e-06, 'epoch': 1.76}
+{'loss': 1.6267, 'grad_norm': 2.7914280891418457, 'learning_rate': 2.333468724614135e-06, 'epoch': 1.76}
+{'loss': 1.6281, 'grad_norm': 2.678723096847534, 'learning_rate': 2.3314378554021124e-06, 'epoch': 1.76}
+{'loss': 1.5693, 'grad_norm': 2.757333993911743, 'learning_rate': 2.3294069861900897e-06, 'epoch': 1.76}
+{'loss': 1.5699, 'grad_norm': 2.6844334602355957, 'learning_rate': 2.327376116978067e-06, 'epoch': 1.76}
+{'loss': 1.6294, 'grad_norm': 2.7547338008880615, 'learning_rate': 2.3253452477660442e-06, 'epoch': 1.76}
+{'loss': 1.5747, 'grad_norm': 2.864664077758789, 'learning_rate': 2.3233143785540215e-06, 'epoch': 1.76}
+{'loss': 1.6182, 'grad_norm': 2.9029629230499268, 'learning_rate': 2.3212835093419988e-06, 'epoch': 1.76}
+{'loss': 1.5702, 'grad_norm': 2.707786798477173, 'learning_rate': 2.319252640129976e-06, 'epoch': 1.76}
+{'eval_loss': 1.8216935396194458, 'eval_runtime': 36.8753, 'eval_samples_per_second': 27.118, 'eval_steps_per_second': 1.139, 'epoch': 1.76}
+{'loss': 1.6833, 'grad_norm': 2.964879035949707, 'learning_rate': 2.3172217709179533e-06, 'epoch': 1.77}
+{'loss': 1.636, 'grad_norm': 2.728271245956421, 'learning_rate': 2.3151909017059306e-06, 'epoch': 1.77}
+{'loss': 1.5545, 'grad_norm': 2.801959753036499, 'learning_rate': 2.313160032493908e-06, 'epoch': 1.77}
+{'loss': 1.6312, 'grad_norm': 2.74782395362854, 'learning_rate': 2.311129163281885e-06, 'epoch': 1.77}
+{'loss': 1.582, 'grad_norm': 2.512051582336426, 'learning_rate': 2.309098294069862e-06, 'epoch': 1.77}
+{'loss': 1.562, 'grad_norm': 2.798088788986206, 'learning_rate': 2.3070674248578393e-06, 'epoch': 1.77}
+{'loss': 1.6132, 'grad_norm': 2.795612096786499, 'learning_rate': 2.3050365556458166e-06, 'epoch': 1.77}
+{'loss': 1.6311, 'grad_norm': 2.7699942588806152, 'learning_rate': 2.303005686433794e-06, 'epoch': 1.77}
+{'loss': 1.6028, 'grad_norm': 2.867352247238159, 'learning_rate': 2.300974817221771e-06, 'epoch': 1.77}
+{'loss': 1.562, 'grad_norm': 2.5470569133758545, 'learning_rate': 2.2989439480097484e-06, 'epoch': 1.78}
+{'eval_loss': 1.8190903663635254, 'eval_runtime': 37.161, 'eval_samples_per_second': 26.91, 'eval_steps_per_second': 1.13, 'epoch': 1.78}
+{'loss': 1.6118, 'grad_norm': 2.6718320846557617, 'learning_rate': 2.2969130787977257e-06, 'epoch': 1.78}
+{'loss': 1.6395, 'grad_norm': 2.5534214973449707, 'learning_rate': 2.294882209585703e-06, 'epoch': 1.78}
+{'loss': 1.5818, 'grad_norm': 2.625375747680664, 'learning_rate': 2.2928513403736802e-06, 'epoch': 1.78}
+{'loss': 1.6015, 'grad_norm': 2.663601875305176, 'learning_rate': 2.2908204711616575e-06, 'epoch': 1.78}
+{'loss': 1.6432, 'grad_norm': 2.6689491271972656, 'learning_rate': 2.2887896019496348e-06, 'epoch': 1.78}
+{'loss': 1.5805, 'grad_norm': 2.503133535385132, 'learning_rate': 2.286758732737612e-06, 'epoch': 1.78}
+{'loss': 1.5918, 'grad_norm': 2.806959867477417, 'learning_rate': 2.284727863525589e-06, 'epoch': 1.78}
+{'loss': 1.6209, 'grad_norm': 2.6896889209747314, 'learning_rate': 2.282696994313566e-06, 'epoch': 1.78}
+{'loss': 1.6051, 'grad_norm': 2.686661720275879, 'learning_rate': 2.2806661251015434e-06, 'epoch': 1.79}
+{'loss': 1.5839, 'grad_norm': 2.845679759979248, 'learning_rate': 2.2786352558895207e-06, 'epoch': 1.79}
+{'eval_loss': 1.8239432573318481, 'eval_runtime': 37.2256, 'eval_samples_per_second': 26.863, 'eval_steps_per_second': 1.128, 'epoch': 1.79}
+{'loss': 1.5532, 'grad_norm': 2.74546480178833, 'learning_rate': 2.276604386677498e-06, 'epoch': 1.79}
+{'loss': 1.5829, 'grad_norm': 2.857858180999756, 'learning_rate': 2.2745735174654753e-06, 'epoch': 1.79}
+{'loss': 1.6618, 'grad_norm': 2.8485302925109863, 'learning_rate': 2.2725426482534526e-06, 'epoch': 1.79}
+{'loss': 1.6025, 'grad_norm': 2.7431278228759766, 'learning_rate': 2.27051177904143e-06, 'epoch': 1.79}
+{'loss': 1.5888, 'grad_norm': 2.7853291034698486, 'learning_rate': 2.268480909829407e-06, 'epoch': 1.79}
+{'loss': 1.6081, 'grad_norm': 2.7201032638549805, 'learning_rate': 2.2664500406173844e-06, 'epoch': 1.79}
+{'loss': 1.6341, 'grad_norm': 2.720609426498413, 'learning_rate': 2.2644191714053617e-06, 'epoch': 1.79}
+{'loss': 1.5967, 'grad_norm': 2.9016213417053223, 'learning_rate': 2.262388302193339e-06, 'epoch': 1.8}
+{'loss': 1.5799, 'grad_norm': 2.7303457260131836, 'learning_rate': 2.260357432981316e-06, 'epoch': 1.8}
+{'loss': 1.6015, 'grad_norm': 2.7622275352478027, 'learning_rate': 2.2583265637692935e-06, 'epoch': 1.8}
+{'eval_loss': 1.822721242904663, 'eval_runtime': 37.294, 'eval_samples_per_second': 26.814, 'eval_steps_per_second': 1.126, 'epoch': 1.8}
+{'loss': 1.5998, 'grad_norm': 2.7074835300445557, 'learning_rate': 2.2562956945572708e-06, 'epoch': 1.8}
+{'loss': 1.5977, 'grad_norm': 2.8944125175476074, 'learning_rate': 2.254264825345248e-06, 'epoch': 1.8}
+{'loss': 1.6044, 'grad_norm': 2.8836803436279297, 'learning_rate': 2.2522339561332253e-06, 'epoch': 1.8}
+{'loss': 1.6087, 'grad_norm': 2.7658469676971436, 'learning_rate': 2.2502030869212026e-06, 'epoch': 1.8}
+{'loss': 1.6437, 'grad_norm': 2.8019907474517822, 'learning_rate': 2.24817221770918e-06, 'epoch': 1.8}
+{'loss': 1.6225, 'grad_norm': 2.6863455772399902, 'learning_rate': 2.246141348497157e-06, 'epoch': 1.8}
+{'loss': 1.5706, 'grad_norm': 2.5988214015960693, 'learning_rate': 2.2441104792851344e-06, 'epoch': 1.8}
+{'loss': 1.5973, 'grad_norm': 2.6351659297943115, 'learning_rate': 2.2420796100731117e-06, 'epoch': 1.81}
+{'loss': 1.6184, 'grad_norm': 2.851712226867676, 'learning_rate': 2.240048740861089e-06, 'epoch': 1.81}
+{'loss': 1.5047, 'grad_norm': 2.7069613933563232, 'learning_rate': 2.2380178716490662e-06, 'epoch': 1.81}
+{'eval_loss': 1.81782066822052, 'eval_runtime': 37.3161, 'eval_samples_per_second': 26.798, 'eval_steps_per_second': 1.126, 'epoch': 1.81}
+{'loss': 1.6278, 'grad_norm': 2.880129337310791, 'learning_rate': 2.2359870024370435e-06, 'epoch': 1.81}
+{'loss': 1.6064, 'grad_norm': 2.7861595153808594, 'learning_rate': 2.2339561332250204e-06, 'epoch': 1.81}
+{'loss': 1.6034, 'grad_norm': 2.8799221515655518, 'learning_rate': 2.2319252640129976e-06, 'epoch': 1.81}
+{'loss': 1.5431, 'grad_norm': 2.7535576820373535, 'learning_rate': 2.229894394800975e-06, 'epoch': 1.81}
+{'loss': 1.531, 'grad_norm': 2.7955143451690674, 'learning_rate': 2.227863525588952e-06, 'epoch': 1.81}
+{'loss': 1.5566, 'grad_norm': 2.5939323902130127, 'learning_rate': 2.2258326563769295e-06, 'epoch': 1.81}
+{'loss': 1.56, 'grad_norm': 2.676406145095825, 'learning_rate': 2.2238017871649067e-06, 'epoch': 1.82}
+{'loss': 1.599, 'grad_norm': 2.7449264526367188, 'learning_rate': 2.221770917952884e-06, 'epoch': 1.82}
+{'loss': 1.6435, 'grad_norm': 2.7454347610473633, 'learning_rate': 2.2197400487408613e-06, 'epoch': 1.82}
+{'loss': 1.5638, 'grad_norm': 2.5657317638397217, 'learning_rate': 2.2177091795288386e-06, 'epoch': 1.82}
+{'eval_loss': 1.818527102470398, 'eval_runtime': 37.2477, 'eval_samples_per_second': 26.847, 'eval_steps_per_second': 1.128, 'epoch': 1.82}
+{'loss': 1.5713, 'grad_norm': 2.6036269664764404, 'learning_rate': 2.215678310316816e-06, 'epoch': 1.82}
+{'loss': 1.609, 'grad_norm': 2.8862414360046387, 'learning_rate': 2.213647441104793e-06, 'epoch': 1.82}
+{'loss': 1.5795, 'grad_norm': 2.6588282585144043, 'learning_rate': 2.2116165718927704e-06, 'epoch': 1.82}
+{'loss': 1.6011, 'grad_norm': 2.8073630332946777, 'learning_rate': 2.2095857026807473e-06, 'epoch': 1.82}
+{'loss': 1.5613, 'grad_norm': 2.6723380088806152, 'learning_rate': 2.2075548334687245e-06, 'epoch': 1.82}
+{'loss': 1.579, 'grad_norm': 2.8164796829223633, 'learning_rate': 2.205523964256702e-06, 'epoch': 1.83}
+{'loss': 1.6111, 'grad_norm': 2.777341842651367, 'learning_rate': 2.203493095044679e-06, 'epoch': 1.83}
+{'loss': 1.6171, 'grad_norm': 2.6877028942108154, 'learning_rate': 2.2014622258326564e-06, 'epoch': 1.83}
+{'loss': 1.6363, 'grad_norm': 2.638216972351074, 'learning_rate': 2.1994313566206336e-06, 'epoch': 1.83}
+{'loss': 1.5849, 'grad_norm': 2.5175044536590576, 'learning_rate': 2.197400487408611e-06, 'epoch': 1.83}
+{'eval_loss': 1.8164860010147095, 'eval_runtime': 37.2838, 'eval_samples_per_second': 26.821, 'eval_steps_per_second': 1.126, 'epoch': 1.83}
+{'loss': 1.5592, 'grad_norm': 2.6411025524139404, 'learning_rate': 2.195369618196588e-06, 'epoch': 1.83}
+{'loss': 1.591, 'grad_norm': 2.6564719676971436, 'learning_rate': 2.1933387489845655e-06, 'epoch': 1.83}
+{'loss': 1.6116, 'grad_norm': 2.6379082202911377, 'learning_rate': 2.1913078797725427e-06, 'epoch': 1.83}
+{'loss': 1.6729, 'grad_norm': 2.6217899322509766, 'learning_rate': 2.18927701056052e-06, 'epoch': 1.83}
+{'loss': 1.6089, 'grad_norm': 2.5114355087280273, 'learning_rate': 2.1872461413484973e-06, 'epoch': 1.84}
+{'loss': 1.591, 'grad_norm': 2.6792423725128174, 'learning_rate': 2.1852152721364746e-06, 'epoch': 1.84}
+{'loss': 1.5724, 'grad_norm': 2.8523600101470947, 'learning_rate': 2.183184402924452e-06, 'epoch': 1.84}
+{'loss': 1.623, 'grad_norm': 2.732600212097168, 'learning_rate': 2.181153533712429e-06, 'epoch': 1.84}
+{'loss': 1.5931, 'grad_norm': 2.71589732170105, 'learning_rate': 2.1791226645004064e-06, 'epoch': 1.84}
+{'loss': 1.5837, 'grad_norm': 2.701359748840332, 'learning_rate': 2.1770917952883837e-06, 'epoch': 1.84}
+{'eval_loss': 1.8175450563430786, 'eval_runtime': 37.2426, 'eval_samples_per_second': 26.851, 'eval_steps_per_second': 1.128, 'epoch': 1.84}
+{'loss': 1.6542, 'grad_norm': 2.9347689151763916, 'learning_rate': 2.175060926076361e-06, 'epoch': 1.84}
+{'loss': 1.6752, 'grad_norm': 2.825683832168579, 'learning_rate': 2.1730300568643382e-06, 'epoch': 1.84}
+{'loss': 1.5869, 'grad_norm': 2.691688299179077, 'learning_rate': 2.1709991876523155e-06, 'epoch': 1.84}
+{'loss': 1.5377, 'grad_norm': 2.635225296020508, 'learning_rate': 2.1689683184402928e-06, 'epoch': 1.85}
+{'loss': 1.6239, 'grad_norm': 2.7036449909210205, 'learning_rate': 2.16693744922827e-06, 'epoch': 1.85}
+{'loss': 1.5818, 'grad_norm': 2.7112629413604736, 'learning_rate': 2.1649065800162473e-06, 'epoch': 1.85}
+{'loss': 1.5807, 'grad_norm': 2.7251856327056885, 'learning_rate': 2.1628757108042246e-06, 'epoch': 1.85}
+{'loss': 1.5787, 'grad_norm': 2.8971238136291504, 'learning_rate': 2.160844841592202e-06, 'epoch': 1.85}
+{'loss': 1.5635, 'grad_norm': 2.6737334728240967, 'learning_rate': 2.1588139723801787e-06, 'epoch': 1.85}
+{'loss': 1.5779, 'grad_norm': 2.757006883621216, 'learning_rate': 2.156783103168156e-06, 'epoch': 1.85}
+{'eval_loss': 1.8178988695144653, 'eval_runtime': 37.2265, 'eval_samples_per_second': 26.863, 'eval_steps_per_second': 1.128, 'epoch': 1.85}
+{'loss': 1.5519, 'grad_norm': 2.6924121379852295, 'learning_rate': 2.1547522339561333e-06, 'epoch': 1.85}
+{'loss': 1.6144, 'grad_norm': 2.742126703262329, 'learning_rate': 2.1527213647441106e-06, 'epoch': 1.85}
+{'loss': 1.6462, 'grad_norm': 2.8751533031463623, 'learning_rate': 2.150690495532088e-06, 'epoch': 1.86}
+{'loss': 1.6214, 'grad_norm': 2.804011344909668, 'learning_rate': 2.148659626320065e-06, 'epoch': 1.86}
+{'loss': 1.6244, 'grad_norm': 2.7928590774536133, 'learning_rate': 2.1466287571080424e-06, 'epoch': 1.86}
+{'loss': 1.5749, 'grad_norm': 2.749242067337036, 'learning_rate': 2.1445978878960197e-06, 'epoch': 1.86}
+{'loss': 1.5898, 'grad_norm': 2.588762044906616, 'learning_rate': 2.142567018683997e-06, 'epoch': 1.86}
+{'loss': 1.6512, 'grad_norm': 2.82580828666687, 'learning_rate': 2.140536149471974e-06, 'epoch': 1.86}
+{'loss': 1.5664, 'grad_norm': 2.6267337799072266, 'learning_rate': 2.1385052802599515e-06, 'epoch': 1.86}
+{'loss': 1.5716, 'grad_norm': 2.516296863555908, 'learning_rate': 2.1364744110479288e-06, 'epoch': 1.86}
+{'eval_loss': 1.8167686462402344, 'eval_runtime': 37.1827, 'eval_samples_per_second': 26.894, 'eval_steps_per_second': 1.13, 'epoch': 1.86}
+{'loss': 1.6379, 'grad_norm': 2.8827500343322754, 'learning_rate': 2.134443541835906e-06, 'epoch': 1.86}
+{'loss': 1.5855, 'grad_norm': 2.6723849773406982, 'learning_rate': 2.132412672623883e-06, 'epoch': 1.87}
+{'loss': 1.5692, 'grad_norm': 2.75603985786438, 'learning_rate': 2.13038180341186e-06, 'epoch': 1.87}
+{'loss': 1.5985, 'grad_norm': 2.8822832107543945, 'learning_rate': 2.1283509341998374e-06, 'epoch': 1.87}
+{'loss': 1.6376, 'grad_norm': 3.0294716358184814, 'learning_rate': 2.1263200649878147e-06, 'epoch': 1.87}
+{'loss': 1.5807, 'grad_norm': 2.8347859382629395, 'learning_rate': 2.124289195775792e-06, 'epoch': 1.87}
+{'loss': 1.602, 'grad_norm': 2.871610641479492, 'learning_rate': 2.1222583265637693e-06, 'epoch': 1.87}
+{'loss': 1.5133, 'grad_norm': 2.6605138778686523, 'learning_rate': 2.1202274573517465e-06, 'epoch': 1.87}
+{'loss': 1.5608, 'grad_norm': 2.6611695289611816, 'learning_rate': 2.118196588139724e-06, 'epoch': 1.87}
+{'loss': 1.5776, 'grad_norm': 2.594904899597168, 'learning_rate': 2.116165718927701e-06, 'epoch': 1.87}
+{'eval_loss': 1.8165113925933838, 'eval_runtime': 36.8295, 'eval_samples_per_second': 27.152, 'eval_steps_per_second': 1.14, 'epoch': 1.87}
+{'loss': 1.5904, 'grad_norm': 2.596139669418335, 'learning_rate': 2.1141348497156784e-06, 'epoch': 1.88}
+{'loss': 1.54, 'grad_norm': 2.75966477394104, 'learning_rate': 2.1121039805036556e-06, 'epoch': 1.88}
+{'loss': 1.5693, 'grad_norm': 2.653257131576538, 'learning_rate': 2.110073111291633e-06, 'epoch': 1.88}
+{'loss': 1.588, 'grad_norm': 2.5443379878997803, 'learning_rate': 2.10804224207961e-06, 'epoch': 1.88}
+{'loss': 1.6178, 'grad_norm': 2.6353726387023926, 'learning_rate': 2.1060113728675875e-06, 'epoch': 1.88}
+{'loss': 1.6271, 'grad_norm': 2.7751545906066895, 'learning_rate': 2.1039805036555647e-06, 'epoch': 1.88}
+{'loss': 1.5014, 'grad_norm': 2.7007811069488525, 'learning_rate': 2.101949634443542e-06, 'epoch': 1.88}
+{'loss': 1.596, 'grad_norm': 2.968076229095459, 'learning_rate': 2.0999187652315193e-06, 'epoch': 1.88}
+{'loss': 1.562, 'grad_norm': 2.6997463703155518, 'learning_rate': 2.0978878960194966e-06, 'epoch': 1.88}
+{'loss': 1.5971, 'grad_norm': 2.7616124153137207, 'learning_rate': 2.095857026807474e-06, 'epoch': 1.88}
+{'eval_loss': 1.8137410879135132, 'eval_runtime': 37.0154, 'eval_samples_per_second': 27.016, 'eval_steps_per_second': 1.135, 'epoch': 1.88}
+{'loss': 1.5932, 'grad_norm': 2.6898655891418457, 'learning_rate': 2.093826157595451e-06, 'epoch': 1.89}
+{'loss': 1.5765, 'grad_norm': 2.7165539264678955, 'learning_rate': 2.0917952883834284e-06, 'epoch': 1.89}
+{'loss': 1.6038, 'grad_norm': 2.7609431743621826, 'learning_rate': 2.0897644191714057e-06, 'epoch': 1.89}
+{'loss': 1.6328, 'grad_norm': 2.7460267543792725, 'learning_rate': 2.087733549959383e-06, 'epoch': 1.89}
+{'loss': 1.5544, 'grad_norm': 2.649451732635498, 'learning_rate': 2.0857026807473602e-06, 'epoch': 1.89}
+{'loss': 1.5431, 'grad_norm': 2.6734838485717773, 'learning_rate': 2.0836718115353375e-06, 'epoch': 1.89}
+{'loss': 1.6284, 'grad_norm': 2.8084394931793213, 'learning_rate': 2.0816409423233144e-06, 'epoch': 1.89}
+{'loss': 1.5728, 'grad_norm': 2.5050930976867676, 'learning_rate': 2.0796100731112916e-06, 'epoch': 1.89}
+{'loss': 1.5816, 'grad_norm': 2.7016143798828125, 'learning_rate': 2.077579203899269e-06, 'epoch': 1.89}
+{'loss': 1.5347, 'grad_norm': 2.58982253074646, 'learning_rate': 2.075548334687246e-06, 'epoch': 1.9}
+{'eval_loss': 1.8112925291061401, 'eval_runtime': 37.0911, 'eval_samples_per_second': 26.961, 'eval_steps_per_second': 1.132, 'epoch': 1.9}
+{'loss': 1.598, 'grad_norm': 2.776846408843994, 'learning_rate': 2.0735174654752235e-06, 'epoch': 1.9}
+{'loss': 1.5263, 'grad_norm': 2.5896499156951904, 'learning_rate': 2.0714865962632007e-06, 'epoch': 1.9}
+{'loss': 1.5866, 'grad_norm': 2.7289252281188965, 'learning_rate': 2.069455727051178e-06, 'epoch': 1.9}
+{'loss': 1.5463, 'grad_norm': 2.4769744873046875, 'learning_rate': 2.0674248578391553e-06, 'epoch': 1.9}
+{'loss': 1.5549, 'grad_norm': 2.836574077606201, 'learning_rate': 2.0653939886271326e-06, 'epoch': 1.9}
+{'loss': 1.6378, 'grad_norm': 2.8002960681915283, 'learning_rate': 2.06336311941511e-06, 'epoch': 1.9}
+{'loss': 1.5687, 'grad_norm': 2.6109306812286377, 'learning_rate': 2.061332250203087e-06, 'epoch': 1.9}
+{'loss': 1.5376, 'grad_norm': 2.7544755935668945, 'learning_rate': 2.0593013809910644e-06, 'epoch': 1.9}
+{'loss': 1.5937, 'grad_norm': 2.7387688159942627, 'learning_rate': 2.0572705117790417e-06, 'epoch': 1.91}
+{'loss': 1.6111, 'grad_norm': 2.7123818397521973, 'learning_rate': 2.055239642567019e-06, 'epoch': 1.91}
+{'eval_loss': 1.814138412475586, 'eval_runtime': 37.1458, 'eval_samples_per_second': 26.921, 'eval_steps_per_second': 1.131, 'epoch': 1.91}
+{'loss': 1.5888, 'grad_norm': 2.5983684062957764, 'learning_rate': 2.0532087733549962e-06, 'epoch': 1.91}
+{'loss': 1.6256, 'grad_norm': 2.668445348739624, 'learning_rate': 2.0511779041429735e-06, 'epoch': 1.91}
+{'loss': 1.5489, 'grad_norm': 2.5294125080108643, 'learning_rate': 2.0491470349309508e-06, 'epoch': 1.91}
+{'loss': 1.6041, 'grad_norm': 2.815340757369995, 'learning_rate': 2.047116165718928e-06, 'epoch': 1.91}
+{'loss': 1.5693, 'grad_norm': 2.791731595993042, 'learning_rate': 2.0450852965069053e-06, 'epoch': 1.91}
+{'loss': 1.6218, 'grad_norm': 2.6540396213531494, 'learning_rate': 2.0430544272948826e-06, 'epoch': 1.91}
+{'loss': 1.5757, 'grad_norm': 2.8304696083068848, 'learning_rate': 2.04102355808286e-06, 'epoch': 1.91}
+{'loss': 1.5322, 'grad_norm': 2.590974807739258, 'learning_rate': 2.038992688870837e-06, 'epoch': 1.92}
+{'loss': 1.566, 'grad_norm': 2.647883176803589, 'learning_rate': 2.0369618196588144e-06, 'epoch': 1.92}
+{'loss': 1.5781, 'grad_norm': 2.880141019821167, 'learning_rate': 2.0349309504467917e-06, 'epoch': 1.92}
+{'eval_loss': 1.8149348497390747, 'eval_runtime': 37.126, 'eval_samples_per_second': 26.935, 'eval_steps_per_second': 1.131, 'epoch': 1.92}
+{'loss': 1.6183, 'grad_norm': 2.970879554748535, 'learning_rate': 2.032900081234769e-06, 'epoch': 1.92}
+{'loss': 1.6189, 'grad_norm': 2.774184465408325, 'learning_rate': 2.030869212022746e-06, 'epoch': 1.92}
+{'loss': 1.5613, 'grad_norm': 2.7263576984405518, 'learning_rate': 2.028838342810723e-06, 'epoch': 1.92}
+{'loss': 1.5763, 'grad_norm': 2.6498911380767822, 'learning_rate': 2.0268074735987004e-06, 'epoch': 1.92}
+{'loss': 1.5655, 'grad_norm': 2.6792657375335693, 'learning_rate': 2.0247766043866777e-06, 'epoch': 1.92}
+{'loss': 1.621, 'grad_norm': 2.7419450283050537, 'learning_rate': 2.022745735174655e-06, 'epoch': 1.92}
+{'loss': 1.5942, 'grad_norm': 2.5262041091918945, 'learning_rate': 2.020714865962632e-06, 'epoch': 1.93}
+{'loss': 1.6178, 'grad_norm': 2.8236467838287354, 'learning_rate': 2.0186839967506095e-06, 'epoch': 1.93}
+{'loss': 1.5884, 'grad_norm': 2.7799246311187744, 'learning_rate': 2.0166531275385868e-06, 'epoch': 1.93}
+{'loss': 1.5414, 'grad_norm': 2.9392249584198, 'learning_rate': 2.014622258326564e-06, 'epoch': 1.93}
+{'eval_loss': 1.8136014938354492, 'eval_runtime': 37.1178, 'eval_samples_per_second': 26.941, 'eval_steps_per_second': 1.132, 'epoch': 1.93}
+{'loss': 1.6039, 'grad_norm': 2.7029058933258057, 'learning_rate': 2.0125913891145413e-06, 'epoch': 1.93}
+{'loss': 1.589, 'grad_norm': 3.024052619934082, 'learning_rate': 2.0105605199025186e-06, 'epoch': 1.93}
+{'loss': 1.565, 'grad_norm': 2.9040815830230713, 'learning_rate': 2.008529650690496e-06, 'epoch': 1.93}
+{'loss': 1.6156, 'grad_norm': 2.8503386974334717, 'learning_rate': 2.0064987814784727e-06, 'epoch': 1.93}
+{'loss': 1.5651, 'grad_norm': 2.741941452026367, 'learning_rate': 2.00446791226645e-06, 'epoch': 1.93}
+{'loss': 1.539, 'grad_norm': 2.6356847286224365, 'learning_rate': 2.0024370430544273e-06, 'epoch': 1.94}
+{'loss': 1.5999, 'grad_norm': 2.6983048915863037, 'learning_rate': 2.0004061738424045e-06, 'epoch': 1.94}
+{'loss': 1.636, 'grad_norm': 2.739579916000366, 'learning_rate': 1.998375304630382e-06, 'epoch': 1.94}
+{'loss': 1.5989, 'grad_norm': 2.754481792449951, 'learning_rate': 1.996344435418359e-06, 'epoch': 1.94}
+{'loss': 1.5997, 'grad_norm': 2.7145771980285645, 'learning_rate': 1.9943135662063364e-06, 'epoch': 1.94}
+{'eval_loss': 1.8135613203048706, 'eval_runtime': 37.1679, 'eval_samples_per_second': 26.905, 'eval_steps_per_second': 1.13, 'epoch': 1.94}
+{'loss': 1.6134, 'grad_norm': 2.7553305625915527, 'learning_rate': 1.9922826969943136e-06, 'epoch': 1.94}
+{'loss': 1.6248, 'grad_norm': 2.771489381790161, 'learning_rate': 1.990251827782291e-06, 'epoch': 1.94}
+{'loss': 1.6117, 'grad_norm': 2.7514898777008057, 'learning_rate': 1.988220958570268e-06, 'epoch': 1.94}
+{'loss': 1.5963, 'grad_norm': 2.7693169116973877, 'learning_rate': 1.9861900893582455e-06, 'epoch': 1.94}
+{'loss': 1.5933, 'grad_norm': 2.736459255218506, 'learning_rate': 1.9841592201462227e-06, 'epoch': 1.95}
+{'loss': 1.552, 'grad_norm': 2.595576286315918, 'learning_rate': 1.9821283509342e-06, 'epoch': 1.95}
+{'loss': 1.5547, 'grad_norm': 2.712052583694458, 'learning_rate': 1.9800974817221773e-06, 'epoch': 1.95}
+{'loss': 1.6022, 'grad_norm': 2.7781100273132324, 'learning_rate': 1.9780666125101546e-06, 'epoch': 1.95}
+{'loss': 1.5726, 'grad_norm': 2.6884191036224365, 'learning_rate': 1.976035743298132e-06, 'epoch': 1.95}
+{'loss': 1.6406, 'grad_norm': 2.9216461181640625, 'learning_rate': 1.974004874086109e-06, 'epoch': 1.95}
+{'eval_loss': 1.8145784139633179, 'eval_runtime': 37.1768, 'eval_samples_per_second': 26.899, 'eval_steps_per_second': 1.13, 'epoch': 1.95}
+{'loss': 1.5474, 'grad_norm': 2.6188578605651855, 'learning_rate': 1.9719740048740864e-06, 'epoch': 1.95}
+{'loss': 1.5831, 'grad_norm': 2.6220829486846924, 'learning_rate': 1.9699431356620637e-06, 'epoch': 1.95}
+{'loss': 1.5621, 'grad_norm': 2.639695405960083, 'learning_rate': 1.967912266450041e-06, 'epoch': 1.95}
+{'loss': 1.552, 'grad_norm': 3.0538783073425293, 'learning_rate': 1.9658813972380182e-06, 'epoch': 1.96}
+{'loss': 1.6789, 'grad_norm': 2.693957567214966, 'learning_rate': 1.9638505280259955e-06, 'epoch': 1.96}
+{'loss': 1.5527, 'grad_norm': 2.6801669597625732, 'learning_rate': 1.9618196588139728e-06, 'epoch': 1.96}
+{'loss': 1.5887, 'grad_norm': 2.819408416748047, 'learning_rate': 1.95978878960195e-06, 'epoch': 1.96}
+{'loss': 1.6551, 'grad_norm': 2.819399833679199, 'learning_rate': 1.9577579203899273e-06, 'epoch': 1.96}
+{'loss': 1.614, 'grad_norm': 3.0374770164489746, 'learning_rate': 1.955727051177904e-06, 'epoch': 1.96}
+{'loss': 1.5721, 'grad_norm': 3.0710079669952393, 'learning_rate': 1.9536961819658815e-06, 'epoch': 1.96}
+{'eval_loss': 1.8166357278823853, 'eval_runtime': 37.1684, 'eval_samples_per_second': 26.905, 'eval_steps_per_second': 1.13, 'epoch': 1.96}
+{'loss': 1.5532, 'grad_norm': 2.6994147300720215, 'learning_rate': 1.9516653127538587e-06, 'epoch': 1.96}
+{'loss': 1.5565, 'grad_norm': 2.755030632019043, 'learning_rate': 1.949634443541836e-06, 'epoch': 1.96}
+{'loss': 1.545, 'grad_norm': 2.80184006690979, 'learning_rate': 1.9476035743298133e-06, 'epoch': 1.96}
+{'loss': 1.6121, 'grad_norm': 2.7419755458831787, 'learning_rate': 1.9455727051177906e-06, 'epoch': 1.97}
+{'loss': 1.5745, 'grad_norm': 2.754608392715454, 'learning_rate': 1.943541835905768e-06, 'epoch': 1.97}
+{'loss': 1.6303, 'grad_norm': 2.7504048347473145, 'learning_rate': 1.941510966693745e-06, 'epoch': 1.97}
+{'loss': 1.5476, 'grad_norm': 2.636611223220825, 'learning_rate': 1.9394800974817224e-06, 'epoch': 1.97}
+{'loss': 1.6227, 'grad_norm': 2.887341022491455, 'learning_rate': 1.9374492282696997e-06, 'epoch': 1.97}
+{'loss': 1.6361, 'grad_norm': 2.6758203506469727, 'learning_rate': 1.935418359057677e-06, 'epoch': 1.97}
+{'loss': 1.6114, 'grad_norm': 2.5958707332611084, 'learning_rate': 1.9333874898456542e-06, 'epoch': 1.97}
+{'eval_loss': 1.8168163299560547, 'eval_runtime': 37.2242, 'eval_samples_per_second': 26.864, 'eval_steps_per_second': 1.128, 'epoch': 1.97}
+{'loss': 1.6376, 'grad_norm': 2.709763288497925, 'learning_rate': 1.931356620633631e-06, 'epoch': 1.97}
+{'loss': 1.523, 'grad_norm': 2.7863962650299072, 'learning_rate': 1.9293257514216083e-06, 'epoch': 1.97}
+{'loss': 1.6003, 'grad_norm': 2.660451889038086, 'learning_rate': 1.9272948822095856e-06, 'epoch': 1.98}
+{'loss': 1.5442, 'grad_norm': 2.748889684677124, 'learning_rate': 1.925264012997563e-06, 'epoch': 1.98}
+{'loss': 1.5801, 'grad_norm': 2.7090959548950195, 'learning_rate': 1.92323314378554e-06, 'epoch': 1.98}
+{'loss': 1.6183, 'grad_norm': 2.864243745803833, 'learning_rate': 1.9212022745735174e-06, 'epoch': 1.98}
+{'loss': 1.5607, 'grad_norm': 2.658129930496216, 'learning_rate': 1.9191714053614947e-06, 'epoch': 1.98}
+{'loss': 1.5552, 'grad_norm': 2.7485649585723877, 'learning_rate': 1.917140536149472e-06, 'epoch': 1.98}
+{'loss': 1.5358, 'grad_norm': 2.5688955783843994, 'learning_rate': 1.9151096669374493e-06, 'epoch': 1.98}
+{'loss': 1.612, 'grad_norm': 2.7082202434539795, 'learning_rate': 1.9130787977254266e-06, 'epoch': 1.98}
+{'eval_loss': 1.8135063648223877, 'eval_runtime': 36.8909, 'eval_samples_per_second': 27.107, 'eval_steps_per_second': 1.138, 'epoch': 1.98}
+{'loss': 1.6016, 'grad_norm': 2.872128486633301, 'learning_rate': 1.911047928513404e-06, 'epoch': 1.98}
+{'loss': 1.5586, 'grad_norm': 2.664663553237915, 'learning_rate': 1.909017059301381e-06, 'epoch': 1.99}
+{'loss': 1.5572, 'grad_norm': 2.6917688846588135, 'learning_rate': 1.9069861900893586e-06, 'epoch': 1.99}
+{'loss': 1.6015, 'grad_norm': 2.688720941543579, 'learning_rate': 1.9049553208773354e-06, 'epoch': 1.99}
+{'loss': 1.5665, 'grad_norm': 2.5801217555999756, 'learning_rate': 1.9029244516653127e-06, 'epoch': 1.99}
+{'loss': 1.5263, 'grad_norm': 2.596057653427124, 'learning_rate': 1.90089358245329e-06, 'epoch': 1.99}
+{'loss': 1.5633, 'grad_norm': 2.671658992767334, 'learning_rate': 1.8988627132412673e-06, 'epoch': 1.99}
+{'loss': 1.6169, 'grad_norm': 2.881671667098999, 'learning_rate': 1.8968318440292445e-06, 'epoch': 1.99}
+{'loss': 1.5442, 'grad_norm': 2.7213528156280518, 'learning_rate': 1.8948009748172218e-06, 'epoch': 1.99}
+{'loss': 1.5904, 'grad_norm': 2.721205949783325, 'learning_rate': 1.892770105605199e-06, 'epoch': 1.99}
+{'eval_loss': 1.809995174407959, 'eval_runtime': 37.1476, 'eval_samples_per_second': 26.92, 'eval_steps_per_second': 1.131, 'epoch': 1.99}
+{'loss': 1.6187, 'grad_norm': 2.6542251110076904, 'learning_rate': 1.8907392363931764e-06, 'epoch': 2.0}
+{'loss': 1.5728, 'grad_norm': 2.6850414276123047, 'learning_rate': 1.8887083671811536e-06, 'epoch': 2.0}
+{'loss': 1.6023, 'grad_norm': 2.9420509338378906, 'learning_rate': 1.886677497969131e-06, 'epoch': 2.0}
+{'loss': 1.4886, 'grad_norm': 2.6539506912231445, 'learning_rate': 1.8846466287571082e-06, 'epoch': 2.0}
+{'loss': 1.5968, 'grad_norm': 2.7468559741973877, 'learning_rate': 1.8826157595450855e-06, 'epoch': 2.0}
+{'loss': 1.5099, 'grad_norm': 2.9334170818328857, 'learning_rate': 1.8805848903330625e-06, 'epoch': 2.0}
+{'loss': 1.6651, 'grad_norm': 3.067456007003784, 'learning_rate': 1.8785540211210398e-06, 'epoch': 2.0}
+{'loss': 1.5666, 'grad_norm': 2.8721303939819336, 'learning_rate': 1.876523151909017e-06, 'epoch': 2.0}
+{'loss': 1.5358, 'grad_norm': 2.8489670753479004, 'learning_rate': 1.8744922826969944e-06, 'epoch': 2.0}
+{'loss': 1.5242, 'grad_norm': 2.8652217388153076, 'learning_rate': 1.8724614134849716e-06, 'epoch': 2.01}
+{'eval_loss': 1.8187663555145264, 'eval_runtime': 37.1841, 'eval_samples_per_second': 26.893, 'eval_steps_per_second': 1.13, 'epoch': 2.01}
+{'loss': 1.546, 'grad_norm': 3.000204086303711, 'learning_rate': 1.870430544272949e-06, 'epoch': 2.01}
+{'loss': 1.6452, 'grad_norm': 3.344660758972168, 'learning_rate': 1.8683996750609262e-06, 'epoch': 2.01}
+{'loss': 1.5284, 'grad_norm': 3.3041818141937256, 'learning_rate': 1.8663688058489035e-06, 'epoch': 2.01}
+{'loss': 1.5534, 'grad_norm': 2.9112915992736816, 'learning_rate': 1.8643379366368807e-06, 'epoch': 2.01}
+{'loss': 1.5534, 'grad_norm': 2.9359078407287598, 'learning_rate': 1.862307067424858e-06, 'epoch': 2.01}
+{'loss': 1.5614, 'grad_norm': 3.127639055252075, 'learning_rate': 1.8602761982128353e-06, 'epoch': 2.01}
+{'loss': 1.598, 'grad_norm': 2.8351926803588867, 'learning_rate': 1.8582453290008126e-06, 'epoch': 2.01}
+{'loss': 1.5262, 'grad_norm': 2.81606388092041, 'learning_rate': 1.8562144597887898e-06, 'epoch': 2.01}
+{'loss': 1.553, 'grad_norm': 2.8759658336639404, 'learning_rate': 1.854183590576767e-06, 'epoch': 2.02}
+{'loss': 1.5998, 'grad_norm': 2.9519526958465576, 'learning_rate': 1.8521527213647442e-06, 'epoch': 2.02}
+{'eval_loss': 1.8135932683944702, 'eval_runtime': 37.2983, 'eval_samples_per_second': 26.811, 'eval_steps_per_second': 1.126, 'epoch': 2.02}
+{'loss': 1.5193, 'grad_norm': 2.8636465072631836, 'learning_rate': 1.8501218521527215e-06, 'epoch': 2.02}
+{'loss': 1.4694, 'grad_norm': 2.949354648590088, 'learning_rate': 1.8480909829406987e-06, 'epoch': 2.02}
+{'loss': 1.5175, 'grad_norm': 3.0157501697540283, 'learning_rate': 1.846060113728676e-06, 'epoch': 2.02}
+{'loss': 1.559, 'grad_norm': 3.026820421218872, 'learning_rate': 1.8440292445166533e-06, 'epoch': 2.02}
+{'loss': 1.4992, 'grad_norm': 2.980776786804199, 'learning_rate': 1.8419983753046306e-06, 'epoch': 2.02}
+{'loss': 1.5911, 'grad_norm': 2.955500364303589, 'learning_rate': 1.8399675060926078e-06, 'epoch': 2.02}
+{'loss': 1.5638, 'grad_norm': 3.005505323410034, 'learning_rate': 1.8379366368805851e-06, 'epoch': 2.02}
+{'loss': 1.5291, 'grad_norm': 2.8262405395507812, 'learning_rate': 1.8359057676685624e-06, 'epoch': 2.03}
+{'loss': 1.5218, 'grad_norm': 2.7804510593414307, 'learning_rate': 1.8338748984565397e-06, 'epoch': 2.03}
+{'loss': 1.542, 'grad_norm': 3.0078423023223877, 'learning_rate': 1.831844029244517e-06, 'epoch': 2.03}
+{'eval_loss': 1.8123717308044434, 'eval_runtime': 37.3156, 'eval_samples_per_second': 26.798, 'eval_steps_per_second': 1.126, 'epoch': 2.03}
+{'loss': 1.5202, 'grad_norm': 2.9625120162963867, 'learning_rate': 1.829813160032494e-06, 'epoch': 2.03}
+{'loss': 1.5289, 'grad_norm': 2.8305511474609375, 'learning_rate': 1.8277822908204713e-06, 'epoch': 2.03}
+{'loss': 1.5609, 'grad_norm': 2.9316961765289307, 'learning_rate': 1.8257514216084486e-06, 'epoch': 2.03}
+{'loss': 1.5452, 'grad_norm': 3.128195285797119, 'learning_rate': 1.8237205523964258e-06, 'epoch': 2.03}
+{'loss': 1.552, 'grad_norm': 2.9158523082733154, 'learning_rate': 1.8216896831844031e-06, 'epoch': 2.03}
+{'loss': 1.5976, 'grad_norm': 2.905848264694214, 'learning_rate': 1.8196588139723804e-06, 'epoch': 2.03}
+{'loss': 1.5167, 'grad_norm': 2.9548468589782715, 'learning_rate': 1.8176279447603577e-06, 'epoch': 2.04}
+{'loss': 1.5116, 'grad_norm': 2.8970632553100586, 'learning_rate': 1.815597075548335e-06, 'epoch': 2.04}
+{'loss': 1.5591, 'grad_norm': 3.001655340194702, 'learning_rate': 1.8135662063363122e-06, 'epoch': 2.04}
+{'loss': 1.5899, 'grad_norm': 3.086770534515381, 'learning_rate': 1.8115353371242895e-06, 'epoch': 2.04}
+{'eval_loss': 1.8146355152130127, 'eval_runtime': 37.2779, 'eval_samples_per_second': 26.826, 'eval_steps_per_second': 1.127, 'epoch': 2.04}
+{'loss': 1.4858, 'grad_norm': 2.8270034790039062, 'learning_rate': 1.8095044679122668e-06, 'epoch': 2.04}
+{'loss': 1.5276, 'grad_norm': 2.981127977371216, 'learning_rate': 1.807473598700244e-06, 'epoch': 2.04}
+{'loss': 1.5051, 'grad_norm': 2.867921829223633, 'learning_rate': 1.805442729488221e-06, 'epoch': 2.04}
+{'loss': 1.5181, 'grad_norm': 2.7737348079681396, 'learning_rate': 1.8034118602761982e-06, 'epoch': 2.04}
+{'loss': 1.5358, 'grad_norm': 2.9307985305786133, 'learning_rate': 1.8013809910641754e-06, 'epoch': 2.04}
+{'loss': 1.5356, 'grad_norm': 2.9373624324798584, 'learning_rate': 1.7993501218521527e-06, 'epoch': 2.04}
+{'loss': 1.5163, 'grad_norm': 2.8827672004699707, 'learning_rate': 1.79731925264013e-06, 'epoch': 2.05}
+{'loss': 1.5645, 'grad_norm': 2.9692344665527344, 'learning_rate': 1.7952883834281073e-06, 'epoch': 2.05}
+{'loss': 1.5282, 'grad_norm': 2.810917377471924, 'learning_rate': 1.7932575142160846e-06, 'epoch': 2.05}
+{'loss': 1.5598, 'grad_norm': 2.85056471824646, 'learning_rate': 1.7912266450040618e-06, 'epoch': 2.05}
+{'eval_loss': 1.8124264478683472, 'eval_runtime': 37.1743, 'eval_samples_per_second': 26.9, 'eval_steps_per_second': 1.13, 'epoch': 2.05}
+{'loss': 1.5634, 'grad_norm': 2.895660877227783, 'learning_rate': 1.789195775792039e-06, 'epoch': 2.05}
+{'loss': 1.4754, 'grad_norm': 2.9039483070373535, 'learning_rate': 1.7871649065800164e-06, 'epoch': 2.05}
+{'loss': 1.6061, 'grad_norm': 3.049464225769043, 'learning_rate': 1.7851340373679937e-06, 'epoch': 2.05}
+{'loss': 1.5068, 'grad_norm': 2.877824306488037, 'learning_rate': 1.783103168155971e-06, 'epoch': 2.05}
+{'loss': 1.5286, 'grad_norm': 3.3161075115203857, 'learning_rate': 1.7810722989439482e-06, 'epoch': 2.05}
+{'loss': 1.5388, 'grad_norm': 2.934148073196411, 'learning_rate': 1.7790414297319253e-06, 'epoch': 2.06}
+{'loss': 1.5157, 'grad_norm': 2.9859094619750977, 'learning_rate': 1.7770105605199025e-06, 'epoch': 2.06}
+{'loss': 1.5034, 'grad_norm': 2.916668653488159, 'learning_rate': 1.7749796913078798e-06, 'epoch': 2.06}
+{'loss': 1.5483, 'grad_norm': 3.16752028465271, 'learning_rate': 1.772948822095857e-06, 'epoch': 2.06}
+{'loss': 1.5942, 'grad_norm': 3.0830936431884766, 'learning_rate': 1.7709179528838344e-06, 'epoch': 2.06}
+{'eval_loss': 1.8144135475158691, 'eval_runtime': 37.1761, 'eval_samples_per_second': 26.899, 'eval_steps_per_second': 1.13, 'epoch': 2.06}
+{'loss': 1.5735, 'grad_norm': 3.1621158123016357, 'learning_rate': 1.7688870836718116e-06, 'epoch': 2.06}
+{'loss': 1.5412, 'grad_norm': 3.0182595252990723, 'learning_rate': 1.766856214459789e-06, 'epoch': 2.06}
+{'loss': 1.5328, 'grad_norm': 2.912668228149414, 'learning_rate': 1.7648253452477662e-06, 'epoch': 2.06}
+{'loss': 1.5111, 'grad_norm': 3.061091423034668, 'learning_rate': 1.7627944760357435e-06, 'epoch': 2.06}
+{'loss': 1.5983, 'grad_norm': 2.9681029319763184, 'learning_rate': 1.7607636068237208e-06, 'epoch': 2.07}
+{'loss': 1.5529, 'grad_norm': 3.1734211444854736, 'learning_rate': 1.758732737611698e-06, 'epoch': 2.07}
+{'loss': 1.5488, 'grad_norm': 3.0264222621917725, 'learning_rate': 1.7567018683996753e-06, 'epoch': 2.07}
+{'loss': 1.5351, 'grad_norm': 2.9788169860839844, 'learning_rate': 1.7546709991876524e-06, 'epoch': 2.07}
+{'loss': 1.5232, 'grad_norm': 2.9770145416259766, 'learning_rate': 1.7526401299756296e-06, 'epoch': 2.07}
+{'loss': 1.5319, 'grad_norm': 3.2160613536834717, 'learning_rate': 1.750609260763607e-06, 'epoch': 2.07}
+{'eval_loss': 1.8123860359191895, 'eval_runtime': 37.2075, 'eval_samples_per_second': 26.876, 'eval_steps_per_second': 1.129, 'epoch': 2.07}
+{'loss': 1.541, 'grad_norm': 2.98433518409729, 'learning_rate': 1.7485783915515842e-06, 'epoch': 2.07}
+{'loss': 1.5334, 'grad_norm': 3.042020082473755, 'learning_rate': 1.7465475223395615e-06, 'epoch': 2.07}
+{'loss': 1.4854, 'grad_norm': 2.878483533859253, 'learning_rate': 1.7445166531275387e-06, 'epoch': 2.07}
+{'loss': 1.6235, 'grad_norm': 3.219987154006958, 'learning_rate': 1.742485783915516e-06, 'epoch': 2.08}
+{'loss': 1.6166, 'grad_norm': 2.9204180240631104, 'learning_rate': 1.7404549147034933e-06, 'epoch': 2.08}
+{'loss': 1.4644, 'grad_norm': 2.873898506164551, 'learning_rate': 1.7384240454914706e-06, 'epoch': 2.08}
+{'loss': 1.5525, 'grad_norm': 3.07304048538208, 'learning_rate': 1.7363931762794478e-06, 'epoch': 2.08}
+{'loss': 1.574, 'grad_norm': 3.065629482269287, 'learning_rate': 1.7343623070674251e-06, 'epoch': 2.08}
+{'loss': 1.5296, 'grad_norm': 2.8665778636932373, 'learning_rate': 1.7323314378554024e-06, 'epoch': 2.08}
+{'loss': 1.5473, 'grad_norm': 2.8402345180511475, 'learning_rate': 1.7303005686433797e-06, 'epoch': 2.08}
+{'eval_loss': 1.8114396333694458, 'eval_runtime': 37.2385, 'eval_samples_per_second': 26.854, 'eval_steps_per_second': 1.128, 'epoch': 2.08}
+{'loss': 1.5405, 'grad_norm': 2.91286301612854, 'learning_rate': 1.7282696994313567e-06, 'epoch': 2.08}
+{'loss': 1.5389, 'grad_norm': 2.966437578201294, 'learning_rate': 1.726238830219334e-06, 'epoch': 2.08}
+{'loss': 1.532, 'grad_norm': 3.0182693004608154, 'learning_rate': 1.7242079610073113e-06, 'epoch': 2.09}
+{'loss': 1.5946, 'grad_norm': 3.0323562622070312, 'learning_rate': 1.7221770917952886e-06, 'epoch': 2.09}
+{'loss': 1.5451, 'grad_norm': 2.9909002780914307, 'learning_rate': 1.7201462225832658e-06, 'epoch': 2.09}
+{'loss': 1.5606, 'grad_norm': 2.872896432876587, 'learning_rate': 1.7181153533712431e-06, 'epoch': 2.09}
+{'loss': 1.4634, 'grad_norm': 2.8841099739074707, 'learning_rate': 1.7160844841592204e-06, 'epoch': 2.09}
+{'loss': 1.4674, 'grad_norm': 2.9734718799591064, 'learning_rate': 1.7140536149471977e-06, 'epoch': 2.09}
+{'loss': 1.5179, 'grad_norm': 2.7336618900299072, 'learning_rate': 1.712022745735175e-06, 'epoch': 2.09}
+{'loss': 1.5298, 'grad_norm': 2.7525081634521484, 'learning_rate': 1.7099918765231522e-06, 'epoch': 2.09}
+{'eval_loss': 1.8111896514892578, 'eval_runtime': 36.8371, 'eval_samples_per_second': 27.147, 'eval_steps_per_second': 1.14, 'epoch': 2.09}
+{'loss': 1.5392, 'grad_norm': 2.8897578716278076, 'learning_rate': 1.7079610073111295e-06, 'epoch': 2.09}
+{'loss': 1.4838, 'grad_norm': 2.96352219581604, 'learning_rate': 1.7059301380991068e-06, 'epoch': 2.1}
+{'loss': 1.5391, 'grad_norm': 3.0692732334136963, 'learning_rate': 1.7038992688870836e-06, 'epoch': 2.1}
+{'loss': 1.5429, 'grad_norm': 2.868380308151245, 'learning_rate': 1.701868399675061e-06, 'epoch': 2.1}
+{'loss': 1.562, 'grad_norm': 3.111435651779175, 'learning_rate': 1.6998375304630382e-06, 'epoch': 2.1}
+{'loss': 1.6129, 'grad_norm': 2.9990973472595215, 'learning_rate': 1.6978066612510155e-06, 'epoch': 2.1}
+{'loss': 1.5649, 'grad_norm': 2.896906614303589, 'learning_rate': 1.6957757920389927e-06, 'epoch': 2.1}
+{'loss': 1.5224, 'grad_norm': 2.966764450073242, 'learning_rate': 1.69374492282697e-06, 'epoch': 2.1}
+{'loss': 1.5204, 'grad_norm': 2.98482608795166, 'learning_rate': 1.6917140536149473e-06, 'epoch': 2.1}
+{'loss': 1.605, 'grad_norm': 3.0192346572875977, 'learning_rate': 1.6896831844029246e-06, 'epoch': 2.1}
+{'eval_loss': 1.8114374876022339, 'eval_runtime': 37.1796, 'eval_samples_per_second': 26.896, 'eval_steps_per_second': 1.13, 'epoch': 2.1}
+{'loss': 1.5317, 'grad_norm': 2.9359049797058105, 'learning_rate': 1.6876523151909018e-06, 'epoch': 2.11}
+{'loss': 1.5458, 'grad_norm': 3.087991952896118, 'learning_rate': 1.6856214459788791e-06, 'epoch': 2.11}
+{'loss': 1.5053, 'grad_norm': 3.079904794692993, 'learning_rate': 1.6835905767668564e-06, 'epoch': 2.11}
+{'loss': 1.5276, 'grad_norm': 3.2002458572387695, 'learning_rate': 1.6815597075548337e-06, 'epoch': 2.11}
+{'loss': 1.5831, 'grad_norm': 3.1295740604400635, 'learning_rate': 1.679528838342811e-06, 'epoch': 2.11}
+{'loss': 1.5194, 'grad_norm': 2.9871461391448975, 'learning_rate': 1.677497969130788e-06, 'epoch': 2.11}
+{'loss': 1.5178, 'grad_norm': 2.9117379188537598, 'learning_rate': 1.6754670999187653e-06, 'epoch': 2.11}
+{'loss': 1.5409, 'grad_norm': 2.9347078800201416, 'learning_rate': 1.6734362307067426e-06, 'epoch': 2.11}
+{'loss': 1.4845, 'grad_norm': 2.9074113368988037, 'learning_rate': 1.6714053614947198e-06, 'epoch': 2.11}
+{'loss': 1.4716, 'grad_norm': 2.993051528930664, 'learning_rate': 1.669374492282697e-06, 'epoch': 2.12}
+{'eval_loss': 1.8102058172225952, 'eval_runtime': 37.2473, 'eval_samples_per_second': 26.848, 'eval_steps_per_second': 1.128, 'epoch': 2.12}
+{'loss': 1.5798, 'grad_norm': 3.0071909427642822, 'learning_rate': 1.6673436230706744e-06, 'epoch': 2.12}
+{'loss': 1.5565, 'grad_norm': 3.1663055419921875, 'learning_rate': 1.6653127538586517e-06, 'epoch': 2.12}
+{'loss': 1.537, 'grad_norm': 3.0547966957092285, 'learning_rate': 1.663281884646629e-06, 'epoch': 2.12}
+{'loss': 1.5286, 'grad_norm': 3.224301815032959, 'learning_rate': 1.6612510154346062e-06, 'epoch': 2.12}
+{'loss': 1.5868, 'grad_norm': 3.0271787643432617, 'learning_rate': 1.6592201462225835e-06, 'epoch': 2.12}
+{'loss': 1.5617, 'grad_norm': 2.952291488647461, 'learning_rate': 1.6571892770105608e-06, 'epoch': 2.12}
+{'loss': 1.5974, 'grad_norm': 3.0080809593200684, 'learning_rate': 1.655158407798538e-06, 'epoch': 2.12}
+{'loss': 1.5344, 'grad_norm': 3.249833106994629, 'learning_rate': 1.653127538586515e-06, 'epoch': 2.12}
+{'loss': 1.5711, 'grad_norm': 3.1032025814056396, 'learning_rate': 1.6510966693744924e-06, 'epoch': 2.12}
+{'loss': 1.5828, 'grad_norm': 3.1881093978881836, 'learning_rate': 1.6490658001624696e-06, 'epoch': 2.13}
+{'eval_loss': 1.8083537817001343, 'eval_runtime': 37.1916, 'eval_samples_per_second': 26.888, 'eval_steps_per_second': 1.129, 'epoch': 2.13}
+{'loss': 1.5707, 'grad_norm': 3.0378284454345703, 'learning_rate': 1.647034930950447e-06, 'epoch': 2.13}
+{'loss': 1.5072, 'grad_norm': 2.8167002201080322, 'learning_rate': 1.6450040617384242e-06, 'epoch': 2.13}
+{'loss': 1.5464, 'grad_norm': 2.921473264694214, 'learning_rate': 1.6429731925264015e-06, 'epoch': 2.13}
+{'loss': 1.5638, 'grad_norm': 2.9117305278778076, 'learning_rate': 1.6409423233143788e-06, 'epoch': 2.13}
+{'loss': 1.5266, 'grad_norm': 2.9102439880371094, 'learning_rate': 1.638911454102356e-06, 'epoch': 2.13}
+{'loss': 1.5156, 'grad_norm': 2.8359367847442627, 'learning_rate': 1.6368805848903333e-06, 'epoch': 2.13}
+{'loss': 1.5749, 'grad_norm': 2.884160041809082, 'learning_rate': 1.6348497156783106e-06, 'epoch': 2.13}
+{'loss': 1.516, 'grad_norm': 2.921024799346924, 'learning_rate': 1.6328188464662879e-06, 'epoch': 2.13}
+{'loss': 1.5265, 'grad_norm': 2.947483539581299, 'learning_rate': 1.6307879772542651e-06, 'epoch': 2.14}
+{'loss': 1.5414, 'grad_norm': 2.9654922485351562, 'learning_rate': 1.628757108042242e-06, 'epoch': 2.14}
+{'eval_loss': 1.8112154006958008, 'eval_runtime': 37.2211, 'eval_samples_per_second': 26.866, 'eval_steps_per_second': 1.128, 'epoch': 2.14}
+{'loss': 1.5712, 'grad_norm': 2.9900968074798584, 'learning_rate': 1.6267262388302193e-06, 'epoch': 2.14}
+{'loss': 1.52, 'grad_norm': 2.8663604259490967, 'learning_rate': 1.6246953696181965e-06, 'epoch': 2.14}
+{'loss': 1.5461, 'grad_norm': 3.0792734622955322, 'learning_rate': 1.6226645004061738e-06, 'epoch': 2.14}
+{'loss': 1.6206, 'grad_norm': 3.0100409984588623, 'learning_rate': 1.620633631194151e-06, 'epoch': 2.14}
+{'loss': 1.5761, 'grad_norm': 3.061314344406128, 'learning_rate': 1.6186027619821284e-06, 'epoch': 2.14}
+{'loss': 1.5169, 'grad_norm': 2.8961095809936523, 'learning_rate': 1.6165718927701056e-06, 'epoch': 2.14}
+{'loss': 1.5615, 'grad_norm': 2.965549945831299, 'learning_rate': 1.614541023558083e-06, 'epoch': 2.14}
+{'loss': 1.551, 'grad_norm': 2.9825284481048584, 'learning_rate': 1.6125101543460602e-06, 'epoch': 2.15}
+{'loss': 1.5412, 'grad_norm': 2.950587749481201, 'learning_rate': 1.6104792851340375e-06, 'epoch': 2.15}
+{'loss': 1.5585, 'grad_norm': 2.879544496536255, 'learning_rate': 1.6084484159220147e-06, 'epoch': 2.15}
+{'eval_loss': 1.8093459606170654, 'eval_runtime': 37.2932, 'eval_samples_per_second': 26.815, 'eval_steps_per_second': 1.126, 'epoch': 2.15}
+{'loss': 1.5179, 'grad_norm': 3.104874849319458, 'learning_rate': 1.606417546709992e-06, 'epoch': 2.15}
+{'loss': 1.5385, 'grad_norm': 2.9908242225646973, 'learning_rate': 1.6043866774979693e-06, 'epoch': 2.15}
+{'loss': 1.5361, 'grad_norm': 2.97064471244812, 'learning_rate': 1.6023558082859464e-06, 'epoch': 2.15}
+{'loss': 1.5011, 'grad_norm': 2.856841802597046, 'learning_rate': 1.6003249390739236e-06, 'epoch': 2.15}
+{'loss': 1.5397, 'grad_norm': 3.0110960006713867, 'learning_rate': 1.598294069861901e-06, 'epoch': 2.15}
+{'loss': 1.5169, 'grad_norm': 3.0178773403167725, 'learning_rate': 1.5962632006498782e-06, 'epoch': 2.15}
+{'loss': 1.5976, 'grad_norm': 3.137674570083618, 'learning_rate': 1.5942323314378555e-06, 'epoch': 2.16}
+{'loss': 1.5135, 'grad_norm': 2.86112117767334, 'learning_rate': 1.5922014622258327e-06, 'epoch': 2.16}
+{'loss': 1.5062, 'grad_norm': 2.9500656127929688, 'learning_rate': 1.59017059301381e-06, 'epoch': 2.16}
+{'loss': 1.5603, 'grad_norm': 2.854247570037842, 'learning_rate': 1.5881397238017873e-06, 'epoch': 2.16}
+{'eval_loss': 1.809329867362976, 'eval_runtime': 37.157, 'eval_samples_per_second': 26.913, 'eval_steps_per_second': 1.13, 'epoch': 2.16}
+{'loss': 1.5428, 'grad_norm': 2.9294161796569824, 'learning_rate': 1.5861088545897646e-06, 'epoch': 2.16}
+{'loss': 1.4925, 'grad_norm': 2.833270788192749, 'learning_rate': 1.5840779853777418e-06, 'epoch': 2.16}
+{'loss': 1.542, 'grad_norm': 3.1147077083587646, 'learning_rate': 1.5820471161657191e-06, 'epoch': 2.16}
+{'loss': 1.5136, 'grad_norm': 3.0233561992645264, 'learning_rate': 1.5800162469536964e-06, 'epoch': 2.16}
+{'loss': 1.5748, 'grad_norm': 3.1687583923339844, 'learning_rate': 1.5779853777416735e-06, 'epoch': 2.16}
+{'loss': 1.5683, 'grad_norm': 3.095669746398926, 'learning_rate': 1.5759545085296507e-06, 'epoch': 2.17}
+{'loss': 1.5442, 'grad_norm': 2.9901936054229736, 'learning_rate': 1.573923639317628e-06, 'epoch': 2.17}
+{'loss': 1.5544, 'grad_norm': 3.156691312789917, 'learning_rate': 1.5718927701056053e-06, 'epoch': 2.17}
+{'loss': 1.5688, 'grad_norm': 2.9674503803253174, 'learning_rate': 1.5698619008935826e-06, 'epoch': 2.17}
+{'loss': 1.5645, 'grad_norm': 3.0276317596435547, 'learning_rate': 1.5678310316815598e-06, 'epoch': 2.17}
+{'eval_loss': 1.806713581085205, 'eval_runtime': 37.1928, 'eval_samples_per_second': 26.887, 'eval_steps_per_second': 1.129, 'epoch': 2.17}
+{'loss': 1.5071, 'grad_norm': 2.8310959339141846, 'learning_rate': 1.5658001624695371e-06, 'epoch': 2.17}
+{'loss': 1.5608, 'grad_norm': 3.0237836837768555, 'learning_rate': 1.5637692932575144e-06, 'epoch': 2.17}
+{'loss': 1.5246, 'grad_norm': 3.0911290645599365, 'learning_rate': 1.5617384240454917e-06, 'epoch': 2.17}
+{'loss': 1.5393, 'grad_norm': 2.9403584003448486, 'learning_rate': 1.559707554833469e-06, 'epoch': 2.17}
+{'loss': 1.5836, 'grad_norm': 3.1798179149627686, 'learning_rate': 1.5576766856214462e-06, 'epoch': 2.18}
+{'loss': 1.4716, 'grad_norm': 2.894441843032837, 'learning_rate': 1.5556458164094235e-06, 'epoch': 2.18}
+{'loss': 1.5124, 'grad_norm': 2.990337371826172, 'learning_rate': 1.5536149471974008e-06, 'epoch': 2.18}
+{'loss': 1.4946, 'grad_norm': 2.961712598800659, 'learning_rate': 1.5515840779853778e-06, 'epoch': 2.18}
+{'loss': 1.5398, 'grad_norm': 2.9735326766967773, 'learning_rate': 1.549553208773355e-06, 'epoch': 2.18}
+{'loss': 1.5162, 'grad_norm': 3.0465126037597656, 'learning_rate': 1.5475223395613324e-06, 'epoch': 2.18}
+{'eval_loss': 1.811614990234375, 'eval_runtime': 37.2251, 'eval_samples_per_second': 26.864, 'eval_steps_per_second': 1.128, 'epoch': 2.18}
+{'loss': 1.5193, 'grad_norm': 3.0636777877807617, 'learning_rate': 1.5454914703493097e-06, 'epoch': 2.18}
+{'loss': 1.581, 'grad_norm': 3.131138563156128, 'learning_rate': 1.543460601137287e-06, 'epoch': 2.18}
+{'loss': 1.539, 'grad_norm': 3.028381824493408, 'learning_rate': 1.5414297319252642e-06, 'epoch': 2.18}
+{'loss': 1.5493, 'grad_norm': 3.017573356628418, 'learning_rate': 1.5393988627132415e-06, 'epoch': 2.19}
+{'loss': 1.5399, 'grad_norm': 2.8733723163604736, 'learning_rate': 1.5373679935012188e-06, 'epoch': 2.19}
+{'loss': 1.4742, 'grad_norm': 3.0504605770111084, 'learning_rate': 1.535337124289196e-06, 'epoch': 2.19}
+{'loss': 1.5289, 'grad_norm': 2.9904239177703857, 'learning_rate': 1.5333062550771733e-06, 'epoch': 2.19}
+{'loss': 1.6031, 'grad_norm': 2.9754273891448975, 'learning_rate': 1.5312753858651506e-06, 'epoch': 2.19}
+{'loss': 1.5567, 'grad_norm': 2.937514066696167, 'learning_rate': 1.5292445166531279e-06, 'epoch': 2.19}
+{'loss': 1.5453, 'grad_norm': 3.119877815246582, 'learning_rate': 1.5272136474411047e-06, 'epoch': 2.19}
+{'eval_loss': 1.8095368146896362, 'eval_runtime': 37.314, 'eval_samples_per_second': 26.8, 'eval_steps_per_second': 1.126, 'epoch': 2.19}
+{'loss': 1.5792, 'grad_norm': 3.086714267730713, 'learning_rate': 1.525182778229082e-06, 'epoch': 2.19}
+{'loss': 1.5599, 'grad_norm': 2.915955066680908, 'learning_rate': 1.5231519090170593e-06, 'epoch': 2.19}
+{'loss': 1.5286, 'grad_norm': 2.9115076065063477, 'learning_rate': 1.5211210398050365e-06, 'epoch': 2.2}
+{'loss': 1.5116, 'grad_norm': 2.989149808883667, 'learning_rate': 1.5190901705930138e-06, 'epoch': 2.2}
+{'loss': 1.5568, 'grad_norm': 3.0808184146881104, 'learning_rate': 1.517059301380991e-06, 'epoch': 2.2}
+{'loss': 1.5237, 'grad_norm': 2.9627561569213867, 'learning_rate': 1.5150284321689684e-06, 'epoch': 2.2}
+{'loss': 1.5228, 'grad_norm': 2.8799078464508057, 'learning_rate': 1.5129975629569456e-06, 'epoch': 2.2}
+{'loss': 1.5314, 'grad_norm': 2.9700374603271484, 'learning_rate': 1.510966693744923e-06, 'epoch': 2.2}
+{'loss': 1.5406, 'grad_norm': 3.031604290008545, 'learning_rate': 1.5089358245329002e-06, 'epoch': 2.2}
+{'loss': 1.4971, 'grad_norm': 3.101407527923584, 'learning_rate': 1.5069049553208775e-06, 'epoch': 2.2}
+{'eval_loss': 1.8108844757080078, 'eval_runtime': 36.8838, 'eval_samples_per_second': 27.112, 'eval_steps_per_second': 1.139, 'epoch': 2.2}
+{'loss': 1.5488, 'grad_norm': 2.955763578414917, 'learning_rate': 1.5048740861088547e-06, 'epoch': 2.2}
+{'loss': 1.5664, 'grad_norm': 2.8813931941986084, 'learning_rate': 1.502843216896832e-06, 'epoch': 2.2}
+{'loss': 1.4719, 'grad_norm': 3.05414080619812, 'learning_rate': 1.500812347684809e-06, 'epoch': 2.21}
+{'loss': 1.5389, 'grad_norm': 2.9929933547973633, 'learning_rate': 1.4987814784727864e-06, 'epoch': 2.21}
+{'loss': 1.5324, 'grad_norm': 3.0010180473327637, 'learning_rate': 1.4967506092607636e-06, 'epoch': 2.21}
+{'loss': 1.5042, 'grad_norm': 2.8261168003082275, 'learning_rate': 1.494719740048741e-06, 'epoch': 2.21}
+{'loss': 1.5427, 'grad_norm': 3.0346126556396484, 'learning_rate': 1.4926888708367182e-06, 'epoch': 2.21}
+{'loss': 1.5695, 'grad_norm': 2.9425783157348633, 'learning_rate': 1.4906580016246955e-06, 'epoch': 2.21}
+{'loss': 1.5791, 'grad_norm': 3.1421637535095215, 'learning_rate': 1.4886271324126727e-06, 'epoch': 2.21}
+{'loss': 1.5787, 'grad_norm': 3.0382707118988037, 'learning_rate': 1.48659626320065e-06, 'epoch': 2.21}
+{'eval_loss': 1.8077536821365356, 'eval_runtime': 37.1811, 'eval_samples_per_second': 26.895, 'eval_steps_per_second': 1.13, 'epoch': 2.21}
+{'loss': 1.4515, 'grad_norm': 2.8756654262542725, 'learning_rate': 1.4845653939886273e-06, 'epoch': 2.21}
+{'loss': 1.463, 'grad_norm': 2.833338975906372, 'learning_rate': 1.4825345247766046e-06, 'epoch': 2.22}
+{'loss': 1.4809, 'grad_norm': 2.884336233139038, 'learning_rate': 1.4805036555645818e-06, 'epoch': 2.22}
+{'loss': 1.5163, 'grad_norm': 2.998903274536133, 'learning_rate': 1.4784727863525591e-06, 'epoch': 2.22}
+{'loss': 1.4888, 'grad_norm': 2.7807600498199463, 'learning_rate': 1.4764419171405362e-06, 'epoch': 2.22}
+{'loss': 1.5659, 'grad_norm': 3.0383498668670654, 'learning_rate': 1.4744110479285135e-06, 'epoch': 2.22}
+{'loss': 1.5648, 'grad_norm': 3.162415027618408, 'learning_rate': 1.4723801787164907e-06, 'epoch': 2.22}
+{'loss': 1.5614, 'grad_norm': 3.0969479084014893, 'learning_rate': 1.470349309504468e-06, 'epoch': 2.22}
+{'loss': 1.5426, 'grad_norm': 2.968904733657837, 'learning_rate': 1.4683184402924453e-06, 'epoch': 2.22}
+{'loss': 1.5695, 'grad_norm': 3.1130635738372803, 'learning_rate': 1.4662875710804226e-06, 'epoch': 2.22}
+{'eval_loss': 1.8049863576889038, 'eval_runtime': 37.2207, 'eval_samples_per_second': 26.867, 'eval_steps_per_second': 1.128, 'epoch': 2.22}
+{'loss': 1.6212, 'grad_norm': 2.9921040534973145, 'learning_rate': 1.4642567018683998e-06, 'epoch': 2.23}
+{'loss': 1.5199, 'grad_norm': 2.8416500091552734, 'learning_rate': 1.4622258326563771e-06, 'epoch': 2.23}
+{'loss': 1.5195, 'grad_norm': 3.01324462890625, 'learning_rate': 1.4601949634443544e-06, 'epoch': 2.23}
+{'loss': 1.5252, 'grad_norm': 3.052415132522583, 'learning_rate': 1.4581640942323317e-06, 'epoch': 2.23}
+{'loss': 1.6332, 'grad_norm': 3.011387348175049, 'learning_rate': 1.456133225020309e-06, 'epoch': 2.23}
+{'loss': 1.5483, 'grad_norm': 3.0655579566955566, 'learning_rate': 1.4541023558082862e-06, 'epoch': 2.23}
+{'loss': 1.531, 'grad_norm': 2.988328695297241, 'learning_rate': 1.4520714865962635e-06, 'epoch': 2.23}
+{'loss': 1.5699, 'grad_norm': 3.1820969581604004, 'learning_rate': 1.4500406173842406e-06, 'epoch': 2.23}
+{'loss': 1.5344, 'grad_norm': 3.100234270095825, 'learning_rate': 1.4480097481722178e-06, 'epoch': 2.23}
+{'loss': 1.5451, 'grad_norm': 3.056027889251709, 'learning_rate': 1.4459788789601951e-06, 'epoch': 2.24}
+{'eval_loss': 1.8070225715637207, 'eval_runtime': 37.246, 'eval_samples_per_second': 26.849, 'eval_steps_per_second': 1.128, 'epoch': 2.24}
+{'loss': 1.5011, 'grad_norm': 2.988844633102417, 'learning_rate': 1.4439480097481724e-06, 'epoch': 2.24}
+{'loss': 1.4973, 'grad_norm': 3.191542387008667, 'learning_rate': 1.4419171405361497e-06, 'epoch': 2.24}
+{'loss': 1.5488, 'grad_norm': 3.1525838375091553, 'learning_rate': 1.439886271324127e-06, 'epoch': 2.24}
+{'loss': 1.5416, 'grad_norm': 3.2659125328063965, 'learning_rate': 1.4378554021121042e-06, 'epoch': 2.24}
+{'loss': 1.5403, 'grad_norm': 2.917837619781494, 'learning_rate': 1.4358245329000815e-06, 'epoch': 2.24}
+{'loss': 1.5691, 'grad_norm': 3.0324769020080566, 'learning_rate': 1.4337936636880588e-06, 'epoch': 2.24}
+{'loss': 1.5501, 'grad_norm': 3.0153560638427734, 'learning_rate': 1.431762794476036e-06, 'epoch': 2.24}
+{'loss': 1.4968, 'grad_norm': 2.926806926727295, 'learning_rate': 1.4297319252640133e-06, 'epoch': 2.24}
+{'loss': 1.537, 'grad_norm': 3.12540864944458, 'learning_rate': 1.4277010560519906e-06, 'epoch': 2.25}
+{'loss': 1.5092, 'grad_norm': 2.965358257293701, 'learning_rate': 1.4256701868399674e-06, 'epoch': 2.25}
+{'eval_loss': 1.8053083419799805, 'eval_runtime': 37.2348, 'eval_samples_per_second': 26.857, 'eval_steps_per_second': 1.128, 'epoch': 2.25}
+{'loss': 1.5817, 'grad_norm': 3.0532124042510986, 'learning_rate': 1.4236393176279447e-06, 'epoch': 2.25}
+{'loss': 1.5404, 'grad_norm': 2.9400527477264404, 'learning_rate': 1.421608448415922e-06, 'epoch': 2.25}
+{'loss': 1.6286, 'grad_norm': 3.175868272781372, 'learning_rate': 1.4195775792038993e-06, 'epoch': 2.25}
+{'loss': 1.5203, 'grad_norm': 3.103508949279785, 'learning_rate': 1.4175467099918765e-06, 'epoch': 2.25}
+{'loss': 1.5479, 'grad_norm': 2.868535041809082, 'learning_rate': 1.4155158407798538e-06, 'epoch': 2.25}
+{'loss': 1.5549, 'grad_norm': 2.9070188999176025, 'learning_rate': 1.413484971567831e-06, 'epoch': 2.25}
+{'loss': 1.4801, 'grad_norm': 3.1373631954193115, 'learning_rate': 1.4114541023558084e-06, 'epoch': 2.25}
+{'loss': 1.5237, 'grad_norm': 2.9325647354125977, 'learning_rate': 1.4094232331437856e-06, 'epoch': 2.26}
+{'loss': 1.5659, 'grad_norm': 3.034519672393799, 'learning_rate': 1.407392363931763e-06, 'epoch': 2.26}
+{'loss': 1.6203, 'grad_norm': 3.0421204566955566, 'learning_rate': 1.4053614947197402e-06, 'epoch': 2.26}
+{'eval_loss': 1.8065176010131836, 'eval_runtime': 37.2394, 'eval_samples_per_second': 26.853, 'eval_steps_per_second': 1.128, 'epoch': 2.26}
+{'loss': 1.5379, 'grad_norm': 3.2316622734069824, 'learning_rate': 1.4033306255077175e-06, 'epoch': 2.26}
+{'loss': 1.4734, 'grad_norm': 2.912513017654419, 'learning_rate': 1.4012997562956945e-06, 'epoch': 2.26}
+{'loss': 1.5865, 'grad_norm': 3.00978422164917, 'learning_rate': 1.3992688870836718e-06, 'epoch': 2.26}
+{'loss': 1.5594, 'grad_norm': 2.9873268604278564, 'learning_rate': 1.397238017871649e-06, 'epoch': 2.26}
+{'loss': 1.548, 'grad_norm': 3.122812509536743, 'learning_rate': 1.3952071486596264e-06, 'epoch': 2.26}
+{'loss': 1.4993, 'grad_norm': 3.104060411453247, 'learning_rate': 1.3931762794476036e-06, 'epoch': 2.26}
+{'loss': 1.5778, 'grad_norm': 2.9612960815429688, 'learning_rate': 1.391145410235581e-06, 'epoch': 2.27}
+{'loss': 1.5271, 'grad_norm': 3.1859002113342285, 'learning_rate': 1.3891145410235582e-06, 'epoch': 2.27}
+{'loss': 1.4565, 'grad_norm': 2.9132840633392334, 'learning_rate': 1.3870836718115355e-06, 'epoch': 2.27}
+{'loss': 1.5279, 'grad_norm': 2.930168867111206, 'learning_rate': 1.3850528025995127e-06, 'epoch': 2.27}
+{'eval_loss': 1.8070082664489746, 'eval_runtime': 37.2365, 'eval_samples_per_second': 26.855, 'eval_steps_per_second': 1.128, 'epoch': 2.27}
+{'loss': 1.5264, 'grad_norm': 3.0058515071868896, 'learning_rate': 1.38302193338749e-06, 'epoch': 2.27}
+{'loss': 1.4461, 'grad_norm': 2.979008197784424, 'learning_rate': 1.3809910641754673e-06, 'epoch': 2.27}
+{'loss': 1.553, 'grad_norm': 3.0119616985321045, 'learning_rate': 1.3789601949634446e-06, 'epoch': 2.27}
+{'loss': 1.4921, 'grad_norm': 2.9711477756500244, 'learning_rate': 1.3769293257514218e-06, 'epoch': 2.27}
+{'loss': 1.5517, 'grad_norm': 2.935929536819458, 'learning_rate': 1.374898456539399e-06, 'epoch': 2.27}
+{'loss': 1.4942, 'grad_norm': 2.9821221828460693, 'learning_rate': 1.3728675873273762e-06, 'epoch': 2.28}
+{'loss': 1.5853, 'grad_norm': 2.9329755306243896, 'learning_rate': 1.3708367181153535e-06, 'epoch': 2.28}
+{'loss': 1.5481, 'grad_norm': 3.084319829940796, 'learning_rate': 1.3688058489033307e-06, 'epoch': 2.28}
+{'loss': 1.5568, 'grad_norm': 3.2445032596588135, 'learning_rate': 1.366774979691308e-06, 'epoch': 2.28}
+{'loss': 1.5595, 'grad_norm': 3.0369651317596436, 'learning_rate': 1.3647441104792853e-06, 'epoch': 2.28}
+{'eval_loss': 1.8065739870071411, 'eval_runtime': 37.2125, 'eval_samples_per_second': 26.873, 'eval_steps_per_second': 1.129, 'epoch': 2.28}
+{'loss': 1.5457, 'grad_norm': 3.03692364692688, 'learning_rate': 1.3627132412672626e-06, 'epoch': 2.28}
+{'loss': 1.5026, 'grad_norm': 2.951610803604126, 'learning_rate': 1.3606823720552398e-06, 'epoch': 2.28}
+{'loss': 1.5404, 'grad_norm': 2.88623046875, 'learning_rate': 1.3586515028432171e-06, 'epoch': 2.28}
+{'loss': 1.4848, 'grad_norm': 3.012883424758911, 'learning_rate': 1.3566206336311944e-06, 'epoch': 2.28}
+{'loss': 1.5366, 'grad_norm': 2.9949960708618164, 'learning_rate': 1.3545897644191717e-06, 'epoch': 2.28}
+{'loss': 1.5148, 'grad_norm': 2.8936238288879395, 'learning_rate': 1.352558895207149e-06, 'epoch': 2.29}
+{'loss': 1.5742, 'grad_norm': 2.967973232269287, 'learning_rate': 1.3505280259951258e-06, 'epoch': 2.29}
+{'loss': 1.5391, 'grad_norm': 3.1881325244903564, 'learning_rate': 1.348497156783103e-06, 'epoch': 2.29}
+{'loss': 1.5666, 'grad_norm': 2.9883408546447754, 'learning_rate': 1.3464662875710804e-06, 'epoch': 2.29}
+{'loss': 1.4941, 'grad_norm': 2.827197313308716, 'learning_rate': 1.3444354183590576e-06, 'epoch': 2.29}
+{'eval_loss': 1.8056135177612305, 'eval_runtime': 37.227, 'eval_samples_per_second': 26.862, 'eval_steps_per_second': 1.128, 'epoch': 2.29}
+{'loss': 1.5699, 'grad_norm': 3.132901906967163, 'learning_rate': 1.342404549147035e-06, 'epoch': 2.29}
+{'loss': 1.5173, 'grad_norm': 3.0904805660247803, 'learning_rate': 1.3403736799350122e-06, 'epoch': 2.29}
+{'loss': 1.5546, 'grad_norm': 3.1590170860290527, 'learning_rate': 1.3383428107229895e-06, 'epoch': 2.29}
+{'loss': 1.5677, 'grad_norm': 3.110947370529175, 'learning_rate': 1.3363119415109667e-06, 'epoch': 2.29}
+{'loss': 1.5682, 'grad_norm': 2.9345972537994385, 'learning_rate': 1.334281072298944e-06, 'epoch': 2.3}
+{'loss': 1.5463, 'grad_norm': 2.9347832202911377, 'learning_rate': 1.3322502030869213e-06, 'epoch': 2.3}
+{'loss': 1.5414, 'grad_norm': 2.859834671020508, 'learning_rate': 1.3302193338748986e-06, 'epoch': 2.3}
+{'loss': 1.5704, 'grad_norm': 2.980107545852661, 'learning_rate': 1.3281884646628758e-06, 'epoch': 2.3}
+{'loss': 1.5642, 'grad_norm': 3.131226062774658, 'learning_rate': 1.3261575954508531e-06, 'epoch': 2.3}
+{'loss': 1.5461, 'grad_norm': 3.0369224548339844, 'learning_rate': 1.3241267262388302e-06, 'epoch': 2.3}
+{'eval_loss': 1.8044562339782715, 'eval_runtime': 37.2273, 'eval_samples_per_second': 26.862, 'eval_steps_per_second': 1.128, 'epoch': 2.3}
+{'loss': 1.5401, 'grad_norm': 2.9488580226898193, 'learning_rate': 1.3220958570268074e-06, 'epoch': 2.3}
+{'loss': 1.4761, 'grad_norm': 2.983025312423706, 'learning_rate': 1.3200649878147847e-06, 'epoch': 2.3}
+{'loss': 1.5183, 'grad_norm': 3.0856857299804688, 'learning_rate': 1.318034118602762e-06, 'epoch': 2.3}
+{'loss': 1.5612, 'grad_norm': 3.0773403644561768, 'learning_rate': 1.3160032493907393e-06, 'epoch': 2.31}
+{'loss': 1.5646, 'grad_norm': 3.0656943321228027, 'learning_rate': 1.3139723801787166e-06, 'epoch': 2.31}
+{'loss': 1.5778, 'grad_norm': 3.225187301635742, 'learning_rate': 1.3119415109666938e-06, 'epoch': 2.31}
+{'loss': 1.5346, 'grad_norm': 3.0056018829345703, 'learning_rate': 1.309910641754671e-06, 'epoch': 2.31}
+{'loss': 1.4936, 'grad_norm': 2.9136228561401367, 'learning_rate': 1.3078797725426484e-06, 'epoch': 2.31}
+{'loss': 1.5123, 'grad_norm': 2.873004913330078, 'learning_rate': 1.3058489033306257e-06, 'epoch': 2.31}
+{'loss': 1.5149, 'grad_norm': 2.9853620529174805, 'learning_rate': 1.303818034118603e-06, 'epoch': 2.31}
+{'eval_loss': 1.803491473197937, 'eval_runtime': 36.8542, 'eval_samples_per_second': 27.134, 'eval_steps_per_second': 1.14, 'epoch': 2.31}
+{'loss': 1.5294, 'grad_norm': 2.9889047145843506, 'learning_rate': 1.3017871649065802e-06, 'epoch': 2.31}
+{'loss': 1.5282, 'grad_norm': 2.9619243144989014, 'learning_rate': 1.2997562956945573e-06, 'epoch': 2.31}
+{'loss': 1.4972, 'grad_norm': 2.9584786891937256, 'learning_rate': 1.2977254264825345e-06, 'epoch': 2.32}
+{'loss': 1.5167, 'grad_norm': 2.9817779064178467, 'learning_rate': 1.2956945572705118e-06, 'epoch': 2.32}
+{'loss': 1.5381, 'grad_norm': 3.018979072570801, 'learning_rate': 1.293663688058489e-06, 'epoch': 2.32}
+{'loss': 1.5077, 'grad_norm': 2.881077289581299, 'learning_rate': 1.2916328188464664e-06, 'epoch': 2.32}
+{'loss': 1.4644, 'grad_norm': 2.9734835624694824, 'learning_rate': 1.2896019496344436e-06, 'epoch': 2.32}
+{'loss': 1.5056, 'grad_norm': 3.111104726791382, 'learning_rate': 1.287571080422421e-06, 'epoch': 2.32}
+{'loss': 1.5665, 'grad_norm': 3.1056535243988037, 'learning_rate': 1.2855402112103982e-06, 'epoch': 2.32}
+{'loss': 1.4849, 'grad_norm': 3.0189976692199707, 'learning_rate': 1.2835093419983755e-06, 'epoch': 2.32}
+{'eval_loss': 1.8044172525405884, 'eval_runtime': 37.0338, 'eval_samples_per_second': 27.002, 'eval_steps_per_second': 1.134, 'epoch': 2.32}
+{'loss': 1.4979, 'grad_norm': 3.037372589111328, 'learning_rate': 1.2814784727863528e-06, 'epoch': 2.32}
+{'loss': 1.5108, 'grad_norm': 3.011446952819824, 'learning_rate': 1.27944760357433e-06, 'epoch': 2.33}
+{'loss': 1.5814, 'grad_norm': 3.189188003540039, 'learning_rate': 1.2774167343623073e-06, 'epoch': 2.33}
+{'loss': 1.5634, 'grad_norm': 3.1129472255706787, 'learning_rate': 1.2753858651502846e-06, 'epoch': 2.33}
+{'loss': 1.5051, 'grad_norm': 2.98749041557312, 'learning_rate': 1.2733549959382616e-06, 'epoch': 2.33}
+{'loss': 1.5239, 'grad_norm': 3.0713346004486084, 'learning_rate': 1.271324126726239e-06, 'epoch': 2.33}
+{'loss': 1.5469, 'grad_norm': 3.0081963539123535, 'learning_rate': 1.2692932575142162e-06, 'epoch': 2.33}
+{'loss': 1.4701, 'grad_norm': 2.9524900913238525, 'learning_rate': 1.2672623883021935e-06, 'epoch': 2.33}
+{'loss': 1.4758, 'grad_norm': 2.992372751235962, 'learning_rate': 1.2652315190901707e-06, 'epoch': 2.33}
+{'loss': 1.5879, 'grad_norm': 3.2761764526367188, 'learning_rate': 1.263200649878148e-06, 'epoch': 2.33}
+{'eval_loss': 1.8030585050582886, 'eval_runtime': 37.1052, 'eval_samples_per_second': 26.95, 'eval_steps_per_second': 1.132, 'epoch': 2.33}
+{'loss': 1.5279, 'grad_norm': 3.3670222759246826, 'learning_rate': 1.2611697806661253e-06, 'epoch': 2.34}
+{'loss': 1.5572, 'grad_norm': 3.045868158340454, 'learning_rate': 1.2591389114541026e-06, 'epoch': 2.34}
+{'loss': 1.5463, 'grad_norm': 2.9535293579101562, 'learning_rate': 1.2571080422420798e-06, 'epoch': 2.34}
+{'loss': 1.5026, 'grad_norm': 2.9338130950927734, 'learning_rate': 1.2550771730300571e-06, 'epoch': 2.34}
+{'loss': 1.584, 'grad_norm': 3.0596487522125244, 'learning_rate': 1.2530463038180344e-06, 'epoch': 2.34}
+{'loss': 1.5385, 'grad_norm': 2.9395554065704346, 'learning_rate': 1.2510154346060117e-06, 'epoch': 2.34}
+{'loss': 1.5223, 'grad_norm': 2.8701987266540527, 'learning_rate': 1.2489845653939887e-06, 'epoch': 2.34}
+{'loss': 1.5533, 'grad_norm': 3.2599759101867676, 'learning_rate': 1.246953696181966e-06, 'epoch': 2.34}
+{'loss': 1.6067, 'grad_norm': 2.990359306335449, 'learning_rate': 1.2449228269699433e-06, 'epoch': 2.34}
+{'loss': 1.5358, 'grad_norm': 3.009202241897583, 'learning_rate': 1.2428919577579204e-06, 'epoch': 2.35}
+{'eval_loss': 1.80193293094635, 'eval_runtime': 37.189, 'eval_samples_per_second': 26.89, 'eval_steps_per_second': 1.129, 'epoch': 2.35}
+{'loss': 1.4996, 'grad_norm': 3.050416946411133, 'learning_rate': 1.2408610885458976e-06, 'epoch': 2.35}
+{'loss': 1.5329, 'grad_norm': 2.9148621559143066, 'learning_rate': 1.238830219333875e-06, 'epoch': 2.35}
+{'loss': 1.4983, 'grad_norm': 3.0416409969329834, 'learning_rate': 1.2367993501218522e-06, 'epoch': 2.35}
+{'loss': 1.5696, 'grad_norm': 3.387521266937256, 'learning_rate': 1.2347684809098295e-06, 'epoch': 2.35}
+{'loss': 1.5567, 'grad_norm': 3.084455728530884, 'learning_rate': 1.2327376116978067e-06, 'epoch': 2.35}
+{'loss': 1.4776, 'grad_norm': 2.912816047668457, 'learning_rate': 1.230706742485784e-06, 'epoch': 2.35}
+{'loss': 1.4856, 'grad_norm': 3.0122692584991455, 'learning_rate': 1.2286758732737613e-06, 'epoch': 2.35}
+{'loss': 1.6215, 'grad_norm': 3.1856625080108643, 'learning_rate': 1.2266450040617386e-06, 'epoch': 2.35}
+{'loss': 1.5989, 'grad_norm': 3.2322850227355957, 'learning_rate': 1.2246141348497158e-06, 'epoch': 2.36}
+{'loss': 1.5332, 'grad_norm': 2.9880452156066895, 'learning_rate': 1.2225832656376931e-06, 'epoch': 2.36}
+{'eval_loss': 1.8039098978042603, 'eval_runtime': 37.2352, 'eval_samples_per_second': 26.856, 'eval_steps_per_second': 1.128, 'epoch': 2.36}
+{'loss': 1.548, 'grad_norm': 2.957336902618408, 'learning_rate': 1.2205523964256704e-06, 'epoch': 2.36}
+{'loss': 1.5184, 'grad_norm': 3.0989115238189697, 'learning_rate': 1.2185215272136477e-06, 'epoch': 2.36}
+{'loss': 1.548, 'grad_norm': 2.8828625679016113, 'learning_rate': 1.2164906580016247e-06, 'epoch': 2.36}
+{'loss': 1.5504, 'grad_norm': 3.0119025707244873, 'learning_rate': 1.214459788789602e-06, 'epoch': 2.36}
+{'loss': 1.4489, 'grad_norm': 2.974620819091797, 'learning_rate': 1.2124289195775793e-06, 'epoch': 2.36}
+{'loss': 1.4973, 'grad_norm': 3.022380828857422, 'learning_rate': 1.2103980503655566e-06, 'epoch': 2.36}
+{'loss': 1.5131, 'grad_norm': 3.0495481491088867, 'learning_rate': 1.2083671811535338e-06, 'epoch': 2.36}
+{'loss': 1.5287, 'grad_norm': 3.146232843399048, 'learning_rate': 1.2063363119415111e-06, 'epoch': 2.36}
+{'loss': 1.5128, 'grad_norm': 2.92659592628479, 'learning_rate': 1.2043054427294882e-06, 'epoch': 2.37}
+{'loss': 1.5145, 'grad_norm': 3.1443896293640137, 'learning_rate': 1.2022745735174654e-06, 'epoch': 2.37}
+{'eval_loss': 1.8029189109802246, 'eval_runtime': 37.2059, 'eval_samples_per_second': 26.877, 'eval_steps_per_second': 1.129, 'epoch': 2.37}
+{'loss': 1.5418, 'grad_norm': 3.0999011993408203, 'learning_rate': 1.2002437043054427e-06, 'epoch': 2.37}
+{'loss': 1.5809, 'grad_norm': 3.05961012840271, 'learning_rate': 1.19821283509342e-06, 'epoch': 2.37}
+{'loss': 1.5744, 'grad_norm': 3.056363582611084, 'learning_rate': 1.1961819658813973e-06, 'epoch': 2.37}
+{'loss': 1.5419, 'grad_norm': 3.012352705001831, 'learning_rate': 1.1941510966693746e-06, 'epoch': 2.37}
+{'loss': 1.5101, 'grad_norm': 3.0131568908691406, 'learning_rate': 1.1921202274573518e-06, 'epoch': 2.37}
+{'loss': 1.5324, 'grad_norm': 2.9452834129333496, 'learning_rate': 1.190089358245329e-06, 'epoch': 2.37}
+{'loss': 1.5823, 'grad_norm': 3.2359182834625244, 'learning_rate': 1.1880584890333064e-06, 'epoch': 2.37}
+{'loss': 1.5105, 'grad_norm': 3.136212110519409, 'learning_rate': 1.1860276198212837e-06, 'epoch': 2.38}
+{'loss': 1.5518, 'grad_norm': 3.0032570362091064, 'learning_rate': 1.183996750609261e-06, 'epoch': 2.38}
+{'loss': 1.5394, 'grad_norm': 3.157111644744873, 'learning_rate': 1.1819658813972382e-06, 'epoch': 2.38}
+{'eval_loss': 1.8035898208618164, 'eval_runtime': 37.2489, 'eval_samples_per_second': 26.846, 'eval_steps_per_second': 1.128, 'epoch': 2.38}
+{'loss': 1.5269, 'grad_norm': 2.9560418128967285, 'learning_rate': 1.1799350121852153e-06, 'epoch': 2.38}
+{'loss': 1.5683, 'grad_norm': 3.0187556743621826, 'learning_rate': 1.1779041429731925e-06, 'epoch': 2.38}
+{'loss': 1.5676, 'grad_norm': 3.0405445098876953, 'learning_rate': 1.1758732737611698e-06, 'epoch': 2.38}
+{'loss': 1.487, 'grad_norm': 3.1029672622680664, 'learning_rate': 1.173842404549147e-06, 'epoch': 2.38}
+{'loss': 1.5848, 'grad_norm': 3.0403008460998535, 'learning_rate': 1.1718115353371244e-06, 'epoch': 2.38}
+{'loss': 1.5152, 'grad_norm': 2.9963865280151367, 'learning_rate': 1.1697806661251016e-06, 'epoch': 2.38}
+{'loss': 1.5846, 'grad_norm': 3.085374116897583, 'learning_rate': 1.167749796913079e-06, 'epoch': 2.39}
+{'loss': 1.5619, 'grad_norm': 3.160015821456909, 'learning_rate': 1.1657189277010562e-06, 'epoch': 2.39}
+{'loss': 1.5453, 'grad_norm': 3.0886569023132324, 'learning_rate': 1.1636880584890335e-06, 'epoch': 2.39}
+{'loss': 1.5343, 'grad_norm': 3.148318290710449, 'learning_rate': 1.1616571892770108e-06, 'epoch': 2.39}
+{'eval_loss': 1.801662564277649, 'eval_runtime': 37.2754, 'eval_samples_per_second': 26.827, 'eval_steps_per_second': 1.127, 'epoch': 2.39}
+{'loss': 1.5594, 'grad_norm': 2.9711012840270996, 'learning_rate': 1.159626320064988e-06, 'epoch': 2.39}
+{'loss': 1.5396, 'grad_norm': 3.1002538204193115, 'learning_rate': 1.1575954508529653e-06, 'epoch': 2.39}
+{'loss': 1.5554, 'grad_norm': 3.06974458694458, 'learning_rate': 1.1555645816409426e-06, 'epoch': 2.39}
+{'loss': 1.5543, 'grad_norm': 2.862666606903076, 'learning_rate': 1.1535337124289196e-06, 'epoch': 2.39}
+{'loss': 1.5086, 'grad_norm': 3.0684075355529785, 'learning_rate': 1.151502843216897e-06, 'epoch': 2.39}
+{'loss': 1.4769, 'grad_norm': 2.930772066116333, 'learning_rate': 1.1494719740048742e-06, 'epoch': 2.4}
+{'loss': 1.5583, 'grad_norm': 3.1012887954711914, 'learning_rate': 1.1474411047928515e-06, 'epoch': 2.4}
+{'loss': 1.5325, 'grad_norm': 2.835838556289673, 'learning_rate': 1.1454102355808287e-06, 'epoch': 2.4}
+{'loss': 1.506, 'grad_norm': 3.1359124183654785, 'learning_rate': 1.143379366368806e-06, 'epoch': 2.4}
+{'loss': 1.4973, 'grad_norm': 2.848830223083496, 'learning_rate': 1.141348497156783e-06, 'epoch': 2.4}
+{'eval_loss': 1.803225040435791, 'eval_runtime': 37.2288, 'eval_samples_per_second': 26.861, 'eval_steps_per_second': 1.128, 'epoch': 2.4}
+{'loss': 1.6196, 'grad_norm': 3.146909475326538, 'learning_rate': 1.1393176279447604e-06, 'epoch': 2.4}
+{'loss': 1.5903, 'grad_norm': 3.1211538314819336, 'learning_rate': 1.1372867587327376e-06, 'epoch': 2.4}
+{'loss': 1.4559, 'grad_norm': 2.8264310359954834, 'learning_rate': 1.135255889520715e-06, 'epoch': 2.4}
+{'loss': 1.5535, 'grad_norm': 3.1073036193847656, 'learning_rate': 1.1332250203086922e-06, 'epoch': 2.4}
+{'loss': 1.5432, 'grad_norm': 2.904238700866699, 'learning_rate': 1.1311941510966695e-06, 'epoch': 2.41}
+{'loss': 1.5287, 'grad_norm': 3.2940893173217773, 'learning_rate': 1.1291632818846467e-06, 'epoch': 2.41}
+{'loss': 1.4965, 'grad_norm': 3.031548500061035, 'learning_rate': 1.127132412672624e-06, 'epoch': 2.41}
+{'loss': 1.5078, 'grad_norm': 2.885241746902466, 'learning_rate': 1.1251015434606013e-06, 'epoch': 2.41}
+{'loss': 1.5526, 'grad_norm': 3.005876064300537, 'learning_rate': 1.1230706742485786e-06, 'epoch': 2.41}
+{'loss': 1.574, 'grad_norm': 3.000643253326416, 'learning_rate': 1.1210398050365558e-06, 'epoch': 2.41}
+{'eval_loss': 1.801488995552063, 'eval_runtime': 37.2077, 'eval_samples_per_second': 26.876, 'eval_steps_per_second': 1.129, 'epoch': 2.41}
+{'loss': 1.502, 'grad_norm': 2.9339702129364014, 'learning_rate': 1.1190089358245331e-06, 'epoch': 2.41}
+{'loss': 1.4887, 'grad_norm': 2.943730592727661, 'learning_rate': 1.1169780666125102e-06, 'epoch': 2.41}
+{'loss': 1.5452, 'grad_norm': 3.039198637008667, 'learning_rate': 1.1149471974004875e-06, 'epoch': 2.41}
+{'loss': 1.4998, 'grad_norm': 3.050334930419922, 'learning_rate': 1.1129163281884647e-06, 'epoch': 2.42}
+{'loss': 1.59, 'grad_norm': 3.1679272651672363, 'learning_rate': 1.110885458976442e-06, 'epoch': 2.42}
+{'loss': 1.4986, 'grad_norm': 2.9258804321289062, 'learning_rate': 1.1088545897644193e-06, 'epoch': 2.42}
+{'loss': 1.5702, 'grad_norm': 3.094996213912964, 'learning_rate': 1.1068237205523966e-06, 'epoch': 2.42}
+{'loss': 1.5621, 'grad_norm': 3.027369260787964, 'learning_rate': 1.1047928513403736e-06, 'epoch': 2.42}
+{'loss': 1.5515, 'grad_norm': 3.138309955596924, 'learning_rate': 1.102761982128351e-06, 'epoch': 2.42}
+{'loss': 1.4852, 'grad_norm': 2.9625754356384277, 'learning_rate': 1.1007311129163282e-06, 'epoch': 2.42}
+{'eval_loss': 1.8001623153686523, 'eval_runtime': 36.8373, 'eval_samples_per_second': 27.146, 'eval_steps_per_second': 1.14, 'epoch': 2.42}
+{'loss': 1.5184, 'grad_norm': 3.0380866527557373, 'learning_rate': 1.0987002437043055e-06, 'epoch': 2.42}
+{'loss': 1.5231, 'grad_norm': 3.355539321899414, 'learning_rate': 1.0966693744922827e-06, 'epoch': 2.42}
+{'loss': 1.4767, 'grad_norm': 2.871112108230591, 'learning_rate': 1.09463850528026e-06, 'epoch': 2.43}
+{'loss': 1.509, 'grad_norm': 3.020303964614868, 'learning_rate': 1.0926076360682373e-06, 'epoch': 2.43}
+{'loss': 1.5051, 'grad_norm': 3.1246845722198486, 'learning_rate': 1.0905767668562146e-06, 'epoch': 2.43}
+{'loss': 1.5094, 'grad_norm': 2.9896199703216553, 'learning_rate': 1.0885458976441918e-06, 'epoch': 2.43}
+{'loss': 1.6112, 'grad_norm': 3.0782384872436523, 'learning_rate': 1.0865150284321691e-06, 'epoch': 2.43}
+{'loss': 1.5529, 'grad_norm': 2.959040880203247, 'learning_rate': 1.0844841592201464e-06, 'epoch': 2.43}
+{'loss': 1.5692, 'grad_norm': 2.9968371391296387, 'learning_rate': 1.0824532900081237e-06, 'epoch': 2.43}
+{'loss': 1.5445, 'grad_norm': 2.980635404586792, 'learning_rate': 1.080422420796101e-06, 'epoch': 2.43}
+{'eval_loss': 1.8024731874465942, 'eval_runtime': 37.0848, 'eval_samples_per_second': 26.965, 'eval_steps_per_second': 1.133, 'epoch': 2.43}
+{'loss': 1.5357, 'grad_norm': 3.1620373725891113, 'learning_rate': 1.078391551584078e-06, 'epoch': 2.43}
+{'loss': 1.5717, 'grad_norm': 3.0638134479522705, 'learning_rate': 1.0763606823720553e-06, 'epoch': 2.44}
+{'loss': 1.6096, 'grad_norm': 3.0402369499206543, 'learning_rate': 1.0743298131600326e-06, 'epoch': 2.44}
+{'loss': 1.5642, 'grad_norm': 3.1715261936187744, 'learning_rate': 1.0722989439480098e-06, 'epoch': 2.44}
+{'loss': 1.5177, 'grad_norm': 3.181551218032837, 'learning_rate': 1.070268074735987e-06, 'epoch': 2.44}
+{'loss': 1.5162, 'grad_norm': 3.1069509983062744, 'learning_rate': 1.0682372055239644e-06, 'epoch': 2.44}
+{'loss': 1.5187, 'grad_norm': 2.949441432952881, 'learning_rate': 1.0662063363119414e-06, 'epoch': 2.44}
+{'loss': 1.5095, 'grad_norm': 3.099307060241699, 'learning_rate': 1.0641754670999187e-06, 'epoch': 2.44}
+{'loss': 1.5468, 'grad_norm': 2.895397186279297, 'learning_rate': 1.062144597887896e-06, 'epoch': 2.44}
+{'loss': 1.5393, 'grad_norm': 3.1592397689819336, 'learning_rate': 1.0601137286758733e-06, 'epoch': 2.44}
+{'eval_loss': 1.8015625476837158, 'eval_runtime': 37.166, 'eval_samples_per_second': 26.906, 'eval_steps_per_second': 1.13, 'epoch': 2.44}
+{'loss': 1.5844, 'grad_norm': 3.1496217250823975, 'learning_rate': 1.0580828594638505e-06, 'epoch': 2.44}
+{'loss': 1.466, 'grad_norm': 2.8571274280548096, 'learning_rate': 1.0560519902518278e-06, 'epoch': 2.45}
+{'loss': 1.5529, 'grad_norm': 3.0587098598480225, 'learning_rate': 1.054021121039805e-06, 'epoch': 2.45}
+{'loss': 1.4644, 'grad_norm': 2.857961654663086, 'learning_rate': 1.0519902518277824e-06, 'epoch': 2.45}
+{'loss': 1.4671, 'grad_norm': 3.008579969406128, 'learning_rate': 1.0499593826157596e-06, 'epoch': 2.45}
+{'loss': 1.5448, 'grad_norm': 3.0578463077545166, 'learning_rate': 1.047928513403737e-06, 'epoch': 2.45}
+{'loss': 1.529, 'grad_norm': 3.058122158050537, 'learning_rate': 1.0458976441917142e-06, 'epoch': 2.45}
+{'loss': 1.4541, 'grad_norm': 2.922083854675293, 'learning_rate': 1.0438667749796915e-06, 'epoch': 2.45}
+{'loss': 1.4616, 'grad_norm': 2.946068525314331, 'learning_rate': 1.0418359057676688e-06, 'epoch': 2.45}
+{'loss': 1.5101, 'grad_norm': 2.8997962474823, 'learning_rate': 1.0398050365556458e-06, 'epoch': 2.45}
+{'eval_loss': 1.8022980690002441, 'eval_runtime': 37.1978, 'eval_samples_per_second': 26.883, 'eval_steps_per_second': 1.129, 'epoch': 2.45}
+{'loss': 1.5636, 'grad_norm': 3.0214385986328125, 'learning_rate': 1.037774167343623e-06, 'epoch': 2.46}
+{'loss': 1.5143, 'grad_norm': 2.946601152420044, 'learning_rate': 1.0357432981316004e-06, 'epoch': 2.46}
+{'loss': 1.5399, 'grad_norm': 3.0568253993988037, 'learning_rate': 1.0337124289195776e-06, 'epoch': 2.46}
+{'loss': 1.5628, 'grad_norm': 3.1164939403533936, 'learning_rate': 1.031681559707555e-06, 'epoch': 2.46}
+{'loss': 1.5634, 'grad_norm': 3.0754446983337402, 'learning_rate': 1.0296506904955322e-06, 'epoch': 2.46}
+{'loss': 1.5104, 'grad_norm': 3.028993606567383, 'learning_rate': 1.0276198212835095e-06, 'epoch': 2.46}
+{'loss': 1.5277, 'grad_norm': 3.14074444770813, 'learning_rate': 1.0255889520714867e-06, 'epoch': 2.46}
+{'loss': 1.5152, 'grad_norm': 3.0798747539520264, 'learning_rate': 1.023558082859464e-06, 'epoch': 2.46}
+{'loss': 1.4692, 'grad_norm': 2.967341899871826, 'learning_rate': 1.0215272136474413e-06, 'epoch': 2.46}
+{'loss': 1.5714, 'grad_norm': 3.1009557247161865, 'learning_rate': 1.0194963444354186e-06, 'epoch': 2.47}
+{'eval_loss': 1.801601529121399, 'eval_runtime': 37.2124, 'eval_samples_per_second': 26.873, 'eval_steps_per_second': 1.129, 'epoch': 2.47}
+{'loss': 1.4728, 'grad_norm': 3.005615472793579, 'learning_rate': 1.0174654752233958e-06, 'epoch': 2.47}
+{'loss': 1.5494, 'grad_norm': 3.348233699798584, 'learning_rate': 1.015434606011373e-06, 'epoch': 2.47}
+{'loss': 1.5157, 'grad_norm': 3.094768762588501, 'learning_rate': 1.0134037367993502e-06, 'epoch': 2.47}
+{'loss': 1.5347, 'grad_norm': 2.989004373550415, 'learning_rate': 1.0113728675873275e-06, 'epoch': 2.47}
+{'loss': 1.5208, 'grad_norm': 3.0253705978393555, 'learning_rate': 1.0093419983753047e-06, 'epoch': 2.47}
+{'loss': 1.5438, 'grad_norm': 3.2195019721984863, 'learning_rate': 1.007311129163282e-06, 'epoch': 2.47}
+{'loss': 1.4805, 'grad_norm': 2.8774361610412598, 'learning_rate': 1.0052802599512593e-06, 'epoch': 2.47}
+{'loss': 1.4953, 'grad_norm': 2.9766504764556885, 'learning_rate': 1.0032493907392364e-06, 'epoch': 2.47}
+{'loss': 1.531, 'grad_norm': 3.0610811710357666, 'learning_rate': 1.0012185215272136e-06, 'epoch': 2.48}
+{'loss': 1.4797, 'grad_norm': 2.8687760829925537, 'learning_rate': 9.99187652315191e-07, 'epoch': 2.48}
+{'eval_loss': 1.800689697265625, 'eval_runtime': 37.2172, 'eval_samples_per_second': 26.869, 'eval_steps_per_second': 1.129, 'epoch': 2.48}
+{'loss': 1.577, 'grad_norm': 3.1072497367858887, 'learning_rate': 9.971567831031682e-07, 'epoch': 2.48}
+{'loss': 1.5316, 'grad_norm': 3.032942056655884, 'learning_rate': 9.951259138911455e-07, 'epoch': 2.48}
+{'loss': 1.4703, 'grad_norm': 2.9982450008392334, 'learning_rate': 9.930950446791227e-07, 'epoch': 2.48}
+{'loss': 1.5701, 'grad_norm': 3.2703280448913574, 'learning_rate': 9.910641754671e-07, 'epoch': 2.48}
+{'loss': 1.6089, 'grad_norm': 3.2202248573303223, 'learning_rate': 9.890333062550773e-07, 'epoch': 2.48}
+{'loss': 1.5333, 'grad_norm': 3.120250940322876, 'learning_rate': 9.870024370430546e-07, 'epoch': 2.48}
+{'loss': 1.5408, 'grad_norm': 3.1418509483337402, 'learning_rate': 9.849715678310318e-07, 'epoch': 2.48}
+{'loss': 1.5287, 'grad_norm': 3.055638313293457, 'learning_rate': 9.829406986190091e-07, 'epoch': 2.49}
+{'loss': 1.5405, 'grad_norm': 3.1318788528442383, 'learning_rate': 9.809098294069864e-07, 'epoch': 2.49}
+{'loss': 1.4672, 'grad_norm': 2.9671645164489746, 'learning_rate': 9.788789601949637e-07, 'epoch': 2.49}
+{'eval_loss': 1.7990403175354004, 'eval_runtime': 37.1676, 'eval_samples_per_second': 26.905, 'eval_steps_per_second': 1.13, 'epoch': 2.49}
+{'loss': 1.5212, 'grad_norm': 2.922785758972168, 'learning_rate': 9.768480909829407e-07, 'epoch': 2.49}
+{'loss': 1.5881, 'grad_norm': 3.1482293605804443, 'learning_rate': 9.74817221770918e-07, 'epoch': 2.49}
+{'loss': 1.5162, 'grad_norm': 3.051828145980835, 'learning_rate': 9.727863525588953e-07, 'epoch': 2.49}
+{'loss': 1.5262, 'grad_norm': 3.0629403591156006, 'learning_rate': 9.707554833468726e-07, 'epoch': 2.49}
+{'loss': 1.4958, 'grad_norm': 3.111855983734131, 'learning_rate': 9.687246141348498e-07, 'epoch': 2.49}
+{'loss': 1.502, 'grad_norm': 3.0235540866851807, 'learning_rate': 9.666937449228271e-07, 'epoch': 2.49}
+{'loss': 1.5247, 'grad_norm': 3.1183176040649414, 'learning_rate': 9.646628757108042e-07, 'epoch': 2.5}
+{'loss': 1.4932, 'grad_norm': 3.0862016677856445, 'learning_rate': 9.626320064987814e-07, 'epoch': 2.5}
+{'loss': 1.5418, 'grad_norm': 2.9760987758636475, 'learning_rate': 9.606011372867587e-07, 'epoch': 2.5}
+{'loss': 1.5052, 'grad_norm': 3.1599209308624268, 'learning_rate': 9.58570268074736e-07, 'epoch': 2.5}
+{'eval_loss': 1.8005189895629883, 'eval_runtime': 37.2162, 'eval_samples_per_second': 26.87, 'eval_steps_per_second': 1.129, 'epoch': 2.5}
+{'loss': 1.5253, 'grad_norm': 3.2794387340545654, 'learning_rate': 9.565393988627133e-07, 'epoch': 2.5}
+{'loss': 1.5206, 'grad_norm': 3.001866340637207, 'learning_rate': 9.545085296506906e-07, 'epoch': 2.5}
+{'loss': 1.547, 'grad_norm': 3.244438886642456, 'learning_rate': 9.524776604386677e-07, 'epoch': 2.5}
+{'loss': 1.5292, 'grad_norm': 2.9997920989990234, 'learning_rate': 9.50446791226645e-07, 'epoch': 2.5}
+{'loss': 1.469, 'grad_norm': 3.0492494106292725, 'learning_rate': 9.484159220146223e-07, 'epoch': 2.5}
+{'loss': 1.5772, 'grad_norm': 3.0012149810791016, 'learning_rate': 9.463850528025995e-07, 'epoch': 2.51}
+{'loss': 1.5383, 'grad_norm': 3.0322391986846924, 'learning_rate': 9.443541835905768e-07, 'epoch': 2.51}
+{'loss': 1.6006, 'grad_norm': 3.083080768585205, 'learning_rate': 9.423233143785541e-07, 'epoch': 2.51}
+{'loss': 1.5997, 'grad_norm': 3.260403871536255, 'learning_rate': 9.402924451665313e-07, 'epoch': 2.51}
+{'loss': 1.4991, 'grad_norm': 2.9607059955596924, 'learning_rate': 9.382615759545085e-07, 'epoch': 2.51}
+{'eval_loss': 1.7979460954666138, 'eval_runtime': 37.2022, 'eval_samples_per_second': 26.88, 'eval_steps_per_second': 1.129, 'epoch': 2.51}
+{'loss': 1.5455, 'grad_norm': 3.1235525608062744, 'learning_rate': 9.362307067424858e-07, 'epoch': 2.51}
+{'loss': 1.5144, 'grad_norm': 3.1077470779418945, 'learning_rate': 9.341998375304631e-07, 'epoch': 2.51}
+{'loss': 1.5675, 'grad_norm': 3.116363525390625, 'learning_rate': 9.321689683184404e-07, 'epoch': 2.51}
+{'loss': 1.49, 'grad_norm': 3.051565647125244, 'learning_rate': 9.301380991064176e-07, 'epoch': 2.51}
+{'loss': 1.4752, 'grad_norm': 3.14814829826355, 'learning_rate': 9.281072298943949e-07, 'epoch': 2.52}
+{'loss': 1.5109, 'grad_norm': 3.072158098220825, 'learning_rate': 9.260763606823721e-07, 'epoch': 2.52}
+{'loss': 1.5393, 'grad_norm': 3.3150458335876465, 'learning_rate': 9.240454914703494e-07, 'epoch': 2.52}
+{'loss': 1.5439, 'grad_norm': 3.0790274143218994, 'learning_rate': 9.220146222583266e-07, 'epoch': 2.52}
+{'loss': 1.4959, 'grad_norm': 3.0580363273620605, 'learning_rate': 9.199837530463039e-07, 'epoch': 2.52}
+{'loss': 1.5255, 'grad_norm': 3.077010154724121, 'learning_rate': 9.179528838342812e-07, 'epoch': 2.52}
+{'eval_loss': 1.7971885204315186, 'eval_runtime': 37.2976, 'eval_samples_per_second': 26.811, 'eval_steps_per_second': 1.126, 'epoch': 2.52}
+{'loss': 1.5193, 'grad_norm': 3.12821102142334, 'learning_rate': 9.159220146222585e-07, 'epoch': 2.52}
+{'loss': 1.5382, 'grad_norm': 3.1390695571899414, 'learning_rate': 9.138911454102356e-07, 'epoch': 2.52}
+{'loss': 1.4563, 'grad_norm': 2.8846688270568848, 'learning_rate': 9.118602761982129e-07, 'epoch': 2.52}
+{'loss': 1.5269, 'grad_norm': 3.1843085289001465, 'learning_rate': 9.098294069861902e-07, 'epoch': 2.52}
+{'loss': 1.5271, 'grad_norm': 3.0500407218933105, 'learning_rate': 9.077985377741675e-07, 'epoch': 2.53}
+{'loss': 1.5016, 'grad_norm': 3.0183236598968506, 'learning_rate': 9.057676685621447e-07, 'epoch': 2.53}
+{'loss': 1.459, 'grad_norm': 2.9937262535095215, 'learning_rate': 9.03736799350122e-07, 'epoch': 2.53}
+{'loss': 1.5792, 'grad_norm': 3.206115245819092, 'learning_rate': 9.017059301380991e-07, 'epoch': 2.53}
+{'loss': 1.5516, 'grad_norm': 3.0888969898223877, 'learning_rate': 8.996750609260764e-07, 'epoch': 2.53}
+{'loss': 1.5866, 'grad_norm': 3.1038601398468018, 'learning_rate': 8.976441917140536e-07, 'epoch': 2.53}
+{'eval_loss': 1.7977495193481445, 'eval_runtime': 36.8684, 'eval_samples_per_second': 27.124, 'eval_steps_per_second': 1.139, 'epoch': 2.53}
+{'loss': 1.5253, 'grad_norm': 3.1794545650482178, 'learning_rate': 8.956133225020309e-07, 'epoch': 2.53}
+{'loss': 1.5987, 'grad_norm': 3.0712389945983887, 'learning_rate': 8.935824532900082e-07, 'epoch': 2.53}
+{'loss': 1.5095, 'grad_norm': 3.003493309020996, 'learning_rate': 8.915515840779855e-07, 'epoch': 2.53}
+{'loss': 1.4938, 'grad_norm': 2.973238468170166, 'learning_rate': 8.895207148659626e-07, 'epoch': 2.54}
+{'loss': 1.5608, 'grad_norm': 3.0642077922821045, 'learning_rate': 8.874898456539399e-07, 'epoch': 2.54}
+{'loss': 1.5371, 'grad_norm': 2.9557077884674072, 'learning_rate': 8.854589764419172e-07, 'epoch': 2.54}
+{'loss': 1.5329, 'grad_norm': 3.1857285499572754, 'learning_rate': 8.834281072298945e-07, 'epoch': 2.54}
+{'loss': 1.4842, 'grad_norm': 2.9202258586883545, 'learning_rate': 8.813972380178717e-07, 'epoch': 2.54}
+{'loss': 1.5195, 'grad_norm': 3.0559780597686768, 'learning_rate': 8.79366368805849e-07, 'epoch': 2.54}
+{'loss': 1.5533, 'grad_norm': 3.0907952785491943, 'learning_rate': 8.773354995938262e-07, 'epoch': 2.54}
+{'eval_loss': 1.7972254753112793, 'eval_runtime': 37.0715, 'eval_samples_per_second': 26.975, 'eval_steps_per_second': 1.133, 'epoch': 2.54}
+{'loss': 1.5019, 'grad_norm': 2.9118940830230713, 'learning_rate': 8.753046303818035e-07, 'epoch': 2.54}
+{'loss': 1.4992, 'grad_norm': 2.923349618911743, 'learning_rate': 8.732737611697807e-07, 'epoch': 2.54}
+{'loss': 1.5017, 'grad_norm': 3.0067269802093506, 'learning_rate': 8.71242891957758e-07, 'epoch': 2.55}
+{'loss': 1.5653, 'grad_norm': 3.0100181102752686, 'learning_rate': 8.692120227457353e-07, 'epoch': 2.55}
+{'loss': 1.5613, 'grad_norm': 3.1054582595825195, 'learning_rate': 8.671811535337126e-07, 'epoch': 2.55}
+{'loss': 1.5248, 'grad_norm': 3.315070867538452, 'learning_rate': 8.651502843216898e-07, 'epoch': 2.55}
+{'loss': 1.5944, 'grad_norm': 3.3228695392608643, 'learning_rate': 8.63119415109667e-07, 'epoch': 2.55}
+{'loss': 1.5479, 'grad_norm': 3.1381492614746094, 'learning_rate': 8.610885458976443e-07, 'epoch': 2.55}
+{'loss': 1.549, 'grad_norm': 3.0747134685516357, 'learning_rate': 8.590576766856216e-07, 'epoch': 2.55}
+{'loss': 1.4895, 'grad_norm': 2.9555068016052246, 'learning_rate': 8.570268074735988e-07, 'epoch': 2.55}
+{'eval_loss': 1.794063687324524, 'eval_runtime': 37.1608, 'eval_samples_per_second': 26.91, 'eval_steps_per_second': 1.13, 'epoch': 2.55}
+{'loss': 1.4958, 'grad_norm': 2.8772523403167725, 'learning_rate': 8.549959382615761e-07, 'epoch': 2.55}
+{'loss': 1.4979, 'grad_norm': 3.0156941413879395, 'learning_rate': 8.529650690495534e-07, 'epoch': 2.56}
+{'loss': 1.5308, 'grad_norm': 2.9901013374328613, 'learning_rate': 8.509341998375305e-07, 'epoch': 2.56}
+{'loss': 1.4726, 'grad_norm': 2.9730477333068848, 'learning_rate': 8.489033306255077e-07, 'epoch': 2.56}
+{'loss': 1.4537, 'grad_norm': 2.947180986404419, 'learning_rate': 8.46872461413485e-07, 'epoch': 2.56}
+{'loss': 1.4904, 'grad_norm': 3.084651231765747, 'learning_rate': 8.448415922014623e-07, 'epoch': 2.56}
+{'loss': 1.5085, 'grad_norm': 2.9790945053100586, 'learning_rate': 8.428107229894396e-07, 'epoch': 2.56}
+{'loss': 1.5358, 'grad_norm': 3.0045242309570312, 'learning_rate': 8.407798537774168e-07, 'epoch': 2.56}
+{'loss': 1.5304, 'grad_norm': 3.1456592082977295, 'learning_rate': 8.38748984565394e-07, 'epoch': 2.56}
+{'loss': 1.5096, 'grad_norm': 3.109750747680664, 'learning_rate': 8.367181153533713e-07, 'epoch': 2.56}
+{'eval_loss': 1.7974557876586914, 'eval_runtime': 37.2006, 'eval_samples_per_second': 26.881, 'eval_steps_per_second': 1.129, 'epoch': 2.56}
+{'loss': 1.5134, 'grad_norm': 3.319150924682617, 'learning_rate': 8.346872461413486e-07, 'epoch': 2.57}
+{'loss': 1.528, 'grad_norm': 3.2575652599334717, 'learning_rate': 8.326563769293258e-07, 'epoch': 2.57}
+{'loss': 1.5189, 'grad_norm': 3.140742063522339, 'learning_rate': 8.306255077173031e-07, 'epoch': 2.57}
+{'loss': 1.5953, 'grad_norm': 3.076082229614258, 'learning_rate': 8.285946385052804e-07, 'epoch': 2.57}
+{'loss': 1.471, 'grad_norm': 3.036564350128174, 'learning_rate': 8.265637692932575e-07, 'epoch': 2.57}
+{'loss': 1.5544, 'grad_norm': 2.9877052307128906, 'learning_rate': 8.245329000812348e-07, 'epoch': 2.57}
+{'loss': 1.5504, 'grad_norm': 3.0643317699432373, 'learning_rate': 8.225020308692121e-07, 'epoch': 2.57}
+{'loss': 1.4828, 'grad_norm': 2.9769644737243652, 'learning_rate': 8.204711616571894e-07, 'epoch': 2.57}
+{'loss': 1.5235, 'grad_norm': 3.032136917114258, 'learning_rate': 8.184402924451667e-07, 'epoch': 2.57}
+{'loss': 1.4741, 'grad_norm': 3.0864198207855225, 'learning_rate': 8.164094232331439e-07, 'epoch': 2.58}
+{'eval_loss': 1.7938393354415894, 'eval_runtime': 37.1923, 'eval_samples_per_second': 26.887, 'eval_steps_per_second': 1.129, 'epoch': 2.58}
+{'loss': 1.5469, 'grad_norm': 3.471435546875, 'learning_rate': 8.14378554021121e-07, 'epoch': 2.58}
+{'loss': 1.5283, 'grad_norm': 3.0380778312683105, 'learning_rate': 8.123476848090983e-07, 'epoch': 2.58}
+{'loss': 1.4938, 'grad_norm': 2.977381706237793, 'learning_rate': 8.103168155970755e-07, 'epoch': 2.58}
+{'loss': 1.4999, 'grad_norm': 3.1362359523773193, 'learning_rate': 8.082859463850528e-07, 'epoch': 2.58}
+{'loss': 1.5279, 'grad_norm': 3.0398125648498535, 'learning_rate': 8.062550771730301e-07, 'epoch': 2.58}
+{'loss': 1.5236, 'grad_norm': 3.082155466079712, 'learning_rate': 8.042242079610074e-07, 'epoch': 2.58}
+{'loss': 1.5148, 'grad_norm': 3.1600003242492676, 'learning_rate': 8.021933387489846e-07, 'epoch': 2.58}
+{'loss': 1.5069, 'grad_norm': 3.16538143157959, 'learning_rate': 8.001624695369618e-07, 'epoch': 2.58}
+{'loss': 1.5225, 'grad_norm': 3.0698554515838623, 'learning_rate': 7.981316003249391e-07, 'epoch': 2.59}
+{'loss': 1.5523, 'grad_norm': 3.2182974815368652, 'learning_rate': 7.961007311129164e-07, 'epoch': 2.59}
+{'eval_loss': 1.798264980316162, 'eval_runtime': 37.2022, 'eval_samples_per_second': 26.88, 'eval_steps_per_second': 1.129, 'epoch': 2.59}
+{'loss': 1.475, 'grad_norm': 2.8935117721557617, 'learning_rate': 7.940698619008936e-07, 'epoch': 2.59}
+{'loss': 1.5181, 'grad_norm': 3.1140449047088623, 'learning_rate': 7.920389926888709e-07, 'epoch': 2.59}
+{'loss': 1.621, 'grad_norm': 3.0791847705841064, 'learning_rate': 7.900081234768482e-07, 'epoch': 2.59}
+{'loss': 1.4655, 'grad_norm': 2.9496588706970215, 'learning_rate': 7.879772542648254e-07, 'epoch': 2.59}
+{'loss': 1.5467, 'grad_norm': 3.1934399604797363, 'learning_rate': 7.859463850528026e-07, 'epoch': 2.59}
+{'loss': 1.5299, 'grad_norm': 2.9768447875976562, 'learning_rate': 7.839155158407799e-07, 'epoch': 2.59}
+{'loss': 1.5182, 'grad_norm': 3.0377297401428223, 'learning_rate': 7.818846466287572e-07, 'epoch': 2.59}
+{'loss': 1.5407, 'grad_norm': 3.1019999980926514, 'learning_rate': 7.798537774167345e-07, 'epoch': 2.6}
+{'loss': 1.539, 'grad_norm': 3.2140676975250244, 'learning_rate': 7.778229082047117e-07, 'epoch': 2.6}
+{'loss': 1.4917, 'grad_norm': 3.0868372917175293, 'learning_rate': 7.757920389926889e-07, 'epoch': 2.6}
+{'eval_loss': 1.7955214977264404, 'eval_runtime': 37.1895, 'eval_samples_per_second': 26.889, 'eval_steps_per_second': 1.129, 'epoch': 2.6}
+{'loss': 1.5443, 'grad_norm': 3.048440456390381, 'learning_rate': 7.737611697806662e-07, 'epoch': 2.6}
+{'loss': 1.4901, 'grad_norm': 3.092072010040283, 'learning_rate': 7.717303005686435e-07, 'epoch': 2.6}
+{'loss': 1.5504, 'grad_norm': 2.969160795211792, 'learning_rate': 7.696994313566207e-07, 'epoch': 2.6}
+{'loss': 1.6071, 'grad_norm': 3.172166109085083, 'learning_rate': 7.67668562144598e-07, 'epoch': 2.6}
+{'loss': 1.4694, 'grad_norm': 3.038698434829712, 'learning_rate': 7.656376929325753e-07, 'epoch': 2.6}
+{'loss': 1.4732, 'grad_norm': 3.0223464965820312, 'learning_rate': 7.636068237205524e-07, 'epoch': 2.6}
+{'loss': 1.5483, 'grad_norm': 3.101727247238159, 'learning_rate': 7.615759545085296e-07, 'epoch': 2.6}
+{'loss': 1.496, 'grad_norm': 3.0078635215759277, 'learning_rate': 7.595450852965069e-07, 'epoch': 2.61}
+{'loss': 1.5061, 'grad_norm': 3.0310235023498535, 'learning_rate': 7.575142160844842e-07, 'epoch': 2.61}
+{'loss': 1.5496, 'grad_norm': 3.0811500549316406, 'learning_rate': 7.554833468724615e-07, 'epoch': 2.61}
+{'eval_loss': 1.7973451614379883, 'eval_runtime': 37.2306, 'eval_samples_per_second': 26.86, 'eval_steps_per_second': 1.128, 'epoch': 2.61}
+{'loss': 1.4962, 'grad_norm': 3.055795192718506, 'learning_rate': 7.534524776604387e-07, 'epoch': 2.61}
+{'loss': 1.485, 'grad_norm': 3.017982244491577, 'learning_rate': 7.51421608448416e-07, 'epoch': 2.61}
+{'loss': 1.5319, 'grad_norm': 3.167466402053833, 'learning_rate': 7.493907392363932e-07, 'epoch': 2.61}
+{'loss': 1.4988, 'grad_norm': 2.9665164947509766, 'learning_rate': 7.473598700243705e-07, 'epoch': 2.61}
+{'loss': 1.4631, 'grad_norm': 3.1092183589935303, 'learning_rate': 7.453290008123477e-07, 'epoch': 2.61}
+{'loss': 1.5174, 'grad_norm': 3.131699800491333, 'learning_rate': 7.43298131600325e-07, 'epoch': 2.61}
+{'loss': 1.526, 'grad_norm': 3.0466747283935547, 'learning_rate': 7.412672623883023e-07, 'epoch': 2.62}
+{'loss': 1.5067, 'grad_norm': 3.0042684078216553, 'learning_rate': 7.392363931762796e-07, 'epoch': 2.62}
+{'loss': 1.4675, 'grad_norm': 2.98500919342041, 'learning_rate': 7.372055239642567e-07, 'epoch': 2.62}
+{'loss': 1.5101, 'grad_norm': 3.1981570720672607, 'learning_rate': 7.35174654752234e-07, 'epoch': 2.62}
+{'eval_loss': 1.7951487302780151, 'eval_runtime': 37.16, 'eval_samples_per_second': 26.911, 'eval_steps_per_second': 1.13, 'epoch': 2.62}
+{'loss': 1.5426, 'grad_norm': 3.1528236865997314, 'learning_rate': 7.331437855402113e-07, 'epoch': 2.62}
+{'loss': 1.5578, 'grad_norm': 3.1162030696868896, 'learning_rate': 7.311129163281886e-07, 'epoch': 2.62}
+{'loss': 1.4719, 'grad_norm': 3.001851797103882, 'learning_rate': 7.290820471161658e-07, 'epoch': 2.62}
+{'loss': 1.5517, 'grad_norm': 3.12337064743042, 'learning_rate': 7.270511779041431e-07, 'epoch': 2.62}
+{'loss': 1.5562, 'grad_norm': 3.021188259124756, 'learning_rate': 7.250203086921203e-07, 'epoch': 2.62}
+{'loss': 1.4793, 'grad_norm': 2.927506923675537, 'learning_rate': 7.229894394800976e-07, 'epoch': 2.63}
+{'loss': 1.511, 'grad_norm': 2.9731264114379883, 'learning_rate': 7.209585702680748e-07, 'epoch': 2.63}
+{'loss': 1.5471, 'grad_norm': 3.02195405960083, 'learning_rate': 7.189277010560521e-07, 'epoch': 2.63}
+{'loss': 1.4707, 'grad_norm': 2.9983696937561035, 'learning_rate': 7.168968318440294e-07, 'epoch': 2.63}
+{'loss': 1.5097, 'grad_norm': 2.978363513946533, 'learning_rate': 7.148659626320067e-07, 'epoch': 2.63}
+{'eval_loss': 1.7952522039413452, 'eval_runtime': 37.2019, 'eval_samples_per_second': 26.88, 'eval_steps_per_second': 1.129, 'epoch': 2.63}
+{'loss': 1.4826, 'grad_norm': 2.9679200649261475, 'learning_rate': 7.128350934199837e-07, 'epoch': 2.63}
+{'loss': 1.5683, 'grad_norm': 3.200427293777466, 'learning_rate': 7.10804224207961e-07, 'epoch': 2.63}
+{'loss': 1.5547, 'grad_norm': 3.23142409324646, 'learning_rate': 7.087733549959383e-07, 'epoch': 2.63}
+{'loss': 1.5101, 'grad_norm': 2.960176706314087, 'learning_rate': 7.067424857839155e-07, 'epoch': 2.63}
+{'loss': 1.5053, 'grad_norm': 3.000246286392212, 'learning_rate': 7.047116165718928e-07, 'epoch': 2.64}
+{'loss': 1.523, 'grad_norm': 3.0891222953796387, 'learning_rate': 7.026807473598701e-07, 'epoch': 2.64}
+{'loss': 1.5048, 'grad_norm': 3.108332633972168, 'learning_rate': 7.006498781478473e-07, 'epoch': 2.64}
+{'loss': 1.5752, 'grad_norm': 3.2009339332580566, 'learning_rate': 6.986190089358245e-07, 'epoch': 2.64}
+{'loss': 1.4905, 'grad_norm': 3.0235002040863037, 'learning_rate': 6.965881397238018e-07, 'epoch': 2.64}
+{'loss': 1.5213, 'grad_norm': 2.922283411026001, 'learning_rate': 6.945572705117791e-07, 'epoch': 2.64}
+{'eval_loss': 1.793642520904541, 'eval_runtime': 36.7927, 'eval_samples_per_second': 27.179, 'eval_steps_per_second': 1.142, 'epoch': 2.64}
+{'loss': 1.5529, 'grad_norm': 2.9516892433166504, 'learning_rate': 6.925264012997564e-07, 'epoch': 2.64}
+{'loss': 1.5354, 'grad_norm': 2.9784276485443115, 'learning_rate': 6.904955320877336e-07, 'epoch': 2.64}
+{'loss': 1.536, 'grad_norm': 3.0090866088867188, 'learning_rate': 6.884646628757109e-07, 'epoch': 2.64}
+{'loss': 1.533, 'grad_norm': 3.0705292224884033, 'learning_rate': 6.864337936636881e-07, 'epoch': 2.65}
+{'loss': 1.5829, 'grad_norm': 3.071178436279297, 'learning_rate': 6.844029244516654e-07, 'epoch': 2.65}
+{'loss': 1.5843, 'grad_norm': 3.083031177520752, 'learning_rate': 6.823720552396426e-07, 'epoch': 2.65}
+{'loss': 1.4679, 'grad_norm': 2.956490993499756, 'learning_rate': 6.803411860276199e-07, 'epoch': 2.65}
+{'loss': 1.551, 'grad_norm': 2.9852354526519775, 'learning_rate': 6.783103168155972e-07, 'epoch': 2.65}
+{'loss': 1.5336, 'grad_norm': 2.925212860107422, 'learning_rate': 6.762794476035745e-07, 'epoch': 2.65}
+{'loss': 1.5216, 'grad_norm': 3.0673046112060547, 'learning_rate': 6.742485783915515e-07, 'epoch': 2.65}
+{'eval_loss': 1.7941372394561768, 'eval_runtime': 37.0302, 'eval_samples_per_second': 27.005, 'eval_steps_per_second': 1.134, 'epoch': 2.65}
+{'loss': 1.5622, 'grad_norm': 3.1326067447662354, 'learning_rate': 6.722177091795288e-07, 'epoch': 2.65}
+{'loss': 1.5486, 'grad_norm': 3.1275596618652344, 'learning_rate': 6.701868399675061e-07, 'epoch': 2.65}
+{'loss': 1.5447, 'grad_norm': 3.1078732013702393, 'learning_rate': 6.681559707554834e-07, 'epoch': 2.66}
+{'loss': 1.5025, 'grad_norm': 2.9929449558258057, 'learning_rate': 6.661251015434606e-07, 'epoch': 2.66}
+{'loss': 1.4899, 'grad_norm': 3.0392446517944336, 'learning_rate': 6.640942323314379e-07, 'epoch': 2.66}
+{'loss': 1.4928, 'grad_norm': 3.0346617698669434, 'learning_rate': 6.620633631194151e-07, 'epoch': 2.66}
+{'loss': 1.5303, 'grad_norm': 2.8798530101776123, 'learning_rate': 6.600324939073924e-07, 'epoch': 2.66}
+{'loss': 1.539, 'grad_norm': 2.9803898334503174, 'learning_rate': 6.580016246953696e-07, 'epoch': 2.66}
+{'loss': 1.4965, 'grad_norm': 3.0963869094848633, 'learning_rate': 6.559707554833469e-07, 'epoch': 2.66}
+{'loss': 1.5838, 'grad_norm': 3.211057424545288, 'learning_rate': 6.539398862713242e-07, 'epoch': 2.66}
+{'eval_loss': 1.7935749292373657, 'eval_runtime': 37.1224, 'eval_samples_per_second': 26.938, 'eval_steps_per_second': 1.131, 'epoch': 2.66}
+{'loss': 1.5031, 'grad_norm': 3.0385782718658447, 'learning_rate': 6.519090170593015e-07, 'epoch': 2.66}
+{'loss': 1.5756, 'grad_norm': 3.094062328338623, 'learning_rate': 6.498781478472786e-07, 'epoch': 2.67}
+{'loss': 1.5406, 'grad_norm': 3.1397554874420166, 'learning_rate': 6.478472786352559e-07, 'epoch': 2.67}
+{'loss': 1.557, 'grad_norm': 3.0731546878814697, 'learning_rate': 6.458164094232332e-07, 'epoch': 2.67}
+{'loss': 1.52, 'grad_norm': 3.0219526290893555, 'learning_rate': 6.437855402112105e-07, 'epoch': 2.67}
+{'loss': 1.469, 'grad_norm': 3.072672128677368, 'learning_rate': 6.417546709991877e-07, 'epoch': 2.67}
+{'loss': 1.4968, 'grad_norm': 3.137406826019287, 'learning_rate': 6.39723801787165e-07, 'epoch': 2.67}
+{'loss': 1.5499, 'grad_norm': 3.0841257572174072, 'learning_rate': 6.376929325751423e-07, 'epoch': 2.67}
+{'loss': 1.5216, 'grad_norm': 3.013788938522339, 'learning_rate': 6.356620633631195e-07, 'epoch': 2.67}
+{'loss': 1.5075, 'grad_norm': 2.9357147216796875, 'learning_rate': 6.336311941510967e-07, 'epoch': 2.67}
+{'eval_loss': 1.7945020198822021, 'eval_runtime': 37.1916, 'eval_samples_per_second': 26.888, 'eval_steps_per_second': 1.129, 'epoch': 2.67}
+{'loss': 1.4917, 'grad_norm': 3.0886213779449463, 'learning_rate': 6.31600324939074e-07, 'epoch': 2.68}
+{'loss': 1.5294, 'grad_norm': 3.053446054458618, 'learning_rate': 6.295694557270513e-07, 'epoch': 2.68}
+{'loss': 1.5642, 'grad_norm': 3.089285135269165, 'learning_rate': 6.275385865150286e-07, 'epoch': 2.68}
+{'loss': 1.5349, 'grad_norm': 3.050245523452759, 'learning_rate': 6.255077173030058e-07, 'epoch': 2.68}
+{'loss': 1.5199, 'grad_norm': 3.0645339488983154, 'learning_rate': 6.23476848090983e-07, 'epoch': 2.68}
+{'loss': 1.5207, 'grad_norm': 3.1500461101531982, 'learning_rate': 6.214459788789602e-07, 'epoch': 2.68}
+{'loss': 1.5196, 'grad_norm': 3.0756518840789795, 'learning_rate': 6.194151096669375e-07, 'epoch': 2.68}
+{'loss': 1.5655, 'grad_norm': 3.110304594039917, 'learning_rate': 6.173842404549147e-07, 'epoch': 2.68}
+{'loss': 1.5035, 'grad_norm': 3.282001495361328, 'learning_rate': 6.15353371242892e-07, 'epoch': 2.68}
+{'loss': 1.5169, 'grad_norm': 3.086653709411621, 'learning_rate': 6.133225020308693e-07, 'epoch': 2.68}
+{'eval_loss': 1.7946088314056396, 'eval_runtime': 37.1196, 'eval_samples_per_second': 26.94, 'eval_steps_per_second': 1.131, 'epoch': 2.68}
+{'loss': 1.4536, 'grad_norm': 3.133683443069458, 'learning_rate': 6.112916328188466e-07, 'epoch': 2.69}
+{'loss': 1.5105, 'grad_norm': 3.0638301372528076, 'learning_rate': 6.092607636068238e-07, 'epoch': 2.69}
+{'loss': 1.5884, 'grad_norm': 3.1290526390075684, 'learning_rate': 6.07229894394801e-07, 'epoch': 2.69}
+{'loss': 1.4983, 'grad_norm': 2.979188919067383, 'learning_rate': 6.051990251827783e-07, 'epoch': 2.69}
+{'loss': 1.5049, 'grad_norm': 2.994475841522217, 'learning_rate': 6.031681559707556e-07, 'epoch': 2.69}
+{'loss': 1.5474, 'grad_norm': 2.9304025173187256, 'learning_rate': 6.011372867587327e-07, 'epoch': 2.69}
+{'loss': 1.5259, 'grad_norm': 3.293808698654175, 'learning_rate': 5.9910641754671e-07, 'epoch': 2.69}
+{'loss': 1.5044, 'grad_norm': 2.9812941551208496, 'learning_rate': 5.970755483346873e-07, 'epoch': 2.69}
+{'loss': 1.5145, 'grad_norm': 3.121180295944214, 'learning_rate': 5.950446791226646e-07, 'epoch': 2.69}
+{'loss': 1.5004, 'grad_norm': 3.028796434402466, 'learning_rate': 5.930138099106418e-07, 'epoch': 2.7}
+{'eval_loss': 1.794010043144226, 'eval_runtime': 37.1506, 'eval_samples_per_second': 26.917, 'eval_steps_per_second': 1.131, 'epoch': 2.7}
+{'loss': 1.506, 'grad_norm': 3.0366451740264893, 'learning_rate': 5.909829406986191e-07, 'epoch': 2.7}
+{'loss': 1.5112, 'grad_norm': 2.9850924015045166, 'learning_rate': 5.889520714865963e-07, 'epoch': 2.7}
+{'loss': 1.5259, 'grad_norm': 3.078281879425049, 'learning_rate': 5.869212022745735e-07, 'epoch': 2.7}
+{'loss': 1.4813, 'grad_norm': 2.9461851119995117, 'learning_rate': 5.848903330625508e-07, 'epoch': 2.7}
+{'loss': 1.5301, 'grad_norm': 3.152405261993408, 'learning_rate': 5.828594638505281e-07, 'epoch': 2.7}
+{'loss': 1.5131, 'grad_norm': 2.9270081520080566, 'learning_rate': 5.808285946385054e-07, 'epoch': 2.7}
+{'loss': 1.5078, 'grad_norm': 2.9786133766174316, 'learning_rate': 5.787977254264827e-07, 'epoch': 2.7}
+{'loss': 1.5181, 'grad_norm': 3.0664288997650146, 'learning_rate': 5.767668562144598e-07, 'epoch': 2.7}
+{'loss': 1.5724, 'grad_norm': 3.100987195968628, 'learning_rate': 5.747359870024371e-07, 'epoch': 2.71}
+{'loss': 1.5061, 'grad_norm': 3.1864078044891357, 'learning_rate': 5.727051177904144e-07, 'epoch': 2.71}
+{'eval_loss': 1.794380784034729, 'eval_runtime': 37.1631, 'eval_samples_per_second': 26.908, 'eval_steps_per_second': 1.13, 'epoch': 2.71}
+{'loss': 1.5203, 'grad_norm': 3.060481071472168, 'learning_rate': 5.706742485783915e-07, 'epoch': 2.71}
+{'loss': 1.5542, 'grad_norm': 3.142359972000122, 'learning_rate': 5.686433793663688e-07, 'epoch': 2.71}
+{'loss': 1.4767, 'grad_norm': 3.0684356689453125, 'learning_rate': 5.666125101543461e-07, 'epoch': 2.71}
+{'loss': 1.4633, 'grad_norm': 2.994058609008789, 'learning_rate': 5.645816409423234e-07, 'epoch': 2.71}
+{'loss': 1.5778, 'grad_norm': 3.107590436935425, 'learning_rate': 5.625507717303006e-07, 'epoch': 2.71}
+{'loss': 1.5193, 'grad_norm': 3.068570613861084, 'learning_rate': 5.605199025182779e-07, 'epoch': 2.71}
+{'loss': 1.5034, 'grad_norm': 2.893538236618042, 'learning_rate': 5.584890333062551e-07, 'epoch': 2.71}
+{'loss': 1.4942, 'grad_norm': 2.9960875511169434, 'learning_rate': 5.564581640942324e-07, 'epoch': 2.72}
+{'loss': 1.563, 'grad_norm': 3.087170124053955, 'learning_rate': 5.544272948822096e-07, 'epoch': 2.72}
+{'loss': 1.5014, 'grad_norm': 3.0415587425231934, 'learning_rate': 5.523964256701868e-07, 'epoch': 2.72}
+{'eval_loss': 1.7932865619659424, 'eval_runtime': 37.1873, 'eval_samples_per_second': 26.891, 'eval_steps_per_second': 1.129, 'epoch': 2.72}
+{'loss': 1.5224, 'grad_norm': 2.9672157764434814, 'learning_rate': 5.503655564581641e-07, 'epoch': 2.72}
+{'loss': 1.5473, 'grad_norm': 3.0993940830230713, 'learning_rate': 5.483346872461414e-07, 'epoch': 2.72}
+{'loss': 1.5016, 'grad_norm': 2.986877918243408, 'learning_rate': 5.463038180341186e-07, 'epoch': 2.72}
+{'loss': 1.5269, 'grad_norm': 3.0450809001922607, 'learning_rate': 5.442729488220959e-07, 'epoch': 2.72}
+{'loss': 1.4728, 'grad_norm': 3.173659563064575, 'learning_rate': 5.422420796100732e-07, 'epoch': 2.72}
+{'loss': 1.5194, 'grad_norm': 3.1881349086761475, 'learning_rate': 5.402112103980505e-07, 'epoch': 2.72}
+{'loss': 1.5116, 'grad_norm': 3.026097536087036, 'learning_rate': 5.381803411860276e-07, 'epoch': 2.73}
+{'loss': 1.5529, 'grad_norm': 3.087247371673584, 'learning_rate': 5.361494719740049e-07, 'epoch': 2.73}
+{'loss': 1.5826, 'grad_norm': 3.2861785888671875, 'learning_rate': 5.341186027619822e-07, 'epoch': 2.73}
+{'loss': 1.4895, 'grad_norm': 2.9725217819213867, 'learning_rate': 5.320877335499594e-07, 'epoch': 2.73}
+{'eval_loss': 1.7935879230499268, 'eval_runtime': 37.1175, 'eval_samples_per_second': 26.941, 'eval_steps_per_second': 1.132, 'epoch': 2.73}
+{'loss': 1.5027, 'grad_norm': 3.196855068206787, 'learning_rate': 5.300568643379366e-07, 'epoch': 2.73}
+{'loss': 1.5775, 'grad_norm': 3.107867956161499, 'learning_rate': 5.280259951259139e-07, 'epoch': 2.73}
+{'loss': 1.5307, 'grad_norm': 3.1798512935638428, 'learning_rate': 5.259951259138912e-07, 'epoch': 2.73}
+{'loss': 1.497, 'grad_norm': 3.231285572052002, 'learning_rate': 5.239642567018685e-07, 'epoch': 2.73}
+{'loss': 1.4904, 'grad_norm': 3.0765933990478516, 'learning_rate': 5.219333874898457e-07, 'epoch': 2.73}
+{'loss': 1.5045, 'grad_norm': 3.0214293003082275, 'learning_rate': 5.199025182778229e-07, 'epoch': 2.74}
+{'loss': 1.5285, 'grad_norm': 3.1160240173339844, 'learning_rate': 5.178716490658002e-07, 'epoch': 2.74}
+{'loss': 1.5078, 'grad_norm': 3.013947010040283, 'learning_rate': 5.158407798537775e-07, 'epoch': 2.74}
+{'loss': 1.4794, 'grad_norm': 3.0118439197540283, 'learning_rate': 5.138099106417547e-07, 'epoch': 2.74}
+{'loss': 1.4494, 'grad_norm': 2.976755380630493, 'learning_rate': 5.11779041429732e-07, 'epoch': 2.74}
+{'eval_loss': 1.791616439819336, 'eval_runtime': 37.1554, 'eval_samples_per_second': 26.914, 'eval_steps_per_second': 1.13, 'epoch': 2.74}
+{'loss': 1.5071, 'grad_norm': 3.0231242179870605, 'learning_rate': 5.097481722177093e-07, 'epoch': 2.74}
+{'loss': 1.4962, 'grad_norm': 3.108156442642212, 'learning_rate': 5.077173030056865e-07, 'epoch': 2.74}
+{'loss': 1.5675, 'grad_norm': 3.2055060863494873, 'learning_rate': 5.056864337936637e-07, 'epoch': 2.74}
+{'loss': 1.5521, 'grad_norm': 3.0649781227111816, 'learning_rate': 5.03655564581641e-07, 'epoch': 2.74}
+{'loss': 1.543, 'grad_norm': 3.1816694736480713, 'learning_rate': 5.016246953696182e-07, 'epoch': 2.75}
+{'loss': 1.6335, 'grad_norm': 3.316678285598755, 'learning_rate': 4.995938261575955e-07, 'epoch': 2.75}
+{'loss': 1.4836, 'grad_norm': 3.123028516769409, 'learning_rate': 4.975629569455727e-07, 'epoch': 2.75}
+{'loss': 1.5301, 'grad_norm': 3.0578713417053223, 'learning_rate': 4.9553208773355e-07, 'epoch': 2.75}
+{'loss': 1.5856, 'grad_norm': 3.0232229232788086, 'learning_rate': 4.935012185215273e-07, 'epoch': 2.75}
+{'loss': 1.5181, 'grad_norm': 2.906506061553955, 'learning_rate': 4.914703493095046e-07, 'epoch': 2.75}
+{'eval_loss': 1.7911875247955322, 'eval_runtime': 36.8288, 'eval_samples_per_second': 27.153, 'eval_steps_per_second': 1.14, 'epoch': 2.75}
+{'loss': 1.48, 'grad_norm': 3.1703567504882812, 'learning_rate': 4.894394800974818e-07, 'epoch': 2.75}
+{'loss': 1.4843, 'grad_norm': 3.089897394180298, 'learning_rate': 4.87408610885459e-07, 'epoch': 2.75}
+{'loss': 1.6004, 'grad_norm': 3.0825729370117188, 'learning_rate': 4.853777416734363e-07, 'epoch': 2.75}
+{'loss': 1.5501, 'grad_norm': 3.0502867698669434, 'learning_rate': 4.833468724614136e-07, 'epoch': 2.76}
+{'loss': 1.5212, 'grad_norm': 3.188497543334961, 'learning_rate': 4.813160032493907e-07, 'epoch': 2.76}
+{'loss': 1.4996, 'grad_norm': 3.026137351989746, 'learning_rate': 4.79285134037368e-07, 'epoch': 2.76}
+{'loss': 1.4752, 'grad_norm': 3.0630528926849365, 'learning_rate': 4.772542648253453e-07, 'epoch': 2.76}
+{'loss': 1.4897, 'grad_norm': 3.0613367557525635, 'learning_rate': 4.752233956133225e-07, 'epoch': 2.76}
+{'loss': 1.5155, 'grad_norm': 3.2524094581604004, 'learning_rate': 4.731925264012998e-07, 'epoch': 2.76}
+{'loss': 1.572, 'grad_norm': 3.218522310256958, 'learning_rate': 4.7116165718927705e-07, 'epoch': 2.76}
+{'eval_loss': 1.7935888767242432, 'eval_runtime': 37.0328, 'eval_samples_per_second': 27.003, 'eval_steps_per_second': 1.134, 'epoch': 2.76}
+{'loss': 1.5323, 'grad_norm': 3.080104112625122, 'learning_rate': 4.6913078797725427e-07, 'epoch': 2.76}
+{'loss': 1.5327, 'grad_norm': 3.2323362827301025, 'learning_rate': 4.6709991876523155e-07, 'epoch': 2.76}
+{'loss': 1.5108, 'grad_norm': 3.128486394882202, 'learning_rate': 4.650690495532088e-07, 'epoch': 2.76}
+{'loss': 1.5923, 'grad_norm': 3.2815701961517334, 'learning_rate': 4.6303818034118605e-07, 'epoch': 2.77}
+{'loss': 1.527, 'grad_norm': 3.1217830181121826, 'learning_rate': 4.610073111291633e-07, 'epoch': 2.77}
+{'loss': 1.4587, 'grad_norm': 2.9235475063323975, 'learning_rate': 4.589764419171406e-07, 'epoch': 2.77}
+{'loss': 1.5, 'grad_norm': 3.0745975971221924, 'learning_rate': 4.569455727051178e-07, 'epoch': 2.77}
+{'loss': 1.4934, 'grad_norm': 3.066887140274048, 'learning_rate': 4.549147034930951e-07, 'epoch': 2.77}
+{'loss': 1.5524, 'grad_norm': 3.014899969100952, 'learning_rate': 4.5288383428107237e-07, 'epoch': 2.77}
+{'loss': 1.5275, 'grad_norm': 2.960284948348999, 'learning_rate': 4.5085296506904954e-07, 'epoch': 2.77}
+{'eval_loss': 1.7911875247955322, 'eval_runtime': 37.1342, 'eval_samples_per_second': 26.929, 'eval_steps_per_second': 1.131, 'epoch': 2.77}
+{'loss': 1.5016, 'grad_norm': 3.0453267097473145, 'learning_rate': 4.488220958570268e-07, 'epoch': 2.77}
+{'loss': 1.4835, 'grad_norm': 2.960782766342163, 'learning_rate': 4.467912266450041e-07, 'epoch': 2.77}
+{'loss': 1.4803, 'grad_norm': 3.017273187637329, 'learning_rate': 4.447603574329813e-07, 'epoch': 2.78}
+{'loss': 1.5319, 'grad_norm': 3.0041613578796387, 'learning_rate': 4.427294882209586e-07, 'epoch': 2.78}
+{'loss': 1.4896, 'grad_norm': 3.0769989490509033, 'learning_rate': 4.4069861900893587e-07, 'epoch': 2.78}
+{'loss': 1.5266, 'grad_norm': 3.212188243865967, 'learning_rate': 4.386677497969131e-07, 'epoch': 2.78}
+{'loss': 1.6035, 'grad_norm': 3.116922378540039, 'learning_rate': 4.3663688058489037e-07, 'epoch': 2.78}
+{'loss': 1.533, 'grad_norm': 3.0492711067199707, 'learning_rate': 4.3460601137286764e-07, 'epoch': 2.78}
+{'loss': 1.5406, 'grad_norm': 3.095778703689575, 'learning_rate': 4.325751421608449e-07, 'epoch': 2.78}
+{'loss': 1.5195, 'grad_norm': 3.1188480854034424, 'learning_rate': 4.3054427294882214e-07, 'epoch': 2.78}
+{'eval_loss': 1.7925901412963867, 'eval_runtime': 37.142, 'eval_samples_per_second': 26.924, 'eval_steps_per_second': 1.131, 'epoch': 2.78}
+{'loss': 1.5596, 'grad_norm': 3.128167152404785, 'learning_rate': 4.285134037367994e-07, 'epoch': 2.78}
+{'loss': 1.5076, 'grad_norm': 3.066786766052246, 'learning_rate': 4.264825345247767e-07, 'epoch': 2.79}
+{'loss': 1.455, 'grad_norm': 2.929079532623291, 'learning_rate': 4.2445166531275386e-07, 'epoch': 2.79}
+{'loss': 1.4632, 'grad_norm': 2.9974899291992188, 'learning_rate': 4.2242079610073114e-07, 'epoch': 2.79}
+{'loss': 1.4636, 'grad_norm': 2.837831974029541, 'learning_rate': 4.203899268887084e-07, 'epoch': 2.79}
+{'loss': 1.5818, 'grad_norm': 3.127777338027954, 'learning_rate': 4.1835905767668564e-07, 'epoch': 2.79}
+{'loss': 1.5878, 'grad_norm': 3.158036231994629, 'learning_rate': 4.163281884646629e-07, 'epoch': 2.79}
+{'loss': 1.5212, 'grad_norm': 2.9551289081573486, 'learning_rate': 4.142973192526402e-07, 'epoch': 2.79}
+{'loss': 1.5345, 'grad_norm': 3.065821886062622, 'learning_rate': 4.122664500406174e-07, 'epoch': 2.79}
+{'loss': 1.5261, 'grad_norm': 3.1351091861724854, 'learning_rate': 4.102355808285947e-07, 'epoch': 2.79}
+{'eval_loss': 1.7908694744110107, 'eval_runtime': 37.1662, 'eval_samples_per_second': 26.906, 'eval_steps_per_second': 1.13, 'epoch': 2.79}
+{'loss': 1.4744, 'grad_norm': 3.016324996948242, 'learning_rate': 4.0820471161657196e-07, 'epoch': 2.8}
+{'loss': 1.5254, 'grad_norm': 3.124586343765259, 'learning_rate': 4.0617384240454913e-07, 'epoch': 2.8}
+{'loss': 1.5493, 'grad_norm': 3.0363805294036865, 'learning_rate': 4.041429731925264e-07, 'epoch': 2.8}
+{'loss': 1.4651, 'grad_norm': 2.9451563358306885, 'learning_rate': 4.021121039805037e-07, 'epoch': 2.8}
+{'loss': 1.4819, 'grad_norm': 3.054746150970459, 'learning_rate': 4.000812347684809e-07, 'epoch': 2.8}
+{'loss': 1.5043, 'grad_norm': 3.0478272438049316, 'learning_rate': 3.980503655564582e-07, 'epoch': 2.8}
+{'loss': 1.5102, 'grad_norm': 3.0467426776885986, 'learning_rate': 3.9601949634443546e-07, 'epoch': 2.8}
+{'loss': 1.544, 'grad_norm': 3.003763437271118, 'learning_rate': 3.939886271324127e-07, 'epoch': 2.8}
+{'loss': 1.4968, 'grad_norm': 3.1108367443084717, 'learning_rate': 3.9195775792038996e-07, 'epoch': 2.8}
+{'loss': 1.5567, 'grad_norm': 3.112025737762451, 'learning_rate': 3.8992688870836723e-07, 'epoch': 2.81}
+{'eval_loss': 1.7925978899002075, 'eval_runtime': 37.1639, 'eval_samples_per_second': 26.908, 'eval_steps_per_second': 1.13, 'epoch': 2.81}
+{'loss': 1.5392, 'grad_norm': 3.211944818496704, 'learning_rate': 3.8789601949634446e-07, 'epoch': 2.81}
+{'loss': 1.515, 'grad_norm': 3.160818099975586, 'learning_rate': 3.8586515028432173e-07, 'epoch': 2.81}
+{'loss': 1.4292, 'grad_norm': 3.0587360858917236, 'learning_rate': 3.83834281072299e-07, 'epoch': 2.81}
+{'loss': 1.5086, 'grad_norm': 3.024881601333618, 'learning_rate': 3.818034118602762e-07, 'epoch': 2.81}
+{'loss': 1.4853, 'grad_norm': 3.0528507232666016, 'learning_rate': 3.7977254264825345e-07, 'epoch': 2.81}
+{'loss': 1.5042, 'grad_norm': 3.2083396911621094, 'learning_rate': 3.7774167343623073e-07, 'epoch': 2.81}
+{'loss': 1.5243, 'grad_norm': 3.041503429412842, 'learning_rate': 3.75710804224208e-07, 'epoch': 2.81}
+{'loss': 1.5611, 'grad_norm': 2.916165351867676, 'learning_rate': 3.7367993501218523e-07, 'epoch': 2.81}
+{'loss': 1.4937, 'grad_norm': 3.1837453842163086, 'learning_rate': 3.716490658001625e-07, 'epoch': 2.82}
+{'loss': 1.5002, 'grad_norm': 2.9144062995910645, 'learning_rate': 3.696181965881398e-07, 'epoch': 2.82}
+{'eval_loss': 1.7910205125808716, 'eval_runtime': 37.1572, 'eval_samples_per_second': 26.913, 'eval_steps_per_second': 1.13, 'epoch': 2.82}
+{'loss': 1.4698, 'grad_norm': 2.890509843826294, 'learning_rate': 3.67587327376117e-07, 'epoch': 2.82}
+{'loss': 1.524, 'grad_norm': 3.0228216648101807, 'learning_rate': 3.655564581640943e-07, 'epoch': 2.82}
+{'loss': 1.5113, 'grad_norm': 3.0013716220855713, 'learning_rate': 3.6352558895207155e-07, 'epoch': 2.82}
+{'loss': 1.4841, 'grad_norm': 3.0757668018341064, 'learning_rate': 3.614947197400488e-07, 'epoch': 2.82}
+{'loss': 1.5261, 'grad_norm': 3.0872232913970947, 'learning_rate': 3.5946385052802605e-07, 'epoch': 2.82}
+{'loss': 1.5361, 'grad_norm': 3.1712300777435303, 'learning_rate': 3.5743298131600333e-07, 'epoch': 2.82}
+{'loss': 1.5013, 'grad_norm': 3.080634593963623, 'learning_rate': 3.554021121039805e-07, 'epoch': 2.82}
+{'loss': 1.5609, 'grad_norm': 3.1428229808807373, 'learning_rate': 3.533712428919578e-07, 'epoch': 2.83}
+{'loss': 1.5111, 'grad_norm': 3.0235114097595215, 'learning_rate': 3.5134037367993505e-07, 'epoch': 2.83}
+{'loss': 1.5164, 'grad_norm': 3.019428253173828, 'learning_rate': 3.4930950446791227e-07, 'epoch': 2.83}
+{'eval_loss': 1.7917933464050293, 'eval_runtime': 37.1652, 'eval_samples_per_second': 26.907, 'eval_steps_per_second': 1.13, 'epoch': 2.83}
+{'loss': 1.4759, 'grad_norm': 2.9536592960357666, 'learning_rate': 3.4727863525588955e-07, 'epoch': 2.83}
+{'loss': 1.5058, 'grad_norm': 3.0202090740203857, 'learning_rate': 3.452477660438668e-07, 'epoch': 2.83}
+{'loss': 1.5609, 'grad_norm': 3.128509759902954, 'learning_rate': 3.4321689683184405e-07, 'epoch': 2.83}
+{'loss': 1.5206, 'grad_norm': 3.0520644187927246, 'learning_rate': 3.411860276198213e-07, 'epoch': 2.83}
+{'loss': 1.4684, 'grad_norm': 3.075646162033081, 'learning_rate': 3.391551584077986e-07, 'epoch': 2.83}
+{'loss': 1.522, 'grad_norm': 3.0036284923553467, 'learning_rate': 3.3712428919577577e-07, 'epoch': 2.83}
+{'loss': 1.5147, 'grad_norm': 3.076817512512207, 'learning_rate': 3.3509341998375304e-07, 'epoch': 2.84}
+{'loss': 1.4853, 'grad_norm': 3.0329620838165283, 'learning_rate': 3.330625507717303e-07, 'epoch': 2.84}
+{'loss': 1.5139, 'grad_norm': 3.1748528480529785, 'learning_rate': 3.3103168155970754e-07, 'epoch': 2.84}
+{'loss': 1.5641, 'grad_norm': 3.1956450939178467, 'learning_rate': 3.290008123476848e-07, 'epoch': 2.84}
+{'eval_loss': 1.7919085025787354, 'eval_runtime': 37.1521, 'eval_samples_per_second': 26.916, 'eval_steps_per_second': 1.13, 'epoch': 2.84}
+{'loss': 1.5882, 'grad_norm': 3.2937188148498535, 'learning_rate': 3.269699431356621e-07, 'epoch': 2.84}
+{'loss': 1.5296, 'grad_norm': 3.1744468212127686, 'learning_rate': 3.249390739236393e-07, 'epoch': 2.84}
+{'loss': 1.4622, 'grad_norm': 3.053405284881592, 'learning_rate': 3.229082047116166e-07, 'epoch': 2.84}
+{'loss': 1.5696, 'grad_norm': 3.268449544906616, 'learning_rate': 3.2087733549959387e-07, 'epoch': 2.84}
+{'loss': 1.5724, 'grad_norm': 3.144965887069702, 'learning_rate': 3.1884646628757114e-07, 'epoch': 2.84}
+{'loss': 1.5392, 'grad_norm': 2.952338457107544, 'learning_rate': 3.1681559707554837e-07, 'epoch': 2.84}
+{'loss': 1.552, 'grad_norm': 3.4757699966430664, 'learning_rate': 3.1478472786352564e-07, 'epoch': 2.85}
+{'loss': 1.4903, 'grad_norm': 2.991934061050415, 'learning_rate': 3.127538586515029e-07, 'epoch': 2.85}
+{'loss': 1.5247, 'grad_norm': 3.0654208660125732, 'learning_rate': 3.107229894394801e-07, 'epoch': 2.85}
+{'loss': 1.5061, 'grad_norm': 3.049363374710083, 'learning_rate': 3.0869212022745736e-07, 'epoch': 2.85}
+{'eval_loss': 1.7906988859176636, 'eval_runtime': 37.1559, 'eval_samples_per_second': 26.914, 'eval_steps_per_second': 1.13, 'epoch': 2.85}
+{'loss': 1.4634, 'grad_norm': 3.009659767150879, 'learning_rate': 3.0666125101543464e-07, 'epoch': 2.85}
+{'loss': 1.5197, 'grad_norm': 3.0317633152008057, 'learning_rate': 3.046303818034119e-07, 'epoch': 2.85}
+{'loss': 1.5799, 'grad_norm': 3.139240264892578, 'learning_rate': 3.0259951259138914e-07, 'epoch': 2.85}
+{'loss': 1.5231, 'grad_norm': 3.1429147720336914, 'learning_rate': 3.0056864337936636e-07, 'epoch': 2.85}
+{'loss': 1.4091, 'grad_norm': 2.8958003520965576, 'learning_rate': 2.9853777416734364e-07, 'epoch': 2.85}
+{'loss': 1.4946, 'grad_norm': 3.0315115451812744, 'learning_rate': 2.965069049553209e-07, 'epoch': 2.86}
+{'loss': 1.5335, 'grad_norm': 2.97930645942688, 'learning_rate': 2.9447603574329814e-07, 'epoch': 2.86}
+{'loss': 1.4754, 'grad_norm': 2.9786713123321533, 'learning_rate': 2.924451665312754e-07, 'epoch': 2.86}
+{'loss': 1.4864, 'grad_norm': 2.867501735687256, 'learning_rate': 2.904142973192527e-07, 'epoch': 2.86}
+{'loss': 1.4219, 'grad_norm': 2.9504475593566895, 'learning_rate': 2.883834281072299e-07, 'epoch': 2.86}
+{'eval_loss': 1.791516900062561, 'eval_runtime': 36.775, 'eval_samples_per_second': 27.192, 'eval_steps_per_second': 1.142, 'epoch': 2.86}
+{'loss': 1.497, 'grad_norm': 3.0030910968780518, 'learning_rate': 2.863525588952072e-07, 'epoch': 2.86}
+{'loss': 1.4988, 'grad_norm': 3.0113725662231445, 'learning_rate': 2.843216896831844e-07, 'epoch': 2.86}
+{'loss': 1.4446, 'grad_norm': 3.03090763092041, 'learning_rate': 2.822908204711617e-07, 'epoch': 2.86}
+{'loss': 1.5284, 'grad_norm': 3.162860631942749, 'learning_rate': 2.8025995125913896e-07, 'epoch': 2.86}
+{'loss': 1.4982, 'grad_norm': 3.04756236076355, 'learning_rate': 2.782290820471162e-07, 'epoch': 2.87}
+{'loss': 1.5532, 'grad_norm': 3.243168830871582, 'learning_rate': 2.761982128350934e-07, 'epoch': 2.87}
+{'loss': 1.5133, 'grad_norm': 3.218254327774048, 'learning_rate': 2.741673436230707e-07, 'epoch': 2.87}
+{'loss': 1.5435, 'grad_norm': 3.4805715084075928, 'learning_rate': 2.7213647441104796e-07, 'epoch': 2.87}
+{'loss': 1.5228, 'grad_norm': 3.14292311668396, 'learning_rate': 2.7010560519902523e-07, 'epoch': 2.87}
+{'loss': 1.4448, 'grad_norm': 2.990907907485962, 'learning_rate': 2.6807473598700246e-07, 'epoch': 2.87}
+{'eval_loss': 1.791623830795288, 'eval_runtime': 37.0152, 'eval_samples_per_second': 27.016, 'eval_steps_per_second': 1.135, 'epoch': 2.87}
+{'loss': 1.5142, 'grad_norm': 3.1701385974884033, 'learning_rate': 2.660438667749797e-07, 'epoch': 2.87}
+{'loss': 1.4705, 'grad_norm': 2.9661409854888916, 'learning_rate': 2.6401299756295696e-07, 'epoch': 2.87}
+{'loss': 1.503, 'grad_norm': 3.066345453262329, 'learning_rate': 2.6198212835093423e-07, 'epoch': 2.87}
+{'loss': 1.5003, 'grad_norm': 3.003727912902832, 'learning_rate': 2.5995125913891145e-07, 'epoch': 2.88}
+{'loss': 1.4562, 'grad_norm': 3.1008756160736084, 'learning_rate': 2.5792038992688873e-07, 'epoch': 2.88}
+{'loss': 1.4794, 'grad_norm': 2.978329658508301, 'learning_rate': 2.55889520714866e-07, 'epoch': 2.88}
+{'loss': 1.5283, 'grad_norm': 3.0397987365722656, 'learning_rate': 2.5385865150284323e-07, 'epoch': 2.88}
+{'loss': 1.5293, 'grad_norm': 3.0798213481903076, 'learning_rate': 2.518277822908205e-07, 'epoch': 2.88}
+{'loss': 1.5243, 'grad_norm': 3.052346706390381, 'learning_rate': 2.4979691307879773e-07, 'epoch': 2.88}
+{'loss': 1.5363, 'grad_norm': 3.0079402923583984, 'learning_rate': 2.47766043866775e-07, 'epoch': 2.88}
+{'eval_loss': 1.7894965410232544, 'eval_runtime': 37.135, 'eval_samples_per_second': 26.929, 'eval_steps_per_second': 1.131, 'epoch': 2.88}
+{'loss': 1.4625, 'grad_norm': 2.92486572265625, 'learning_rate': 2.457351746547523e-07, 'epoch': 2.88}
+{'loss': 1.4548, 'grad_norm': 2.9858713150024414, 'learning_rate': 2.437043054427295e-07, 'epoch': 2.88}
+{'loss': 1.5375, 'grad_norm': 3.1012473106384277, 'learning_rate': 2.416734362307068e-07, 'epoch': 2.89}
+{'loss': 1.52, 'grad_norm': 3.0200417041778564, 'learning_rate': 2.39642567018684e-07, 'epoch': 2.89}
+{'loss': 1.4482, 'grad_norm': 3.1536433696746826, 'learning_rate': 2.3761169780666125e-07, 'epoch': 2.89}
+{'loss': 1.5278, 'grad_norm': 3.0201385021209717, 'learning_rate': 2.3558082859463852e-07, 'epoch': 2.89}
+{'loss': 1.488, 'grad_norm': 2.9468398094177246, 'learning_rate': 2.3354995938261577e-07, 'epoch': 2.89}
+{'loss': 1.4361, 'grad_norm': 3.0052077770233154, 'learning_rate': 2.3151909017059302e-07, 'epoch': 2.89}
+{'loss': 1.5549, 'grad_norm': 3.0999598503112793, 'learning_rate': 2.294882209585703e-07, 'epoch': 2.89}
+{'loss': 1.5241, 'grad_norm': 3.097472667694092, 'learning_rate': 2.2745735174654755e-07, 'epoch': 2.89}
+{'eval_loss': 1.7891727685928345, 'eval_runtime': 37.1783, 'eval_samples_per_second': 26.897, 'eval_steps_per_second': 1.13, 'epoch': 2.89}
+{'loss': 1.4707, 'grad_norm': 3.031191110610962, 'learning_rate': 2.2542648253452477e-07, 'epoch': 2.89}
+{'loss': 1.5065, 'grad_norm': 2.9850590229034424, 'learning_rate': 2.2339561332250205e-07, 'epoch': 2.9}
+{'loss': 1.5513, 'grad_norm': 3.2836239337921143, 'learning_rate': 2.213647441104793e-07, 'epoch': 2.9}
+{'loss': 1.5419, 'grad_norm': 2.9327352046966553, 'learning_rate': 2.1933387489845655e-07, 'epoch': 2.9}
+{'loss': 1.5028, 'grad_norm': 2.9825339317321777, 'learning_rate': 2.1730300568643382e-07, 'epoch': 2.9}
+{'loss': 1.4981, 'grad_norm': 3.1225833892822266, 'learning_rate': 2.1527213647441107e-07, 'epoch': 2.9}
+{'loss': 1.531, 'grad_norm': 2.9758846759796143, 'learning_rate': 2.1324126726238835e-07, 'epoch': 2.9}
+{'loss': 1.5065, 'grad_norm': 3.020021915435791, 'learning_rate': 2.1121039805036557e-07, 'epoch': 2.9}
+{'loss': 1.5208, 'grad_norm': 3.11961030960083, 'learning_rate': 2.0917952883834282e-07, 'epoch': 2.9}
+{'loss': 1.5579, 'grad_norm': 3.110372304916382, 'learning_rate': 2.071486596263201e-07, 'epoch': 2.9}
+{'eval_loss': 1.789390206336975, 'eval_runtime': 37.1767, 'eval_samples_per_second': 26.899, 'eval_steps_per_second': 1.13, 'epoch': 2.9}
+{'loss': 1.4802, 'grad_norm': 2.935211658477783, 'learning_rate': 2.0511779041429734e-07, 'epoch': 2.91}
+{'loss': 1.4791, 'grad_norm': 3.1486573219299316, 'learning_rate': 2.0308692120227457e-07, 'epoch': 2.91}
+{'loss': 1.5436, 'grad_norm': 2.9627110958099365, 'learning_rate': 2.0105605199025184e-07, 'epoch': 2.91}
+{'loss': 1.5475, 'grad_norm': 3.106480836868286, 'learning_rate': 1.990251827782291e-07, 'epoch': 2.91}
+{'loss': 1.5735, 'grad_norm': 2.9908578395843506, 'learning_rate': 1.9699431356620634e-07, 'epoch': 2.91}
+{'loss': 1.4571, 'grad_norm': 3.0215280055999756, 'learning_rate': 1.9496344435418362e-07, 'epoch': 2.91}
+{'loss': 1.5105, 'grad_norm': 3.046536684036255, 'learning_rate': 1.9293257514216087e-07, 'epoch': 2.91}
+{'loss': 1.4974, 'grad_norm': 3.1733031272888184, 'learning_rate': 1.909017059301381e-07, 'epoch': 2.91}
+{'loss': 1.4964, 'grad_norm': 3.0829505920410156, 'learning_rate': 1.8887083671811536e-07, 'epoch': 2.91}
+{'loss': 1.4919, 'grad_norm': 2.9070191383361816, 'learning_rate': 1.8683996750609261e-07, 'epoch': 2.92}
+{'eval_loss': 1.7900432348251343, 'eval_runtime': 37.172, 'eval_samples_per_second': 26.902, 'eval_steps_per_second': 1.13, 'epoch': 2.92}
+{'loss': 1.5279, 'grad_norm': 3.207252264022827, 'learning_rate': 1.848090982940699e-07, 'epoch': 2.92}
+{'loss': 1.5855, 'grad_norm': 3.038796901702881, 'learning_rate': 1.8277822908204714e-07, 'epoch': 2.92}
+{'loss': 1.4994, 'grad_norm': 3.0879733562469482, 'learning_rate': 1.807473598700244e-07, 'epoch': 2.92}
+{'loss': 1.5297, 'grad_norm': 3.070927143096924, 'learning_rate': 1.7871649065800166e-07, 'epoch': 2.92}
+{'loss': 1.6152, 'grad_norm': 3.2004566192626953, 'learning_rate': 1.766856214459789e-07, 'epoch': 2.92}
+{'loss': 1.531, 'grad_norm': 3.0775976181030273, 'learning_rate': 1.7465475223395614e-07, 'epoch': 2.92}
+{'loss': 1.5075, 'grad_norm': 3.0248641967773438, 'learning_rate': 1.726238830219334e-07, 'epoch': 2.92}
+{'loss': 1.5113, 'grad_norm': 2.9836952686309814, 'learning_rate': 1.7059301380991066e-07, 'epoch': 2.92}
+{'loss': 1.4939, 'grad_norm': 3.0869314670562744, 'learning_rate': 1.6856214459788788e-07, 'epoch': 2.92}
+{'loss': 1.4619, 'grad_norm': 3.080989122390747, 'learning_rate': 1.6653127538586516e-07, 'epoch': 2.93}
+{'eval_loss': 1.7903239727020264, 'eval_runtime': 37.1883, 'eval_samples_per_second': 26.89, 'eval_steps_per_second': 1.129, 'epoch': 2.93}
+{'loss': 1.5439, 'grad_norm': 3.0589723587036133, 'learning_rate': 1.645004061738424e-07, 'epoch': 2.93}
+{'loss': 1.4704, 'grad_norm': 3.051922082901001, 'learning_rate': 1.6246953696181966e-07, 'epoch': 2.93}
+{'loss': 1.5143, 'grad_norm': 2.993330478668213, 'learning_rate': 1.6043866774979693e-07, 'epoch': 2.93}
+{'loss': 1.5586, 'grad_norm': 3.135922908782959, 'learning_rate': 1.5840779853777418e-07, 'epoch': 2.93}
+{'loss': 1.5121, 'grad_norm': 3.115062713623047, 'learning_rate': 1.5637692932575146e-07, 'epoch': 2.93}
+{'loss': 1.495, 'grad_norm': 3.1141114234924316, 'learning_rate': 1.5434606011372868e-07, 'epoch': 2.93}
+{'loss': 1.5532, 'grad_norm': 3.0367932319641113, 'learning_rate': 1.5231519090170596e-07, 'epoch': 2.93}
+{'loss': 1.5488, 'grad_norm': 3.059889316558838, 'learning_rate': 1.5028432168968318e-07, 'epoch': 2.93}
+{'loss': 1.5268, 'grad_norm': 3.003568649291992, 'learning_rate': 1.4825345247766046e-07, 'epoch': 2.94}
+{'loss': 1.5565, 'grad_norm': 3.139242649078369, 'learning_rate': 1.462225832656377e-07, 'epoch': 2.94}
+{'eval_loss': 1.7899202108383179, 'eval_runtime': 37.2012, 'eval_samples_per_second': 26.881, 'eval_steps_per_second': 1.129, 'epoch': 2.94}
+{'loss': 1.4995, 'grad_norm': 3.0351994037628174, 'learning_rate': 1.4419171405361496e-07, 'epoch': 2.94}
+{'loss': 1.4923, 'grad_norm': 3.088860034942627, 'learning_rate': 1.421608448415922e-07, 'epoch': 2.94}
+{'loss': 1.538, 'grad_norm': 3.014510154724121, 'learning_rate': 1.4012997562956948e-07, 'epoch': 2.94}
+{'loss': 1.5398, 'grad_norm': 3.2081291675567627, 'learning_rate': 1.380991064175467e-07, 'epoch': 2.94}
+{'loss': 1.5569, 'grad_norm': 3.107496500015259, 'learning_rate': 1.3606823720552398e-07, 'epoch': 2.94}
+{'loss': 1.5471, 'grad_norm': 3.365082263946533, 'learning_rate': 1.3403736799350123e-07, 'epoch': 2.94}
+{'loss': 1.5063, 'grad_norm': 3.104659080505371, 'learning_rate': 1.3200649878147848e-07, 'epoch': 2.94}
+{'loss': 1.5267, 'grad_norm': 3.0596365928649902, 'learning_rate': 1.2997562956945573e-07, 'epoch': 2.95}
+{'loss': 1.5616, 'grad_norm': 3.113130569458008, 'learning_rate': 1.27944760357433e-07, 'epoch': 2.95}
+{'loss': 1.53, 'grad_norm': 3.1505556106567383, 'learning_rate': 1.2591389114541025e-07, 'epoch': 2.95}
+{'eval_loss': 1.789366364479065, 'eval_runtime': 37.2184, 'eval_samples_per_second': 26.868, 'eval_steps_per_second': 1.128, 'epoch': 2.95}
+{'loss': 1.4936, 'grad_norm': 3.0513687133789062, 'learning_rate': 1.238830219333875e-07, 'epoch': 2.95}
+{'loss': 1.4704, 'grad_norm': 2.9915530681610107, 'learning_rate': 1.2185215272136475e-07, 'epoch': 2.95}
+{'loss': 1.4708, 'grad_norm': 3.0183277130126953, 'learning_rate': 1.19821283509342e-07, 'epoch': 2.95}
+{'loss': 1.5471, 'grad_norm': 3.1279025077819824, 'learning_rate': 1.1779041429731926e-07, 'epoch': 2.95}
+{'loss': 1.5557, 'grad_norm': 3.1098203659057617, 'learning_rate': 1.1575954508529651e-07, 'epoch': 2.95}
+{'loss': 1.4938, 'grad_norm': 3.1258881092071533, 'learning_rate': 1.1372867587327377e-07, 'epoch': 2.95}
+{'loss': 1.5093, 'grad_norm': 3.079859972000122, 'learning_rate': 1.1169780666125102e-07, 'epoch': 2.96}
+{'loss': 1.5581, 'grad_norm': 3.268019437789917, 'learning_rate': 1.0966693744922827e-07, 'epoch': 2.96}
+{'loss': 1.4983, 'grad_norm': 3.02490234375, 'learning_rate': 1.0763606823720554e-07, 'epoch': 2.96}
+{'loss': 1.5028, 'grad_norm': 3.195443630218506, 'learning_rate': 1.0560519902518278e-07, 'epoch': 2.96}
+{'eval_loss': 1.7894436120986938, 'eval_runtime': 37.2347, 'eval_samples_per_second': 26.857, 'eval_steps_per_second': 1.128, 'epoch': 2.96}
+{'loss': 1.5327, 'grad_norm': 3.1873841285705566, 'learning_rate': 1.0357432981316005e-07, 'epoch': 2.96}
+{'loss': 1.5281, 'grad_norm': 2.9974687099456787, 'learning_rate': 1.0154346060113728e-07, 'epoch': 2.96}
+{'loss': 1.579, 'grad_norm': 3.1880061626434326, 'learning_rate': 9.951259138911455e-08, 'epoch': 2.96}
+{'loss': 1.4899, 'grad_norm': 3.0999324321746826, 'learning_rate': 9.748172217709181e-08, 'epoch': 2.96}
+{'loss': 1.5187, 'grad_norm': 3.113323450088501, 'learning_rate': 9.545085296506904e-08, 'epoch': 2.96}
+{'loss': 1.508, 'grad_norm': 3.0708274841308594, 'learning_rate': 9.341998375304631e-08, 'epoch': 2.97}
+{'loss': 1.5058, 'grad_norm': 3.0361082553863525, 'learning_rate': 9.138911454102357e-08, 'epoch': 2.97}
+{'loss': 1.4986, 'grad_norm': 2.9851858615875244, 'learning_rate': 8.935824532900083e-08, 'epoch': 2.97}
+{'loss': 1.5403, 'grad_norm': 3.0424723625183105, 'learning_rate': 8.732737611697807e-08, 'epoch': 2.97}
+{'loss': 1.4929, 'grad_norm': 3.0986552238464355, 'learning_rate': 8.529650690495533e-08, 'epoch': 2.97}
+{'eval_loss': 1.789603590965271, 'eval_runtime': 36.8338, 'eval_samples_per_second': 27.149, 'eval_steps_per_second': 1.14, 'epoch': 2.97}
+{'loss': 1.4522, 'grad_norm': 3.0251858234405518, 'learning_rate': 8.326563769293258e-08, 'epoch': 2.97}
+{'loss': 1.5177, 'grad_norm': 3.1057703495025635, 'learning_rate': 8.123476848090983e-08, 'epoch': 2.97}
+{'loss': 1.5613, 'grad_norm': 2.9726197719573975, 'learning_rate': 7.920389926888709e-08, 'epoch': 2.97}
+{'loss': 1.5243, 'grad_norm': 3.034791946411133, 'learning_rate': 7.717303005686434e-08, 'epoch': 2.97}
+{'loss': 1.5315, 'grad_norm': 3.0363411903381348, 'learning_rate': 7.514216084484159e-08, 'epoch': 2.98}
+{'loss': 1.5664, 'grad_norm': 3.070970296859741, 'learning_rate': 7.311129163281885e-08, 'epoch': 2.98}
+{'loss': 1.5111, 'grad_norm': 3.070970296859741, 'learning_rate': 7.311129163281885e-08, 'epoch': 2.98}
+{'loss': 1.5438, 'grad_norm': 3.049980640411377, 'learning_rate': 7.10804224207961e-08, 'epoch': 2.98}
+{'loss': 1.507, 'grad_norm': 3.0702407360076904, 'learning_rate': 6.904955320877335e-08, 'epoch': 2.98}
+{'loss': 1.5316, 'grad_norm': 3.1163995265960693, 'learning_rate': 6.701868399675061e-08, 'epoch': 2.98}
+{'eval_loss': 1.7896696329116821, 'eval_runtime': 37.0892, 'eval_samples_per_second': 26.962, 'eval_steps_per_second': 1.132, 'epoch': 2.98}
+{'loss': 1.5143, 'grad_norm': 3.141185998916626, 'learning_rate': 6.498781478472786e-08, 'epoch': 2.98}
+{'loss': 1.563, 'grad_norm': 2.965794801712036, 'learning_rate': 6.295694557270513e-08, 'epoch': 2.98}
+{'loss': 1.5327, 'grad_norm': 2.9460291862487793, 'learning_rate': 6.092607636068238e-08, 'epoch': 2.98}
+{'loss': 1.5173, 'grad_norm': 3.0584943294525146, 'learning_rate': 5.889520714865963e-08, 'epoch': 2.99}
+{'loss': 1.5049, 'grad_norm': 3.112154960632324, 'learning_rate': 5.686433793663689e-08, 'epoch': 2.99}
+{'loss': 1.5992, 'grad_norm': 3.0001590251922607, 'learning_rate': 5.4833468724614136e-08, 'epoch': 2.99}
+{'loss': 1.5258, 'grad_norm': 3.0160460472106934, 'learning_rate': 5.280259951259139e-08, 'epoch': 2.99}
+{'loss': 1.4597, 'grad_norm': 2.945873498916626, 'learning_rate': 5.077173030056864e-08, 'epoch': 2.99}
+{'loss': 1.4653, 'grad_norm': 3.1513073444366455, 'learning_rate': 4.8740861088545904e-08, 'epoch': 2.99}
+{'loss': 1.5744, 'grad_norm': 3.198209047317505, 'learning_rate': 4.6709991876523154e-08, 'epoch': 2.99}
+{'eval_loss': 1.7895760536193848, 'eval_runtime': 37.1865, 'eval_samples_per_second': 26.891, 'eval_steps_per_second': 1.129, 'epoch': 2.99}
+{'loss': 1.5893, 'grad_norm': 3.1998891830444336, 'learning_rate': 4.4679122664500416e-08, 'epoch': 2.99}
+{'loss': 1.5156, 'grad_norm': 2.968224048614502, 'learning_rate': 4.2648253452477665e-08, 'epoch': 2.99}
+{'loss': 1.5649, 'grad_norm': 2.9222919940948486, 'learning_rate': 4.0617384240454915e-08, 'epoch': 3.0}
+{'loss': 1.5171, 'grad_norm': 3.0627143383026123, 'learning_rate': 3.858651502843217e-08, 'epoch': 3.0}
+{'loss': 1.5178, 'grad_norm': 3.0573763847351074, 'learning_rate': 3.6555645816409427e-08, 'epoch': 3.0}
+{'loss': 1.568, 'grad_norm': 3.053069591522217, 'learning_rate': 3.4524776604386676e-08, 'epoch': 3.0}
+{'train_runtime': 33950.0446, 'train_samples_per_second': 1.451, 'train_steps_per_second': 0.081, 'train_loss': 1.7003452302942499, 'epoch': 3.0}
diff --git a/wandb/run-20241107_160909-ujjrpzmo/files/wandb-metadata.json b/wandb/run-20241107_160909-ujjrpzmo/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..6cdf8e7b5839669db4c90cbc69c713f89ab4cde0
--- /dev/null
+++ b/wandb/run-20241107_160909-ujjrpzmo/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T21:09:09.807301Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1742796308480"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241107_160909-ujjrpzmo/files/wandb-summary.json b/wandb/run-20241107_160909-ujjrpzmo/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..5c912cd1a8759c280a6fc50f26295ea641e5d346
--- /dev/null
+++ b/wandb/run-20241107_160909-ujjrpzmo/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train/learning_rate":3.4524776604386676e-08,"train/grad_norm":3.053069591522217,"_runtime":34215.551850758,"eval/steps_per_second":1.129,"train_steps_per_second":0.081,"train/epoch":2.9983561643835617,"train_loss":1.7003452302942499,"_timestamp":1.7310479653519478e+09,"train_samples_per_second":1.451,"eval/runtime":37.1865,"train_runtime":33950.0446,"_wandb":{"runtime":34215},"eval/samples_per_second":26.891,"_step":3009,"eval/loss":1.7895760536193848,"train/global_step":2736,"total_flos":8.528958544014213e+17,"train/loss":1.568}
\ No newline at end of file
diff --git a/wandb/run-20241107_160909-ujjrpzmo/logs/debug-internal.log b/wandb/run-20241107_160909-ujjrpzmo/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..745aa039b5f0076f7fbd4e08f76380a4d2c050b5
--- /dev/null
+++ b/wandb/run-20241107_160909-ujjrpzmo/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2024-11-07T16:09:09.810141441-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-07T16:09:09.810159931-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160909-ujjrpzmo/logs/debug-core.log"}
+{"time":"2024-11-07T16:09:09.917343447-05:00","level":"INFO","msg":"created new stream","id":"ujjrpzmo"}
+{"time":"2024-11-07T16:09:09.917389437-05:00","level":"INFO","msg":"stream: started","id":"ujjrpzmo"}
+{"time":"2024-11-07T16:09:09.917415597-05:00","level":"INFO","msg":"sender: started","stream_id":"ujjrpzmo"}
+{"time":"2024-11-07T16:09:09.917394497-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"ujjrpzmo"}}
+{"time":"2024-11-07T16:09:09.917462378-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"ujjrpzmo"}}
+{"time":"2024-11-07T16:09:10.137584976-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-07T20:36:48.287727016-05:00","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2024-11-08T01:39:25.457955516-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-08T01:39:25.528128621-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-08T01:39:26.097877452-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-08T01:39:26.270139631-05:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2024-11-08T01:39:27.327836201-05:00","level":"INFO","msg":"stream: closing","id":"ujjrpzmo"}
+{"time":"2024-11-08T01:39:27.327883361-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"ujjrpzmo"}}
+{"time":"2024-11-08T01:39:27.327912081-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"ujjrpzmo"}}
+{"time":"2024-11-08T01:39:27.327966161-05:00","level":"INFO","msg":"sender: closed","stream_id":"ujjrpzmo"}
+{"time":"2024-11-08T01:39:27.328040632-05:00","level":"INFO","msg":"stream: closed","id":"ujjrpzmo"}
diff --git a/wandb/run-20241107_160909-ujjrpzmo/logs/debug.log b/wandb/run-20241107_160909-ujjrpzmo/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..9f2da4ce8e07b2057834e280c1821631d4d1a504
--- /dev/null
+++ b/wandb/run-20241107_160909-ujjrpzmo/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Configure stats pid to 2097821
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-07 16:09:09,804 INFO    MainThread:2097821 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-07 16:09:09,805 INFO    MainThread:2097821 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160909-ujjrpzmo/logs/debug.log
+2024-11-07 16:09:09,805 INFO    MainThread:2097821 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160909-ujjrpzmo/logs/debug-internal.log
+2024-11-07 16:09:09,805 INFO    MainThread:2097821 [wandb_init.py:init():621] calling init triggers
+2024-11-07 16:09:09,805 INFO    MainThread:2097821 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-07 16:09:09,805 INFO    MainThread:2097821 [wandb_init.py:init():671] starting backend
+2024-11-07 16:09:09,805 INFO    MainThread:2097821 [wandb_init.py:init():675] sending inform_init request
+2024-11-07 16:09:09,806 INFO    MainThread:2097821 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-07 16:09:09,807 INFO    MainThread:2097821 [wandb_init.py:init():688] backend started and connected
+2024-11-07 16:09:09,810 INFO    MainThread:2097821 [wandb_init.py:init():783] updated telemetry
+2024-11-07 16:09:09,835 INFO    MainThread:2097821 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-07 16:09:10,134 INFO    MainThread:2097821 [wandb_init.py:init():867] starting run threads in backend
+2024-11-07 16:09:10,226 INFO    MainThread:2097821 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-07 16:09:10,226 INFO    MainThread:2097821 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-07 16:09:10,226 INFO    MainThread:2097821 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-07 16:09:10,226 INFO    MainThread:2097821 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-07 16:09:10,227 INFO    MainThread:2097821 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-07 16:09:10,228 INFO    MainThread:2097821 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-07 16:13:35,309 INFO    MainThread:2097821 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B/babylm_shuffle_even_odd_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B/babylm_shuffle_even_odd_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-07 16:13:35,316 INFO    MainThread:2097821 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f626414bdc0>>
+2024-11-07 16:13:35,316 INFO    MainThread:2097821 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-11-08 01:39:25,354 INFO    MainThread:2097821 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-shuffle/ujjrpzmo
+2024-11-08 01:39:25,378 INFO    MainThread:2097821 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-08 01:39:25,379 INFO    MainThread:2097821 [wandb_run.py:_restore():2408] restore
+2024-11-08 01:39:25,379 INFO    MainThread:2097821 [wandb_run.py:_restore():2414] restore done
+2024-11-08 01:39:27,296 INFO    MainThread:2097821 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-08 01:39:27,298 INFO    MainThread:2097821 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-08 01:39:27,315 INFO    MainThread:2097821 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241115_125218-wtoze6lw/files/output.log b/wandb/run-20241115_125218-wtoze6lw/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..408339bf69e30b4b45bc143b0e3402262bad4124
--- /dev/null
+++ b/wandb/run-20241115_125218-wtoze6lw/files/output.log
@@ -0,0 +1,20 @@
+model-00002-of-00002.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████████| 1.46G/1.46G [00:34<00:00, 42.2MB/s]
+Downloading shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:33<00:00, 76.58s/it]
+Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.13s/it]
+Map: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16425/16425 [00:45<00:00, 362.77 examples/s]
+Map: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17013/17013 [00:45<00:00, 373.09 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-15 12:56:28,925] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-15 12:56:35,186] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Emitting ninja build file /home/chunhui/.cache/torch_extensions/py39_cu117/cpu_adam/build.ninja...
+Building extension module cpu_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 10.214926719665527 seconds
diff --git a/wandb/run-20241115_125218-wtoze6lw/files/requirements.txt b/wandb/run-20241115_125218-wtoze6lw/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241115_125218-wtoze6lw/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241115_125218-wtoze6lw/files/wandb-metadata.json b/wandb/run-20241115_125218-wtoze6lw/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..b007c3536ce3156af01b4ff15675297cfbdda249
--- /dev/null
+++ b/wandb/run-20241115_125218-wtoze6lw/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-15T17:52:18.157659Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic84",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py",
+  "codePath":  "train/train_ftp.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_ftp.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1762493665280"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241115_125218-wtoze6lw/logs/debug-internal.log b/wandb/run-20241115_125218-wtoze6lw/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..b92ff70a871d5d9a6ef8765ea1f9c993bd331761
--- /dev/null
+++ b/wandb/run-20241115_125218-wtoze6lw/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-15T12:52:18.160383492-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-15T12:52:18.160405642-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241115_125218-wtoze6lw/logs/debug-core.log"}
+{"time":"2024-11-15T12:52:18.269422885-05:00","level":"INFO","msg":"created new stream","id":"wtoze6lw"}
+{"time":"2024-11-15T12:52:18.269493565-05:00","level":"INFO","msg":"stream: started","id":"wtoze6lw"}
+{"time":"2024-11-15T12:52:18.269567486-05:00","level":"INFO","msg":"sender: started","stream_id":"wtoze6lw"}
+{"time":"2024-11-15T12:52:18.269515025-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"wtoze6lw"}}
+{"time":"2024-11-15T12:52:18.269545196-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"wtoze6lw"}}
+{"time":"2024-11-15T12:52:18.559525354-05:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241115_125218-wtoze6lw/logs/debug.log b/wandb/run-20241115_125218-wtoze6lw/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..091facda87a3f8432aaa458f2b9891524e6570fd
--- /dev/null
+++ b/wandb/run-20241115_125218-wtoze6lw/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Configure stats pid to 2609856
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_ftp.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py'}
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241115_125218-wtoze6lw/logs/debug.log
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241115_125218-wtoze6lw/logs/debug-internal.log
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_init.py:init():621] calling init triggers
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_init.py:init():671] starting backend
+2024-11-15 12:52:18,155 INFO    MainThread:2609856 [wandb_init.py:init():675] sending inform_init request
+2024-11-15 12:52:18,157 INFO    MainThread:2609856 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-15 12:52:18,157 INFO    MainThread:2609856 [wandb_init.py:init():688] backend started and connected
+2024-11-15 12:52:18,160 INFO    MainThread:2609856 [wandb_init.py:init():783] updated telemetry
+2024-11-15 12:52:18,182 INFO    MainThread:2609856 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-15 12:52:18,556 INFO    MainThread:2609856 [wandb_init.py:init():867] starting run threads in backend
+2024-11-15 12:52:18,642 INFO    MainThread:2609856 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-15 12:52:18,642 INFO    MainThread:2609856 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-15 12:52:18,642 INFO    MainThread:2609856 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-15 12:52:18,643 INFO    MainThread:2609856 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-15 12:52:18,644 INFO    MainThread:2609856 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-15 12:52:18,644 INFO    MainThread:2609856 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic84', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241129_083813-1lx1o6j4/run-1lx1o6j4.wandb b/wandb/run-20241129_083813-1lx1o6j4/run-1lx1o6j4.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..ec7662ac7405abcd529bb13f44d6c6705d72a183
--- /dev/null
+++ b/wandb/run-20241129_083813-1lx1o6j4/run-1lx1o6j4.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b1af0a64daa1d513b4452fb9b7c80db35504922ade42812324f78f2f2dfe9f5a
+size 15170349
diff --git a/wandb/run-20241129_083813-gsvlu1z8/run-gsvlu1z8.wandb b/wandb/run-20241129_083813-gsvlu1z8/run-gsvlu1z8.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..c68467645087b90604ed8b858c2608df3c23856f
--- /dev/null
+++ b/wandb/run-20241129_083813-gsvlu1z8/run-gsvlu1z8.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22f3262854e44f7a59ad2f06b47d6e9643f31780af151ed30360adc94082d16d
+size 15260525
diff --git a/wandb/run-20241130_011200-3b6iqyk8/files/config.yaml b/wandb/run-20241130_011200-3b6iqyk8/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..b85126270b82af9c37b1b831613d34c8fc462e89
--- /dev/null
+++ b/wandb/run-20241130_011200-3b6iqyk8/files/config.yaml
@@ -0,0 +1,537 @@
+_name_or_path:
+    value: gpt2
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": train/learning_rate
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": eval/runtime
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/epoch
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+activation_function:
+    value: gelu_new
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - GPT2LMHeadModel
+attn_pdrop:
+    value: 0.1
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 50256
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+embd_pdrop:
+    value: 0.1
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 50256
+epoch:
+    value: 3
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+layer_norm_epsilon:
+    value: 1e-05
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+model/num_parameters:
+    value: 124439808
+model_type:
+    value: gpt2
+mp_parameters:
+    value: ""
+n_ctx:
+    value: 1024
+n_embd:
+    value: 768
+n_head:
+    value: 12
+n_inner:
+    value: null
+n_layer:
+    value: 12
+n_positions:
+    value: 1024
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 3
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/GPT2/babylm_reverse_partial_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: reverse_partial
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+reorder_and_upcast_attn:
+    value: false
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+resid_pdrop:
+    value: 0.1
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+run_name:
+    value: ./checkpoints/GPT2/babylm_reverse_partial_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+scale_attn_by_inverse_layer_idx:
+    value: false
+scale_attn_weights:
+    value: true
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+summary_activation:
+    value: null
+summary_first_dropout:
+    value: 0.1
+summary_proj_to_labels:
+    value: true
+summary_type:
+    value: cls_index
+summary_use_proj:
+    value: true
+suppress_tokens:
+    value: null
+task_specific_params:
+    value:
+        text-generation:
+            do_sample: true
+            max_length: 50
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: null
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 50257
+warmup_ratio:
+    value: 0.1
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241130_011200-3b6iqyk8/files/output.log b/wandb/run-20241130_011200-3b6iqyk8/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5f00716d43c29125bc53462deeaaa66fff6fef83
--- /dev/null
+++ b/wandb/run-20241130_011200-3b6iqyk8/files/output.log
@@ -0,0 +1,3232 @@
+model.safetensors: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 548M/548M [00:02<00:00, 224MB/s]
+generation_config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [00:00<00:00, 33.0kB/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17519/17519 [00:33<00:00, 522.20 examples/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:36<00:00, 500.84 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-30 01:13:38,332] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-30 01:13:41,419] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-30 01:13:41,419] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 2.63274884223938 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                                                                                                                                                   
+{'loss': 4.9368, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9727, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 5.0026, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9837, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9557, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9889, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9193, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 5.0052, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9655, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.959, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                                                                                                                                                   
+{'eval_loss': 4.73828125, 'eval_runtime': 4.1115, 'eval_samples_per_second': 243.222, 'eval_steps_per_second': 10.215, 'epoch': 0.01}
+{'loss': 4.9733, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.944, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 5.0143, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 5.0039, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9896, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.9368, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.9427, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.9759, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.9056, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.9505, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'eval_loss': 4.73828125, 'eval_runtime': 4.0981, 'eval_samples_per_second': 244.018, 'eval_steps_per_second': 10.249, 'epoch': 0.02}
+{'loss': 4.9902, 'grad_norm': 30.131547927856445, 'learning_rate': 1.7123287671232876e-08, 'epoch': 0.02}
+{'loss': 4.9896, 'grad_norm': 28.718915939331055, 'learning_rate': 3.424657534246575e-08, 'epoch': 0.02}
+{'loss': 4.9408, 'grad_norm': 29.210100173950195, 'learning_rate': 5.136986301369863e-08, 'epoch': 0.02}
+{'loss': 4.9362, 'grad_norm': 28.25501823425293, 'learning_rate': 6.84931506849315e-08, 'epoch': 0.02}
+{'loss': 4.9531, 'grad_norm': 29.711442947387695, 'learning_rate': 8.561643835616439e-08, 'epoch': 0.03}
+{'loss': 4.9375, 'grad_norm': 28.727384567260742, 'learning_rate': 1.0273972602739726e-07, 'epoch': 0.03}
+{'loss': 4.9238, 'grad_norm': 30.04079246520996, 'learning_rate': 1.1986301369863014e-07, 'epoch': 0.03}
+{'loss': 4.9499, 'grad_norm': 28.590187072753906, 'learning_rate': 1.36986301369863e-07, 'epoch': 0.03}
+{'loss': 4.9915, 'grad_norm': 29.233854293823242, 'learning_rate': 1.541095890410959e-07, 'epoch': 0.03}
+{'loss': 4.9753, 'grad_norm': 28.83257484436035, 'learning_rate': 1.7123287671232878e-07, 'epoch': 0.03}
+{'eval_loss': 4.73828125, 'eval_runtime': 4.1157, 'eval_samples_per_second': 242.972, 'eval_steps_per_second': 10.205, 'epoch': 0.03}
+{'loss': 4.9635, 'grad_norm': 29.363426208496094, 'learning_rate': 1.8835616438356165e-07, 'epoch': 0.03}
+{'loss': 4.9824, 'grad_norm': 28.72071647644043, 'learning_rate': 2.0547945205479452e-07, 'epoch': 0.03}
+{'loss': 4.9766, 'grad_norm': 29.19382095336914, 'learning_rate': 2.226027397260274e-07, 'epoch': 0.03}
+{'loss': 4.9492, 'grad_norm': 29.75013542175293, 'learning_rate': 2.397260273972603e-07, 'epoch': 0.03}
+{'loss': 4.9473, 'grad_norm': 29.295991897583008, 'learning_rate': 2.568493150684932e-07, 'epoch': 0.04}
+{'loss': 4.89, 'grad_norm': 29.102115631103516, 'learning_rate': 2.73972602739726e-07, 'epoch': 0.04}
+{'loss': 4.9896, 'grad_norm': 28.667421340942383, 'learning_rate': 2.910958904109589e-07, 'epoch': 0.04}
+{'loss': 4.9401, 'grad_norm': 28.73750877380371, 'learning_rate': 3.082191780821918e-07, 'epoch': 0.04}
+{'loss': 4.9323, 'grad_norm': 28.72878646850586, 'learning_rate': 3.2534246575342466e-07, 'epoch': 0.04}
+{'loss': 4.9544, 'grad_norm': 29.199050903320312, 'learning_rate': 3.4246575342465755e-07, 'epoch': 0.04}
+{'eval_loss': 4.734375, 'eval_runtime': 4.1021, 'eval_samples_per_second': 243.775, 'eval_steps_per_second': 10.239, 'epoch': 0.04}
+{'loss': 4.89, 'grad_norm': 28.017105102539062, 'learning_rate': 3.595890410958904e-07, 'epoch': 0.04}
+{'loss': 4.9251, 'grad_norm': 29.308931350708008, 'learning_rate': 3.767123287671233e-07, 'epoch': 0.04}
+{'loss': 4.972, 'grad_norm': 28.6417179107666, 'learning_rate': 3.938356164383562e-07, 'epoch': 0.04}
+{'loss': 4.9271, 'grad_norm': 28.588851928710938, 'learning_rate': 4.1095890410958903e-07, 'epoch': 0.05}
+{'loss': 4.8945, 'grad_norm': 28.641048431396484, 'learning_rate': 4.2808219178082193e-07, 'epoch': 0.05}
+{'loss': 4.9141, 'grad_norm': 28.493850708007812, 'learning_rate': 4.452054794520548e-07, 'epoch': 0.05}
+{'loss': 4.9108, 'grad_norm': 27.607561111450195, 'learning_rate': 4.6232876712328767e-07, 'epoch': 0.05}
+{'loss': 4.9792, 'grad_norm': 28.379812240600586, 'learning_rate': 4.794520547945206e-07, 'epoch': 0.05}
+{'loss': 4.901, 'grad_norm': 27.96718406677246, 'learning_rate': 4.965753424657534e-07, 'epoch': 0.05}
+{'loss': 4.9108, 'grad_norm': 28.76370620727539, 'learning_rate': 5.136986301369864e-07, 'epoch': 0.05}
+{'eval_loss': 4.734375, 'eval_runtime': 4.1147, 'eval_samples_per_second': 243.033, 'eval_steps_per_second': 10.207, 'epoch': 0.05}
+{'loss': 4.9382, 'grad_norm': 29.152233123779297, 'learning_rate': 5.308219178082192e-07, 'epoch': 0.05}
+{'loss': 4.9303, 'grad_norm': 26.88654327392578, 'learning_rate': 5.47945205479452e-07, 'epoch': 0.05}
+{'loss': 4.8906, 'grad_norm': 27.988054275512695, 'learning_rate': 5.65068493150685e-07, 'epoch': 0.05}
+{'loss': 4.9121, 'grad_norm': 27.560453414916992, 'learning_rate': 5.821917808219178e-07, 'epoch': 0.06}
+{'loss': 4.8867, 'grad_norm': 26.93564224243164, 'learning_rate': 5.993150684931507e-07, 'epoch': 0.06}
+{'loss': 4.8639, 'grad_norm': 26.995237350463867, 'learning_rate': 6.164383561643836e-07, 'epoch': 0.06}
+{'loss': 4.9108, 'grad_norm': 28.080541610717773, 'learning_rate': 6.335616438356165e-07, 'epoch': 0.06}
+{'loss': 4.8926, 'grad_norm': 27.906375885009766, 'learning_rate': 6.506849315068493e-07, 'epoch': 0.06}
+{'loss': 4.9414, 'grad_norm': 26.677865982055664, 'learning_rate': 6.678082191780823e-07, 'epoch': 0.06}
+{'loss': 4.9193, 'grad_norm': 27.321117401123047, 'learning_rate': 6.849315068493151e-07, 'epoch': 0.06}
+{'eval_loss': 4.72265625, 'eval_runtime': 4.1305, 'eval_samples_per_second': 242.104, 'eval_steps_per_second': 10.168, 'epoch': 0.06}
+{'loss': 4.873, 'grad_norm': 26.74706268310547, 'learning_rate': 7.020547945205481e-07, 'epoch': 0.06}
+{'loss': 4.8698, 'grad_norm': 27.003042221069336, 'learning_rate': 7.191780821917808e-07, 'epoch': 0.06}
+{'loss': 4.9049, 'grad_norm': 26.75358772277832, 'learning_rate': 7.363013698630137e-07, 'epoch': 0.06}
+{'loss': 4.8965, 'grad_norm': 26.189491271972656, 'learning_rate': 7.534246575342466e-07, 'epoch': 0.07}
+{'loss': 4.7565, 'grad_norm': 25.484785079956055, 'learning_rate': 7.705479452054795e-07, 'epoch': 0.07}
+{'loss': 4.7428, 'grad_norm': 23.98906898498535, 'learning_rate': 7.876712328767124e-07, 'epoch': 0.07}
+{'loss': 4.8027, 'grad_norm': 23.753206253051758, 'learning_rate': 8.047945205479453e-07, 'epoch': 0.07}
+{'loss': 4.8073, 'grad_norm': 23.87253189086914, 'learning_rate': 8.219178082191781e-07, 'epoch': 0.07}
+{'loss': 4.791, 'grad_norm': 23.451854705810547, 'learning_rate': 8.39041095890411e-07, 'epoch': 0.07}
+{'loss': 4.8555, 'grad_norm': 22.51355743408203, 'learning_rate': 8.561643835616439e-07, 'epoch': 0.07}
+{'eval_loss': 4.70703125, 'eval_runtime': 4.1092, 'eval_samples_per_second': 243.358, 'eval_steps_per_second': 10.221, 'epoch': 0.07}
+{'loss': 4.8053, 'grad_norm': 23.899999618530273, 'learning_rate': 8.732876712328768e-07, 'epoch': 0.07}
+{'loss': 4.75, 'grad_norm': 23.841136932373047, 'learning_rate': 8.904109589041097e-07, 'epoch': 0.07}
+{'loss': 4.8079, 'grad_norm': 23.55084800720215, 'learning_rate': 9.075342465753426e-07, 'epoch': 0.07}
+{'loss': 4.8229, 'grad_norm': 23.254657745361328, 'learning_rate': 9.246575342465753e-07, 'epoch': 0.08}
+{'loss': 4.7663, 'grad_norm': 23.326030731201172, 'learning_rate': 9.417808219178083e-07, 'epoch': 0.08}
+{'loss': 4.7936, 'grad_norm': 23.44630241394043, 'learning_rate': 9.589041095890411e-07, 'epoch': 0.08}
+{'loss': 4.7526, 'grad_norm': 22.808815002441406, 'learning_rate': 9.76027397260274e-07, 'epoch': 0.08}
+{'loss': 4.8431, 'grad_norm': 22.252565383911133, 'learning_rate': 9.931506849315068e-07, 'epoch': 0.08}
+{'loss': 4.735, 'grad_norm': 23.07645034790039, 'learning_rate': 1.0102739726027399e-06, 'epoch': 0.08}
+{'loss': 4.7865, 'grad_norm': 22.404930114746094, 'learning_rate': 1.0273972602739727e-06, 'epoch': 0.08}
+{'eval_loss': 4.68359375, 'eval_runtime': 4.1309, 'eval_samples_per_second': 242.079, 'eval_steps_per_second': 10.167, 'epoch': 0.08}
+{'loss': 4.724, 'grad_norm': 23.25055694580078, 'learning_rate': 1.0445205479452056e-06, 'epoch': 0.08}
+{'loss': 4.7103, 'grad_norm': 23.206710815429688, 'learning_rate': 1.0616438356164384e-06, 'epoch': 0.08}
+{'loss': 4.7741, 'grad_norm': 22.354995727539062, 'learning_rate': 1.0787671232876712e-06, 'epoch': 0.09}
+{'loss': 4.7272, 'grad_norm': 22.093656539916992, 'learning_rate': 1.095890410958904e-06, 'epoch': 0.09}
+{'loss': 4.6947, 'grad_norm': 21.947200775146484, 'learning_rate': 1.1130136986301371e-06, 'epoch': 0.09}
+{'loss': 4.6999, 'grad_norm': 20.737342834472656, 'learning_rate': 1.13013698630137e-06, 'epoch': 0.09}
+{'loss': 4.6458, 'grad_norm': 20.443077087402344, 'learning_rate': 1.1472602739726028e-06, 'epoch': 0.09}
+{'loss': 4.6686, 'grad_norm': 19.774625778198242, 'learning_rate': 1.1643835616438357e-06, 'epoch': 0.09}
+{'loss': 4.6582, 'grad_norm': 19.206186294555664, 'learning_rate': 1.1815068493150685e-06, 'epoch': 0.09}
+{'loss': 4.6432, 'grad_norm': 19.53115463256836, 'learning_rate': 1.1986301369863014e-06, 'epoch': 0.09}
+{'eval_loss': 4.640625, 'eval_runtime': 4.1239, 'eval_samples_per_second': 242.488, 'eval_steps_per_second': 10.185, 'epoch': 0.09}
+{'loss': 4.6309, 'grad_norm': 18.636926651000977, 'learning_rate': 1.2157534246575344e-06, 'epoch': 0.09}
+{'loss': 4.6361, 'grad_norm': 19.013917922973633, 'learning_rate': 1.2328767123287673e-06, 'epoch': 0.09}
+{'loss': 4.6354, 'grad_norm': 18.764785766601562, 'learning_rate': 1.25e-06, 'epoch': 0.1}
+{'loss': 4.6458, 'grad_norm': 19.141353607177734, 'learning_rate': 1.267123287671233e-06, 'epoch': 0.1}
+{'loss': 4.6328, 'grad_norm': 18.49185562133789, 'learning_rate': 1.284246575342466e-06, 'epoch': 0.1}
+{'loss': 4.5964, 'grad_norm': 19.237201690673828, 'learning_rate': 1.3013698630136986e-06, 'epoch': 0.1}
+{'loss': 4.6719, 'grad_norm': 18.468761444091797, 'learning_rate': 1.3184931506849317e-06, 'epoch': 0.1}
+{'loss': 4.5605, 'grad_norm': 19.132234573364258, 'learning_rate': 1.3356164383561645e-06, 'epoch': 0.1}
+{'loss': 4.6048, 'grad_norm': 18.665132522583008, 'learning_rate': 1.3527397260273976e-06, 'epoch': 0.1}
+{'loss': 4.6022, 'grad_norm': 18.39410972595215, 'learning_rate': 1.3698630136986302e-06, 'epoch': 0.1}
+{'eval_loss': 4.6015625, 'eval_runtime': 4.1158, 'eval_samples_per_second': 242.964, 'eval_steps_per_second': 10.204, 'epoch': 0.1}
+{'loss': 4.6178, 'grad_norm': 18.8886661529541, 'learning_rate': 1.386986301369863e-06, 'epoch': 0.1}
+{'loss': 4.6081, 'grad_norm': 18.832914352416992, 'learning_rate': 1.4041095890410961e-06, 'epoch': 0.1}
+{'loss': 4.5475, 'grad_norm': 19.178354263305664, 'learning_rate': 1.421232876712329e-06, 'epoch': 0.11}
+{'loss': 4.5957, 'grad_norm': 18.506925582885742, 'learning_rate': 1.4383561643835616e-06, 'epoch': 0.11}
+{'loss': 4.5742, 'grad_norm': 17.822444915771484, 'learning_rate': 1.4554794520547946e-06, 'epoch': 0.11}
+{'loss': 4.6016, 'grad_norm': 18.524858474731445, 'learning_rate': 1.4726027397260275e-06, 'epoch': 0.11}
+{'loss': 4.5938, 'grad_norm': 18.04818344116211, 'learning_rate': 1.4897260273972605e-06, 'epoch': 0.11}
+{'loss': 4.6289, 'grad_norm': 17.812471389770508, 'learning_rate': 1.5068493150684932e-06, 'epoch': 0.11}
+{'loss': 4.4941, 'grad_norm': 17.27219009399414, 'learning_rate': 1.5239726027397262e-06, 'epoch': 0.11}
+{'loss': 4.6146, 'grad_norm': 17.530784606933594, 'learning_rate': 1.541095890410959e-06, 'epoch': 0.11}
+{'eval_loss': 4.53515625, 'eval_runtime': 4.1396, 'eval_samples_per_second': 241.57, 'eval_steps_per_second': 10.146, 'epoch': 0.11}
+{'loss': 4.5046, 'grad_norm': 18.137968063354492, 'learning_rate': 1.5582191780821921e-06, 'epoch': 0.11}
+{'loss': 4.5762, 'grad_norm': 17.36573028564453, 'learning_rate': 1.5753424657534248e-06, 'epoch': 0.12}
+{'loss': 4.4928, 'grad_norm': 17.565065383911133, 'learning_rate': 1.5924657534246576e-06, 'epoch': 0.12}
+{'loss': 4.5299, 'grad_norm': 17.46959686279297, 'learning_rate': 1.6095890410958907e-06, 'epoch': 0.12}
+{'loss': 4.4746, 'grad_norm': 17.41612434387207, 'learning_rate': 1.6267123287671235e-06, 'epoch': 0.12}
+{'loss': 4.5788, 'grad_norm': 16.961790084838867, 'learning_rate': 1.6438356164383561e-06, 'epoch': 0.12}
+{'loss': 4.526, 'grad_norm': 16.29218864440918, 'learning_rate': 1.6609589041095892e-06, 'epoch': 0.12}
+{'loss': 4.4863, 'grad_norm': 16.25139617919922, 'learning_rate': 1.678082191780822e-06, 'epoch': 0.12}
+{'loss': 4.5, 'grad_norm': 16.721561431884766, 'learning_rate': 1.695205479452055e-06, 'epoch': 0.12}
+{'loss': 4.5417, 'grad_norm': 16.36774444580078, 'learning_rate': 1.7123287671232877e-06, 'epoch': 0.12}
+{'eval_loss': 4.4921875, 'eval_runtime': 4.1278, 'eval_samples_per_second': 242.26, 'eval_steps_per_second': 10.175, 'epoch': 0.12}
+{'loss': 4.5423, 'grad_norm': 16.006729125976562, 'learning_rate': 1.7294520547945206e-06, 'epoch': 0.12}
+{'loss': 4.459, 'grad_norm': 15.865200996398926, 'learning_rate': 1.7465753424657536e-06, 'epoch': 0.13}
+{'loss': 4.4297, 'grad_norm': 16.123029708862305, 'learning_rate': 1.7636986301369865e-06, 'epoch': 0.13}
+{'loss': 4.429, 'grad_norm': 15.984574317932129, 'learning_rate': 1.7808219178082193e-06, 'epoch': 0.13}
+{'loss': 4.4583, 'grad_norm': 15.497867584228516, 'learning_rate': 1.7979452054794521e-06, 'epoch': 0.13}
+{'loss': 4.4974, 'grad_norm': 15.438045501708984, 'learning_rate': 1.8150684931506852e-06, 'epoch': 0.13}
+{'loss': 4.4603, 'grad_norm': 15.145936965942383, 'learning_rate': 1.832191780821918e-06, 'epoch': 0.13}
+{'loss': 4.4674, 'grad_norm': 15.14206314086914, 'learning_rate': 1.8493150684931507e-06, 'epoch': 0.13}
+{'loss': 4.4427, 'grad_norm': 15.187755584716797, 'learning_rate': 1.8664383561643837e-06, 'epoch': 0.13}
+{'loss': 4.4844, 'grad_norm': 15.75197982788086, 'learning_rate': 1.8835616438356166e-06, 'epoch': 0.13}
+{'eval_loss': 4.4609375, 'eval_runtime': 4.1176, 'eval_samples_per_second': 242.857, 'eval_steps_per_second': 10.2, 'epoch': 0.13}
+{'loss': 4.4453, 'grad_norm': 15.569364547729492, 'learning_rate': 1.9006849315068496e-06, 'epoch': 0.13}
+{'loss': 4.5117, 'grad_norm': 15.03312873840332, 'learning_rate': 1.9178082191780823e-06, 'epoch': 0.14}
+{'loss': 4.4792, 'grad_norm': 14.68118667602539, 'learning_rate': 1.9349315068493153e-06, 'epoch': 0.14}
+{'loss': 4.4128, 'grad_norm': 14.84007453918457, 'learning_rate': 1.952054794520548e-06, 'epoch': 0.14}
+{'loss': 4.4538, 'grad_norm': 14.99471378326416, 'learning_rate': 1.969178082191781e-06, 'epoch': 0.14}
+{'loss': 4.4134, 'grad_norm': 15.043487548828125, 'learning_rate': 1.9863013698630136e-06, 'epoch': 0.14}
+{'loss': 4.3652, 'grad_norm': 14.910931587219238, 'learning_rate': 2.0034246575342467e-06, 'epoch': 0.14}
+{'loss': 4.4993, 'grad_norm': 14.347814559936523, 'learning_rate': 2.0205479452054797e-06, 'epoch': 0.14}
+{'loss': 4.3717, 'grad_norm': 14.37811279296875, 'learning_rate': 2.037671232876713e-06, 'epoch': 0.14}
+{'loss': 4.4284, 'grad_norm': 14.35793685913086, 'learning_rate': 2.0547945205479454e-06, 'epoch': 0.14}
+{'eval_loss': 4.4296875, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.924, 'eval_steps_per_second': 10.119, 'epoch': 0.14}
+{'loss': 4.3626, 'grad_norm': 15.038351058959961, 'learning_rate': 2.071917808219178e-06, 'epoch': 0.14}
+{'loss': 4.3861, 'grad_norm': 14.12685489654541, 'learning_rate': 2.089041095890411e-06, 'epoch': 0.15}
+{'loss': 4.4824, 'grad_norm': 14.443238258361816, 'learning_rate': 2.106164383561644e-06, 'epoch': 0.15}
+{'loss': 4.3978, 'grad_norm': 13.997130393981934, 'learning_rate': 2.123287671232877e-06, 'epoch': 0.15}
+{'loss': 4.3457, 'grad_norm': 14.033496856689453, 'learning_rate': 2.14041095890411e-06, 'epoch': 0.15}
+{'loss': 4.36, 'grad_norm': 14.05638313293457, 'learning_rate': 2.1575342465753425e-06, 'epoch': 0.15}
+{'loss': 4.3379, 'grad_norm': 13.865315437316895, 'learning_rate': 2.1746575342465755e-06, 'epoch': 0.15}
+{'loss': 4.3783, 'grad_norm': 14.082818984985352, 'learning_rate': 2.191780821917808e-06, 'epoch': 0.15}
+{'loss': 4.418, 'grad_norm': 13.837726593017578, 'learning_rate': 2.2089041095890412e-06, 'epoch': 0.15}
+{'loss': 4.3548, 'grad_norm': 13.488321304321289, 'learning_rate': 2.2260273972602743e-06, 'epoch': 0.15}
+{'eval_loss': 4.39453125, 'eval_runtime': 4.1274, 'eval_samples_per_second': 242.28, 'eval_steps_per_second': 10.176, 'epoch': 0.15}
+{'loss': 4.2539, 'grad_norm': 13.063258171081543, 'learning_rate': 2.243150684931507e-06, 'epoch': 0.16}
+{'loss': 4.3607, 'grad_norm': 12.863183975219727, 'learning_rate': 2.26027397260274e-06, 'epoch': 0.16}
+{'loss': 4.3919, 'grad_norm': 13.09711742401123, 'learning_rate': 2.2773972602739726e-06, 'epoch': 0.16}
+{'loss': 4.3574, 'grad_norm': 13.325050354003906, 'learning_rate': 2.2945205479452057e-06, 'epoch': 0.16}
+{'loss': 4.3236, 'grad_norm': 13.354918479919434, 'learning_rate': 2.3116438356164387e-06, 'epoch': 0.16}
+{'loss': 4.263, 'grad_norm': 13.485763549804688, 'learning_rate': 2.3287671232876713e-06, 'epoch': 0.16}
+{'loss': 4.4089, 'grad_norm': 13.24156665802002, 'learning_rate': 2.3458904109589044e-06, 'epoch': 0.16}
+{'loss': 4.3867, 'grad_norm': 13.032491683959961, 'learning_rate': 2.363013698630137e-06, 'epoch': 0.16}
+{'loss': 4.3483, 'grad_norm': 13.213906288146973, 'learning_rate': 2.38013698630137e-06, 'epoch': 0.16}
+{'loss': 4.3685, 'grad_norm': 12.886741638183594, 'learning_rate': 2.3972602739726027e-06, 'epoch': 0.16}
+{'eval_loss': 4.36328125, 'eval_runtime': 4.1327, 'eval_samples_per_second': 241.973, 'eval_steps_per_second': 10.163, 'epoch': 0.16}
+{'loss': 4.3132, 'grad_norm': 12.917519569396973, 'learning_rate': 2.4143835616438358e-06, 'epoch': 0.17}
+{'loss': 4.3379, 'grad_norm': 12.008008003234863, 'learning_rate': 2.431506849315069e-06, 'epoch': 0.17}
+{'loss': 4.3138, 'grad_norm': 12.841987609863281, 'learning_rate': 2.4486301369863015e-06, 'epoch': 0.17}
+{'loss': 4.3138, 'grad_norm': 12.620802879333496, 'learning_rate': 2.4657534246575345e-06, 'epoch': 0.17}
+{'loss': 4.3014, 'grad_norm': 12.094341278076172, 'learning_rate': 2.482876712328767e-06, 'epoch': 0.17}
+{'loss': 4.3197, 'grad_norm': 12.599979400634766, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 4.2533, 'grad_norm': 11.877562522888184, 'learning_rate': 2.5171232876712333e-06, 'epoch': 0.17}
+{'loss': 4.3171, 'grad_norm': 12.210369110107422, 'learning_rate': 2.534246575342466e-06, 'epoch': 0.17}
+{'loss': 4.3633, 'grad_norm': 12.181822776794434, 'learning_rate': 2.551369863013699e-06, 'epoch': 0.17}
+{'loss': 4.3548, 'grad_norm': 12.295100212097168, 'learning_rate': 2.568493150684932e-06, 'epoch': 0.17}
+{'eval_loss': 4.33203125, 'eval_runtime': 4.1412, 'eval_samples_per_second': 241.474, 'eval_steps_per_second': 10.142, 'epoch': 0.17}
+{'loss': 4.2962, 'grad_norm': 11.861939430236816, 'learning_rate': 2.585616438356164e-06, 'epoch': 0.18}
+{'loss': 4.2611, 'grad_norm': 12.385237693786621, 'learning_rate': 2.6027397260273973e-06, 'epoch': 0.18}
+{'loss': 4.2917, 'grad_norm': 12.089065551757812, 'learning_rate': 2.6198630136986303e-06, 'epoch': 0.18}
+{'loss': 4.2409, 'grad_norm': 11.805279731750488, 'learning_rate': 2.6369863013698634e-06, 'epoch': 0.18}
+{'loss': 4.332, 'grad_norm': 11.740530967712402, 'learning_rate': 2.654109589041096e-06, 'epoch': 0.18}
+{'loss': 4.3164, 'grad_norm': 11.843746185302734, 'learning_rate': 2.671232876712329e-06, 'epoch': 0.18}
+{'loss': 4.2474, 'grad_norm': 11.980316162109375, 'learning_rate': 2.688356164383562e-06, 'epoch': 0.18}
+{'loss': 4.3431, 'grad_norm': 12.257198333740234, 'learning_rate': 2.705479452054795e-06, 'epoch': 0.18}
+{'loss': 4.1953, 'grad_norm': 12.144515991210938, 'learning_rate': 2.7226027397260274e-06, 'epoch': 0.18}
+{'loss': 4.3711, 'grad_norm': 11.529050827026367, 'learning_rate': 2.7397260273972604e-06, 'epoch': 0.18}
+{'eval_loss': 4.3046875, 'eval_runtime': 4.1228, 'eval_samples_per_second': 242.553, 'eval_steps_per_second': 10.187, 'epoch': 0.18}
+{'loss': 4.2969, 'grad_norm': 11.233429908752441, 'learning_rate': 2.7568493150684935e-06, 'epoch': 0.19}
+{'loss': 4.3086, 'grad_norm': 11.158636093139648, 'learning_rate': 2.773972602739726e-06, 'epoch': 0.19}
+{'loss': 4.3242, 'grad_norm': 11.89670467376709, 'learning_rate': 2.791095890410959e-06, 'epoch': 0.19}
+{'loss': 4.2188, 'grad_norm': 11.483942985534668, 'learning_rate': 2.8082191780821922e-06, 'epoch': 0.19}
+{'loss': 4.2142, 'grad_norm': 11.263113021850586, 'learning_rate': 2.8253424657534253e-06, 'epoch': 0.19}
+{'loss': 4.2318, 'grad_norm': 11.382001876831055, 'learning_rate': 2.842465753424658e-06, 'epoch': 0.19}
+{'loss': 4.2266, 'grad_norm': 11.353853225708008, 'learning_rate': 2.8595890410958905e-06, 'epoch': 0.19}
+{'loss': 4.2409, 'grad_norm': 11.523299217224121, 'learning_rate': 2.876712328767123e-06, 'epoch': 0.19}
+{'loss': 4.2533, 'grad_norm': 11.628111839294434, 'learning_rate': 2.8938356164383562e-06, 'epoch': 0.19}
+{'loss': 4.2233, 'grad_norm': 11.002790451049805, 'learning_rate': 2.9109589041095893e-06, 'epoch': 0.2}
+{'eval_loss': 4.28125, 'eval_runtime': 4.1373, 'eval_samples_per_second': 241.706, 'eval_steps_per_second': 10.152, 'epoch': 0.2}
+{'loss': 4.2572, 'grad_norm': 10.499918937683105, 'learning_rate': 2.9280821917808223e-06, 'epoch': 0.2}
+{'loss': 4.2311, 'grad_norm': 10.438143730163574, 'learning_rate': 2.945205479452055e-06, 'epoch': 0.2}
+{'loss': 4.222, 'grad_norm': 10.55289363861084, 'learning_rate': 2.962328767123288e-06, 'epoch': 0.2}
+{'loss': 4.2096, 'grad_norm': 10.886364936828613, 'learning_rate': 2.979452054794521e-06, 'epoch': 0.2}
+{'loss': 4.1715, 'grad_norm': 10.365394592285156, 'learning_rate': 2.9965753424657533e-06, 'epoch': 0.2}
+{'loss': 4.1901, 'grad_norm': 10.72486686706543, 'learning_rate': 3.0136986301369864e-06, 'epoch': 0.2}
+{'loss': 4.2227, 'grad_norm': 10.634543418884277, 'learning_rate': 3.0308219178082194e-06, 'epoch': 0.2}
+{'loss': 4.1992, 'grad_norm': 11.067220687866211, 'learning_rate': 3.0479452054794525e-06, 'epoch': 0.2}
+{'loss': 4.2604, 'grad_norm': 10.938216209411621, 'learning_rate': 3.065068493150685e-06, 'epoch': 0.2}
+{'loss': 4.1439, 'grad_norm': 10.77408218383789, 'learning_rate': 3.082191780821918e-06, 'epoch': 0.21}
+{'eval_loss': 4.2578125, 'eval_runtime': 4.1447, 'eval_samples_per_second': 241.272, 'eval_steps_per_second': 10.133, 'epoch': 0.21}
+{'loss': 4.1344, 'grad_norm': 10.577020645141602, 'learning_rate': 3.099315068493151e-06, 'epoch': 0.21}
+{'loss': 4.1243, 'grad_norm': 10.564643859863281, 'learning_rate': 3.1164383561643843e-06, 'epoch': 0.21}
+{'loss': 4.1335, 'grad_norm': 10.774625778198242, 'learning_rate': 3.1335616438356165e-06, 'epoch': 0.21}
+{'loss': 4.1296, 'grad_norm': 10.15392017364502, 'learning_rate': 3.1506849315068495e-06, 'epoch': 0.21}
+{'loss': 4.0859, 'grad_norm': 10.375434875488281, 'learning_rate': 3.167808219178082e-06, 'epoch': 0.21}
+{'loss': 4.1426, 'grad_norm': 10.384833335876465, 'learning_rate': 3.184931506849315e-06, 'epoch': 0.21}
+{'loss': 4.1764, 'grad_norm': 10.355037689208984, 'learning_rate': 3.2020547945205483e-06, 'epoch': 0.21}
+{'loss': 4.1468, 'grad_norm': 10.056352615356445, 'learning_rate': 3.2191780821917813e-06, 'epoch': 0.21}
+{'loss': 4.1484, 'grad_norm': 10.799850463867188, 'learning_rate': 3.236301369863014e-06, 'epoch': 0.21}
+{'loss': 4.1758, 'grad_norm': 9.964552879333496, 'learning_rate': 3.253424657534247e-06, 'epoch': 0.22}
+{'eval_loss': 4.23046875, 'eval_runtime': 4.123, 'eval_samples_per_second': 242.539, 'eval_steps_per_second': 10.187, 'epoch': 0.22}
+{'loss': 4.2272, 'grad_norm': 10.04883098602295, 'learning_rate': 3.2705479452054796e-06, 'epoch': 0.22}
+{'loss': 4.222, 'grad_norm': 9.993967056274414, 'learning_rate': 3.2876712328767123e-06, 'epoch': 0.22}
+{'loss': 4.1829, 'grad_norm': 10.329777717590332, 'learning_rate': 3.3047945205479453e-06, 'epoch': 0.22}
+{'loss': 4.222, 'grad_norm': 9.64864730834961, 'learning_rate': 3.3219178082191784e-06, 'epoch': 0.22}
+{'loss': 4.1045, 'grad_norm': 10.37147331237793, 'learning_rate': 3.3390410958904114e-06, 'epoch': 0.22}
+{'loss': 4.1611, 'grad_norm': 9.6936674118042, 'learning_rate': 3.356164383561644e-06, 'epoch': 0.22}
+{'loss': 4.1582, 'grad_norm': 9.258682250976562, 'learning_rate': 3.373287671232877e-06, 'epoch': 0.22}
+{'loss': 4.1406, 'grad_norm': 9.600977897644043, 'learning_rate': 3.39041095890411e-06, 'epoch': 0.22}
+{'loss': 4.1615, 'grad_norm': 9.154278755187988, 'learning_rate': 3.4075342465753424e-06, 'epoch': 0.22}
+{'loss': 4.1794, 'grad_norm': 9.535303115844727, 'learning_rate': 3.4246575342465754e-06, 'epoch': 0.23}
+{'eval_loss': 4.203125, 'eval_runtime': 4.1393, 'eval_samples_per_second': 241.589, 'eval_steps_per_second': 10.147, 'epoch': 0.23}
+{'loss': 4.123, 'grad_norm': 9.141316413879395, 'learning_rate': 3.4417808219178085e-06, 'epoch': 0.23}
+{'loss': 4.1595, 'grad_norm': 9.127972602844238, 'learning_rate': 3.458904109589041e-06, 'epoch': 0.23}
+{'loss': 4.1061, 'grad_norm': 9.376814842224121, 'learning_rate': 3.476027397260274e-06, 'epoch': 0.23}
+{'loss': 4.1758, 'grad_norm': 8.965569496154785, 'learning_rate': 3.4931506849315072e-06, 'epoch': 0.23}
+{'loss': 4.1699, 'grad_norm': 9.169360160827637, 'learning_rate': 3.5102739726027403e-06, 'epoch': 0.23}
+{'loss': 4.1126, 'grad_norm': 8.702447891235352, 'learning_rate': 3.527397260273973e-06, 'epoch': 0.23}
+{'loss': 4.151, 'grad_norm': 8.667379379272461, 'learning_rate': 3.5445205479452056e-06, 'epoch': 0.23}
+{'loss': 4.1458, 'grad_norm': 8.955476760864258, 'learning_rate': 3.5616438356164386e-06, 'epoch': 0.23}
+{'loss': 4.1634, 'grad_norm': 8.702780723571777, 'learning_rate': 3.5787671232876712e-06, 'epoch': 0.24}
+{'loss': 4.0745, 'grad_norm': 9.311281204223633, 'learning_rate': 3.5958904109589043e-06, 'epoch': 0.24}
+{'eval_loss': 4.18359375, 'eval_runtime': 4.1448, 'eval_samples_per_second': 241.263, 'eval_steps_per_second': 10.133, 'epoch': 0.24}
+{'loss': 4.1504, 'grad_norm': 9.19383430480957, 'learning_rate': 3.6130136986301373e-06, 'epoch': 0.24}
+{'loss': 4.0599, 'grad_norm': 9.289535522460938, 'learning_rate': 3.6301369863013704e-06, 'epoch': 0.24}
+{'loss': 4.1595, 'grad_norm': 8.840797424316406, 'learning_rate': 3.647260273972603e-06, 'epoch': 0.24}
+{'loss': 4.0885, 'grad_norm': 9.27944564819336, 'learning_rate': 3.664383561643836e-06, 'epoch': 0.24}
+{'loss': 4.1549, 'grad_norm': 8.905035018920898, 'learning_rate': 3.6815068493150687e-06, 'epoch': 0.24}
+{'loss': 4.1439, 'grad_norm': 8.935539245605469, 'learning_rate': 3.6986301369863014e-06, 'epoch': 0.24}
+{'loss': 4.0697, 'grad_norm': 9.067331314086914, 'learning_rate': 3.7157534246575344e-06, 'epoch': 0.24}
+{'loss': 4.1048, 'grad_norm': 8.528990745544434, 'learning_rate': 3.7328767123287675e-06, 'epoch': 0.24}
+{'loss': 4.0413, 'grad_norm': 8.813199996948242, 'learning_rate': 3.7500000000000005e-06, 'epoch': 0.25}
+{'loss': 4.0866, 'grad_norm': 8.504544258117676, 'learning_rate': 3.767123287671233e-06, 'epoch': 0.25}
+{'eval_loss': 4.16015625, 'eval_runtime': 4.1325, 'eval_samples_per_second': 241.984, 'eval_steps_per_second': 10.163, 'epoch': 0.25}
+{'loss': 4.1133, 'grad_norm': 8.6771879196167, 'learning_rate': 3.784246575342466e-06, 'epoch': 0.25}
+{'loss': 4.0768, 'grad_norm': 7.906116008758545, 'learning_rate': 3.8013698630136993e-06, 'epoch': 0.25}
+{'loss': 4.1025, 'grad_norm': 7.899679660797119, 'learning_rate': 3.818493150684932e-06, 'epoch': 0.25}
+{'loss': 4.0609, 'grad_norm': 8.11925983428955, 'learning_rate': 3.8356164383561645e-06, 'epoch': 0.25}
+{'loss': 4.043, 'grad_norm': 7.70329475402832, 'learning_rate': 3.852739726027397e-06, 'epoch': 0.25}
+{'loss': 4.07, 'grad_norm': 7.410552978515625, 'learning_rate': 3.869863013698631e-06, 'epoch': 0.25}
+{'loss': 4.1224, 'grad_norm': 7.3189616203308105, 'learning_rate': 3.886986301369863e-06, 'epoch': 0.25}
+{'loss': 4.0579, 'grad_norm': 7.044114112854004, 'learning_rate': 3.904109589041096e-06, 'epoch': 0.25}
+{'loss': 4.1068, 'grad_norm': 7.064311504364014, 'learning_rate': 3.921232876712329e-06, 'epoch': 0.26}
+{'loss': 4.071, 'grad_norm': 8.053010940551758, 'learning_rate': 3.938356164383562e-06, 'epoch': 0.26}
+{'eval_loss': 4.13671875, 'eval_runtime': 4.1412, 'eval_samples_per_second': 241.473, 'eval_steps_per_second': 10.142, 'epoch': 0.26}
+{'loss': 3.9935, 'grad_norm': 7.839468955993652, 'learning_rate': 3.9554794520547955e-06, 'epoch': 0.26}
+{'loss': 4.0469, 'grad_norm': 7.330892086029053, 'learning_rate': 3.972602739726027e-06, 'epoch': 0.26}
+{'loss': 4.0863, 'grad_norm': 8.212550163269043, 'learning_rate': 3.989726027397261e-06, 'epoch': 0.26}
+{'loss': 4.1198, 'grad_norm': 7.196903705596924, 'learning_rate': 4.006849315068493e-06, 'epoch': 0.26}
+{'loss': 4.0114, 'grad_norm': 7.831574440002441, 'learning_rate': 4.023972602739726e-06, 'epoch': 0.26}
+{'loss': 4.0872, 'grad_norm': 7.248447418212891, 'learning_rate': 4.0410958904109595e-06, 'epoch': 0.26}
+{'loss': 4.084, 'grad_norm': 7.263030529022217, 'learning_rate': 4.058219178082192e-06, 'epoch': 0.26}
+{'loss': 4.112, 'grad_norm': 7.575557231903076, 'learning_rate': 4.075342465753426e-06, 'epoch': 0.27}
+{'loss': 4.0788, 'grad_norm': 7.660402774810791, 'learning_rate': 4.092465753424658e-06, 'epoch': 0.27}
+{'loss': 4.0029, 'grad_norm': 7.550734519958496, 'learning_rate': 4.109589041095891e-06, 'epoch': 0.27}
+{'eval_loss': 4.1171875, 'eval_runtime': 4.139, 'eval_samples_per_second': 241.607, 'eval_steps_per_second': 10.147, 'epoch': 0.27}
+{'loss': 4.0046, 'grad_norm': 7.647421360015869, 'learning_rate': 4.1267123287671235e-06, 'epoch': 0.27}
+{'loss': 4.04, 'grad_norm': 7.156620502471924, 'learning_rate': 4.143835616438356e-06, 'epoch': 0.27}
+{'loss': 4.0521, 'grad_norm': 7.08859395980835, 'learning_rate': 4.16095890410959e-06, 'epoch': 0.27}
+{'loss': 4.0475, 'grad_norm': 7.078398704528809, 'learning_rate': 4.178082191780822e-06, 'epoch': 0.27}
+{'loss': 3.9922, 'grad_norm': 7.370846271514893, 'learning_rate': 4.195205479452055e-06, 'epoch': 0.27}
+{'loss': 4.1045, 'grad_norm': 7.224090099334717, 'learning_rate': 4.212328767123288e-06, 'epoch': 0.27}
+{'loss': 4.0065, 'grad_norm': 7.28265905380249, 'learning_rate': 4.229452054794521e-06, 'epoch': 0.27}
+{'loss': 4.0605, 'grad_norm': 6.596180438995361, 'learning_rate': 4.246575342465754e-06, 'epoch': 0.28}
+{'loss': 4.0273, 'grad_norm': 6.433627605438232, 'learning_rate': 4.263698630136986e-06, 'epoch': 0.28}
+{'loss': 4.012, 'grad_norm': 7.028694152832031, 'learning_rate': 4.28082191780822e-06, 'epoch': 0.28}
+{'eval_loss': 4.09765625, 'eval_runtime': 4.1307, 'eval_samples_per_second': 242.089, 'eval_steps_per_second': 10.168, 'epoch': 0.28}
+{'loss': 4.0212, 'grad_norm': 6.848145008087158, 'learning_rate': 4.297945205479452e-06, 'epoch': 0.28}
+{'loss': 4.0426, 'grad_norm': 6.834774494171143, 'learning_rate': 4.315068493150685e-06, 'epoch': 0.28}
+{'loss': 4.0472, 'grad_norm': 6.768965244293213, 'learning_rate': 4.3321917808219185e-06, 'epoch': 0.28}
+{'loss': 3.9948, 'grad_norm': 6.768743515014648, 'learning_rate': 4.349315068493151e-06, 'epoch': 0.28}
+{'loss': 4.0088, 'grad_norm': 6.536395072937012, 'learning_rate': 4.3664383561643846e-06, 'epoch': 0.28}
+{'loss': 4.0065, 'grad_norm': 6.58804178237915, 'learning_rate': 4.383561643835616e-06, 'epoch': 0.28}
+{'loss': 4.0469, 'grad_norm': 6.264020919799805, 'learning_rate': 4.40068493150685e-06, 'epoch': 0.28}
+{'loss': 4.028, 'grad_norm': 6.974552154541016, 'learning_rate': 4.4178082191780825e-06, 'epoch': 0.29}
+{'loss': 3.9342, 'grad_norm': 6.503084182739258, 'learning_rate': 4.434931506849315e-06, 'epoch': 0.29}
+{'loss': 3.9967, 'grad_norm': 6.800661087036133, 'learning_rate': 4.4520547945205486e-06, 'epoch': 0.29}
+{'eval_loss': 4.08203125, 'eval_runtime': 4.148, 'eval_samples_per_second': 241.079, 'eval_steps_per_second': 10.125, 'epoch': 0.29}
+{'loss': 4.0221, 'grad_norm': 6.147964000701904, 'learning_rate': 4.469178082191781e-06, 'epoch': 0.29}
+{'loss': 4.0365, 'grad_norm': 5.877753734588623, 'learning_rate': 4.486301369863014e-06, 'epoch': 0.29}
+{'loss': 4.0326, 'grad_norm': 6.1854777336120605, 'learning_rate': 4.503424657534247e-06, 'epoch': 0.29}
+{'loss': 3.944, 'grad_norm': 6.23856782913208, 'learning_rate': 4.52054794520548e-06, 'epoch': 0.29}
+{'loss': 3.9658, 'grad_norm': 6.304264068603516, 'learning_rate': 4.537671232876713e-06, 'epoch': 0.29}
+{'loss': 4.0023, 'grad_norm': 6.2053656578063965, 'learning_rate': 4.554794520547945e-06, 'epoch': 0.29}
+{'loss': 4.0013, 'grad_norm': 5.746186256408691, 'learning_rate': 4.571917808219179e-06, 'epoch': 0.29}
+{'loss': 3.9863, 'grad_norm': 6.101425647735596, 'learning_rate': 4.589041095890411e-06, 'epoch': 0.3}
+{'loss': 3.9417, 'grad_norm': 6.420875549316406, 'learning_rate': 4.606164383561644e-06, 'epoch': 0.3}
+{'loss': 3.9906, 'grad_norm': 6.313235282897949, 'learning_rate': 4.6232876712328774e-06, 'epoch': 0.3}
+{'eval_loss': 4.06640625, 'eval_runtime': 4.1359, 'eval_samples_per_second': 241.787, 'eval_steps_per_second': 10.155, 'epoch': 0.3}
+{'loss': 3.9772, 'grad_norm': 6.188217639923096, 'learning_rate': 4.64041095890411e-06, 'epoch': 0.3}
+{'loss': 4.0023, 'grad_norm': 5.749863147735596, 'learning_rate': 4.657534246575343e-06, 'epoch': 0.3}
+{'loss': 3.9925, 'grad_norm': 5.746879577636719, 'learning_rate': 4.674657534246575e-06, 'epoch': 0.3}
+{'loss': 3.9697, 'grad_norm': 5.947505474090576, 'learning_rate': 4.691780821917809e-06, 'epoch': 0.3}
+{'loss': 3.9333, 'grad_norm': 5.806485652923584, 'learning_rate': 4.7089041095890414e-06, 'epoch': 0.3}
+{'loss': 3.9518, 'grad_norm': 6.297165393829346, 'learning_rate': 4.726027397260274e-06, 'epoch': 0.3}
+{'loss': 3.9408, 'grad_norm': 6.1908440589904785, 'learning_rate': 4.7431506849315075e-06, 'epoch': 0.31}
+{'loss': 3.9688, 'grad_norm': 5.934521675109863, 'learning_rate': 4.76027397260274e-06, 'epoch': 0.31}
+{'loss': 3.9557, 'grad_norm': 5.859460830688477, 'learning_rate': 4.777397260273973e-06, 'epoch': 0.31}
+{'loss': 3.9046, 'grad_norm': 5.9816765785217285, 'learning_rate': 4.7945205479452054e-06, 'epoch': 0.31}
+{'eval_loss': 4.05078125, 'eval_runtime': 4.1355, 'eval_samples_per_second': 241.811, 'eval_steps_per_second': 10.156, 'epoch': 0.31}
+{'loss': 3.9229, 'grad_norm': 5.631214141845703, 'learning_rate': 4.811643835616439e-06, 'epoch': 0.31}
+{'loss': 3.9974, 'grad_norm': 5.880053520202637, 'learning_rate': 4.8287671232876716e-06, 'epoch': 0.31}
+{'loss': 3.9811, 'grad_norm': 5.510586738586426, 'learning_rate': 4.845890410958904e-06, 'epoch': 0.31}
+{'loss': 3.9795, 'grad_norm': 5.757046699523926, 'learning_rate': 4.863013698630138e-06, 'epoch': 0.31}
+{'loss': 3.9919, 'grad_norm': 5.257456302642822, 'learning_rate': 4.88013698630137e-06, 'epoch': 0.31}
+{'loss': 3.9372, 'grad_norm': 5.105318546295166, 'learning_rate': 4.897260273972603e-06, 'epoch': 0.31}
+{'loss': 3.917, 'grad_norm': 5.253659248352051, 'learning_rate': 4.914383561643836e-06, 'epoch': 0.32}
+{'loss': 3.9225, 'grad_norm': 5.419358253479004, 'learning_rate': 4.931506849315069e-06, 'epoch': 0.32}
+{'loss': 4.0225, 'grad_norm': 5.473652362823486, 'learning_rate': 4.948630136986302e-06, 'epoch': 0.32}
+{'loss': 3.8343, 'grad_norm': 5.794246673583984, 'learning_rate': 4.965753424657534e-06, 'epoch': 0.32}
+{'eval_loss': 4.03515625, 'eval_runtime': 4.1545, 'eval_samples_per_second': 240.702, 'eval_steps_per_second': 10.11, 'epoch': 0.32}
+{'loss': 3.877, 'grad_norm': 5.747260570526123, 'learning_rate': 4.982876712328768e-06, 'epoch': 0.32}
+{'loss': 3.9036, 'grad_norm': 5.811420440673828, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'loss': 3.9342, 'grad_norm': 4.6444807052612305, 'learning_rate': 4.998096688237534e-06, 'epoch': 0.32}
+{'loss': 3.9655, 'grad_norm': 4.953013896942139, 'learning_rate': 4.996193376475067e-06, 'epoch': 0.32}
+{'loss': 3.9108, 'grad_norm': 4.879769325256348, 'learning_rate': 4.9942900647126005e-06, 'epoch': 0.32}
+{'loss': 3.9915, 'grad_norm': 5.141660690307617, 'learning_rate': 4.992386752950134e-06, 'epoch': 0.32}
+{'loss': 3.9368, 'grad_norm': 4.620354652404785, 'learning_rate': 4.990483441187667e-06, 'epoch': 0.33}
+{'loss': 3.8496, 'grad_norm': 5.176270008087158, 'learning_rate': 4.9885801294252e-06, 'epoch': 0.33}
+{'loss': 3.8828, 'grad_norm': 5.1992387771606445, 'learning_rate': 4.986676817662733e-06, 'epoch': 0.33}
+{'loss': 3.9495, 'grad_norm': 4.871613025665283, 'learning_rate': 4.9847735059002665e-06, 'epoch': 0.33}
+{'eval_loss': 4.0234375, 'eval_runtime': 4.138, 'eval_samples_per_second': 241.663, 'eval_steps_per_second': 10.15, 'epoch': 0.33}
+{'loss': 3.8382, 'grad_norm': 5.138880252838135, 'learning_rate': 4.9828701941378e-06, 'epoch': 0.33}
+{'loss': 3.8831, 'grad_norm': 5.543216705322266, 'learning_rate': 4.980966882375333e-06, 'epoch': 0.33}
+{'loss': 3.8477, 'grad_norm': 4.689273834228516, 'learning_rate': 4.979063570612867e-06, 'epoch': 0.33}
+{'loss': 3.9053, 'grad_norm': 5.2445597648620605, 'learning_rate': 4.9771602588504e-06, 'epoch': 0.33}
+{'loss': 3.9108, 'grad_norm': 5.288862228393555, 'learning_rate': 4.975256947087933e-06, 'epoch': 0.33}
+{'loss': 3.8991, 'grad_norm': 5.024840354919434, 'learning_rate': 4.973353635325467e-06, 'epoch': 0.33}
+{'loss': 3.8714, 'grad_norm': 5.014172077178955, 'learning_rate': 4.971450323563e-06, 'epoch': 0.34}
+{'loss': 3.9609, 'grad_norm': 4.384799480438232, 'learning_rate': 4.969547011800533e-06, 'epoch': 0.34}
+{'loss': 3.902, 'grad_norm': 4.848069190979004, 'learning_rate': 4.967643700038067e-06, 'epoch': 0.34}
+{'loss': 3.8975, 'grad_norm': 4.23121452331543, 'learning_rate': 4.9657403882756e-06, 'epoch': 0.34}
+{'eval_loss': 4.01171875, 'eval_runtime': 4.1374, 'eval_samples_per_second': 241.7, 'eval_steps_per_second': 10.151, 'epoch': 0.34}
+{'loss': 3.8519, 'grad_norm': 4.7731614112854, 'learning_rate': 4.9638370765131335e-06, 'epoch': 0.34}
+{'loss': 3.9342, 'grad_norm': 4.023679733276367, 'learning_rate': 4.961933764750667e-06, 'epoch': 0.34}
+{'loss': 3.9076, 'grad_norm': 4.301268577575684, 'learning_rate': 4.9600304529882e-06, 'epoch': 0.34}
+{'loss': 3.849, 'grad_norm': 4.515837669372559, 'learning_rate': 4.9581271412257335e-06, 'epoch': 0.34}
+{'loss': 3.8838, 'grad_norm': 4.38740348815918, 'learning_rate': 4.956223829463266e-06, 'epoch': 0.34}
+{'loss': 3.9056, 'grad_norm': 4.545456409454346, 'learning_rate': 4.954320517700799e-06, 'epoch': 0.35}
+{'loss': 3.8848, 'grad_norm': 4.489614486694336, 'learning_rate': 4.952417205938333e-06, 'epoch': 0.35}
+{'loss': 3.9261, 'grad_norm': 4.345498561859131, 'learning_rate': 4.950513894175866e-06, 'epoch': 0.35}
+{'loss': 3.8363, 'grad_norm': 4.691044330596924, 'learning_rate': 4.9486105824133995e-06, 'epoch': 0.35}
+{'loss': 3.8887, 'grad_norm': 4.630804538726807, 'learning_rate': 4.946707270650933e-06, 'epoch': 0.35}
+{'eval_loss': 4.00390625, 'eval_runtime': 4.149, 'eval_samples_per_second': 241.023, 'eval_steps_per_second': 10.123, 'epoch': 0.35}
+{'loss': 3.8678, 'grad_norm': 4.505049228668213, 'learning_rate': 4.944803958888466e-06, 'epoch': 0.35}
+{'loss': 3.8574, 'grad_norm': 5.446472644805908, 'learning_rate': 4.942900647126e-06, 'epoch': 0.35}
+{'loss': 3.8369, 'grad_norm': 4.8107147216796875, 'learning_rate': 4.940997335363533e-06, 'epoch': 0.35}
+{'loss': 3.7572, 'grad_norm': 5.125999927520752, 'learning_rate': 4.939094023601066e-06, 'epoch': 0.35}
+{'loss': 3.8936, 'grad_norm': 4.951658248901367, 'learning_rate': 4.9371907118386e-06, 'epoch': 0.35}
+{'loss': 3.8529, 'grad_norm': 4.770264625549316, 'learning_rate': 4.935287400076133e-06, 'epoch': 0.36}
+{'loss': 3.793, 'grad_norm': 4.547115802764893, 'learning_rate': 4.933384088313666e-06, 'epoch': 0.36}
+{'loss': 3.8408, 'grad_norm': 4.474219799041748, 'learning_rate': 4.9314807765512e-06, 'epoch': 0.36}
+{'loss': 3.8981, 'grad_norm': 3.6170570850372314, 'learning_rate': 4.929577464788733e-06, 'epoch': 0.36}
+{'loss': 3.8298, 'grad_norm': 3.6145832538604736, 'learning_rate': 4.9276741530262665e-06, 'epoch': 0.36}
+{'eval_loss': 3.998046875, 'eval_runtime': 4.1326, 'eval_samples_per_second': 241.978, 'eval_steps_per_second': 10.163, 'epoch': 0.36}
+{'loss': 3.8753, 'grad_norm': 3.742490768432617, 'learning_rate': 4.9257708412638e-06, 'epoch': 0.36}
+{'loss': 3.9082, 'grad_norm': 4.195870876312256, 'learning_rate': 4.923867529501332e-06, 'epoch': 0.36}
+{'loss': 3.8115, 'grad_norm': 4.0716423988342285, 'learning_rate': 4.921964217738866e-06, 'epoch': 0.36}
+{'loss': 3.8421, 'grad_norm': 4.412057399749756, 'learning_rate': 4.920060905976399e-06, 'epoch': 0.36}
+{'loss': 3.8962, 'grad_norm': 4.466263771057129, 'learning_rate': 4.9181575942139325e-06, 'epoch': 0.36}
+{'loss': 3.9466, 'grad_norm': 4.456266403198242, 'learning_rate': 4.916254282451466e-06, 'epoch': 0.37}
+{'loss': 3.8008, 'grad_norm': 5.643572807312012, 'learning_rate': 4.914350970688999e-06, 'epoch': 0.37}
+{'loss': 3.877, 'grad_norm': 4.671897888183594, 'learning_rate': 4.9124476589265325e-06, 'epoch': 0.37}
+{'loss': 3.8392, 'grad_norm': 4.737179756164551, 'learning_rate': 4.910544347164066e-06, 'epoch': 0.37}
+{'loss': 3.8421, 'grad_norm': 4.3737382888793945, 'learning_rate': 4.908641035401599e-06, 'epoch': 0.37}
+{'eval_loss': 3.986328125, 'eval_runtime': 4.1398, 'eval_samples_per_second': 241.558, 'eval_steps_per_second': 10.145, 'epoch': 0.37}
+{'loss': 3.7894, 'grad_norm': 4.161027908325195, 'learning_rate': 4.906737723639133e-06, 'epoch': 0.37}
+{'loss': 3.8737, 'grad_norm': 3.9538121223449707, 'learning_rate': 4.904834411876665e-06, 'epoch': 0.37}
+{'loss': 3.8411, 'grad_norm': 3.7508912086486816, 'learning_rate': 4.902931100114199e-06, 'epoch': 0.37}
+{'loss': 3.8239, 'grad_norm': 4.194053649902344, 'learning_rate': 4.901027788351733e-06, 'epoch': 0.37}
+{'loss': 3.8538, 'grad_norm': 3.704111337661743, 'learning_rate': 4.899124476589266e-06, 'epoch': 0.37}
+{'loss': 3.8535, 'grad_norm': 3.6849474906921387, 'learning_rate': 4.8972211648267994e-06, 'epoch': 0.38}
+{'loss': 3.8288, 'grad_norm': 3.7176570892333984, 'learning_rate': 4.895317853064333e-06, 'epoch': 0.38}
+{'loss': 3.7725, 'grad_norm': 3.9111008644104004, 'learning_rate': 4.893414541301866e-06, 'epoch': 0.38}
+{'loss': 3.8551, 'grad_norm': 4.3175859451293945, 'learning_rate': 4.891511229539399e-06, 'epoch': 0.38}
+{'loss': 3.8971, 'grad_norm': 3.748711347579956, 'learning_rate': 4.889607917776932e-06, 'epoch': 0.38}
+{'eval_loss': 3.98046875, 'eval_runtime': 4.1535, 'eval_samples_per_second': 240.761, 'eval_steps_per_second': 10.112, 'epoch': 0.38}
+{'loss': 3.7461, 'grad_norm': 4.634607791900635, 'learning_rate': 4.887704606014465e-06, 'epoch': 0.38}
+{'loss': 3.918, 'grad_norm': 3.983920097351074, 'learning_rate': 4.885801294251999e-06, 'epoch': 0.38}
+{'loss': 3.9014, 'grad_norm': 3.59928822517395, 'learning_rate': 4.883897982489532e-06, 'epoch': 0.38}
+{'loss': 3.8138, 'grad_norm': 4.643296241760254, 'learning_rate': 4.8819946707270655e-06, 'epoch': 0.38}
+{'loss': 3.8835, 'grad_norm': 4.114038467407227, 'learning_rate': 4.880091358964599e-06, 'epoch': 0.39}
+{'loss': 3.8047, 'grad_norm': 3.61967134475708, 'learning_rate': 4.878188047202132e-06, 'epoch': 0.39}
+{'loss': 3.8034, 'grad_norm': 3.8726656436920166, 'learning_rate': 4.876284735439666e-06, 'epoch': 0.39}
+{'loss': 3.735, 'grad_norm': 4.529480457305908, 'learning_rate': 4.874381423677199e-06, 'epoch': 0.39}
+{'loss': 3.8464, 'grad_norm': 3.732372999191284, 'learning_rate': 4.8724781119147315e-06, 'epoch': 0.39}
+{'loss': 3.8597, 'grad_norm': 4.190736293792725, 'learning_rate': 4.870574800152265e-06, 'epoch': 0.39}
+{'eval_loss': 3.97265625, 'eval_runtime': 4.1346, 'eval_samples_per_second': 241.86, 'eval_steps_per_second': 10.158, 'epoch': 0.39}
+{'loss': 3.7972, 'grad_norm': 4.000204563140869, 'learning_rate': 4.868671488389798e-06, 'epoch': 0.39}
+{'loss': 3.7773, 'grad_norm': 4.216057300567627, 'learning_rate': 4.8667681766273316e-06, 'epoch': 0.39}
+{'loss': 3.8343, 'grad_norm': 3.670560598373413, 'learning_rate': 4.864864864864866e-06, 'epoch': 0.39}
+{'loss': 3.8213, 'grad_norm': 3.7627649307250977, 'learning_rate': 4.862961553102399e-06, 'epoch': 0.39}
+{'loss': 3.8128, 'grad_norm': 3.4584550857543945, 'learning_rate': 4.8610582413399325e-06, 'epoch': 0.4}
+{'loss': 3.9167, 'grad_norm': 3.670025587081909, 'learning_rate': 4.859154929577465e-06, 'epoch': 0.4}
+{'loss': 3.821, 'grad_norm': 3.650425910949707, 'learning_rate': 4.857251617814998e-06, 'epoch': 0.4}
+{'loss': 3.7604, 'grad_norm': 4.072872638702393, 'learning_rate': 4.855348306052532e-06, 'epoch': 0.4}
+{'loss': 3.7751, 'grad_norm': 4.340744495391846, 'learning_rate': 4.853444994290065e-06, 'epoch': 0.4}
+{'loss': 3.8307, 'grad_norm': 3.6327595710754395, 'learning_rate': 4.8515416825275985e-06, 'epoch': 0.4}
+{'eval_loss': 3.970703125, 'eval_runtime': 4.1469, 'eval_samples_per_second': 241.143, 'eval_steps_per_second': 10.128, 'epoch': 0.4}
+{'loss': 3.8509, 'grad_norm': 3.620488166809082, 'learning_rate': 4.849638370765132e-06, 'epoch': 0.4}
+{'loss': 3.832, 'grad_norm': 3.6060426235198975, 'learning_rate': 4.847735059002665e-06, 'epoch': 0.4}
+{'loss': 3.818, 'grad_norm': 3.5000596046447754, 'learning_rate': 4.8458317472401985e-06, 'epoch': 0.4}
+{'loss': 3.8444, 'grad_norm': 3.854292869567871, 'learning_rate': 4.843928435477732e-06, 'epoch': 0.4}
+{'loss': 3.8213, 'grad_norm': 3.2972536087036133, 'learning_rate': 4.842025123715265e-06, 'epoch': 0.41}
+{'loss': 3.7767, 'grad_norm': 3.6348695755004883, 'learning_rate': 4.840121811952798e-06, 'epoch': 0.41}
+{'loss': 3.8551, 'grad_norm': 3.4774789810180664, 'learning_rate': 4.838218500190331e-06, 'epoch': 0.41}
+{'loss': 3.7764, 'grad_norm': 3.4302241802215576, 'learning_rate': 4.8363151884278645e-06, 'epoch': 0.41}
+{'loss': 3.7939, 'grad_norm': 3.117137908935547, 'learning_rate': 4.834411876665398e-06, 'epoch': 0.41}
+{'loss': 3.8271, 'grad_norm': 3.257321834564209, 'learning_rate': 4.832508564902931e-06, 'epoch': 0.41}
+{'eval_loss': 3.962890625, 'eval_runtime': 4.1418, 'eval_samples_per_second': 241.441, 'eval_steps_per_second': 10.141, 'epoch': 0.41}
+{'loss': 3.766, 'grad_norm': 3.8538568019866943, 'learning_rate': 4.830605253140465e-06, 'epoch': 0.41}
+{'loss': 3.805, 'grad_norm': 3.7755930423736572, 'learning_rate': 4.828701941377998e-06, 'epoch': 0.41}
+{'loss': 3.8076, 'grad_norm': 4.159114837646484, 'learning_rate': 4.826798629615531e-06, 'epoch': 0.41}
+{'loss': 3.8363, 'grad_norm': 3.9874329566955566, 'learning_rate': 4.824895317853065e-06, 'epoch': 0.41}
+{'loss': 3.7497, 'grad_norm': 3.7983906269073486, 'learning_rate': 4.822992006090598e-06, 'epoch': 0.42}
+{'loss': 3.8639, 'grad_norm': 3.8429088592529297, 'learning_rate': 4.821088694328131e-06, 'epoch': 0.42}
+{'loss': 3.7614, 'grad_norm': 3.732123851776123, 'learning_rate': 4.819185382565665e-06, 'epoch': 0.42}
+{'loss': 3.7764, 'grad_norm': 3.7473464012145996, 'learning_rate': 4.817282070803198e-06, 'epoch': 0.42}
+{'loss': 3.7917, 'grad_norm': 3.89561128616333, 'learning_rate': 4.8153787590407315e-06, 'epoch': 0.42}
+{'loss': 3.8219, 'grad_norm': 3.3404011726379395, 'learning_rate': 4.813475447278265e-06, 'epoch': 0.42}
+{'eval_loss': 3.95703125, 'eval_runtime': 4.1383, 'eval_samples_per_second': 241.645, 'eval_steps_per_second': 10.149, 'epoch': 0.42}
+{'loss': 3.766, 'grad_norm': 3.5865039825439453, 'learning_rate': 4.811572135515798e-06, 'epoch': 0.42}
+{'loss': 3.8402, 'grad_norm': 3.155654191970825, 'learning_rate': 4.809668823753332e-06, 'epoch': 0.42}
+{'loss': 3.7497, 'grad_norm': 3.6111268997192383, 'learning_rate': 4.807765511990864e-06, 'epoch': 0.42}
+{'loss': 3.7275, 'grad_norm': 3.405916213989258, 'learning_rate': 4.8058622002283975e-06, 'epoch': 0.43}
+{'loss': 3.7891, 'grad_norm': 3.2418649196624756, 'learning_rate': 4.803958888465931e-06, 'epoch': 0.43}
+{'loss': 3.8265, 'grad_norm': 3.345693349838257, 'learning_rate': 4.802055576703464e-06, 'epoch': 0.43}
+{'loss': 3.8099, 'grad_norm': 3.0283639430999756, 'learning_rate': 4.8001522649409976e-06, 'epoch': 0.43}
+{'loss': 3.8066, 'grad_norm': 3.442667245864868, 'learning_rate': 4.798248953178531e-06, 'epoch': 0.43}
+{'loss': 3.6576, 'grad_norm': 3.776197671890259, 'learning_rate': 4.796345641416064e-06, 'epoch': 0.43}
+{'loss': 3.6745, 'grad_norm': 3.983976125717163, 'learning_rate': 4.794442329653598e-06, 'epoch': 0.43}
+{'eval_loss': 3.94921875, 'eval_runtime': 4.1476, 'eval_samples_per_second': 241.101, 'eval_steps_per_second': 10.126, 'epoch': 0.43}
+{'loss': 3.778, 'grad_norm': 3.4340708255767822, 'learning_rate': 4.792539017891131e-06, 'epoch': 0.43}
+{'loss': 3.7718, 'grad_norm': 3.630030870437622, 'learning_rate': 4.790635706128664e-06, 'epoch': 0.43}
+{'loss': 3.7874, 'grad_norm': 2.9610793590545654, 'learning_rate': 4.788732394366197e-06, 'epoch': 0.43}
+{'loss': 3.7526, 'grad_norm': 3.3084347248077393, 'learning_rate': 4.786829082603731e-06, 'epoch': 0.44}
+{'loss': 3.7438, 'grad_norm': 3.563436269760132, 'learning_rate': 4.7849257708412645e-06, 'epoch': 0.44}
+{'loss': 3.7715, 'grad_norm': 3.255859613418579, 'learning_rate': 4.783022459078798e-06, 'epoch': 0.44}
+{'loss': 3.777, 'grad_norm': 3.5635488033294678, 'learning_rate': 4.781119147316331e-06, 'epoch': 0.44}
+{'loss': 3.7425, 'grad_norm': 3.471583604812622, 'learning_rate': 4.7792158355538645e-06, 'epoch': 0.44}
+{'loss': 3.7871, 'grad_norm': 3.232443332672119, 'learning_rate': 4.777312523791398e-06, 'epoch': 0.44}
+{'loss': 3.7865, 'grad_norm': 3.039118528366089, 'learning_rate': 4.77540921202893e-06, 'epoch': 0.44}
+{'eval_loss': 3.947265625, 'eval_runtime': 4.1443, 'eval_samples_per_second': 241.298, 'eval_steps_per_second': 10.135, 'epoch': 0.44}
+{'loss': 3.7474, 'grad_norm': 3.409799337387085, 'learning_rate': 4.773505900266464e-06, 'epoch': 0.44}
+{'loss': 3.7708, 'grad_norm': 3.2304370403289795, 'learning_rate': 4.771602588503997e-06, 'epoch': 0.44}
+{'loss': 3.7113, 'grad_norm': 3.5456361770629883, 'learning_rate': 4.7696992767415305e-06, 'epoch': 0.44}
+{'loss': 3.7852, 'grad_norm': 3.077732801437378, 'learning_rate': 4.767795964979064e-06, 'epoch': 0.45}
+{'loss': 3.7077, 'grad_norm': 3.6278862953186035, 'learning_rate': 4.765892653216597e-06, 'epoch': 0.45}
+{'loss': 3.736, 'grad_norm': 3.2407643795013428, 'learning_rate': 4.763989341454131e-06, 'epoch': 0.45}
+{'loss': 3.8343, 'grad_norm': 3.516972541809082, 'learning_rate': 4.762086029691664e-06, 'epoch': 0.45}
+{'loss': 3.7741, 'grad_norm': 3.6643738746643066, 'learning_rate': 4.760182717929197e-06, 'epoch': 0.45}
+{'loss': 3.7389, 'grad_norm': 3.741702079772949, 'learning_rate': 4.758279406166731e-06, 'epoch': 0.45}
+{'loss': 3.6956, 'grad_norm': 3.791208505630493, 'learning_rate': 4.756376094404263e-06, 'epoch': 0.45}
+{'eval_loss': 3.94140625, 'eval_runtime': 4.1364, 'eval_samples_per_second': 241.755, 'eval_steps_per_second': 10.154, 'epoch': 0.45}
+{'loss': 3.7744, 'grad_norm': 3.2952046394348145, 'learning_rate': 4.7544727826417966e-06, 'epoch': 0.45}
+{'loss': 3.7422, 'grad_norm': 3.069891929626465, 'learning_rate': 4.75256947087933e-06, 'epoch': 0.45}
+{'loss': 3.7308, 'grad_norm': 3.504887104034424, 'learning_rate': 4.750666159116863e-06, 'epoch': 0.46}
+{'loss': 3.764, 'grad_norm': 3.304548501968384, 'learning_rate': 4.7487628473543975e-06, 'epoch': 0.46}
+{'loss': 3.6117, 'grad_norm': 3.501661539077759, 'learning_rate': 4.746859535591931e-06, 'epoch': 0.46}
+{'loss': 3.819, 'grad_norm': 3.3348186016082764, 'learning_rate': 4.744956223829464e-06, 'epoch': 0.46}
+{'loss': 3.7021, 'grad_norm': 3.2848973274230957, 'learning_rate': 4.743052912066997e-06, 'epoch': 0.46}
+{'loss': 3.7552, 'grad_norm': 3.3274548053741455, 'learning_rate': 4.74114960030453e-06, 'epoch': 0.46}
+{'loss': 3.7852, 'grad_norm': 3.2081949710845947, 'learning_rate': 4.7392462885420635e-06, 'epoch': 0.46}
+{'loss': 3.7627, 'grad_norm': 3.2935352325439453, 'learning_rate': 4.737342976779597e-06, 'epoch': 0.46}
+{'eval_loss': 3.939453125, 'eval_runtime': 4.1525, 'eval_samples_per_second': 240.818, 'eval_steps_per_second': 10.114, 'epoch': 0.46}
+{'loss': 3.7588, 'grad_norm': 3.145236015319824, 'learning_rate': 4.73543966501713e-06, 'epoch': 0.46}
+{'loss': 3.738, 'grad_norm': 3.0706160068511963, 'learning_rate': 4.7335363532546636e-06, 'epoch': 0.46}
+{'loss': 3.7728, 'grad_norm': 2.876471519470215, 'learning_rate': 4.731633041492197e-06, 'epoch': 0.47}
+{'loss': 3.724, 'grad_norm': 3.677020788192749, 'learning_rate': 4.72972972972973e-06, 'epoch': 0.47}
+{'loss': 3.7835, 'grad_norm': 3.108853340148926, 'learning_rate': 4.727826417967264e-06, 'epoch': 0.47}
+{'loss': 3.6934, 'grad_norm': 3.703627347946167, 'learning_rate': 4.725923106204797e-06, 'epoch': 0.47}
+{'loss': 3.7578, 'grad_norm': 3.3432185649871826, 'learning_rate': 4.72401979444233e-06, 'epoch': 0.47}
+{'loss': 3.7451, 'grad_norm': 3.2313125133514404, 'learning_rate': 4.722116482679863e-06, 'epoch': 0.47}
+{'loss': 3.7292, 'grad_norm': 3.4778528213500977, 'learning_rate': 4.720213170917396e-06, 'epoch': 0.47}
+{'loss': 3.71, 'grad_norm': 3.9109396934509277, 'learning_rate': 4.71830985915493e-06, 'epoch': 0.47}
+{'eval_loss': 3.935546875, 'eval_runtime': 4.1402, 'eval_samples_per_second': 241.532, 'eval_steps_per_second': 10.144, 'epoch': 0.47}
+{'loss': 3.6969, 'grad_norm': 2.9960529804229736, 'learning_rate': 4.716406547392463e-06, 'epoch': 0.47}
+{'loss': 3.7324, 'grad_norm': 2.881551742553711, 'learning_rate': 4.714503235629996e-06, 'epoch': 0.47}
+{'loss': 3.7327, 'grad_norm': 2.6682848930358887, 'learning_rate': 4.71259992386753e-06, 'epoch': 0.48}
+{'loss': 3.7292, 'grad_norm': 2.7020113468170166, 'learning_rate': 4.710696612105063e-06, 'epoch': 0.48}
+{'loss': 3.7754, 'grad_norm': 3.3692643642425537, 'learning_rate': 4.708793300342596e-06, 'epoch': 0.48}
+{'loss': 3.6908, 'grad_norm': 3.2820188999176025, 'learning_rate': 4.70688998858013e-06, 'epoch': 0.48}
+{'loss': 3.7448, 'grad_norm': 2.887535572052002, 'learning_rate': 4.704986676817663e-06, 'epoch': 0.48}
+{'loss': 3.8115, 'grad_norm': 3.0520482063293457, 'learning_rate': 4.7030833650551965e-06, 'epoch': 0.48}
+{'loss': 3.71, 'grad_norm': 3.0237765312194824, 'learning_rate': 4.70118005329273e-06, 'epoch': 0.48}
+{'loss': 3.7663, 'grad_norm': 3.4689743518829346, 'learning_rate': 4.699276741530263e-06, 'epoch': 0.48}
+{'eval_loss': 3.9296875, 'eval_runtime': 4.1398, 'eval_samples_per_second': 241.559, 'eval_steps_per_second': 10.145, 'epoch': 0.48}
+{'loss': 3.6348, 'grad_norm': 3.3750317096710205, 'learning_rate': 4.697373429767797e-06, 'epoch': 0.48}
+{'loss': 3.7578, 'grad_norm': 2.9021992683410645, 'learning_rate': 4.69547011800533e-06, 'epoch': 0.48}
+{'loss': 3.6839, 'grad_norm': 3.3890628814697266, 'learning_rate': 4.693566806242863e-06, 'epoch': 0.49}
+{'loss': 3.6816, 'grad_norm': 3.839669942855835, 'learning_rate': 4.691663494480397e-06, 'epoch': 0.49}
+{'loss': 3.7428, 'grad_norm': 3.2916274070739746, 'learning_rate': 4.689760182717929e-06, 'epoch': 0.49}
+{'loss': 3.7298, 'grad_norm': 2.8154308795928955, 'learning_rate': 4.6878568709554626e-06, 'epoch': 0.49}
+{'loss': 3.6709, 'grad_norm': 3.5353808403015137, 'learning_rate': 4.685953559192996e-06, 'epoch': 0.49}
+{'loss': 3.7708, 'grad_norm': 3.2694618701934814, 'learning_rate': 4.684050247430529e-06, 'epoch': 0.49}
+{'loss': 3.7168, 'grad_norm': 2.8444130420684814, 'learning_rate': 4.682146935668063e-06, 'epoch': 0.49}
+{'loss': 3.6159, 'grad_norm': 3.224710464477539, 'learning_rate': 4.680243623905596e-06, 'epoch': 0.49}
+{'eval_loss': 3.92578125, 'eval_runtime': 4.1536, 'eval_samples_per_second': 240.757, 'eval_steps_per_second': 10.112, 'epoch': 0.49}
+{'loss': 3.7223, 'grad_norm': 2.717444658279419, 'learning_rate': 4.678340312143129e-06, 'epoch': 0.49}
+{'loss': 3.7096, 'grad_norm': 2.741731882095337, 'learning_rate': 4.676437000380663e-06, 'epoch': 0.5}
+{'loss': 3.7526, 'grad_norm': 2.9233455657958984, 'learning_rate': 4.674533688618196e-06, 'epoch': 0.5}
+{'loss': 3.7246, 'grad_norm': 3.46047043800354, 'learning_rate': 4.6726303768557295e-06, 'epoch': 0.5}
+{'loss': 3.7318, 'grad_norm': 3.1160590648651123, 'learning_rate': 4.670727065093263e-06, 'epoch': 0.5}
+{'loss': 3.7288, 'grad_norm': 3.110294818878174, 'learning_rate': 4.668823753330796e-06, 'epoch': 0.5}
+{'loss': 3.6969, 'grad_norm': 3.356884241104126, 'learning_rate': 4.6669204415683295e-06, 'epoch': 0.5}
+{'loss': 3.7135, 'grad_norm': 3.194444417953491, 'learning_rate': 4.665017129805863e-06, 'epoch': 0.5}
+{'loss': 3.8021, 'grad_norm': 3.1016807556152344, 'learning_rate': 4.663113818043396e-06, 'epoch': 0.5}
+{'loss': 3.679, 'grad_norm': 3.2331786155700684, 'learning_rate': 4.66121050628093e-06, 'epoch': 0.5}
+{'eval_loss': 3.91796875, 'eval_runtime': 4.1345, 'eval_samples_per_second': 241.867, 'eval_steps_per_second': 10.158, 'epoch': 0.5}
+{'loss': 3.8005, 'grad_norm': 2.9218053817749023, 'learning_rate': 4.659307194518463e-06, 'epoch': 0.5}
+{'loss': 3.6523, 'grad_norm': 3.5072731971740723, 'learning_rate': 4.6574038827559955e-06, 'epoch': 0.51}
+{'loss': 3.7484, 'grad_norm': 2.573171854019165, 'learning_rate': 4.655500570993529e-06, 'epoch': 0.51}
+{'loss': 3.5964, 'grad_norm': 3.0390024185180664, 'learning_rate': 4.653597259231062e-06, 'epoch': 0.51}
+{'loss': 3.7282, 'grad_norm': 2.7183899879455566, 'learning_rate': 4.651693947468596e-06, 'epoch': 0.51}
+{'loss': 3.6901, 'grad_norm': 2.588017225265503, 'learning_rate': 4.649790635706129e-06, 'epoch': 0.51}
+{'loss': 3.7526, 'grad_norm': 2.8456814289093018, 'learning_rate': 4.647887323943662e-06, 'epoch': 0.51}
+{'loss': 3.7087, 'grad_norm': 3.3033244609832764, 'learning_rate': 4.645984012181196e-06, 'epoch': 0.51}
+{'loss': 3.6221, 'grad_norm': 2.9910995960235596, 'learning_rate': 4.644080700418729e-06, 'epoch': 0.51}
+{'loss': 3.6868, 'grad_norm': 3.467700481414795, 'learning_rate': 4.642177388656262e-06, 'epoch': 0.51}
+{'eval_loss': 3.916015625, 'eval_runtime': 4.1417, 'eval_samples_per_second': 241.449, 'eval_steps_per_second': 10.141, 'epoch': 0.51}
+{'loss': 3.6553, 'grad_norm': 2.674912691116333, 'learning_rate': 4.640274076893796e-06, 'epoch': 0.51}
+{'loss': 3.7633, 'grad_norm': 2.9768130779266357, 'learning_rate': 4.638370765131328e-06, 'epoch': 0.52}
+{'loss': 3.6774, 'grad_norm': 3.2864439487457275, 'learning_rate': 4.636467453368862e-06, 'epoch': 0.52}
+{'loss': 3.7145, 'grad_norm': 3.142801284790039, 'learning_rate': 4.634564141606396e-06, 'epoch': 0.52}
+{'loss': 3.6608, 'grad_norm': 3.2682976722717285, 'learning_rate': 4.632660829843929e-06, 'epoch': 0.52}
+{'loss': 3.6706, 'grad_norm': 3.0891690254211426, 'learning_rate': 4.630757518081463e-06, 'epoch': 0.52}
+{'loss': 3.736, 'grad_norm': 2.8106136322021484, 'learning_rate': 4.628854206318996e-06, 'epoch': 0.52}
+{'loss': 3.7406, 'grad_norm': 2.79998517036438, 'learning_rate': 4.626950894556529e-06, 'epoch': 0.52}
+{'loss': 3.6979, 'grad_norm': 3.174356698989868, 'learning_rate': 4.625047582794062e-06, 'epoch': 0.52}
+{'loss': 3.7191, 'grad_norm': 3.4545812606811523, 'learning_rate': 4.623144271031595e-06, 'epoch': 0.52}
+{'eval_loss': 3.908203125, 'eval_runtime': 4.1516, 'eval_samples_per_second': 240.869, 'eval_steps_per_second': 10.116, 'epoch': 0.52}
+{'loss': 3.6995, 'grad_norm': 3.1239354610443115, 'learning_rate': 4.6212409592691286e-06, 'epoch': 0.52}
+{'loss': 3.68, 'grad_norm': 2.5069520473480225, 'learning_rate': 4.619337647506662e-06, 'epoch': 0.53}
+{'loss': 3.7425, 'grad_norm': 2.919351816177368, 'learning_rate': 4.617434335744195e-06, 'epoch': 0.53}
+{'loss': 3.7601, 'grad_norm': 3.1442134380340576, 'learning_rate': 4.615531023981729e-06, 'epoch': 0.53}
+{'loss': 3.7266, 'grad_norm': 2.6933860778808594, 'learning_rate': 4.613627712219262e-06, 'epoch': 0.53}
+{'loss': 3.6403, 'grad_norm': 3.096219778060913, 'learning_rate': 4.611724400456795e-06, 'epoch': 0.53}
+{'loss': 3.7513, 'grad_norm': 2.673588991165161, 'learning_rate': 4.609821088694329e-06, 'epoch': 0.53}
+{'loss': 3.7106, 'grad_norm': 2.9148380756378174, 'learning_rate': 4.607917776931862e-06, 'epoch': 0.53}
+{'loss': 3.6562, 'grad_norm': 3.1471610069274902, 'learning_rate': 4.606014465169395e-06, 'epoch': 0.53}
+{'loss': 3.6647, 'grad_norm': 2.942591667175293, 'learning_rate': 4.604111153406928e-06, 'epoch': 0.53}
+{'eval_loss': 3.90625, 'eval_runtime': 4.142, 'eval_samples_per_second': 241.427, 'eval_steps_per_second': 10.14, 'epoch': 0.53}
+{'loss': 3.6618, 'grad_norm': 3.0581376552581787, 'learning_rate': 4.602207841644461e-06, 'epoch': 0.54}
+{'loss': 3.7002, 'grad_norm': 2.653573751449585, 'learning_rate': 4.600304529881995e-06, 'epoch': 0.54}
+{'loss': 3.5085, 'grad_norm': 3.7481348514556885, 'learning_rate': 4.598401218119528e-06, 'epoch': 0.54}
+{'loss': 3.668, 'grad_norm': 3.0326240062713623, 'learning_rate': 4.5964979063570614e-06, 'epoch': 0.54}
+{'loss': 3.6755, 'grad_norm': 2.78326678276062, 'learning_rate': 4.594594594594596e-06, 'epoch': 0.54}
+{'loss': 3.6921, 'grad_norm': 2.7688236236572266, 'learning_rate': 4.592691282832128e-06, 'epoch': 0.54}
+{'loss': 3.6494, 'grad_norm': 2.813189744949341, 'learning_rate': 4.5907879710696615e-06, 'epoch': 0.54}
+{'loss': 3.6491, 'grad_norm': 2.861792802810669, 'learning_rate': 4.588884659307195e-06, 'epoch': 0.54}
+{'loss': 3.7074, 'grad_norm': 2.836293935775757, 'learning_rate': 4.586981347544728e-06, 'epoch': 0.54}
+{'loss': 3.6553, 'grad_norm': 2.794895648956299, 'learning_rate': 4.585078035782262e-06, 'epoch': 0.54}
+{'eval_loss': 3.900390625, 'eval_runtime': 4.1388, 'eval_samples_per_second': 241.617, 'eval_steps_per_second': 10.148, 'epoch': 0.54}
+{'loss': 3.7233, 'grad_norm': 2.670433759689331, 'learning_rate': 4.583174724019795e-06, 'epoch': 0.55}
+{'loss': 3.6813, 'grad_norm': 3.1004371643066406, 'learning_rate': 4.581271412257328e-06, 'epoch': 0.55}
+{'loss': 3.6305, 'grad_norm': 2.6162168979644775, 'learning_rate': 4.579368100494862e-06, 'epoch': 0.55}
+{'loss': 3.654, 'grad_norm': 2.921861171722412, 'learning_rate': 4.577464788732395e-06, 'epoch': 0.55}
+{'loss': 3.5928, 'grad_norm': 3.0998787879943848, 'learning_rate': 4.575561476969928e-06, 'epoch': 0.55}
+{'loss': 3.6621, 'grad_norm': 2.8301398754119873, 'learning_rate': 4.573658165207461e-06, 'epoch': 0.55}
+{'loss': 3.7044, 'grad_norm': 3.3878543376922607, 'learning_rate': 4.571754853444994e-06, 'epoch': 0.55}
+{'loss': 3.6624, 'grad_norm': 3.2064967155456543, 'learning_rate': 4.569851541682528e-06, 'epoch': 0.55}
+{'loss': 3.6966, 'grad_norm': 3.18097186088562, 'learning_rate': 4.567948229920061e-06, 'epoch': 0.55}
+{'loss': 3.7139, 'grad_norm': 2.5873265266418457, 'learning_rate': 4.566044918157594e-06, 'epoch': 0.55}
+{'eval_loss': 3.896484375, 'eval_runtime': 4.1564, 'eval_samples_per_second': 240.594, 'eval_steps_per_second': 10.105, 'epoch': 0.55}
+{'loss': 3.6706, 'grad_norm': 2.896059989929199, 'learning_rate': 4.564141606395128e-06, 'epoch': 0.56}
+{'loss': 3.667, 'grad_norm': 3.04284930229187, 'learning_rate': 4.562238294632661e-06, 'epoch': 0.56}
+{'loss': 3.6715, 'grad_norm': 2.7588632106781006, 'learning_rate': 4.5603349828701945e-06, 'epoch': 0.56}
+{'loss': 3.6383, 'grad_norm': 3.037818431854248, 'learning_rate': 4.558431671107728e-06, 'epoch': 0.56}
+{'loss': 3.6787, 'grad_norm': 2.7852485179901123, 'learning_rate': 4.556528359345261e-06, 'epoch': 0.56}
+{'loss': 3.6589, 'grad_norm': 2.758784294128418, 'learning_rate': 4.5546250475827946e-06, 'epoch': 0.56}
+{'loss': 3.6934, 'grad_norm': 2.750905990600586, 'learning_rate': 4.552721735820328e-06, 'epoch': 0.56}
+{'loss': 3.6449, 'grad_norm': 2.7468760013580322, 'learning_rate': 4.550818424057861e-06, 'epoch': 0.56}
+{'loss': 3.6846, 'grad_norm': 2.5991854667663574, 'learning_rate': 4.548915112295395e-06, 'epoch': 0.56}
+{'loss': 3.6292, 'grad_norm': 2.890864610671997, 'learning_rate': 4.547011800532928e-06, 'epoch': 0.56}
+{'eval_loss': 3.892578125, 'eval_runtime': 4.1393, 'eval_samples_per_second': 241.586, 'eval_steps_per_second': 10.147, 'epoch': 0.56}
+{'loss': 3.627, 'grad_norm': 2.7830264568328857, 'learning_rate': 4.545108488770461e-06, 'epoch': 0.57}
+{'loss': 3.6715, 'grad_norm': 3.690594434738159, 'learning_rate': 4.543205177007995e-06, 'epoch': 0.57}
+{'loss': 3.6322, 'grad_norm': 3.3195273876190186, 'learning_rate': 4.541301865245527e-06, 'epoch': 0.57}
+{'loss': 3.6296, 'grad_norm': 2.7027926445007324, 'learning_rate': 4.539398553483061e-06, 'epoch': 0.57}
+{'loss': 3.6442, 'grad_norm': 2.9594833850860596, 'learning_rate': 4.537495241720594e-06, 'epoch': 0.57}
+{'loss': 3.6514, 'grad_norm': 2.7718584537506104, 'learning_rate': 4.535591929958127e-06, 'epoch': 0.57}
+{'loss': 3.6582, 'grad_norm': 2.917666435241699, 'learning_rate': 4.533688618195661e-06, 'epoch': 0.57}
+{'loss': 3.6735, 'grad_norm': 3.046515464782715, 'learning_rate': 4.531785306433194e-06, 'epoch': 0.57}
+{'loss': 3.7259, 'grad_norm': 2.5206618309020996, 'learning_rate': 4.529881994670727e-06, 'epoch': 0.57}
+{'loss': 3.7295, 'grad_norm': 2.9012906551361084, 'learning_rate': 4.527978682908261e-06, 'epoch': 0.58}
+{'eval_loss': 3.888671875, 'eval_runtime': 4.1442, 'eval_samples_per_second': 241.304, 'eval_steps_per_second': 10.135, 'epoch': 0.58}
+{'loss': 3.5778, 'grad_norm': 3.1117899417877197, 'learning_rate': 4.526075371145794e-06, 'epoch': 0.58}
+{'loss': 3.597, 'grad_norm': 2.745485544204712, 'learning_rate': 4.5241720593833275e-06, 'epoch': 0.58}
+{'loss': 3.721, 'grad_norm': 2.6237223148345947, 'learning_rate': 4.52226874762086e-06, 'epoch': 0.58}
+{'loss': 3.6872, 'grad_norm': 2.487497091293335, 'learning_rate': 4.520365435858393e-06, 'epoch': 0.58}
+{'loss': 3.6615, 'grad_norm': 2.850111722946167, 'learning_rate': 4.518462124095928e-06, 'epoch': 0.58}
+{'loss': 3.5993, 'grad_norm': 2.760106325149536, 'learning_rate': 4.516558812333461e-06, 'epoch': 0.58}
+{'loss': 3.6354, 'grad_norm': 2.7974326610565186, 'learning_rate': 4.514655500570994e-06, 'epoch': 0.58}
+{'loss': 3.6729, 'grad_norm': 2.5943684577941895, 'learning_rate': 4.512752188808528e-06, 'epoch': 0.58}
+{'loss': 3.6429, 'grad_norm': 2.6637141704559326, 'learning_rate': 4.510848877046061e-06, 'epoch': 0.58}
+{'loss': 3.641, 'grad_norm': 2.57830810546875, 'learning_rate': 4.5089455652835936e-06, 'epoch': 0.59}
+{'eval_loss': 3.888671875, 'eval_runtime': 4.1498, 'eval_samples_per_second': 240.976, 'eval_steps_per_second': 10.121, 'epoch': 0.59}
+{'loss': 3.6667, 'grad_norm': 2.710315704345703, 'learning_rate': 4.507042253521127e-06, 'epoch': 0.59}
+{'loss': 3.6735, 'grad_norm': 2.65313720703125, 'learning_rate': 4.50513894175866e-06, 'epoch': 0.59}
+{'loss': 3.5661, 'grad_norm': 2.8262014389038086, 'learning_rate': 4.503235629996194e-06, 'epoch': 0.59}
+{'loss': 3.7653, 'grad_norm': 3.1470189094543457, 'learning_rate': 4.501332318233727e-06, 'epoch': 0.59}
+{'loss': 3.6426, 'grad_norm': 2.8038926124572754, 'learning_rate': 4.49942900647126e-06, 'epoch': 0.59}
+{'loss': 3.598, 'grad_norm': 2.4283339977264404, 'learning_rate': 4.497525694708794e-06, 'epoch': 0.59}
+{'loss': 3.6283, 'grad_norm': 2.789161205291748, 'learning_rate': 4.495622382946327e-06, 'epoch': 0.59}
+{'loss': 3.6595, 'grad_norm': 2.43231463432312, 'learning_rate': 4.4937190711838605e-06, 'epoch': 0.59}
+{'loss': 3.6569, 'grad_norm': 2.8726413249969482, 'learning_rate': 4.491815759421394e-06, 'epoch': 0.59}
+{'loss': 3.5817, 'grad_norm': 2.972830057144165, 'learning_rate': 4.489912447658926e-06, 'epoch': 0.6}
+{'eval_loss': 3.88671875, 'eval_runtime': 4.1334, 'eval_samples_per_second': 241.934, 'eval_steps_per_second': 10.161, 'epoch': 0.6}
+{'loss': 3.7292, 'grad_norm': 2.971345901489258, 'learning_rate': 4.48800913589646e-06, 'epoch': 0.6}
+{'loss': 3.5957, 'grad_norm': 2.9880924224853516, 'learning_rate': 4.486105824133993e-06, 'epoch': 0.6}
+{'loss': 3.6699, 'grad_norm': 2.8768272399902344, 'learning_rate': 4.4842025123715264e-06, 'epoch': 0.6}
+{'loss': 3.8138, 'grad_norm': 3.5168871879577637, 'learning_rate': 4.48229920060906e-06, 'epoch': 0.6}
+{'loss': 3.5602, 'grad_norm': 2.7988736629486084, 'learning_rate': 4.480395888846594e-06, 'epoch': 0.6}
+{'loss': 3.6426, 'grad_norm': 2.7191574573516846, 'learning_rate': 4.478492577084127e-06, 'epoch': 0.6}
+{'loss': 3.5788, 'grad_norm': 3.068577289581299, 'learning_rate': 4.47658926532166e-06, 'epoch': 0.6}
+{'loss': 3.6449, 'grad_norm': 2.8498692512512207, 'learning_rate': 4.474685953559193e-06, 'epoch': 0.6}
+{'loss': 3.6081, 'grad_norm': 2.94706654548645, 'learning_rate': 4.472782641796727e-06, 'epoch': 0.61}
+{'loss': 3.7236, 'grad_norm': 2.84076189994812, 'learning_rate': 4.47087933003426e-06, 'epoch': 0.61}
+{'eval_loss': 3.884765625, 'eval_runtime': 4.1464, 'eval_samples_per_second': 241.174, 'eval_steps_per_second': 10.129, 'epoch': 0.61}
+{'loss': 3.6195, 'grad_norm': 3.0566418170928955, 'learning_rate': 4.468976018271793e-06, 'epoch': 0.61}
+{'loss': 3.6475, 'grad_norm': 2.6267080307006836, 'learning_rate': 4.467072706509327e-06, 'epoch': 0.61}
+{'loss': 3.7604, 'grad_norm': 2.773221731185913, 'learning_rate': 4.46516939474686e-06, 'epoch': 0.61}
+{'loss': 3.6901, 'grad_norm': 2.6339621543884277, 'learning_rate': 4.463266082984393e-06, 'epoch': 0.61}
+{'loss': 3.6829, 'grad_norm': 2.650721549987793, 'learning_rate': 4.461362771221927e-06, 'epoch': 0.61}
+{'loss': 3.6165, 'grad_norm': 2.4825072288513184, 'learning_rate': 4.45945945945946e-06, 'epoch': 0.61}
+{'loss': 3.5378, 'grad_norm': 3.289057970046997, 'learning_rate': 4.457556147696993e-06, 'epoch': 0.61}
+{'loss': 3.6631, 'grad_norm': 3.176990032196045, 'learning_rate': 4.455652835934526e-06, 'epoch': 0.61}
+{'loss': 3.5544, 'grad_norm': 2.926774501800537, 'learning_rate': 4.453749524172059e-06, 'epoch': 0.62}
+{'loss': 3.6188, 'grad_norm': 2.532238245010376, 'learning_rate': 4.451846212409593e-06, 'epoch': 0.62}
+{'eval_loss': 3.87890625, 'eval_runtime': 4.1475, 'eval_samples_per_second': 241.111, 'eval_steps_per_second': 10.127, 'epoch': 0.62}
+{'loss': 3.6051, 'grad_norm': 2.682119369506836, 'learning_rate': 4.449942900647126e-06, 'epoch': 0.62}
+{'loss': 3.6032, 'grad_norm': 2.420581102371216, 'learning_rate': 4.4480395888846595e-06, 'epoch': 0.62}
+{'loss': 3.6465, 'grad_norm': 2.7107882499694824, 'learning_rate': 4.446136277122193e-06, 'epoch': 0.62}
+{'loss': 3.6139, 'grad_norm': 3.204988956451416, 'learning_rate': 4.444232965359726e-06, 'epoch': 0.62}
+{'loss': 3.6742, 'grad_norm': 2.692058563232422, 'learning_rate': 4.4423296535972596e-06, 'epoch': 0.62}
+{'loss': 3.6344, 'grad_norm': 2.6202783584594727, 'learning_rate': 4.440426341834793e-06, 'epoch': 0.62}
+{'loss': 3.6393, 'grad_norm': 2.367004871368408, 'learning_rate': 4.438523030072326e-06, 'epoch': 0.62}
+{'loss': 3.6221, 'grad_norm': 2.501126289367676, 'learning_rate': 4.43661971830986e-06, 'epoch': 0.62}
+{'loss': 3.5814, 'grad_norm': 2.5044963359832764, 'learning_rate': 4.434716406547393e-06, 'epoch': 0.63}
+{'loss': 3.6071, 'grad_norm': 2.711888313293457, 'learning_rate': 4.432813094784926e-06, 'epoch': 0.63}
+{'eval_loss': 3.87890625, 'eval_runtime': 4.1328, 'eval_samples_per_second': 241.969, 'eval_steps_per_second': 10.163, 'epoch': 0.63}
+{'loss': 3.6302, 'grad_norm': 2.5377163887023926, 'learning_rate': 4.43090978302246e-06, 'epoch': 0.63}
+{'loss': 3.6058, 'grad_norm': 2.825897693634033, 'learning_rate': 4.429006471259993e-06, 'epoch': 0.63}
+{'loss': 3.6117, 'grad_norm': 2.648375988006592, 'learning_rate': 4.4271031594975265e-06, 'epoch': 0.63}
+{'loss': 3.641, 'grad_norm': 3.013514995574951, 'learning_rate': 4.425199847735059e-06, 'epoch': 0.63}
+{'loss': 3.609, 'grad_norm': 2.4605464935302734, 'learning_rate': 4.423296535972592e-06, 'epoch': 0.63}
+{'loss': 3.6312, 'grad_norm': 2.5824124813079834, 'learning_rate': 4.421393224210126e-06, 'epoch': 0.63}
+{'loss': 3.7165, 'grad_norm': 2.5290632247924805, 'learning_rate': 4.419489912447659e-06, 'epoch': 0.63}
+{'loss': 3.5771, 'grad_norm': 2.9217689037323, 'learning_rate': 4.4175866006851924e-06, 'epoch': 0.63}
+{'loss': 3.6022, 'grad_norm': 2.880383253097534, 'learning_rate': 4.415683288922726e-06, 'epoch': 0.64}
+{'loss': 3.6061, 'grad_norm': 2.705185651779175, 'learning_rate': 4.413779977160259e-06, 'epoch': 0.64}
+{'eval_loss': 3.873046875, 'eval_runtime': 4.1558, 'eval_samples_per_second': 240.627, 'eval_steps_per_second': 10.106, 'epoch': 0.64}
+{'loss': 3.6781, 'grad_norm': 2.295403003692627, 'learning_rate': 4.4118766653977925e-06, 'epoch': 0.64}
+{'loss': 3.6035, 'grad_norm': 2.8909804821014404, 'learning_rate': 4.409973353635326e-06, 'epoch': 0.64}
+{'loss': 3.5869, 'grad_norm': 2.7913033962249756, 'learning_rate': 4.408070041872859e-06, 'epoch': 0.64}
+{'loss': 3.5485, 'grad_norm': 2.5090365409851074, 'learning_rate': 4.406166730110393e-06, 'epoch': 0.64}
+{'loss': 3.6247, 'grad_norm': 3.439885139465332, 'learning_rate': 4.404263418347925e-06, 'epoch': 0.64}
+{'loss': 3.6266, 'grad_norm': 3.1079134941101074, 'learning_rate': 4.402360106585459e-06, 'epoch': 0.64}
+{'loss': 3.6185, 'grad_norm': 2.536602735519409, 'learning_rate': 4.400456794822993e-06, 'epoch': 0.64}
+{'loss': 3.5905, 'grad_norm': 2.354501485824585, 'learning_rate': 4.398553483060526e-06, 'epoch': 0.65}
+{'loss': 3.6224, 'grad_norm': 2.5144782066345215, 'learning_rate': 4.396650171298059e-06, 'epoch': 0.65}
+{'loss': 3.5518, 'grad_norm': 2.67742657661438, 'learning_rate': 4.394746859535593e-06, 'epoch': 0.65}
+{'eval_loss': 3.87890625, 'eval_runtime': 4.1448, 'eval_samples_per_second': 241.264, 'eval_steps_per_second': 10.133, 'epoch': 0.65}
+{'loss': 3.5612, 'grad_norm': 2.8654980659484863, 'learning_rate': 4.392843547773125e-06, 'epoch': 0.65}
+{'loss': 3.5179, 'grad_norm': 3.008446216583252, 'learning_rate': 4.390940236010659e-06, 'epoch': 0.65}
+{'loss': 3.6097, 'grad_norm': 2.827448844909668, 'learning_rate': 4.389036924248192e-06, 'epoch': 0.65}
+{'loss': 3.6318, 'grad_norm': 2.6186423301696777, 'learning_rate': 4.387133612485725e-06, 'epoch': 0.65}
+{'loss': 3.6003, 'grad_norm': 2.6376359462738037, 'learning_rate': 4.385230300723259e-06, 'epoch': 0.65}
+{'loss': 3.6439, 'grad_norm': 2.870063304901123, 'learning_rate': 4.383326988960792e-06, 'epoch': 0.65}
+{'loss': 3.6038, 'grad_norm': 2.838139057159424, 'learning_rate': 4.3814236771983255e-06, 'epoch': 0.65}
+{'loss': 3.598, 'grad_norm': 2.4264984130859375, 'learning_rate': 4.379520365435859e-06, 'epoch': 0.66}
+{'loss': 3.5641, 'grad_norm': 2.6421091556549072, 'learning_rate': 4.377617053673392e-06, 'epoch': 0.66}
+{'loss': 3.6211, 'grad_norm': 2.2961277961730957, 'learning_rate': 4.3757137419109256e-06, 'epoch': 0.66}
+{'eval_loss': 3.87109375, 'eval_runtime': 4.1375, 'eval_samples_per_second': 241.694, 'eval_steps_per_second': 10.151, 'epoch': 0.66}
+{'loss': 3.4977, 'grad_norm': 2.932337999343872, 'learning_rate': 4.373810430148459e-06, 'epoch': 0.66}
+{'loss': 3.6077, 'grad_norm': 2.518861770629883, 'learning_rate': 4.3719071183859914e-06, 'epoch': 0.66}
+{'loss': 3.5527, 'grad_norm': 2.7535712718963623, 'learning_rate': 4.370003806623525e-06, 'epoch': 0.66}
+{'loss': 3.4606, 'grad_norm': 3.0950961112976074, 'learning_rate': 4.368100494861058e-06, 'epoch': 0.66}
+{'loss': 3.6855, 'grad_norm': 2.5135087966918945, 'learning_rate': 4.3661971830985915e-06, 'epoch': 0.66}
+{'loss': 3.6579, 'grad_norm': 2.685878038406372, 'learning_rate': 4.364293871336126e-06, 'epoch': 0.66}
+{'loss': 3.6826, 'grad_norm': 2.5905163288116455, 'learning_rate': 4.362390559573659e-06, 'epoch': 0.66}
+{'loss': 3.5859, 'grad_norm': 2.645034074783325, 'learning_rate': 4.3604872478111925e-06, 'epoch': 0.67}
+{'loss': 3.6826, 'grad_norm': 2.6047213077545166, 'learning_rate': 4.358583936048725e-06, 'epoch': 0.67}
+{'loss': 3.6523, 'grad_norm': 2.562211751937866, 'learning_rate': 4.356680624286258e-06, 'epoch': 0.67}
+{'eval_loss': 3.8671875, 'eval_runtime': 4.1534, 'eval_samples_per_second': 240.767, 'eval_steps_per_second': 10.112, 'epoch': 0.67}
+{'loss': 3.6426, 'grad_norm': 2.585005521774292, 'learning_rate': 4.354777312523792e-06, 'epoch': 0.67}
+{'loss': 3.5853, 'grad_norm': 2.673600673675537, 'learning_rate': 4.352874000761325e-06, 'epoch': 0.67}
+{'loss': 3.5983, 'grad_norm': 2.868553638458252, 'learning_rate': 4.3509706889988584e-06, 'epoch': 0.67}
+{'loss': 3.5885, 'grad_norm': 2.87509822845459, 'learning_rate': 4.349067377236392e-06, 'epoch': 0.67}
+{'loss': 3.5505, 'grad_norm': 2.703317642211914, 'learning_rate': 4.347164065473925e-06, 'epoch': 0.67}
+{'loss': 3.6354, 'grad_norm': 1.9877787828445435, 'learning_rate': 4.3452607537114585e-06, 'epoch': 0.67}
+{'loss': 3.6527, 'grad_norm': 2.599518299102783, 'learning_rate': 4.343357441948992e-06, 'epoch': 0.67}
+{'loss': 3.6022, 'grad_norm': 2.484394073486328, 'learning_rate': 4.341454130186525e-06, 'epoch': 0.68}
+{'loss': 3.624, 'grad_norm': 2.3638386726379395, 'learning_rate': 4.339550818424058e-06, 'epoch': 0.68}
+{'loss': 3.6325, 'grad_norm': 2.295938730239868, 'learning_rate': 4.337647506661591e-06, 'epoch': 0.68}
+{'eval_loss': 3.86328125, 'eval_runtime': 4.1449, 'eval_samples_per_second': 241.258, 'eval_steps_per_second': 10.133, 'epoch': 0.68}
+{'loss': 3.5983, 'grad_norm': 2.8715829849243164, 'learning_rate': 4.3357441948991245e-06, 'epoch': 0.68}
+{'loss': 3.5602, 'grad_norm': 2.627991199493408, 'learning_rate': 4.333840883136658e-06, 'epoch': 0.68}
+{'loss': 3.5951, 'grad_norm': 2.550614833831787, 'learning_rate': 4.331937571374191e-06, 'epoch': 0.68}
+{'loss': 3.5973, 'grad_norm': 2.2873499393463135, 'learning_rate': 4.3300342596117246e-06, 'epoch': 0.68}
+{'loss': 3.6351, 'grad_norm': 2.530437469482422, 'learning_rate': 4.328130947849258e-06, 'epoch': 0.68}
+{'loss': 3.5553, 'grad_norm': 2.8127009868621826, 'learning_rate': 4.326227636086791e-06, 'epoch': 0.68}
+{'loss': 3.5462, 'grad_norm': 2.855530023574829, 'learning_rate': 4.324324324324325e-06, 'epoch': 0.69}
+{'loss': 3.6742, 'grad_norm': 2.690896511077881, 'learning_rate': 4.322421012561858e-06, 'epoch': 0.69}
+{'loss': 3.6097, 'grad_norm': 2.5547163486480713, 'learning_rate': 4.320517700799391e-06, 'epoch': 0.69}
+{'loss': 3.6081, 'grad_norm': 2.779808282852173, 'learning_rate': 4.318614389036925e-06, 'epoch': 0.69}
+{'eval_loss': 3.86328125, 'eval_runtime': 4.1383, 'eval_samples_per_second': 241.643, 'eval_steps_per_second': 10.149, 'epoch': 0.69}
+{'loss': 3.6009, 'grad_norm': 2.7481777667999268, 'learning_rate': 4.316711077274458e-06, 'epoch': 0.69}
+{'loss': 3.6699, 'grad_norm': 2.252725601196289, 'learning_rate': 4.3148077655119915e-06, 'epoch': 0.69}
+{'loss': 3.6442, 'grad_norm': 2.6788487434387207, 'learning_rate': 4.312904453749525e-06, 'epoch': 0.69}
+{'loss': 3.5371, 'grad_norm': 2.5416247844696045, 'learning_rate': 4.311001141987058e-06, 'epoch': 0.69}
+{'loss': 3.5394, 'grad_norm': 2.927687406539917, 'learning_rate': 4.3090978302245916e-06, 'epoch': 0.69}
+{'loss': 3.6292, 'grad_norm': 2.897879123687744, 'learning_rate': 4.307194518462124e-06, 'epoch': 0.69}
+{'loss': 3.6107, 'grad_norm': 2.6997644901275635, 'learning_rate': 4.3052912066996574e-06, 'epoch': 0.7}
+{'loss': 3.6426, 'grad_norm': 3.0412518978118896, 'learning_rate': 4.303387894937191e-06, 'epoch': 0.7}
+{'loss': 3.6354, 'grad_norm': 2.605396270751953, 'learning_rate': 4.301484583174724e-06, 'epoch': 0.7}
+{'loss': 3.5863, 'grad_norm': 2.8305609226226807, 'learning_rate': 4.2995812714122575e-06, 'epoch': 0.7}
+{'eval_loss': 3.865234375, 'eval_runtime': 4.1553, 'eval_samples_per_second': 240.659, 'eval_steps_per_second': 10.108, 'epoch': 0.7}
+{'loss': 3.623, 'grad_norm': 2.504460573196411, 'learning_rate': 4.297677959649791e-06, 'epoch': 0.7}
+{'loss': 3.5117, 'grad_norm': 2.787134885787964, 'learning_rate': 4.295774647887324e-06, 'epoch': 0.7}
+{'loss': 3.6139, 'grad_norm': 2.7095654010772705, 'learning_rate': 4.293871336124858e-06, 'epoch': 0.7}
+{'loss': 3.5505, 'grad_norm': 2.551880121231079, 'learning_rate': 4.291968024362391e-06, 'epoch': 0.7}
+{'loss': 3.5446, 'grad_norm': 2.699174642562866, 'learning_rate': 4.290064712599924e-06, 'epoch': 0.7}
+{'loss': 3.5592, 'grad_norm': 2.588557243347168, 'learning_rate': 4.288161400837458e-06, 'epoch': 0.7}
+{'loss': 3.5384, 'grad_norm': 3.6000075340270996, 'learning_rate': 4.286258089074991e-06, 'epoch': 0.71}
+{'loss': 3.5221, 'grad_norm': 2.921367883682251, 'learning_rate': 4.284354777312524e-06, 'epoch': 0.71}
+{'loss': 3.6322, 'grad_norm': 2.6476845741271973, 'learning_rate': 4.282451465550058e-06, 'epoch': 0.71}
+{'loss': 3.6113, 'grad_norm': 2.3797929286956787, 'learning_rate': 4.280548153787591e-06, 'epoch': 0.71}
+{'eval_loss': 3.859375, 'eval_runtime': 4.1406, 'eval_samples_per_second': 241.512, 'eval_steps_per_second': 10.144, 'epoch': 0.71}
+{'loss': 3.5566, 'grad_norm': 2.588977336883545, 'learning_rate': 4.2786448420251245e-06, 'epoch': 0.71}
+{'loss': 3.5882, 'grad_norm': 2.8938794136047363, 'learning_rate': 4.276741530262658e-06, 'epoch': 0.71}
+{'loss': 3.5257, 'grad_norm': 2.3557097911834717, 'learning_rate': 4.27483821850019e-06, 'epoch': 0.71}
+{'loss': 3.6032, 'grad_norm': 2.4203121662139893, 'learning_rate': 4.272934906737724e-06, 'epoch': 0.71}
+{'loss': 3.6191, 'grad_norm': 2.797356367111206, 'learning_rate': 4.271031594975257e-06, 'epoch': 0.71}
+{'loss': 3.5964, 'grad_norm': 2.5438058376312256, 'learning_rate': 4.2691282832127905e-06, 'epoch': 0.71}
+{'loss': 3.5993, 'grad_norm': 2.6566338539123535, 'learning_rate': 4.267224971450324e-06, 'epoch': 0.72}
+{'loss': 3.5192, 'grad_norm': 2.6627542972564697, 'learning_rate': 4.265321659687857e-06, 'epoch': 0.72}
+{'loss': 3.4489, 'grad_norm': 3.0705533027648926, 'learning_rate': 4.2634183479253906e-06, 'epoch': 0.72}
+{'loss': 3.6146, 'grad_norm': 2.1822986602783203, 'learning_rate': 4.261515036162924e-06, 'epoch': 0.72}
+{'eval_loss': 3.857421875, 'eval_runtime': 4.1403, 'eval_samples_per_second': 241.531, 'eval_steps_per_second': 10.144, 'epoch': 0.72}
+{'loss': 3.5299, 'grad_norm': 2.4175703525543213, 'learning_rate': 4.259611724400457e-06, 'epoch': 0.72}
+{'loss': 3.5827, 'grad_norm': 2.513875722885132, 'learning_rate': 4.257708412637991e-06, 'epoch': 0.72}
+{'loss': 3.598, 'grad_norm': 2.7332489490509033, 'learning_rate': 4.255805100875523e-06, 'epoch': 0.72}
+{'loss': 3.6237, 'grad_norm': 2.498314380645752, 'learning_rate': 4.2539017891130565e-06, 'epoch': 0.72}
+{'loss': 3.5231, 'grad_norm': 2.6466784477233887, 'learning_rate': 4.25199847735059e-06, 'epoch': 0.72}
+{'loss': 3.5853, 'grad_norm': 2.5009584426879883, 'learning_rate': 4.250095165588123e-06, 'epoch': 0.73}
+{'loss': 3.6139, 'grad_norm': 2.4848785400390625, 'learning_rate': 4.2481918538256575e-06, 'epoch': 0.73}
+{'loss': 3.5306, 'grad_norm': 2.7827446460723877, 'learning_rate': 4.246288542063191e-06, 'epoch': 0.73}
+{'loss': 3.5202, 'grad_norm': 2.7564656734466553, 'learning_rate': 4.244385230300724e-06, 'epoch': 0.73}
+{'loss': 3.555, 'grad_norm': 2.6459529399871826, 'learning_rate': 4.242481918538257e-06, 'epoch': 0.73}
+{'eval_loss': 3.853515625, 'eval_runtime': 4.1542, 'eval_samples_per_second': 240.722, 'eval_steps_per_second': 10.11, 'epoch': 0.73}
+{'loss': 3.5553, 'grad_norm': 2.930941581726074, 'learning_rate': 4.24057860677579e-06, 'epoch': 0.73}
+{'loss': 3.6211, 'grad_norm': 2.598271131515503, 'learning_rate': 4.2386752950133234e-06, 'epoch': 0.73}
+{'loss': 3.554, 'grad_norm': 2.481837272644043, 'learning_rate': 4.236771983250857e-06, 'epoch': 0.73}
+{'loss': 3.5843, 'grad_norm': 2.468595027923584, 'learning_rate': 4.23486867148839e-06, 'epoch': 0.73}
+{'loss': 3.5127, 'grad_norm': 2.465852975845337, 'learning_rate': 4.2329653597259235e-06, 'epoch': 0.73}
+{'loss': 3.4535, 'grad_norm': 2.57432222366333, 'learning_rate': 4.231062047963457e-06, 'epoch': 0.74}
+{'loss': 3.5462, 'grad_norm': 2.4627397060394287, 'learning_rate': 4.22915873620099e-06, 'epoch': 0.74}
+{'loss': 3.5928, 'grad_norm': 2.4202659130096436, 'learning_rate': 4.227255424438524e-06, 'epoch': 0.74}
+{'loss': 3.5719, 'grad_norm': 2.4943857192993164, 'learning_rate': 4.225352112676057e-06, 'epoch': 0.74}
+{'loss': 3.5449, 'grad_norm': 2.5497031211853027, 'learning_rate': 4.2234488009135895e-06, 'epoch': 0.74}
+{'eval_loss': 3.857421875, 'eval_runtime': 4.148, 'eval_samples_per_second': 241.08, 'eval_steps_per_second': 10.125, 'epoch': 0.74}
+{'loss': 3.5436, 'grad_norm': 2.3295910358428955, 'learning_rate': 4.221545489151123e-06, 'epoch': 0.74}
+{'loss': 3.5609, 'grad_norm': 2.6955578327178955, 'learning_rate': 4.219642177388656e-06, 'epoch': 0.74}
+{'loss': 3.5635, 'grad_norm': 2.878255844116211, 'learning_rate': 4.2177388656261896e-06, 'epoch': 0.74}
+{'loss': 3.6087, 'grad_norm': 2.625781297683716, 'learning_rate': 4.215835553863723e-06, 'epoch': 0.74}
+{'loss': 3.5221, 'grad_norm': 2.683563470840454, 'learning_rate': 4.213932242101256e-06, 'epoch': 0.74}
+{'loss': 3.5771, 'grad_norm': 2.7038018703460693, 'learning_rate': 4.21202893033879e-06, 'epoch': 0.75}
+{'loss': 3.5332, 'grad_norm': 2.3199565410614014, 'learning_rate': 4.210125618576323e-06, 'epoch': 0.75}
+{'loss': 3.4824, 'grad_norm': 2.5865564346313477, 'learning_rate': 4.208222306813856e-06, 'epoch': 0.75}
+{'loss': 3.5934, 'grad_norm': 2.5344719886779785, 'learning_rate': 4.20631899505139e-06, 'epoch': 0.75}
+{'loss': 3.5394, 'grad_norm': 2.8057315349578857, 'learning_rate': 4.204415683288923e-06, 'epoch': 0.75}
+{'eval_loss': 3.84765625, 'eval_runtime': 4.1494, 'eval_samples_per_second': 240.996, 'eval_steps_per_second': 10.122, 'epoch': 0.75}
+{'loss': 3.5791, 'grad_norm': 2.164324998855591, 'learning_rate': 4.2025123715264565e-06, 'epoch': 0.75}
+{'loss': 3.4909, 'grad_norm': 2.788956642150879, 'learning_rate': 4.20060905976399e-06, 'epoch': 0.75}
+{'loss': 3.5013, 'grad_norm': 2.7184252738952637, 'learning_rate': 4.198705748001523e-06, 'epoch': 0.75}
+{'loss': 3.5062, 'grad_norm': 2.561748743057251, 'learning_rate': 4.1968024362390566e-06, 'epoch': 0.75}
+{'loss': 3.5732, 'grad_norm': 2.5326380729675293, 'learning_rate': 4.19489912447659e-06, 'epoch': 0.76}
+{'loss': 3.4977, 'grad_norm': 2.5669374465942383, 'learning_rate': 4.192995812714123e-06, 'epoch': 0.76}
+{'loss': 3.4827, 'grad_norm': 2.5135412216186523, 'learning_rate': 4.191092500951656e-06, 'epoch': 0.76}
+{'loss': 3.5612, 'grad_norm': 2.5258870124816895, 'learning_rate': 4.189189189189189e-06, 'epoch': 0.76}
+{'loss': 3.5114, 'grad_norm': 2.64054799079895, 'learning_rate': 4.1872858774267225e-06, 'epoch': 0.76}
+{'loss': 3.6423, 'grad_norm': 2.3629393577575684, 'learning_rate': 4.185382565664256e-06, 'epoch': 0.76}
+{'eval_loss': 3.841796875, 'eval_runtime': 4.1651, 'eval_samples_per_second': 240.091, 'eval_steps_per_second': 10.084, 'epoch': 0.76}
+{'loss': 3.5944, 'grad_norm': 2.59234356880188, 'learning_rate': 4.183479253901789e-06, 'epoch': 0.76}
+{'loss': 3.5664, 'grad_norm': 3.124720335006714, 'learning_rate': 4.181575942139323e-06, 'epoch': 0.76}
+{'loss': 3.543, 'grad_norm': 2.5095386505126953, 'learning_rate': 4.179672630376856e-06, 'epoch': 0.76}
+{'loss': 3.6657, 'grad_norm': 2.6300671100616455, 'learning_rate': 4.177769318614389e-06, 'epoch': 0.76}
+{'loss': 3.5169, 'grad_norm': 2.3633430004119873, 'learning_rate': 4.175866006851923e-06, 'epoch': 0.77}
+{'loss': 3.5785, 'grad_norm': 3.029632091522217, 'learning_rate': 4.173962695089456e-06, 'epoch': 0.77}
+{'loss': 3.5378, 'grad_norm': 2.300161361694336, 'learning_rate': 4.1720593833269894e-06, 'epoch': 0.77}
+{'loss': 3.5215, 'grad_norm': 2.7690651416778564, 'learning_rate': 4.170156071564523e-06, 'epoch': 0.77}
+{'loss': 3.4984, 'grad_norm': 2.8085007667541504, 'learning_rate': 4.168252759802056e-06, 'epoch': 0.77}
+{'loss': 3.5254, 'grad_norm': 2.6021556854248047, 'learning_rate': 4.1663494480395895e-06, 'epoch': 0.77}
+{'eval_loss': 3.841796875, 'eval_runtime': 4.1408, 'eval_samples_per_second': 241.496, 'eval_steps_per_second': 10.143, 'epoch': 0.77}
+{'loss': 3.5521, 'grad_norm': 2.231030225753784, 'learning_rate': 4.164446136277123e-06, 'epoch': 0.77}
+{'loss': 3.5326, 'grad_norm': 2.388197660446167, 'learning_rate': 4.162542824514656e-06, 'epoch': 0.77}
+{'loss': 3.5221, 'grad_norm': 2.4041576385498047, 'learning_rate': 4.16063951275219e-06, 'epoch': 0.77}
+{'loss': 3.5153, 'grad_norm': 2.7133524417877197, 'learning_rate': 4.158736200989722e-06, 'epoch': 0.77}
+{'loss': 3.5583, 'grad_norm': 2.672255754470825, 'learning_rate': 4.1568328892272555e-06, 'epoch': 0.78}
+{'loss': 3.4411, 'grad_norm': 2.358414649963379, 'learning_rate': 4.154929577464789e-06, 'epoch': 0.78}
+{'loss': 3.5465, 'grad_norm': 2.805344820022583, 'learning_rate': 4.153026265702322e-06, 'epoch': 0.78}
+{'loss': 3.5671, 'grad_norm': 3.1029176712036133, 'learning_rate': 4.1511229539398556e-06, 'epoch': 0.78}
+{'loss': 3.5257, 'grad_norm': 2.5901870727539062, 'learning_rate': 4.149219642177389e-06, 'epoch': 0.78}
+{'loss': 3.5869, 'grad_norm': 2.6595981121063232, 'learning_rate': 4.147316330414922e-06, 'epoch': 0.78}
+{'eval_loss': 3.837890625, 'eval_runtime': 4.1424, 'eval_samples_per_second': 241.406, 'eval_steps_per_second': 10.139, 'epoch': 0.78}
+{'loss': 3.5254, 'grad_norm': 2.229433059692383, 'learning_rate': 4.145413018652456e-06, 'epoch': 0.78}
+{'loss': 3.473, 'grad_norm': 3.2059309482574463, 'learning_rate': 4.143509706889989e-06, 'epoch': 0.78}
+{'loss': 3.584, 'grad_norm': 2.5113658905029297, 'learning_rate': 4.141606395127522e-06, 'epoch': 0.78}
+{'loss': 3.5612, 'grad_norm': 2.2602028846740723, 'learning_rate': 4.139703083365056e-06, 'epoch': 0.78}
+{'loss': 3.4932, 'grad_norm': 2.4329214096069336, 'learning_rate': 4.137799771602588e-06, 'epoch': 0.79}
+{'loss': 3.4749, 'grad_norm': 2.775198221206665, 'learning_rate': 4.135896459840122e-06, 'epoch': 0.79}
+{'loss': 3.5485, 'grad_norm': 2.5488250255584717, 'learning_rate': 4.133993148077656e-06, 'epoch': 0.79}
+{'loss': 3.4616, 'grad_norm': 2.635206937789917, 'learning_rate': 4.132089836315189e-06, 'epoch': 0.79}
+{'loss': 3.4766, 'grad_norm': 2.6385679244995117, 'learning_rate': 4.1301865245527226e-06, 'epoch': 0.79}
+{'loss': 3.5124, 'grad_norm': 2.7390620708465576, 'learning_rate': 4.128283212790256e-06, 'epoch': 0.79}
+{'eval_loss': 3.841796875, 'eval_runtime': 4.1476, 'eval_samples_per_second': 241.105, 'eval_steps_per_second': 10.126, 'epoch': 0.79}
+{'loss': 3.501, 'grad_norm': 2.3423335552215576, 'learning_rate': 4.1263799010277884e-06, 'epoch': 0.79}
+{'loss': 3.4108, 'grad_norm': 2.5183565616607666, 'learning_rate': 4.124476589265322e-06, 'epoch': 0.79}
+{'loss': 3.5661, 'grad_norm': 2.7713592052459717, 'learning_rate': 4.122573277502855e-06, 'epoch': 0.79}
+{'loss': 3.4616, 'grad_norm': 2.7669222354888916, 'learning_rate': 4.1206699657403885e-06, 'epoch': 0.8}
+{'loss': 3.5876, 'grad_norm': 2.4641857147216797, 'learning_rate': 4.118766653977922e-06, 'epoch': 0.8}
+{'loss': 3.5843, 'grad_norm': 2.4998204708099365, 'learning_rate': 4.116863342215455e-06, 'epoch': 0.8}
+{'loss': 3.5479, 'grad_norm': 2.4542973041534424, 'learning_rate': 4.114960030452989e-06, 'epoch': 0.8}
+{'loss': 3.5296, 'grad_norm': 2.4371490478515625, 'learning_rate': 4.113056718690522e-06, 'epoch': 0.8}
+{'loss': 3.557, 'grad_norm': 2.211235284805298, 'learning_rate': 4.111153406928055e-06, 'epoch': 0.8}
+{'loss': 3.5433, 'grad_norm': 2.238863945007324, 'learning_rate': 4.109250095165589e-06, 'epoch': 0.8}
+{'eval_loss': 3.837890625, 'eval_runtime': 4.1385, 'eval_samples_per_second': 241.631, 'eval_steps_per_second': 10.149, 'epoch': 0.8}
+{'loss': 3.5446, 'grad_norm': 2.244778871536255, 'learning_rate': 4.107346783403122e-06, 'epoch': 0.8}
+{'loss': 3.5745, 'grad_norm': 2.3024253845214844, 'learning_rate': 4.105443471640655e-06, 'epoch': 0.8}
+{'loss': 3.583, 'grad_norm': 2.61403226852417, 'learning_rate': 4.103540159878188e-06, 'epoch': 0.8}
+{'loss': 3.5566, 'grad_norm': 2.186267614364624, 'learning_rate': 4.101636848115721e-06, 'epoch': 0.81}
+{'loss': 3.5407, 'grad_norm': 2.4668848514556885, 'learning_rate': 4.099733536353255e-06, 'epoch': 0.81}
+{'loss': 3.4811, 'grad_norm': 2.112452507019043, 'learning_rate': 4.097830224590788e-06, 'epoch': 0.81}
+{'loss': 3.5892, 'grad_norm': 2.6569948196411133, 'learning_rate': 4.095926912828322e-06, 'epoch': 0.81}
+{'loss': 3.4691, 'grad_norm': 2.5817174911499023, 'learning_rate': 4.094023601065855e-06, 'epoch': 0.81}
+{'loss': 3.4779, 'grad_norm': 2.6016252040863037, 'learning_rate': 4.092120289303388e-06, 'epoch': 0.81}
+{'loss': 3.5488, 'grad_norm': 2.6298749446868896, 'learning_rate': 4.0902169775409215e-06, 'epoch': 0.81}
+{'eval_loss': 3.830078125, 'eval_runtime': 4.1614, 'eval_samples_per_second': 240.302, 'eval_steps_per_second': 10.093, 'epoch': 0.81}
+{'loss': 3.4805, 'grad_norm': 3.190918207168579, 'learning_rate': 4.088313665778455e-06, 'epoch': 0.81}
+{'loss': 3.4648, 'grad_norm': 2.6821532249450684, 'learning_rate': 4.086410354015988e-06, 'epoch': 0.81}
+{'loss': 3.4642, 'grad_norm': 2.351975202560425, 'learning_rate': 4.0845070422535216e-06, 'epoch': 0.81}
+{'loss': 3.625, 'grad_norm': 2.4132580757141113, 'learning_rate': 4.082603730491055e-06, 'epoch': 0.82}
+{'loss': 3.5514, 'grad_norm': 2.5020852088928223, 'learning_rate': 4.080700418728588e-06, 'epoch': 0.82}
+{'loss': 3.5241, 'grad_norm': 2.198647975921631, 'learning_rate': 4.078797106966122e-06, 'epoch': 0.82}
+{'loss': 3.4857, 'grad_norm': 2.6049857139587402, 'learning_rate': 4.076893795203655e-06, 'epoch': 0.82}
+{'loss': 3.484, 'grad_norm': 2.4639170169830322, 'learning_rate': 4.074990483441188e-06, 'epoch': 0.82}
+{'loss': 3.5677, 'grad_norm': 2.2676639556884766, 'learning_rate': 4.073087171678721e-06, 'epoch': 0.82}
+{'loss': 3.5479, 'grad_norm': 2.5405142307281494, 'learning_rate': 4.071183859916254e-06, 'epoch': 0.82}
+{'eval_loss': 3.83203125, 'eval_runtime': 4.1583, 'eval_samples_per_second': 240.48, 'eval_steps_per_second': 10.1, 'epoch': 0.82}
+{'loss': 3.5618, 'grad_norm': 2.37326979637146, 'learning_rate': 4.069280548153788e-06, 'epoch': 0.82}
+{'loss': 3.5293, 'grad_norm': 2.696927785873413, 'learning_rate': 4.067377236391321e-06, 'epoch': 0.82}
+{'loss': 3.5293, 'grad_norm': 2.5432255268096924, 'learning_rate': 4.065473924628854e-06, 'epoch': 0.82}
+{'loss': 3.5241, 'grad_norm': 2.5155189037323, 'learning_rate': 4.063570612866388e-06, 'epoch': 0.83}
+{'loss': 3.4984, 'grad_norm': 2.5489697456359863, 'learning_rate': 4.061667301103921e-06, 'epoch': 0.83}
+{'loss': 3.499, 'grad_norm': 2.605886220932007, 'learning_rate': 4.0597639893414544e-06, 'epoch': 0.83}
+{'loss': 3.555, 'grad_norm': 2.378725290298462, 'learning_rate': 4.057860677578988e-06, 'epoch': 0.83}
+{'loss': 3.5391, 'grad_norm': 2.388471841812134, 'learning_rate': 4.055957365816521e-06, 'epoch': 0.83}
+{'loss': 3.4694, 'grad_norm': 2.4586548805236816, 'learning_rate': 4.0540540540540545e-06, 'epoch': 0.83}
+{'loss': 3.5247, 'grad_norm': 2.614563226699829, 'learning_rate': 4.052150742291588e-06, 'epoch': 0.83}
+{'eval_loss': 3.8359375, 'eval_runtime': 4.1438, 'eval_samples_per_second': 241.323, 'eval_steps_per_second': 10.136, 'epoch': 0.83}
+{'loss': 3.5234, 'grad_norm': 2.61456561088562, 'learning_rate': 4.050247430529121e-06, 'epoch': 0.83}
+{'loss': 3.4974, 'grad_norm': 2.3347132205963135, 'learning_rate': 4.048344118766655e-06, 'epoch': 0.83}
+{'loss': 3.5645, 'grad_norm': 2.573732376098633, 'learning_rate': 4.046440807004188e-06, 'epoch': 0.84}
+{'loss': 3.582, 'grad_norm': 2.4528722763061523, 'learning_rate': 4.044537495241721e-06, 'epoch': 0.84}
+{'loss': 3.555, 'grad_norm': 2.3244121074676514, 'learning_rate': 4.042634183479255e-06, 'epoch': 0.84}
+{'loss': 3.457, 'grad_norm': 2.452362298965454, 'learning_rate': 4.040730871716787e-06, 'epoch': 0.84}
+{'loss': 3.443, 'grad_norm': 2.5195319652557373, 'learning_rate': 4.038827559954321e-06, 'epoch': 0.84}
+{'loss': 3.46, 'grad_norm': 2.5764145851135254, 'learning_rate': 4.036924248191854e-06, 'epoch': 0.84}
+{'loss': 3.4671, 'grad_norm': 2.4449148178100586, 'learning_rate': 4.035020936429387e-06, 'epoch': 0.84}
+{'loss': 3.445, 'grad_norm': 2.6704933643341064, 'learning_rate': 4.033117624666921e-06, 'epoch': 0.84}
+{'eval_loss': 3.83203125, 'eval_runtime': 4.1601, 'eval_samples_per_second': 240.378, 'eval_steps_per_second': 10.096, 'epoch': 0.84}
+{'loss': 3.4919, 'grad_norm': 2.37290096282959, 'learning_rate': 4.031214312904454e-06, 'epoch': 0.84}
+{'loss': 3.611, 'grad_norm': 2.617722988128662, 'learning_rate': 4.029311001141987e-06, 'epoch': 0.84}
+{'loss': 3.4401, 'grad_norm': 2.6786487102508545, 'learning_rate': 4.027407689379521e-06, 'epoch': 0.85}
+{'loss': 3.5212, 'grad_norm': 2.3686397075653076, 'learning_rate': 4.025504377617054e-06, 'epoch': 0.85}
+{'loss': 3.431, 'grad_norm': 2.2974555492401123, 'learning_rate': 4.0236010658545875e-06, 'epoch': 0.85}
+{'loss': 3.4958, 'grad_norm': 2.371572494506836, 'learning_rate': 4.02169775409212e-06, 'epoch': 0.85}
+{'loss': 3.5205, 'grad_norm': 2.68398118019104, 'learning_rate': 4.019794442329653e-06, 'epoch': 0.85}
+{'loss': 3.4928, 'grad_norm': 2.720942258834839, 'learning_rate': 4.0178911305671876e-06, 'epoch': 0.85}
+{'loss': 3.5234, 'grad_norm': 2.4726479053497314, 'learning_rate': 4.015987818804721e-06, 'epoch': 0.85}
+{'loss': 3.4857, 'grad_norm': 2.4988038539886475, 'learning_rate': 4.014084507042254e-06, 'epoch': 0.85}
+{'eval_loss': 3.830078125, 'eval_runtime': 4.1497, 'eval_samples_per_second': 240.981, 'eval_steps_per_second': 10.121, 'epoch': 0.85}
+{'loss': 3.5986, 'grad_norm': 2.4570000171661377, 'learning_rate': 4.012181195279788e-06, 'epoch': 0.85}
+{'loss': 3.5088, 'grad_norm': 2.5008256435394287, 'learning_rate': 4.010277883517321e-06, 'epoch': 0.85}
+{'loss': 3.5677, 'grad_norm': 2.3772547245025635, 'learning_rate': 4.0083745717548535e-06, 'epoch': 0.86}
+{'loss': 3.5029, 'grad_norm': 2.5165181159973145, 'learning_rate': 4.006471259992387e-06, 'epoch': 0.86}
+{'loss': 3.4609, 'grad_norm': 2.5806803703308105, 'learning_rate': 4.00456794822992e-06, 'epoch': 0.86}
+{'loss': 3.457, 'grad_norm': 2.3031680583953857, 'learning_rate': 4.002664636467454e-06, 'epoch': 0.86}
+{'loss': 3.543, 'grad_norm': 2.442453384399414, 'learning_rate': 4.000761324704987e-06, 'epoch': 0.86}
+{'loss': 3.4837, 'grad_norm': 2.393545627593994, 'learning_rate': 3.99885801294252e-06, 'epoch': 0.86}
+{'loss': 3.4411, 'grad_norm': 2.2538208961486816, 'learning_rate': 3.996954701180054e-06, 'epoch': 0.86}
+{'loss': 3.4808, 'grad_norm': 2.2069027423858643, 'learning_rate': 3.995051389417587e-06, 'epoch': 0.86}
+{'eval_loss': 3.82421875, 'eval_runtime': 4.1388, 'eval_samples_per_second': 241.614, 'eval_steps_per_second': 10.148, 'epoch': 0.86}
+{'loss': 3.5072, 'grad_norm': 2.3311166763305664, 'learning_rate': 3.9931480776551204e-06, 'epoch': 0.86}
+{'loss': 3.5885, 'grad_norm': 2.1129167079925537, 'learning_rate': 3.991244765892654e-06, 'epoch': 0.86}
+{'loss': 3.4883, 'grad_norm': 2.3478167057037354, 'learning_rate': 3.989341454130186e-06, 'epoch': 0.87}
+{'loss': 3.4434, 'grad_norm': 2.512418031692505, 'learning_rate': 3.98743814236772e-06, 'epoch': 0.87}
+{'loss': 3.5579, 'grad_norm': 2.4249613285064697, 'learning_rate': 3.985534830605253e-06, 'epoch': 0.87}
+{'loss': 3.4408, 'grad_norm': 2.384772777557373, 'learning_rate': 3.983631518842786e-06, 'epoch': 0.87}
+{'loss': 3.4971, 'grad_norm': 2.201988458633423, 'learning_rate': 3.98172820708032e-06, 'epoch': 0.87}
+{'loss': 3.4535, 'grad_norm': 2.3887147903442383, 'learning_rate': 3.979824895317854e-06, 'epoch': 0.87}
+{'loss': 3.4932, 'grad_norm': 2.4823195934295654, 'learning_rate': 3.977921583555387e-06, 'epoch': 0.87}
+{'loss': 3.4495, 'grad_norm': 2.3694846630096436, 'learning_rate': 3.97601827179292e-06, 'epoch': 0.87}
+{'eval_loss': 3.830078125, 'eval_runtime': 4.155, 'eval_samples_per_second': 240.672, 'eval_steps_per_second': 10.108, 'epoch': 0.87}
+{'loss': 3.4242, 'grad_norm': 2.4277255535125732, 'learning_rate': 3.974114960030453e-06, 'epoch': 0.87}
+{'loss': 3.4717, 'grad_norm': 2.751228094100952, 'learning_rate': 3.9722116482679866e-06, 'epoch': 0.88}
+{'loss': 3.557, 'grad_norm': 2.32110333442688, 'learning_rate': 3.97030833650552e-06, 'epoch': 0.88}
+{'loss': 3.5146, 'grad_norm': 2.2777671813964844, 'learning_rate': 3.968405024743053e-06, 'epoch': 0.88}
+{'loss': 3.4749, 'grad_norm': 2.1065573692321777, 'learning_rate': 3.966501712980587e-06, 'epoch': 0.88}
+{'loss': 3.5579, 'grad_norm': 2.2657620906829834, 'learning_rate': 3.96459840121812e-06, 'epoch': 0.88}
+{'loss': 3.5146, 'grad_norm': 2.1705539226531982, 'learning_rate': 3.962695089455653e-06, 'epoch': 0.88}
+{'loss': 3.5856, 'grad_norm': 2.430162191390991, 'learning_rate': 3.960791777693187e-06, 'epoch': 0.88}
+{'loss': 3.4544, 'grad_norm': 2.6538186073303223, 'learning_rate': 3.95888846593072e-06, 'epoch': 0.88}
+{'loss': 3.5876, 'grad_norm': 2.5107243061065674, 'learning_rate': 3.956985154168253e-06, 'epoch': 0.88}
+{'eval_loss': 3.82421875, 'eval_runtime': 4.1493, 'eval_samples_per_second': 241.007, 'eval_steps_per_second': 10.122, 'epoch': 0.88}
+{'loss': 3.4587, 'grad_norm': 2.2355856895446777, 'learning_rate': 3.955081842405786e-06, 'epoch': 0.88}
+{'loss': 3.5143, 'grad_norm': 2.471388339996338, 'learning_rate': 3.953178530643319e-06, 'epoch': 0.89}
+{'loss': 3.516, 'grad_norm': 2.2293167114257812, 'learning_rate': 3.951275218880853e-06, 'epoch': 0.89}
+{'loss': 3.5521, 'grad_norm': 2.563430070877075, 'learning_rate': 3.949371907118386e-06, 'epoch': 0.89}
+{'loss': 3.4984, 'grad_norm': 2.253363847732544, 'learning_rate': 3.9474685953559194e-06, 'epoch': 0.89}
+{'loss': 3.4919, 'grad_norm': 2.6326065063476562, 'learning_rate': 3.945565283593453e-06, 'epoch': 0.89}
+{'loss': 3.5397, 'grad_norm': 2.777524948120117, 'learning_rate': 3.943661971830986e-06, 'epoch': 0.89}
+{'loss': 3.3945, 'grad_norm': 2.4775660037994385, 'learning_rate': 3.9417586600685195e-06, 'epoch': 0.89}
+{'loss': 3.4518, 'grad_norm': 2.5479683876037598, 'learning_rate': 3.939855348306053e-06, 'epoch': 0.89}
+{'loss': 3.3812, 'grad_norm': 2.4945321083068848, 'learning_rate': 3.937952036543586e-06, 'epoch': 0.89}
+{'eval_loss': 3.822265625, 'eval_runtime': 4.1553, 'eval_samples_per_second': 240.655, 'eval_steps_per_second': 10.108, 'epoch': 0.89}
+{'loss': 3.5807, 'grad_norm': 2.6090238094329834, 'learning_rate': 3.93604872478112e-06, 'epoch': 0.89}
+{'loss': 3.5417, 'grad_norm': 2.153024911880493, 'learning_rate': 3.934145413018653e-06, 'epoch': 0.9}
+{'loss': 3.4954, 'grad_norm': 2.1857738494873047, 'learning_rate': 3.932242101256186e-06, 'epoch': 0.9}
+{'loss': 3.4697, 'grad_norm': 2.4207301139831543, 'learning_rate': 3.93033878949372e-06, 'epoch': 0.9}
+{'loss': 3.5133, 'grad_norm': 2.1540889739990234, 'learning_rate': 3.928435477731253e-06, 'epoch': 0.9}
+{'loss': 3.4678, 'grad_norm': 2.1136844158172607, 'learning_rate': 3.9265321659687864e-06, 'epoch': 0.9}
+{'loss': 3.432, 'grad_norm': 2.3392810821533203, 'learning_rate': 3.924628854206319e-06, 'epoch': 0.9}
+{'loss': 3.5501, 'grad_norm': 2.3745381832122803, 'learning_rate': 3.922725542443852e-06, 'epoch': 0.9}
+{'loss': 3.5166, 'grad_norm': 2.549809694290161, 'learning_rate': 3.920822230681386e-06, 'epoch': 0.9}
+{'loss': 3.4372, 'grad_norm': 2.5485951900482178, 'learning_rate': 3.918918918918919e-06, 'epoch': 0.9}
+{'eval_loss': 3.81640625, 'eval_runtime': 4.1577, 'eval_samples_per_second': 240.52, 'eval_steps_per_second': 10.102, 'epoch': 0.9}
+{'loss': 3.5283, 'grad_norm': 2.5946402549743652, 'learning_rate': 3.917015607156452e-06, 'epoch': 0.9}
+{'loss': 3.5173, 'grad_norm': 2.1403415203094482, 'learning_rate': 3.915112295393986e-06, 'epoch': 0.91}
+{'loss': 3.4639, 'grad_norm': 2.288914680480957, 'learning_rate': 3.913208983631519e-06, 'epoch': 0.91}
+{'loss': 3.474, 'grad_norm': 2.3968331813812256, 'learning_rate': 3.9113056718690525e-06, 'epoch': 0.91}
+{'loss': 3.5342, 'grad_norm': 2.486506462097168, 'learning_rate': 3.909402360106586e-06, 'epoch': 0.91}
+{'loss': 3.4883, 'grad_norm': 2.5662758350372314, 'learning_rate': 3.907499048344119e-06, 'epoch': 0.91}
+{'loss': 3.5892, 'grad_norm': 2.2868924140930176, 'learning_rate': 3.905595736581652e-06, 'epoch': 0.91}
+{'loss': 3.5651, 'grad_norm': 2.0816352367401123, 'learning_rate': 3.903692424819186e-06, 'epoch': 0.91}
+{'loss': 3.542, 'grad_norm': 2.2671380043029785, 'learning_rate': 3.901789113056719e-06, 'epoch': 0.91}
+{'loss': 3.4378, 'grad_norm': 2.3966903686523438, 'learning_rate': 3.899885801294253e-06, 'epoch': 0.91}
+{'eval_loss': 3.814453125, 'eval_runtime': 4.1484, 'eval_samples_per_second': 241.059, 'eval_steps_per_second': 10.124, 'epoch': 0.91}
+{'loss': 3.4977, 'grad_norm': 2.2382020950317383, 'learning_rate': 3.897982489531786e-06, 'epoch': 0.92}
+{'loss': 3.5026, 'grad_norm': 2.2972359657287598, 'learning_rate': 3.896079177769319e-06, 'epoch': 0.92}
+{'loss': 3.4665, 'grad_norm': 2.432446241378784, 'learning_rate': 3.894175866006853e-06, 'epoch': 0.92}
+{'loss': 3.4229, 'grad_norm': 2.5550894737243652, 'learning_rate': 3.892272554244385e-06, 'epoch': 0.92}
+{'loss': 3.5296, 'grad_norm': 2.3170647621154785, 'learning_rate': 3.890369242481919e-06, 'epoch': 0.92}
+{'loss': 3.4746, 'grad_norm': 2.170222759246826, 'learning_rate': 3.888465930719452e-06, 'epoch': 0.92}
+{'loss': 3.417, 'grad_norm': 2.6538939476013184, 'learning_rate': 3.886562618956985e-06, 'epoch': 0.92}
+{'loss': 3.4466, 'grad_norm': 2.0674264430999756, 'learning_rate': 3.884659307194519e-06, 'epoch': 0.92}
+{'loss': 3.4733, 'grad_norm': 3.0610034465789795, 'learning_rate': 3.882755995432052e-06, 'epoch': 0.92}
+{'loss': 3.3919, 'grad_norm': 2.3714888095855713, 'learning_rate': 3.8808526836695854e-06, 'epoch': 0.92}
+{'eval_loss': 3.81640625, 'eval_runtime': 4.1636, 'eval_samples_per_second': 240.177, 'eval_steps_per_second': 10.087, 'epoch': 0.92}
+{'loss': 3.4694, 'grad_norm': 2.9460203647613525, 'learning_rate': 3.878949371907119e-06, 'epoch': 0.93}
+{'loss': 3.4645, 'grad_norm': 2.0573785305023193, 'learning_rate': 3.877046060144652e-06, 'epoch': 0.93}
+{'loss': 3.5202, 'grad_norm': 2.115156888961792, 'learning_rate': 3.8751427483821855e-06, 'epoch': 0.93}
+{'loss': 3.4967, 'grad_norm': 2.610487937927246, 'learning_rate': 3.873239436619718e-06, 'epoch': 0.93}
+{'loss': 3.5065, 'grad_norm': 2.493135452270508, 'learning_rate': 3.871336124857251e-06, 'epoch': 0.93}
+{'loss': 3.5443, 'grad_norm': 2.6659257411956787, 'learning_rate': 3.869432813094785e-06, 'epoch': 0.93}
+{'loss': 3.4209, 'grad_norm': 2.3999931812286377, 'learning_rate': 3.867529501332318e-06, 'epoch': 0.93}
+{'loss': 3.5078, 'grad_norm': 2.24422550201416, 'learning_rate': 3.8656261895698515e-06, 'epoch': 0.93}
+{'loss': 3.4727, 'grad_norm': 2.46347713470459, 'learning_rate': 3.863722877807386e-06, 'epoch': 0.93}
+{'loss': 3.4945, 'grad_norm': 2.236048460006714, 'learning_rate': 3.861819566044919e-06, 'epoch': 0.93}
+{'eval_loss': 3.814453125, 'eval_runtime': 4.1603, 'eval_samples_per_second': 240.37, 'eval_steps_per_second': 10.096, 'epoch': 0.93}
+{'loss': 3.4574, 'grad_norm': 2.6641781330108643, 'learning_rate': 3.859916254282452e-06, 'epoch': 0.94}
+{'loss': 3.4883, 'grad_norm': 2.0913467407226562, 'learning_rate': 3.858012942519985e-06, 'epoch': 0.94}
+{'loss': 3.3929, 'grad_norm': 2.9391026496887207, 'learning_rate': 3.856109630757518e-06, 'epoch': 0.94}
+{'loss': 3.4251, 'grad_norm': 2.859776020050049, 'learning_rate': 3.854206318995052e-06, 'epoch': 0.94}
+{'loss': 3.5498, 'grad_norm': 2.980478286743164, 'learning_rate': 3.852303007232585e-06, 'epoch': 0.94}
+{'loss': 3.529, 'grad_norm': 2.337924003601074, 'learning_rate': 3.850399695470118e-06, 'epoch': 0.94}
+{'loss': 3.5602, 'grad_norm': 2.148789167404175, 'learning_rate': 3.848496383707652e-06, 'epoch': 0.94}
+{'loss': 3.4115, 'grad_norm': 2.8849267959594727, 'learning_rate': 3.846593071945185e-06, 'epoch': 0.94}
+{'loss': 3.514, 'grad_norm': 2.0591371059417725, 'learning_rate': 3.8446897601827185e-06, 'epoch': 0.94}
+{'loss': 3.4707, 'grad_norm': 2.3302175998687744, 'learning_rate': 3.842786448420252e-06, 'epoch': 0.95}
+{'eval_loss': 3.810546875, 'eval_runtime': 4.1461, 'eval_samples_per_second': 241.191, 'eval_steps_per_second': 10.13, 'epoch': 0.95}
+{'loss': 3.4658, 'grad_norm': 2.3509864807128906, 'learning_rate': 3.840883136657785e-06, 'epoch': 0.95}
+{'loss': 3.3942, 'grad_norm': 2.4305403232574463, 'learning_rate': 3.838979824895318e-06, 'epoch': 0.95}
+{'loss': 3.4417, 'grad_norm': 2.3981356620788574, 'learning_rate': 3.837076513132851e-06, 'epoch': 0.95}
+{'loss': 3.5146, 'grad_norm': 2.652132272720337, 'learning_rate': 3.8351732013703844e-06, 'epoch': 0.95}
+{'loss': 3.4743, 'grad_norm': 2.1939663887023926, 'learning_rate': 3.833269889607918e-06, 'epoch': 0.95}
+{'loss': 3.4525, 'grad_norm': 2.6140241622924805, 'learning_rate': 3.831366577845451e-06, 'epoch': 0.95}
+{'loss': 3.4391, 'grad_norm': 2.389622688293457, 'learning_rate': 3.8294632660829845e-06, 'epoch': 0.95}
+{'loss': 3.4743, 'grad_norm': 2.5206751823425293, 'learning_rate': 3.827559954320518e-06, 'epoch': 0.95}
+{'loss': 3.4277, 'grad_norm': 2.147226572036743, 'learning_rate': 3.825656642558051e-06, 'epoch': 0.95}
+{'loss': 3.5658, 'grad_norm': 2.489835023880005, 'learning_rate': 3.823753330795585e-06, 'epoch': 0.96}
+{'eval_loss': 3.810546875, 'eval_runtime': 4.1551, 'eval_samples_per_second': 240.668, 'eval_steps_per_second': 10.108, 'epoch': 0.96}
+{'loss': 3.498, 'grad_norm': 2.278059482574463, 'learning_rate': 3.821850019033118e-06, 'epoch': 0.96}
+{'loss': 3.3857, 'grad_norm': 2.6006217002868652, 'learning_rate': 3.819946707270651e-06, 'epoch': 0.96}
+{'loss': 3.3783, 'grad_norm': 2.539397716522217, 'learning_rate': 3.818043395508185e-06, 'epoch': 0.96}
+{'loss': 3.4808, 'grad_norm': 2.21724534034729, 'learning_rate': 3.816140083745718e-06, 'epoch': 0.96}
+{'loss': 3.4655, 'grad_norm': 2.2605109214782715, 'learning_rate': 3.8142367719832514e-06, 'epoch': 0.96}
+{'loss': 3.457, 'grad_norm': 2.429995536804199, 'learning_rate': 3.8123334602207844e-06, 'epoch': 0.96}
+{'loss': 3.4606, 'grad_norm': 2.4241650104522705, 'learning_rate': 3.8104301484583177e-06, 'epoch': 0.96}
+{'loss': 3.4847, 'grad_norm': 2.2590818405151367, 'learning_rate': 3.808526836695851e-06, 'epoch': 0.96}
+{'loss': 3.528, 'grad_norm': 2.300678253173828, 'learning_rate': 3.8066235249333845e-06, 'epoch': 0.96}
+{'loss': 3.5332, 'grad_norm': 2.178422451019287, 'learning_rate': 3.804720213170918e-06, 'epoch': 0.97}
+{'eval_loss': 3.80859375, 'eval_runtime': 4.1602, 'eval_samples_per_second': 240.375, 'eval_steps_per_second': 10.096, 'epoch': 0.97}
+{'loss': 3.4889, 'grad_norm': 2.5649218559265137, 'learning_rate': 3.8028169014084508e-06, 'epoch': 0.97}
+{'loss': 3.5225, 'grad_norm': 2.2846875190734863, 'learning_rate': 3.800913589645984e-06, 'epoch': 0.97}
+{'loss': 3.4883, 'grad_norm': 2.3040213584899902, 'learning_rate': 3.7990102778835175e-06, 'epoch': 0.97}
+{'loss': 3.4642, 'grad_norm': 2.350128173828125, 'learning_rate': 3.797106966121051e-06, 'epoch': 0.97}
+{'loss': 3.3971, 'grad_norm': 2.0602099895477295, 'learning_rate': 3.7952036543585842e-06, 'epoch': 0.97}
+{'loss': 3.4886, 'grad_norm': 2.519709825515747, 'learning_rate': 3.793300342596117e-06, 'epoch': 0.97}
+{'loss': 3.4128, 'grad_norm': 2.5105228424072266, 'learning_rate': 3.7913970308336505e-06, 'epoch': 0.97}
+{'loss': 3.3854, 'grad_norm': 2.5273430347442627, 'learning_rate': 3.789493719071184e-06, 'epoch': 0.97}
+{'loss': 3.3294, 'grad_norm': 2.500117301940918, 'learning_rate': 3.7875904073087177e-06, 'epoch': 0.97}
+{'loss': 3.4242, 'grad_norm': 2.6254043579101562, 'learning_rate': 3.785687095546251e-06, 'epoch': 0.98}
+{'eval_loss': 3.810546875, 'eval_runtime': 4.1471, 'eval_samples_per_second': 241.133, 'eval_steps_per_second': 10.128, 'epoch': 0.98}
+{'loss': 3.4388, 'grad_norm': 2.319570541381836, 'learning_rate': 3.7837837837837844e-06, 'epoch': 0.98}
+{'loss': 3.4408, 'grad_norm': 2.3791961669921875, 'learning_rate': 3.7818804720213178e-06, 'epoch': 0.98}
+{'loss': 3.4033, 'grad_norm': 2.1652421951293945, 'learning_rate': 3.7799771602588507e-06, 'epoch': 0.98}
+{'loss': 3.5029, 'grad_norm': 2.5840330123901367, 'learning_rate': 3.778073848496384e-06, 'epoch': 0.98}
+{'loss': 3.4443, 'grad_norm': 1.950862169265747, 'learning_rate': 3.7761705367339174e-06, 'epoch': 0.98}
+{'loss': 3.3844, 'grad_norm': 2.0424134731292725, 'learning_rate': 3.7742672249714508e-06, 'epoch': 0.98}
+{'loss': 3.389, 'grad_norm': 2.301276206970215, 'learning_rate': 3.772363913208984e-06, 'epoch': 0.98}
+{'loss': 3.4456, 'grad_norm': 2.338717222213745, 'learning_rate': 3.770460601446517e-06, 'epoch': 0.98}
+{'loss': 3.5309, 'grad_norm': 2.2817564010620117, 'learning_rate': 3.7685572896840504e-06, 'epoch': 0.99}
+{'loss': 3.4382, 'grad_norm': 2.4063196182250977, 'learning_rate': 3.766653977921584e-06, 'epoch': 0.99}
+{'eval_loss': 3.802734375, 'eval_runtime': 4.1626, 'eval_samples_per_second': 240.234, 'eval_steps_per_second': 10.09, 'epoch': 0.99}
+{'loss': 3.4274, 'grad_norm': 2.4947564601898193, 'learning_rate': 3.764750666159117e-06, 'epoch': 0.99}
+{'loss': 3.4906, 'grad_norm': 2.213707685470581, 'learning_rate': 3.7628473543966505e-06, 'epoch': 0.99}
+{'loss': 3.4919, 'grad_norm': 2.092907428741455, 'learning_rate': 3.7609440426341835e-06, 'epoch': 0.99}
+{'loss': 3.4284, 'grad_norm': 2.367401599884033, 'learning_rate': 3.759040730871717e-06, 'epoch': 0.99}
+{'loss': 3.4538, 'grad_norm': 2.661745548248291, 'learning_rate': 3.75713741910925e-06, 'epoch': 0.99}
+{'loss': 3.5013, 'grad_norm': 1.9483884572982788, 'learning_rate': 3.7552341073467836e-06, 'epoch': 0.99}
+{'loss': 3.5465, 'grad_norm': 2.262402057647705, 'learning_rate': 3.753330795584317e-06, 'epoch': 0.99}
+{'loss': 3.4525, 'grad_norm': 2.2501773834228516, 'learning_rate': 3.75142748382185e-06, 'epoch': 0.99}
+{'loss': 3.4014, 'grad_norm': 2.6208040714263916, 'learning_rate': 3.749524172059384e-06, 'epoch': 1.0}
+{'loss': 3.4502, 'grad_norm': 2.2904114723205566, 'learning_rate': 3.747620860296917e-06, 'epoch': 1.0}
+{'eval_loss': 3.8046875, 'eval_runtime': 4.1459, 'eval_samples_per_second': 241.199, 'eval_steps_per_second': 10.13, 'epoch': 1.0}
+{'loss': 3.4622, 'grad_norm': 2.3371031284332275, 'learning_rate': 3.7457175485344504e-06, 'epoch': 1.0}
+{'loss': 3.4779, 'grad_norm': 2.707148551940918, 'learning_rate': 3.7438142367719837e-06, 'epoch': 1.0}
+{'loss': 3.4753, 'grad_norm': 2.1349852085113525, 'learning_rate': 3.741910925009517e-06, 'epoch': 1.0}
+{'loss': 3.4258, 'grad_norm': 2.5473320484161377, 'learning_rate': 3.7400076132470505e-06, 'epoch': 1.0}
+{'loss': 3.3385, 'grad_norm': 2.3644962310791016, 'learning_rate': 3.7381043014845834e-06, 'epoch': 1.0}
+{'loss': 3.4336, 'grad_norm': 2.0997390747070312, 'learning_rate': 3.7362009897221168e-06, 'epoch': 1.0}
+{'loss': 3.5, 'grad_norm': 2.0132930278778076, 'learning_rate': 3.73429767795965e-06, 'epoch': 1.0}
+{'loss': 3.4554, 'grad_norm': 2.2387914657592773, 'learning_rate': 3.7323943661971835e-06, 'epoch': 1.0}
+{'loss': 3.4473, 'grad_norm': 2.1798276901245117, 'learning_rate': 3.730491054434717e-06, 'epoch': 1.01}
+{'loss': 3.4229, 'grad_norm': 2.449836015701294, 'learning_rate': 3.72858774267225e-06, 'epoch': 1.01}
+{'eval_loss': 3.8046875, 'eval_runtime': 4.1448, 'eval_samples_per_second': 241.264, 'eval_steps_per_second': 10.133, 'epoch': 1.01}
+{'loss': 3.4528, 'grad_norm': 2.018357038497925, 'learning_rate': 3.726684430909783e-06, 'epoch': 1.01}
+{'loss': 3.4678, 'grad_norm': 2.1028544902801514, 'learning_rate': 3.7247811191473165e-06, 'epoch': 1.01}
+{'loss': 3.4596, 'grad_norm': 2.4587442874908447, 'learning_rate': 3.72287780738485e-06, 'epoch': 1.01}
+{'loss': 3.4909, 'grad_norm': 2.09920072555542, 'learning_rate': 3.7209744956223832e-06, 'epoch': 1.01}
+{'loss': 3.431, 'grad_norm': 2.3759665489196777, 'learning_rate': 3.719071183859916e-06, 'epoch': 1.01}
+{'loss': 3.5101, 'grad_norm': 2.1862599849700928, 'learning_rate': 3.7171678720974495e-06, 'epoch': 1.01}
+{'loss': 3.4365, 'grad_norm': 2.1829288005828857, 'learning_rate': 3.715264560334983e-06, 'epoch': 1.01}
+{'loss': 3.3844, 'grad_norm': 2.3063435554504395, 'learning_rate': 3.7133612485725163e-06, 'epoch': 1.01}
+{'loss': 3.4785, 'grad_norm': 2.290513277053833, 'learning_rate': 3.71145793681005e-06, 'epoch': 1.02}
+{'loss': 3.4505, 'grad_norm': 2.3450512886047363, 'learning_rate': 3.7095546250475834e-06, 'epoch': 1.02}
+{'eval_loss': 3.80078125, 'eval_runtime': 4.1515, 'eval_samples_per_second': 240.878, 'eval_steps_per_second': 10.117, 'epoch': 1.02}
+{'loss': 3.4258, 'grad_norm': 2.3682212829589844, 'learning_rate': 3.7076513132851168e-06, 'epoch': 1.02}
+{'loss': 3.4814, 'grad_norm': 2.441190242767334, 'learning_rate': 3.7057480015226497e-06, 'epoch': 1.02}
+{'loss': 3.4723, 'grad_norm': 2.204706907272339, 'learning_rate': 3.703844689760183e-06, 'epoch': 1.02}
+{'loss': 3.487, 'grad_norm': 2.243215560913086, 'learning_rate': 3.7019413779977164e-06, 'epoch': 1.02}
+{'loss': 3.5124, 'grad_norm': 2.1128346920013428, 'learning_rate': 3.70003806623525e-06, 'epoch': 1.02}
+{'loss': 3.4443, 'grad_norm': 2.228940963745117, 'learning_rate': 3.698134754472783e-06, 'epoch': 1.02}
+{'loss': 3.4616, 'grad_norm': 2.246394634246826, 'learning_rate': 3.696231442710316e-06, 'epoch': 1.02}
+{'loss': 3.4463, 'grad_norm': 2.6809606552124023, 'learning_rate': 3.6943281309478495e-06, 'epoch': 1.03}
+{'loss': 3.4661, 'grad_norm': 2.367936849594116, 'learning_rate': 3.692424819185383e-06, 'epoch': 1.03}
+{'loss': 3.4215, 'grad_norm': 2.105081796646118, 'learning_rate': 3.690521507422916e-06, 'epoch': 1.03}
+{'eval_loss': 3.80078125, 'eval_runtime': 4.1489, 'eval_samples_per_second': 241.028, 'eval_steps_per_second': 10.123, 'epoch': 1.03}
+{'loss': 3.4535, 'grad_norm': 2.329106092453003, 'learning_rate': 3.6886181956604496e-06, 'epoch': 1.03}
+{'loss': 3.4733, 'grad_norm': 2.284152030944824, 'learning_rate': 3.686714883897983e-06, 'epoch': 1.03}
+{'loss': 3.4775, 'grad_norm': 2.1119065284729004, 'learning_rate': 3.684811572135516e-06, 'epoch': 1.03}
+{'loss': 3.5166, 'grad_norm': 2.104943037033081, 'learning_rate': 3.6829082603730492e-06, 'epoch': 1.03}
+{'loss': 3.4411, 'grad_norm': 2.320469617843628, 'learning_rate': 3.6810049486105826e-06, 'epoch': 1.03}
+{'loss': 3.3643, 'grad_norm': 2.458895444869995, 'learning_rate': 3.679101636848116e-06, 'epoch': 1.03}
+{'loss': 3.4421, 'grad_norm': 2.2037293910980225, 'learning_rate': 3.6771983250856493e-06, 'epoch': 1.03}
+{'loss': 3.416, 'grad_norm': 2.295079231262207, 'learning_rate': 3.6752950133231822e-06, 'epoch': 1.04}
+{'loss': 3.4544, 'grad_norm': 1.9723697900772095, 'learning_rate': 3.6733917015607156e-06, 'epoch': 1.04}
+{'loss': 3.3949, 'grad_norm': 2.803640842437744, 'learning_rate': 3.6714883897982494e-06, 'epoch': 1.04}
+{'eval_loss': 3.796875, 'eval_runtime': 4.1399, 'eval_samples_per_second': 241.551, 'eval_steps_per_second': 10.145, 'epoch': 1.04}
+{'loss': 3.4219, 'grad_norm': 2.260776996612549, 'learning_rate': 3.6695850780357828e-06, 'epoch': 1.04}
+{'loss': 3.4587, 'grad_norm': 2.234001398086548, 'learning_rate': 3.667681766273316e-06, 'epoch': 1.04}
+{'loss': 3.4395, 'grad_norm': 2.1754088401794434, 'learning_rate': 3.6657784545108495e-06, 'epoch': 1.04}
+{'loss': 3.3835, 'grad_norm': 1.9257358312606812, 'learning_rate': 3.6638751427483824e-06, 'epoch': 1.04}
+{'loss': 3.4362, 'grad_norm': 2.2799456119537354, 'learning_rate': 3.6619718309859158e-06, 'epoch': 1.04}
+{'loss': 3.3854, 'grad_norm': 2.2621359825134277, 'learning_rate': 3.660068519223449e-06, 'epoch': 1.04}
+{'loss': 3.4811, 'grad_norm': 2.0708553791046143, 'learning_rate': 3.6581652074609825e-06, 'epoch': 1.04}
+{'loss': 3.4362, 'grad_norm': 2.2033393383026123, 'learning_rate': 3.656261895698516e-06, 'epoch': 1.05}
+{'loss': 3.3802, 'grad_norm': 2.2709054946899414, 'learning_rate': 3.6543585839360492e-06, 'epoch': 1.05}
+{'loss': 3.4492, 'grad_norm': 2.3018062114715576, 'learning_rate': 3.652455272173582e-06, 'epoch': 1.05}
+{'eval_loss': 3.798828125, 'eval_runtime': 4.1561, 'eval_samples_per_second': 240.611, 'eval_steps_per_second': 10.106, 'epoch': 1.05}
+{'loss': 3.4554, 'grad_norm': 2.1967568397521973, 'learning_rate': 3.6505519604111155e-06, 'epoch': 1.05}
+{'loss': 3.4124, 'grad_norm': 2.142993688583374, 'learning_rate': 3.648648648648649e-06, 'epoch': 1.05}
+{'loss': 3.4535, 'grad_norm': 2.148183584213257, 'learning_rate': 3.6467453368861823e-06, 'epoch': 1.05}
+{'loss': 3.3848, 'grad_norm': 2.042048692703247, 'learning_rate': 3.6448420251237156e-06, 'epoch': 1.05}
+{'loss': 3.4827, 'grad_norm': 2.2155749797821045, 'learning_rate': 3.6429387133612486e-06, 'epoch': 1.05}
+{'loss': 3.5036, 'grad_norm': 2.1828792095184326, 'learning_rate': 3.641035401598782e-06, 'epoch': 1.05}
+{'loss': 3.4909, 'grad_norm': 2.34977650642395, 'learning_rate': 3.6391320898363153e-06, 'epoch': 1.05}
+{'loss': 3.4141, 'grad_norm': 2.228449583053589, 'learning_rate': 3.6372287780738487e-06, 'epoch': 1.06}
+{'loss': 3.4701, 'grad_norm': 2.302716016769409, 'learning_rate': 3.635325466311382e-06, 'epoch': 1.06}
+{'loss': 3.3883, 'grad_norm': 2.5626778602600098, 'learning_rate': 3.633422154548916e-06, 'epoch': 1.06}
+{'eval_loss': 3.791015625, 'eval_runtime': 4.1427, 'eval_samples_per_second': 241.391, 'eval_steps_per_second': 10.138, 'epoch': 1.06}
+{'loss': 3.3844, 'grad_norm': 2.7836127281188965, 'learning_rate': 3.6315188427864487e-06, 'epoch': 1.06}
+{'loss': 3.3799, 'grad_norm': 2.367475986480713, 'learning_rate': 3.629615531023982e-06, 'epoch': 1.06}
+{'loss': 3.389, 'grad_norm': 2.335298776626587, 'learning_rate': 3.6277122192615155e-06, 'epoch': 1.06}
+{'loss': 3.4788, 'grad_norm': 2.2476375102996826, 'learning_rate': 3.625808907499049e-06, 'epoch': 1.06}
+{'loss': 3.4007, 'grad_norm': 2.050771951675415, 'learning_rate': 3.623905595736582e-06, 'epoch': 1.06}
+{'loss': 3.3997, 'grad_norm': 2.0757176876068115, 'learning_rate': 3.6220022839741156e-06, 'epoch': 1.06}
+{'loss': 3.4199, 'grad_norm': 2.049820899963379, 'learning_rate': 3.6200989722116485e-06, 'epoch': 1.07}
+{'loss': 3.417, 'grad_norm': 2.0672249794006348, 'learning_rate': 3.618195660449182e-06, 'epoch': 1.07}
+{'loss': 3.3997, 'grad_norm': 2.196706533432007, 'learning_rate': 3.6162923486867152e-06, 'epoch': 1.07}
+{'loss': 3.5391, 'grad_norm': 2.656550884246826, 'learning_rate': 3.6143890369242486e-06, 'epoch': 1.07}
+{'eval_loss': 3.794921875, 'eval_runtime': 4.1495, 'eval_samples_per_second': 240.995, 'eval_steps_per_second': 10.122, 'epoch': 1.07}
+{'loss': 3.4701, 'grad_norm': 2.048222064971924, 'learning_rate': 3.612485725161782e-06, 'epoch': 1.07}
+{'loss': 3.39, 'grad_norm': 2.5753774642944336, 'learning_rate': 3.610582413399315e-06, 'epoch': 1.07}
+{'loss': 3.5173, 'grad_norm': 2.5929908752441406, 'learning_rate': 3.6086791016368482e-06, 'epoch': 1.07}
+{'loss': 3.4398, 'grad_norm': 2.418785333633423, 'learning_rate': 3.6067757898743816e-06, 'epoch': 1.07}
+{'loss': 3.3551, 'grad_norm': 2.06644344329834, 'learning_rate': 3.604872478111915e-06, 'epoch': 1.07}
+{'loss': 3.4469, 'grad_norm': 2.0653223991394043, 'learning_rate': 3.6029691663494483e-06, 'epoch': 1.07}
+{'loss': 3.4779, 'grad_norm': 2.002039670944214, 'learning_rate': 3.6010658545869813e-06, 'epoch': 1.08}
+{'loss': 3.4294, 'grad_norm': 1.9437004327774048, 'learning_rate': 3.5991625428245146e-06, 'epoch': 1.08}
+{'loss': 3.457, 'grad_norm': 1.9266504049301147, 'learning_rate': 3.597259231062048e-06, 'epoch': 1.08}
+{'loss': 3.3949, 'grad_norm': 2.1880059242248535, 'learning_rate': 3.5953559192995818e-06, 'epoch': 1.08}
+{'eval_loss': 3.79296875, 'eval_runtime': 4.1587, 'eval_samples_per_second': 240.461, 'eval_steps_per_second': 10.099, 'epoch': 1.08}
+{'loss': 3.4349, 'grad_norm': 2.5219500064849854, 'learning_rate': 3.593452607537115e-06, 'epoch': 1.08}
+{'loss': 3.3828, 'grad_norm': 2.1483421325683594, 'learning_rate': 3.5915492957746485e-06, 'epoch': 1.08}
+{'loss': 3.5358, 'grad_norm': 2.550422430038452, 'learning_rate': 3.589645984012182e-06, 'epoch': 1.08}
+{'loss': 3.2682, 'grad_norm': 2.5934360027313232, 'learning_rate': 3.587742672249715e-06, 'epoch': 1.08}
+{'loss': 3.43, 'grad_norm': 2.4992148876190186, 'learning_rate': 3.585839360487248e-06, 'epoch': 1.08}
+{'loss': 3.5225, 'grad_norm': 2.585129976272583, 'learning_rate': 3.5839360487247815e-06, 'epoch': 1.08}
+{'loss': 3.4251, 'grad_norm': 2.181922674179077, 'learning_rate': 3.582032736962315e-06, 'epoch': 1.09}
+{'loss': 3.4079, 'grad_norm': 2.141294240951538, 'learning_rate': 3.5801294251998483e-06, 'epoch': 1.09}
+{'loss': 3.4212, 'grad_norm': 2.5808844566345215, 'learning_rate': 3.578226113437381e-06, 'epoch': 1.09}
+{'loss': 3.4482, 'grad_norm': 2.395944595336914, 'learning_rate': 3.5763228016749146e-06, 'epoch': 1.09}
+{'eval_loss': 3.7890625, 'eval_runtime': 4.1449, 'eval_samples_per_second': 241.263, 'eval_steps_per_second': 10.133, 'epoch': 1.09}
+{'loss': 3.4671, 'grad_norm': 2.099762439727783, 'learning_rate': 3.574419489912448e-06, 'epoch': 1.09}
+{'loss': 3.4554, 'grad_norm': 2.1310207843780518, 'learning_rate': 3.5725161781499813e-06, 'epoch': 1.09}
+{'loss': 3.3887, 'grad_norm': 2.4591567516326904, 'learning_rate': 3.5706128663875147e-06, 'epoch': 1.09}
+{'loss': 3.5124, 'grad_norm': 2.487046480178833, 'learning_rate': 3.5687095546250476e-06, 'epoch': 1.09}
+{'loss': 3.4499, 'grad_norm': 2.408647060394287, 'learning_rate': 3.566806242862581e-06, 'epoch': 1.09}
+{'loss': 3.485, 'grad_norm': 2.605510950088501, 'learning_rate': 3.5649029311001143e-06, 'epoch': 1.1}
+{'loss': 3.4948, 'grad_norm': 2.220203161239624, 'learning_rate': 3.5629996193376477e-06, 'epoch': 1.1}
+{'loss': 3.3613, 'grad_norm': 2.4706358909606934, 'learning_rate': 3.561096307575181e-06, 'epoch': 1.1}
+{'loss': 3.4714, 'grad_norm': 2.520744800567627, 'learning_rate': 3.559192995812714e-06, 'epoch': 1.1}
+{'loss': 3.3301, 'grad_norm': 2.2905149459838867, 'learning_rate': 3.557289684050248e-06, 'epoch': 1.1}
+{'eval_loss': 3.798828125, 'eval_runtime': 4.1517, 'eval_samples_per_second': 240.864, 'eval_steps_per_second': 10.116, 'epoch': 1.1}
+{'loss': 3.3916, 'grad_norm': 2.1906583309173584, 'learning_rate': 3.555386372287781e-06, 'epoch': 1.1}
+{'loss': 3.3672, 'grad_norm': 2.3642868995666504, 'learning_rate': 3.5534830605253145e-06, 'epoch': 1.1}
+{'loss': 3.4352, 'grad_norm': 2.454796552658081, 'learning_rate': 3.551579748762848e-06, 'epoch': 1.1}
+{'loss': 3.5462, 'grad_norm': 2.217057943344116, 'learning_rate': 3.5496764370003812e-06, 'epoch': 1.1}
+{'loss': 3.3503, 'grad_norm': 2.2364721298217773, 'learning_rate': 3.5477731252379146e-06, 'epoch': 1.1}
+{'loss': 3.5163, 'grad_norm': 2.4928205013275146, 'learning_rate': 3.5458698134754475e-06, 'epoch': 1.11}
+{'loss': 3.4642, 'grad_norm': 1.9817473888397217, 'learning_rate': 3.543966501712981e-06, 'epoch': 1.11}
+{'loss': 3.3633, 'grad_norm': 2.4964759349823, 'learning_rate': 3.5420631899505142e-06, 'epoch': 1.11}
+{'loss': 3.4486, 'grad_norm': 2.187631368637085, 'learning_rate': 3.5401598781880476e-06, 'epoch': 1.11}
+{'loss': 3.3721, 'grad_norm': 2.564142942428589, 'learning_rate': 3.538256566425581e-06, 'epoch': 1.11}
+{'eval_loss': 3.787109375, 'eval_runtime': 4.1518, 'eval_samples_per_second': 240.861, 'eval_steps_per_second': 10.116, 'epoch': 1.11}
+{'loss': 3.4023, 'grad_norm': 2.1741952896118164, 'learning_rate': 3.536353254663114e-06, 'epoch': 1.11}
+{'loss': 3.4505, 'grad_norm': 2.5326151847839355, 'learning_rate': 3.5344499429006473e-06, 'epoch': 1.11}
+{'loss': 3.4538, 'grad_norm': 2.2603447437286377, 'learning_rate': 3.5325466311381806e-06, 'epoch': 1.11}
+{'loss': 3.3604, 'grad_norm': 2.1582674980163574, 'learning_rate': 3.530643319375714e-06, 'epoch': 1.11}
+{'loss': 3.333, 'grad_norm': 2.7603838443756104, 'learning_rate': 3.5287400076132474e-06, 'epoch': 1.11}
+{'loss': 3.4027, 'grad_norm': 2.329463005065918, 'learning_rate': 3.5268366958507803e-06, 'epoch': 1.12}
+{'loss': 3.4541, 'grad_norm': 2.1806352138519287, 'learning_rate': 3.5249333840883137e-06, 'epoch': 1.12}
+{'loss': 3.4017, 'grad_norm': 2.0054469108581543, 'learning_rate': 3.523030072325847e-06, 'epoch': 1.12}
+{'loss': 3.4124, 'grad_norm': 2.2524523735046387, 'learning_rate': 3.5211267605633804e-06, 'epoch': 1.12}
+{'loss': 3.3682, 'grad_norm': 2.340339422225952, 'learning_rate': 3.519223448800914e-06, 'epoch': 1.12}
+{'eval_loss': 3.794921875, 'eval_runtime': 4.1393, 'eval_samples_per_second': 241.587, 'eval_steps_per_second': 10.147, 'epoch': 1.12}
+{'loss': 3.4378, 'grad_norm': 2.2907588481903076, 'learning_rate': 3.5173201370384475e-06, 'epoch': 1.12}
+{'loss': 3.4684, 'grad_norm': 2.115105390548706, 'learning_rate': 3.515416825275981e-06, 'epoch': 1.12}
+{'loss': 3.3555, 'grad_norm': 2.252748727798462, 'learning_rate': 3.513513513513514e-06, 'epoch': 1.12}
+{'loss': 3.3903, 'grad_norm': 2.2439188957214355, 'learning_rate': 3.511610201751047e-06, 'epoch': 1.12}
+{'loss': 3.4434, 'grad_norm': 2.1615395545959473, 'learning_rate': 3.5097068899885806e-06, 'epoch': 1.12}
+{'loss': 3.4733, 'grad_norm': 2.4201130867004395, 'learning_rate': 3.507803578226114e-06, 'epoch': 1.13}
+{'loss': 3.4199, 'grad_norm': 2.121058225631714, 'learning_rate': 3.5059002664636473e-06, 'epoch': 1.13}
+{'loss': 3.3776, 'grad_norm': 2.075618028640747, 'learning_rate': 3.5039969547011802e-06, 'epoch': 1.13}
+{'loss': 3.3278, 'grad_norm': 2.299973964691162, 'learning_rate': 3.5020936429387136e-06, 'epoch': 1.13}
+{'loss': 3.444, 'grad_norm': 2.159991502761841, 'learning_rate': 3.500190331176247e-06, 'epoch': 1.13}
+{'eval_loss': 3.78515625, 'eval_runtime': 4.156, 'eval_samples_per_second': 240.616, 'eval_steps_per_second': 10.106, 'epoch': 1.13}
+{'loss': 3.4577, 'grad_norm': 2.13094425201416, 'learning_rate': 3.4982870194137803e-06, 'epoch': 1.13}
+{'loss': 3.3929, 'grad_norm': 2.41642689704895, 'learning_rate': 3.4963837076513137e-06, 'epoch': 1.13}
+{'loss': 3.4199, 'grad_norm': 2.240781545639038, 'learning_rate': 3.4944803958888466e-06, 'epoch': 1.13}
+{'loss': 3.4437, 'grad_norm': 2.169496536254883, 'learning_rate': 3.49257708412638e-06, 'epoch': 1.13}
+{'loss': 3.3327, 'grad_norm': 2.324885845184326, 'learning_rate': 3.4906737723639133e-06, 'epoch': 1.14}
+{'loss': 3.3838, 'grad_norm': 2.4443812370300293, 'learning_rate': 3.4887704606014467e-06, 'epoch': 1.14}
+{'loss': 3.4365, 'grad_norm': 2.413745641708374, 'learning_rate': 3.48686714883898e-06, 'epoch': 1.14}
+{'loss': 3.4411, 'grad_norm': 2.075758934020996, 'learning_rate': 3.484963837076513e-06, 'epoch': 1.14}
+{'loss': 3.444, 'grad_norm': 2.429856538772583, 'learning_rate': 3.4830605253140464e-06, 'epoch': 1.14}
+{'loss': 3.4049, 'grad_norm': 2.0707266330718994, 'learning_rate': 3.4811572135515797e-06, 'epoch': 1.14}
+{'eval_loss': 3.78515625, 'eval_runtime': 4.1597, 'eval_samples_per_second': 240.403, 'eval_steps_per_second': 10.097, 'epoch': 1.14}
+{'loss': 3.3698, 'grad_norm': 2.179243326187134, 'learning_rate': 3.4792539017891135e-06, 'epoch': 1.14}
+{'loss': 3.3688, 'grad_norm': 1.98839271068573, 'learning_rate': 3.477350590026647e-06, 'epoch': 1.14}
+{'loss': 3.5068, 'grad_norm': 2.355724811553955, 'learning_rate': 3.4754472782641802e-06, 'epoch': 1.14}
+{'loss': 3.4697, 'grad_norm': 2.3747410774230957, 'learning_rate': 3.4735439665017136e-06, 'epoch': 1.14}
+{'loss': 3.3493, 'grad_norm': 2.4954304695129395, 'learning_rate': 3.4716406547392465e-06, 'epoch': 1.15}
+{'loss': 3.3509, 'grad_norm': 2.128011703491211, 'learning_rate': 3.46973734297678e-06, 'epoch': 1.15}
+{'loss': 3.4281, 'grad_norm': 2.1283278465270996, 'learning_rate': 3.4678340312143133e-06, 'epoch': 1.15}
+{'loss': 3.4766, 'grad_norm': 2.6646361351013184, 'learning_rate': 3.4659307194518466e-06, 'epoch': 1.15}
+{'loss': 3.4352, 'grad_norm': 2.1376922130584717, 'learning_rate': 3.46402740768938e-06, 'epoch': 1.15}
+{'loss': 3.3809, 'grad_norm': 2.1257076263427734, 'learning_rate': 3.462124095926913e-06, 'epoch': 1.15}
+{'eval_loss': 3.7890625, 'eval_runtime': 4.1463, 'eval_samples_per_second': 241.179, 'eval_steps_per_second': 10.13, 'epoch': 1.15}
+{'loss': 3.362, 'grad_norm': 2.210401773452759, 'learning_rate': 3.4602207841644463e-06, 'epoch': 1.15}
+{'loss': 3.4313, 'grad_norm': 2.051774740219116, 'learning_rate': 3.4583174724019797e-06, 'epoch': 1.15}
+{'loss': 3.3411, 'grad_norm': 2.5870306491851807, 'learning_rate': 3.456414160639513e-06, 'epoch': 1.15}
+{'loss': 3.4189, 'grad_norm': 2.3667495250701904, 'learning_rate': 3.4545108488770464e-06, 'epoch': 1.15}
+{'loss': 3.4355, 'grad_norm': 2.494784355163574, 'learning_rate': 3.4526075371145793e-06, 'epoch': 1.16}
+{'loss': 3.4294, 'grad_norm': 2.0521042346954346, 'learning_rate': 3.4507042253521127e-06, 'epoch': 1.16}
+{'loss': 3.4056, 'grad_norm': 2.2142724990844727, 'learning_rate': 3.448800913589646e-06, 'epoch': 1.16}
+{'loss': 3.4076, 'grad_norm': 2.237147569656372, 'learning_rate': 3.4468976018271794e-06, 'epoch': 1.16}
+{'loss': 3.3333, 'grad_norm': 2.230293035507202, 'learning_rate': 3.4449942900647128e-06, 'epoch': 1.16}
+{'loss': 3.4144, 'grad_norm': 2.341398239135742, 'learning_rate': 3.443090978302246e-06, 'epoch': 1.16}
+{'eval_loss': 3.783203125, 'eval_runtime': 4.1499, 'eval_samples_per_second': 240.968, 'eval_steps_per_second': 10.121, 'epoch': 1.16}
+{'loss': 3.4033, 'grad_norm': 2.2797963619232178, 'learning_rate': 3.44118766653978e-06, 'epoch': 1.16}
+{'loss': 3.4235, 'grad_norm': 2.199638605117798, 'learning_rate': 3.439284354777313e-06, 'epoch': 1.16}
+{'loss': 3.4473, 'grad_norm': 2.2034459114074707, 'learning_rate': 3.4373810430148462e-06, 'epoch': 1.16}
+{'loss': 3.3623, 'grad_norm': 2.1741063594818115, 'learning_rate': 3.4354777312523796e-06, 'epoch': 1.16}
+{'loss': 3.5049, 'grad_norm': 2.2760674953460693, 'learning_rate': 3.433574419489913e-06, 'epoch': 1.17}
+{'loss': 3.3493, 'grad_norm': 2.4665584564208984, 'learning_rate': 3.4316711077274463e-06, 'epoch': 1.17}
+{'loss': 3.4017, 'grad_norm': 2.18273663520813, 'learning_rate': 3.4297677959649792e-06, 'epoch': 1.17}
+{'loss': 3.5088, 'grad_norm': 2.2871177196502686, 'learning_rate': 3.4278644842025126e-06, 'epoch': 1.17}
+{'loss': 3.3984, 'grad_norm': 2.1112184524536133, 'learning_rate': 3.425961172440046e-06, 'epoch': 1.17}
+{'loss': 3.4115, 'grad_norm': 2.658895969390869, 'learning_rate': 3.4240578606775793e-06, 'epoch': 1.17}
+{'eval_loss': 3.78125, 'eval_runtime': 4.1551, 'eval_samples_per_second': 240.666, 'eval_steps_per_second': 10.108, 'epoch': 1.17}
+{'loss': 3.3301, 'grad_norm': 2.4409964084625244, 'learning_rate': 3.4221545489151127e-06, 'epoch': 1.17}
+{'loss': 3.4733, 'grad_norm': 2.2840256690979004, 'learning_rate': 3.4202512371526456e-06, 'epoch': 1.17}
+{'loss': 3.3444, 'grad_norm': 2.6975653171539307, 'learning_rate': 3.418347925390179e-06, 'epoch': 1.17}
+{'loss': 3.4059, 'grad_norm': 2.042588949203491, 'learning_rate': 3.4164446136277124e-06, 'epoch': 1.18}
+{'loss': 3.3372, 'grad_norm': 2.340447425842285, 'learning_rate': 3.4145413018652457e-06, 'epoch': 1.18}
+{'loss': 3.4212, 'grad_norm': 2.089639186859131, 'learning_rate': 3.412637990102779e-06, 'epoch': 1.18}
+{'loss': 3.4326, 'grad_norm': 2.2731165885925293, 'learning_rate': 3.4107346783403125e-06, 'epoch': 1.18}
+{'loss': 3.3623, 'grad_norm': 2.085846185684204, 'learning_rate': 3.4088313665778454e-06, 'epoch': 1.18}
+{'loss': 3.3848, 'grad_norm': 1.971339464187622, 'learning_rate': 3.4069280548153788e-06, 'epoch': 1.18}
+{'loss': 3.3132, 'grad_norm': 2.2093231678009033, 'learning_rate': 3.405024743052912e-06, 'epoch': 1.18}
+{'eval_loss': 3.7890625, 'eval_runtime': 4.1399, 'eval_samples_per_second': 241.55, 'eval_steps_per_second': 10.145, 'epoch': 1.18}
+{'loss': 3.4173, 'grad_norm': 2.3900530338287354, 'learning_rate': 3.403121431290446e-06, 'epoch': 1.18}
+{'loss': 3.4417, 'grad_norm': 2.1097679138183594, 'learning_rate': 3.4012181195279793e-06, 'epoch': 1.18}
+{'loss': 3.3831, 'grad_norm': 2.261469841003418, 'learning_rate': 3.3993148077655126e-06, 'epoch': 1.18}
+{'loss': 3.4092, 'grad_norm': 2.064490795135498, 'learning_rate': 3.3974114960030456e-06, 'epoch': 1.19}
+{'loss': 3.375, 'grad_norm': 1.991569995880127, 'learning_rate': 3.395508184240579e-06, 'epoch': 1.19}
+{'loss': 3.4222, 'grad_norm': 2.2480764389038086, 'learning_rate': 3.3936048724781123e-06, 'epoch': 1.19}
+{'loss': 3.4463, 'grad_norm': 1.9832079410552979, 'learning_rate': 3.3917015607156457e-06, 'epoch': 1.19}
+{'loss': 3.3372, 'grad_norm': 2.2652900218963623, 'learning_rate': 3.389798248953179e-06, 'epoch': 1.19}
+{'loss': 3.4355, 'grad_norm': 2.4885706901550293, 'learning_rate': 3.387894937190712e-06, 'epoch': 1.19}
+{'loss': 3.3812, 'grad_norm': 1.8465526103973389, 'learning_rate': 3.3859916254282453e-06, 'epoch': 1.19}
+{'eval_loss': 3.783203125, 'eval_runtime': 4.1551, 'eval_samples_per_second': 240.67, 'eval_steps_per_second': 10.108, 'epoch': 1.19}
+{'loss': 3.389, 'grad_norm': 2.163106679916382, 'learning_rate': 3.3840883136657787e-06, 'epoch': 1.19}
+{'loss': 3.388, 'grad_norm': 2.177345037460327, 'learning_rate': 3.382185001903312e-06, 'epoch': 1.19}
+{'loss': 3.3721, 'grad_norm': 2.0443785190582275, 'learning_rate': 3.3802816901408454e-06, 'epoch': 1.19}
+{'loss': 3.361, 'grad_norm': 2.3597359657287598, 'learning_rate': 3.3783783783783788e-06, 'epoch': 1.2}
+{'loss': 3.4482, 'grad_norm': 2.3180675506591797, 'learning_rate': 3.3764750666159117e-06, 'epoch': 1.2}
+{'loss': 3.4007, 'grad_norm': 2.34020733833313, 'learning_rate': 3.374571754853445e-06, 'epoch': 1.2}
+{'loss': 3.3721, 'grad_norm': 2.2838497161865234, 'learning_rate': 3.3726684430909784e-06, 'epoch': 1.2}
+{'loss': 3.4238, 'grad_norm': 2.4318981170654297, 'learning_rate': 3.370765131328512e-06, 'epoch': 1.2}
+{'loss': 3.4124, 'grad_norm': 1.9775649309158325, 'learning_rate': 3.368861819566045e-06, 'epoch': 1.2}
+{'loss': 3.4567, 'grad_norm': 2.172421455383301, 'learning_rate': 3.366958507803578e-06, 'epoch': 1.2}
+{'eval_loss': 3.783203125, 'eval_runtime': 4.1487, 'eval_samples_per_second': 241.039, 'eval_steps_per_second': 10.124, 'epoch': 1.2}
+{'loss': 3.4424, 'grad_norm': 2.361753463745117, 'learning_rate': 3.365055196041112e-06, 'epoch': 1.2}
+{'loss': 3.445, 'grad_norm': 1.945621371269226, 'learning_rate': 3.3631518842786452e-06, 'epoch': 1.2}
+{'loss': 3.3815, 'grad_norm': 2.0771901607513428, 'learning_rate': 3.3612485725161786e-06, 'epoch': 1.2}
+{'loss': 3.4707, 'grad_norm': 2.0673227310180664, 'learning_rate': 3.359345260753712e-06, 'epoch': 1.21}
+{'loss': 3.3509, 'grad_norm': 2.374241352081299, 'learning_rate': 3.3574419489912453e-06, 'epoch': 1.21}
+{'loss': 3.4382, 'grad_norm': 2.0311508178710938, 'learning_rate': 3.3555386372287783e-06, 'epoch': 1.21}
+{'loss': 3.3389, 'grad_norm': 2.230682611465454, 'learning_rate': 3.3536353254663116e-06, 'epoch': 1.21}
+{'loss': 3.4154, 'grad_norm': 1.9774354696273804, 'learning_rate': 3.351732013703845e-06, 'epoch': 1.21}
+{'loss': 3.3643, 'grad_norm': 2.173396587371826, 'learning_rate': 3.3498287019413784e-06, 'epoch': 1.21}
+{'loss': 3.3835, 'grad_norm': 2.1179535388946533, 'learning_rate': 3.3479253901789117e-06, 'epoch': 1.21}
+{'eval_loss': 3.78125, 'eval_runtime': 4.1447, 'eval_samples_per_second': 241.269, 'eval_steps_per_second': 10.133, 'epoch': 1.21}
+{'loss': 3.3464, 'grad_norm': 2.334951400756836, 'learning_rate': 3.346022078416445e-06, 'epoch': 1.21}
+{'loss': 3.4274, 'grad_norm': 2.3684754371643066, 'learning_rate': 3.344118766653978e-06, 'epoch': 1.21}
+{'loss': 3.4505, 'grad_norm': 2.0012102127075195, 'learning_rate': 3.3422154548915114e-06, 'epoch': 1.22}
+{'loss': 3.4395, 'grad_norm': 2.2837769985198975, 'learning_rate': 3.3403121431290448e-06, 'epoch': 1.22}
+{'loss': 3.3304, 'grad_norm': 2.1591053009033203, 'learning_rate': 3.338408831366578e-06, 'epoch': 1.22}
+{'loss': 3.4046, 'grad_norm': 1.977226972579956, 'learning_rate': 3.3365055196041115e-06, 'epoch': 1.22}
+{'loss': 3.4753, 'grad_norm': 2.3781774044036865, 'learning_rate': 3.3346022078416444e-06, 'epoch': 1.22}
+{'loss': 3.418, 'grad_norm': 2.1170549392700195, 'learning_rate': 3.3326988960791778e-06, 'epoch': 1.22}
+{'loss': 3.3851, 'grad_norm': 2.1999611854553223, 'learning_rate': 3.330795584316711e-06, 'epoch': 1.22}
+{'loss': 3.4323, 'grad_norm': 2.302334785461426, 'learning_rate': 3.3288922725542445e-06, 'epoch': 1.22}
+{'eval_loss': 3.779296875, 'eval_runtime': 4.1621, 'eval_samples_per_second': 240.261, 'eval_steps_per_second': 10.091, 'epoch': 1.22}
+{'loss': 3.4421, 'grad_norm': 2.3185596466064453, 'learning_rate': 3.326988960791778e-06, 'epoch': 1.22}
+{'loss': 3.4414, 'grad_norm': 1.89190673828125, 'learning_rate': 3.3250856490293117e-06, 'epoch': 1.22}
+{'loss': 3.3457, 'grad_norm': 2.3206939697265625, 'learning_rate': 3.323182337266845e-06, 'epoch': 1.23}
+{'loss': 3.4118, 'grad_norm': 2.3850739002227783, 'learning_rate': 3.321279025504378e-06, 'epoch': 1.23}
+{'loss': 3.375, 'grad_norm': 2.4791672229766846, 'learning_rate': 3.3193757137419113e-06, 'epoch': 1.23}
+{'loss': 3.3441, 'grad_norm': 2.1014466285705566, 'learning_rate': 3.3174724019794447e-06, 'epoch': 1.23}
+{'loss': 3.4447, 'grad_norm': 2.0315816402435303, 'learning_rate': 3.315569090216978e-06, 'epoch': 1.23}
+{'loss': 3.3503, 'grad_norm': 1.8982069492340088, 'learning_rate': 3.3136657784545114e-06, 'epoch': 1.23}
+{'loss': 3.39, 'grad_norm': 2.149772882461548, 'learning_rate': 3.3117624666920443e-06, 'epoch': 1.23}
+{'loss': 3.4079, 'grad_norm': 2.4946186542510986, 'learning_rate': 3.3098591549295777e-06, 'epoch': 1.23}
+{'eval_loss': 3.78515625, 'eval_runtime': 4.1486, 'eval_samples_per_second': 241.043, 'eval_steps_per_second': 10.124, 'epoch': 1.23}
+{'loss': 3.4193, 'grad_norm': 2.089015483856201, 'learning_rate': 3.307955843167111e-06, 'epoch': 1.23}
+{'loss': 3.3779, 'grad_norm': 2.405322313308716, 'learning_rate': 3.3060525314046444e-06, 'epoch': 1.23}
+{'loss': 3.2855, 'grad_norm': 2.163027763366699, 'learning_rate': 3.304149219642178e-06, 'epoch': 1.24}
+{'loss': 3.3682, 'grad_norm': 2.708906412124634, 'learning_rate': 3.3022459078797107e-06, 'epoch': 1.24}
+{'loss': 3.3724, 'grad_norm': 2.0940287113189697, 'learning_rate': 3.300342596117244e-06, 'epoch': 1.24}
+{'loss': 3.3333, 'grad_norm': 2.112070083618164, 'learning_rate': 3.2984392843547775e-06, 'epoch': 1.24}
+{'loss': 3.3874, 'grad_norm': 2.2295193672180176, 'learning_rate': 3.296535972592311e-06, 'epoch': 1.24}
+{'loss': 3.3564, 'grad_norm': 2.4204463958740234, 'learning_rate': 3.294632660829844e-06, 'epoch': 1.24}
+{'loss': 3.3424, 'grad_norm': 2.312358856201172, 'learning_rate': 3.292729349067377e-06, 'epoch': 1.24}
+{'loss': 3.4206, 'grad_norm': 2.032045364379883, 'learning_rate': 3.2908260373049105e-06, 'epoch': 1.24}
+{'eval_loss': 3.7734375, 'eval_runtime': 4.1456, 'eval_samples_per_second': 241.219, 'eval_steps_per_second': 10.131, 'epoch': 1.24}
+{'loss': 3.3779, 'grad_norm': 2.142883539199829, 'learning_rate': 3.288922725542444e-06, 'epoch': 1.24}
+{'loss': 3.2568, 'grad_norm': 1.985093116760254, 'learning_rate': 3.2870194137799776e-06, 'epoch': 1.24}
+{'loss': 3.3128, 'grad_norm': 2.1521546840667725, 'learning_rate': 3.285116102017511e-06, 'epoch': 1.25}
+{'loss': 3.3776, 'grad_norm': 1.8134084939956665, 'learning_rate': 3.2832127902550444e-06, 'epoch': 1.25}
+{'loss': 3.3633, 'grad_norm': 2.1743826866149902, 'learning_rate': 3.2813094784925777e-06, 'epoch': 1.25}
+{'loss': 3.3906, 'grad_norm': 2.278853416442871, 'learning_rate': 3.2794061667301107e-06, 'epoch': 1.25}
+{'loss': 3.4349, 'grad_norm': 2.147948980331421, 'learning_rate': 3.277502854967644e-06, 'epoch': 1.25}
+{'loss': 3.2992, 'grad_norm': 2.328399658203125, 'learning_rate': 3.2755995432051774e-06, 'epoch': 1.25}
+{'loss': 3.3962, 'grad_norm': 2.0103209018707275, 'learning_rate': 3.2736962314427107e-06, 'epoch': 1.25}
+{'loss': 3.4134, 'grad_norm': 2.3034045696258545, 'learning_rate': 3.271792919680244e-06, 'epoch': 1.25}
+{'eval_loss': 3.767578125, 'eval_runtime': 4.1658, 'eval_samples_per_second': 240.051, 'eval_steps_per_second': 10.082, 'epoch': 1.25}
+{'loss': 3.4154, 'grad_norm': 2.234438419342041, 'learning_rate': 3.269889607917777e-06, 'epoch': 1.25}
+{'loss': 3.3818, 'grad_norm': 2.4874157905578613, 'learning_rate': 3.2679862961553104e-06, 'epoch': 1.26}
+{'loss': 3.3307, 'grad_norm': 2.280452013015747, 'learning_rate': 3.2660829843928438e-06, 'epoch': 1.26}
+{'loss': 3.3262, 'grad_norm': 2.232398748397827, 'learning_rate': 3.264179672630377e-06, 'epoch': 1.26}
+{'loss': 3.3815, 'grad_norm': 2.1862456798553467, 'learning_rate': 3.2622763608679105e-06, 'epoch': 1.26}
+{'loss': 3.3851, 'grad_norm': 1.8467960357666016, 'learning_rate': 3.2603730491054434e-06, 'epoch': 1.26}
+{'loss': 3.3219, 'grad_norm': 2.1790964603424072, 'learning_rate': 3.258469737342977e-06, 'epoch': 1.26}
+{'loss': 3.4616, 'grad_norm': 2.509275197982788, 'learning_rate': 3.25656642558051e-06, 'epoch': 1.26}
+{'loss': 3.3239, 'grad_norm': 2.1051483154296875, 'learning_rate': 3.2546631138180435e-06, 'epoch': 1.26}
+{'loss': 3.3363, 'grad_norm': 2.435699939727783, 'learning_rate': 3.252759802055577e-06, 'epoch': 1.26}
+{'eval_loss': 3.779296875, 'eval_runtime': 4.1412, 'eval_samples_per_second': 241.478, 'eval_steps_per_second': 10.142, 'epoch': 1.26}
+{'loss': 3.3773, 'grad_norm': 2.333932876586914, 'learning_rate': 3.25085649029311e-06, 'epoch': 1.26}
+{'loss': 3.4362, 'grad_norm': 2.325711250305176, 'learning_rate': 3.248953178530644e-06, 'epoch': 1.27}
+{'loss': 3.4082, 'grad_norm': 2.1828246116638184, 'learning_rate': 3.247049866768177e-06, 'epoch': 1.27}
+{'loss': 3.4121, 'grad_norm': 2.188530683517456, 'learning_rate': 3.2451465550057103e-06, 'epoch': 1.27}
+{'loss': 3.3672, 'grad_norm': 2.1601130962371826, 'learning_rate': 3.2432432432432437e-06, 'epoch': 1.27}
+{'loss': 3.3923, 'grad_norm': 2.047639846801758, 'learning_rate': 3.241339931480777e-06, 'epoch': 1.27}
+{'loss': 3.4333, 'grad_norm': 2.1928939819335938, 'learning_rate': 3.2394366197183104e-06, 'epoch': 1.27}
+{'loss': 3.334, 'grad_norm': 2.181067943572998, 'learning_rate': 3.2375333079558434e-06, 'epoch': 1.27}
+{'loss': 3.3389, 'grad_norm': 2.1699230670928955, 'learning_rate': 3.2356299961933767e-06, 'epoch': 1.27}
+{'loss': 3.3079, 'grad_norm': 2.1590206623077393, 'learning_rate': 3.23372668443091e-06, 'epoch': 1.27}
+{'eval_loss': 3.779296875, 'eval_runtime': 4.149, 'eval_samples_per_second': 241.023, 'eval_steps_per_second': 10.123, 'epoch': 1.27}
+{'loss': 3.3499, 'grad_norm': 2.1884708404541016, 'learning_rate': 3.2318233726684435e-06, 'epoch': 1.27}
+{'loss': 3.4372, 'grad_norm': 2.3284409046173096, 'learning_rate': 3.229920060905977e-06, 'epoch': 1.28}
+{'loss': 3.3714, 'grad_norm': 1.9144015312194824, 'learning_rate': 3.2280167491435098e-06, 'epoch': 1.28}
+{'loss': 3.3737, 'grad_norm': 2.212463855743408, 'learning_rate': 3.226113437381043e-06, 'epoch': 1.28}
+{'loss': 3.4248, 'grad_norm': 2.3048839569091797, 'learning_rate': 3.2242101256185765e-06, 'epoch': 1.28}
+{'loss': 3.4007, 'grad_norm': 2.1397414207458496, 'learning_rate': 3.22230681385611e-06, 'epoch': 1.28}
+{'loss': 3.3545, 'grad_norm': 2.0422918796539307, 'learning_rate': 3.220403502093643e-06, 'epoch': 1.28}
+{'loss': 3.3532, 'grad_norm': 2.153472661972046, 'learning_rate': 3.218500190331176e-06, 'epoch': 1.28}
+{'loss': 3.3555, 'grad_norm': 2.4056649208068848, 'learning_rate': 3.2165968785687095e-06, 'epoch': 1.28}
+{'loss': 3.3477, 'grad_norm': 1.8741828203201294, 'learning_rate': 3.214693566806243e-06, 'epoch': 1.28}
+{'eval_loss': 3.76953125, 'eval_runtime': 4.1635, 'eval_samples_per_second': 240.185, 'eval_steps_per_second': 10.088, 'epoch': 1.28}
+{'loss': 3.4043, 'grad_norm': 2.0482568740844727, 'learning_rate': 3.2127902550437762e-06, 'epoch': 1.29}
+{'loss': 3.4046, 'grad_norm': 2.171121835708618, 'learning_rate': 3.21088694328131e-06, 'epoch': 1.29}
+{'loss': 3.3988, 'grad_norm': 2.0403501987457275, 'learning_rate': 3.2089836315188434e-06, 'epoch': 1.29}
+{'loss': 3.4189, 'grad_norm': 2.359907388687134, 'learning_rate': 3.2070803197563767e-06, 'epoch': 1.29}
+{'loss': 3.4346, 'grad_norm': 2.269812822341919, 'learning_rate': 3.2051770079939097e-06, 'epoch': 1.29}
+{'loss': 3.4359, 'grad_norm': 2.149217128753662, 'learning_rate': 3.203273696231443e-06, 'epoch': 1.29}
+{'loss': 3.293, 'grad_norm': 2.104456663131714, 'learning_rate': 3.2013703844689764e-06, 'epoch': 1.29}
+{'loss': 3.402, 'grad_norm': 2.135249614715576, 'learning_rate': 3.1994670727065098e-06, 'epoch': 1.29}
+{'loss': 3.3932, 'grad_norm': 2.67852783203125, 'learning_rate': 3.197563760944043e-06, 'epoch': 1.29}
+{'loss': 3.3402, 'grad_norm': 2.2020957469940186, 'learning_rate': 3.195660449181576e-06, 'epoch': 1.29}
+{'eval_loss': 3.77734375, 'eval_runtime': 4.1419, 'eval_samples_per_second': 241.436, 'eval_steps_per_second': 10.14, 'epoch': 1.29}
+{'loss': 3.3044, 'grad_norm': 2.083043336868286, 'learning_rate': 3.1937571374191094e-06, 'epoch': 1.3}
+{'loss': 3.3574, 'grad_norm': 2.04950213432312, 'learning_rate': 3.191853825656643e-06, 'epoch': 1.3}
+{'loss': 3.4694, 'grad_norm': 2.4123787879943848, 'learning_rate': 3.189950513894176e-06, 'epoch': 1.3}
+{'loss': 3.3789, 'grad_norm': 2.081728458404541, 'learning_rate': 3.1880472021317095e-06, 'epoch': 1.3}
+{'loss': 3.359, 'grad_norm': 2.407691240310669, 'learning_rate': 3.1861438903692425e-06, 'epoch': 1.3}
+{'loss': 3.3184, 'grad_norm': 2.3420569896698, 'learning_rate': 3.184240578606776e-06, 'epoch': 1.3}
+{'loss': 3.3704, 'grad_norm': 2.107971429824829, 'learning_rate': 3.182337266844309e-06, 'epoch': 1.3}
+{'loss': 3.3519, 'grad_norm': 2.3109779357910156, 'learning_rate': 3.1804339550818426e-06, 'epoch': 1.3}
+{'loss': 3.3678, 'grad_norm': 2.1501731872558594, 'learning_rate': 3.178530643319376e-06, 'epoch': 1.3}
+{'loss': 3.4066, 'grad_norm': 2.170166254043579, 'learning_rate': 3.176627331556909e-06, 'epoch': 1.3}
+{'eval_loss': 3.7734375, 'eval_runtime': 4.1551, 'eval_samples_per_second': 240.668, 'eval_steps_per_second': 10.108, 'epoch': 1.3}
+{'loss': 3.3864, 'grad_norm': 2.150996446609497, 'learning_rate': 3.1747240197944422e-06, 'epoch': 1.31}
+{'loss': 3.333, 'grad_norm': 2.0940425395965576, 'learning_rate': 3.172820708031976e-06, 'epoch': 1.31}
+{'loss': 3.3027, 'grad_norm': 1.9990174770355225, 'learning_rate': 3.1709173962695094e-06, 'epoch': 1.31}
+{'loss': 3.3584, 'grad_norm': 1.9995925426483154, 'learning_rate': 3.1690140845070427e-06, 'epoch': 1.31}
+{'loss': 3.3704, 'grad_norm': 2.261040210723877, 'learning_rate': 3.167110772744576e-06, 'epoch': 1.31}
+{'loss': 3.3776, 'grad_norm': 2.0606188774108887, 'learning_rate': 3.1652074609821095e-06, 'epoch': 1.31}
+{'loss': 3.4033, 'grad_norm': 2.7253549098968506, 'learning_rate': 3.1633041492196424e-06, 'epoch': 1.31}
+{'loss': 3.2913, 'grad_norm': 2.242039442062378, 'learning_rate': 3.1614008374571758e-06, 'epoch': 1.31}
+{'loss': 3.4053, 'grad_norm': 2.0728509426116943, 'learning_rate': 3.159497525694709e-06, 'epoch': 1.31}
+{'loss': 3.3213, 'grad_norm': 2.7385191917419434, 'learning_rate': 3.1575942139322425e-06, 'epoch': 1.31}
+{'eval_loss': 3.77734375, 'eval_runtime': 4.1528, 'eval_samples_per_second': 240.8, 'eval_steps_per_second': 10.114, 'epoch': 1.31}
+{'loss': 3.3568, 'grad_norm': 2.096308708190918, 'learning_rate': 3.155690902169776e-06, 'epoch': 1.32}
+{'loss': 3.3577, 'grad_norm': 2.282360076904297, 'learning_rate': 3.1537875904073088e-06, 'epoch': 1.32}
+{'loss': 3.3346, 'grad_norm': 2.3882334232330322, 'learning_rate': 3.151884278644842e-06, 'epoch': 1.32}
+{'loss': 3.3529, 'grad_norm': 2.1798834800720215, 'learning_rate': 3.1499809668823755e-06, 'epoch': 1.32}
+{'loss': 3.3132, 'grad_norm': 1.9058952331542969, 'learning_rate': 3.148077655119909e-06, 'epoch': 1.32}
+{'loss': 3.3118, 'grad_norm': 1.9929901361465454, 'learning_rate': 3.1461743433574422e-06, 'epoch': 1.32}
+{'loss': 3.2663, 'grad_norm': 2.175455331802368, 'learning_rate': 3.144271031594975e-06, 'epoch': 1.32}
+{'loss': 3.3311, 'grad_norm': 2.127685546875, 'learning_rate': 3.1423677198325085e-06, 'epoch': 1.32}
+{'loss': 3.3018, 'grad_norm': 2.418483257293701, 'learning_rate': 3.140464408070042e-06, 'epoch': 1.32}
+{'loss': 3.2747, 'grad_norm': 2.1495208740234375, 'learning_rate': 3.1385610963075753e-06, 'epoch': 1.33}
+{'eval_loss': 3.771484375, 'eval_runtime': 4.1403, 'eval_samples_per_second': 241.529, 'eval_steps_per_second': 10.144, 'epoch': 1.33}
+{'loss': 3.3822, 'grad_norm': 2.1345880031585693, 'learning_rate': 3.1366577845451086e-06, 'epoch': 1.33}
+{'loss': 3.4421, 'grad_norm': 2.2269928455352783, 'learning_rate': 3.134754472782642e-06, 'epoch': 1.33}
+{'loss': 3.3385, 'grad_norm': 2.158700704574585, 'learning_rate': 3.1328511610201758e-06, 'epoch': 1.33}
+{'loss': 3.335, 'grad_norm': 2.424415349960327, 'learning_rate': 3.1309478492577087e-06, 'epoch': 1.33}
+{'loss': 3.3994, 'grad_norm': 2.245577096939087, 'learning_rate': 3.129044537495242e-06, 'epoch': 1.33}
+{'loss': 3.4525, 'grad_norm': 2.477402925491333, 'learning_rate': 3.1271412257327754e-06, 'epoch': 1.33}
+{'loss': 3.3535, 'grad_norm': 2.1907565593719482, 'learning_rate': 3.125237913970309e-06, 'epoch': 1.33}
+{'loss': 3.335, 'grad_norm': 2.13716459274292, 'learning_rate': 3.123334602207842e-06, 'epoch': 1.33}
+{'loss': 3.2708, 'grad_norm': 1.9794107675552368, 'learning_rate': 3.121431290445375e-06, 'epoch': 1.33}
+{'loss': 3.3639, 'grad_norm': 2.3816325664520264, 'learning_rate': 3.1195279786829085e-06, 'epoch': 1.34}
+{'eval_loss': 3.767578125, 'eval_runtime': 4.1639, 'eval_samples_per_second': 240.161, 'eval_steps_per_second': 10.087, 'epoch': 1.34}
+{'loss': 3.4219, 'grad_norm': 2.1258935928344727, 'learning_rate': 3.117624666920442e-06, 'epoch': 1.34}
+{'loss': 3.3604, 'grad_norm': 2.049729108810425, 'learning_rate': 3.115721355157975e-06, 'epoch': 1.34}
+{'loss': 3.3665, 'grad_norm': 2.0809121131896973, 'learning_rate': 3.1138180433955085e-06, 'epoch': 1.34}
+{'loss': 3.3802, 'grad_norm': 2.2777774333953857, 'learning_rate': 3.1119147316330415e-06, 'epoch': 1.34}
+{'loss': 3.3854, 'grad_norm': 2.143563985824585, 'learning_rate': 3.110011419870575e-06, 'epoch': 1.34}
+{'loss': 3.3516, 'grad_norm': 2.3676915168762207, 'learning_rate': 3.1081081081081082e-06, 'epoch': 1.34}
+{'loss': 3.3532, 'grad_norm': 1.956479549407959, 'learning_rate': 3.1062047963456416e-06, 'epoch': 1.34}
+{'loss': 3.3255, 'grad_norm': 2.424682855606079, 'learning_rate': 3.104301484583175e-06, 'epoch': 1.34}
+{'loss': 3.4131, 'grad_norm': 2.167498826980591, 'learning_rate': 3.1023981728207083e-06, 'epoch': 1.34}
+{'loss': 3.2933, 'grad_norm': 2.2262585163116455, 'learning_rate': 3.1004948610582412e-06, 'epoch': 1.35}
+{'eval_loss': 3.767578125, 'eval_runtime': 4.1534, 'eval_samples_per_second': 240.769, 'eval_steps_per_second': 10.112, 'epoch': 1.35}
+{'loss': 3.4131, 'grad_norm': 2.3973159790039062, 'learning_rate': 3.0985915492957746e-06, 'epoch': 1.35}
+{'loss': 3.3457, 'grad_norm': 2.044154167175293, 'learning_rate': 3.096688237533308e-06, 'epoch': 1.35}
+{'loss': 3.3955, 'grad_norm': 2.201022148132324, 'learning_rate': 3.0947849257708418e-06, 'epoch': 1.35}
+{'loss': 3.3506, 'grad_norm': 2.0579633712768555, 'learning_rate': 3.092881614008375e-06, 'epoch': 1.35}
+{'loss': 3.3968, 'grad_norm': 2.2418670654296875, 'learning_rate': 3.0909783022459085e-06, 'epoch': 1.35}
+{'loss': 3.3252, 'grad_norm': 2.020735502243042, 'learning_rate': 3.0890749904834414e-06, 'epoch': 1.35}
+{'loss': 3.3177, 'grad_norm': 2.1075305938720703, 'learning_rate': 3.0871716787209748e-06, 'epoch': 1.35}
+{'loss': 3.3392, 'grad_norm': 1.9912325143814087, 'learning_rate': 3.085268366958508e-06, 'epoch': 1.35}
+{'loss': 3.3148, 'grad_norm': 2.369704008102417, 'learning_rate': 3.0833650551960415e-06, 'epoch': 1.35}
+{'loss': 3.3652, 'grad_norm': 2.188918113708496, 'learning_rate': 3.081461743433575e-06, 'epoch': 1.36}
+{'eval_loss': 3.765625, 'eval_runtime': 4.1445, 'eval_samples_per_second': 241.286, 'eval_steps_per_second': 10.134, 'epoch': 1.36}
+{'loss': 3.3011, 'grad_norm': 2.057793140411377, 'learning_rate': 3.079558431671108e-06, 'epoch': 1.36}
+{'loss': 3.3128, 'grad_norm': 2.003397226333618, 'learning_rate': 3.077655119908641e-06, 'epoch': 1.36}
+{'loss': 3.3206, 'grad_norm': 2.1350810527801514, 'learning_rate': 3.0757518081461745e-06, 'epoch': 1.36}
+{'loss': 3.404, 'grad_norm': 2.190070390701294, 'learning_rate': 3.073848496383708e-06, 'epoch': 1.36}
+{'loss': 3.3506, 'grad_norm': 2.66562819480896, 'learning_rate': 3.0719451846212413e-06, 'epoch': 1.36}
+{'loss': 3.4053, 'grad_norm': 1.9912270307540894, 'learning_rate': 3.0700418728587746e-06, 'epoch': 1.36}
+{'loss': 3.3665, 'grad_norm': 2.1732277870178223, 'learning_rate': 3.0681385610963076e-06, 'epoch': 1.36}
+{'loss': 3.4085, 'grad_norm': 2.1970086097717285, 'learning_rate': 3.066235249333841e-06, 'epoch': 1.36}
+{'loss': 3.4733, 'grad_norm': 2.369037628173828, 'learning_rate': 3.0643319375713743e-06, 'epoch': 1.37}
+{'loss': 3.3255, 'grad_norm': 1.9436290264129639, 'learning_rate': 3.0624286258089076e-06, 'epoch': 1.37}
+{'eval_loss': 3.763671875, 'eval_runtime': 4.1584, 'eval_samples_per_second': 240.477, 'eval_steps_per_second': 10.1, 'epoch': 1.37}
+{'loss': 3.375, 'grad_norm': 1.9728306531906128, 'learning_rate': 3.060525314046441e-06, 'epoch': 1.37}
+{'loss': 3.334, 'grad_norm': 2.2456650733947754, 'learning_rate': 3.058622002283974e-06, 'epoch': 1.37}
+{'loss': 3.2933, 'grad_norm': 2.034820795059204, 'learning_rate': 3.0567186905215077e-06, 'epoch': 1.37}
+{'loss': 3.4922, 'grad_norm': 2.4152114391326904, 'learning_rate': 3.054815378759041e-06, 'epoch': 1.37}
+{'loss': 3.3747, 'grad_norm': 2.23568058013916, 'learning_rate': 3.0529120669965745e-06, 'epoch': 1.37}
+{'loss': 3.3584, 'grad_norm': 2.635206460952759, 'learning_rate': 3.051008755234108e-06, 'epoch': 1.37}
+{'loss': 3.3753, 'grad_norm': 2.3849265575408936, 'learning_rate': 3.049105443471641e-06, 'epoch': 1.37}
+{'loss': 3.3805, 'grad_norm': 2.3615643978118896, 'learning_rate': 3.0472021317091745e-06, 'epoch': 1.37}
+{'loss': 3.3903, 'grad_norm': 2.208038091659546, 'learning_rate': 3.0452988199467075e-06, 'epoch': 1.38}
+{'loss': 3.3184, 'grad_norm': 2.162940502166748, 'learning_rate': 3.043395508184241e-06, 'epoch': 1.38}
+{'eval_loss': 3.76171875, 'eval_runtime': 4.1419, 'eval_samples_per_second': 241.434, 'eval_steps_per_second': 10.14, 'epoch': 1.38}
+{'loss': 3.3717, 'grad_norm': 2.3132550716400146, 'learning_rate': 3.041492196421774e-06, 'epoch': 1.38}
+{'loss': 3.3574, 'grad_norm': 2.1740219593048096, 'learning_rate': 3.0395888846593076e-06, 'epoch': 1.38}
+{'loss': 3.4027, 'grad_norm': 2.053861141204834, 'learning_rate': 3.037685572896841e-06, 'epoch': 1.38}
+{'loss': 3.3174, 'grad_norm': 2.2212252616882324, 'learning_rate': 3.035782261134374e-06, 'epoch': 1.38}
+{'loss': 3.2321, 'grad_norm': 2.3951992988586426, 'learning_rate': 3.0338789493719072e-06, 'epoch': 1.38}
+{'loss': 3.4102, 'grad_norm': 2.2093141078948975, 'learning_rate': 3.0319756376094406e-06, 'epoch': 1.38}
+{'loss': 3.363, 'grad_norm': 1.887424111366272, 'learning_rate': 3.030072325846974e-06, 'epoch': 1.38}
+{'loss': 3.3223, 'grad_norm': 2.1615829467773438, 'learning_rate': 3.0281690140845073e-06, 'epoch': 1.38}
+{'loss': 3.3327, 'grad_norm': 1.9808863401412964, 'learning_rate': 3.0262657023220403e-06, 'epoch': 1.39}
+{'loss': 3.471, 'grad_norm': 2.281723976135254, 'learning_rate': 3.0243623905595736e-06, 'epoch': 1.39}
+{'eval_loss': 3.765625, 'eval_runtime': 4.1518, 'eval_samples_per_second': 240.859, 'eval_steps_per_second': 10.116, 'epoch': 1.39}
+{'loss': 3.3639, 'grad_norm': 1.9236513376235962, 'learning_rate': 3.022459078797107e-06, 'epoch': 1.39}
+{'loss': 3.3275, 'grad_norm': 2.060178279876709, 'learning_rate': 3.0205557670346404e-06, 'epoch': 1.39}
+{'loss': 3.32, 'grad_norm': 2.4141159057617188, 'learning_rate': 3.018652455272174e-06, 'epoch': 1.39}
+{'loss': 3.3529, 'grad_norm': 2.3890833854675293, 'learning_rate': 3.0167491435097075e-06, 'epoch': 1.39}
+{'loss': 3.3099, 'grad_norm': 2.1920711994171143, 'learning_rate': 3.014845831747241e-06, 'epoch': 1.39}
+{'loss': 3.3717, 'grad_norm': 2.0415217876434326, 'learning_rate': 3.012942519984774e-06, 'epoch': 1.39}
+{'loss': 3.3877, 'grad_norm': 2.0697247982025146, 'learning_rate': 3.011039208222307e-06, 'epoch': 1.39}
+{'loss': 3.3333, 'grad_norm': 2.067046642303467, 'learning_rate': 3.0091358964598405e-06, 'epoch': 1.39}
+{'loss': 3.3001, 'grad_norm': 2.162029266357422, 'learning_rate': 3.007232584697374e-06, 'epoch': 1.4}
+{'loss': 3.3431, 'grad_norm': 2.0316174030303955, 'learning_rate': 3.0053292729349073e-06, 'epoch': 1.4}
+{'eval_loss': 3.765625, 'eval_runtime': 4.1423, 'eval_samples_per_second': 241.411, 'eval_steps_per_second': 10.139, 'epoch': 1.4}
+{'loss': 3.3607, 'grad_norm': 2.067936658859253, 'learning_rate': 3.00342596117244e-06, 'epoch': 1.4}
+{'loss': 3.4115, 'grad_norm': 2.0177109241485596, 'learning_rate': 3.0015226494099736e-06, 'epoch': 1.4}
+{'loss': 3.363, 'grad_norm': 1.9336223602294922, 'learning_rate': 2.999619337647507e-06, 'epoch': 1.4}
+{'loss': 3.2917, 'grad_norm': 2.242345094680786, 'learning_rate': 2.9977160258850403e-06, 'epoch': 1.4}
+{'loss': 3.376, 'grad_norm': 2.026205062866211, 'learning_rate': 2.9958127141225736e-06, 'epoch': 1.4}
+{'loss': 3.3555, 'grad_norm': 1.9606393575668335, 'learning_rate': 2.9939094023601066e-06, 'epoch': 1.4}
+{'loss': 3.3255, 'grad_norm': 2.0367941856384277, 'learning_rate': 2.99200609059764e-06, 'epoch': 1.4}
+{'loss': 3.3786, 'grad_norm': 2.308840036392212, 'learning_rate': 2.9901027788351733e-06, 'epoch': 1.41}
+{'loss': 3.3525, 'grad_norm': 2.1065824031829834, 'learning_rate': 2.9881994670727067e-06, 'epoch': 1.41}
+{'loss': 3.3571, 'grad_norm': 1.9729394912719727, 'learning_rate': 2.98629615531024e-06, 'epoch': 1.41}
+{'eval_loss': 3.763671875, 'eval_runtime': 4.1434, 'eval_samples_per_second': 241.346, 'eval_steps_per_second': 10.137, 'epoch': 1.41}
+{'loss': 3.4342, 'grad_norm': 2.169079303741455, 'learning_rate': 2.984392843547773e-06, 'epoch': 1.41}
+{'loss': 3.3564, 'grad_norm': 2.4345345497131348, 'learning_rate': 2.9824895317853063e-06, 'epoch': 1.41}
+{'loss': 3.39, 'grad_norm': 2.406925678253174, 'learning_rate': 2.98058622002284e-06, 'epoch': 1.41}
+{'loss': 3.375, 'grad_norm': 1.9506067037582397, 'learning_rate': 2.9786829082603735e-06, 'epoch': 1.41}
+{'loss': 3.3649, 'grad_norm': 1.9547243118286133, 'learning_rate': 2.976779596497907e-06, 'epoch': 1.41}
+{'loss': 3.3805, 'grad_norm': 2.1225407123565674, 'learning_rate': 2.97487628473544e-06, 'epoch': 1.41}
+{'loss': 3.4059, 'grad_norm': 2.1493043899536133, 'learning_rate': 2.9729729729729736e-06, 'epoch': 1.41}
+{'loss': 3.2891, 'grad_norm': 2.1585893630981445, 'learning_rate': 2.9710696612105065e-06, 'epoch': 1.42}
+{'loss': 3.2197, 'grad_norm': 2.4764809608459473, 'learning_rate': 2.96916634944804e-06, 'epoch': 1.42}
+{'loss': 3.3968, 'grad_norm': 1.9688175916671753, 'learning_rate': 2.9672630376855732e-06, 'epoch': 1.42}
+{'eval_loss': 3.763671875, 'eval_runtime': 4.1467, 'eval_samples_per_second': 241.156, 'eval_steps_per_second': 10.129, 'epoch': 1.42}
+{'loss': 3.4603, 'grad_norm': 2.1389195919036865, 'learning_rate': 2.9653597259231066e-06, 'epoch': 1.42}
+{'loss': 3.25, 'grad_norm': 2.1387059688568115, 'learning_rate': 2.96345641416064e-06, 'epoch': 1.42}
+{'loss': 3.3158, 'grad_norm': 2.2447619438171387, 'learning_rate': 2.961553102398173e-06, 'epoch': 1.42}
+{'loss': 3.321, 'grad_norm': 2.6718618869781494, 'learning_rate': 2.9596497906357063e-06, 'epoch': 1.42}
+{'loss': 3.4772, 'grad_norm': 2.0397393703460693, 'learning_rate': 2.9577464788732396e-06, 'epoch': 1.42}
+{'loss': 3.3512, 'grad_norm': 2.1091501712799072, 'learning_rate': 2.955843167110773e-06, 'epoch': 1.42}
+{'loss': 3.3161, 'grad_norm': 2.123628616333008, 'learning_rate': 2.9539398553483064e-06, 'epoch': 1.42}
+{'loss': 3.3597, 'grad_norm': 2.2026336193084717, 'learning_rate': 2.9520365435858393e-06, 'epoch': 1.43}
+{'loss': 3.3708, 'grad_norm': 2.0332250595092773, 'learning_rate': 2.9501332318233727e-06, 'epoch': 1.43}
+{'loss': 3.3324, 'grad_norm': 2.0883708000183105, 'learning_rate': 2.948229920060906e-06, 'epoch': 1.43}
+{'eval_loss': 3.763671875, 'eval_runtime': 4.1472, 'eval_samples_per_second': 241.129, 'eval_steps_per_second': 10.127, 'epoch': 1.43}
+{'loss': 3.2676, 'grad_norm': 2.049790143966675, 'learning_rate': 2.9463266082984394e-06, 'epoch': 1.43}
+{'loss': 3.2979, 'grad_norm': 1.9781253337860107, 'learning_rate': 2.9444232965359727e-06, 'epoch': 1.43}
+{'loss': 3.3753, 'grad_norm': 2.187204599380493, 'learning_rate': 2.9425199847735057e-06, 'epoch': 1.43}
+{'loss': 3.3333, 'grad_norm': 2.2233874797821045, 'learning_rate': 2.94061667301104e-06, 'epoch': 1.43}
+{'loss': 3.2913, 'grad_norm': 1.9755054712295532, 'learning_rate': 2.938713361248573e-06, 'epoch': 1.43}
+{'loss': 3.3226, 'grad_norm': 2.15840744972229, 'learning_rate': 2.936810049486106e-06, 'epoch': 1.43}
+{'loss': 3.3145, 'grad_norm': 2.1359140872955322, 'learning_rate': 2.9349067377236396e-06, 'epoch': 1.44}
+{'loss': 3.2894, 'grad_norm': 2.0883634090423584, 'learning_rate': 2.933003425961173e-06, 'epoch': 1.44}
+{'loss': 3.3776, 'grad_norm': 2.1106996536254883, 'learning_rate': 2.9311001141987063e-06, 'epoch': 1.44}
+{'loss': 3.3607, 'grad_norm': 1.9763798713684082, 'learning_rate': 2.9291968024362392e-06, 'epoch': 1.44}
+{'eval_loss': 3.759765625, 'eval_runtime': 4.1499, 'eval_samples_per_second': 240.968, 'eval_steps_per_second': 10.121, 'epoch': 1.44}
+{'loss': 3.3132, 'grad_norm': 2.174363374710083, 'learning_rate': 2.9272934906737726e-06, 'epoch': 1.44}
+{'loss': 3.3421, 'grad_norm': 1.9645861387252808, 'learning_rate': 2.925390178911306e-06, 'epoch': 1.44}
+{'loss': 3.2936, 'grad_norm': 2.1893348693847656, 'learning_rate': 2.9234868671488393e-06, 'epoch': 1.44}
+{'loss': 3.2692, 'grad_norm': 2.386885643005371, 'learning_rate': 2.9215835553863727e-06, 'epoch': 1.44}
+{'loss': 3.2793, 'grad_norm': 2.16545033454895, 'learning_rate': 2.9196802436239056e-06, 'epoch': 1.44}
+{'loss': 3.2835, 'grad_norm': 1.9997977018356323, 'learning_rate': 2.917776931861439e-06, 'epoch': 1.44}
+{'loss': 3.4336, 'grad_norm': 2.595802068710327, 'learning_rate': 2.9158736200989723e-06, 'epoch': 1.45}
+{'loss': 3.3548, 'grad_norm': 1.9433956146240234, 'learning_rate': 2.9139703083365057e-06, 'epoch': 1.45}
+{'loss': 3.3057, 'grad_norm': 2.259483814239502, 'learning_rate': 2.912066996574039e-06, 'epoch': 1.45}
+{'loss': 3.3717, 'grad_norm': 2.430447578430176, 'learning_rate': 2.910163684811572e-06, 'epoch': 1.45}
+{'eval_loss': 3.763671875, 'eval_runtime': 4.1516, 'eval_samples_per_second': 240.872, 'eval_steps_per_second': 10.117, 'epoch': 1.45}
+{'loss': 3.3353, 'grad_norm': 2.0610766410827637, 'learning_rate': 2.9082603730491054e-06, 'epoch': 1.45}
+{'loss': 3.346, 'grad_norm': 2.037353038787842, 'learning_rate': 2.9063570612866387e-06, 'epoch': 1.45}
+{'loss': 3.4017, 'grad_norm': 2.2757790088653564, 'learning_rate': 2.904453749524172e-06, 'epoch': 1.45}
+{'loss': 3.2796, 'grad_norm': 2.249866008758545, 'learning_rate': 2.902550437761706e-06, 'epoch': 1.45}
+{'loss': 3.3493, 'grad_norm': 1.956771969795227, 'learning_rate': 2.9006471259992392e-06, 'epoch': 1.45}
+{'loss': 3.3271, 'grad_norm': 1.8679167032241821, 'learning_rate': 2.8987438142367726e-06, 'epoch': 1.45}
+{'loss': 3.3431, 'grad_norm': 2.2848334312438965, 'learning_rate': 2.8968405024743055e-06, 'epoch': 1.46}
+{'loss': 3.3464, 'grad_norm': 2.598304510116577, 'learning_rate': 2.894937190711839e-06, 'epoch': 1.46}
+{'loss': 3.3333, 'grad_norm': 2.0153439044952393, 'learning_rate': 2.8930338789493723e-06, 'epoch': 1.46}
+{'loss': 3.3643, 'grad_norm': 1.9939873218536377, 'learning_rate': 2.8911305671869056e-06, 'epoch': 1.46}
+{'eval_loss': 3.759765625, 'eval_runtime': 4.1495, 'eval_samples_per_second': 240.992, 'eval_steps_per_second': 10.122, 'epoch': 1.46}
+{'loss': 3.4069, 'grad_norm': 2.0811688899993896, 'learning_rate': 2.889227255424439e-06, 'epoch': 1.46}
+{'loss': 3.348, 'grad_norm': 2.096961736679077, 'learning_rate': 2.887323943661972e-06, 'epoch': 1.46}
+{'loss': 3.3646, 'grad_norm': 1.9453892707824707, 'learning_rate': 2.8854206318995053e-06, 'epoch': 1.46}
+{'loss': 3.3812, 'grad_norm': 1.9585742950439453, 'learning_rate': 2.8835173201370386e-06, 'epoch': 1.46}
+{'loss': 3.307, 'grad_norm': 2.240426778793335, 'learning_rate': 2.881614008374572e-06, 'epoch': 1.46}
+{'loss': 3.332, 'grad_norm': 2.177128314971924, 'learning_rate': 2.8797106966121054e-06, 'epoch': 1.46}
+{'loss': 3.3245, 'grad_norm': 2.2654051780700684, 'learning_rate': 2.8778073848496383e-06, 'epoch': 1.47}
+{'loss': 3.3952, 'grad_norm': 2.200688123703003, 'learning_rate': 2.8759040730871717e-06, 'epoch': 1.47}
+{'loss': 3.3564, 'grad_norm': 2.3650245666503906, 'learning_rate': 2.874000761324705e-06, 'epoch': 1.47}
+{'loss': 3.3796, 'grad_norm': 1.967677116394043, 'learning_rate': 2.8720974495622384e-06, 'epoch': 1.47}
+{'eval_loss': 3.7578125, 'eval_runtime': 4.1511, 'eval_samples_per_second': 240.902, 'eval_steps_per_second': 10.118, 'epoch': 1.47}
+{'loss': 3.2715, 'grad_norm': 2.1255743503570557, 'learning_rate': 2.8701941377997718e-06, 'epoch': 1.47}
+{'loss': 3.3382, 'grad_norm': 2.3155453205108643, 'learning_rate': 2.8682908260373047e-06, 'epoch': 1.47}
+{'loss': 3.3317, 'grad_norm': 2.096057891845703, 'learning_rate': 2.866387514274838e-06, 'epoch': 1.47}
+{'loss': 3.3464, 'grad_norm': 2.027066707611084, 'learning_rate': 2.864484202512372e-06, 'epoch': 1.47}
+{'loss': 3.3936, 'grad_norm': 2.1180672645568848, 'learning_rate': 2.8625808907499052e-06, 'epoch': 1.47}
+{'loss': 3.3981, 'grad_norm': 2.087862968444824, 'learning_rate': 2.8606775789874386e-06, 'epoch': 1.48}
+{'loss': 3.3483, 'grad_norm': 2.3646011352539062, 'learning_rate': 2.858774267224972e-06, 'epoch': 1.48}
+{'loss': 3.2796, 'grad_norm': 2.189312219619751, 'learning_rate': 2.8568709554625053e-06, 'epoch': 1.48}
+{'loss': 3.3454, 'grad_norm': 2.4270286560058594, 'learning_rate': 2.8549676437000382e-06, 'epoch': 1.48}
+{'loss': 3.4062, 'grad_norm': 2.1665048599243164, 'learning_rate': 2.8530643319375716e-06, 'epoch': 1.48}
+{'eval_loss': 3.755859375, 'eval_runtime': 4.1497, 'eval_samples_per_second': 240.979, 'eval_steps_per_second': 10.121, 'epoch': 1.48}
+{'loss': 3.2969, 'grad_norm': 2.2292253971099854, 'learning_rate': 2.851161020175105e-06, 'epoch': 1.48}
+{'loss': 3.359, 'grad_norm': 2.301037549972534, 'learning_rate': 2.8492577084126383e-06, 'epoch': 1.48}
+{'loss': 3.3372, 'grad_norm': 2.022859573364258, 'learning_rate': 2.8473543966501717e-06, 'epoch': 1.48}
+{'loss': 3.3887, 'grad_norm': 2.2681524753570557, 'learning_rate': 2.8454510848877046e-06, 'epoch': 1.48}
+{'loss': 3.3932, 'grad_norm': 2.2797932624816895, 'learning_rate': 2.843547773125238e-06, 'epoch': 1.48}
+{'loss': 3.2975, 'grad_norm': 2.089301109313965, 'learning_rate': 2.8416444613627714e-06, 'epoch': 1.49}
+{'loss': 3.3503, 'grad_norm': 1.8321032524108887, 'learning_rate': 2.8397411496003047e-06, 'epoch': 1.49}
+{'loss': 3.377, 'grad_norm': 2.0010323524475098, 'learning_rate': 2.837837837837838e-06, 'epoch': 1.49}
+{'loss': 3.3691, 'grad_norm': 2.2228641510009766, 'learning_rate': 2.835934526075371e-06, 'epoch': 1.49}
+{'loss': 3.3545, 'grad_norm': 2.371382236480713, 'learning_rate': 2.8340312143129044e-06, 'epoch': 1.49}
+{'eval_loss': 3.7578125, 'eval_runtime': 4.1488, 'eval_samples_per_second': 241.033, 'eval_steps_per_second': 10.123, 'epoch': 1.49}
+{'loss': 3.3923, 'grad_norm': 2.0364842414855957, 'learning_rate': 2.8321279025504377e-06, 'epoch': 1.49}
+{'loss': 3.2376, 'grad_norm': 2.556962013244629, 'learning_rate': 2.830224590787971e-06, 'epoch': 1.49}
+{'loss': 3.3171, 'grad_norm': 2.116530418395996, 'learning_rate': 2.8283212790255045e-06, 'epoch': 1.49}
+{'loss': 3.3952, 'grad_norm': 1.843926191329956, 'learning_rate': 2.8264179672630383e-06, 'epoch': 1.49}
+{'loss': 3.4209, 'grad_norm': 1.7843135595321655, 'learning_rate': 2.8245146555005716e-06, 'epoch': 1.49}
+{'loss': 3.3376, 'grad_norm': 2.034254312515259, 'learning_rate': 2.8226113437381046e-06, 'epoch': 1.5}
+{'loss': 3.2178, 'grad_norm': 1.879178524017334, 'learning_rate': 2.820708031975638e-06, 'epoch': 1.5}
+{'loss': 3.3633, 'grad_norm': 2.0977373123168945, 'learning_rate': 2.8188047202131713e-06, 'epoch': 1.5}
+{'loss': 3.3324, 'grad_norm': 1.8040765523910522, 'learning_rate': 2.8169014084507046e-06, 'epoch': 1.5}
+{'loss': 3.2122, 'grad_norm': 2.2322022914886475, 'learning_rate': 2.814998096688238e-06, 'epoch': 1.5}
+{'eval_loss': 3.75390625, 'eval_runtime': 4.1486, 'eval_samples_per_second': 241.043, 'eval_steps_per_second': 10.124, 'epoch': 1.5}
+{'loss': 3.4163, 'grad_norm': 2.170668840408325, 'learning_rate': 2.813094784925771e-06, 'epoch': 1.5}
+{'loss': 3.3486, 'grad_norm': 2.155437707901001, 'learning_rate': 2.8111914731633043e-06, 'epoch': 1.5}
+{'loss': 3.3757, 'grad_norm': 2.0729920864105225, 'learning_rate': 2.8092881614008377e-06, 'epoch': 1.5}
+{'loss': 3.2878, 'grad_norm': 2.211561679840088, 'learning_rate': 2.807384849638371e-06, 'epoch': 1.5}
+{'loss': 3.3633, 'grad_norm': 1.958943486213684, 'learning_rate': 2.8054815378759044e-06, 'epoch': 1.5}
+{'loss': 3.3835, 'grad_norm': 1.8477777242660522, 'learning_rate': 2.8035782261134378e-06, 'epoch': 1.51}
+{'loss': 3.3424, 'grad_norm': 2.2990400791168213, 'learning_rate': 2.8016749143509707e-06, 'epoch': 1.51}
+{'loss': 3.3991, 'grad_norm': 2.228782892227173, 'learning_rate': 2.799771602588504e-06, 'epoch': 1.51}
+{'loss': 3.3812, 'grad_norm': 2.1903936862945557, 'learning_rate': 2.7978682908260374e-06, 'epoch': 1.51}
+{'loss': 3.277, 'grad_norm': 2.1257848739624023, 'learning_rate': 2.795964979063571e-06, 'epoch': 1.51}
+{'eval_loss': 3.75, 'eval_runtime': 4.1479, 'eval_samples_per_second': 241.084, 'eval_steps_per_second': 10.126, 'epoch': 1.51}
+{'loss': 3.318, 'grad_norm': 2.4369938373565674, 'learning_rate': 2.794061667301104e-06, 'epoch': 1.51}
+{'loss': 3.3112, 'grad_norm': 2.151479482650757, 'learning_rate': 2.792158355538637e-06, 'epoch': 1.51}
+{'loss': 3.3353, 'grad_norm': 2.326937437057495, 'learning_rate': 2.7902550437761705e-06, 'epoch': 1.51}
+{'loss': 3.3962, 'grad_norm': 2.1108903884887695, 'learning_rate': 2.7883517320137042e-06, 'epoch': 1.51}
+{'loss': 3.2822, 'grad_norm': 2.1000399589538574, 'learning_rate': 2.7864484202512376e-06, 'epoch': 1.52}
+{'loss': 3.2725, 'grad_norm': 1.9534368515014648, 'learning_rate': 2.784545108488771e-06, 'epoch': 1.52}
+{'loss': 3.347, 'grad_norm': 1.9295905828475952, 'learning_rate': 2.7826417967263043e-06, 'epoch': 1.52}
+{'loss': 3.3564, 'grad_norm': 1.7638821601867676, 'learning_rate': 2.7807384849638373e-06, 'epoch': 1.52}
+{'loss': 3.2865, 'grad_norm': 2.194805145263672, 'learning_rate': 2.7788351732013706e-06, 'epoch': 1.52}
+{'loss': 3.3532, 'grad_norm': 1.8124064207077026, 'learning_rate': 2.776931861438904e-06, 'epoch': 1.52}
+{'eval_loss': 3.7578125, 'eval_runtime': 4.1485, 'eval_samples_per_second': 241.05, 'eval_steps_per_second': 10.124, 'epoch': 1.52}
+{'loss': 3.3066, 'grad_norm': 1.8323920965194702, 'learning_rate': 2.7750285496764374e-06, 'epoch': 1.52}
+{'loss': 3.3483, 'grad_norm': 1.9626556634902954, 'learning_rate': 2.7731252379139707e-06, 'epoch': 1.52}
+{'loss': 3.306, 'grad_norm': 2.17236328125, 'learning_rate': 2.771221926151504e-06, 'epoch': 1.52}
+{'loss': 3.3092, 'grad_norm': 1.9565699100494385, 'learning_rate': 2.769318614389037e-06, 'epoch': 1.52}
+{'loss': 3.3962, 'grad_norm': 2.2463598251342773, 'learning_rate': 2.7674153026265704e-06, 'epoch': 1.53}
+{'loss': 3.2868, 'grad_norm': 2.1839380264282227, 'learning_rate': 2.7655119908641037e-06, 'epoch': 1.53}
+{'loss': 3.3607, 'grad_norm': 2.230316638946533, 'learning_rate': 2.763608679101637e-06, 'epoch': 1.53}
+{'loss': 3.3444, 'grad_norm': 1.755435585975647, 'learning_rate': 2.7617053673391705e-06, 'epoch': 1.53}
+{'loss': 3.3232, 'grad_norm': 2.0754964351654053, 'learning_rate': 2.7598020555767034e-06, 'epoch': 1.53}
+{'loss': 3.2604, 'grad_norm': 2.082760810852051, 'learning_rate': 2.7578987438142368e-06, 'epoch': 1.53}
+{'eval_loss': 3.75, 'eval_runtime': 4.1493, 'eval_samples_per_second': 241.006, 'eval_steps_per_second': 10.122, 'epoch': 1.53}
+{'loss': 3.2878, 'grad_norm': 2.0330724716186523, 'learning_rate': 2.75599543205177e-06, 'epoch': 1.53}
+{'loss': 3.3441, 'grad_norm': 2.0164177417755127, 'learning_rate': 2.7540921202893035e-06, 'epoch': 1.53}
+{'loss': 3.3213, 'grad_norm': 2.0218665599823, 'learning_rate': 2.752188808526837e-06, 'epoch': 1.53}
+{'loss': 3.3102, 'grad_norm': 2.2571825981140137, 'learning_rate': 2.75028549676437e-06, 'epoch': 1.53}
+{'loss': 3.3174, 'grad_norm': 2.2513415813446045, 'learning_rate': 2.7483821850019036e-06, 'epoch': 1.54}
+{'loss': 3.3206, 'grad_norm': 2.0379769802093506, 'learning_rate': 2.746478873239437e-06, 'epoch': 1.54}
+{'loss': 3.4414, 'grad_norm': 2.0714573860168457, 'learning_rate': 2.7445755614769703e-06, 'epoch': 1.54}
+{'loss': 3.2952, 'grad_norm': 2.093684673309326, 'learning_rate': 2.7426722497145037e-06, 'epoch': 1.54}
+{'loss': 3.2484, 'grad_norm': 2.0896661281585693, 'learning_rate': 2.740768937952037e-06, 'epoch': 1.54}
+{'loss': 3.4261, 'grad_norm': 2.1404483318328857, 'learning_rate': 2.7388656261895704e-06, 'epoch': 1.54}
+{'eval_loss': 3.751953125, 'eval_runtime': 4.1506, 'eval_samples_per_second': 240.93, 'eval_steps_per_second': 10.119, 'epoch': 1.54}
+{'loss': 3.3698, 'grad_norm': 2.034604787826538, 'learning_rate': 2.7369623144271033e-06, 'epoch': 1.54}
+{'loss': 3.3184, 'grad_norm': 2.2232375144958496, 'learning_rate': 2.7350590026646367e-06, 'epoch': 1.54}
+{'loss': 3.431, 'grad_norm': 2.204456329345703, 'learning_rate': 2.73315569090217e-06, 'epoch': 1.54}
+{'loss': 3.3643, 'grad_norm': 2.1084349155426025, 'learning_rate': 2.7312523791397034e-06, 'epoch': 1.54}
+{'loss': 3.3346, 'grad_norm': 2.07011079788208, 'learning_rate': 2.7293490673772368e-06, 'epoch': 1.55}
+{'loss': 3.36, 'grad_norm': 1.954825520515442, 'learning_rate': 2.7274457556147697e-06, 'epoch': 1.55}
+{'loss': 3.3187, 'grad_norm': 2.0463924407958984, 'learning_rate': 2.725542443852303e-06, 'epoch': 1.55}
+{'loss': 3.2943, 'grad_norm': 2.1759414672851562, 'learning_rate': 2.7236391320898365e-06, 'epoch': 1.55}
+{'loss': 3.3249, 'grad_norm': 2.316972494125366, 'learning_rate': 2.72173582032737e-06, 'epoch': 1.55}
+{'loss': 3.2874, 'grad_norm': 2.2323241233825684, 'learning_rate': 2.719832508564903e-06, 'epoch': 1.55}
+{'eval_loss': 3.748046875, 'eval_runtime': 4.1551, 'eval_samples_per_second': 240.669, 'eval_steps_per_second': 10.108, 'epoch': 1.55}
+{'loss': 3.3086, 'grad_norm': 2.2552504539489746, 'learning_rate': 2.717929196802436e-06, 'epoch': 1.55}
+{'loss': 3.3418, 'grad_norm': 2.431438684463501, 'learning_rate': 2.7160258850399695e-06, 'epoch': 1.55}
+{'loss': 3.3766, 'grad_norm': 1.8906093835830688, 'learning_rate': 2.714122573277503e-06, 'epoch': 1.55}
+{'loss': 3.3916, 'grad_norm': 2.4419331550598145, 'learning_rate': 2.712219261515036e-06, 'epoch': 1.56}
+{'loss': 3.3366, 'grad_norm': 2.1091935634613037, 'learning_rate': 2.71031594975257e-06, 'epoch': 1.56}
+{'loss': 3.2646, 'grad_norm': 2.5857861042022705, 'learning_rate': 2.7084126379901034e-06, 'epoch': 1.56}
+{'loss': 3.4128, 'grad_norm': 2.405707836151123, 'learning_rate': 2.7065093262276367e-06, 'epoch': 1.56}
+{'loss': 3.3688, 'grad_norm': 1.905985713005066, 'learning_rate': 2.7046060144651697e-06, 'epoch': 1.56}
+{'loss': 3.3271, 'grad_norm': 2.445720672607422, 'learning_rate': 2.702702702702703e-06, 'epoch': 1.56}
+{'loss': 3.2764, 'grad_norm': 2.1239523887634277, 'learning_rate': 2.7007993909402364e-06, 'epoch': 1.56}
+{'eval_loss': 3.740234375, 'eval_runtime': 4.1491, 'eval_samples_per_second': 241.013, 'eval_steps_per_second': 10.123, 'epoch': 1.56}
+{'loss': 3.3398, 'grad_norm': 2.181131601333618, 'learning_rate': 2.6988960791777697e-06, 'epoch': 1.56}
+{'loss': 3.3118, 'grad_norm': 2.4515459537506104, 'learning_rate': 2.696992767415303e-06, 'epoch': 1.56}
+{'loss': 3.3701, 'grad_norm': 1.9996817111968994, 'learning_rate': 2.695089455652836e-06, 'epoch': 1.56}
+{'loss': 3.2848, 'grad_norm': 2.4135873317718506, 'learning_rate': 2.6931861438903694e-06, 'epoch': 1.57}
+{'loss': 3.3037, 'grad_norm': 2.1545472145080566, 'learning_rate': 2.6912828321279028e-06, 'epoch': 1.57}
+{'loss': 3.1999, 'grad_norm': 1.783525824546814, 'learning_rate': 2.689379520365436e-06, 'epoch': 1.57}
+{'loss': 3.3919, 'grad_norm': 1.9301742315292358, 'learning_rate': 2.6874762086029695e-06, 'epoch': 1.57}
+{'loss': 3.3376, 'grad_norm': 1.955143690109253, 'learning_rate': 2.6855728968405024e-06, 'epoch': 1.57}
+{'loss': 3.333, 'grad_norm': 1.8596535921096802, 'learning_rate': 2.683669585078036e-06, 'epoch': 1.57}
+{'loss': 3.3184, 'grad_norm': 1.9967671632766724, 'learning_rate': 2.681766273315569e-06, 'epoch': 1.57}
+{'eval_loss': 3.75, 'eval_runtime': 4.1491, 'eval_samples_per_second': 241.017, 'eval_steps_per_second': 10.123, 'epoch': 1.57}
+{'loss': 3.3034, 'grad_norm': 2.013427972793579, 'learning_rate': 2.6798629615531025e-06, 'epoch': 1.57}
+{'loss': 3.3232, 'grad_norm': 2.096036195755005, 'learning_rate': 2.677959649790636e-06, 'epoch': 1.57}
+{'loss': 3.3424, 'grad_norm': 2.008204698562622, 'learning_rate': 2.676056338028169e-06, 'epoch': 1.57}
+{'loss': 3.2497, 'grad_norm': 2.517263889312744, 'learning_rate': 2.674153026265702e-06, 'epoch': 1.58}
+{'loss': 3.307, 'grad_norm': 2.2548515796661377, 'learning_rate': 2.672249714503236e-06, 'epoch': 1.58}
+{'loss': 3.2002, 'grad_norm': 1.9742522239685059, 'learning_rate': 2.6703464027407693e-06, 'epoch': 1.58}
+{'loss': 3.3232, 'grad_norm': 2.129405975341797, 'learning_rate': 2.6684430909783027e-06, 'epoch': 1.58}
+{'loss': 3.2728, 'grad_norm': 2.2420237064361572, 'learning_rate': 2.666539779215836e-06, 'epoch': 1.58}
+{'loss': 3.278, 'grad_norm': 1.9656341075897217, 'learning_rate': 2.6646364674533694e-06, 'epoch': 1.58}
+{'loss': 3.3424, 'grad_norm': 1.9583712816238403, 'learning_rate': 2.6627331556909024e-06, 'epoch': 1.58}
+{'eval_loss': 3.75390625, 'eval_runtime': 4.15, 'eval_samples_per_second': 240.965, 'eval_steps_per_second': 10.121, 'epoch': 1.58}
+{'loss': 3.3535, 'grad_norm': 2.1119542121887207, 'learning_rate': 2.6608298439284357e-06, 'epoch': 1.58}
+{'loss': 3.3187, 'grad_norm': 2.111462116241455, 'learning_rate': 2.658926532165969e-06, 'epoch': 1.58}
+{'loss': 3.2734, 'grad_norm': 2.1196699142456055, 'learning_rate': 2.6570232204035024e-06, 'epoch': 1.59}
+{'loss': 3.4668, 'grad_norm': 2.410598039627075, 'learning_rate': 2.655119908641036e-06, 'epoch': 1.59}
+{'loss': 3.3216, 'grad_norm': 2.066605567932129, 'learning_rate': 2.6532165968785687e-06, 'epoch': 1.59}
+{'loss': 3.3451, 'grad_norm': 1.9795944690704346, 'learning_rate': 2.651313285116102e-06, 'epoch': 1.59}
+{'loss': 3.3577, 'grad_norm': 2.0483994483947754, 'learning_rate': 2.6494099733536355e-06, 'epoch': 1.59}
+{'loss': 3.3066, 'grad_norm': 2.112236738204956, 'learning_rate': 2.647506661591169e-06, 'epoch': 1.59}
+{'loss': 3.4235, 'grad_norm': 1.9724613428115845, 'learning_rate': 2.645603349828702e-06, 'epoch': 1.59}
+{'loss': 3.3053, 'grad_norm': 2.1234381198883057, 'learning_rate': 2.643700038066235e-06, 'epoch': 1.59}
+{'eval_loss': 3.7421875, 'eval_runtime': 4.1473, 'eval_samples_per_second': 241.122, 'eval_steps_per_second': 10.127, 'epoch': 1.59}
+{'loss': 3.3109, 'grad_norm': 1.9364441633224487, 'learning_rate': 2.6417967263037685e-06, 'epoch': 1.59}
+{'loss': 3.3167, 'grad_norm': 2.2294609546661377, 'learning_rate': 2.639893414541302e-06, 'epoch': 1.59}
+{'loss': 3.321, 'grad_norm': 1.935665249824524, 'learning_rate': 2.6379901027788352e-06, 'epoch': 1.6}
+{'loss': 3.3164, 'grad_norm': 2.147857666015625, 'learning_rate': 2.6360867910163686e-06, 'epoch': 1.6}
+{'loss': 3.3551, 'grad_norm': 1.9205423593521118, 'learning_rate': 2.6341834792539024e-06, 'epoch': 1.6}
+{'loss': 3.3203, 'grad_norm': 2.0844013690948486, 'learning_rate': 2.6322801674914357e-06, 'epoch': 1.6}
+{'loss': 3.2568, 'grad_norm': 2.2683558464050293, 'learning_rate': 2.6303768557289687e-06, 'epoch': 1.6}
+{'loss': 3.3099, 'grad_norm': 1.8960727453231812, 'learning_rate': 2.628473543966502e-06, 'epoch': 1.6}
+{'loss': 3.2246, 'grad_norm': 1.9529330730438232, 'learning_rate': 2.6265702322040354e-06, 'epoch': 1.6}
+{'loss': 3.3669, 'grad_norm': 2.070007801055908, 'learning_rate': 2.6246669204415688e-06, 'epoch': 1.6}
+{'eval_loss': 3.755859375, 'eval_runtime': 4.1495, 'eval_samples_per_second': 240.994, 'eval_steps_per_second': 10.122, 'epoch': 1.6}
+{'loss': 3.3678, 'grad_norm': 1.9691404104232788, 'learning_rate': 2.622763608679102e-06, 'epoch': 1.6}
+{'loss': 3.3291, 'grad_norm': 2.311387062072754, 'learning_rate': 2.620860296916635e-06, 'epoch': 1.6}
+{'loss': 3.3044, 'grad_norm': 2.0805420875549316, 'learning_rate': 2.6189569851541684e-06, 'epoch': 1.61}
+{'loss': 3.3688, 'grad_norm': 2.0948779582977295, 'learning_rate': 2.617053673391702e-06, 'epoch': 1.61}
+{'loss': 3.3783, 'grad_norm': 2.2266314029693604, 'learning_rate': 2.615150361629235e-06, 'epoch': 1.61}
+{'loss': 3.3053, 'grad_norm': 1.8471665382385254, 'learning_rate': 2.6132470498667685e-06, 'epoch': 1.61}
+{'loss': 3.266, 'grad_norm': 2.066185474395752, 'learning_rate': 2.6113437381043015e-06, 'epoch': 1.61}
+{'loss': 3.3535, 'grad_norm': 1.9957568645477295, 'learning_rate': 2.609440426341835e-06, 'epoch': 1.61}
+{'loss': 3.3138, 'grad_norm': 1.936614990234375, 'learning_rate': 2.607537114579368e-06, 'epoch': 1.61}
+{'loss': 3.3174, 'grad_norm': 1.9748457670211792, 'learning_rate': 2.6056338028169015e-06, 'epoch': 1.61}
+{'eval_loss': 3.732421875, 'eval_runtime': 4.1482, 'eval_samples_per_second': 241.07, 'eval_steps_per_second': 10.125, 'epoch': 1.61}
+{'loss': 3.401, 'grad_norm': 2.0906589031219482, 'learning_rate': 2.603730491054435e-06, 'epoch': 1.61}
+{'loss': 3.3464, 'grad_norm': 1.763222575187683, 'learning_rate': 2.601827179291968e-06, 'epoch': 1.61}
+{'loss': 3.3285, 'grad_norm': 2.0427050590515137, 'learning_rate': 2.599923867529501e-06, 'epoch': 1.62}
+{'loss': 3.2249, 'grad_norm': 2.1369590759277344, 'learning_rate': 2.5980205557670346e-06, 'epoch': 1.62}
+{'loss': 3.3519, 'grad_norm': 2.2592289447784424, 'learning_rate': 2.5961172440045684e-06, 'epoch': 1.62}
+{'loss': 3.2972, 'grad_norm': 1.7173632383346558, 'learning_rate': 2.5942139322421017e-06, 'epoch': 1.62}
+{'loss': 3.2673, 'grad_norm': 1.9567437171936035, 'learning_rate': 2.592310620479635e-06, 'epoch': 1.62}
+{'loss': 3.3857, 'grad_norm': 2.162871837615967, 'learning_rate': 2.5904073087171684e-06, 'epoch': 1.62}
+{'loss': 3.361, 'grad_norm': 1.859872579574585, 'learning_rate': 2.5885039969547014e-06, 'epoch': 1.62}
+{'loss': 3.2858, 'grad_norm': 2.149977922439575, 'learning_rate': 2.5866006851922347e-06, 'epoch': 1.62}
+{'eval_loss': 3.751953125, 'eval_runtime': 4.1496, 'eval_samples_per_second': 240.984, 'eval_steps_per_second': 10.121, 'epoch': 1.62}
+{'loss': 3.2965, 'grad_norm': 1.9693491458892822, 'learning_rate': 2.584697373429768e-06, 'epoch': 1.62}
+{'loss': 3.3389, 'grad_norm': 2.150969982147217, 'learning_rate': 2.5827940616673015e-06, 'epoch': 1.63}
+{'loss': 3.3105, 'grad_norm': 2.0773346424102783, 'learning_rate': 2.580890749904835e-06, 'epoch': 1.63}
+{'loss': 3.3011, 'grad_norm': 1.8671895265579224, 'learning_rate': 2.5789874381423678e-06, 'epoch': 1.63}
+{'loss': 3.2702, 'grad_norm': 2.0991342067718506, 'learning_rate': 2.577084126379901e-06, 'epoch': 1.63}
+{'loss': 3.4098, 'grad_norm': 2.474003553390503, 'learning_rate': 2.5751808146174345e-06, 'epoch': 1.63}
+{'loss': 3.3649, 'grad_norm': 1.7829560041427612, 'learning_rate': 2.573277502854968e-06, 'epoch': 1.63}
+{'loss': 3.3561, 'grad_norm': 2.234525442123413, 'learning_rate': 2.5713741910925012e-06, 'epoch': 1.63}
+{'loss': 3.2653, 'grad_norm': 2.387713670730591, 'learning_rate': 2.569470879330034e-06, 'epoch': 1.63}
+{'loss': 3.3545, 'grad_norm': 2.0653324127197266, 'learning_rate': 2.5675675675675675e-06, 'epoch': 1.63}
+{'eval_loss': 3.74609375, 'eval_runtime': 4.1497, 'eval_samples_per_second': 240.983, 'eval_steps_per_second': 10.121, 'epoch': 1.63}
+{'loss': 3.2764, 'grad_norm': 2.3557684421539307, 'learning_rate': 2.565664255805101e-06, 'epoch': 1.63}
+{'loss': 3.3991, 'grad_norm': 2.0954325199127197, 'learning_rate': 2.5637609440426343e-06, 'epoch': 1.64}
+{'loss': 3.3177, 'grad_norm': 2.2313735485076904, 'learning_rate': 2.5618576322801676e-06, 'epoch': 1.64}
+{'loss': 3.359, 'grad_norm': 2.131911516189575, 'learning_rate': 2.5599543205177006e-06, 'epoch': 1.64}
+{'loss': 3.2881, 'grad_norm': 1.9775762557983398, 'learning_rate': 2.558051008755234e-06, 'epoch': 1.64}
+{'loss': 3.2448, 'grad_norm': 1.9477797746658325, 'learning_rate': 2.5561476969927677e-06, 'epoch': 1.64}
+{'loss': 3.333, 'grad_norm': 2.3797361850738525, 'learning_rate': 2.554244385230301e-06, 'epoch': 1.64}
+{'loss': 3.3965, 'grad_norm': 2.2696001529693604, 'learning_rate': 2.5523410734678344e-06, 'epoch': 1.64}
+{'loss': 3.3024, 'grad_norm': 2.4700427055358887, 'learning_rate': 2.550437761705368e-06, 'epoch': 1.64}
+{'loss': 3.391, 'grad_norm': 2.0224130153656006, 'learning_rate': 2.548534449942901e-06, 'epoch': 1.64}
+{'eval_loss': 3.751953125, 'eval_runtime': 4.1508, 'eval_samples_per_second': 240.915, 'eval_steps_per_second': 10.118, 'epoch': 1.64}
+{'loss': 3.3704, 'grad_norm': 2.3723580837249756, 'learning_rate': 2.546631138180434e-06, 'epoch': 1.64}
+{'loss': 3.3555, 'grad_norm': 2.1372733116149902, 'learning_rate': 2.5447278264179675e-06, 'epoch': 1.65}
+{'loss': 3.3057, 'grad_norm': 1.988089680671692, 'learning_rate': 2.542824514655501e-06, 'epoch': 1.65}
+{'loss': 3.2419, 'grad_norm': 2.083949327468872, 'learning_rate': 2.540921202893034e-06, 'epoch': 1.65}
+{'loss': 3.306, 'grad_norm': 2.199585437774658, 'learning_rate': 2.5390178911305675e-06, 'epoch': 1.65}
+{'loss': 3.251, 'grad_norm': 2.531320571899414, 'learning_rate': 2.5371145793681005e-06, 'epoch': 1.65}
+{'loss': 3.3812, 'grad_norm': 1.7729729413986206, 'learning_rate': 2.535211267605634e-06, 'epoch': 1.65}
+{'loss': 3.4378, 'grad_norm': 2.1134872436523438, 'learning_rate': 2.533307955843167e-06, 'epoch': 1.65}
+{'loss': 3.3753, 'grad_norm': 2.082820415496826, 'learning_rate': 2.5314046440807006e-06, 'epoch': 1.65}
+{'loss': 3.3499, 'grad_norm': 1.9335805177688599, 'learning_rate': 2.529501332318234e-06, 'epoch': 1.65}
+{'eval_loss': 3.744140625, 'eval_runtime': 4.1547, 'eval_samples_per_second': 240.69, 'eval_steps_per_second': 10.109, 'epoch': 1.65}
+{'loss': 3.3786, 'grad_norm': 1.9391026496887207, 'learning_rate': 2.5275980205557673e-06, 'epoch': 1.65}
+{'loss': 3.3063, 'grad_norm': 2.199368476867676, 'learning_rate': 2.5256947087933002e-06, 'epoch': 1.66}
+{'loss': 3.3112, 'grad_norm': 1.9777742624282837, 'learning_rate': 2.5237913970308336e-06, 'epoch': 1.66}
+{'loss': 3.2673, 'grad_norm': 2.252135992050171, 'learning_rate': 2.521888085268367e-06, 'epoch': 1.66}
+{'loss': 3.2865, 'grad_norm': 2.437188148498535, 'learning_rate': 2.5199847735059003e-06, 'epoch': 1.66}
+{'loss': 3.2536, 'grad_norm': 1.918137788772583, 'learning_rate': 2.518081461743434e-06, 'epoch': 1.66}
+{'loss': 3.2048, 'grad_norm': 2.305743932723999, 'learning_rate': 2.5161781499809675e-06, 'epoch': 1.66}
+{'loss': 3.2246, 'grad_norm': 2.128946542739868, 'learning_rate': 2.5142748382185004e-06, 'epoch': 1.66}
+{'loss': 3.3268, 'grad_norm': 2.0543036460876465, 'learning_rate': 2.5123715264560338e-06, 'epoch': 1.66}
+{'loss': 3.3558, 'grad_norm': 2.221472978591919, 'learning_rate': 2.510468214693567e-06, 'epoch': 1.66}
+{'eval_loss': 3.755859375, 'eval_runtime': 4.1484, 'eval_samples_per_second': 241.055, 'eval_steps_per_second': 10.124, 'epoch': 1.66}
+{'loss': 3.3001, 'grad_norm': 2.108609437942505, 'learning_rate': 2.5085649029311005e-06, 'epoch': 1.67}
+{'loss': 3.263, 'grad_norm': 1.9639010429382324, 'learning_rate': 2.506661591168634e-06, 'epoch': 1.67}
+{'loss': 3.3535, 'grad_norm': 1.9628020524978638, 'learning_rate': 2.504758279406167e-06, 'epoch': 1.67}
+{'loss': 3.2777, 'grad_norm': 1.844520926475525, 'learning_rate': 2.5028549676437e-06, 'epoch': 1.67}
+{'loss': 3.3372, 'grad_norm': 2.073869228363037, 'learning_rate': 2.5009516558812335e-06, 'epoch': 1.67}
+{'loss': 3.2493, 'grad_norm': 1.899859070777893, 'learning_rate': 2.499048344118767e-06, 'epoch': 1.67}
+{'loss': 3.2917, 'grad_norm': 2.0180141925811768, 'learning_rate': 2.4971450323563002e-06, 'epoch': 1.67}
+{'loss': 3.36, 'grad_norm': 2.1042885780334473, 'learning_rate': 2.4952417205938336e-06, 'epoch': 1.67}
+{'loss': 3.2949, 'grad_norm': 2.338650703430176, 'learning_rate': 2.4933384088313666e-06, 'epoch': 1.67}
+{'loss': 3.3197, 'grad_norm': 1.7963896989822388, 'learning_rate': 2.4914350970689e-06, 'epoch': 1.67}
+{'eval_loss': 3.7421875, 'eval_runtime': 4.1514, 'eval_samples_per_second': 240.885, 'eval_steps_per_second': 10.117, 'epoch': 1.67}
+{'loss': 3.3005, 'grad_norm': 1.882889747619629, 'learning_rate': 2.4895317853064337e-06, 'epoch': 1.68}
+{'loss': 3.3376, 'grad_norm': 1.9697178602218628, 'learning_rate': 2.4876284735439666e-06, 'epoch': 1.68}
+{'loss': 3.3011, 'grad_norm': 1.797406792640686, 'learning_rate': 2.4857251617815e-06, 'epoch': 1.68}
+{'loss': 3.3057, 'grad_norm': 1.8697429895401, 'learning_rate': 2.4838218500190334e-06, 'epoch': 1.68}
+{'loss': 3.4971, 'grad_norm': 2.739421844482422, 'learning_rate': 2.4819185382565667e-06, 'epoch': 1.68}
+{'loss': 3.2845, 'grad_norm': 2.0674924850463867, 'learning_rate': 2.4800152264941e-06, 'epoch': 1.68}
+{'loss': 3.3503, 'grad_norm': 2.2450814247131348, 'learning_rate': 2.478111914731633e-06, 'epoch': 1.68}
+{'loss': 3.3271, 'grad_norm': 2.3561503887176514, 'learning_rate': 2.4762086029691664e-06, 'epoch': 1.68}
+{'loss': 3.3145, 'grad_norm': 2.109041213989258, 'learning_rate': 2.4743052912066998e-06, 'epoch': 1.68}
+{'loss': 3.2826, 'grad_norm': 2.24955415725708, 'learning_rate': 2.472401979444233e-06, 'epoch': 1.68}
+{'eval_loss': 3.7421875, 'eval_runtime': 4.1487, 'eval_samples_per_second': 241.04, 'eval_steps_per_second': 10.124, 'epoch': 1.68}
+{'loss': 3.1953, 'grad_norm': 1.9235203266143799, 'learning_rate': 2.4704986676817665e-06, 'epoch': 1.69}
+{'loss': 3.2891, 'grad_norm': 2.3100128173828125, 'learning_rate': 2.4685953559193e-06, 'epoch': 1.69}
+{'loss': 3.3763, 'grad_norm': 2.0012407302856445, 'learning_rate': 2.466692044156833e-06, 'epoch': 1.69}
+{'loss': 3.2406, 'grad_norm': 1.9935722351074219, 'learning_rate': 2.4647887323943666e-06, 'epoch': 1.69}
+{'loss': 3.2507, 'grad_norm': 1.8685868978500366, 'learning_rate': 2.4628854206319e-06, 'epoch': 1.69}
+{'loss': 3.2751, 'grad_norm': 2.0178637504577637, 'learning_rate': 2.460982108869433e-06, 'epoch': 1.69}
+{'loss': 3.1836, 'grad_norm': 2.0000970363616943, 'learning_rate': 2.4590787971069662e-06, 'epoch': 1.69}
+{'loss': 3.2428, 'grad_norm': 2.0034966468811035, 'learning_rate': 2.4571754853444996e-06, 'epoch': 1.69}
+{'loss': 3.2184, 'grad_norm': 2.128477096557617, 'learning_rate': 2.455272173582033e-06, 'epoch': 1.69}
+{'loss': 3.3086, 'grad_norm': 1.940625548362732, 'learning_rate': 2.4533688618195663e-06, 'epoch': 1.69}
+{'eval_loss': 3.74609375, 'eval_runtime': 4.1491, 'eval_samples_per_second': 241.017, 'eval_steps_per_second': 10.123, 'epoch': 1.69}
+{'loss': 3.3438, 'grad_norm': 2.0096700191497803, 'learning_rate': 2.4514655500570997e-06, 'epoch': 1.7}
+{'loss': 3.3242, 'grad_norm': 2.047776937484741, 'learning_rate': 2.449562238294633e-06, 'epoch': 1.7}
+{'loss': 3.361, 'grad_norm': 1.8330715894699097, 'learning_rate': 2.4476589265321664e-06, 'epoch': 1.7}
+{'loss': 3.4212, 'grad_norm': 2.004561185836792, 'learning_rate': 2.4457556147696993e-06, 'epoch': 1.7}
+{'loss': 3.3053, 'grad_norm': 2.139141082763672, 'learning_rate': 2.4438523030072327e-06, 'epoch': 1.7}
+{'loss': 3.3128, 'grad_norm': 1.650841236114502, 'learning_rate': 2.441948991244766e-06, 'epoch': 1.7}
+{'loss': 3.3555, 'grad_norm': 2.1185288429260254, 'learning_rate': 2.4400456794822994e-06, 'epoch': 1.7}
+{'loss': 3.2773, 'grad_norm': 2.121330738067627, 'learning_rate': 2.438142367719833e-06, 'epoch': 1.7}
+{'loss': 3.3171, 'grad_norm': 1.8104913234710693, 'learning_rate': 2.4362390559573657e-06, 'epoch': 1.7}
+{'loss': 3.3724, 'grad_norm': 2.1325271129608154, 'learning_rate': 2.434335744194899e-06, 'epoch': 1.71}
+{'eval_loss': 3.736328125, 'eval_runtime': 4.1511, 'eval_samples_per_second': 240.902, 'eval_steps_per_second': 10.118, 'epoch': 1.71}
+{'loss': 3.3258, 'grad_norm': 1.9990007877349854, 'learning_rate': 2.432432432432433e-06, 'epoch': 1.71}
+{'loss': 3.2988, 'grad_norm': 2.4250946044921875, 'learning_rate': 2.4305291206699662e-06, 'epoch': 1.71}
+{'loss': 3.2376, 'grad_norm': 2.1435399055480957, 'learning_rate': 2.428625808907499e-06, 'epoch': 1.71}
+{'loss': 3.3385, 'grad_norm': 2.035766124725342, 'learning_rate': 2.4267224971450325e-06, 'epoch': 1.71}
+{'loss': 3.2926, 'grad_norm': 2.0447041988372803, 'learning_rate': 2.424819185382566e-06, 'epoch': 1.71}
+{'loss': 3.2539, 'grad_norm': 1.866937518119812, 'learning_rate': 2.4229158736200993e-06, 'epoch': 1.71}
+{'loss': 3.304, 'grad_norm': 2.106180429458618, 'learning_rate': 2.4210125618576326e-06, 'epoch': 1.71}
+{'loss': 3.3477, 'grad_norm': 1.8962675333023071, 'learning_rate': 2.4191092500951656e-06, 'epoch': 1.71}
+{'loss': 3.2184, 'grad_norm': 2.2445733547210693, 'learning_rate': 2.417205938332699e-06, 'epoch': 1.71}
+{'loss': 3.2845, 'grad_norm': 2.091503858566284, 'learning_rate': 2.4153026265702323e-06, 'epoch': 1.72}
+{'eval_loss': 3.74609375, 'eval_runtime': 4.1511, 'eval_samples_per_second': 240.9, 'eval_steps_per_second': 10.118, 'epoch': 1.72}
+{'loss': 3.3402, 'grad_norm': 2.174722909927368, 'learning_rate': 2.4133993148077657e-06, 'epoch': 1.72}
+{'loss': 3.3281, 'grad_norm': 2.033581256866455, 'learning_rate': 2.411496003045299e-06, 'epoch': 1.72}
+{'loss': 3.2604, 'grad_norm': 1.87001633644104, 'learning_rate': 2.4095926912828324e-06, 'epoch': 1.72}
+{'loss': 3.2663, 'grad_norm': 2.2091522216796875, 'learning_rate': 2.4076893795203658e-06, 'epoch': 1.72}
+{'loss': 3.3503, 'grad_norm': 2.039184331893921, 'learning_rate': 2.405786067757899e-06, 'epoch': 1.72}
+{'loss': 3.2894, 'grad_norm': 2.0930564403533936, 'learning_rate': 2.403882755995432e-06, 'epoch': 1.72}
+{'loss': 3.25, 'grad_norm': 2.0000524520874023, 'learning_rate': 2.4019794442329654e-06, 'epoch': 1.72}
+{'loss': 3.2663, 'grad_norm': 1.7370206117630005, 'learning_rate': 2.4000761324704988e-06, 'epoch': 1.72}
+{'loss': 3.2188, 'grad_norm': 2.255910873413086, 'learning_rate': 2.398172820708032e-06, 'epoch': 1.72}
+{'loss': 3.3903, 'grad_norm': 1.806339144706726, 'learning_rate': 2.3962695089455655e-06, 'epoch': 1.73}
+{'eval_loss': 3.73828125, 'eval_runtime': 4.1514, 'eval_samples_per_second': 240.881, 'eval_steps_per_second': 10.117, 'epoch': 1.73}
+{'loss': 3.3721, 'grad_norm': 2.480039358139038, 'learning_rate': 2.3943661971830984e-06, 'epoch': 1.73}
+{'loss': 3.3258, 'grad_norm': 1.86631178855896, 'learning_rate': 2.3924628854206322e-06, 'epoch': 1.73}
+{'loss': 3.2161, 'grad_norm': 1.9593126773834229, 'learning_rate': 2.3905595736581656e-06, 'epoch': 1.73}
+{'loss': 3.2757, 'grad_norm': 1.8937538862228394, 'learning_rate': 2.388656261895699e-06, 'epoch': 1.73}
+{'loss': 3.3496, 'grad_norm': 2.102407693862915, 'learning_rate': 2.386752950133232e-06, 'epoch': 1.73}
+{'loss': 3.2842, 'grad_norm': 2.1030325889587402, 'learning_rate': 2.3848496383707653e-06, 'epoch': 1.73}
+{'loss': 3.3226, 'grad_norm': 1.7755101919174194, 'learning_rate': 2.3829463266082986e-06, 'epoch': 1.73}
+{'loss': 3.2741, 'grad_norm': 2.129547119140625, 'learning_rate': 2.381043014845832e-06, 'epoch': 1.73}
+{'loss': 3.3883, 'grad_norm': 1.984032392501831, 'learning_rate': 2.3791397030833653e-06, 'epoch': 1.73}
+{'loss': 3.3128, 'grad_norm': 2.4087796211242676, 'learning_rate': 2.3772363913208983e-06, 'epoch': 1.74}
+{'eval_loss': 3.7421875, 'eval_runtime': 4.1502, 'eval_samples_per_second': 240.953, 'eval_steps_per_second': 10.12, 'epoch': 1.74}
+{'loss': 3.3021, 'grad_norm': 1.8548099994659424, 'learning_rate': 2.3753330795584316e-06, 'epoch': 1.74}
+{'loss': 3.375, 'grad_norm': 1.8261202573776245, 'learning_rate': 2.3734297677959654e-06, 'epoch': 1.74}
+{'loss': 3.2656, 'grad_norm': 1.9821083545684814, 'learning_rate': 2.3715264560334984e-06, 'epoch': 1.74}
+{'loss': 3.3366, 'grad_norm': 2.028942346572876, 'learning_rate': 2.3696231442710317e-06, 'epoch': 1.74}
+{'loss': 3.3757, 'grad_norm': 1.7358006238937378, 'learning_rate': 2.367719832508565e-06, 'epoch': 1.74}
+{'loss': 3.2526, 'grad_norm': 1.9792680740356445, 'learning_rate': 2.3658165207460985e-06, 'epoch': 1.74}
+{'loss': 3.29, 'grad_norm': 1.9840449094772339, 'learning_rate': 2.363913208983632e-06, 'epoch': 1.74}
+{'loss': 3.2988, 'grad_norm': 1.9015021324157715, 'learning_rate': 2.362009897221165e-06, 'epoch': 1.74}
+{'loss': 3.2633, 'grad_norm': 1.6484335660934448, 'learning_rate': 2.360106585458698e-06, 'epoch': 1.75}
+{'loss': 3.4023, 'grad_norm': 2.1439590454101562, 'learning_rate': 2.3582032736962315e-06, 'epoch': 1.75}
+{'eval_loss': 3.73828125, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.922, 'eval_steps_per_second': 10.119, 'epoch': 1.75}
+{'loss': 3.2878, 'grad_norm': 1.9302127361297607, 'learning_rate': 2.356299961933765e-06, 'epoch': 1.75}
+{'loss': 3.279, 'grad_norm': 2.217872381210327, 'learning_rate': 2.354396650171298e-06, 'epoch': 1.75}
+{'loss': 3.2617, 'grad_norm': 1.7559750080108643, 'learning_rate': 2.3524933384088316e-06, 'epoch': 1.75}
+{'loss': 3.3285, 'grad_norm': 2.026554584503174, 'learning_rate': 2.350590026646365e-06, 'epoch': 1.75}
+{'loss': 3.266, 'grad_norm': 1.9371699094772339, 'learning_rate': 2.3486867148838983e-06, 'epoch': 1.75}
+{'loss': 3.3317, 'grad_norm': 1.7401270866394043, 'learning_rate': 2.3467834031214317e-06, 'epoch': 1.75}
+{'loss': 3.2965, 'grad_norm': 1.991334319114685, 'learning_rate': 2.3448800913589646e-06, 'epoch': 1.75}
+{'loss': 3.3327, 'grad_norm': 1.8741459846496582, 'learning_rate': 2.342976779596498e-06, 'epoch': 1.75}
+{'loss': 3.3034, 'grad_norm': 2.11548113822937, 'learning_rate': 2.3410734678340313e-06, 'epoch': 1.76}
+{'loss': 3.3551, 'grad_norm': 1.7286590337753296, 'learning_rate': 2.3391701560715647e-06, 'epoch': 1.76}
+{'eval_loss': 3.7421875, 'eval_runtime': 4.1501, 'eval_samples_per_second': 240.961, 'eval_steps_per_second': 10.12, 'epoch': 1.76}
+{'loss': 3.3535, 'grad_norm': 2.0891923904418945, 'learning_rate': 2.337266844309098e-06, 'epoch': 1.76}
+{'loss': 3.2637, 'grad_norm': 2.1580810546875, 'learning_rate': 2.3353635325466314e-06, 'epoch': 1.76}
+{'loss': 3.3385, 'grad_norm': 1.8991707563400269, 'learning_rate': 2.3334602207841648e-06, 'epoch': 1.76}
+{'loss': 3.3008, 'grad_norm': 1.8258113861083984, 'learning_rate': 2.331556909021698e-06, 'epoch': 1.76}
+{'loss': 3.3066, 'grad_norm': 2.0203866958618164, 'learning_rate': 2.3296535972592315e-06, 'epoch': 1.76}
+{'loss': 3.3939, 'grad_norm': 2.0726215839385986, 'learning_rate': 2.3277502854967644e-06, 'epoch': 1.76}
+{'loss': 3.3545, 'grad_norm': 2.1469712257385254, 'learning_rate': 2.325846973734298e-06, 'epoch': 1.76}
+{'loss': 3.3118, 'grad_norm': 2.0290367603302, 'learning_rate': 2.323943661971831e-06, 'epoch': 1.76}
+{'loss': 3.2975, 'grad_norm': 2.052107334136963, 'learning_rate': 2.3220403502093645e-06, 'epoch': 1.77}
+{'loss': 3.3066, 'grad_norm': 1.9863531589508057, 'learning_rate': 2.320137038446898e-06, 'epoch': 1.77}
+{'eval_loss': 3.740234375, 'eval_runtime': 4.1506, 'eval_samples_per_second': 240.927, 'eval_steps_per_second': 10.119, 'epoch': 1.77}
+{'loss': 3.2142, 'grad_norm': 1.8290386199951172, 'learning_rate': 2.318233726684431e-06, 'epoch': 1.77}
+{'loss': 3.2676, 'grad_norm': 1.957411766052246, 'learning_rate': 2.3163304149219646e-06, 'epoch': 1.77}
+{'loss': 3.334, 'grad_norm': 1.8418656587600708, 'learning_rate': 2.314427103159498e-06, 'epoch': 1.77}
+{'loss': 3.3402, 'grad_norm': 2.346325397491455, 'learning_rate': 2.312523791397031e-06, 'epoch': 1.77}
+{'loss': 3.2747, 'grad_norm': 1.8105427026748657, 'learning_rate': 2.3106204796345643e-06, 'epoch': 1.77}
+{'loss': 3.1921, 'grad_norm': 1.7875739336013794, 'learning_rate': 2.3087171678720976e-06, 'epoch': 1.77}
+{'loss': 3.2731, 'grad_norm': 1.8771015405654907, 'learning_rate': 2.306813856109631e-06, 'epoch': 1.77}
+{'loss': 3.3197, 'grad_norm': 1.967505693435669, 'learning_rate': 2.3049105443471644e-06, 'epoch': 1.78}
+{'loss': 3.2116, 'grad_norm': 1.9224812984466553, 'learning_rate': 2.3030072325846973e-06, 'epoch': 1.78}
+{'loss': 3.3587, 'grad_norm': 2.039285659790039, 'learning_rate': 2.3011039208222307e-06, 'epoch': 1.78}
+{'eval_loss': 3.734375, 'eval_runtime': 4.1484, 'eval_samples_per_second': 241.055, 'eval_steps_per_second': 10.124, 'epoch': 1.78}
+{'loss': 3.3499, 'grad_norm': 2.0130631923675537, 'learning_rate': 2.299200609059764e-06, 'epoch': 1.78}
+{'loss': 3.2633, 'grad_norm': 1.8597917556762695, 'learning_rate': 2.297297297297298e-06, 'epoch': 1.78}
+{'loss': 3.2204, 'grad_norm': 1.95796537399292, 'learning_rate': 2.2953939855348308e-06, 'epoch': 1.78}
+{'loss': 3.335, 'grad_norm': 2.163893461227417, 'learning_rate': 2.293490673772364e-06, 'epoch': 1.78}
+{'loss': 3.3174, 'grad_norm': 2.2045834064483643, 'learning_rate': 2.2915873620098975e-06, 'epoch': 1.78}
+{'loss': 3.3405, 'grad_norm': 2.0926945209503174, 'learning_rate': 2.289684050247431e-06, 'epoch': 1.78}
+{'loss': 3.3249, 'grad_norm': 1.7601641416549683, 'learning_rate': 2.287780738484964e-06, 'epoch': 1.78}
+{'loss': 3.3037, 'grad_norm': 1.8198864459991455, 'learning_rate': 2.285877426722497e-06, 'epoch': 1.79}
+{'loss': 3.4108, 'grad_norm': 2.2055017948150635, 'learning_rate': 2.2839741149600305e-06, 'epoch': 1.79}
+{'loss': 3.266, 'grad_norm': 1.8518602848052979, 'learning_rate': 2.282070803197564e-06, 'epoch': 1.79}
+{'eval_loss': 3.73046875, 'eval_runtime': 4.1499, 'eval_samples_per_second': 240.968, 'eval_steps_per_second': 10.121, 'epoch': 1.79}
+{'loss': 3.2738, 'grad_norm': 2.106315851211548, 'learning_rate': 2.2801674914350972e-06, 'epoch': 1.79}
+{'loss': 3.3509, 'grad_norm': 2.1262619495391846, 'learning_rate': 2.2782641796726306e-06, 'epoch': 1.79}
+{'loss': 3.2419, 'grad_norm': 2.0454013347625732, 'learning_rate': 2.276360867910164e-06, 'epoch': 1.79}
+{'loss': 3.3193, 'grad_norm': 2.011481523513794, 'learning_rate': 2.2744575561476973e-06, 'epoch': 1.79}
+{'loss': 3.2529, 'grad_norm': 2.054279088973999, 'learning_rate': 2.2725542443852307e-06, 'epoch': 1.79}
+{'loss': 3.2536, 'grad_norm': 1.7879387140274048, 'learning_rate': 2.2706509326227636e-06, 'epoch': 1.79}
+{'loss': 3.2673, 'grad_norm': 1.7527506351470947, 'learning_rate': 2.268747620860297e-06, 'epoch': 1.79}
+{'loss': 3.3014, 'grad_norm': 1.803166151046753, 'learning_rate': 2.2668443090978303e-06, 'epoch': 1.8}
+{'loss': 3.3473, 'grad_norm': 1.9990530014038086, 'learning_rate': 2.2649409973353637e-06, 'epoch': 1.8}
+{'loss': 3.2982, 'grad_norm': 1.8258509635925293, 'learning_rate': 2.263037685572897e-06, 'epoch': 1.8}
+{'eval_loss': 3.728515625, 'eval_runtime': 4.1534, 'eval_samples_per_second': 240.768, 'eval_steps_per_second': 10.112, 'epoch': 1.8}
+{'loss': 3.2803, 'grad_norm': 2.1441597938537598, 'learning_rate': 2.26113437381043e-06, 'epoch': 1.8}
+{'loss': 3.2926, 'grad_norm': 1.8390189409255981, 'learning_rate': 2.259231062047964e-06, 'epoch': 1.8}
+{'loss': 3.167, 'grad_norm': 2.3272483348846436, 'learning_rate': 2.257327750285497e-06, 'epoch': 1.8}
+{'loss': 3.3617, 'grad_norm': 2.232271194458008, 'learning_rate': 2.2554244385230305e-06, 'epoch': 1.8}
+{'loss': 3.2008, 'grad_norm': 2.141566514968872, 'learning_rate': 2.2535211267605635e-06, 'epoch': 1.8}
+{'loss': 3.3451, 'grad_norm': 2.129805564880371, 'learning_rate': 2.251617814998097e-06, 'epoch': 1.8}
+{'loss': 3.2057, 'grad_norm': 1.922893762588501, 'learning_rate': 2.24971450323563e-06, 'epoch': 1.8}
+{'loss': 3.2572, 'grad_norm': 1.9387024641036987, 'learning_rate': 2.2478111914731636e-06, 'epoch': 1.81}
+{'loss': 3.2656, 'grad_norm': 1.9011324644088745, 'learning_rate': 2.245907879710697e-06, 'epoch': 1.81}
+{'loss': 3.3047, 'grad_norm': 1.7450181245803833, 'learning_rate': 2.24400456794823e-06, 'epoch': 1.81}
+{'eval_loss': 3.732421875, 'eval_runtime': 4.1537, 'eval_samples_per_second': 240.747, 'eval_steps_per_second': 10.111, 'epoch': 1.81}
+{'loss': 3.2516, 'grad_norm': 1.988487720489502, 'learning_rate': 2.2421012561857632e-06, 'epoch': 1.81}
+{'loss': 3.2393, 'grad_norm': 2.0049707889556885, 'learning_rate': 2.240197944423297e-06, 'epoch': 1.81}
+{'loss': 3.3083, 'grad_norm': 1.9756190776824951, 'learning_rate': 2.23829463266083e-06, 'epoch': 1.81}
+{'loss': 3.2633, 'grad_norm': 2.1770591735839844, 'learning_rate': 2.2363913208983633e-06, 'epoch': 1.81}
+{'loss': 3.417, 'grad_norm': 2.451484203338623, 'learning_rate': 2.2344880091358967e-06, 'epoch': 1.81}
+{'loss': 3.2822, 'grad_norm': 2.1217968463897705, 'learning_rate': 2.23258469737343e-06, 'epoch': 1.81}
+{'loss': 3.2152, 'grad_norm': 1.8100851774215698, 'learning_rate': 2.2306813856109634e-06, 'epoch': 1.82}
+{'loss': 3.2988, 'grad_norm': 2.08941912651062, 'learning_rate': 2.2287780738484963e-06, 'epoch': 1.82}
+{'loss': 3.2116, 'grad_norm': 2.049851894378662, 'learning_rate': 2.2268747620860297e-06, 'epoch': 1.82}
+{'loss': 3.2998, 'grad_norm': 2.0533411502838135, 'learning_rate': 2.224971450323563e-06, 'epoch': 1.82}
+{'eval_loss': 3.732421875, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.921, 'eval_steps_per_second': 10.119, 'epoch': 1.82}
+{'loss': 3.3818, 'grad_norm': 2.1834616661071777, 'learning_rate': 2.2230681385610964e-06, 'epoch': 1.82}
+{'loss': 3.2764, 'grad_norm': 2.1539180278778076, 'learning_rate': 2.2211648267986298e-06, 'epoch': 1.82}
+{'loss': 3.2331, 'grad_norm': 1.9829143285751343, 'learning_rate': 2.219261515036163e-06, 'epoch': 1.82}
+{'loss': 3.2861, 'grad_norm': 2.246258020401001, 'learning_rate': 2.2173582032736965e-06, 'epoch': 1.82}
+{'loss': 3.278, 'grad_norm': 2.2505223751068115, 'learning_rate': 2.21545489151123e-06, 'epoch': 1.82}
+{'loss': 3.3659, 'grad_norm': 1.9040559530258179, 'learning_rate': 2.2135515797487632e-06, 'epoch': 1.82}
+{'loss': 3.3454, 'grad_norm': 1.9634451866149902, 'learning_rate': 2.211648267986296e-06, 'epoch': 1.83}
+{'loss': 3.3014, 'grad_norm': 1.9924030303955078, 'learning_rate': 2.2097449562238295e-06, 'epoch': 1.83}
+{'loss': 3.32, 'grad_norm': 1.8291453123092651, 'learning_rate': 2.207841644461363e-06, 'epoch': 1.83}
+{'loss': 3.2786, 'grad_norm': 2.028506278991699, 'learning_rate': 2.2059383326988963e-06, 'epoch': 1.83}
+{'eval_loss': 3.728515625, 'eval_runtime': 4.1501, 'eval_samples_per_second': 240.958, 'eval_steps_per_second': 10.12, 'epoch': 1.83}
+{'loss': 3.2936, 'grad_norm': 1.8407864570617676, 'learning_rate': 2.2040350209364296e-06, 'epoch': 1.83}
+{'loss': 3.292, 'grad_norm': 2.1311025619506836, 'learning_rate': 2.2021317091739626e-06, 'epoch': 1.83}
+{'loss': 3.3548, 'grad_norm': 1.8186795711517334, 'learning_rate': 2.2002283974114963e-06, 'epoch': 1.83}
+{'loss': 3.2715, 'grad_norm': 2.068493366241455, 'learning_rate': 2.1983250856490297e-06, 'epoch': 1.83}
+{'loss': 3.2881, 'grad_norm': 2.2584168910980225, 'learning_rate': 2.1964217738865626e-06, 'epoch': 1.83}
+{'loss': 3.2832, 'grad_norm': 1.7856043577194214, 'learning_rate': 2.194518462124096e-06, 'epoch': 1.83}
+{'loss': 3.2236, 'grad_norm': 2.0707924365997314, 'learning_rate': 2.1926151503616294e-06, 'epoch': 1.84}
+{'loss': 3.2894, 'grad_norm': 1.783826231956482, 'learning_rate': 2.1907118385991627e-06, 'epoch': 1.84}
+{'loss': 3.3281, 'grad_norm': 2.1116819381713867, 'learning_rate': 2.188808526836696e-06, 'epoch': 1.84}
+{'loss': 3.2572, 'grad_norm': 2.087876796722412, 'learning_rate': 2.1869052150742295e-06, 'epoch': 1.84}
+{'eval_loss': 3.740234375, 'eval_runtime': 4.1528, 'eval_samples_per_second': 240.8, 'eval_steps_per_second': 10.114, 'epoch': 1.84}
+{'loss': 3.3428, 'grad_norm': 1.8883925676345825, 'learning_rate': 2.1850019033117624e-06, 'epoch': 1.84}
+{'loss': 3.2956, 'grad_norm': 1.8411632776260376, 'learning_rate': 2.1830985915492958e-06, 'epoch': 1.84}
+{'loss': 3.1735, 'grad_norm': 2.0492091178894043, 'learning_rate': 2.1811952797868295e-06, 'epoch': 1.84}
+{'loss': 3.3249, 'grad_norm': 1.9989567995071411, 'learning_rate': 2.1792919680243625e-06, 'epoch': 1.84}
+{'loss': 3.2412, 'grad_norm': 2.000647783279419, 'learning_rate': 2.177388656261896e-06, 'epoch': 1.84}
+{'loss': 3.3584, 'grad_norm': 1.9669078588485718, 'learning_rate': 2.1754853444994292e-06, 'epoch': 1.84}
+{'loss': 3.2793, 'grad_norm': 2.1534814834594727, 'learning_rate': 2.1735820327369626e-06, 'epoch': 1.85}
+{'loss': 3.3027, 'grad_norm': 2.246635913848877, 'learning_rate': 2.171678720974496e-06, 'epoch': 1.85}
+{'loss': 3.2181, 'grad_norm': 2.241955280303955, 'learning_rate': 2.169775409212029e-06, 'epoch': 1.85}
+{'loss': 3.2656, 'grad_norm': 1.6974316835403442, 'learning_rate': 2.1678720974495622e-06, 'epoch': 1.85}
+{'eval_loss': 3.7265625, 'eval_runtime': 4.1505, 'eval_samples_per_second': 240.936, 'eval_steps_per_second': 10.119, 'epoch': 1.85}
+{'loss': 3.3047, 'grad_norm': 1.8037952184677124, 'learning_rate': 2.1659687856870956e-06, 'epoch': 1.85}
+{'loss': 3.2653, 'grad_norm': 2.111539125442505, 'learning_rate': 2.164065473924629e-06, 'epoch': 1.85}
+{'loss': 3.3382, 'grad_norm': 2.0911738872528076, 'learning_rate': 2.1621621621621623e-06, 'epoch': 1.85}
+{'loss': 3.2705, 'grad_norm': 1.9951289892196655, 'learning_rate': 2.1602588503996957e-06, 'epoch': 1.85}
+{'loss': 3.3288, 'grad_norm': 1.8042070865631104, 'learning_rate': 2.158355538637229e-06, 'epoch': 1.85}
+{'loss': 3.2712, 'grad_norm': 1.9604954719543457, 'learning_rate': 2.1564522268747624e-06, 'epoch': 1.86}
+{'loss': 3.3167, 'grad_norm': 1.9825583696365356, 'learning_rate': 2.1545489151122958e-06, 'epoch': 1.86}
+{'loss': 3.2454, 'grad_norm': 1.8675806522369385, 'learning_rate': 2.1526456033498287e-06, 'epoch': 1.86}
+{'loss': 3.3356, 'grad_norm': 2.2270939350128174, 'learning_rate': 2.150742291587362e-06, 'epoch': 1.86}
+{'loss': 3.2165, 'grad_norm': 2.0541131496429443, 'learning_rate': 2.1488389798248954e-06, 'epoch': 1.86}
+{'eval_loss': 3.728515625, 'eval_runtime': 4.1531, 'eval_samples_per_second': 240.786, 'eval_steps_per_second': 10.113, 'epoch': 1.86}
+{'loss': 3.3167, 'grad_norm': 2.186228036880493, 'learning_rate': 2.146935668062429e-06, 'epoch': 1.86}
+{'loss': 3.2926, 'grad_norm': 2.073951482772827, 'learning_rate': 2.145032356299962e-06, 'epoch': 1.86}
+{'loss': 3.3197, 'grad_norm': 2.323101282119751, 'learning_rate': 2.1431290445374955e-06, 'epoch': 1.86}
+{'loss': 3.3265, 'grad_norm': 2.0579302310943604, 'learning_rate': 2.141225732775029e-06, 'epoch': 1.86}
+{'loss': 3.3044, 'grad_norm': 1.8881580829620361, 'learning_rate': 2.1393224210125623e-06, 'epoch': 1.86}
+{'loss': 3.2913, 'grad_norm': 1.842898964881897, 'learning_rate': 2.137419109250095e-06, 'epoch': 1.87}
+{'loss': 3.2786, 'grad_norm': 1.788325548171997, 'learning_rate': 2.1355157974876286e-06, 'epoch': 1.87}
+{'loss': 3.3203, 'grad_norm': 1.8543756008148193, 'learning_rate': 2.133612485725162e-06, 'epoch': 1.87}
+{'loss': 3.3359, 'grad_norm': 1.9244800806045532, 'learning_rate': 2.1317091739626953e-06, 'epoch': 1.87}
+{'loss': 3.3105, 'grad_norm': 1.8406046628952026, 'learning_rate': 2.1298058622002286e-06, 'epoch': 1.87}
+{'eval_loss': 3.7265625, 'eval_runtime': 4.1513, 'eval_samples_per_second': 240.886, 'eval_steps_per_second': 10.117, 'epoch': 1.87}
+{'loss': 3.2174, 'grad_norm': 1.855535864830017, 'learning_rate': 2.1279025504377616e-06, 'epoch': 1.87}
+{'loss': 3.3145, 'grad_norm': 1.9382776021957397, 'learning_rate': 2.125999238675295e-06, 'epoch': 1.87}
+{'loss': 3.3444, 'grad_norm': 2.121065139770508, 'learning_rate': 2.1240959269128287e-06, 'epoch': 1.87}
+{'loss': 3.3092, 'grad_norm': 1.7580369710922241, 'learning_rate': 2.122192615150362e-06, 'epoch': 1.87}
+{'loss': 3.2679, 'grad_norm': 2.3676414489746094, 'learning_rate': 2.120289303387895e-06, 'epoch': 1.87}
+{'loss': 3.207, 'grad_norm': 2.1648383140563965, 'learning_rate': 2.1183859916254284e-06, 'epoch': 1.88}
+{'loss': 3.402, 'grad_norm': 2.138406991958618, 'learning_rate': 2.1164826798629618e-06, 'epoch': 1.88}
+{'loss': 3.1823, 'grad_norm': 1.9231669902801514, 'learning_rate': 2.114579368100495e-06, 'epoch': 1.88}
+{'loss': 3.3171, 'grad_norm': 1.9746184349060059, 'learning_rate': 2.1126760563380285e-06, 'epoch': 1.88}
+{'loss': 3.3665, 'grad_norm': 1.8176594972610474, 'learning_rate': 2.1107727445755614e-06, 'epoch': 1.88}
+{'eval_loss': 3.732421875, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.924, 'eval_steps_per_second': 10.119, 'epoch': 1.88}
+{'loss': 3.3421, 'grad_norm': 1.9220746755599976, 'learning_rate': 2.1088694328130948e-06, 'epoch': 1.88}
+{'loss': 3.3753, 'grad_norm': 2.034330129623413, 'learning_rate': 2.106966121050628e-06, 'epoch': 1.88}
+{'loss': 3.3473, 'grad_norm': 2.147099018096924, 'learning_rate': 2.1050628092881615e-06, 'epoch': 1.88}
+{'loss': 3.2643, 'grad_norm': 2.044752836227417, 'learning_rate': 2.103159497525695e-06, 'epoch': 1.88}
+{'loss': 3.3265, 'grad_norm': 1.8195630311965942, 'learning_rate': 2.1012561857632282e-06, 'epoch': 1.88}
+{'loss': 3.3148, 'grad_norm': 1.9516654014587402, 'learning_rate': 2.0993528740007616e-06, 'epoch': 1.89}
+{'loss': 3.3014, 'grad_norm': 2.0132720470428467, 'learning_rate': 2.097449562238295e-06, 'epoch': 1.89}
+{'loss': 3.3551, 'grad_norm': 2.0648598670959473, 'learning_rate': 2.095546250475828e-06, 'epoch': 1.89}
+{'loss': 3.2546, 'grad_norm': 1.9079021215438843, 'learning_rate': 2.0936429387133613e-06, 'epoch': 1.89}
+{'loss': 3.3298, 'grad_norm': 2.0576987266540527, 'learning_rate': 2.0917396269508946e-06, 'epoch': 1.89}
+{'eval_loss': 3.7265625, 'eval_runtime': 4.1517, 'eval_samples_per_second': 240.864, 'eval_steps_per_second': 10.116, 'epoch': 1.89}
+{'loss': 3.2712, 'grad_norm': 2.1186513900756836, 'learning_rate': 2.089836315188428e-06, 'epoch': 1.89}
+{'loss': 3.3633, 'grad_norm': 2.3084654808044434, 'learning_rate': 2.0879330034259614e-06, 'epoch': 1.89}
+{'loss': 3.2962, 'grad_norm': 1.7546536922454834, 'learning_rate': 2.0860296916634947e-06, 'epoch': 1.89}
+{'loss': 3.2507, 'grad_norm': 1.9297199249267578, 'learning_rate': 2.084126379901028e-06, 'epoch': 1.89}
+{'loss': 3.304, 'grad_norm': 2.0673484802246094, 'learning_rate': 2.0822230681385614e-06, 'epoch': 1.9}
+{'loss': 3.2923, 'grad_norm': 1.821370005607605, 'learning_rate': 2.080319756376095e-06, 'epoch': 1.9}
+{'loss': 3.248, 'grad_norm': 1.7226611375808716, 'learning_rate': 2.0784164446136277e-06, 'epoch': 1.9}
+{'loss': 3.2646, 'grad_norm': 1.7993212938308716, 'learning_rate': 2.076513132851161e-06, 'epoch': 1.9}
+{'loss': 3.376, 'grad_norm': 2.0499918460845947, 'learning_rate': 2.0746098210886945e-06, 'epoch': 1.9}
+{'loss': 3.3519, 'grad_norm': 2.1503119468688965, 'learning_rate': 2.072706509326228e-06, 'epoch': 1.9}
+{'eval_loss': 3.724609375, 'eval_runtime': 4.1521, 'eval_samples_per_second': 240.841, 'eval_steps_per_second': 10.115, 'epoch': 1.9}
+{'loss': 3.3014, 'grad_norm': 1.9468963146209717, 'learning_rate': 2.070803197563761e-06, 'epoch': 1.9}
+{'loss': 3.264, 'grad_norm': 1.8831675052642822, 'learning_rate': 2.068899885801294e-06, 'epoch': 1.9}
+{'loss': 3.3128, 'grad_norm': 1.8756295442581177, 'learning_rate': 2.066996574038828e-06, 'epoch': 1.9}
+{'loss': 3.3138, 'grad_norm': 2.111271619796753, 'learning_rate': 2.0650932622763613e-06, 'epoch': 1.9}
+{'loss': 3.3011, 'grad_norm': 1.950377345085144, 'learning_rate': 2.0631899505138942e-06, 'epoch': 1.91}
+{'loss': 3.2503, 'grad_norm': 2.351951837539673, 'learning_rate': 2.0612866387514276e-06, 'epoch': 1.91}
+{'loss': 3.3174, 'grad_norm': 2.0864648818969727, 'learning_rate': 2.059383326988961e-06, 'epoch': 1.91}
+{'loss': 3.2386, 'grad_norm': 2.3438751697540283, 'learning_rate': 2.0574800152264943e-06, 'epoch': 1.91}
+{'loss': 3.2074, 'grad_norm': 1.9741785526275635, 'learning_rate': 2.0555767034640277e-06, 'epoch': 1.91}
+{'loss': 3.2783, 'grad_norm': 2.0763330459594727, 'learning_rate': 2.053673391701561e-06, 'epoch': 1.91}
+{'eval_loss': 3.7265625, 'eval_runtime': 4.1525, 'eval_samples_per_second': 240.819, 'eval_steps_per_second': 10.114, 'epoch': 1.91}
+{'loss': 3.307, 'grad_norm': 2.124108076095581, 'learning_rate': 2.051770079939094e-06, 'epoch': 1.91}
+{'loss': 3.3031, 'grad_norm': 2.0765364170074463, 'learning_rate': 2.0498667681766273e-06, 'epoch': 1.91}
+{'loss': 3.237, 'grad_norm': 1.8906574249267578, 'learning_rate': 2.047963456414161e-06, 'epoch': 1.91}
+{'loss': 3.2601, 'grad_norm': 1.9937551021575928, 'learning_rate': 2.046060144651694e-06, 'epoch': 1.91}
+{'loss': 3.3213, 'grad_norm': 1.8797094821929932, 'learning_rate': 2.0441568328892274e-06, 'epoch': 1.92}
+{'loss': 3.2305, 'grad_norm': 1.9736392498016357, 'learning_rate': 2.0422535211267608e-06, 'epoch': 1.92}
+{'loss': 3.2985, 'grad_norm': 1.8788695335388184, 'learning_rate': 2.040350209364294e-06, 'epoch': 1.92}
+{'loss': 3.2393, 'grad_norm': 2.028798818588257, 'learning_rate': 2.0384468976018275e-06, 'epoch': 1.92}
+{'loss': 3.3219, 'grad_norm': 1.8645235300064087, 'learning_rate': 2.0365435858393604e-06, 'epoch': 1.92}
+{'loss': 3.2894, 'grad_norm': 1.9553364515304565, 'learning_rate': 2.034640274076894e-06, 'epoch': 1.92}
+{'eval_loss': 3.72265625, 'eval_runtime': 4.1516, 'eval_samples_per_second': 240.871, 'eval_steps_per_second': 10.117, 'epoch': 1.92}
+{'loss': 3.2507, 'grad_norm': 2.109117269515991, 'learning_rate': 2.032736962314427e-06, 'epoch': 1.92}
+{'loss': 3.3275, 'grad_norm': 1.895727515220642, 'learning_rate': 2.0308336505519605e-06, 'epoch': 1.92}
+{'loss': 3.1947, 'grad_norm': 1.8780332803726196, 'learning_rate': 2.028930338789494e-06, 'epoch': 1.92}
+{'loss': 3.2559, 'grad_norm': 2.531867504119873, 'learning_rate': 2.0270270270270273e-06, 'epoch': 1.93}
+{'loss': 3.2516, 'grad_norm': 1.982659101486206, 'learning_rate': 2.0251237152645606e-06, 'epoch': 1.93}
+{'loss': 3.196, 'grad_norm': 2.163893699645996, 'learning_rate': 2.023220403502094e-06, 'epoch': 1.93}
+{'loss': 3.2412, 'grad_norm': 1.8382922410964966, 'learning_rate': 2.0213170917396273e-06, 'epoch': 1.93}
+{'loss': 3.2227, 'grad_norm': 1.9169751405715942, 'learning_rate': 2.0194137799771603e-06, 'epoch': 1.93}
+{'loss': 3.3317, 'grad_norm': 2.0692384243011475, 'learning_rate': 2.0175104682146937e-06, 'epoch': 1.93}
+{'loss': 3.2327, 'grad_norm': 1.7635976076126099, 'learning_rate': 2.015607156452227e-06, 'epoch': 1.93}
+{'eval_loss': 3.720703125, 'eval_runtime': 4.1548, 'eval_samples_per_second': 240.686, 'eval_steps_per_second': 10.109, 'epoch': 1.93}
+{'loss': 3.2979, 'grad_norm': 1.7132396697998047, 'learning_rate': 2.0137038446897604e-06, 'epoch': 1.93}
+{'loss': 3.388, 'grad_norm': 1.8116284608840942, 'learning_rate': 2.0118005329272937e-06, 'epoch': 1.93}
+{'loss': 3.2799, 'grad_norm': 1.6985450983047485, 'learning_rate': 2.0098972211648267e-06, 'epoch': 1.93}
+{'loss': 3.2484, 'grad_norm': 2.25898814201355, 'learning_rate': 2.0079939094023605e-06, 'epoch': 1.94}
+{'loss': 3.2314, 'grad_norm': 1.6910312175750732, 'learning_rate': 2.006090597639894e-06, 'epoch': 1.94}
+{'loss': 3.3193, 'grad_norm': 1.9595261812210083, 'learning_rate': 2.0041872858774268e-06, 'epoch': 1.94}
+{'loss': 3.2415, 'grad_norm': 2.0064055919647217, 'learning_rate': 2.00228397411496e-06, 'epoch': 1.94}
+{'loss': 3.2083, 'grad_norm': 2.0096235275268555, 'learning_rate': 2.0003806623524935e-06, 'epoch': 1.94}
+{'loss': 3.3307, 'grad_norm': 2.0650365352630615, 'learning_rate': 1.998477350590027e-06, 'epoch': 1.94}
+{'loss': 3.2279, 'grad_norm': 2.0408706665039062, 'learning_rate': 1.9965740388275602e-06, 'epoch': 1.94}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1511, 'eval_samples_per_second': 240.899, 'eval_steps_per_second': 10.118, 'epoch': 1.94}
+{'loss': 3.2539, 'grad_norm': 1.7907593250274658, 'learning_rate': 1.994670727065093e-06, 'epoch': 1.94}
+{'loss': 3.3008, 'grad_norm': 1.9763380289077759, 'learning_rate': 1.9927674153026265e-06, 'epoch': 1.94}
+{'loss': 3.2786, 'grad_norm': 2.0944762229919434, 'learning_rate': 1.99086410354016e-06, 'epoch': 1.94}
+{'loss': 3.1917, 'grad_norm': 1.723512053489685, 'learning_rate': 1.9889607917776937e-06, 'epoch': 1.95}
+{'loss': 3.3014, 'grad_norm': 1.8755911588668823, 'learning_rate': 1.9870574800152266e-06, 'epoch': 1.95}
+{'loss': 3.2907, 'grad_norm': 1.8921144008636475, 'learning_rate': 1.98515416825276e-06, 'epoch': 1.95}
+{'loss': 3.221, 'grad_norm': 1.98508882522583, 'learning_rate': 1.9832508564902933e-06, 'epoch': 1.95}
+{'loss': 3.2204, 'grad_norm': 1.7404980659484863, 'learning_rate': 1.9813475447278267e-06, 'epoch': 1.95}
+{'loss': 3.3001, 'grad_norm': 1.995713472366333, 'learning_rate': 1.97944423296536e-06, 'epoch': 1.95}
+{'loss': 3.207, 'grad_norm': 2.342567205429077, 'learning_rate': 1.977540921202893e-06, 'epoch': 1.95}
+{'eval_loss': 3.7265625, 'eval_runtime': 4.1529, 'eval_samples_per_second': 240.797, 'eval_steps_per_second': 10.113, 'epoch': 1.95}
+{'loss': 3.2588, 'grad_norm': 1.9405686855316162, 'learning_rate': 1.9756376094404264e-06, 'epoch': 1.95}
+{'loss': 3.2367, 'grad_norm': 1.8357990980148315, 'learning_rate': 1.9737342976779597e-06, 'epoch': 1.95}
+{'loss': 3.2594, 'grad_norm': 1.8382569551467896, 'learning_rate': 1.971830985915493e-06, 'epoch': 1.95}
+{'loss': 3.3568, 'grad_norm': 2.2236523628234863, 'learning_rate': 1.9699276741530264e-06, 'epoch': 1.96}
+{'loss': 3.3496, 'grad_norm': 1.8847426176071167, 'learning_rate': 1.96802436239056e-06, 'epoch': 1.96}
+{'loss': 3.3031, 'grad_norm': 2.023266553878784, 'learning_rate': 1.966121050628093e-06, 'epoch': 1.96}
+{'loss': 3.3561, 'grad_norm': 2.210035800933838, 'learning_rate': 1.9642177388656265e-06, 'epoch': 1.96}
+{'loss': 3.3027, 'grad_norm': 2.0146539211273193, 'learning_rate': 1.9623144271031595e-06, 'epoch': 1.96}
+{'loss': 3.2884, 'grad_norm': 1.9879504442214966, 'learning_rate': 1.960411115340693e-06, 'epoch': 1.96}
+{'loss': 3.2865, 'grad_norm': 2.213599443435669, 'learning_rate': 1.958507803578226e-06, 'epoch': 1.96}
+{'eval_loss': 3.720703125, 'eval_runtime': 4.1494, 'eval_samples_per_second': 240.996, 'eval_steps_per_second': 10.122, 'epoch': 1.96}
+{'loss': 3.2852, 'grad_norm': 2.1260478496551514, 'learning_rate': 1.9566044918157596e-06, 'epoch': 1.96}
+{'loss': 3.2878, 'grad_norm': 2.028287172317505, 'learning_rate': 1.954701180053293e-06, 'epoch': 1.96}
+{'loss': 3.1826, 'grad_norm': 2.4195542335510254, 'learning_rate': 1.952797868290826e-06, 'epoch': 1.97}
+{'loss': 3.3343, 'grad_norm': 1.9967832565307617, 'learning_rate': 1.9508945565283596e-06, 'epoch': 1.97}
+{'loss': 3.2194, 'grad_norm': 2.4311020374298096, 'learning_rate': 1.948991244765893e-06, 'epoch': 1.97}
+{'loss': 3.224, 'grad_norm': 2.1805005073547363, 'learning_rate': 1.9470879330034264e-06, 'epoch': 1.97}
+{'loss': 3.154, 'grad_norm': 2.0579047203063965, 'learning_rate': 1.9451846212409593e-06, 'epoch': 1.97}
+{'loss': 3.2087, 'grad_norm': 2.0551018714904785, 'learning_rate': 1.9432813094784927e-06, 'epoch': 1.97}
+{'loss': 3.2311, 'grad_norm': 1.9840283393859863, 'learning_rate': 1.941377997716026e-06, 'epoch': 1.97}
+{'loss': 3.2578, 'grad_norm': 1.953831672668457, 'learning_rate': 1.9394746859535594e-06, 'epoch': 1.97}
+{'eval_loss': 3.720703125, 'eval_runtime': 4.1497, 'eval_samples_per_second': 240.982, 'eval_steps_per_second': 10.121, 'epoch': 1.97}
+{'loss': 3.2396, 'grad_norm': 1.8484357595443726, 'learning_rate': 1.9375713741910928e-06, 'epoch': 1.97}
+{'loss': 3.2767, 'grad_norm': 1.8681361675262451, 'learning_rate': 1.9356680624286257e-06, 'epoch': 1.97}
+{'loss': 3.3438, 'grad_norm': 2.0610086917877197, 'learning_rate': 1.933764750666159e-06, 'epoch': 1.98}
+{'loss': 3.32, 'grad_norm': 2.1839895248413086, 'learning_rate': 1.931861438903693e-06, 'epoch': 1.98}
+{'loss': 3.3584, 'grad_norm': 2.157304048538208, 'learning_rate': 1.929958127141226e-06, 'epoch': 1.98}
+{'loss': 3.2223, 'grad_norm': 2.055745840072632, 'learning_rate': 1.928054815378759e-06, 'epoch': 1.98}
+{'loss': 3.3125, 'grad_norm': 2.101957321166992, 'learning_rate': 1.9261515036162925e-06, 'epoch': 1.98}
+{'loss': 3.401, 'grad_norm': 2.155667781829834, 'learning_rate': 1.924248191853826e-06, 'epoch': 1.98}
+{'loss': 3.2728, 'grad_norm': 2.165203809738159, 'learning_rate': 1.9223448800913592e-06, 'epoch': 1.98}
+{'loss': 3.3177, 'grad_norm': 2.2002196311950684, 'learning_rate': 1.9204415683288926e-06, 'epoch': 1.98}
+{'eval_loss': 3.720703125, 'eval_runtime': 4.1516, 'eval_samples_per_second': 240.868, 'eval_steps_per_second': 10.116, 'epoch': 1.98}
+{'loss': 3.3467, 'grad_norm': 2.373441457748413, 'learning_rate': 1.9185382565664255e-06, 'epoch': 1.98}
+{'loss': 3.2982, 'grad_norm': 1.9425703287124634, 'learning_rate': 1.916634944803959e-06, 'epoch': 1.98}
+{'loss': 3.3145, 'grad_norm': 1.9991111755371094, 'learning_rate': 1.9147316330414923e-06, 'epoch': 1.99}
+{'loss': 3.2923, 'grad_norm': 1.9776687622070312, 'learning_rate': 1.9128283212790256e-06, 'epoch': 1.99}
+{'loss': 3.2982, 'grad_norm': 1.7795273065567017, 'learning_rate': 1.910925009516559e-06, 'epoch': 1.99}
+{'loss': 3.2184, 'grad_norm': 1.955648422241211, 'learning_rate': 1.9090216977540924e-06, 'epoch': 1.99}
+{'loss': 3.1982, 'grad_norm': 2.1854522228240967, 'learning_rate': 1.9071183859916257e-06, 'epoch': 1.99}
+{'loss': 3.237, 'grad_norm': 1.9027249813079834, 'learning_rate': 1.9052150742291589e-06, 'epoch': 1.99}
+{'loss': 3.2754, 'grad_norm': 2.0241754055023193, 'learning_rate': 1.9033117624666922e-06, 'epoch': 1.99}
+{'loss': 3.2412, 'grad_norm': 1.7378820180892944, 'learning_rate': 1.9014084507042254e-06, 'epoch': 1.99}
+{'eval_loss': 3.724609375, 'eval_runtime': 4.1506, 'eval_samples_per_second': 240.929, 'eval_steps_per_second': 10.119, 'epoch': 1.99}
+{'loss': 3.2308, 'grad_norm': 1.840177297592163, 'learning_rate': 1.8995051389417587e-06, 'epoch': 1.99}
+{'loss': 3.2435, 'grad_norm': 1.7314043045043945, 'learning_rate': 1.8976018271792921e-06, 'epoch': 1.99}
+{'loss': 3.3096, 'grad_norm': 2.213167190551758, 'learning_rate': 1.8956985154168253e-06, 'epoch': 2.0}
+{'loss': 3.2311, 'grad_norm': 2.2544305324554443, 'learning_rate': 1.8937952036543588e-06, 'epoch': 2.0}
+{'loss': 3.2402, 'grad_norm': 2.109614610671997, 'learning_rate': 1.8918918918918922e-06, 'epoch': 2.0}
+{'loss': 3.3294, 'grad_norm': 1.9291359186172485, 'learning_rate': 1.8899885801294253e-06, 'epoch': 2.0}
+{'loss': 3.1647, 'grad_norm': 1.9637221097946167, 'learning_rate': 1.8880852683669587e-06, 'epoch': 2.0}
+{'loss': 3.2884, 'grad_norm': 1.83497953414917, 'learning_rate': 1.886181956604492e-06, 'epoch': 2.0}
+{'loss': 3.3831, 'grad_norm': 1.8865827322006226, 'learning_rate': 1.8842786448420252e-06, 'epoch': 2.0}
+{'loss': 3.2786, 'grad_norm': 1.8140881061553955, 'learning_rate': 1.8823753330795586e-06, 'epoch': 2.0}
+{'eval_loss': 3.712890625, 'eval_runtime': 4.1522, 'eval_samples_per_second': 240.837, 'eval_steps_per_second': 10.115, 'epoch': 2.0}
+{'loss': 3.2822, 'grad_norm': 1.9944628477096558, 'learning_rate': 1.8804720213170917e-06, 'epoch': 2.0}
+{'loss': 3.3356, 'grad_norm': 2.0608747005462646, 'learning_rate': 1.878568709554625e-06, 'epoch': 2.01}
+{'loss': 3.2217, 'grad_norm': 2.1214661598205566, 'learning_rate': 1.8766653977921585e-06, 'epoch': 2.01}
+{'loss': 3.2406, 'grad_norm': 1.8625961542129517, 'learning_rate': 1.874762086029692e-06, 'epoch': 2.01}
+{'loss': 3.2461, 'grad_norm': 1.9802181720733643, 'learning_rate': 1.8728587742672252e-06, 'epoch': 2.01}
+{'loss': 3.2796, 'grad_norm': 2.2837562561035156, 'learning_rate': 1.8709554625047585e-06, 'epoch': 2.01}
+{'loss': 3.209, 'grad_norm': 1.724977731704712, 'learning_rate': 1.8690521507422917e-06, 'epoch': 2.01}
+{'loss': 3.3184, 'grad_norm': 1.8772612810134888, 'learning_rate': 1.867148838979825e-06, 'epoch': 2.01}
+{'loss': 3.3597, 'grad_norm': 1.9102230072021484, 'learning_rate': 1.8652455272173584e-06, 'epoch': 2.01}
+{'loss': 3.2227, 'grad_norm': 2.055248498916626, 'learning_rate': 1.8633422154548916e-06, 'epoch': 2.01}
+{'eval_loss': 3.720703125, 'eval_runtime': 4.1528, 'eval_samples_per_second': 240.804, 'eval_steps_per_second': 10.114, 'epoch': 2.01}
+{'loss': 3.2897, 'grad_norm': 2.0852134227752686, 'learning_rate': 1.861438903692425e-06, 'epoch': 2.01}
+{'loss': 3.3063, 'grad_norm': 2.2665627002716064, 'learning_rate': 1.859535591929958e-06, 'epoch': 2.02}
+{'loss': 3.292, 'grad_norm': 2.2519171237945557, 'learning_rate': 1.8576322801674915e-06, 'epoch': 2.02}
+{'loss': 3.2249, 'grad_norm': 1.7383449077606201, 'learning_rate': 1.855728968405025e-06, 'epoch': 2.02}
+{'loss': 3.2142, 'grad_norm': 1.9290125370025635, 'learning_rate': 1.8538256566425584e-06, 'epoch': 2.02}
+{'loss': 3.3089, 'grad_norm': 2.1596102714538574, 'learning_rate': 1.8519223448800915e-06, 'epoch': 2.02}
+{'loss': 3.3197, 'grad_norm': 1.9385671615600586, 'learning_rate': 1.850019033117625e-06, 'epoch': 2.02}
+{'loss': 3.2533, 'grad_norm': 1.9807199239730835, 'learning_rate': 1.848115721355158e-06, 'epoch': 2.02}
+{'loss': 3.2852, 'grad_norm': 2.0143325328826904, 'learning_rate': 1.8462124095926914e-06, 'epoch': 2.02}
+{'loss': 3.2493, 'grad_norm': 1.974198818206787, 'learning_rate': 1.8443090978302248e-06, 'epoch': 2.02}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1503, 'eval_samples_per_second': 240.947, 'eval_steps_per_second': 10.12, 'epoch': 2.02}
+{'loss': 3.3288, 'grad_norm': 2.074753522872925, 'learning_rate': 1.842405786067758e-06, 'epoch': 2.02}
+{'loss': 3.1803, 'grad_norm': 2.2230446338653564, 'learning_rate': 1.8405024743052913e-06, 'epoch': 2.03}
+{'loss': 3.2614, 'grad_norm': 2.198376417160034, 'learning_rate': 1.8385991625428247e-06, 'epoch': 2.03}
+{'loss': 3.2962, 'grad_norm': 1.8548487424850464, 'learning_rate': 1.8366958507803578e-06, 'epoch': 2.03}
+{'loss': 3.252, 'grad_norm': 1.880673885345459, 'learning_rate': 1.8347925390178914e-06, 'epoch': 2.03}
+{'loss': 3.2044, 'grad_norm': 1.8839783668518066, 'learning_rate': 1.8328892272554247e-06, 'epoch': 2.03}
+{'loss': 3.3014, 'grad_norm': 1.8827502727508545, 'learning_rate': 1.8309859154929579e-06, 'epoch': 2.03}
+{'loss': 3.2559, 'grad_norm': 2.195408821105957, 'learning_rate': 1.8290826037304913e-06, 'epoch': 2.03}
+{'loss': 3.238, 'grad_norm': 1.932888150215149, 'learning_rate': 1.8271792919680246e-06, 'epoch': 2.03}
+{'loss': 3.265, 'grad_norm': 1.9973684549331665, 'learning_rate': 1.8252759802055578e-06, 'epoch': 2.03}
+{'eval_loss': 3.720703125, 'eval_runtime': 4.154, 'eval_samples_per_second': 240.731, 'eval_steps_per_second': 10.111, 'epoch': 2.03}
+{'loss': 3.2103, 'grad_norm': 1.9464895725250244, 'learning_rate': 1.8233726684430911e-06, 'epoch': 2.03}
+{'loss': 3.359, 'grad_norm': 2.0443029403686523, 'learning_rate': 1.8214693566806243e-06, 'epoch': 2.04}
+{'loss': 3.1865, 'grad_norm': 1.9170186519622803, 'learning_rate': 1.8195660449181576e-06, 'epoch': 2.04}
+{'loss': 3.2552, 'grad_norm': 1.9979149103164673, 'learning_rate': 1.817662733155691e-06, 'epoch': 2.04}
+{'loss': 3.2897, 'grad_norm': 1.8532620668411255, 'learning_rate': 1.8157594213932244e-06, 'epoch': 2.04}
+{'loss': 3.193, 'grad_norm': 2.0145792961120605, 'learning_rate': 1.8138561096307577e-06, 'epoch': 2.04}
+{'loss': 3.3083, 'grad_norm': 2.0420937538146973, 'learning_rate': 1.811952797868291e-06, 'epoch': 2.04}
+{'loss': 3.376, 'grad_norm': 1.922448754310608, 'learning_rate': 1.8100494861058242e-06, 'epoch': 2.04}
+{'loss': 3.2441, 'grad_norm': 1.8263987302780151, 'learning_rate': 1.8081461743433576e-06, 'epoch': 2.04}
+{'loss': 3.4111, 'grad_norm': 2.0069594383239746, 'learning_rate': 1.806242862580891e-06, 'epoch': 2.04}
+{'eval_loss': 3.71875, 'eval_runtime': 4.1512, 'eval_samples_per_second': 240.897, 'eval_steps_per_second': 10.118, 'epoch': 2.04}
+{'loss': 3.2988, 'grad_norm': 1.8951051235198975, 'learning_rate': 1.8043395508184241e-06, 'epoch': 2.05}
+{'loss': 3.276, 'grad_norm': 1.958164095878601, 'learning_rate': 1.8024362390559575e-06, 'epoch': 2.05}
+{'loss': 3.3646, 'grad_norm': 1.9561522006988525, 'learning_rate': 1.8005329272934906e-06, 'epoch': 2.05}
+{'loss': 3.2533, 'grad_norm': 1.8452128171920776, 'learning_rate': 1.798629615531024e-06, 'epoch': 2.05}
+{'loss': 3.2822, 'grad_norm': 1.8794203996658325, 'learning_rate': 1.7967263037685576e-06, 'epoch': 2.05}
+{'loss': 3.2555, 'grad_norm': 1.9375735521316528, 'learning_rate': 1.794822992006091e-06, 'epoch': 2.05}
+{'loss': 3.3216, 'grad_norm': 2.036874294281006, 'learning_rate': 1.792919680243624e-06, 'epoch': 2.05}
+{'loss': 3.234, 'grad_norm': 1.92422616481781, 'learning_rate': 1.7910163684811574e-06, 'epoch': 2.05}
+{'loss': 3.2067, 'grad_norm': 1.9687631130218506, 'learning_rate': 1.7891130567186906e-06, 'epoch': 2.05}
+{'loss': 3.2653, 'grad_norm': 2.128941297531128, 'learning_rate': 1.787209744956224e-06, 'epoch': 2.05}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1532, 'eval_samples_per_second': 240.78, 'eval_steps_per_second': 10.113, 'epoch': 2.05}
+{'loss': 3.3213, 'grad_norm': 1.898181438446045, 'learning_rate': 1.7853064331937573e-06, 'epoch': 2.06}
+{'loss': 3.2865, 'grad_norm': 1.9564424753189087, 'learning_rate': 1.7834031214312905e-06, 'epoch': 2.06}
+{'loss': 3.3538, 'grad_norm': 1.839928388595581, 'learning_rate': 1.7814998096688238e-06, 'epoch': 2.06}
+{'loss': 3.2445, 'grad_norm': 1.9941006898880005, 'learning_rate': 1.779596497906357e-06, 'epoch': 2.06}
+{'loss': 3.2116, 'grad_norm': 1.8300254344940186, 'learning_rate': 1.7776931861438906e-06, 'epoch': 2.06}
+{'loss': 3.2503, 'grad_norm': 2.0582921504974365, 'learning_rate': 1.775789874381424e-06, 'epoch': 2.06}
+{'loss': 3.2542, 'grad_norm': 2.154205799102783, 'learning_rate': 1.7738865626189573e-06, 'epoch': 2.06}
+{'loss': 3.2467, 'grad_norm': 1.7799336910247803, 'learning_rate': 1.7719832508564904e-06, 'epoch': 2.06}
+{'loss': 3.1888, 'grad_norm': 1.880867838859558, 'learning_rate': 1.7700799390940238e-06, 'epoch': 2.06}
+{'loss': 3.2692, 'grad_norm': 2.1729280948638916, 'learning_rate': 1.768176627331557e-06, 'epoch': 2.06}
+{'eval_loss': 3.724609375, 'eval_runtime': 4.153, 'eval_samples_per_second': 240.791, 'eval_steps_per_second': 10.113, 'epoch': 2.06}
+{'loss': 3.3213, 'grad_norm': 2.2692923545837402, 'learning_rate': 1.7662733155690903e-06, 'epoch': 2.07}
+{'loss': 3.3135, 'grad_norm': 2.208298444747925, 'learning_rate': 1.7643700038066237e-06, 'epoch': 2.07}
+{'loss': 3.3024, 'grad_norm': 1.9321558475494385, 'learning_rate': 1.7624666920441568e-06, 'epoch': 2.07}
+{'loss': 3.2666, 'grad_norm': 2.08530592918396, 'learning_rate': 1.7605633802816902e-06, 'epoch': 2.07}
+{'loss': 3.3281, 'grad_norm': 1.8525707721710205, 'learning_rate': 1.7586600685192238e-06, 'epoch': 2.07}
+{'loss': 3.2204, 'grad_norm': 2.204227924346924, 'learning_rate': 1.756756756756757e-06, 'epoch': 2.07}
+{'loss': 3.2559, 'grad_norm': 1.9408074617385864, 'learning_rate': 1.7548534449942903e-06, 'epoch': 2.07}
+{'loss': 3.1755, 'grad_norm': 1.8821985721588135, 'learning_rate': 1.7529501332318236e-06, 'epoch': 2.07}
+{'loss': 3.2949, 'grad_norm': 1.9181796312332153, 'learning_rate': 1.7510468214693568e-06, 'epoch': 2.07}
+{'loss': 3.2943, 'grad_norm': 1.7978118658065796, 'learning_rate': 1.7491435097068902e-06, 'epoch': 2.07}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1531, 'eval_samples_per_second': 240.782, 'eval_steps_per_second': 10.113, 'epoch': 2.07}
+{'loss': 3.249, 'grad_norm': 2.082956075668335, 'learning_rate': 1.7472401979444233e-06, 'epoch': 2.08}
+{'loss': 3.2666, 'grad_norm': 1.9462862014770508, 'learning_rate': 1.7453368861819567e-06, 'epoch': 2.08}
+{'loss': 3.3854, 'grad_norm': 2.3644614219665527, 'learning_rate': 1.74343357441949e-06, 'epoch': 2.08}
+{'loss': 3.3118, 'grad_norm': 2.0314903259277344, 'learning_rate': 1.7415302626570232e-06, 'epoch': 2.08}
+{'loss': 3.2464, 'grad_norm': 2.174999237060547, 'learning_rate': 1.7396269508945568e-06, 'epoch': 2.08}
+{'loss': 3.2594, 'grad_norm': 1.9810459613800049, 'learning_rate': 1.7377236391320901e-06, 'epoch': 2.08}
+{'loss': 3.2214, 'grad_norm': 2.180276870727539, 'learning_rate': 1.7358203273696233e-06, 'epoch': 2.08}
+{'loss': 3.2393, 'grad_norm': 2.090094804763794, 'learning_rate': 1.7339170156071566e-06, 'epoch': 2.08}
+{'loss': 3.2738, 'grad_norm': 1.8091715574264526, 'learning_rate': 1.73201370384469e-06, 'epoch': 2.08}
+{'loss': 3.2048, 'grad_norm': 2.1197290420532227, 'learning_rate': 1.7301103920822231e-06, 'epoch': 2.09}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1522, 'eval_samples_per_second': 240.838, 'eval_steps_per_second': 10.115, 'epoch': 2.09}
+{'loss': 3.2526, 'grad_norm': 1.9895496368408203, 'learning_rate': 1.7282070803197565e-06, 'epoch': 2.09}
+{'loss': 3.3421, 'grad_norm': 2.1766293048858643, 'learning_rate': 1.7263037685572897e-06, 'epoch': 2.09}
+{'loss': 3.3014, 'grad_norm': 2.025036334991455, 'learning_rate': 1.724400456794823e-06, 'epoch': 2.09}
+{'loss': 3.2533, 'grad_norm': 2.0498716831207275, 'learning_rate': 1.7224971450323564e-06, 'epoch': 2.09}
+{'loss': 3.2998, 'grad_norm': 1.867469072341919, 'learning_rate': 1.72059383326989e-06, 'epoch': 2.09}
+{'loss': 3.3132, 'grad_norm': 1.902156114578247, 'learning_rate': 1.7186905215074231e-06, 'epoch': 2.09}
+{'loss': 3.2243, 'grad_norm': 1.8789408206939697, 'learning_rate': 1.7167872097449565e-06, 'epoch': 2.09}
+{'loss': 3.2897, 'grad_norm': 1.8772070407867432, 'learning_rate': 1.7148838979824896e-06, 'epoch': 2.09}
+{'loss': 3.277, 'grad_norm': 1.9675049781799316, 'learning_rate': 1.712980586220023e-06, 'epoch': 2.09}
+{'loss': 3.262, 'grad_norm': 1.941453218460083, 'learning_rate': 1.7110772744575563e-06, 'epoch': 2.1}
+{'eval_loss': 3.7109375, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.924, 'eval_steps_per_second': 10.119, 'epoch': 2.1}
+{'loss': 3.3099, 'grad_norm': 2.2018001079559326, 'learning_rate': 1.7091739626950895e-06, 'epoch': 2.1}
+{'loss': 3.1784, 'grad_norm': 2.341017246246338, 'learning_rate': 1.7072706509326229e-06, 'epoch': 2.1}
+{'loss': 3.2969, 'grad_norm': 1.8994436264038086, 'learning_rate': 1.7053673391701562e-06, 'epoch': 2.1}
+{'loss': 3.2396, 'grad_norm': 2.0453126430511475, 'learning_rate': 1.7034640274076894e-06, 'epoch': 2.1}
+{'loss': 3.2949, 'grad_norm': 1.8292415142059326, 'learning_rate': 1.701560715645223e-06, 'epoch': 2.1}
+{'loss': 3.2734, 'grad_norm': 2.115323543548584, 'learning_rate': 1.6996574038827563e-06, 'epoch': 2.1}
+{'loss': 3.2093, 'grad_norm': 1.9082168340682983, 'learning_rate': 1.6977540921202895e-06, 'epoch': 2.1}
+{'loss': 3.236, 'grad_norm': 1.771167516708374, 'learning_rate': 1.6958507803578228e-06, 'epoch': 2.1}
+{'loss': 3.3008, 'grad_norm': 1.831133484840393, 'learning_rate': 1.693947468595356e-06, 'epoch': 2.1}
+{'loss': 3.3031, 'grad_norm': 1.8414454460144043, 'learning_rate': 1.6920441568328893e-06, 'epoch': 2.11}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1559, 'eval_samples_per_second': 240.619, 'eval_steps_per_second': 10.106, 'epoch': 2.11}
+{'loss': 3.2552, 'grad_norm': 2.0630714893341064, 'learning_rate': 1.6901408450704227e-06, 'epoch': 2.11}
+{'loss': 3.3262, 'grad_norm': 2.213371992111206, 'learning_rate': 1.6882375333079559e-06, 'epoch': 2.11}
+{'loss': 3.2048, 'grad_norm': 1.8664902448654175, 'learning_rate': 1.6863342215454892e-06, 'epoch': 2.11}
+{'loss': 3.2184, 'grad_norm': 1.7658848762512207, 'learning_rate': 1.6844309097830226e-06, 'epoch': 2.11}
+{'loss': 3.2692, 'grad_norm': 1.7921620607376099, 'learning_rate': 1.682527598020556e-06, 'epoch': 2.11}
+{'loss': 3.2337, 'grad_norm': 1.776503562927246, 'learning_rate': 1.6806242862580893e-06, 'epoch': 2.11}
+{'loss': 3.2503, 'grad_norm': 1.832464575767517, 'learning_rate': 1.6787209744956227e-06, 'epoch': 2.11}
+{'loss': 3.2751, 'grad_norm': 1.7877280712127686, 'learning_rate': 1.6768176627331558e-06, 'epoch': 2.11}
+{'loss': 3.2982, 'grad_norm': 1.9799104928970337, 'learning_rate': 1.6749143509706892e-06, 'epoch': 2.12}
+{'loss': 3.3008, 'grad_norm': 2.09839129447937, 'learning_rate': 1.6730110392082225e-06, 'epoch': 2.12}
+{'eval_loss': 3.71875, 'eval_runtime': 4.1521, 'eval_samples_per_second': 240.841, 'eval_steps_per_second': 10.115, 'epoch': 2.12}
+{'loss': 3.2975, 'grad_norm': 1.7423095703125, 'learning_rate': 1.6711077274457557e-06, 'epoch': 2.12}
+{'loss': 3.293, 'grad_norm': 1.767200231552124, 'learning_rate': 1.669204415683289e-06, 'epoch': 2.12}
+{'loss': 3.2096, 'grad_norm': 1.9205398559570312, 'learning_rate': 1.6673011039208222e-06, 'epoch': 2.12}
+{'loss': 3.2507, 'grad_norm': 2.245683431625366, 'learning_rate': 1.6653977921583556e-06, 'epoch': 2.12}
+{'loss': 3.3359, 'grad_norm': 1.9165706634521484, 'learning_rate': 1.663494480395889e-06, 'epoch': 2.12}
+{'loss': 3.2796, 'grad_norm': 2.076138973236084, 'learning_rate': 1.6615911686334225e-06, 'epoch': 2.12}
+{'loss': 3.2575, 'grad_norm': 1.7679437398910522, 'learning_rate': 1.6596878568709557e-06, 'epoch': 2.12}
+{'loss': 3.2428, 'grad_norm': 1.966768503189087, 'learning_rate': 1.657784545108489e-06, 'epoch': 2.12}
+{'loss': 3.2165, 'grad_norm': 2.11053204536438, 'learning_rate': 1.6558812333460222e-06, 'epoch': 2.13}
+{'loss': 3.2383, 'grad_norm': 1.9993289709091187, 'learning_rate': 1.6539779215835555e-06, 'epoch': 2.13}
+{'eval_loss': 3.71484375, 'eval_runtime': 4.1521, 'eval_samples_per_second': 240.844, 'eval_steps_per_second': 10.115, 'epoch': 2.13}
+{'loss': 3.2415, 'grad_norm': 1.8927894830703735, 'learning_rate': 1.652074609821089e-06, 'epoch': 2.13}
+{'loss': 3.2865, 'grad_norm': 1.931503415107727, 'learning_rate': 1.650171298058622e-06, 'epoch': 2.13}
+{'loss': 3.2227, 'grad_norm': 1.7592984437942505, 'learning_rate': 1.6482679862961554e-06, 'epoch': 2.13}
+{'loss': 3.2054, 'grad_norm': 2.000312566757202, 'learning_rate': 1.6463646745336886e-06, 'epoch': 2.13}
+{'loss': 3.2826, 'grad_norm': 1.8251532316207886, 'learning_rate': 1.644461362771222e-06, 'epoch': 2.13}
+{'loss': 3.2555, 'grad_norm': 1.9809948205947876, 'learning_rate': 1.6425580510087555e-06, 'epoch': 2.13}
+{'loss': 3.3584, 'grad_norm': 2.224851369857788, 'learning_rate': 1.6406547392462889e-06, 'epoch': 2.13}
+{'loss': 3.2383, 'grad_norm': 1.9059590101242065, 'learning_rate': 1.638751427483822e-06, 'epoch': 2.13}
+{'loss': 3.3047, 'grad_norm': 1.9200284481048584, 'learning_rate': 1.6368481157213554e-06, 'epoch': 2.14}
+{'loss': 3.2617, 'grad_norm': 1.9830052852630615, 'learning_rate': 1.6349448039588885e-06, 'epoch': 2.14}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1516, 'eval_samples_per_second': 240.87, 'eval_steps_per_second': 10.117, 'epoch': 2.14}
+{'loss': 3.3249, 'grad_norm': 1.7350460290908813, 'learning_rate': 1.6330414921964219e-06, 'epoch': 2.14}
+{'loss': 3.2643, 'grad_norm': 1.713701605796814, 'learning_rate': 1.6311381804339553e-06, 'epoch': 2.14}
+{'loss': 3.2663, 'grad_norm': 1.921133279800415, 'learning_rate': 1.6292348686714884e-06, 'epoch': 2.14}
+{'loss': 3.3708, 'grad_norm': 2.3150908946990967, 'learning_rate': 1.6273315569090218e-06, 'epoch': 2.14}
+{'loss': 3.3118, 'grad_norm': 2.1231582164764404, 'learning_rate': 1.625428245146555e-06, 'epoch': 2.14}
+{'loss': 3.2933, 'grad_norm': 1.788004755973816, 'learning_rate': 1.6235249333840885e-06, 'epoch': 2.14}
+{'loss': 3.3239, 'grad_norm': 2.019653558731079, 'learning_rate': 1.6216216216216219e-06, 'epoch': 2.14}
+{'loss': 3.2428, 'grad_norm': 1.7559012174606323, 'learning_rate': 1.6197183098591552e-06, 'epoch': 2.14}
+{'loss': 3.2682, 'grad_norm': 1.8992341756820679, 'learning_rate': 1.6178149980966884e-06, 'epoch': 2.15}
+{'loss': 3.1846, 'grad_norm': 2.008880376815796, 'learning_rate': 1.6159116863342217e-06, 'epoch': 2.15}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1515, 'eval_samples_per_second': 240.877, 'eval_steps_per_second': 10.117, 'epoch': 2.15}
+{'loss': 3.2507, 'grad_norm': 2.0902390480041504, 'learning_rate': 1.6140083745717549e-06, 'epoch': 2.15}
+{'loss': 3.3584, 'grad_norm': 1.6098295450210571, 'learning_rate': 1.6121050628092882e-06, 'epoch': 2.15}
+{'loss': 3.3024, 'grad_norm': 1.787238359451294, 'learning_rate': 1.6102017510468216e-06, 'epoch': 2.15}
+{'loss': 3.3213, 'grad_norm': 1.9571870565414429, 'learning_rate': 1.6082984392843548e-06, 'epoch': 2.15}
+{'loss': 3.2607, 'grad_norm': 1.880019187927246, 'learning_rate': 1.6063951275218881e-06, 'epoch': 2.15}
+{'loss': 3.2666, 'grad_norm': 1.864542007446289, 'learning_rate': 1.6044918157594217e-06, 'epoch': 2.15}
+{'loss': 3.2656, 'grad_norm': 1.8366841077804565, 'learning_rate': 1.6025885039969548e-06, 'epoch': 2.15}
+{'loss': 3.2689, 'grad_norm': 1.7968629598617554, 'learning_rate': 1.6006851922344882e-06, 'epoch': 2.16}
+{'loss': 3.2344, 'grad_norm': 1.815103530883789, 'learning_rate': 1.5987818804720216e-06, 'epoch': 2.16}
+{'loss': 3.2799, 'grad_norm': 1.8645377159118652, 'learning_rate': 1.5968785687095547e-06, 'epoch': 2.16}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.151, 'eval_samples_per_second': 240.903, 'eval_steps_per_second': 10.118, 'epoch': 2.16}
+{'loss': 3.1797, 'grad_norm': 2.0890493392944336, 'learning_rate': 1.594975256947088e-06, 'epoch': 2.16}
+{'loss': 3.2025, 'grad_norm': 2.0691795349121094, 'learning_rate': 1.5930719451846212e-06, 'epoch': 2.16}
+{'loss': 3.3232, 'grad_norm': 2.1478078365325928, 'learning_rate': 1.5911686334221546e-06, 'epoch': 2.16}
+{'loss': 3.3229, 'grad_norm': 1.8234144449234009, 'learning_rate': 1.589265321659688e-06, 'epoch': 2.16}
+{'loss': 3.222, 'grad_norm': 1.8604861497879028, 'learning_rate': 1.5873620098972211e-06, 'epoch': 2.16}
+{'loss': 3.2025, 'grad_norm': 2.1226611137390137, 'learning_rate': 1.5854586981347547e-06, 'epoch': 2.16}
+{'loss': 3.2839, 'grad_norm': 1.920507788658142, 'learning_rate': 1.583555386372288e-06, 'epoch': 2.16}
+{'loss': 3.1279, 'grad_norm': 2.075071334838867, 'learning_rate': 1.5816520746098212e-06, 'epoch': 2.17}
+{'loss': 3.2757, 'grad_norm': 1.8817894458770752, 'learning_rate': 1.5797487628473546e-06, 'epoch': 2.17}
+{'loss': 3.2588, 'grad_norm': 1.871375560760498, 'learning_rate': 1.577845451084888e-06, 'epoch': 2.17}
+{'eval_loss': 3.716796875, 'eval_runtime': 4.1525, 'eval_samples_per_second': 240.819, 'eval_steps_per_second': 10.114, 'epoch': 2.17}
+{'loss': 3.3428, 'grad_norm': 2.19085431098938, 'learning_rate': 1.575942139322421e-06, 'epoch': 2.17}
+{'loss': 3.2282, 'grad_norm': 1.8662503957748413, 'learning_rate': 1.5740388275599544e-06, 'epoch': 2.17}
+{'loss': 3.2764, 'grad_norm': 2.0599558353424072, 'learning_rate': 1.5721355157974876e-06, 'epoch': 2.17}
+{'loss': 3.2126, 'grad_norm': 1.976410984992981, 'learning_rate': 1.570232204035021e-06, 'epoch': 2.17}
+{'loss': 3.1589, 'grad_norm': 2.0343871116638184, 'learning_rate': 1.5683288922725543e-06, 'epoch': 2.17}
+{'loss': 3.2529, 'grad_norm': 2.0416526794433594, 'learning_rate': 1.5664255805100879e-06, 'epoch': 2.17}
+{'loss': 3.2741, 'grad_norm': 1.7862043380737305, 'learning_rate': 1.564522268747621e-06, 'epoch': 2.17}
+{'loss': 3.2803, 'grad_norm': 1.8352267742156982, 'learning_rate': 1.5626189569851544e-06, 'epoch': 2.18}
+{'loss': 3.2734, 'grad_norm': 2.1939358711242676, 'learning_rate': 1.5607156452226875e-06, 'epoch': 2.18}
+{'loss': 3.2171, 'grad_norm': 1.9308404922485352, 'learning_rate': 1.558812333460221e-06, 'epoch': 2.18}
+{'eval_loss': 3.71875, 'eval_runtime': 4.1495, 'eval_samples_per_second': 240.99, 'eval_steps_per_second': 10.122, 'epoch': 2.18}
+{'loss': 3.2145, 'grad_norm': 1.9311994314193726, 'learning_rate': 1.5569090216977543e-06, 'epoch': 2.18}
+{'loss': 3.2933, 'grad_norm': 1.8109523057937622, 'learning_rate': 1.5550057099352874e-06, 'epoch': 2.18}
+{'loss': 3.2965, 'grad_norm': 1.772884488105774, 'learning_rate': 1.5531023981728208e-06, 'epoch': 2.18}
+{'loss': 3.3203, 'grad_norm': 1.9318504333496094, 'learning_rate': 1.5511990864103542e-06, 'epoch': 2.18}
+{'loss': 3.2731, 'grad_norm': 1.8511979579925537, 'learning_rate': 1.5492957746478873e-06, 'epoch': 2.18}
+{'loss': 3.2676, 'grad_norm': 1.8592934608459473, 'learning_rate': 1.5473924628854209e-06, 'epoch': 2.18}
+{'loss': 3.2282, 'grad_norm': 1.831755518913269, 'learning_rate': 1.5454891511229542e-06, 'epoch': 2.18}
+{'loss': 3.2617, 'grad_norm': 1.9388861656188965, 'learning_rate': 1.5435858393604874e-06, 'epoch': 2.19}
+{'loss': 3.2969, 'grad_norm': 1.8236137628555298, 'learning_rate': 1.5416825275980208e-06, 'epoch': 2.19}
+{'loss': 3.1787, 'grad_norm': 1.9456615447998047, 'learning_rate': 1.539779215835554e-06, 'epoch': 2.19}
+{'eval_loss': 3.7109375, 'eval_runtime': 4.1496, 'eval_samples_per_second': 240.984, 'eval_steps_per_second': 10.121, 'epoch': 2.19}
+{'loss': 3.2256, 'grad_norm': 1.9939969778060913, 'learning_rate': 1.5378759040730873e-06, 'epoch': 2.19}
+{'loss': 3.1709, 'grad_norm': 1.9169800281524658, 'learning_rate': 1.5359725923106206e-06, 'epoch': 2.19}
+{'loss': 3.3037, 'grad_norm': 2.1656386852264404, 'learning_rate': 1.5340692805481538e-06, 'epoch': 2.19}
+{'loss': 3.2425, 'grad_norm': 1.923577070236206, 'learning_rate': 1.5321659687856871e-06, 'epoch': 2.19}
+{'loss': 3.2897, 'grad_norm': 1.9974706172943115, 'learning_rate': 1.5302626570232205e-06, 'epoch': 2.19}
+{'loss': 3.2181, 'grad_norm': 1.8954415321350098, 'learning_rate': 1.5283593452607539e-06, 'epoch': 2.19}
+{'loss': 3.3245, 'grad_norm': 1.932728886604309, 'learning_rate': 1.5264560334982872e-06, 'epoch': 2.2}
+{'loss': 3.2067, 'grad_norm': 1.9141327142715454, 'learning_rate': 1.5245527217358206e-06, 'epoch': 2.2}
+{'loss': 3.21, 'grad_norm': 1.864601492881775, 'learning_rate': 1.5226494099733537e-06, 'epoch': 2.2}
+{'loss': 3.2523, 'grad_norm': 1.7795637845993042, 'learning_rate': 1.520746098210887e-06, 'epoch': 2.2}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1496, 'eval_samples_per_second': 240.986, 'eval_steps_per_second': 10.121, 'epoch': 2.2}
+{'loss': 3.2839, 'grad_norm': 1.898924469947815, 'learning_rate': 1.5188427864484205e-06, 'epoch': 2.2}
+{'loss': 3.2637, 'grad_norm': 2.0252766609191895, 'learning_rate': 1.5169394746859536e-06, 'epoch': 2.2}
+{'loss': 3.2096, 'grad_norm': 1.915260910987854, 'learning_rate': 1.515036162923487e-06, 'epoch': 2.2}
+{'loss': 3.237, 'grad_norm': 1.889696717262268, 'learning_rate': 1.5131328511610201e-06, 'epoch': 2.2}
+{'loss': 3.2493, 'grad_norm': 1.8262358903884888, 'learning_rate': 1.5112295393985535e-06, 'epoch': 2.2}
+{'loss': 3.3096, 'grad_norm': 1.7724424600601196, 'learning_rate': 1.509326227636087e-06, 'epoch': 2.2}
+{'loss': 3.208, 'grad_norm': 1.9714819192886353, 'learning_rate': 1.5074229158736204e-06, 'epoch': 2.21}
+{'loss': 3.2363, 'grad_norm': 1.7526754140853882, 'learning_rate': 1.5055196041111536e-06, 'epoch': 2.21}
+{'loss': 3.2913, 'grad_norm': 1.9777977466583252, 'learning_rate': 1.503616292348687e-06, 'epoch': 2.21}
+{'loss': 3.25, 'grad_norm': 1.8578181266784668, 'learning_rate': 1.50171298058622e-06, 'epoch': 2.21}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1504, 'eval_samples_per_second': 240.94, 'eval_steps_per_second': 10.119, 'epoch': 2.21}
+{'loss': 3.2314, 'grad_norm': 1.8081223964691162, 'learning_rate': 1.4998096688237535e-06, 'epoch': 2.21}
+{'loss': 3.2409, 'grad_norm': 1.825080156326294, 'learning_rate': 1.4979063570612868e-06, 'epoch': 2.21}
+{'loss': 3.2686, 'grad_norm': 1.8700398206710815, 'learning_rate': 1.49600304529882e-06, 'epoch': 2.21}
+{'loss': 3.2035, 'grad_norm': 2.2565665245056152, 'learning_rate': 1.4940997335363533e-06, 'epoch': 2.21}
+{'loss': 3.235, 'grad_norm': 2.007312297821045, 'learning_rate': 1.4921964217738865e-06, 'epoch': 2.21}
+{'loss': 3.2454, 'grad_norm': 1.8487356901168823, 'learning_rate': 1.49029311001142e-06, 'epoch': 2.21}
+{'loss': 3.2256, 'grad_norm': 2.0891802310943604, 'learning_rate': 1.4883897982489534e-06, 'epoch': 2.22}
+{'loss': 3.2061, 'grad_norm': 2.0104236602783203, 'learning_rate': 1.4864864864864868e-06, 'epoch': 2.22}
+{'loss': 3.2321, 'grad_norm': 2.4921910762786865, 'learning_rate': 1.48458317472402e-06, 'epoch': 2.22}
+{'loss': 3.2461, 'grad_norm': 2.157824993133545, 'learning_rate': 1.4826798629615533e-06, 'epoch': 2.22}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1514, 'eval_samples_per_second': 240.881, 'eval_steps_per_second': 10.117, 'epoch': 2.22}
+{'loss': 3.1706, 'grad_norm': 2.000309467315674, 'learning_rate': 1.4807765511990864e-06, 'epoch': 2.22}
+{'loss': 3.2627, 'grad_norm': 1.7456927299499512, 'learning_rate': 1.4788732394366198e-06, 'epoch': 2.22}
+{'loss': 3.3353, 'grad_norm': 1.9673606157302856, 'learning_rate': 1.4769699276741532e-06, 'epoch': 2.22}
+{'loss': 3.2025, 'grad_norm': 1.9649088382720947, 'learning_rate': 1.4750666159116863e-06, 'epoch': 2.22}
+{'loss': 3.2399, 'grad_norm': 1.9496748447418213, 'learning_rate': 1.4731633041492197e-06, 'epoch': 2.22}
+{'loss': 3.2103, 'grad_norm': 2.0222835540771484, 'learning_rate': 1.4712599923867528e-06, 'epoch': 2.22}
+{'loss': 3.3304, 'grad_norm': 1.7400412559509277, 'learning_rate': 1.4693566806242864e-06, 'epoch': 2.23}
+{'loss': 3.2904, 'grad_norm': 1.9781043529510498, 'learning_rate': 1.4674533688618198e-06, 'epoch': 2.23}
+{'loss': 3.2943, 'grad_norm': 1.9514400959014893, 'learning_rate': 1.4655500570993531e-06, 'epoch': 2.23}
+{'loss': 3.2542, 'grad_norm': 2.031162977218628, 'learning_rate': 1.4636467453368863e-06, 'epoch': 2.23}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1498, 'eval_samples_per_second': 240.975, 'eval_steps_per_second': 10.121, 'epoch': 2.23}
+{'loss': 3.2575, 'grad_norm': 2.011287212371826, 'learning_rate': 1.4617434335744197e-06, 'epoch': 2.23}
+{'loss': 3.2565, 'grad_norm': 1.8679643869400024, 'learning_rate': 1.4598401218119528e-06, 'epoch': 2.23}
+{'loss': 3.2305, 'grad_norm': 1.9459998607635498, 'learning_rate': 1.4579368100494862e-06, 'epoch': 2.23}
+{'loss': 3.3044, 'grad_norm': 1.9396780729293823, 'learning_rate': 1.4560334982870195e-06, 'epoch': 2.23}
+{'loss': 3.2077, 'grad_norm': 1.7710657119750977, 'learning_rate': 1.4541301865245527e-06, 'epoch': 2.23}
+{'loss': 3.3643, 'grad_norm': 2.100400686264038, 'learning_rate': 1.452226874762086e-06, 'epoch': 2.24}
+{'loss': 3.2233, 'grad_norm': 2.1053500175476074, 'learning_rate': 1.4503235629996196e-06, 'epoch': 2.24}
+{'loss': 3.335, 'grad_norm': 2.318838357925415, 'learning_rate': 1.4484202512371528e-06, 'epoch': 2.24}
+{'loss': 3.2122, 'grad_norm': 1.8703153133392334, 'learning_rate': 1.4465169394746861e-06, 'epoch': 2.24}
+{'loss': 3.2858, 'grad_norm': 1.8013683557510376, 'learning_rate': 1.4446136277122195e-06, 'epoch': 2.24}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.153, 'eval_samples_per_second': 240.791, 'eval_steps_per_second': 10.113, 'epoch': 2.24}
+{'loss': 3.2617, 'grad_norm': 1.7355644702911377, 'learning_rate': 1.4427103159497526e-06, 'epoch': 2.24}
+{'loss': 3.2832, 'grad_norm': 1.80574369430542, 'learning_rate': 1.440807004187286e-06, 'epoch': 2.24}
+{'loss': 3.2721, 'grad_norm': 1.759397268295288, 'learning_rate': 1.4389036924248192e-06, 'epoch': 2.24}
+{'loss': 3.2568, 'grad_norm': 1.91294264793396, 'learning_rate': 1.4370003806623525e-06, 'epoch': 2.24}
+{'loss': 3.2542, 'grad_norm': 1.811415672302246, 'learning_rate': 1.4350970688998859e-06, 'epoch': 2.24}
+{'loss': 3.2679, 'grad_norm': 1.9651579856872559, 'learning_rate': 1.433193757137419e-06, 'epoch': 2.25}
+{'loss': 3.2705, 'grad_norm': 2.1569483280181885, 'learning_rate': 1.4312904453749526e-06, 'epoch': 2.25}
+{'loss': 3.2744, 'grad_norm': 1.873679757118225, 'learning_rate': 1.429387133612486e-06, 'epoch': 2.25}
+{'loss': 3.1989, 'grad_norm': 2.0222320556640625, 'learning_rate': 1.4274838218500191e-06, 'epoch': 2.25}
+{'loss': 3.2314, 'grad_norm': 1.8836323022842407, 'learning_rate': 1.4255805100875525e-06, 'epoch': 2.25}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1517, 'eval_samples_per_second': 240.864, 'eval_steps_per_second': 10.116, 'epoch': 2.25}
+{'loss': 3.2373, 'grad_norm': 1.8768534660339355, 'learning_rate': 1.4236771983250858e-06, 'epoch': 2.25}
+{'loss': 3.2441, 'grad_norm': 1.6886390447616577, 'learning_rate': 1.421773886562619e-06, 'epoch': 2.25}
+{'loss': 3.2207, 'grad_norm': 2.054532289505005, 'learning_rate': 1.4198705748001524e-06, 'epoch': 2.25}
+{'loss': 3.2656, 'grad_norm': 1.8611600399017334, 'learning_rate': 1.4179672630376855e-06, 'epoch': 2.25}
+{'loss': 3.2962, 'grad_norm': 1.7397621870040894, 'learning_rate': 1.4160639512752189e-06, 'epoch': 2.25}
+{'loss': 3.2793, 'grad_norm': 2.0982441902160645, 'learning_rate': 1.4141606395127522e-06, 'epoch': 2.26}
+{'loss': 3.2399, 'grad_norm': 1.6671887636184692, 'learning_rate': 1.4122573277502858e-06, 'epoch': 2.26}
+{'loss': 3.2806, 'grad_norm': 2.0106348991394043, 'learning_rate': 1.410354015987819e-06, 'epoch': 2.26}
+{'loss': 3.223, 'grad_norm': 1.914697527885437, 'learning_rate': 1.4084507042253523e-06, 'epoch': 2.26}
+{'loss': 3.2064, 'grad_norm': 1.5916686058044434, 'learning_rate': 1.4065473924628855e-06, 'epoch': 2.26}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1513, 'eval_samples_per_second': 240.89, 'eval_steps_per_second': 10.117, 'epoch': 2.26}
+{'loss': 3.278, 'grad_norm': 1.8135287761688232, 'learning_rate': 1.4046440807004188e-06, 'epoch': 2.26}
+{'loss': 3.2926, 'grad_norm': 2.036953926086426, 'learning_rate': 1.4027407689379522e-06, 'epoch': 2.26}
+{'loss': 3.3981, 'grad_norm': 2.30757212638855, 'learning_rate': 1.4008374571754854e-06, 'epoch': 2.26}
+{'loss': 3.2103, 'grad_norm': 2.138458490371704, 'learning_rate': 1.3989341454130187e-06, 'epoch': 2.26}
+{'loss': 3.276, 'grad_norm': 1.8053523302078247, 'learning_rate': 1.397030833650552e-06, 'epoch': 2.27}
+{'loss': 3.2285, 'grad_norm': 2.1076254844665527, 'learning_rate': 1.3951275218880852e-06, 'epoch': 2.27}
+{'loss': 3.1618, 'grad_norm': 1.973092794418335, 'learning_rate': 1.3932242101256188e-06, 'epoch': 2.27}
+{'loss': 3.2067, 'grad_norm': 1.929470181465149, 'learning_rate': 1.3913208983631522e-06, 'epoch': 2.27}
+{'loss': 3.2956, 'grad_norm': 1.8114298582077026, 'learning_rate': 1.3894175866006853e-06, 'epoch': 2.27}
+{'loss': 3.304, 'grad_norm': 1.9062308073043823, 'learning_rate': 1.3875142748382187e-06, 'epoch': 2.27}
+{'eval_loss': 3.712890625, 'eval_runtime': 4.1512, 'eval_samples_per_second': 240.895, 'eval_steps_per_second': 10.118, 'epoch': 2.27}
+{'loss': 3.2025, 'grad_norm': 1.850164771080017, 'learning_rate': 1.385610963075752e-06, 'epoch': 2.27}
+{'loss': 3.3044, 'grad_norm': 1.7786402702331543, 'learning_rate': 1.3837076513132852e-06, 'epoch': 2.27}
+{'loss': 3.2673, 'grad_norm': 1.9601951837539673, 'learning_rate': 1.3818043395508186e-06, 'epoch': 2.27}
+{'loss': 3.2533, 'grad_norm': 1.9108598232269287, 'learning_rate': 1.3799010277883517e-06, 'epoch': 2.27}
+{'loss': 3.2842, 'grad_norm': 1.8942327499389648, 'learning_rate': 1.377997716025885e-06, 'epoch': 2.28}
+{'loss': 3.2559, 'grad_norm': 1.950952172279358, 'learning_rate': 1.3760944042634184e-06, 'epoch': 2.28}
+{'loss': 3.1247, 'grad_norm': 1.7967694997787476, 'learning_rate': 1.3741910925009518e-06, 'epoch': 2.28}
+{'loss': 3.307, 'grad_norm': 2.1323180198669434, 'learning_rate': 1.3722877807384852e-06, 'epoch': 2.28}
+{'loss': 3.2848, 'grad_norm': 1.6918622255325317, 'learning_rate': 1.3703844689760185e-06, 'epoch': 2.28}
+{'loss': 3.2018, 'grad_norm': 1.7709848880767822, 'learning_rate': 1.3684811572135517e-06, 'epoch': 2.28}
+{'eval_loss': 3.708984375, 'eval_runtime': 4.1509, 'eval_samples_per_second': 240.911, 'eval_steps_per_second': 10.118, 'epoch': 2.28}
+{'loss': 3.2607, 'grad_norm': 1.7868694067001343, 'learning_rate': 1.366577845451085e-06, 'epoch': 2.28}
+{'loss': 3.2725, 'grad_norm': 1.9292646646499634, 'learning_rate': 1.3646745336886184e-06, 'epoch': 2.28}
+{'loss': 3.234, 'grad_norm': 2.0320892333984375, 'learning_rate': 1.3627712219261515e-06, 'epoch': 2.28}
+{'loss': 3.3516, 'grad_norm': 2.0552849769592285, 'learning_rate': 1.360867910163685e-06, 'epoch': 2.28}
+{'loss': 3.2946, 'grad_norm': 1.887394905090332, 'learning_rate': 1.358964598401218e-06, 'epoch': 2.29}
+{'loss': 3.2562, 'grad_norm': 2.0135562419891357, 'learning_rate': 1.3570612866387514e-06, 'epoch': 2.29}
+{'loss': 3.2412, 'grad_norm': 1.8646005392074585, 'learning_rate': 1.355157974876285e-06, 'epoch': 2.29}
+{'loss': 3.2451, 'grad_norm': 1.866205096244812, 'learning_rate': 1.3532546631138184e-06, 'epoch': 2.29}
+{'loss': 3.2269, 'grad_norm': 1.9807181358337402, 'learning_rate': 1.3513513513513515e-06, 'epoch': 2.29}
+{'loss': 3.3018, 'grad_norm': 1.7603172063827515, 'learning_rate': 1.3494480395888849e-06, 'epoch': 2.29}
+{'eval_loss': 3.703125, 'eval_runtime': 4.1491, 'eval_samples_per_second': 241.014, 'eval_steps_per_second': 10.123, 'epoch': 2.29}
+{'loss': 3.2513, 'grad_norm': 1.9526368379592896, 'learning_rate': 1.347544727826418e-06, 'epoch': 2.29}
+{'loss': 3.2142, 'grad_norm': 2.0494987964630127, 'learning_rate': 1.3456414160639514e-06, 'epoch': 2.29}
+{'loss': 3.2227, 'grad_norm': 1.8866759538650513, 'learning_rate': 1.3437381043014847e-06, 'epoch': 2.29}
+{'loss': 3.2282, 'grad_norm': 2.4904258251190186, 'learning_rate': 1.341834792539018e-06, 'epoch': 2.29}
+{'loss': 3.2165, 'grad_norm': 1.987463116645813, 'learning_rate': 1.3399314807765513e-06, 'epoch': 2.3}
+{'loss': 3.3063, 'grad_norm': 2.308595657348633, 'learning_rate': 1.3380281690140844e-06, 'epoch': 2.3}
+{'loss': 3.2611, 'grad_norm': 1.9517805576324463, 'learning_rate': 1.336124857251618e-06, 'epoch': 2.3}
+{'loss': 3.2565, 'grad_norm': 2.2270145416259766, 'learning_rate': 1.3342215454891513e-06, 'epoch': 2.3}
+{'loss': 3.2633, 'grad_norm': 2.2607100009918213, 'learning_rate': 1.3323182337266847e-06, 'epoch': 2.3}
+{'loss': 3.2786, 'grad_norm': 2.1600890159606934, 'learning_rate': 1.3304149219642179e-06, 'epoch': 2.3}
+{'eval_loss': 3.703125, 'eval_runtime': 4.1495, 'eval_samples_per_second': 240.992, 'eval_steps_per_second': 10.122, 'epoch': 2.3}
+{'loss': 3.1898, 'grad_norm': 2.1777679920196533, 'learning_rate': 1.3285116102017512e-06, 'epoch': 2.3}
+{'loss': 3.2633, 'grad_norm': 2.006459951400757, 'learning_rate': 1.3266082984392844e-06, 'epoch': 2.3}
+{'loss': 3.1963, 'grad_norm': 1.6283496618270874, 'learning_rate': 1.3247049866768177e-06, 'epoch': 2.3}
+{'loss': 3.3298, 'grad_norm': 2.1242105960845947, 'learning_rate': 1.322801674914351e-06, 'epoch': 2.31}
+{'loss': 3.3187, 'grad_norm': 1.8509405851364136, 'learning_rate': 1.3208983631518843e-06, 'epoch': 2.31}
+{'loss': 3.2578, 'grad_norm': 2.103820323944092, 'learning_rate': 1.3189950513894176e-06, 'epoch': 2.31}
+{'loss': 3.2454, 'grad_norm': 2.1699254512786865, 'learning_rate': 1.3170917396269512e-06, 'epoch': 2.31}
+{'loss': 3.2536, 'grad_norm': 1.7618324756622314, 'learning_rate': 1.3151884278644843e-06, 'epoch': 2.31}
+{'loss': 3.2145, 'grad_norm': 1.7866014242172241, 'learning_rate': 1.3132851161020177e-06, 'epoch': 2.31}
+{'loss': 3.2174, 'grad_norm': 1.8726075887680054, 'learning_rate': 1.311381804339551e-06, 'epoch': 2.31}
+{'eval_loss': 3.703125, 'eval_runtime': 4.1521, 'eval_samples_per_second': 240.845, 'eval_steps_per_second': 10.115, 'epoch': 2.31}
+{'loss': 3.2269, 'grad_norm': 1.9388844966888428, 'learning_rate': 1.3094784925770842e-06, 'epoch': 2.31}
+{'loss': 3.1914, 'grad_norm': 1.8878592252731323, 'learning_rate': 1.3075751808146176e-06, 'epoch': 2.31}
+{'loss': 3.2223, 'grad_norm': 1.852905035018921, 'learning_rate': 1.3056718690521507e-06, 'epoch': 2.31}
+{'loss': 3.3447, 'grad_norm': 1.9511247873306274, 'learning_rate': 1.303768557289684e-06, 'epoch': 2.32}
+{'loss': 3.2487, 'grad_norm': 1.7558224201202393, 'learning_rate': 1.3018652455272175e-06, 'epoch': 2.32}
+{'loss': 3.3278, 'grad_norm': 2.11643648147583, 'learning_rate': 1.2999619337647506e-06, 'epoch': 2.32}
+{'loss': 3.2067, 'grad_norm': 1.8545479774475098, 'learning_rate': 1.2980586220022842e-06, 'epoch': 2.32}
+{'loss': 3.306, 'grad_norm': 1.8622009754180908, 'learning_rate': 1.2961553102398175e-06, 'epoch': 2.32}
+{'loss': 3.1637, 'grad_norm': 1.9892479181289673, 'learning_rate': 1.2942519984773507e-06, 'epoch': 2.32}
+{'loss': 3.2565, 'grad_norm': 1.8325117826461792, 'learning_rate': 1.292348686714884e-06, 'epoch': 2.32}
+{'eval_loss': 3.703125, 'eval_runtime': 4.1525, 'eval_samples_per_second': 240.819, 'eval_steps_per_second': 10.114, 'epoch': 2.32}
+{'loss': 3.265, 'grad_norm': 2.022839069366455, 'learning_rate': 1.2904453749524174e-06, 'epoch': 2.32}
+{'loss': 3.3633, 'grad_norm': 2.2514772415161133, 'learning_rate': 1.2885420631899506e-06, 'epoch': 2.32}
+{'loss': 3.2292, 'grad_norm': 1.9309413433074951, 'learning_rate': 1.286638751427484e-06, 'epoch': 2.32}
+{'loss': 3.2119, 'grad_norm': 1.987528681755066, 'learning_rate': 1.284735439665017e-06, 'epoch': 2.33}
+{'loss': 3.3262, 'grad_norm': 2.094388723373413, 'learning_rate': 1.2828321279025504e-06, 'epoch': 2.33}
+{'loss': 3.224, 'grad_norm': 2.070974111557007, 'learning_rate': 1.2809288161400838e-06, 'epoch': 2.33}
+{'loss': 3.2402, 'grad_norm': 1.878027081489563, 'learning_rate': 1.279025504377617e-06, 'epoch': 2.33}
+{'loss': 3.3376, 'grad_norm': 1.9074500799179077, 'learning_rate': 1.2771221926151505e-06, 'epoch': 2.33}
+{'loss': 3.29, 'grad_norm': 2.0658082962036133, 'learning_rate': 1.275218880852684e-06, 'epoch': 2.33}
+{'loss': 3.2106, 'grad_norm': 1.8352453708648682, 'learning_rate': 1.273315569090217e-06, 'epoch': 2.33}
+{'eval_loss': 3.705078125, 'eval_runtime': 4.1499, 'eval_samples_per_second': 240.967, 'eval_steps_per_second': 10.121, 'epoch': 2.33}
+{'loss': 3.3037, 'grad_norm': 2.0891098976135254, 'learning_rate': 1.2714122573277504e-06, 'epoch': 2.33}
+{'loss': 3.3138, 'grad_norm': 2.190291166305542, 'learning_rate': 1.2695089455652838e-06, 'epoch': 2.33}
+{'loss': 3.2425, 'grad_norm': 2.1013829708099365, 'learning_rate': 1.267605633802817e-06, 'epoch': 2.33}
+{'loss': 3.3363, 'grad_norm': 1.887053370475769, 'learning_rate': 1.2657023220403503e-06, 'epoch': 2.34}
+{'loss': 3.2285, 'grad_norm': 2.1373040676116943, 'learning_rate': 1.2637990102778836e-06, 'epoch': 2.34}
+{'loss': 3.2904, 'grad_norm': 1.8171591758728027, 'learning_rate': 1.2618956985154168e-06, 'epoch': 2.34}
+{'loss': 3.2923, 'grad_norm': 2.0181355476379395, 'learning_rate': 1.2599923867529502e-06, 'epoch': 2.34}
+{'loss': 3.2842, 'grad_norm': 1.7624680995941162, 'learning_rate': 1.2580890749904837e-06, 'epoch': 2.34}
+{'loss': 3.2298, 'grad_norm': 1.5766797065734863, 'learning_rate': 1.2561857632280169e-06, 'epoch': 2.34}
+{'loss': 3.3122, 'grad_norm': 1.8704864978790283, 'learning_rate': 1.2542824514655502e-06, 'epoch': 2.34}
+{'eval_loss': 3.703125, 'eval_runtime': 4.1503, 'eval_samples_per_second': 240.946, 'eval_steps_per_second': 10.12, 'epoch': 2.34}
+{'loss': 3.3066, 'grad_norm': 2.0675461292266846, 'learning_rate': 1.2523791397030834e-06, 'epoch': 2.34}
+{'loss': 3.2139, 'grad_norm': 1.7609182596206665, 'learning_rate': 1.2504758279406168e-06, 'epoch': 2.34}
+{'loss': 3.2669, 'grad_norm': 1.9377871751785278, 'learning_rate': 1.2485725161781501e-06, 'epoch': 2.35}
+{'loss': 3.2682, 'grad_norm': 1.985979437828064, 'learning_rate': 1.2466692044156833e-06, 'epoch': 2.35}
+{'loss': 3.2087, 'grad_norm': 1.9988280534744263, 'learning_rate': 1.2447658926532168e-06, 'epoch': 2.35}
+{'loss': 3.2562, 'grad_norm': 1.990016222000122, 'learning_rate': 1.24286258089075e-06, 'epoch': 2.35}
+{'loss': 3.2422, 'grad_norm': 1.9491571187973022, 'learning_rate': 1.2409592691282834e-06, 'epoch': 2.35}
+{'loss': 3.3519, 'grad_norm': 2.0204246044158936, 'learning_rate': 1.2390559573658165e-06, 'epoch': 2.35}
+{'loss': 3.2533, 'grad_norm': 1.8991292715072632, 'learning_rate': 1.2371526456033499e-06, 'epoch': 2.35}
+{'loss': 3.2565, 'grad_norm': 2.218548536300659, 'learning_rate': 1.2352493338408832e-06, 'epoch': 2.35}
+{'eval_loss': 3.705078125, 'eval_runtime': 4.1521, 'eval_samples_per_second': 240.839, 'eval_steps_per_second': 10.115, 'epoch': 2.35}
+{'loss': 3.1084, 'grad_norm': 2.06209135055542, 'learning_rate': 1.2333460220784166e-06, 'epoch': 2.35}
+{'loss': 3.3167, 'grad_norm': 1.8954453468322754, 'learning_rate': 1.23144271031595e-06, 'epoch': 2.35}
+{'loss': 3.1924, 'grad_norm': 1.775166392326355, 'learning_rate': 1.2295393985534831e-06, 'epoch': 2.36}
+{'loss': 3.1982, 'grad_norm': 1.676876187324524, 'learning_rate': 1.2276360867910165e-06, 'epoch': 2.36}
+{'loss': 3.236, 'grad_norm': 1.8588733673095703, 'learning_rate': 1.2257327750285498e-06, 'epoch': 2.36}
+{'loss': 3.2773, 'grad_norm': 1.8754703998565674, 'learning_rate': 1.2238294632660832e-06, 'epoch': 2.36}
+{'loss': 3.2028, 'grad_norm': 1.955199122428894, 'learning_rate': 1.2219261515036164e-06, 'epoch': 2.36}
+{'loss': 3.2197, 'grad_norm': 2.126880645751953, 'learning_rate': 1.2200228397411497e-06, 'epoch': 2.36}
+{'loss': 3.251, 'grad_norm': 1.9386330842971802, 'learning_rate': 1.2181195279786829e-06, 'epoch': 2.36}
+{'loss': 3.3236, 'grad_norm': 2.2256224155426025, 'learning_rate': 1.2162162162162164e-06, 'epoch': 2.36}
+{'eval_loss': 3.701171875, 'eval_runtime': 4.1517, 'eval_samples_per_second': 240.867, 'eval_steps_per_second': 10.116, 'epoch': 2.36}
+{'loss': 3.3672, 'grad_norm': 1.8678005933761597, 'learning_rate': 1.2143129044537496e-06, 'epoch': 2.36}
+{'loss': 3.1829, 'grad_norm': 1.883493185043335, 'learning_rate': 1.212409592691283e-06, 'epoch': 2.36}
+{'loss': 3.2738, 'grad_norm': 1.996770977973938, 'learning_rate': 1.2105062809288163e-06, 'epoch': 2.37}
+{'loss': 3.196, 'grad_norm': 1.946449875831604, 'learning_rate': 1.2086029691663495e-06, 'epoch': 2.37}
+{'loss': 3.1875, 'grad_norm': 2.2215960025787354, 'learning_rate': 1.2066996574038828e-06, 'epoch': 2.37}
+{'loss': 3.319, 'grad_norm': 2.089730978012085, 'learning_rate': 1.2047963456414162e-06, 'epoch': 2.37}
+{'loss': 3.2399, 'grad_norm': 2.2119455337524414, 'learning_rate': 1.2028930338789496e-06, 'epoch': 2.37}
+{'loss': 3.2295, 'grad_norm': 1.8592281341552734, 'learning_rate': 1.2009897221164827e-06, 'epoch': 2.37}
+{'loss': 3.2682, 'grad_norm': 2.1490228176116943, 'learning_rate': 1.199086410354016e-06, 'epoch': 2.37}
+{'loss': 3.2773, 'grad_norm': 1.8232539892196655, 'learning_rate': 1.1971830985915492e-06, 'epoch': 2.37}
+{'eval_loss': 3.69921875, 'eval_runtime': 4.1468, 'eval_samples_per_second': 241.152, 'eval_steps_per_second': 10.128, 'epoch': 2.37}
+{'loss': 3.1839, 'grad_norm': 1.961763620376587, 'learning_rate': 1.1952797868290828e-06, 'epoch': 2.37}
+{'loss': 3.1878, 'grad_norm': 2.042954444885254, 'learning_rate': 1.193376475066616e-06, 'epoch': 2.37}
+{'loss': 3.291, 'grad_norm': 1.9995461702346802, 'learning_rate': 1.1914731633041493e-06, 'epoch': 2.38}
+{'loss': 3.2021, 'grad_norm': 1.8342090845108032, 'learning_rate': 1.1895698515416827e-06, 'epoch': 2.38}
+{'loss': 3.2663, 'grad_norm': 2.1462690830230713, 'learning_rate': 1.1876665397792158e-06, 'epoch': 2.38}
+{'loss': 3.1423, 'grad_norm': 1.8007484674453735, 'learning_rate': 1.1857632280167492e-06, 'epoch': 2.38}
+{'loss': 3.3532, 'grad_norm': 1.9533698558807373, 'learning_rate': 1.1838599162542825e-06, 'epoch': 2.38}
+{'loss': 3.2832, 'grad_norm': 1.8943954706192017, 'learning_rate': 1.181956604491816e-06, 'epoch': 2.38}
+{'loss': 3.2822, 'grad_norm': 1.8002363443374634, 'learning_rate': 1.180053292729349e-06, 'epoch': 2.38}
+{'loss': 3.2041, 'grad_norm': 2.0715558528900146, 'learning_rate': 1.1781499809668824e-06, 'epoch': 2.38}
+{'eval_loss': 3.703125, 'eval_runtime': 4.1497, 'eval_samples_per_second': 240.98, 'eval_steps_per_second': 10.121, 'epoch': 2.38}
+{'loss': 3.2995, 'grad_norm': 1.795380711555481, 'learning_rate': 1.1762466692044158e-06, 'epoch': 2.38}
+{'loss': 3.2754, 'grad_norm': 2.152475118637085, 'learning_rate': 1.1743433574419491e-06, 'epoch': 2.39}
+{'loss': 3.1533, 'grad_norm': 1.8584959506988525, 'learning_rate': 1.1724400456794823e-06, 'epoch': 2.39}
+{'loss': 3.1673, 'grad_norm': 1.8528505563735962, 'learning_rate': 1.1705367339170157e-06, 'epoch': 2.39}
+{'loss': 3.2913, 'grad_norm': 2.174154281616211, 'learning_rate': 1.168633422154549e-06, 'epoch': 2.39}
+{'loss': 3.2386, 'grad_norm': 1.9623607397079468, 'learning_rate': 1.1667301103920824e-06, 'epoch': 2.39}
+{'loss': 3.3356, 'grad_norm': 2.0736019611358643, 'learning_rate': 1.1648267986296157e-06, 'epoch': 2.39}
+{'loss': 3.2943, 'grad_norm': 1.7834992408752441, 'learning_rate': 1.162923486867149e-06, 'epoch': 2.39}
+{'loss': 3.2331, 'grad_norm': 1.7093645334243774, 'learning_rate': 1.1610201751046823e-06, 'epoch': 2.39}
+{'loss': 3.1449, 'grad_norm': 1.856448769569397, 'learning_rate': 1.1591168633422154e-06, 'epoch': 2.39}
+{'eval_loss': 3.705078125, 'eval_runtime': 4.1481, 'eval_samples_per_second': 241.075, 'eval_steps_per_second': 10.125, 'epoch': 2.39}
+{'loss': 3.2165, 'grad_norm': 1.843179702758789, 'learning_rate': 1.157213551579749e-06, 'epoch': 2.39}
+{'loss': 3.1986, 'grad_norm': 1.9347296953201294, 'learning_rate': 1.1553102398172821e-06, 'epoch': 2.4}
+{'loss': 3.2093, 'grad_norm': 1.715504765510559, 'learning_rate': 1.1534069280548155e-06, 'epoch': 2.4}
+{'loss': 3.2389, 'grad_norm': 1.9493672847747803, 'learning_rate': 1.1515036162923487e-06, 'epoch': 2.4}
+{'loss': 3.3242, 'grad_norm': 1.7861878871917725, 'learning_rate': 1.149600304529882e-06, 'epoch': 2.4}
+{'loss': 3.2311, 'grad_norm': 1.973037600517273, 'learning_rate': 1.1476969927674154e-06, 'epoch': 2.4}
+{'loss': 3.2321, 'grad_norm': 1.77945876121521, 'learning_rate': 1.1457936810049487e-06, 'epoch': 2.4}
+{'loss': 3.2448, 'grad_norm': 1.9003227949142456, 'learning_rate': 1.143890369242482e-06, 'epoch': 2.4}
+{'loss': 3.2962, 'grad_norm': 1.7731958627700806, 'learning_rate': 1.1419870574800153e-06, 'epoch': 2.4}
+{'loss': 3.1982, 'grad_norm': 1.8848729133605957, 'learning_rate': 1.1400837457175486e-06, 'epoch': 2.4}
+{'eval_loss': 3.70703125, 'eval_runtime': 4.1492, 'eval_samples_per_second': 241.009, 'eval_steps_per_second': 10.122, 'epoch': 2.4}
+{'loss': 3.2617, 'grad_norm': 2.045078754425049, 'learning_rate': 1.138180433955082e-06, 'epoch': 2.4}
+{'loss': 3.2952, 'grad_norm': 1.8001962900161743, 'learning_rate': 1.1362771221926153e-06, 'epoch': 2.41}
+{'loss': 3.1595, 'grad_norm': 1.990923285484314, 'learning_rate': 1.1343738104301485e-06, 'epoch': 2.41}
+{'loss': 3.1924, 'grad_norm': 2.047006130218506, 'learning_rate': 1.1324704986676819e-06, 'epoch': 2.41}
+{'loss': 3.3285, 'grad_norm': 1.9072325229644775, 'learning_rate': 1.130567186905215e-06, 'epoch': 2.41}
+{'loss': 3.3369, 'grad_norm': 2.042948007583618, 'learning_rate': 1.1286638751427486e-06, 'epoch': 2.41}
+{'loss': 3.2575, 'grad_norm': 2.171682596206665, 'learning_rate': 1.1267605633802817e-06, 'epoch': 2.41}
+{'loss': 3.3086, 'grad_norm': 1.8826841115951538, 'learning_rate': 1.124857251617815e-06, 'epoch': 2.41}
+{'loss': 3.2812, 'grad_norm': 1.8921440839767456, 'learning_rate': 1.1229539398553485e-06, 'epoch': 2.41}
+{'loss': 3.2035, 'grad_norm': 2.1727123260498047, 'learning_rate': 1.1210506280928816e-06, 'epoch': 2.41}
+{'eval_loss': 3.705078125, 'eval_runtime': 4.1511, 'eval_samples_per_second': 240.899, 'eval_steps_per_second': 10.118, 'epoch': 2.41}
+{'loss': 3.2327, 'grad_norm': 1.934970736503601, 'learning_rate': 1.119147316330415e-06, 'epoch': 2.41}
+{'loss': 3.265, 'grad_norm': 2.220386028289795, 'learning_rate': 1.1172440045679483e-06, 'epoch': 2.42}
+{'loss': 3.2757, 'grad_norm': 2.1813724040985107, 'learning_rate': 1.1153406928054817e-06, 'epoch': 2.42}
+{'loss': 3.1956, 'grad_norm': 1.9429490566253662, 'learning_rate': 1.1134373810430148e-06, 'epoch': 2.42}
+{'loss': 3.2262, 'grad_norm': 1.8078140020370483, 'learning_rate': 1.1115340692805482e-06, 'epoch': 2.42}
+{'loss': 3.3109, 'grad_norm': 2.135904550552368, 'learning_rate': 1.1096307575180816e-06, 'epoch': 2.42}
+{'loss': 3.2777, 'grad_norm': 2.259155511856079, 'learning_rate': 1.107727445755615e-06, 'epoch': 2.42}
+{'loss': 3.2373, 'grad_norm': 1.9023877382278442, 'learning_rate': 1.105824133993148e-06, 'epoch': 2.42}
+{'loss': 3.1872, 'grad_norm': 2.1093742847442627, 'learning_rate': 1.1039208222306814e-06, 'epoch': 2.42}
+{'loss': 3.2363, 'grad_norm': 1.8601974248886108, 'learning_rate': 1.1020175104682148e-06, 'epoch': 2.42}
+{'eval_loss': 3.703125, 'eval_runtime': 4.1512, 'eval_samples_per_second': 240.895, 'eval_steps_per_second': 10.118, 'epoch': 2.42}
+{'loss': 3.2624, 'grad_norm': 2.139211893081665, 'learning_rate': 1.1001141987057482e-06, 'epoch': 2.43}
+{'loss': 3.1982, 'grad_norm': 1.7400332689285278, 'learning_rate': 1.0982108869432813e-06, 'epoch': 2.43}
+{'loss': 3.2663, 'grad_norm': 1.861666202545166, 'learning_rate': 1.0963075751808147e-06, 'epoch': 2.43}
+{'loss': 3.2624, 'grad_norm': 1.861666202545166, 'learning_rate': 1.0963075751808147e-06, 'epoch': 2.43}
+{'loss': 3.2035, 'grad_norm': 1.890783429145813, 'learning_rate': 1.094404263418348e-06, 'epoch': 2.43}
+{'loss': 3.2995, 'grad_norm': 1.8985344171524048, 'learning_rate': 1.0925009516558812e-06, 'epoch': 2.43}
+{'loss': 3.1992, 'grad_norm': 1.911872148513794, 'learning_rate': 1.0905976398934148e-06, 'epoch': 2.43}
+{'loss': 3.248, 'grad_norm': 1.7502471208572388, 'learning_rate': 1.088694328130948e-06, 'epoch': 2.43}
+{'loss': 3.2643, 'grad_norm': 1.9120310544967651, 'learning_rate': 1.0867910163684813e-06, 'epoch': 2.43}
+{'loss': 3.168, 'grad_norm': 2.117361068725586, 'learning_rate': 1.0848877046060144e-06, 'epoch': 2.43}
+{'eval_loss': 3.701171875, 'eval_runtime': 4.1509, 'eval_samples_per_second': 240.914, 'eval_steps_per_second': 10.118, 'epoch': 2.43}
+{'loss': 3.2308, 'grad_norm': 2.0404393672943115, 'learning_rate': 1.0829843928435478e-06, 'epoch': 2.44}
+{'loss': 3.2614, 'grad_norm': 2.105095863342285, 'learning_rate': 1.0810810810810812e-06, 'epoch': 2.44}
+{'loss': 3.1992, 'grad_norm': 1.9989855289459229, 'learning_rate': 1.0791777693186145e-06, 'epoch': 2.44}
+{'loss': 3.2201, 'grad_norm': 1.9326887130737305, 'learning_rate': 1.0772744575561479e-06, 'epoch': 2.44}
+{'loss': 3.2471, 'grad_norm': 2.1135809421539307, 'learning_rate': 1.075371145793681e-06, 'epoch': 2.44}
+{'loss': 3.1787, 'grad_norm': 1.7163381576538086, 'learning_rate': 1.0734678340312144e-06, 'epoch': 2.44}
+{'loss': 3.2201, 'grad_norm': 1.8651316165924072, 'learning_rate': 1.0715645222687478e-06, 'epoch': 2.44}
+{'loss': 3.1813, 'grad_norm': 1.8962513208389282, 'learning_rate': 1.0696612105062811e-06, 'epoch': 2.44}
+{'loss': 3.1702, 'grad_norm': 1.8017845153808594, 'learning_rate': 1.0677578987438143e-06, 'epoch': 2.44}
+{'loss': 3.1729, 'grad_norm': 1.9572566747665405, 'learning_rate': 1.0658545869813476e-06, 'epoch': 2.44}
+{'eval_loss': 3.69921875, 'eval_runtime': 4.1493, 'eval_samples_per_second': 241.005, 'eval_steps_per_second': 10.122, 'epoch': 2.44}
+{'loss': 3.2708, 'grad_norm': 1.8080575466156006, 'learning_rate': 1.0639512752188808e-06, 'epoch': 2.45}
+{'loss': 3.2445, 'grad_norm': 1.824316382408142, 'learning_rate': 1.0620479634564144e-06, 'epoch': 2.45}
+{'loss': 3.266, 'grad_norm': 1.6645053625106812, 'learning_rate': 1.0601446516939475e-06, 'epoch': 2.45}
+{'loss': 3.1826, 'grad_norm': 1.838487148284912, 'learning_rate': 1.0582413399314809e-06, 'epoch': 2.45}
+{'loss': 3.2057, 'grad_norm': 1.8427166938781738, 'learning_rate': 1.0563380281690142e-06, 'epoch': 2.45}
+{'loss': 3.2038, 'grad_norm': 1.883540153503418, 'learning_rate': 1.0544347164065474e-06, 'epoch': 2.45}
+{'loss': 3.2344, 'grad_norm': 2.0986499786376953, 'learning_rate': 1.0525314046440808e-06, 'epoch': 2.45}
+{'loss': 3.2243, 'grad_norm': 1.8633291721343994, 'learning_rate': 1.0506280928816141e-06, 'epoch': 2.45}
+{'loss': 3.1774, 'grad_norm': 1.9917778968811035, 'learning_rate': 1.0487247811191475e-06, 'epoch': 2.45}
+{'loss': 3.3486, 'grad_norm': 1.7851192951202393, 'learning_rate': 1.0468214693566806e-06, 'epoch': 2.46}
+{'eval_loss': 3.701171875, 'eval_runtime': 4.1506, 'eval_samples_per_second': 240.929, 'eval_steps_per_second': 10.119, 'epoch': 2.46}
+{'loss': 3.2799, 'grad_norm': 1.8635672330856323, 'learning_rate': 1.044918157594214e-06, 'epoch': 2.46}
+{'loss': 3.2812, 'grad_norm': 1.6074827909469604, 'learning_rate': 1.0430148458317474e-06, 'epoch': 2.46}
+{'loss': 3.2181, 'grad_norm': 1.897670865058899, 'learning_rate': 1.0411115340692807e-06, 'epoch': 2.46}
+{'loss': 3.2728, 'grad_norm': 2.1238999366760254, 'learning_rate': 1.0392082223068139e-06, 'epoch': 2.46}
+{'loss': 3.2155, 'grad_norm': 1.729108214378357, 'learning_rate': 1.0373049105443472e-06, 'epoch': 2.46}
+{'loss': 3.3223, 'grad_norm': 1.8966587781906128, 'learning_rate': 1.0354015987818806e-06, 'epoch': 2.46}
+{'loss': 3.2822, 'grad_norm': 2.3176963329315186, 'learning_rate': 1.033498287019414e-06, 'epoch': 2.46}
+{'loss': 3.1468, 'grad_norm': 1.8846739530563354, 'learning_rate': 1.0315949752569471e-06, 'epoch': 2.46}
+{'loss': 3.209, 'grad_norm': 2.2824764251708984, 'learning_rate': 1.0296916634944805e-06, 'epoch': 2.46}
+{'loss': 3.2542, 'grad_norm': 1.8605180978775024, 'learning_rate': 1.0277883517320138e-06, 'epoch': 2.47}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.1496, 'eval_samples_per_second': 240.989, 'eval_steps_per_second': 10.122, 'epoch': 2.47}
+{'loss': 3.2757, 'grad_norm': 2.0714738368988037, 'learning_rate': 1.025885039969547e-06, 'epoch': 2.47}
+{'loss': 3.2741, 'grad_norm': 1.8073136806488037, 'learning_rate': 1.0239817282070806e-06, 'epoch': 2.47}
+{'loss': 3.153, 'grad_norm': 2.0098116397857666, 'learning_rate': 1.0220784164446137e-06, 'epoch': 2.47}
+{'loss': 3.2188, 'grad_norm': 1.917444109916687, 'learning_rate': 1.020175104682147e-06, 'epoch': 2.47}
+{'loss': 3.2214, 'grad_norm': 1.686408519744873, 'learning_rate': 1.0182717929196802e-06, 'epoch': 2.47}
+{'loss': 3.2132, 'grad_norm': 2.020400285720825, 'learning_rate': 1.0163684811572136e-06, 'epoch': 2.47}
+{'loss': 3.3203, 'grad_norm': 1.9153846502304077, 'learning_rate': 1.014465169394747e-06, 'epoch': 2.47}
+{'loss': 3.2575, 'grad_norm': 1.9526662826538086, 'learning_rate': 1.0125618576322803e-06, 'epoch': 2.47}
+{'loss': 3.1846, 'grad_norm': 1.6195614337921143, 'learning_rate': 1.0106585458698137e-06, 'epoch': 2.47}
+{'loss': 3.2243, 'grad_norm': 1.959862232208252, 'learning_rate': 1.0087552341073468e-06, 'epoch': 2.48}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.1481, 'eval_samples_per_second': 241.071, 'eval_steps_per_second': 10.125, 'epoch': 2.48}
+{'loss': 3.1836, 'grad_norm': 1.693839192390442, 'learning_rate': 1.0068519223448802e-06, 'epoch': 2.48}
+{'loss': 3.1755, 'grad_norm': 1.7184516191482544, 'learning_rate': 1.0049486105824133e-06, 'epoch': 2.48}
+{'loss': 3.2412, 'grad_norm': 1.9543167352676392, 'learning_rate': 1.003045298819947e-06, 'epoch': 2.48}
+{'loss': 3.1699, 'grad_norm': 1.8690041303634644, 'learning_rate': 1.00114198705748e-06, 'epoch': 2.48}
+{'loss': 3.2406, 'grad_norm': 2.1234216690063477, 'learning_rate': 9.992386752950134e-07, 'epoch': 2.48}
+{'loss': 3.278, 'grad_norm': 1.9850531816482544, 'learning_rate': 9.973353635325466e-07, 'epoch': 2.48}
+{'loss': 3.2321, 'grad_norm': 1.8578572273254395, 'learning_rate': 9.9543205177008e-07, 'epoch': 2.48}
+{'loss': 3.3125, 'grad_norm': 2.050506591796875, 'learning_rate': 9.935287400076133e-07, 'epoch': 2.48}
+{'loss': 3.2376, 'grad_norm': 1.9924901723861694, 'learning_rate': 9.916254282451467e-07, 'epoch': 2.48}
+{'loss': 3.2692, 'grad_norm': 1.89834463596344, 'learning_rate': 9.8972211648268e-07, 'epoch': 2.49}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.1484, 'eval_samples_per_second': 241.056, 'eval_steps_per_second': 10.124, 'epoch': 2.49}
+{'loss': 3.2695, 'grad_norm': 1.9109970331192017, 'learning_rate': 9.878188047202132e-07, 'epoch': 2.49}
+{'loss': 3.2262, 'grad_norm': 1.9522488117218018, 'learning_rate': 9.859154929577465e-07, 'epoch': 2.49}
+{'loss': 3.1842, 'grad_norm': 1.955431580543518, 'learning_rate': 9.8401218119528e-07, 'epoch': 2.49}
+{'loss': 3.2142, 'grad_norm': 2.2439610958099365, 'learning_rate': 9.821088694328133e-07, 'epoch': 2.49}
+{'loss': 3.2415, 'grad_norm': 2.195905923843384, 'learning_rate': 9.802055576703464e-07, 'epoch': 2.49}
+{'loss': 3.2728, 'grad_norm': 2.120236396789551, 'learning_rate': 9.783022459078798e-07, 'epoch': 2.49}
+{'loss': 3.2559, 'grad_norm': 1.8704169988632202, 'learning_rate': 9.76398934145413e-07, 'epoch': 2.49}
+{'loss': 3.2474, 'grad_norm': 2.0194456577301025, 'learning_rate': 9.744956223829465e-07, 'epoch': 2.49}
+{'loss': 3.1699, 'grad_norm': 1.9902691841125488, 'learning_rate': 9.725923106204797e-07, 'epoch': 2.5}
+{'loss': 3.2331, 'grad_norm': 1.8541691303253174, 'learning_rate': 9.70688998858013e-07, 'epoch': 2.5}
+{'eval_loss': 3.6953125, 'eval_runtime': 4.1481, 'eval_samples_per_second': 241.074, 'eval_steps_per_second': 10.125, 'epoch': 2.5}
+{'loss': 3.234, 'grad_norm': 2.0863192081451416, 'learning_rate': 9.687856870955464e-07, 'epoch': 2.5}
+{'loss': 3.2145, 'grad_norm': 1.638086199760437, 'learning_rate': 9.668823753330795e-07, 'epoch': 2.5}
+{'loss': 3.2887, 'grad_norm': 1.9457896947860718, 'learning_rate': 9.64979063570613e-07, 'epoch': 2.5}
+{'loss': 3.2731, 'grad_norm': 1.8809415102005005, 'learning_rate': 9.630757518081463e-07, 'epoch': 2.5}
+{'loss': 3.1699, 'grad_norm': 1.9972172975540161, 'learning_rate': 9.611724400456796e-07, 'epoch': 2.5}
+{'loss': 3.2673, 'grad_norm': 1.724642038345337, 'learning_rate': 9.592691282832128e-07, 'epoch': 2.5}
+{'loss': 3.238, 'grad_norm': 2.287161111831665, 'learning_rate': 9.573658165207461e-07, 'epoch': 2.5}
+{'loss': 3.1973, 'grad_norm': 2.091698169708252, 'learning_rate': 9.554625047582795e-07, 'epoch': 2.5}
+{'loss': 3.2845, 'grad_norm': 1.914402723312378, 'learning_rate': 9.535591929958129e-07, 'epoch': 2.51}
+{'loss': 3.264, 'grad_norm': 1.6839110851287842, 'learning_rate': 9.516558812333461e-07, 'epoch': 2.51}
+{'eval_loss': 3.6953125, 'eval_runtime': 4.1473, 'eval_samples_per_second': 241.123, 'eval_steps_per_second': 10.127, 'epoch': 2.51}
+{'loss': 3.1826, 'grad_norm': 1.8655552864074707, 'learning_rate': 9.497525694708794e-07, 'epoch': 2.51}
+{'loss': 3.2207, 'grad_norm': 1.9664863348007202, 'learning_rate': 9.478492577084126e-07, 'epoch': 2.51}
+{'loss': 3.1937, 'grad_norm': 1.8150885105133057, 'learning_rate': 9.459459459459461e-07, 'epoch': 2.51}
+{'loss': 3.2025, 'grad_norm': 1.9621156454086304, 'learning_rate': 9.440426341834794e-07, 'epoch': 2.51}
+{'loss': 3.2422, 'grad_norm': 1.8641306161880493, 'learning_rate': 9.421393224210126e-07, 'epoch': 2.51}
+{'loss': 3.2054, 'grad_norm': 1.8060197830200195, 'learning_rate': 9.402360106585459e-07, 'epoch': 2.51}
+{'loss': 3.2441, 'grad_norm': 2.081510066986084, 'learning_rate': 9.383326988960792e-07, 'epoch': 2.51}
+{'loss': 3.3291, 'grad_norm': 2.0068233013153076, 'learning_rate': 9.364293871336126e-07, 'epoch': 2.51}
+{'loss': 3.21, 'grad_norm': 1.9102227687835693, 'learning_rate': 9.345260753711458e-07, 'epoch': 2.52}
+{'loss': 3.2041, 'grad_norm': 1.917497158050537, 'learning_rate': 9.326227636086792e-07, 'epoch': 2.52}
+{'eval_loss': 3.693359375, 'eval_runtime': 4.1485, 'eval_samples_per_second': 241.053, 'eval_steps_per_second': 10.124, 'epoch': 2.52}
+{'loss': 3.2734, 'grad_norm': 1.7374553680419922, 'learning_rate': 9.307194518462125e-07, 'epoch': 2.52}
+{'loss': 3.2939, 'grad_norm': 2.0465760231018066, 'learning_rate': 9.288161400837457e-07, 'epoch': 2.52}
+{'loss': 3.2601, 'grad_norm': 1.7477247714996338, 'learning_rate': 9.269128283212792e-07, 'epoch': 2.52}
+{'loss': 3.221, 'grad_norm': 1.9912911653518677, 'learning_rate': 9.250095165588125e-07, 'epoch': 2.52}
+{'loss': 3.2044, 'grad_norm': 1.7783845663070679, 'learning_rate': 9.231062047963457e-07, 'epoch': 2.52}
+{'loss': 3.2292, 'grad_norm': 2.00978684425354, 'learning_rate': 9.21202893033879e-07, 'epoch': 2.52}
+{'loss': 3.2897, 'grad_norm': 1.7521179914474487, 'learning_rate': 9.192995812714123e-07, 'epoch': 2.52}
+{'loss': 3.2018, 'grad_norm': 2.2616629600524902, 'learning_rate': 9.173962695089457e-07, 'epoch': 2.52}
+{'loss': 3.2334, 'grad_norm': 2.103853225708008, 'learning_rate': 9.154929577464789e-07, 'epoch': 2.53}
+{'loss': 3.1901, 'grad_norm': 1.7398649454116821, 'learning_rate': 9.135896459840123e-07, 'epoch': 2.53}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1486, 'eval_samples_per_second': 241.046, 'eval_steps_per_second': 10.124, 'epoch': 2.53}
+{'loss': 3.2155, 'grad_norm': 1.8716999292373657, 'learning_rate': 9.116863342215456e-07, 'epoch': 2.53}
+{'loss': 3.1833, 'grad_norm': 2.1850218772888184, 'learning_rate': 9.097830224590788e-07, 'epoch': 2.53}
+{'loss': 3.2438, 'grad_norm': 1.8178342580795288, 'learning_rate': 9.078797106966122e-07, 'epoch': 2.53}
+{'loss': 3.2445, 'grad_norm': 1.7832286357879639, 'learning_rate': 9.059763989341455e-07, 'epoch': 2.53}
+{'loss': 3.2754, 'grad_norm': 1.8723704814910889, 'learning_rate': 9.040730871716788e-07, 'epoch': 2.53}
+{'loss': 3.2594, 'grad_norm': 2.0025131702423096, 'learning_rate': 9.021697754092121e-07, 'epoch': 2.53}
+{'loss': 3.3125, 'grad_norm': 1.8813997507095337, 'learning_rate': 9.002664636467453e-07, 'epoch': 2.53}
+{'loss': 3.2448, 'grad_norm': 1.8857976198196411, 'learning_rate': 8.983631518842788e-07, 'epoch': 2.54}
+{'loss': 3.1523, 'grad_norm': 1.9368135929107666, 'learning_rate': 8.96459840121812e-07, 'epoch': 2.54}
+{'loss': 3.252, 'grad_norm': 1.732143759727478, 'learning_rate': 8.945565283593453e-07, 'epoch': 2.54}
+{'eval_loss': 3.693359375, 'eval_runtime': 4.1506, 'eval_samples_per_second': 240.927, 'eval_steps_per_second': 10.119, 'epoch': 2.54}
+{'loss': 3.263, 'grad_norm': 2.176852226257324, 'learning_rate': 8.926532165968787e-07, 'epoch': 2.54}
+{'loss': 3.2962, 'grad_norm': 1.877476692199707, 'learning_rate': 8.907499048344119e-07, 'epoch': 2.54}
+{'loss': 3.2412, 'grad_norm': 1.960831880569458, 'learning_rate': 8.888465930719453e-07, 'epoch': 2.54}
+{'loss': 3.1663, 'grad_norm': 1.8045753240585327, 'learning_rate': 8.869432813094786e-07, 'epoch': 2.54}
+{'loss': 3.2298, 'grad_norm': 1.9371662139892578, 'learning_rate': 8.850399695470119e-07, 'epoch': 2.54}
+{'loss': 3.2799, 'grad_norm': 1.8012027740478516, 'learning_rate': 8.831366577845452e-07, 'epoch': 2.54}
+{'loss': 3.1927, 'grad_norm': 1.8285222053527832, 'learning_rate': 8.812333460220784e-07, 'epoch': 2.54}
+{'loss': 3.2028, 'grad_norm': 1.870549201965332, 'learning_rate': 8.793300342596119e-07, 'epoch': 2.55}
+{'loss': 3.2822, 'grad_norm': 2.019031047821045, 'learning_rate': 8.774267224971451e-07, 'epoch': 2.55}
+{'loss': 3.2292, 'grad_norm': 1.9587767124176025, 'learning_rate': 8.755234107346784e-07, 'epoch': 2.55}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.1487, 'eval_samples_per_second': 241.042, 'eval_steps_per_second': 10.124, 'epoch': 2.55}
+{'loss': 3.2943, 'grad_norm': 1.764644980430603, 'learning_rate': 8.736200989722117e-07, 'epoch': 2.55}
+{'loss': 3.2025, 'grad_norm': 1.7930766344070435, 'learning_rate': 8.71716787209745e-07, 'epoch': 2.55}
+{'loss': 3.2093, 'grad_norm': 2.11625599861145, 'learning_rate': 8.698134754472784e-07, 'epoch': 2.55}
+{'loss': 3.2842, 'grad_norm': 2.086672782897949, 'learning_rate': 8.679101636848116e-07, 'epoch': 2.55}
+{'loss': 3.2018, 'grad_norm': 1.820676565170288, 'learning_rate': 8.66006851922345e-07, 'epoch': 2.55}
+{'loss': 3.2331, 'grad_norm': 2.056058883666992, 'learning_rate': 8.641035401598783e-07, 'epoch': 2.55}
+{'loss': 3.235, 'grad_norm': 2.0329291820526123, 'learning_rate': 8.622002283974115e-07, 'epoch': 2.55}
+{'loss': 3.2269, 'grad_norm': 2.199767827987671, 'learning_rate': 8.60296916634945e-07, 'epoch': 2.56}
+{'loss': 3.2572, 'grad_norm': 1.7212051153182983, 'learning_rate': 8.583936048724782e-07, 'epoch': 2.56}
+{'loss': 3.2282, 'grad_norm': 1.7544587850570679, 'learning_rate': 8.564902931100115e-07, 'epoch': 2.56}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.1514, 'eval_samples_per_second': 240.882, 'eval_steps_per_second': 10.117, 'epoch': 2.56}
+{'loss': 3.1875, 'grad_norm': 2.2533204555511475, 'learning_rate': 8.545869813475448e-07, 'epoch': 2.56}
+{'loss': 3.181, 'grad_norm': 1.9643206596374512, 'learning_rate': 8.526836695850781e-07, 'epoch': 2.56}
+{'loss': 3.2995, 'grad_norm': 2.151923894882202, 'learning_rate': 8.507803578226115e-07, 'epoch': 2.56}
+{'loss': 3.2233, 'grad_norm': 1.9186391830444336, 'learning_rate': 8.488770460601447e-07, 'epoch': 2.56}
+{'loss': 3.2148, 'grad_norm': 2.1466121673583984, 'learning_rate': 8.46973734297678e-07, 'epoch': 2.56}
+{'loss': 3.2347, 'grad_norm': 1.6831741333007812, 'learning_rate': 8.450704225352114e-07, 'epoch': 2.56}
+{'loss': 3.2324, 'grad_norm': 1.9326260089874268, 'learning_rate': 8.431671107727446e-07, 'epoch': 2.56}
+{'loss': 3.1995, 'grad_norm': 2.042142152786255, 'learning_rate': 8.41263799010278e-07, 'epoch': 2.57}
+{'loss': 3.2689, 'grad_norm': 1.7720799446105957, 'learning_rate': 8.393604872478113e-07, 'epoch': 2.57}
+{'loss': 3.2471, 'grad_norm': 1.9016393423080444, 'learning_rate': 8.374571754853446e-07, 'epoch': 2.57}
+{'eval_loss': 3.697265625, 'eval_runtime': 4.1497, 'eval_samples_per_second': 240.982, 'eval_steps_per_second': 10.121, 'epoch': 2.57}
+{'loss': 3.2526, 'grad_norm': 1.8667525053024292, 'learning_rate': 8.355538637228778e-07, 'epoch': 2.57}
+{'loss': 3.291, 'grad_norm': 1.7966747283935547, 'learning_rate': 8.336505519604111e-07, 'epoch': 2.57}
+{'loss': 3.2487, 'grad_norm': 1.8256738185882568, 'learning_rate': 8.317472401979445e-07, 'epoch': 2.57}
+{'loss': 3.2555, 'grad_norm': 2.0305917263031006, 'learning_rate': 8.298439284354778e-07, 'epoch': 2.57}
+{'loss': 3.2972, 'grad_norm': 1.7634083032608032, 'learning_rate': 8.279406166730111e-07, 'epoch': 2.57}
+{'loss': 3.1647, 'grad_norm': 2.1682586669921875, 'learning_rate': 8.260373049105444e-07, 'epoch': 2.57}
+{'loss': 3.2887, 'grad_norm': 2.1266167163848877, 'learning_rate': 8.241339931480777e-07, 'epoch': 2.58}
+{'loss': 3.1478, 'grad_norm': 1.8969800472259521, 'learning_rate': 8.22230681385611e-07, 'epoch': 2.58}
+{'loss': 3.2559, 'grad_norm': 1.7685188055038452, 'learning_rate': 8.203273696231444e-07, 'epoch': 2.58}
+{'loss': 3.2292, 'grad_norm': 1.7875020503997803, 'learning_rate': 8.184240578606777e-07, 'epoch': 2.58}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.149, 'eval_samples_per_second': 241.022, 'eval_steps_per_second': 10.123, 'epoch': 2.58}
+{'loss': 3.2246, 'grad_norm': 2.0794119834899902, 'learning_rate': 8.165207460982109e-07, 'epoch': 2.58}
+{'loss': 3.2422, 'grad_norm': 1.915354609489441, 'learning_rate': 8.146174343357442e-07, 'epoch': 2.58}
+{'loss': 3.3268, 'grad_norm': 2.174335241317749, 'learning_rate': 8.127141225732775e-07, 'epoch': 2.58}
+{'loss': 3.1787, 'grad_norm': 2.0997674465179443, 'learning_rate': 8.108108108108109e-07, 'epoch': 2.58}
+{'loss': 3.2718, 'grad_norm': 2.147221565246582, 'learning_rate': 8.089074990483442e-07, 'epoch': 2.58}
+{'loss': 3.2266, 'grad_norm': 1.7044144868850708, 'learning_rate': 8.070041872858774e-07, 'epoch': 2.58}
+{'loss': 3.2067, 'grad_norm': 1.9946283102035522, 'learning_rate': 8.051008755234108e-07, 'epoch': 2.59}
+{'loss': 3.2334, 'grad_norm': 1.700979471206665, 'learning_rate': 8.031975637609441e-07, 'epoch': 2.59}
+{'loss': 3.1051, 'grad_norm': 2.017092704772949, 'learning_rate': 8.012942519984774e-07, 'epoch': 2.59}
+{'loss': 3.2324, 'grad_norm': 2.307651996612549, 'learning_rate': 7.993909402360108e-07, 'epoch': 2.59}
+{'eval_loss': 3.693359375, 'eval_runtime': 4.1474, 'eval_samples_per_second': 241.115, 'eval_steps_per_second': 10.127, 'epoch': 2.59}
+{'loss': 3.2471, 'grad_norm': 1.7182977199554443, 'learning_rate': 7.97487628473544e-07, 'epoch': 2.59}
+{'loss': 3.1989, 'grad_norm': 1.9669651985168457, 'learning_rate': 7.955843167110773e-07, 'epoch': 2.59}
+{'loss': 3.2728, 'grad_norm': 1.996483325958252, 'learning_rate': 7.936810049486106e-07, 'epoch': 2.59}
+{'loss': 3.2409, 'grad_norm': 2.0359952449798584, 'learning_rate': 7.91777693186144e-07, 'epoch': 2.59}
+{'loss': 3.2376, 'grad_norm': 1.9241645336151123, 'learning_rate': 7.898743814236773e-07, 'epoch': 2.59}
+{'loss': 3.2288, 'grad_norm': 1.8133856058120728, 'learning_rate': 7.879710696612105e-07, 'epoch': 2.59}
+{'loss': 3.2103, 'grad_norm': 1.8799197673797607, 'learning_rate': 7.860677578987438e-07, 'epoch': 2.6}
+{'loss': 3.2295, 'grad_norm': 1.8711541891098022, 'learning_rate': 7.841644461362772e-07, 'epoch': 2.6}
+{'loss': 3.2682, 'grad_norm': 1.8074437379837036, 'learning_rate': 7.822611343738105e-07, 'epoch': 2.6}
+{'loss': 3.2389, 'grad_norm': 1.9495205879211426, 'learning_rate': 7.803578226113438e-07, 'epoch': 2.6}
+{'eval_loss': 3.6953125, 'eval_runtime': 4.15, 'eval_samples_per_second': 240.964, 'eval_steps_per_second': 10.121, 'epoch': 2.6}
+{'loss': 3.248, 'grad_norm': 1.8007913827896118, 'learning_rate': 7.784545108488771e-07, 'epoch': 2.6}
+{'loss': 3.2327, 'grad_norm': 1.737439513206482, 'learning_rate': 7.765511990864104e-07, 'epoch': 2.6}
+{'loss': 3.1797, 'grad_norm': 1.5775376558303833, 'learning_rate': 7.746478873239437e-07, 'epoch': 2.6}
+{'loss': 3.2425, 'grad_norm': 1.8549981117248535, 'learning_rate': 7.727445755614771e-07, 'epoch': 2.6}
+{'loss': 3.2826, 'grad_norm': 1.9198646545410156, 'learning_rate': 7.708412637990104e-07, 'epoch': 2.6}
+{'loss': 3.2142, 'grad_norm': 2.1968586444854736, 'learning_rate': 7.689379520365436e-07, 'epoch': 2.61}
+{'loss': 3.1797, 'grad_norm': 2.1467463970184326, 'learning_rate': 7.670346402740769e-07, 'epoch': 2.61}
+{'loss': 3.25, 'grad_norm': 1.7358437776565552, 'learning_rate': 7.651313285116103e-07, 'epoch': 2.61}
+{'loss': 3.252, 'grad_norm': 2.1717300415039062, 'learning_rate': 7.632280167491436e-07, 'epoch': 2.61}
+{'loss': 3.2715, 'grad_norm': 1.903914213180542, 'learning_rate': 7.613247049866769e-07, 'epoch': 2.61}
+{'eval_loss': 3.693359375, 'eval_runtime': 4.1472, 'eval_samples_per_second': 241.127, 'eval_steps_per_second': 10.127, 'epoch': 2.61}
+{'loss': 3.2197, 'grad_norm': 1.7516722679138184, 'learning_rate': 7.594213932242102e-07, 'epoch': 2.61}
+{'loss': 3.2272, 'grad_norm': 1.9924066066741943, 'learning_rate': 7.575180814617435e-07, 'epoch': 2.61}
+{'loss': 3.2295, 'grad_norm': 1.9302407503128052, 'learning_rate': 7.556147696992767e-07, 'epoch': 2.61}
+{'loss': 3.2607, 'grad_norm': 1.9351617097854614, 'learning_rate': 7.537114579368102e-07, 'epoch': 2.61}
+{'loss': 3.2214, 'grad_norm': 1.7661454677581787, 'learning_rate': 7.518081461743435e-07, 'epoch': 2.61}
+{'loss': 3.2611, 'grad_norm': 1.7529067993164062, 'learning_rate': 7.499048344118767e-07, 'epoch': 2.62}
+{'loss': 3.2516, 'grad_norm': 2.074796438217163, 'learning_rate': 7.4800152264941e-07, 'epoch': 2.62}
+{'loss': 3.1729, 'grad_norm': 1.9192559719085693, 'learning_rate': 7.460982108869432e-07, 'epoch': 2.62}
+{'loss': 3.1471, 'grad_norm': 1.9158178567886353, 'learning_rate': 7.441948991244767e-07, 'epoch': 2.62}
+{'loss': 3.2933, 'grad_norm': 1.7170220613479614, 'learning_rate': 7.4229158736201e-07, 'epoch': 2.62}
+{'eval_loss': 3.69140625, 'eval_runtime': 4.1507, 'eval_samples_per_second': 240.922, 'eval_steps_per_second': 10.119, 'epoch': 2.62}
+{'loss': 3.2493, 'grad_norm': 1.987987756729126, 'learning_rate': 7.403882755995432e-07, 'epoch': 2.62}
+{'loss': 3.2585, 'grad_norm': 1.8879276514053345, 'learning_rate': 7.384849638370766e-07, 'epoch': 2.62}
+{'loss': 3.1781, 'grad_norm': 1.7487473487854004, 'learning_rate': 7.365816520746098e-07, 'epoch': 2.62}
+{'loss': 3.3083, 'grad_norm': 2.1692750453948975, 'learning_rate': 7.346783403121432e-07, 'epoch': 2.62}
+{'loss': 3.1549, 'grad_norm': 1.9515308141708374, 'learning_rate': 7.327750285496766e-07, 'epoch': 2.62}
+{'loss': 3.2393, 'grad_norm': 1.8709796667099, 'learning_rate': 7.308717167872098e-07, 'epoch': 2.63}
+{'loss': 3.2422, 'grad_norm': 2.0208828449249268, 'learning_rate': 7.289684050247431e-07, 'epoch': 2.63}
+{'loss': 3.2386, 'grad_norm': 2.132573366165161, 'learning_rate': 7.270650932622763e-07, 'epoch': 2.63}
+{'loss': 3.3239, 'grad_norm': 1.873411774635315, 'learning_rate': 7.251617814998098e-07, 'epoch': 2.63}
+{'loss': 3.2298, 'grad_norm': 1.8925038576126099, 'learning_rate': 7.232584697373431e-07, 'epoch': 2.63}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1482, 'eval_samples_per_second': 241.067, 'eval_steps_per_second': 10.125, 'epoch': 2.63}
+{'loss': 3.3154, 'grad_norm': 1.9560495615005493, 'learning_rate': 7.213551579748763e-07, 'epoch': 2.63}
+{'loss': 3.276, 'grad_norm': 1.8637248277664185, 'learning_rate': 7.194518462124096e-07, 'epoch': 2.63}
+{'loss': 3.1885, 'grad_norm': 1.7974876165390015, 'learning_rate': 7.175485344499429e-07, 'epoch': 2.63}
+{'loss': 3.207, 'grad_norm': 1.9323458671569824, 'learning_rate': 7.156452226874763e-07, 'epoch': 2.63}
+{'loss': 3.2148, 'grad_norm': 1.8143378496170044, 'learning_rate': 7.137419109250096e-07, 'epoch': 2.63}
+{'loss': 3.207, 'grad_norm': 1.8765461444854736, 'learning_rate': 7.118385991625429e-07, 'epoch': 2.64}
+{'loss': 3.2096, 'grad_norm': 1.8191871643066406, 'learning_rate': 7.099352874000762e-07, 'epoch': 2.64}
+{'loss': 3.2868, 'grad_norm': 1.7476575374603271, 'learning_rate': 7.080319756376094e-07, 'epoch': 2.64}
+{'loss': 3.2972, 'grad_norm': 2.3075318336486816, 'learning_rate': 7.061286638751429e-07, 'epoch': 2.64}
+{'loss': 3.2093, 'grad_norm': 2.205857276916504, 'learning_rate': 7.042253521126762e-07, 'epoch': 2.64}
+{'eval_loss': 3.69140625, 'eval_runtime': 4.1476, 'eval_samples_per_second': 241.1, 'eval_steps_per_second': 10.126, 'epoch': 2.64}
+{'loss': 3.2246, 'grad_norm': 1.9881250858306885, 'learning_rate': 7.023220403502094e-07, 'epoch': 2.64}
+{'loss': 3.2793, 'grad_norm': 2.0608866214752197, 'learning_rate': 7.004187285877427e-07, 'epoch': 2.64}
+{'loss': 3.3447, 'grad_norm': 1.9343029260635376, 'learning_rate': 6.98515416825276e-07, 'epoch': 2.64}
+{'loss': 3.2393, 'grad_norm': 1.794785976409912, 'learning_rate': 6.966121050628094e-07, 'epoch': 2.64}
+{'loss': 3.1953, 'grad_norm': 1.8088452816009521, 'learning_rate': 6.947087933003427e-07, 'epoch': 2.65}
+{'loss': 3.2572, 'grad_norm': 2.0875959396362305, 'learning_rate': 6.92805481537876e-07, 'epoch': 2.65}
+{'loss': 3.2503, 'grad_norm': 2.096620559692383, 'learning_rate': 6.909021697754093e-07, 'epoch': 2.65}
+{'loss': 3.2669, 'grad_norm': 1.8614383935928345, 'learning_rate': 6.889988580129425e-07, 'epoch': 2.65}
+{'loss': 3.1956, 'grad_norm': 1.8133673667907715, 'learning_rate': 6.870955462504759e-07, 'epoch': 2.65}
+{'loss': 3.2093, 'grad_norm': 1.8187958002090454, 'learning_rate': 6.851922344880093e-07, 'epoch': 2.65}
+{'eval_loss': 3.69140625, 'eval_runtime': 4.1479, 'eval_samples_per_second': 241.088, 'eval_steps_per_second': 10.126, 'epoch': 2.65}
+{'loss': 3.291, 'grad_norm': 1.9746733903884888, 'learning_rate': 6.832889227255425e-07, 'epoch': 2.65}
+{'loss': 3.2266, 'grad_norm': 1.7746673822402954, 'learning_rate': 6.813856109630758e-07, 'epoch': 2.65}
+{'loss': 3.2324, 'grad_norm': 1.8551901578903198, 'learning_rate': 6.79482299200609e-07, 'epoch': 2.65}
+{'loss': 3.1943, 'grad_norm': 1.908018708229065, 'learning_rate': 6.775789874381425e-07, 'epoch': 2.65}
+{'loss': 3.2428, 'grad_norm': 1.8565739393234253, 'learning_rate': 6.756756756756758e-07, 'epoch': 2.66}
+{'loss': 3.2731, 'grad_norm': 2.006802797317505, 'learning_rate': 6.73772363913209e-07, 'epoch': 2.66}
+{'loss': 3.2656, 'grad_norm': 1.673319935798645, 'learning_rate': 6.718690521507424e-07, 'epoch': 2.66}
+{'loss': 3.2568, 'grad_norm': 1.7533760070800781, 'learning_rate': 6.699657403882756e-07, 'epoch': 2.66}
+{'loss': 3.2292, 'grad_norm': 1.9620479345321655, 'learning_rate': 6.68062428625809e-07, 'epoch': 2.66}
+{'loss': 3.2581, 'grad_norm': 1.8472765684127808, 'learning_rate': 6.661591168633424e-07, 'epoch': 2.66}
+{'eval_loss': 3.69140625, 'eval_runtime': 4.1468, 'eval_samples_per_second': 241.147, 'eval_steps_per_second': 10.128, 'epoch': 2.66}
+{'loss': 3.1742, 'grad_norm': 1.8357670307159424, 'learning_rate': 6.642558051008756e-07, 'epoch': 2.66}
+{'loss': 3.2321, 'grad_norm': 1.9239670038223267, 'learning_rate': 6.623524933384089e-07, 'epoch': 2.66}
+{'loss': 3.2301, 'grad_norm': 1.9141654968261719, 'learning_rate': 6.604491815759421e-07, 'epoch': 2.66}
+{'loss': 3.1953, 'grad_norm': 1.8406071662902832, 'learning_rate': 6.585458698134756e-07, 'epoch': 2.66}
+{'loss': 3.2243, 'grad_norm': 1.8454006910324097, 'learning_rate': 6.566425580510089e-07, 'epoch': 2.67}
+{'loss': 3.2191, 'grad_norm': 1.7912293672561646, 'learning_rate': 6.547392462885421e-07, 'epoch': 2.67}
+{'loss': 3.2438, 'grad_norm': 1.8054887056350708, 'learning_rate': 6.528359345260754e-07, 'epoch': 2.67}
+{'loss': 3.2227, 'grad_norm': 1.7313836812973022, 'learning_rate': 6.509326227636087e-07, 'epoch': 2.67}
+{'loss': 3.2539, 'grad_norm': 1.8333324193954468, 'learning_rate': 6.490293110011421e-07, 'epoch': 2.67}
+{'loss': 3.2393, 'grad_norm': 1.908826470375061, 'learning_rate': 6.471259992386753e-07, 'epoch': 2.67}
+{'eval_loss': 3.693359375, 'eval_runtime': 4.1523, 'eval_samples_per_second': 240.828, 'eval_steps_per_second': 10.115, 'epoch': 2.67}
+{'loss': 3.2295, 'grad_norm': 1.7709449529647827, 'learning_rate': 6.452226874762087e-07, 'epoch': 2.67}
+{'loss': 3.3216, 'grad_norm': 1.9766590595245361, 'learning_rate': 6.43319375713742e-07, 'epoch': 2.67}
+{'loss': 3.2314, 'grad_norm': 1.6890623569488525, 'learning_rate': 6.414160639512752e-07, 'epoch': 2.67}
+{'loss': 3.2803, 'grad_norm': 1.7347763776779175, 'learning_rate': 6.395127521888085e-07, 'epoch': 2.67}
+{'loss': 3.2002, 'grad_norm': 1.8356870412826538, 'learning_rate': 6.37609440426342e-07, 'epoch': 2.68}
+{'loss': 3.2738, 'grad_norm': 1.787264108657837, 'learning_rate': 6.357061286638752e-07, 'epoch': 2.68}
+{'loss': 3.3268, 'grad_norm': 1.9801133871078491, 'learning_rate': 6.338028169014085e-07, 'epoch': 2.68}
+{'loss': 3.2962, 'grad_norm': 1.9593006372451782, 'learning_rate': 6.318995051389418e-07, 'epoch': 2.68}
+{'loss': 3.2633, 'grad_norm': 1.9188249111175537, 'learning_rate': 6.299961933764751e-07, 'epoch': 2.68}
+{'loss': 3.2474, 'grad_norm': 1.79508638381958, 'learning_rate': 6.280928816140084e-07, 'epoch': 2.68}
+{'eval_loss': 3.69140625, 'eval_runtime': 4.1476, 'eval_samples_per_second': 241.102, 'eval_steps_per_second': 10.126, 'epoch': 2.68}
+{'loss': 3.1823, 'grad_norm': 1.7968522310256958, 'learning_rate': 6.261895698515417e-07, 'epoch': 2.68}
+{'loss': 3.3428, 'grad_norm': 1.8350248336791992, 'learning_rate': 6.242862580890751e-07, 'epoch': 2.68}
+{'loss': 3.2679, 'grad_norm': 1.589340090751648, 'learning_rate': 6.223829463266084e-07, 'epoch': 2.68}
+{'loss': 3.2497, 'grad_norm': 1.7512403726577759, 'learning_rate': 6.204796345641417e-07, 'epoch': 2.69}
+{'loss': 3.2611, 'grad_norm': 1.6819504499435425, 'learning_rate': 6.185763228016749e-07, 'epoch': 2.69}
+{'loss': 3.3216, 'grad_norm': 2.1103711128234863, 'learning_rate': 6.166730110392083e-07, 'epoch': 2.69}
+{'loss': 3.196, 'grad_norm': 2.151606798171997, 'learning_rate': 6.147696992767416e-07, 'epoch': 2.69}
+{'loss': 3.2507, 'grad_norm': 1.831040382385254, 'learning_rate': 6.128663875142749e-07, 'epoch': 2.69}
+{'loss': 3.4134, 'grad_norm': 2.6848630905151367, 'learning_rate': 6.109630757518082e-07, 'epoch': 2.69}
+{'loss': 3.2275, 'grad_norm': 1.7447736263275146, 'learning_rate': 6.090597639893414e-07, 'epoch': 2.69}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1477, 'eval_samples_per_second': 241.098, 'eval_steps_per_second': 10.126, 'epoch': 2.69}
+{'loss': 3.2415, 'grad_norm': 1.8919445276260376, 'learning_rate': 6.071564522268748e-07, 'epoch': 2.69}
+{'loss': 3.2363, 'grad_norm': 1.692474126815796, 'learning_rate': 6.052531404644082e-07, 'epoch': 2.69}
+{'loss': 3.1976, 'grad_norm': 1.8676213026046753, 'learning_rate': 6.033498287019414e-07, 'epoch': 2.69}
+{'loss': 3.2376, 'grad_norm': 1.8269445896148682, 'learning_rate': 6.014465169394748e-07, 'epoch': 2.7}
+{'loss': 3.2103, 'grad_norm': 1.7242408990859985, 'learning_rate': 5.99543205177008e-07, 'epoch': 2.7}
+{'loss': 3.278, 'grad_norm': 1.6663862466812134, 'learning_rate': 5.976398934145414e-07, 'epoch': 2.7}
+{'loss': 3.2503, 'grad_norm': 1.8452614545822144, 'learning_rate': 5.957365816520747e-07, 'epoch': 2.7}
+{'loss': 3.2487, 'grad_norm': 1.8495458364486694, 'learning_rate': 5.938332698896079e-07, 'epoch': 2.7}
+{'loss': 3.2858, 'grad_norm': 2.1308491230010986, 'learning_rate': 5.919299581271413e-07, 'epoch': 2.7}
+{'loss': 3.2227, 'grad_norm': 2.0934207439422607, 'learning_rate': 5.900266463646745e-07, 'epoch': 2.7}
+{'eval_loss': 3.69140625, 'eval_runtime': 4.1487, 'eval_samples_per_second': 241.041, 'eval_steps_per_second': 10.124, 'epoch': 2.7}
+{'loss': 3.2507, 'grad_norm': 1.7242960929870605, 'learning_rate': 5.881233346022079e-07, 'epoch': 2.7}
+{'loss': 3.1712, 'grad_norm': 1.8245930671691895, 'learning_rate': 5.862200228397411e-07, 'epoch': 2.7}
+{'loss': 3.2314, 'grad_norm': 2.092590093612671, 'learning_rate': 5.843167110772745e-07, 'epoch': 2.7}
+{'loss': 3.3151, 'grad_norm': 2.4296445846557617, 'learning_rate': 5.824133993148079e-07, 'epoch': 2.71}
+{'loss': 3.2516, 'grad_norm': 1.764333724975586, 'learning_rate': 5.805100875523411e-07, 'epoch': 2.71}
+{'loss': 3.334, 'grad_norm': 2.012582302093506, 'learning_rate': 5.786067757898745e-07, 'epoch': 2.71}
+{'loss': 3.3018, 'grad_norm': 1.8188565969467163, 'learning_rate': 5.767034640274078e-07, 'epoch': 2.71}
+{'loss': 3.124, 'grad_norm': 1.7954131364822388, 'learning_rate': 5.74800152264941e-07, 'epoch': 2.71}
+{'loss': 3.2285, 'grad_norm': 2.0693798065185547, 'learning_rate': 5.728968405024744e-07, 'epoch': 2.71}
+{'loss': 3.2249, 'grad_norm': 1.9234501123428345, 'learning_rate': 5.709935287400076e-07, 'epoch': 2.71}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.148, 'eval_samples_per_second': 241.08, 'eval_steps_per_second': 10.125, 'epoch': 2.71}
+{'loss': 3.2142, 'grad_norm': 1.84970223903656, 'learning_rate': 5.69090216977541e-07, 'epoch': 2.71}
+{'loss': 3.2161, 'grad_norm': 2.0287930965423584, 'learning_rate': 5.671869052150742e-07, 'epoch': 2.71}
+{'loss': 3.238, 'grad_norm': 1.829677700996399, 'learning_rate': 5.652835934526075e-07, 'epoch': 2.71}
+{'loss': 3.2314, 'grad_norm': 1.8128634691238403, 'learning_rate': 5.633802816901409e-07, 'epoch': 2.72}
+{'loss': 3.1348, 'grad_norm': 1.9230704307556152, 'learning_rate': 5.614769699276742e-07, 'epoch': 2.72}
+{'loss': 3.3053, 'grad_norm': 1.8033554553985596, 'learning_rate': 5.595736581652075e-07, 'epoch': 2.72}
+{'loss': 3.1562, 'grad_norm': 1.9083954095840454, 'learning_rate': 5.576703464027408e-07, 'epoch': 2.72}
+{'loss': 3.2786, 'grad_norm': 2.089243173599243, 'learning_rate': 5.557670346402741e-07, 'epoch': 2.72}
+{'loss': 3.3001, 'grad_norm': 1.7869232892990112, 'learning_rate': 5.538637228778075e-07, 'epoch': 2.72}
+{'loss': 3.2956, 'grad_norm': 1.7516065835952759, 'learning_rate': 5.519604111153407e-07, 'epoch': 2.72}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1488, 'eval_samples_per_second': 241.034, 'eval_steps_per_second': 10.123, 'epoch': 2.72}
+{'loss': 3.2174, 'grad_norm': 1.9464311599731445, 'learning_rate': 5.500570993528741e-07, 'epoch': 2.72}
+{'loss': 3.2913, 'grad_norm': 1.6218712329864502, 'learning_rate': 5.481537875904073e-07, 'epoch': 2.72}
+{'loss': 3.2731, 'grad_norm': 1.8672056198120117, 'learning_rate': 5.462504758279406e-07, 'epoch': 2.73}
+{'loss': 3.2692, 'grad_norm': 1.9630885124206543, 'learning_rate': 5.44347164065474e-07, 'epoch': 2.73}
+{'loss': 3.2555, 'grad_norm': 1.935689926147461, 'learning_rate': 5.424438523030072e-07, 'epoch': 2.73}
+{'loss': 3.2435, 'grad_norm': 1.8816380500793457, 'learning_rate': 5.405405405405406e-07, 'epoch': 2.73}
+{'loss': 3.1953, 'grad_norm': 2.1075527667999268, 'learning_rate': 5.386372287780739e-07, 'epoch': 2.73}
+{'loss': 3.2979, 'grad_norm': 2.164139747619629, 'learning_rate': 5.367339170156072e-07, 'epoch': 2.73}
+{'loss': 3.1839, 'grad_norm': 1.882469654083252, 'learning_rate': 5.348306052531406e-07, 'epoch': 2.73}
+{'loss': 3.1699, 'grad_norm': 1.7435294389724731, 'learning_rate': 5.329272934906738e-07, 'epoch': 2.73}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1467, 'eval_samples_per_second': 241.158, 'eval_steps_per_second': 10.129, 'epoch': 2.73}
+{'loss': 3.21, 'grad_norm': 1.7824536561965942, 'learning_rate': 5.310239817282072e-07, 'epoch': 2.73}
+{'loss': 3.2367, 'grad_norm': 1.8691165447235107, 'learning_rate': 5.291206699657404e-07, 'epoch': 2.73}
+{'loss': 3.2197, 'grad_norm': 1.8533483743667603, 'learning_rate': 5.272173582032737e-07, 'epoch': 2.74}
+{'loss': 3.2109, 'grad_norm': 1.6336108446121216, 'learning_rate': 5.253140464408071e-07, 'epoch': 2.74}
+{'loss': 3.2409, 'grad_norm': 1.9530023336410522, 'learning_rate': 5.234107346783403e-07, 'epoch': 2.74}
+{'loss': 3.2285, 'grad_norm': 1.6268583536148071, 'learning_rate': 5.215074229158737e-07, 'epoch': 2.74}
+{'loss': 3.1709, 'grad_norm': 1.6171904802322388, 'learning_rate': 5.196041111534069e-07, 'epoch': 2.74}
+{'loss': 3.2295, 'grad_norm': 1.7873404026031494, 'learning_rate': 5.177007993909403e-07, 'epoch': 2.74}
+{'loss': 3.2487, 'grad_norm': 1.7250962257385254, 'learning_rate': 5.157974876284736e-07, 'epoch': 2.74}
+{'loss': 3.2533, 'grad_norm': 1.7851977348327637, 'learning_rate': 5.138941758660069e-07, 'epoch': 2.74}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1502, 'eval_samples_per_second': 240.954, 'eval_steps_per_second': 10.12, 'epoch': 2.74}
+{'loss': 3.2646, 'grad_norm': 2.1731643676757812, 'learning_rate': 5.119908641035403e-07, 'epoch': 2.74}
+{'loss': 3.3105, 'grad_norm': 1.869699239730835, 'learning_rate': 5.100875523410735e-07, 'epoch': 2.74}
+{'loss': 3.2233, 'grad_norm': 1.7694045305252075, 'learning_rate': 5.081842405786068e-07, 'epoch': 2.75}
+{'loss': 3.2939, 'grad_norm': 2.127319574356079, 'learning_rate': 5.062809288161402e-07, 'epoch': 2.75}
+{'loss': 3.2178, 'grad_norm': 1.9791312217712402, 'learning_rate': 5.043776170536734e-07, 'epoch': 2.75}
+{'loss': 3.2773, 'grad_norm': 1.7529979944229126, 'learning_rate': 5.024743052912067e-07, 'epoch': 2.75}
+{'loss': 3.2897, 'grad_norm': 2.139554262161255, 'learning_rate': 5.0057099352874e-07, 'epoch': 2.75}
+{'loss': 3.3021, 'grad_norm': 1.9612163305282593, 'learning_rate': 4.986676817662733e-07, 'epoch': 2.75}
+{'loss': 3.1673, 'grad_norm': 2.1134183406829834, 'learning_rate': 4.967643700038067e-07, 'epoch': 2.75}
+{'loss': 3.2266, 'grad_norm': 1.847945213317871, 'learning_rate': 4.9486105824134e-07, 'epoch': 2.75}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1473, 'eval_samples_per_second': 241.121, 'eval_steps_per_second': 10.127, 'epoch': 2.75}
+{'loss': 3.2539, 'grad_norm': 1.6295162439346313, 'learning_rate': 4.929577464788733e-07, 'epoch': 2.75}
+{'loss': 3.2376, 'grad_norm': 2.1981379985809326, 'learning_rate': 4.910544347164066e-07, 'epoch': 2.76}
+{'loss': 3.236, 'grad_norm': 1.7251954078674316, 'learning_rate': 4.891511229539399e-07, 'epoch': 2.76}
+{'loss': 3.2663, 'grad_norm': 1.9248524904251099, 'learning_rate': 4.872478111914733e-07, 'epoch': 2.76}
+{'loss': 3.2279, 'grad_norm': 2.0132925510406494, 'learning_rate': 4.853444994290065e-07, 'epoch': 2.76}
+{'loss': 3.222, 'grad_norm': 1.8602360486984253, 'learning_rate': 4.834411876665398e-07, 'epoch': 2.76}
+{'loss': 3.2822, 'grad_norm': 1.9742047786712646, 'learning_rate': 4.815378759040731e-07, 'epoch': 2.76}
+{'loss': 3.248, 'grad_norm': 1.6772359609603882, 'learning_rate': 4.796345641416064e-07, 'epoch': 2.76}
+{'loss': 3.2881, 'grad_norm': 1.9318032264709473, 'learning_rate': 4.777312523791397e-07, 'epoch': 2.76}
+{'loss': 3.1901, 'grad_norm': 1.7260723114013672, 'learning_rate': 4.7582794061667306e-07, 'epoch': 2.76}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1478, 'eval_samples_per_second': 241.092, 'eval_steps_per_second': 10.126, 'epoch': 2.76}
+{'loss': 3.2686, 'grad_norm': 1.6373412609100342, 'learning_rate': 4.739246288542063e-07, 'epoch': 2.76}
+{'loss': 3.2373, 'grad_norm': 2.2253224849700928, 'learning_rate': 4.720213170917397e-07, 'epoch': 2.77}
+{'loss': 3.2559, 'grad_norm': 1.7410086393356323, 'learning_rate': 4.7011800532927293e-07, 'epoch': 2.77}
+{'loss': 3.2126, 'grad_norm': 2.1155717372894287, 'learning_rate': 4.682146935668063e-07, 'epoch': 2.77}
+{'loss': 3.2731, 'grad_norm': 1.898815393447876, 'learning_rate': 4.663113818043396e-07, 'epoch': 2.77}
+{'loss': 3.2178, 'grad_norm': 1.9155198335647583, 'learning_rate': 4.6440807004187286e-07, 'epoch': 2.77}
+{'loss': 3.3294, 'grad_norm': 1.6985409259796143, 'learning_rate': 4.625047582794062e-07, 'epoch': 2.77}
+{'loss': 3.1725, 'grad_norm': 1.839985728263855, 'learning_rate': 4.606014465169395e-07, 'epoch': 2.77}
+{'loss': 3.2585, 'grad_norm': 1.9569993019104004, 'learning_rate': 4.5869813475447284e-07, 'epoch': 2.77}
+{'loss': 3.2419, 'grad_norm': 1.9929373264312744, 'learning_rate': 4.5679482299200615e-07, 'epoch': 2.77}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1486, 'eval_samples_per_second': 241.044, 'eval_steps_per_second': 10.124, 'epoch': 2.77}
+{'loss': 3.0833, 'grad_norm': 2.023832082748413, 'learning_rate': 4.548915112295394e-07, 'epoch': 2.77}
+{'loss': 3.224, 'grad_norm': 1.7974563837051392, 'learning_rate': 4.529881994670728e-07, 'epoch': 2.78}
+{'loss': 3.2188, 'grad_norm': 1.786688208580017, 'learning_rate': 4.5108488770460603e-07, 'epoch': 2.78}
+{'loss': 3.2956, 'grad_norm': 1.920600175857544, 'learning_rate': 4.491815759421394e-07, 'epoch': 2.78}
+{'loss': 3.2588, 'grad_norm': 1.8968727588653564, 'learning_rate': 4.4727826417967265e-07, 'epoch': 2.78}
+{'loss': 3.1751, 'grad_norm': 1.8806031942367554, 'learning_rate': 4.4537495241720596e-07, 'epoch': 2.78}
+{'loss': 3.2396, 'grad_norm': 1.9281446933746338, 'learning_rate': 4.434716406547393e-07, 'epoch': 2.78}
+{'loss': 3.2441, 'grad_norm': 1.8276115655899048, 'learning_rate': 4.415683288922726e-07, 'epoch': 2.78}
+{'loss': 3.2461, 'grad_norm': 1.969797134399414, 'learning_rate': 4.3966501712980594e-07, 'epoch': 2.78}
+{'loss': 3.2884, 'grad_norm': 1.9697457551956177, 'learning_rate': 4.377617053673392e-07, 'epoch': 2.78}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1476, 'eval_samples_per_second': 241.104, 'eval_steps_per_second': 10.126, 'epoch': 2.78}
+{'loss': 3.237, 'grad_norm': 2.0876247882843018, 'learning_rate': 4.358583936048725e-07, 'epoch': 2.78}
+{'loss': 3.3014, 'grad_norm': 2.038119316101074, 'learning_rate': 4.339550818424058e-07, 'epoch': 2.79}
+{'loss': 3.2669, 'grad_norm': 1.7949966192245483, 'learning_rate': 4.3205177007993913e-07, 'epoch': 2.79}
+{'loss': 3.3206, 'grad_norm': 1.6688038110733032, 'learning_rate': 4.301484583174725e-07, 'epoch': 2.79}
+{'loss': 3.2715, 'grad_norm': 2.128340721130371, 'learning_rate': 4.2824514655500575e-07, 'epoch': 2.79}
+{'loss': 3.1449, 'grad_norm': 1.793092966079712, 'learning_rate': 4.2634183479253906e-07, 'epoch': 2.79}
+{'loss': 3.2308, 'grad_norm': 1.7518548965454102, 'learning_rate': 4.2443852303007237e-07, 'epoch': 2.79}
+{'loss': 3.3545, 'grad_norm': 1.8596007823944092, 'learning_rate': 4.225352112676057e-07, 'epoch': 2.79}
+{'loss': 3.2061, 'grad_norm': 2.0452451705932617, 'learning_rate': 4.20631899505139e-07, 'epoch': 2.79}
+{'loss': 3.2106, 'grad_norm': 1.8622503280639648, 'learning_rate': 4.187285877426723e-07, 'epoch': 2.79}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1491, 'eval_samples_per_second': 241.016, 'eval_steps_per_second': 10.123, 'epoch': 2.79}
+{'loss': 3.2064, 'grad_norm': 1.9890029430389404, 'learning_rate': 4.1682527598020555e-07, 'epoch': 2.8}
+{'loss': 3.2715, 'grad_norm': 1.706777811050415, 'learning_rate': 4.149219642177389e-07, 'epoch': 2.8}
+{'loss': 3.2816, 'grad_norm': 1.9259229898452759, 'learning_rate': 4.130186524552722e-07, 'epoch': 2.8}
+{'loss': 3.1683, 'grad_norm': 2.0570173263549805, 'learning_rate': 4.111153406928055e-07, 'epoch': 2.8}
+{'loss': 3.2067, 'grad_norm': 1.8095192909240723, 'learning_rate': 4.0921202893033884e-07, 'epoch': 2.8}
+{'loss': 3.2432, 'grad_norm': 1.7129008769989014, 'learning_rate': 4.073087171678721e-07, 'epoch': 2.8}
+{'loss': 3.2116, 'grad_norm': 2.1040916442871094, 'learning_rate': 4.0540540540540546e-07, 'epoch': 2.8}
+{'loss': 3.2471, 'grad_norm': 1.657727599143982, 'learning_rate': 4.035020936429387e-07, 'epoch': 2.8}
+{'loss': 3.209, 'grad_norm': 1.769106388092041, 'learning_rate': 4.0159878188047203e-07, 'epoch': 2.8}
+{'loss': 3.2158, 'grad_norm': 1.9115233421325684, 'learning_rate': 3.996954701180054e-07, 'epoch': 2.8}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1479, 'eval_samples_per_second': 241.087, 'eval_steps_per_second': 10.126, 'epoch': 2.8}
+{'loss': 3.2119, 'grad_norm': 1.8049488067626953, 'learning_rate': 3.9779215835553865e-07, 'epoch': 2.81}
+{'loss': 3.1807, 'grad_norm': 2.1592559814453125, 'learning_rate': 3.95888846593072e-07, 'epoch': 2.81}
+{'loss': 3.3604, 'grad_norm': 2.084188461303711, 'learning_rate': 3.9398553483060527e-07, 'epoch': 2.81}
+{'loss': 3.1758, 'grad_norm': 1.866255760192871, 'learning_rate': 3.920822230681386e-07, 'epoch': 2.81}
+{'loss': 3.2373, 'grad_norm': 2.0415313243865967, 'learning_rate': 3.901789113056719e-07, 'epoch': 2.81}
+{'loss': 3.2637, 'grad_norm': 1.6910548210144043, 'learning_rate': 3.882755995432052e-07, 'epoch': 2.81}
+{'loss': 3.2165, 'grad_norm': 1.7196791172027588, 'learning_rate': 3.8637228778073856e-07, 'epoch': 2.81}
+{'loss': 3.2614, 'grad_norm': 1.9517314434051514, 'learning_rate': 3.844689760182718e-07, 'epoch': 2.81}
+{'loss': 3.2617, 'grad_norm': 1.6258223056793213, 'learning_rate': 3.825656642558051e-07, 'epoch': 2.81}
+{'loss': 3.2067, 'grad_norm': 1.9935290813446045, 'learning_rate': 3.8066235249333844e-07, 'epoch': 2.81}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1475, 'eval_samples_per_second': 241.109, 'eval_steps_per_second': 10.127, 'epoch': 2.81}
+{'loss': 3.249, 'grad_norm': 1.8157122135162354, 'learning_rate': 3.7875904073087175e-07, 'epoch': 2.82}
+{'loss': 3.2952, 'grad_norm': 1.8831367492675781, 'learning_rate': 3.768557289684051e-07, 'epoch': 2.82}
+{'loss': 3.2539, 'grad_norm': 1.7305850982666016, 'learning_rate': 3.7495241720593836e-07, 'epoch': 2.82}
+{'loss': 3.2129, 'grad_norm': 1.731546401977539, 'learning_rate': 3.730491054434716e-07, 'epoch': 2.82}
+{'loss': 3.193, 'grad_norm': 1.9594231843948364, 'learning_rate': 3.71145793681005e-07, 'epoch': 2.82}
+{'loss': 3.2676, 'grad_norm': 1.9836180210113525, 'learning_rate': 3.692424819185383e-07, 'epoch': 2.82}
+{'loss': 3.224, 'grad_norm': 1.9845051765441895, 'learning_rate': 3.673391701560716e-07, 'epoch': 2.82}
+{'loss': 3.1979, 'grad_norm': 1.9603784084320068, 'learning_rate': 3.654358583936049e-07, 'epoch': 2.82}
+{'loss': 3.1504, 'grad_norm': 1.9118001461029053, 'learning_rate': 3.6353254663113817e-07, 'epoch': 2.82}
+{'loss': 3.2493, 'grad_norm': 1.8563278913497925, 'learning_rate': 3.6162923486867153e-07, 'epoch': 2.82}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1481, 'eval_samples_per_second': 241.072, 'eval_steps_per_second': 10.125, 'epoch': 2.82}
+{'loss': 3.293, 'grad_norm': 1.7476133108139038, 'learning_rate': 3.597259231062048e-07, 'epoch': 2.83}
+{'loss': 3.2324, 'grad_norm': 1.767791986465454, 'learning_rate': 3.5782261134373815e-07, 'epoch': 2.83}
+{'loss': 3.221, 'grad_norm': 1.7543869018554688, 'learning_rate': 3.5591929958127146e-07, 'epoch': 2.83}
+{'loss': 3.3291, 'grad_norm': 2.1758556365966797, 'learning_rate': 3.540159878188047e-07, 'epoch': 2.83}
+{'loss': 3.1712, 'grad_norm': 1.9994255304336548, 'learning_rate': 3.521126760563381e-07, 'epoch': 2.83}
+{'loss': 3.2806, 'grad_norm': 1.9307197332382202, 'learning_rate': 3.5020936429387134e-07, 'epoch': 2.83}
+{'loss': 3.3652, 'grad_norm': 2.132192611694336, 'learning_rate': 3.483060525314047e-07, 'epoch': 2.83}
+{'loss': 3.2197, 'grad_norm': 1.9587476253509521, 'learning_rate': 3.46402740768938e-07, 'epoch': 2.83}
+{'loss': 3.1908, 'grad_norm': 1.8534183502197266, 'learning_rate': 3.4449942900647127e-07, 'epoch': 2.83}
+{'loss': 3.2204, 'grad_norm': 1.7620494365692139, 'learning_rate': 3.4259611724400463e-07, 'epoch': 2.84}
+{'eval_loss': 3.685546875, 'eval_runtime': 4.1479, 'eval_samples_per_second': 241.087, 'eval_steps_per_second': 10.126, 'epoch': 2.84}
+{'loss': 3.1504, 'grad_norm': 2.1184959411621094, 'learning_rate': 3.406928054815379e-07, 'epoch': 2.84}
+{'loss': 3.124, 'grad_norm': 1.9487779140472412, 'learning_rate': 3.3878949371907125e-07, 'epoch': 2.84}
+{'loss': 3.2295, 'grad_norm': 1.8263627290725708, 'learning_rate': 3.368861819566045e-07, 'epoch': 2.84}
+{'loss': 3.2435, 'grad_norm': 1.7490659952163696, 'learning_rate': 3.349828701941378e-07, 'epoch': 2.84}
+{'loss': 3.2731, 'grad_norm': 2.302891969680786, 'learning_rate': 3.330795584316712e-07, 'epoch': 2.84}
+{'loss': 3.2002, 'grad_norm': 2.0083680152893066, 'learning_rate': 3.3117624666920443e-07, 'epoch': 2.84}
+{'loss': 3.2757, 'grad_norm': 2.033782482147217, 'learning_rate': 3.292729349067378e-07, 'epoch': 2.84}
+{'loss': 3.2038, 'grad_norm': 1.6786588430404663, 'learning_rate': 3.2736962314427105e-07, 'epoch': 2.84}
+{'loss': 3.2663, 'grad_norm': 1.8771486282348633, 'learning_rate': 3.2546631138180436e-07, 'epoch': 2.84}
+{'loss': 3.2201, 'grad_norm': 1.8050013780593872, 'learning_rate': 3.2356299961933767e-07, 'epoch': 2.85}
+{'eval_loss': 3.685546875, 'eval_runtime': 4.1514, 'eval_samples_per_second': 240.88, 'eval_steps_per_second': 10.117, 'epoch': 2.85}
+{'loss': 3.2663, 'grad_norm': 1.8587061166763306, 'learning_rate': 3.21659687856871e-07, 'epoch': 2.85}
+{'loss': 3.3226, 'grad_norm': 1.799432635307312, 'learning_rate': 3.1975637609440424e-07, 'epoch': 2.85}
+{'loss': 3.2181, 'grad_norm': 2.049635410308838, 'learning_rate': 3.178530643319376e-07, 'epoch': 2.85}
+{'loss': 3.2555, 'grad_norm': 1.7234233617782593, 'learning_rate': 3.159497525694709e-07, 'epoch': 2.85}
+{'loss': 3.2809, 'grad_norm': 1.7424222230911255, 'learning_rate': 3.140464408070042e-07, 'epoch': 2.85}
+{'loss': 3.2337, 'grad_norm': 1.7372509241104126, 'learning_rate': 3.1214312904453753e-07, 'epoch': 2.85}
+{'loss': 3.1152, 'grad_norm': 2.196540355682373, 'learning_rate': 3.1023981728207084e-07, 'epoch': 2.85}
+{'loss': 3.1953, 'grad_norm': 1.8160730600357056, 'learning_rate': 3.0833650551960415e-07, 'epoch': 2.85}
+{'loss': 3.1855, 'grad_norm': 1.7843323945999146, 'learning_rate': 3.0643319375713746e-07, 'epoch': 2.85}
+{'loss': 3.1914, 'grad_norm': 1.9825273752212524, 'learning_rate': 3.045298819946707e-07, 'epoch': 2.86}
+{'eval_loss': 3.685546875, 'eval_runtime': 4.1471, 'eval_samples_per_second': 241.132, 'eval_steps_per_second': 10.128, 'epoch': 2.86}
+{'loss': 3.2119, 'grad_norm': 1.9724770784378052, 'learning_rate': 3.026265702322041e-07, 'epoch': 2.86}
+{'loss': 3.1966, 'grad_norm': 2.036461591720581, 'learning_rate': 3.007232584697374e-07, 'epoch': 2.86}
+{'loss': 3.3008, 'grad_norm': 1.9621129035949707, 'learning_rate': 2.988199467072707e-07, 'epoch': 2.86}
+{'loss': 3.2181, 'grad_norm': 1.7960516214370728, 'learning_rate': 2.9691663494480396e-07, 'epoch': 2.86}
+{'loss': 3.2044, 'grad_norm': 1.9519604444503784, 'learning_rate': 2.9501332318233727e-07, 'epoch': 2.86}
+{'loss': 3.1644, 'grad_norm': 1.8245704174041748, 'learning_rate': 2.931100114198706e-07, 'epoch': 2.86}
+{'loss': 3.2116, 'grad_norm': 1.9535167217254639, 'learning_rate': 2.9120669965740394e-07, 'epoch': 2.86}
+{'loss': 3.2174, 'grad_norm': 2.1063485145568848, 'learning_rate': 2.8930338789493725e-07, 'epoch': 2.86}
+{'loss': 3.2845, 'grad_norm': 1.9759175777435303, 'learning_rate': 2.874000761324705e-07, 'epoch': 2.86}
+{'loss': 3.3079, 'grad_norm': 1.7497466802597046, 'learning_rate': 2.854967643700038e-07, 'epoch': 2.87}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1484, 'eval_samples_per_second': 241.057, 'eval_steps_per_second': 10.124, 'epoch': 2.87}
+{'loss': 3.2054, 'grad_norm': 2.2304553985595703, 'learning_rate': 2.835934526075371e-07, 'epoch': 2.87}
+{'loss': 3.2161, 'grad_norm': 1.7496360540390015, 'learning_rate': 2.8169014084507043e-07, 'epoch': 2.87}
+{'loss': 3.2923, 'grad_norm': 1.8123525381088257, 'learning_rate': 2.7978682908260374e-07, 'epoch': 2.87}
+{'loss': 3.2458, 'grad_norm': 1.9303979873657227, 'learning_rate': 2.7788351732013705e-07, 'epoch': 2.87}
+{'loss': 3.2214, 'grad_norm': 2.016327381134033, 'learning_rate': 2.7598020555767036e-07, 'epoch': 2.87}
+{'loss': 3.234, 'grad_norm': 1.9494433403015137, 'learning_rate': 2.7407689379520367e-07, 'epoch': 2.87}
+{'loss': 3.1777, 'grad_norm': 1.8445241451263428, 'learning_rate': 2.72173582032737e-07, 'epoch': 2.87}
+{'loss': 3.2038, 'grad_norm': 1.8791882991790771, 'learning_rate': 2.702702702702703e-07, 'epoch': 2.87}
+{'loss': 3.2503, 'grad_norm': 1.8443864583969116, 'learning_rate': 2.683669585078036e-07, 'epoch': 2.88}
+{'loss': 3.1849, 'grad_norm': 1.9266221523284912, 'learning_rate': 2.664636467453369e-07, 'epoch': 2.88}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1474, 'eval_samples_per_second': 241.118, 'eval_steps_per_second': 10.127, 'epoch': 2.88}
+{'loss': 3.2217, 'grad_norm': 1.9623667001724243, 'learning_rate': 2.645603349828702e-07, 'epoch': 2.88}
+{'loss': 3.2477, 'grad_norm': 1.816853642463684, 'learning_rate': 2.6265702322040353e-07, 'epoch': 2.88}
+{'loss': 3.2445, 'grad_norm': 2.004300355911255, 'learning_rate': 2.6075371145793684e-07, 'epoch': 2.88}
+{'loss': 3.2855, 'grad_norm': 2.01595139503479, 'learning_rate': 2.5885039969547015e-07, 'epoch': 2.88}
+{'loss': 3.2562, 'grad_norm': 1.657332420349121, 'learning_rate': 2.5694708793300346e-07, 'epoch': 2.88}
+{'loss': 3.2728, 'grad_norm': 1.8434141874313354, 'learning_rate': 2.5504377617053677e-07, 'epoch': 2.88}
+{'loss': 3.1859, 'grad_norm': 1.8632571697235107, 'learning_rate': 2.531404644080701e-07, 'epoch': 2.88}
+{'loss': 3.2614, 'grad_norm': 1.919558048248291, 'learning_rate': 2.5123715264560333e-07, 'epoch': 2.88}
+{'loss': 3.3011, 'grad_norm': 1.7399510145187378, 'learning_rate': 2.4933384088313664e-07, 'epoch': 2.89}
+{'loss': 3.2454, 'grad_norm': 1.7366527318954468, 'learning_rate': 2.4743052912067e-07, 'epoch': 2.89}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1485, 'eval_samples_per_second': 241.048, 'eval_steps_per_second': 10.124, 'epoch': 2.89}
+{'loss': 3.2497, 'grad_norm': 1.7895543575286865, 'learning_rate': 2.455272173582033e-07, 'epoch': 2.89}
+{'loss': 3.2904, 'grad_norm': 1.8804194927215576, 'learning_rate': 2.436239055957366e-07, 'epoch': 2.89}
+{'loss': 3.2913, 'grad_norm': 1.8046308755874634, 'learning_rate': 2.417205938332699e-07, 'epoch': 2.89}
+{'loss': 3.2331, 'grad_norm': 1.9036130905151367, 'learning_rate': 2.398172820708032e-07, 'epoch': 2.89}
+{'loss': 3.2741, 'grad_norm': 1.7488216161727905, 'learning_rate': 2.3791397030833653e-07, 'epoch': 2.89}
+{'loss': 3.1914, 'grad_norm': 1.8249872922897339, 'learning_rate': 2.3601065854586984e-07, 'epoch': 2.89}
+{'loss': 3.2738, 'grad_norm': 1.6860179901123047, 'learning_rate': 2.3410734678340315e-07, 'epoch': 2.89}
+{'loss': 3.2767, 'grad_norm': 2.409968376159668, 'learning_rate': 2.3220403502093643e-07, 'epoch': 2.89}
+{'loss': 3.1992, 'grad_norm': 1.86105477809906, 'learning_rate': 2.3030072325846974e-07, 'epoch': 2.9}
+{'loss': 3.2096, 'grad_norm': 1.7992528676986694, 'learning_rate': 2.2839741149600308e-07, 'epoch': 2.9}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1477, 'eval_samples_per_second': 241.096, 'eval_steps_per_second': 10.126, 'epoch': 2.9}
+{'loss': 3.1351, 'grad_norm': 1.8925968408584595, 'learning_rate': 2.264940997335364e-07, 'epoch': 2.9}
+{'loss': 3.4297, 'grad_norm': 2.021834135055542, 'learning_rate': 2.245907879710697e-07, 'epoch': 2.9}
+{'loss': 3.1943, 'grad_norm': 1.830525279045105, 'learning_rate': 2.2268747620860298e-07, 'epoch': 2.9}
+{'loss': 3.2122, 'grad_norm': 2.01577091217041, 'learning_rate': 2.207841644461363e-07, 'epoch': 2.9}
+{'loss': 3.2878, 'grad_norm': 1.7566041946411133, 'learning_rate': 2.188808526836696e-07, 'epoch': 2.9}
+{'loss': 3.2054, 'grad_norm': 2.1635334491729736, 'learning_rate': 2.169775409212029e-07, 'epoch': 2.9}
+{'loss': 3.2412, 'grad_norm': 1.8144077062606812, 'learning_rate': 2.1507422915873625e-07, 'epoch': 2.9}
+{'loss': 3.2188, 'grad_norm': 1.8667837381362915, 'learning_rate': 2.1317091739626953e-07, 'epoch': 2.9}
+{'loss': 3.3561, 'grad_norm': 1.9852802753448486, 'learning_rate': 2.1126760563380284e-07, 'epoch': 2.91}
+{'loss': 3.2812, 'grad_norm': 1.9109776020050049, 'learning_rate': 2.0936429387133615e-07, 'epoch': 2.91}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1486, 'eval_samples_per_second': 241.046, 'eval_steps_per_second': 10.124, 'epoch': 2.91}
+{'loss': 3.2568, 'grad_norm': 1.7461320161819458, 'learning_rate': 2.0746098210886946e-07, 'epoch': 2.91}
+{'loss': 3.2116, 'grad_norm': 1.748019814491272, 'learning_rate': 2.0555767034640274e-07, 'epoch': 2.91}
+{'loss': 3.2731, 'grad_norm': 2.030803680419922, 'learning_rate': 2.0365435858393605e-07, 'epoch': 2.91}
+{'loss': 3.3255, 'grad_norm': 1.744133710861206, 'learning_rate': 2.0175104682146936e-07, 'epoch': 2.91}
+{'loss': 3.2725, 'grad_norm': 1.9365036487579346, 'learning_rate': 1.998477350590027e-07, 'epoch': 2.91}
+{'loss': 3.235, 'grad_norm': 2.020172357559204, 'learning_rate': 1.97944423296536e-07, 'epoch': 2.91}
+{'loss': 3.2021, 'grad_norm': 1.9259506464004517, 'learning_rate': 1.960411115340693e-07, 'epoch': 2.91}
+{'loss': 3.2207, 'grad_norm': 1.8622959852218628, 'learning_rate': 1.941377997716026e-07, 'epoch': 2.92}
+{'loss': 3.332, 'grad_norm': 1.6124595403671265, 'learning_rate': 1.922344880091359e-07, 'epoch': 2.92}
+{'loss': 3.2168, 'grad_norm': 1.8485877513885498, 'learning_rate': 1.9033117624666922e-07, 'epoch': 2.92}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1488, 'eval_samples_per_second': 241.031, 'eval_steps_per_second': 10.123, 'epoch': 2.92}
+{'loss': 3.2949, 'grad_norm': 2.0405056476593018, 'learning_rate': 1.8842786448420255e-07, 'epoch': 2.92}
+{'loss': 3.2256, 'grad_norm': 1.8374618291854858, 'learning_rate': 1.865245527217358e-07, 'epoch': 2.92}
+{'loss': 3.3698, 'grad_norm': 1.8515416383743286, 'learning_rate': 1.8462124095926915e-07, 'epoch': 2.92}
+{'loss': 3.1439, 'grad_norm': 2.1967620849609375, 'learning_rate': 1.8271792919680246e-07, 'epoch': 2.92}
+{'loss': 3.2412, 'grad_norm': 1.7823164463043213, 'learning_rate': 1.8081461743433577e-07, 'epoch': 2.92}
+{'loss': 3.2227, 'grad_norm': 2.0645484924316406, 'learning_rate': 1.7891130567186908e-07, 'epoch': 2.92}
+{'loss': 3.1722, 'grad_norm': 1.692352294921875, 'learning_rate': 1.7700799390940236e-07, 'epoch': 2.92}
+{'loss': 3.2406, 'grad_norm': 1.8407976627349854, 'learning_rate': 1.7510468214693567e-07, 'epoch': 2.93}
+{'loss': 3.2682, 'grad_norm': 1.9840415716171265, 'learning_rate': 1.73201370384469e-07, 'epoch': 2.93}
+{'loss': 3.2093, 'grad_norm': 1.8456025123596191, 'learning_rate': 1.7129805862200231e-07, 'epoch': 2.93}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1469, 'eval_samples_per_second': 241.142, 'eval_steps_per_second': 10.128, 'epoch': 2.93}
+{'loss': 3.1227, 'grad_norm': 2.0132734775543213, 'learning_rate': 1.6939474685953562e-07, 'epoch': 2.93}
+{'loss': 3.2262, 'grad_norm': 1.8797227144241333, 'learning_rate': 1.674914350970689e-07, 'epoch': 2.93}
+{'loss': 3.1807, 'grad_norm': 1.8834818601608276, 'learning_rate': 1.6558812333460222e-07, 'epoch': 2.93}
+{'loss': 3.2946, 'grad_norm': 1.7293457984924316, 'learning_rate': 1.6368481157213553e-07, 'epoch': 2.93}
+{'loss': 3.2191, 'grad_norm': 1.834113359451294, 'learning_rate': 1.6178149980966884e-07, 'epoch': 2.93}
+{'loss': 3.3001, 'grad_norm': 1.8579288721084595, 'learning_rate': 1.5987818804720212e-07, 'epoch': 2.93}
+{'loss': 3.3428, 'grad_norm': 2.334892511367798, 'learning_rate': 1.5797487628473546e-07, 'epoch': 2.93}
+{'loss': 3.2581, 'grad_norm': 2.020589590072632, 'learning_rate': 1.5607156452226877e-07, 'epoch': 2.94}
+{'loss': 3.266, 'grad_norm': 1.8166415691375732, 'learning_rate': 1.5416825275980208e-07, 'epoch': 2.94}
+{'loss': 3.2327, 'grad_norm': 1.6515445709228516, 'learning_rate': 1.5226494099733536e-07, 'epoch': 2.94}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1503, 'eval_samples_per_second': 240.947, 'eval_steps_per_second': 10.12, 'epoch': 2.94}
+{'loss': 3.2168, 'grad_norm': 1.7842717170715332, 'learning_rate': 1.503616292348687e-07, 'epoch': 2.94}
+{'loss': 3.1803, 'grad_norm': 1.8419266939163208, 'learning_rate': 1.4845831747240198e-07, 'epoch': 2.94}
+{'loss': 3.1501, 'grad_norm': 1.7911986112594604, 'learning_rate': 1.465550057099353e-07, 'epoch': 2.94}
+{'loss': 3.1947, 'grad_norm': 1.7520092725753784, 'learning_rate': 1.4465169394746862e-07, 'epoch': 2.94}
+{'loss': 3.2646, 'grad_norm': 1.8300895690917969, 'learning_rate': 1.427483821850019e-07, 'epoch': 2.94}
+{'loss': 3.2357, 'grad_norm': 1.8000260591506958, 'learning_rate': 1.4084507042253522e-07, 'epoch': 2.94}
+{'loss': 3.2702, 'grad_norm': 2.0621588230133057, 'learning_rate': 1.3894175866006853e-07, 'epoch': 2.95}
+{'loss': 3.293, 'grad_norm': 1.8787473440170288, 'learning_rate': 1.3703844689760184e-07, 'epoch': 2.95}
+{'loss': 3.1787, 'grad_norm': 2.15059757232666, 'learning_rate': 1.3513513513513515e-07, 'epoch': 2.95}
+{'loss': 3.2741, 'grad_norm': 1.8967068195343018, 'learning_rate': 1.3323182337266846e-07, 'epoch': 2.95}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1499, 'eval_samples_per_second': 240.97, 'eval_steps_per_second': 10.121, 'epoch': 2.95}
+{'loss': 3.2796, 'grad_norm': 1.6709398031234741, 'learning_rate': 1.3132851161020176e-07, 'epoch': 2.95}
+{'loss': 3.1771, 'grad_norm': 1.7963931560516357, 'learning_rate': 1.2942519984773507e-07, 'epoch': 2.95}
+{'loss': 3.2702, 'grad_norm': 2.1867451667785645, 'learning_rate': 1.2752188808526838e-07, 'epoch': 2.95}
+{'loss': 3.1234, 'grad_norm': 2.0949440002441406, 'learning_rate': 1.2561857632280167e-07, 'epoch': 2.95}
+{'loss': 3.25, 'grad_norm': 1.7771437168121338, 'learning_rate': 1.23715264560335e-07, 'epoch': 2.95}
+{'loss': 3.2786, 'grad_norm': 1.7965500354766846, 'learning_rate': 1.218119527978683e-07, 'epoch': 2.95}
+{'loss': 3.2686, 'grad_norm': 1.8682730197906494, 'learning_rate': 1.199086410354016e-07, 'epoch': 2.96}
+{'loss': 3.2113, 'grad_norm': 1.870634913444519, 'learning_rate': 1.1800532927293492e-07, 'epoch': 2.96}
+{'loss': 3.2842, 'grad_norm': 1.8577150106430054, 'learning_rate': 1.1610201751046822e-07, 'epoch': 2.96}
+{'loss': 3.2464, 'grad_norm': 1.872532844543457, 'learning_rate': 1.1419870574800154e-07, 'epoch': 2.96}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1513, 'eval_samples_per_second': 240.89, 'eval_steps_per_second': 10.117, 'epoch': 2.96}
+{'loss': 3.3024, 'grad_norm': 1.8784579038619995, 'learning_rate': 1.1229539398553485e-07, 'epoch': 2.96}
+{'loss': 3.1849, 'grad_norm': 1.6513423919677734, 'learning_rate': 1.1039208222306814e-07, 'epoch': 2.96}
+{'loss': 3.2158, 'grad_norm': 1.8214725255966187, 'learning_rate': 1.0848877046060145e-07, 'epoch': 2.96}
+{'loss': 3.2894, 'grad_norm': 1.7427347898483276, 'learning_rate': 1.0658545869813476e-07, 'epoch': 2.96}
+{'loss': 3.2018, 'grad_norm': 1.7741502523422241, 'learning_rate': 1.0468214693566807e-07, 'epoch': 2.96}
+{'loss': 3.2314, 'grad_norm': 2.0523312091827393, 'learning_rate': 1.0277883517320137e-07, 'epoch': 2.96}
+{'loss': 3.2018, 'grad_norm': 1.663907527923584, 'learning_rate': 1.0087552341073468e-07, 'epoch': 2.97}
+{'loss': 3.2044, 'grad_norm': 1.8925844430923462, 'learning_rate': 9.8972211648268e-08, 'epoch': 2.97}
+{'loss': 3.1761, 'grad_norm': 2.219719409942627, 'learning_rate': 9.70688998858013e-08, 'epoch': 2.97}
+{'loss': 3.2692, 'grad_norm': 1.668154239654541, 'learning_rate': 9.516558812333461e-08, 'epoch': 2.97}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1499, 'eval_samples_per_second': 240.969, 'eval_steps_per_second': 10.121, 'epoch': 2.97}
+{'loss': 3.2161, 'grad_norm': 1.9531500339508057, 'learning_rate': 9.32622763608679e-08, 'epoch': 2.97}
+{'loss': 3.1973, 'grad_norm': 1.7253918647766113, 'learning_rate': 9.135896459840123e-08, 'epoch': 2.97}
+{'loss': 3.2201, 'grad_norm': 1.640718698501587, 'learning_rate': 8.945565283593454e-08, 'epoch': 2.97}
+{'loss': 3.3158, 'grad_norm': 1.9613735675811768, 'learning_rate': 8.755234107346783e-08, 'epoch': 2.97}
+{'loss': 3.2028, 'grad_norm': 1.9699145555496216, 'learning_rate': 8.564902931100116e-08, 'epoch': 2.97}
+{'loss': 3.2692, 'grad_norm': 1.9277026653289795, 'learning_rate': 8.374571754853445e-08, 'epoch': 2.97}
+{'loss': 3.2207, 'grad_norm': 2.1475820541381836, 'learning_rate': 8.184240578606776e-08, 'epoch': 2.98}
+{'loss': 3.2155, 'grad_norm': 1.7792692184448242, 'learning_rate': 7.993909402360106e-08, 'epoch': 2.98}
+{'loss': 3.2956, 'grad_norm': 2.198472261428833, 'learning_rate': 7.803578226113438e-08, 'epoch': 2.98}
+{'loss': 3.2178, 'grad_norm': 1.7191162109375, 'learning_rate': 7.613247049866768e-08, 'epoch': 2.98}
+{'eval_loss': 3.689453125, 'eval_runtime': 4.1506, 'eval_samples_per_second': 240.931, 'eval_steps_per_second': 10.119, 'epoch': 2.98}
+{'loss': 3.2523, 'grad_norm': 1.69403874874115, 'learning_rate': 7.422915873620099e-08, 'epoch': 2.98}
+{'loss': 3.3421, 'grad_norm': 1.7786177396774292, 'learning_rate': 7.232584697373431e-08, 'epoch': 2.98}
+{'loss': 3.2988, 'grad_norm': 1.9612163305282593, 'learning_rate': 7.042253521126761e-08, 'epoch': 2.98}
+{'loss': 3.2282, 'grad_norm': 1.8867980241775513, 'learning_rate': 6.851922344880092e-08, 'epoch': 2.98}
+{'loss': 3.2246, 'grad_norm': 1.8839160203933716, 'learning_rate': 6.661591168633423e-08, 'epoch': 2.98}
+{'loss': 3.1943, 'grad_norm': 1.7321603298187256, 'learning_rate': 6.471259992386754e-08, 'epoch': 2.99}
+{'loss': 3.1995, 'grad_norm': 1.7862422466278076, 'learning_rate': 6.280928816140083e-08, 'epoch': 2.99}
+{'loss': 3.1481, 'grad_norm': 1.7373344898223877, 'learning_rate': 6.090597639893416e-08, 'epoch': 2.99}
+{'loss': 3.1927, 'grad_norm': 1.7367730140686035, 'learning_rate': 5.900266463646746e-08, 'epoch': 2.99}
+{'loss': 3.1663, 'grad_norm': 1.8004305362701416, 'learning_rate': 5.709935287400077e-08, 'epoch': 2.99}
+{'eval_loss': 3.6875, 'eval_runtime': 4.1477, 'eval_samples_per_second': 241.098, 'eval_steps_per_second': 10.126, 'epoch': 2.99}
+{'loss': 3.2282, 'grad_norm': 1.6211674213409424, 'learning_rate': 5.519604111153407e-08, 'epoch': 2.99}
+{'loss': 3.2425, 'grad_norm': 1.8400758504867554, 'learning_rate': 5.329272934906738e-08, 'epoch': 2.99}
+{'loss': 3.264, 'grad_norm': 1.9276580810546875, 'learning_rate': 5.1389417586600685e-08, 'epoch': 2.99}
+{'loss': 3.2484, 'grad_norm': 1.8135623931884766, 'learning_rate': 4.9486105824134e-08, 'epoch': 2.99}
+{'loss': 3.2135, 'grad_norm': 1.85575270652771, 'learning_rate': 4.7582794061667304e-08, 'epoch': 2.99}
+{'loss': 3.1986, 'grad_norm': 1.7037956714630127, 'learning_rate': 4.5679482299200614e-08, 'epoch': 3.0}
+{'loss': 3.2988, 'grad_norm': 1.8400771617889404, 'learning_rate': 4.377617053673392e-08, 'epoch': 3.0}
+{'loss': 3.2201, 'grad_norm': 1.7432966232299805, 'learning_rate': 4.187285877426723e-08, 'epoch': 3.0}
+{'loss': 3.2171, 'grad_norm': 1.64413321018219, 'learning_rate': 3.996954701180053e-08, 'epoch': 3.0}
+{'train_runtime': 3443.2692, 'train_samples_per_second': 15.264, 'train_steps_per_second': 0.848, 'train_loss': 3.4908469183962, 'epoch': 3.0}
diff --git a/wandb/run-20241130_011200-3b6iqyk8/files/wandb-metadata.json b/wandb/run-20241130_011200-3b6iqyk8/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..1f17a84349010d34a146821a6c2bd45d289b8fac
--- /dev/null
+++ b/wandb/run-20241130_011200-3b6iqyk8/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-30T06:12:00.500877Z",
+  "args":  [
+    "--perturbation",
+    "reverse_partial",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py",
+  "codePath":  "train/train_gpt2.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_gpt2.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1720385073152"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241130_011200-3b6iqyk8/files/wandb-summary.json b/wandb/run-20241130_011200-3b6iqyk8/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..2a197baee127dc86c3c5004c1c1a056487987228
--- /dev/null
+++ b/wandb/run-20241130_011200-3b6iqyk8/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train_steps_per_second":0.848,"train/loss":3.2171,"_timestamp":1.7329506713381932e+09,"_wandb":{"runtime":3550},"eval/samples_per_second":241.098,"train_runtime":3443.2692,"train/global_step":2919,"train/grad_norm":1.64413321018219,"total_flos":2.7457611890688e+16,"eval/loss":3.6875,"train_loss":3.4908469183962,"eval/steps_per_second":10.126,"_runtime":3550.837420193,"train_samples_per_second":15.264,"train/epoch":2.9984591679506933,"_step":3210,"eval/runtime":4.1477,"train/learning_rate":3.996954701180053e-08}
\ No newline at end of file
diff --git a/wandb/run-20241130_011200-3b6iqyk8/logs/debug-core.log b/wandb/run-20241130_011200-3b6iqyk8/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..738e8af1cca5abe41f8bbf9ead565302e291e45c
--- /dev/null
+++ b/wandb/run-20241130_011200-3b6iqyk8/logs/debug-core.log
@@ -0,0 +1,48 @@
+{"time":"2024-11-30T01:12:00.162005684-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpb34ol8dc/port-3204333.txt","pid":3204333,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.162049534-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.16291377-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204333}
+{"time":"2024-11-30T01:12:00.16290603-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":37433,"Zone":""}}
+{"time":"2024-11-30T01:12:00.166227065-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp53qvk928/port-3204334.txt","pid":3204334,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.166271575-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.166726058-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204334}
+{"time":"2024-11-30T01:12:00.166715568-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":40203,"Zone":""}}
+{"time":"2024-11-30T01:12:00.230336599-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp7lhtji1g/port-3204336.txt","pid":3204336,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.230357609-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.230726862-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204336}
+{"time":"2024-11-30T01:12:00.230715472-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":34717,"Zone":""}}
+{"time":"2024-11-30T01:12:00.35352094-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.358395016-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.424759467-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T01:12:00.502745953-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.51032144-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.584269066-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T01:12:00.60908783-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.616752516-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.690624993-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.88657551-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:12.886750821-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:12.958414645-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.958716137-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.982695672-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:12.982924494-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.237672124-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237707104-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237714024-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.237754485-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237906136-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237917056-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237922186-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T02:11:13.305017976-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305076186-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305084906-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.305148637-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305372228-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305438609-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305460069-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T02:11:13.392657396-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392695406-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392704986-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.392740907-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392863557-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392918348-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392940408-05:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20241130_011200-3b6iqyk8/logs/debug-internal.log b/wandb/run-20241130_011200-3b6iqyk8/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..64abe91eb672058a5bd3ae5cb2614c2fa802c74d
--- /dev/null
+++ b/wandb/run-20241130_011200-3b6iqyk8/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-30T01:12:00.502912945-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-30T01:12:00.502923865-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_011200-3b6iqyk8/logs/debug-core.log"}
+{"time":"2024-11-30T01:12:00.60904693-05:00","level":"INFO","msg":"created new stream","id":"3b6iqyk8"}
+{"time":"2024-11-30T01:12:00.60908192-05:00","level":"INFO","msg":"stream: started","id":"3b6iqyk8"}
+{"time":"2024-11-30T01:12:00.60912152-05:00","level":"INFO","msg":"sender: started","stream_id":"3b6iqyk8"}
+{"time":"2024-11-30T01:12:00.60912652-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"3b6iqyk8"}}
+{"time":"2024-11-30T01:12:00.60910417-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"3b6iqyk8"}}
+{"time":"2024-11-30T01:12:00.802859053-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-30T02:11:11.340736421-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-30T02:11:11.341434186-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-30T02:11:11.830077015-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-30T02:11:11.973941365-05:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2024-11-30T02:11:12.982767202-05:00","level":"INFO","msg":"stream: closing","id":"3b6iqyk8"}
+{"time":"2024-11-30T02:11:12.982791583-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"3b6iqyk8"}}
+{"time":"2024-11-30T02:11:12.982816493-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"3b6iqyk8"}}
+{"time":"2024-11-30T02:11:12.982911154-05:00","level":"INFO","msg":"sender: closed","stream_id":"3b6iqyk8"}
+{"time":"2024-11-30T02:11:12.982920714-05:00","level":"INFO","msg":"stream: closed","id":"3b6iqyk8"}
diff --git a/wandb/run-20241130_011200-3b6iqyk8/logs/debug.log b/wandb/run-20241130_011200-3b6iqyk8/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d2d5c811b7eddc0aa917a20f78cf67010260dfcf
--- /dev/null
+++ b/wandb/run-20241130_011200-3b6iqyk8/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Configure stats pid to 3204333
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_gpt2.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py'}
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_011200-3b6iqyk8/logs/debug.log
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_011200-3b6iqyk8/logs/debug-internal.log
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_init.py:init():621] calling init triggers
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_init.py:init():671] starting backend
+2024-11-30 01:12:00,499 INFO    MainThread:3204333 [wandb_init.py:init():675] sending inform_init request
+2024-11-30 01:12:00,500 INFO    MainThread:3204333 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-30 01:12:00,500 INFO    MainThread:3204333 [wandb_init.py:init():688] backend started and connected
+2024-11-30 01:12:00,503 INFO    MainThread:3204333 [wandb_init.py:init():783] updated telemetry
+2024-11-30 01:12:00,524 INFO    MainThread:3204333 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-30 01:12:00,799 INFO    MainThread:3204333 [wandb_init.py:init():867] starting run threads in backend
+2024-11-30 01:12:00,888 INFO    MainThread:3204333 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-30 01:12:00,888 INFO    MainThread:3204333 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-30 01:12:00,888 INFO    MainThread:3204333 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-30 01:12:00,889 INFO    MainThread:3204333 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-30 01:12:00,890 INFO    MainThread:3204333 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-30 01:12:00,890 INFO    MainThread:3204333 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_partial', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-30 01:13:48,071 INFO    MainThread:3204333 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 50257, 'n_positions': 1024, 'n_embd': 768, 'n_layer': 12, 'n_head': 12, 'n_inner': None, 'activation_function': 'gelu_new', 'resid_pdrop': 0.1, 'embd_pdrop': 0.1, 'attn_pdrop': 0.1, 'layer_norm_epsilon': 1e-05, 'initializer_range': 0.02, 'summary_type': 'cls_index', 'summary_use_proj': True, 'summary_activation': None, 'summary_first_dropout': 0.1, 'summary_proj_to_labels': True, 'scale_attn_weights': True, 'use_cache': True, 'scale_attn_by_inverse_layer_idx': False, 'reorder_and_upcast_attn': False, 'bos_token_id': 50256, 'eos_token_id': 50256, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': None, 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['GPT2LMHeadModel'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'pad_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': {'text-generation': {'do_sample': True, 'max_length': 50}}, 'problem_type': None, '_name_or_path': 'gpt2', 'transformers_version': '4.45.1', 'model_type': 'gpt2', 'n_ctx': 1024, 'output_dir': './checkpoints/GPT2/babylm_reverse_partial_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/GPT2/babylm_reverse_partial_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-30 01:13:48,073 INFO    MainThread:3204333 [wandb_config.py:__setitem__():154] config set model/num_parameters = 124439808 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f7f943295b0>>
+2024-11-30 01:13:48,073 INFO    MainThread:3204333 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 124439808 None
+2024-11-30 02:11:11,339 INFO    MainThread:3204333 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-reverse/3b6iqyk8
+2024-11-30 02:11:11,340 INFO    MainThread:3204333 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-30 02:11:11,340 INFO    MainThread:3204333 [wandb_run.py:_restore():2408] restore
+2024-11-30 02:11:11,340 INFO    MainThread:3204333 [wandb_run.py:_restore():2414] restore done
+2024-11-30 02:11:12,977 INFO    MainThread:3204333 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-30 02:11:12,978 INFO    MainThread:3204333 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-30 02:11:12,982 INFO    MainThread:3204333 [wandb_run.py:_footer_sync_info():3934] logging synced files