diff --git a/wandb/run-20241030_010641-0a117nzt/files/config.yaml b/wandb/run-20241030_010641-0a117nzt/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f8546482f67cbb9041af9d756594322c485d67a9
--- /dev/null
+++ b/wandb/run-20241030_010641-0a117nzt/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 7
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_010641-0a117nzt/files/wandb-metadata.json b/wandb/run-20241030_010641-0a117nzt/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..8e73c6b5940bdcc61a32bd8051c44c87ae18d3d6
--- /dev/null
+++ b/wandb/run-20241030_010641-0a117nzt/files/wandb-metadata.json
@@ -0,0 +1,29 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-30T05:06:41.506481Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "7",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_010641-0a117nzt/files/wandb-summary.json b/wandb/run-20241030_010641-0a117nzt/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..4e355fc8e9915c58fba97556eba40fd65c826d6a
--- /dev/null
+++ b/wandb/run-20241030_010641-0a117nzt/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":1}}
\ No newline at end of file
diff --git a/wandb/run-20241030_010641-0a117nzt/logs/debug-internal.log b/wandb/run-20241030_010641-0a117nzt/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..f278329e824a4bf690cc40bded25f784eb682a2e
--- /dev/null
+++ b/wandb/run-20241030_010641-0a117nzt/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-10-30T01:06:41.508846039-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:06:41.508860409-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010641-0a117nzt/logs/debug-core.log"}
+{"time":"2024-10-30T01:06:41.614626711-04:00","level":"INFO","msg":"created new stream","id":"0a117nzt"}
+{"time":"2024-10-30T01:06:41.614656671-04:00","level":"INFO","msg":"stream: started","id":"0a117nzt"}
+{"time":"2024-10-30T01:06:41.614698271-04:00","level":"INFO","msg":"sender: started","stream_id":"0a117nzt"}
+{"time":"2024-10-30T01:06:41.614675501-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"0a117nzt"}}
+{"time":"2024-10-30T01:06:41.614701901-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"0a117nzt"}}
+{"time":"2024-10-30T01:06:43.050075385-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T01:06:43.148263865-04:00","level":"INFO","msg":"stream: closing","id":"0a117nzt"}
+{"time":"2024-10-30T01:06:43.148301525-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T01:06:43.23979748-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-30T01:06:43.642158405-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-30T01:06:43.754139519-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"0a117nzt"}}
+{"time":"2024-10-30T01:06:43.754179299-04:00","level":"INFO","msg":"sender: closed","stream_id":"0a117nzt"}
+{"time":"2024-10-30T01:06:43.754174569-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"0a117nzt"}}
+{"time":"2024-10-30T01:06:43.754253939-04:00","level":"INFO","msg":"stream: closed","id":"0a117nzt"}
diff --git a/wandb/run-20241030_010641-0a117nzt/logs/debug.log b/wandb/run-20241030_010641-0a117nzt/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..1a834c731871de3381ff6e820c63c7105983a6a2
--- /dev/null
+++ b/wandb/run-20241030_010641-0a117nzt/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-30 01:06:41,504 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 01:06:41,504 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Configure stats pid to 321597
+2024-10-30 01:06:41,504 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 01:06:41,504 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 01:06:41,504 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010641-0a117nzt/logs/debug.log
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010641-0a117nzt/logs/debug-internal.log
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_init.py:init():621] calling init triggers
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_init.py:init():671] starting backend
+2024-10-30 01:06:41,505 INFO    MainThread:321597 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 01:06:41,506 INFO    MainThread:321597 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 01:06:41,506 INFO    MainThread:321597 [wandb_init.py:init():688] backend started and connected
+2024-10-30 01:06:41,509 INFO    MainThread:321597 [wandb_init.py:init():783] updated telemetry
+2024-10-30 01:06:41,529 INFO    MainThread:321597 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 01:06:43,047 INFO    MainThread:321597 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 01:06:43,145 INFO    MainThread:321597 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 01:06:43,145 INFO    MainThread:321597 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 01:06:43,145 INFO    MainThread:321597 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 01:06:43,145 INFO    MainThread:321597 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 01:06:43,147 INFO    MainThread:321597 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 01:06:43,147 INFO    MainThread:321597 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0}
+2024-10-30 01:06:43,148 WARNING MsgRouterThr:321597 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241030_010641-0a117nzt/run-0a117nzt.wandb b/wandb/run-20241030_010641-0a117nzt/run-0a117nzt.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..ef2b3c3285347c8e41a3d0dfb4738bc781f39f1d
Binary files /dev/null and b/wandb/run-20241030_010641-0a117nzt/run-0a117nzt.wandb differ
diff --git a/wandb/run-20241030_011013-8qrwqf2b/files/output.log b/wandb/run-20241030_011013-8qrwqf2b/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..b5fe28d6cd97d8e4b051a7648e260c2aeeb1fa31
--- /dev/null
+++ b/wandb/run-20241030_011013-8qrwqf2b/files/output.log
@@ -0,0 +1,6 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 165, in <module>
+    valid_dataset = dataset['validation']
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/dataset_dict.py", line 72, in __getitem__
+    return super().__getitem__(k)
+KeyError: 'validation'
diff --git a/wandb/run-20241030_011013-8qrwqf2b/files/wandb-summary.json b/wandb/run-20241030_011013-8qrwqf2b/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..779a0b5a17ed7980591fb713a2a4db505a51ed4b
--- /dev/null
+++ b/wandb/run-20241030_011013-8qrwqf2b/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":8}}
\ No newline at end of file
diff --git a/wandb/run-20241030_011013-8qrwqf2b/logs/debug-internal.log b/wandb/run-20241030_011013-8qrwqf2b/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..0d17bc31174139effe8ea9a6642c5722ab5b8ebf
--- /dev/null
+++ b/wandb/run-20241030_011013-8qrwqf2b/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-10-30T01:10:13.811924092-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:10:13.811935262-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011013-8qrwqf2b/logs/debug-core.log"}
+{"time":"2024-10-30T01:10:13.919016219-04:00","level":"INFO","msg":"created new stream","id":"8qrwqf2b"}
+{"time":"2024-10-30T01:10:13.919054309-04:00","level":"INFO","msg":"stream: started","id":"8qrwqf2b"}
+{"time":"2024-10-30T01:10:13.91913415-04:00","level":"INFO","msg":"sender: started","stream_id":"8qrwqf2b"}
+{"time":"2024-10-30T01:10:13.919078679-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"8qrwqf2b"}}
+{"time":"2024-10-30T01:10:13.91913301-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"8qrwqf2b"}}
+{"time":"2024-10-30T01:10:14.203333759-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T01:10:21.984884451-04:00","level":"INFO","msg":"stream: closing","id":"8qrwqf2b"}
+{"time":"2024-10-30T01:10:21.984959852-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T01:10:21.985933548-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-30T01:10:22.321607177-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-30T01:10:22.49142805-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"8qrwqf2b"}}
+{"time":"2024-10-30T01:10:22.49146284-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"8qrwqf2b"}}
+{"time":"2024-10-30T01:10:22.49147302-04:00","level":"INFO","msg":"sender: closed","stream_id":"8qrwqf2b"}
+{"time":"2024-10-30T01:10:22.49151008-04:00","level":"INFO","msg":"stream: closed","id":"8qrwqf2b"}
diff --git a/wandb/run-20241030_011013-8qrwqf2b/logs/debug.log b/wandb/run-20241030_011013-8qrwqf2b/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..4f9d863c69175bed0162ca76f0dfe5771e858846
--- /dev/null
+++ b/wandb/run-20241030_011013-8qrwqf2b/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Configure stats pid to 323568
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 01:10:13,807 INFO    MainThread:323568 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 01:10:13,808 INFO    MainThread:323568 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011013-8qrwqf2b/logs/debug.log
+2024-10-30 01:10:13,808 INFO    MainThread:323568 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011013-8qrwqf2b/logs/debug-internal.log
+2024-10-30 01:10:13,808 INFO    MainThread:323568 [wandb_init.py:init():621] calling init triggers
+2024-10-30 01:10:13,808 INFO    MainThread:323568 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 01:10:13,808 INFO    MainThread:323568 [wandb_init.py:init():671] starting backend
+2024-10-30 01:10:13,808 INFO    MainThread:323568 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 01:10:13,809 INFO    MainThread:323568 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 01:10:13,809 INFO    MainThread:323568 [wandb_init.py:init():688] backend started and connected
+2024-10-30 01:10:13,812 INFO    MainThread:323568 [wandb_init.py:init():783] updated telemetry
+2024-10-30 01:10:13,844 INFO    MainThread:323568 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 01:10:14,200 INFO    MainThread:323568 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 01:10:14,291 INFO    MainThread:323568 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 01:10:14,291 INFO    MainThread:323568 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 01:10:14,291 INFO    MainThread:323568 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 01:10:14,291 INFO    MainThread:323568 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 01:10:14,292 INFO    MainThread:323568 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 01:10:14,292 INFO    MainThread:323568 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0}
+2024-10-30 01:10:21,985 WARNING MsgRouterThr:323568 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241030_011013-8qrwqf2b/run-8qrwqf2b.wandb b/wandb/run-20241030_011013-8qrwqf2b/run-8qrwqf2b.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..3eec5ccaa2df93001728135aba3402533871620a
Binary files /dev/null and b/wandb/run-20241030_011013-8qrwqf2b/run-8qrwqf2b.wandb differ
diff --git a/wandb/run-20241030_011509-46hc4g2h/files/output.log b/wandb/run-20241030_011509-46hc4g2h/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..81c2f5654fee7f2e1e0bbfc1d0098eb1c7ab5e97
--- /dev/null
+++ b/wandb/run-20241030_011509-46hc4g2h/files/output.log
@@ -0,0 +1,15 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.33s/it]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17519/17519 [00:55<00:00, 312.86 examples/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:56<00:00, 323.57 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-30 01:17:08,151] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-30 01:17:15,333] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.191785097122192 seconds
diff --git a/wandb/run-20241030_012617-0h15y3p4/run-0h15y3p4.wandb b/wandb/run-20241030_012617-0h15y3p4/run-0h15y3p4.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20241030_112852-av3r7rx8/logs/debug-internal.log b/wandb/run-20241030_112852-av3r7rx8/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..a4fbfbe29b06580a24eb25e0bb77c66374691960
--- /dev/null
+++ b/wandb/run-20241030_112852-av3r7rx8/logs/debug-internal.log
@@ -0,0 +1,107 @@
+{"time":"2024-10-30T11:28:52.928202044-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T11:28:52.928217684-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_112852-av3r7rx8/logs/debug-core.log"}
+{"time":"2024-10-30T11:28:53.035202578-04:00","level":"INFO","msg":"created new stream","id":"av3r7rx8"}
+{"time":"2024-10-30T11:28:53.035234758-04:00","level":"INFO","msg":"stream: started","id":"av3r7rx8"}
+{"time":"2024-10-30T11:28:53.035306888-04:00","level":"INFO","msg":"sender: started","stream_id":"av3r7rx8"}
+{"time":"2024-10-30T11:28:53.035302768-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"av3r7rx8"}}
+{"time":"2024-10-30T11:28:53.035283128-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"av3r7rx8"}}
+{"time":"2024-10-30T11:28:53.237316902-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T14:03:23.662768215-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/impossible_llm_reverse/av3r7rx8/file_stream"}
+{"time":"2024-10-30T14:03:23.671100253-04:00","level":"ERROR+4","msg":"filestream: fatal error: filestream: failed to upload: 404 Not Found path=files/yaning1001-dartmouth-college/impossible_llm_reverse/av3r7rx8/file_stream: {\"error\":\"run impossible_llm_reverse/av3r7rx8 not found while streaming file\"}"}
+{"time":"2024-10-30T18:00:35.969420417-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T18:00:35.985259874-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-30T18:00:36.00413501-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:00:36.970397087-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":1.017823332,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:00:38.233986167-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:00:42.56959314-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:00:50.937735567-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:01:07.87865361-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:01:36.999941082-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":61.047372157,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:01:42.14950262-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:02:37.029338398-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":121.076773074,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:02:42.2181434-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:03:37.121523999-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":181.168948695,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:03:42.283494538-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:04:37.15272486-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":241.200157826,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:04:42.338284797-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:05:37.18149733-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":301.228929406,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:05:42.403305011-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:06:37.205923464-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":361.25334464,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:06:42.467736367-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:07:37.227919994-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":421.27535455,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:07:42.522828129-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:08:37.255122245-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":481.302550111,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:08:42.591448018-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:09:37.275888025-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":541.323308591,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:09:42.646782455-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:10:35.952783302-04:00","level":"WARN","msg":"sender: taking a long time","seconds":600.000251687,"work":"WorkRecord(*service_go_proto.Record_Telemetry); Control(connection_id:\"127.0.0.1:52674\")"}
+{"time":"2024-10-30T18:10:37.297919548-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":601.345344493,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:10:42.706639294-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:11:37.331253116-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":661.378679132,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:11:42.759908944-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:12:37.356310441-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":721.403746647,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:12:42.814966869-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:13:37.391653109-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":781.439081615,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:13:42.884911218-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:14:37.425098592-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":841.472520388,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:14:42.949899596-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:15:37.446427353-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":901.493859249,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:15:43.005675097-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:37.466452255-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":961.5138852,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:16:43.072875312-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:43.073018214-04:00","level":"ERROR","msg":"sender: sendConfig:","error":"api: failed sending: POST https://api.wandb.ai/graphql giving up after 21 attempt(s)"}
+{"time":"2024-10-30T18:16:43.073207477-04:00","level":"INFO","msg":"sender: succeeded after taking longer than expected","seconds":967.120781373,"work":"WorkRecord(*service_go_proto.Record_Telemetry); Control(connection_id:\"127.0.0.1:52674\")"}
+{"time":"2024-10-30T18:16:43.129772686-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:43.173405496-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:43.173464037-04:00","level":"ERROR","msg":"runfiles: CreateRunFiles returned error: returned error 404 Not Found: {\"errors\":[{\"message\":\"run impossible_llm_reverse/av3r7rx8 not found during createRunFiles\",\"path\":[\"createRunFiles\"]}],\"data\":{\"createRunFiles\":null}}"}
+{"time":"2024-10-30T18:16:45.568906891-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:49.876981993-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:59.135590692-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:17:17.819043918-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:17:37.496704741-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":54.423069439,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:17:54.967451159-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:18:37.527279913-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":114.453646191,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:18:55.01780239-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:19:37.558314637-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":174.484679915,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:19:55.069104494-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:20:37.584777577-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":234.511143195,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:20:55.119365993-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:21:37.608570107-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":294.534931265,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:21:55.17082767-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:22:37.631511339-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":354.557876897,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:22:55.22139184-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:23:37.662681067-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":414.589036285,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:23:55.274106938-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:24:37.684696297-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":474.611047365,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:24:55.324688042-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:25:37.707091894-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":534.633454442,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:25:55.38216525-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:26:37.732778072-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":594.65913657,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:26:43.074198907-04:00","level":"WARN","msg":"sender: taking a long time","seconds":600.000310312,"work":"WorkRecord(*service_go_proto.Request_Defer); Control(local:true  always_send:true)"}
+{"time":"2024-10-30T18:26:55.440696492-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:27:37.755666689-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":654.682007297,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:27:55.492005526-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:28:37.776371583-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":714.702731411,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:28:55.553278137-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:29:37.803304571-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":774.729659329,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:29:55.604429145-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:30:37.830574404-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":834.756934202,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:30:55.662350387-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:31:37.854749431-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":894.781096409,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:31:55.727511014-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:37.877695674-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":954.804047742,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:32:55.816423244-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:55.816545335-04:00","level":"ERROR","msg":"sender: sendConfig:","error":"api: failed sending: POST https://api.wandb.ai/graphql giving up after 21 attempt(s)"}
+{"time":"2024-10-30T18:32:55.817180741-04:00","level":"INFO","msg":"sender: succeeded after taking longer than expected","seconds":972.743306456,"work":"WorkRecord(*service_go_proto.Request_Defer); Control(local:true  always_send:true)"}
+{"time":"2024-10-30T18:32:55.916557726-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:55.916592226-04:00","level":"ERROR","msg":"runfiles: CreateRunFiles returned error: returned error 404 Not Found: {\"errors\":[{\"message\":\"run impossible_llm_reverse/av3r7rx8 not found during createRunFiles\",\"path\":[\"createRunFiles\"]}],\"data\":{\"createRunFiles\":null}}"}
+{"time":"2024-10-30T18:32:56.047553113-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:56.047914706-04:00","level":"ERROR","msg":"sender: failed to save job artifact: ArtifactSaver.createManifest: returned error 404 Not Found: {\"errors\":[{\"message\":\"failed to find run impossible_llm_reverse/av3r7rx8\",\"path\":[\"createArtifactManifest\"]}],\"data\":{\"createArtifactManifest\":null}}"}
+{"time":"2024-10-30T18:32:56.099783357-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-30T18:32:56.149719522-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:56.149778963-04:00","level":"ERROR","msg":"runfiles: CreateRunFiles returned error: returned error 404 Not Found: {\"errors\":[{\"message\":\"run impossible_llm_reverse/av3r7rx8 not found during createRunFiles\",\"path\":[\"createRunFiles\"]}],\"data\":{\"createRunFiles\":null}}"}
+{"time":"2024-10-30T18:32:57.117726892-04:00","level":"INFO","msg":"stream: closing","id":"av3r7rx8"}
+{"time":"2024-10-30T18:32:57.117766882-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"av3r7rx8"}}
+{"time":"2024-10-30T18:32:57.117795143-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"av3r7rx8"}}
+{"time":"2024-10-30T18:32:57.117827703-04:00","level":"INFO","msg":"sender: closed","stream_id":"av3r7rx8"}
+{"time":"2024-10-30T18:32:57.117911104-04:00","level":"INFO","msg":"stream: closed","id":"av3r7rx8"}
diff --git a/wandb/run-20241030_222932-sh4rlbgu/files/output.log b/wandb/run-20241030_222932-sh4rlbgu/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..67c24157c5175c3943c07184b012af7b69b4f460
--- /dev/null
+++ b/wandb/run-20241030_222932-sh4rlbgu/files/output.log
@@ -0,0 +1,239 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.39s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-30 22:29:54,147] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-30 22:30:03,558] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-10-30 22:30:03,558] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.195138931274414 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                       
+{'loss': 2.7522, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.0}
+{'loss': 2.7541, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.0}
+{'loss': 2.8031, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.0}
+{'loss': 2.8062, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.0}
+{'loss': 2.7733, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7949, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7657, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.803, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7793, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7935, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+                                                                                                                                                                                       
+{'eval_loss': 2.8027420043945312, 'eval_runtime': 12.3412, 'eval_samples_per_second': 48.618, 'eval_steps_per_second': 1.053, 'epoch': 0.01}
+{'loss': 2.7546, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7423, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.8057, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7663, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.01}
+{'loss': 2.7715, 'grad_norm': 0.0, 'learning_rate': 1e-05, 'epoch': 0.02}
+{'loss': 2.751, 'grad_norm': 4.9052934646606445, 'learning_rate': 9.996577686516086e-06, 'epoch': 0.02}
+{'loss': 2.7356, 'grad_norm': 4.9052934646606445, 'learning_rate': 9.996577686516086e-06, 'epoch': 0.02}
+{'loss': 2.7975, 'grad_norm': 6.998753070831299, 'learning_rate': 9.993155373032171e-06, 'epoch': 0.02}
+{'loss': 2.6815, 'grad_norm': 6.998753070831299, 'learning_rate': 9.993155373032171e-06, 'epoch': 0.02}
+{'loss': 2.7412, 'grad_norm': 10.557236671447754, 'learning_rate': 9.989733059548255e-06, 'epoch': 0.02}
+{'eval_loss': 2.638756513595581, 'eval_runtime': 11.4482, 'eval_samples_per_second': 52.41, 'eval_steps_per_second': 1.136, 'epoch': 0.02}
+{'loss': 2.62, 'grad_norm': 4.8778886795043945, 'learning_rate': 9.98631074606434e-06, 'epoch': 0.02}
+{'loss': 2.5717, 'grad_norm': 5.405064582824707, 'learning_rate': 9.982888432580425e-06, 'epoch': 0.02}
+{'loss': 2.4702, 'grad_norm': 3.2149922847747803, 'learning_rate': 9.97946611909651e-06, 'epoch': 0.02}
+{'loss': 2.4408, 'grad_norm': 2.206319570541382, 'learning_rate': 9.976043805612596e-06, 'epoch': 0.02}
+{'loss': 2.4046, 'grad_norm': 2.7088518142700195, 'learning_rate': 9.972621492128681e-06, 'epoch': 0.03}
+{'loss': 2.4052, 'grad_norm': 2.255714178085327, 'learning_rate': 9.969199178644764e-06, 'epoch': 0.03}
+{'loss': 2.3598, 'grad_norm': 1.8110233545303345, 'learning_rate': 9.96577686516085e-06, 'epoch': 0.03}
+{'loss': 2.359, 'grad_norm': 2.3473737239837646, 'learning_rate': 9.962354551676935e-06, 'epoch': 0.03}
+{'loss': 2.3203, 'grad_norm': 1.7912501096725464, 'learning_rate': 9.95893223819302e-06, 'epoch': 0.03}
+{'loss': 2.2915, 'grad_norm': 1.74528169631958, 'learning_rate': 9.955509924709105e-06, 'epoch': 0.03}
+{'eval_loss': 2.381314277648926, 'eval_runtime': 11.4705, 'eval_samples_per_second': 52.308, 'eval_steps_per_second': 1.133, 'epoch': 0.03}
+{'loss': 2.2406, 'grad_norm': 2.214596748352051, 'learning_rate': 9.952087611225189e-06, 'epoch': 0.03}
+{'loss': 2.2711, 'grad_norm': 1.6342750787734985, 'learning_rate': 9.948665297741274e-06, 'epoch': 0.03}
+{'loss': 2.2322, 'grad_norm': 1.947365641593933, 'learning_rate': 9.945242984257358e-06, 'epoch': 0.03}
+{'loss': 2.1942, 'grad_norm': 1.863891839981079, 'learning_rate': 9.941820670773443e-06, 'epoch': 0.03}
+{'loss': 2.1649, 'grad_norm': 2.0973386764526367, 'learning_rate': 9.938398357289528e-06, 'epoch': 0.04}
+{'loss': 2.0559, 'grad_norm': 1.8396668434143066, 'learning_rate': 9.934976043805613e-06, 'epoch': 0.04}
+{'loss': 2.1748, 'grad_norm': 1.8861109018325806, 'learning_rate': 9.931553730321698e-06, 'epoch': 0.04}
+{'loss': 2.0844, 'grad_norm': 1.8722198009490967, 'learning_rate': 9.928131416837784e-06, 'epoch': 0.04}
+{'loss': 2.0759, 'grad_norm': 1.6950063705444336, 'learning_rate': 9.924709103353867e-06, 'epoch': 0.04}
+{'loss': 2.1387, 'grad_norm': 2.20597243309021, 'learning_rate': 9.921286789869952e-06, 'epoch': 0.04}
+{'eval_loss': 2.2260310649871826, 'eval_runtime': 11.4922, 'eval_samples_per_second': 52.209, 'eval_steps_per_second': 1.131, 'epoch': 0.04}
+{'loss': 2.0875, 'grad_norm': 1.525025725364685, 'learning_rate': 9.917864476386038e-06, 'epoch': 0.04}
+{'loss': 2.0144, 'grad_norm': 1.8138060569763184, 'learning_rate': 9.914442162902123e-06, 'epoch': 0.04}
+{'loss': 2.073, 'grad_norm': 1.8054825067520142, 'learning_rate': 9.911019849418208e-06, 'epoch': 0.04}
+{'loss': 2.0333, 'grad_norm': 1.8127416372299194, 'learning_rate': 9.907597535934292e-06, 'epoch': 0.05}
+{'loss': 2.0386, 'grad_norm': 1.548357605934143, 'learning_rate': 9.904175222450377e-06, 'epoch': 0.05}
+{'loss': 2.0096, 'grad_norm': 1.63664710521698, 'learning_rate': 9.900752908966462e-06, 'epoch': 0.05}
+{'loss': 2.063, 'grad_norm': 1.5788047313690186, 'learning_rate': 9.897330595482547e-06, 'epoch': 0.05}
+{'loss': 1.9989, 'grad_norm': 1.9751560688018799, 'learning_rate': 9.893908281998632e-06, 'epoch': 0.05}
+{'loss': 2.007, 'grad_norm': 1.5146485567092896, 'learning_rate': 9.890485968514718e-06, 'epoch': 0.05}
+{'loss': 1.9296, 'grad_norm': 1.671108365058899, 'learning_rate': 9.887063655030801e-06, 'epoch': 0.05}
+{'eval_loss': 2.1585757732391357, 'eval_runtime': 11.4929, 'eval_samples_per_second': 52.206, 'eval_steps_per_second': 1.131, 'epoch': 0.05}
+{'loss': 1.938, 'grad_norm': 1.7599347829818726, 'learning_rate': 9.883641341546886e-06, 'epoch': 0.05}
+{'loss': 2.0424, 'grad_norm': 1.814841866493225, 'learning_rate': 9.880219028062972e-06, 'epoch': 0.05}
+{'loss': 1.9183, 'grad_norm': 1.763486385345459, 'learning_rate': 9.876796714579057e-06, 'epoch': 0.05}
+{'loss': 1.9818, 'grad_norm': 1.9463744163513184, 'learning_rate': 9.873374401095142e-06, 'epoch': 0.06}
+{'loss': 1.9367, 'grad_norm': 1.6990312337875366, 'learning_rate': 9.869952087611226e-06, 'epoch': 0.06}
+{'loss': 1.8971, 'grad_norm': 1.7191174030303955, 'learning_rate': 9.866529774127311e-06, 'epoch': 0.06}
+{'loss': 1.9414, 'grad_norm': 1.75558340549469, 'learning_rate': 9.863107460643394e-06, 'epoch': 0.06}
+{'loss': 1.8678, 'grad_norm': 1.6302168369293213, 'learning_rate': 9.85968514715948e-06, 'epoch': 0.06}
+{'loss': 1.9358, 'grad_norm': 1.6982876062393188, 'learning_rate': 9.856262833675565e-06, 'epoch': 0.06}
+{'loss': 1.9275, 'grad_norm': 1.7876794338226318, 'learning_rate': 9.85284052019165e-06, 'epoch': 0.06}
+{'eval_loss': 2.127957820892334, 'eval_runtime': 11.513, 'eval_samples_per_second': 52.115, 'eval_steps_per_second': 1.129, 'epoch': 0.06}
+{'loss': 1.8948, 'grad_norm': 1.7176604270935059, 'learning_rate': 9.849418206707735e-06, 'epoch': 0.06}
+{'loss': 1.9117, 'grad_norm': 1.7535561323165894, 'learning_rate': 9.84599589322382e-06, 'epoch': 0.06}
+{'loss': 1.9544, 'grad_norm': 1.753197431564331, 'learning_rate': 9.842573579739904e-06, 'epoch': 0.06}
+{'loss': 1.9392, 'grad_norm': 1.7100030183792114, 'learning_rate': 9.83915126625599e-06, 'epoch': 0.07}
+{'loss': 1.8039, 'grad_norm': 1.9034301042556763, 'learning_rate': 9.835728952772074e-06, 'epoch': 0.07}
+{'loss': 1.9127, 'grad_norm': 2.095262289047241, 'learning_rate': 9.83230663928816e-06, 'epoch': 0.07}
+{'loss': 1.8438, 'grad_norm': 1.80649995803833, 'learning_rate': 9.828884325804245e-06, 'epoch': 0.07}
+{'loss': 1.9244, 'grad_norm': 1.6947416067123413, 'learning_rate': 9.825462012320328e-06, 'epoch': 0.07}
+{'loss': 1.8639, 'grad_norm': 1.8084263801574707, 'learning_rate': 9.822039698836414e-06, 'epoch': 0.07}
+{'loss': 1.9785, 'grad_norm': 1.8480068445205688, 'learning_rate': 9.818617385352499e-06, 'epoch': 0.07}
+{'eval_loss': 2.099644660949707, 'eval_runtime': 11.5197, 'eval_samples_per_second': 52.085, 'eval_steps_per_second': 1.128, 'epoch': 0.07}
+{'loss': 1.8751, 'grad_norm': 1.7712780237197876, 'learning_rate': 9.815195071868584e-06, 'epoch': 0.07}
+{'loss': 1.8161, 'grad_norm': 2.03159761428833, 'learning_rate': 9.81177275838467e-06, 'epoch': 0.07}
+{'loss': 1.8763, 'grad_norm': 1.8015327453613281, 'learning_rate': 9.808350444900755e-06, 'epoch': 0.07}
+{'loss': 1.8381, 'grad_norm': 2.4486355781555176, 'learning_rate': 9.804928131416838e-06, 'epoch': 0.08}
+{'loss': 1.85, 'grad_norm': 1.7883203029632568, 'learning_rate': 9.801505817932923e-06, 'epoch': 0.08}
+{'loss': 1.8443, 'grad_norm': 2.3537960052490234, 'learning_rate': 9.798083504449008e-06, 'epoch': 0.08}
+{'loss': 1.857, 'grad_norm': 2.174302101135254, 'learning_rate': 9.794661190965094e-06, 'epoch': 0.08}
+{'loss': 1.8712, 'grad_norm': 2.1867644786834717, 'learning_rate': 9.791238877481179e-06, 'epoch': 0.08}
+{'loss': 1.8091, 'grad_norm': 2.038297176361084, 'learning_rate': 9.787816563997264e-06, 'epoch': 0.08}
+{'loss': 1.8654, 'grad_norm': 2.041032552719116, 'learning_rate': 9.784394250513348e-06, 'epoch': 0.08}
+{'eval_loss': 2.0577988624572754, 'eval_runtime': 11.5317, 'eval_samples_per_second': 52.03, 'eval_steps_per_second': 1.127, 'epoch': 0.08}
+{'loss': 1.8165, 'grad_norm': 1.9230015277862549, 'learning_rate': 9.780971937029433e-06, 'epoch': 0.08}
+{'loss': 1.8522, 'grad_norm': 2.4708755016326904, 'learning_rate': 9.777549623545518e-06, 'epoch': 0.08}
+{'loss': 1.841, 'grad_norm': 1.8017152547836304, 'learning_rate': 9.774127310061603e-06, 'epoch': 0.09}
+{'loss': 1.8306, 'grad_norm': 2.1635735034942627, 'learning_rate': 9.770704996577687e-06, 'epoch': 0.09}
+{'loss': 1.7945, 'grad_norm': 1.7945680618286133, 'learning_rate': 9.767282683093772e-06, 'epoch': 0.09}
+{'loss': 1.8414, 'grad_norm': 2.332819938659668, 'learning_rate': 9.763860369609857e-06, 'epoch': 0.09}
+{'loss': 1.8025, 'grad_norm': 1.7683643102645874, 'learning_rate': 9.76043805612594e-06, 'epoch': 0.09}
+{'loss': 1.8055, 'grad_norm': 2.1792047023773193, 'learning_rate': 9.757015742642026e-06, 'epoch': 0.09}
+{'loss': 1.8178, 'grad_norm': 1.839830994606018, 'learning_rate': 9.753593429158111e-06, 'epoch': 0.09}
+{'loss': 1.7639, 'grad_norm': 2.089848756790161, 'learning_rate': 9.750171115674196e-06, 'epoch': 0.09}
+{'eval_loss': 2.0276927947998047, 'eval_runtime': 11.5348, 'eval_samples_per_second': 52.016, 'eval_steps_per_second': 1.127, 'epoch': 0.09}
+{'loss': 1.791, 'grad_norm': 2.0795984268188477, 'learning_rate': 9.746748802190282e-06, 'epoch': 0.09}
+{'loss': 1.8262, 'grad_norm': 1.8953250646591187, 'learning_rate': 9.743326488706367e-06, 'epoch': 0.09}
+{'loss': 1.8132, 'grad_norm': 2.0392539501190186, 'learning_rate': 9.73990417522245e-06, 'epoch': 0.1}
+{'loss': 1.7936, 'grad_norm': 1.7300399541854858, 'learning_rate': 9.736481861738536e-06, 'epoch': 0.1}
+{'loss': 1.8533, 'grad_norm': 2.0103321075439453, 'learning_rate': 9.733059548254621e-06, 'epoch': 0.1}
+{'loss': 1.7396, 'grad_norm': 2.0879769325256348, 'learning_rate': 9.729637234770706e-06, 'epoch': 0.1}
+{'loss': 1.8141, 'grad_norm': 2.376507520675659, 'learning_rate': 9.726214921286791e-06, 'epoch': 0.1}
+{'loss': 1.7261, 'grad_norm': 2.0989043712615967, 'learning_rate': 9.722792607802875e-06, 'epoch': 0.1}
+{'loss': 1.7309, 'grad_norm': 1.9840986728668213, 'learning_rate': 9.71937029431896e-06, 'epoch': 0.1}
+{'loss': 1.7521, 'grad_norm': 2.163317918777466, 'learning_rate': 9.715947980835045e-06, 'epoch': 0.1}
+{'eval_loss': 2.0125696659088135, 'eval_runtime': 11.5274, 'eval_samples_per_second': 52.05, 'eval_steps_per_second': 1.128, 'epoch': 0.1}
+{'loss': 1.7709, 'grad_norm': 1.8134108781814575, 'learning_rate': 9.71252566735113e-06, 'epoch': 0.1}
+{'loss': 1.7533, 'grad_norm': 1.881934642791748, 'learning_rate': 9.709103353867216e-06, 'epoch': 0.1}
+{'loss': 1.7249, 'grad_norm': 1.798551321029663, 'learning_rate': 9.705681040383301e-06, 'epoch': 0.11}
+{'loss': 1.7371, 'grad_norm': 1.8665673732757568, 'learning_rate': 9.702258726899384e-06, 'epoch': 0.11}
+{'loss': 1.8086, 'grad_norm': 2.1302592754364014, 'learning_rate': 9.69883641341547e-06, 'epoch': 0.11}
+{'loss': 1.789, 'grad_norm': 2.002692699432373, 'learning_rate': 9.695414099931555e-06, 'epoch': 0.11}
+{'loss': 1.7918, 'grad_norm': 1.9792057275772095, 'learning_rate': 9.69199178644764e-06, 'epoch': 0.11}
+{'loss': 1.7661, 'grad_norm': 2.0386698246002197, 'learning_rate': 9.688569472963725e-06, 'epoch': 0.11}
+{'loss': 1.682, 'grad_norm': 1.917017936706543, 'learning_rate': 9.685147159479809e-06, 'epoch': 0.11}
+{'loss': 1.7335, 'grad_norm': 1.9866483211517334, 'learning_rate': 9.681724845995894e-06, 'epoch': 0.11}
+{'eval_loss': 2.0190446376800537, 'eval_runtime': 11.5495, 'eval_samples_per_second': 51.95, 'eval_steps_per_second': 1.126, 'epoch': 0.11}
+{'loss': 1.671, 'grad_norm': 1.9181839227676392, 'learning_rate': 9.678302532511978e-06, 'epoch': 0.11}
+{'loss': 1.7552, 'grad_norm': 2.226654291152954, 'learning_rate': 9.674880219028063e-06, 'epoch': 0.11}
+{'loss': 1.7279, 'grad_norm': 1.7531609535217285, 'learning_rate': 9.671457905544148e-06, 'epoch': 0.12}
+{'loss': 1.745, 'grad_norm': 2.338890790939331, 'learning_rate': 9.668035592060233e-06, 'epoch': 0.12}
+{'loss': 1.6892, 'grad_norm': 1.8851141929626465, 'learning_rate': 9.664613278576319e-06, 'epoch': 0.12}
+{'loss': 1.8074, 'grad_norm': 2.0738070011138916, 'learning_rate': 9.661190965092404e-06, 'epoch': 0.12}
+{'loss': 1.7333, 'grad_norm': 2.122523307800293, 'learning_rate': 9.657768651608487e-06, 'epoch': 0.12}
+{'loss': 1.7498, 'grad_norm': 2.1073336601257324, 'learning_rate': 9.654346338124573e-06, 'epoch': 0.12}
+{'loss': 1.7532, 'grad_norm': 1.9685720205307007, 'learning_rate': 9.650924024640658e-06, 'epoch': 0.12}
+{'loss': 1.8276, 'grad_norm': 2.3537447452545166, 'learning_rate': 9.647501711156743e-06, 'epoch': 0.12}
+{'eval_loss': 1.9996358156204224, 'eval_runtime': 11.5363, 'eval_samples_per_second': 52.01, 'eval_steps_per_second': 1.127, 'epoch': 0.12}
+{'loss': 1.751, 'grad_norm': 1.8049235343933105, 'learning_rate': 9.644079397672828e-06, 'epoch': 0.12}
+{'loss': 1.7313, 'grad_norm': 2.3027150630950928, 'learning_rate': 9.640657084188912e-06, 'epoch': 0.13}
+{'loss': 1.6882, 'grad_norm': 1.947838306427002, 'learning_rate': 9.637234770704997e-06, 'epoch': 0.13}
+{'loss': 1.7206, 'grad_norm': 2.6821374893188477, 'learning_rate': 9.633812457221082e-06, 'epoch': 0.13}
+{'loss': 1.6704, 'grad_norm': 1.7744842767715454, 'learning_rate': 9.630390143737167e-06, 'epoch': 0.13}
+{'loss': 1.7371, 'grad_norm': 2.0912325382232666, 'learning_rate': 9.626967830253253e-06, 'epoch': 0.13}
+{'loss': 1.664, 'grad_norm': 1.9026362895965576, 'learning_rate': 9.623545516769338e-06, 'epoch': 0.13}
+{'loss': 1.7097, 'grad_norm': 2.1378369331359863, 'learning_rate': 9.620123203285421e-06, 'epoch': 0.13}
+{'loss': 1.765, 'grad_norm': 2.0164642333984375, 'learning_rate': 9.616700889801507e-06, 'epoch': 0.13}
+{'loss': 1.7683, 'grad_norm': 2.050016164779663, 'learning_rate': 9.613278576317592e-06, 'epoch': 0.13}
+{'eval_loss': 1.983323335647583, 'eval_runtime': 11.5253, 'eval_samples_per_second': 52.059, 'eval_steps_per_second': 1.128, 'epoch': 0.13}
+{'loss': 1.6955, 'grad_norm': 2.141329288482666, 'learning_rate': 9.609856262833677e-06, 'epoch': 0.13}
+{'loss': 1.7588, 'grad_norm': 1.8916280269622803, 'learning_rate': 9.606433949349762e-06, 'epoch': 0.14}
+{'loss': 1.726, 'grad_norm': 1.9714467525482178, 'learning_rate': 9.603011635865846e-06, 'epoch': 0.14}
+{'loss': 1.6793, 'grad_norm': 1.8799078464508057, 'learning_rate': 9.599589322381931e-06, 'epoch': 0.14}
+{'loss': 1.7232, 'grad_norm': 2.0570735931396484, 'learning_rate': 9.596167008898016e-06, 'epoch': 0.14}
+{'loss': 1.7347, 'grad_norm': 1.8815388679504395, 'learning_rate': 9.592744695414101e-06, 'epoch': 0.14}
+{'loss': 1.662, 'grad_norm': 1.9568352699279785, 'learning_rate': 9.589322381930185e-06, 'epoch': 0.14}
+{'loss': 1.7318, 'grad_norm': 2.268989324569702, 'learning_rate': 9.58590006844627e-06, 'epoch': 0.14}
+{'loss': 1.6803, 'grad_norm': 1.7474064826965332, 'learning_rate': 9.582477754962355e-06, 'epoch': 0.14}
+{'loss': 1.6861, 'grad_norm': 2.113572359085083, 'learning_rate': 9.57905544147844e-06, 'epoch': 0.14}
+{'eval_loss': 1.9544686079025269, 'eval_runtime': 11.5214, 'eval_samples_per_second': 52.077, 'eval_steps_per_second': 1.128, 'epoch': 0.14}
+{'loss': 1.718, 'grad_norm': 1.9965405464172363, 'learning_rate': 9.575633127994524e-06, 'epoch': 0.14}
+{'loss': 1.6641, 'grad_norm': 1.834114909172058, 'learning_rate': 9.57221081451061e-06, 'epoch': 0.15}
+{'loss': 1.8, 'grad_norm': 2.4099228382110596, 'learning_rate': 9.568788501026695e-06, 'epoch': 0.15}
+{'loss': 1.6754, 'grad_norm': 1.9423693418502808, 'learning_rate': 9.56536618754278e-06, 'epoch': 0.15}
+{'loss': 1.664, 'grad_norm': 2.1213057041168213, 'learning_rate': 9.561943874058865e-06, 'epoch': 0.15}
+{'loss': 1.6587, 'grad_norm': 1.8991202116012573, 'learning_rate': 9.558521560574949e-06, 'epoch': 0.15}
+{'loss': 1.6953, 'grad_norm': 2.1289379596710205, 'learning_rate': 9.555099247091034e-06, 'epoch': 0.15}
+{'loss': 1.6969, 'grad_norm': 1.9584341049194336, 'learning_rate': 9.551676933607119e-06, 'epoch': 0.15}
+{'loss': 1.7837, 'grad_norm': 1.9492852687835693, 'learning_rate': 9.548254620123204e-06, 'epoch': 0.15}
+{'loss': 1.7182, 'grad_norm': 1.910580039024353, 'learning_rate': 9.54483230663929e-06, 'epoch': 0.15}
+{'eval_loss': 1.9453887939453125, 'eval_runtime': 11.5536, 'eval_samples_per_second': 51.932, 'eval_steps_per_second': 1.125, 'epoch': 0.15}
+{'loss': 1.6252, 'grad_norm': 1.8135701417922974, 'learning_rate': 9.541409993155375e-06, 'epoch': 0.16}
+{'loss': 1.658, 'grad_norm': 1.8740917444229126, 'learning_rate': 9.537987679671458e-06, 'epoch': 0.16}
+{'loss': 1.7135, 'grad_norm': 2.038465976715088, 'learning_rate': 9.534565366187543e-06, 'epoch': 0.16}
+{'loss': 1.7024, 'grad_norm': 1.9596689939498901, 'learning_rate': 9.531143052703629e-06, 'epoch': 0.16}
+{'loss': 1.65, 'grad_norm': 1.90118408203125, 'learning_rate': 9.527720739219714e-06, 'epoch': 0.16}
+{'loss': 1.6194, 'grad_norm': 1.9978408813476562, 'learning_rate': 9.524298425735799e-06, 'epoch': 0.16}
+{'loss': 1.6817, 'grad_norm': 1.9306751489639282, 'learning_rate': 9.520876112251883e-06, 'epoch': 0.16}
+{'loss': 1.6856, 'grad_norm': 1.980381727218628, 'learning_rate': 9.517453798767968e-06, 'epoch': 0.16}
+{'loss': 1.6771, 'grad_norm': 1.8978346586227417, 'learning_rate': 9.514031485284053e-06, 'epoch': 0.16}
+{'loss': 1.6888, 'grad_norm': 2.1039364337921143, 'learning_rate': 9.510609171800138e-06, 'epoch': 0.16}
+{'eval_loss': 1.9424564838409424, 'eval_runtime': 11.4167, 'eval_samples_per_second': 52.554, 'eval_steps_per_second': 1.139, 'epoch': 0.16}
+{'loss': 1.6843, 'grad_norm': 1.7545086145401, 'learning_rate': 9.507186858316223e-06, 'epoch': 0.17}
+{'loss': 1.6676, 'grad_norm': 1.781374216079712, 'learning_rate': 9.503764544832309e-06, 'epoch': 0.17}
+{'loss': 1.6338, 'grad_norm': 1.827106237411499, 'learning_rate': 9.500342231348392e-06, 'epoch': 0.17}
+{'loss': 1.6786, 'grad_norm': 1.9784914255142212, 'learning_rate': 9.496919917864477e-06, 'epoch': 0.17}
+{'loss': 1.7259, 'grad_norm': 1.8343596458435059, 'learning_rate': 9.493497604380561e-06, 'epoch': 0.17}
+{'loss': 1.7004, 'grad_norm': 1.8958734273910522, 'learning_rate': 9.490075290896646e-06, 'epoch': 0.17}
+{'loss': 1.6377, 'grad_norm': 1.925555944442749, 'learning_rate': 9.486652977412731e-06, 'epoch': 0.17}
+{'loss': 1.687, 'grad_norm': 1.8795826435089111, 'learning_rate': 9.483230663928817e-06, 'epoch': 0.17}
+{'loss': 1.7291, 'grad_norm': 1.89240562915802, 'learning_rate': 9.479808350444902e-06, 'epoch': 0.17}
+{'loss': 1.7029, 'grad_norm': 1.8946077823638916, 'learning_rate': 9.476386036960985e-06, 'epoch': 0.17}
+{'eval_loss': 1.9437302350997925, 'eval_runtime': 11.4987, 'eval_samples_per_second': 52.18, 'eval_steps_per_second': 1.131, 'epoch': 0.17}
+{'loss': 1.655, 'grad_norm': 2.0084969997406006, 'learning_rate': 9.47296372347707e-06, 'epoch': 0.18}
+{'loss': 1.6452, 'grad_norm': 1.9189505577087402, 'learning_rate': 9.469541409993156e-06, 'epoch': 0.18}
+{'loss': 1.6421, 'grad_norm': 1.9349111318588257, 'learning_rate': 9.466119096509241e-06, 'epoch': 0.18}
+{'loss': 1.5932, 'grad_norm': 2.02848482131958, 'learning_rate': 9.462696783025326e-06, 'epoch': 0.18}
+{'loss': 1.7135, 'grad_norm': 2.1285417079925537, 'learning_rate': 9.459274469541411e-06, 'epoch': 0.18}
+{'loss': 1.6861, 'grad_norm': 2.0271506309509277, 'learning_rate': 9.455852156057495e-06, 'epoch': 0.18}
+{'loss': 1.6089, 'grad_norm': 1.9525021314620972, 'learning_rate': 9.45242984257358e-06, 'epoch': 0.18}
+{'loss': 1.687, 'grad_norm': 1.9755468368530273, 'learning_rate': 9.449007529089665e-06, 'epoch': 0.18}
+{'loss': 1.5771, 'grad_norm': 1.9362246990203857, 'learning_rate': 9.44558521560575e-06, 'epoch': 0.18}
+{'loss': 1.7331, 'grad_norm': 1.9721753597259521, 'learning_rate': 9.442162902121836e-06, 'epoch': 0.18}
+{'eval_loss': 1.9382539987564087, 'eval_runtime': 11.5075, 'eval_samples_per_second': 52.14, 'eval_steps_per_second': 1.13, 'epoch': 0.18}
+{'loss': 1.7037, 'grad_norm': 2.1037437915802, 'learning_rate': 9.43874058863792e-06, 'epoch': 0.19}
+{'loss': 1.7066, 'grad_norm': 1.9612191915512085, 'learning_rate': 9.435318275154005e-06, 'epoch': 0.19}
+{'loss': 1.7168, 'grad_norm': 1.8720465898513794, 'learning_rate': 9.43189596167009e-06, 'epoch': 0.19}
+{'loss': 1.573, 'grad_norm': 1.8674277067184448, 'learning_rate': 9.428473648186175e-06, 'epoch': 0.19}
+{'loss': 1.6041, 'grad_norm': 1.7550997734069824, 'learning_rate': 9.42505133470226e-06, 'epoch': 0.19}
+{'loss': 1.6056, 'grad_norm': 1.8436589241027832, 'learning_rate': 9.421629021218345e-06, 'epoch': 0.19}
+{'loss': 1.6228, 'grad_norm': 2.1146023273468018, 'learning_rate': 9.418206707734429e-06, 'epoch': 0.19}
+{'loss': 1.6785, 'grad_norm': 1.945655107498169, 'learning_rate': 9.414784394250514e-06, 'epoch': 0.19}
+{'loss': 1.6628, 'grad_norm': 2.03094220161438, 'learning_rate': 9.4113620807666e-06, 'epoch': 0.19}
+{'loss': 1.5978, 'grad_norm': 1.8089008331298828, 'learning_rate': 9.407939767282683e-06, 'epoch': 0.2}
+{'eval_loss': 1.923292636871338, 'eval_runtime': 11.4945, 'eval_samples_per_second': 52.199, 'eval_steps_per_second': 1.131, 'epoch': 0.2}
+{'loss': 1.6742, 'grad_norm': 1.8527060747146606, 'learning_rate': 9.404517453798768e-06, 'epoch': 0.2}
+{'loss': 1.6324, 'grad_norm': 1.9459693431854248, 'learning_rate': 9.401095140314853e-06, 'epoch': 0.2}
+{'loss': 1.5955, 'grad_norm': 1.8584229946136475, 'learning_rate': 9.397672826830939e-06, 'epoch': 0.2}
+{'loss': 1.6556, 'grad_norm': 2.1260910034179688, 'learning_rate': 9.394250513347022e-06, 'epoch': 0.2}
+{'loss': 1.6106, 'grad_norm': 1.9477425813674927, 'learning_rate': 9.390828199863107e-06, 'epoch': 0.2}
+{'loss': 1.6207, 'grad_norm': 2.1237452030181885, 'learning_rate': 9.387405886379193e-06, 'epoch': 0.2}
+{'loss': 1.62, 'grad_norm': 1.908958911895752, 'learning_rate': 9.383983572895278e-06, 'epoch': 0.2}
+{'loss': 1.579, 'grad_norm': 1.897413730621338, 'learning_rate': 9.380561259411363e-06, 'epoch': 0.2}
+{'loss': 1.7264, 'grad_norm': 1.982938289642334, 'learning_rate': 9.377138945927448e-06, 'epoch': 0.2}
+{'loss': 1.5912, 'grad_norm': 1.8880170583724976, 'learning_rate': 9.373716632443532e-06, 'epoch': 0.21}
+{'eval_loss': 1.940456748008728, 'eval_runtime': 11.51, 'eval_samples_per_second': 52.129, 'eval_steps_per_second': 1.129, 'epoch': 0.21}
+{'loss': 1.6049, 'grad_norm': 1.9078369140625, 'learning_rate': 9.370294318959617e-06, 'epoch': 0.21}
diff --git a/wandb/run-20241030_222932-sh4rlbgu/files/requirements.txt b/wandb/run-20241030_222932-sh4rlbgu/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_222932-sh4rlbgu/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_222932-sh4rlbgu/files/wandb-metadata.json b/wandb/run-20241030_222932-sh4rlbgu/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..e7f1d5220dcfe5d775b4e5c03f2373f6495ebf51
--- /dev/null
+++ b/wandb/run-20241030_222932-sh4rlbgu/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T02:29:32.388382Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1710969503744"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_222932-sh4rlbgu/logs/debug-internal.log b/wandb/run-20241030_222932-sh4rlbgu/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..5f1b9d6d581266f8fa391180126045233121211f
--- /dev/null
+++ b/wandb/run-20241030_222932-sh4rlbgu/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T22:29:32.391426851-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T22:29:32.391443181-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_222932-sh4rlbgu/logs/debug-core.log"}
+{"time":"2024-10-30T22:29:32.49880507-04:00","level":"INFO","msg":"created new stream","id":"sh4rlbgu"}
+{"time":"2024-10-30T22:29:32.498872511-04:00","level":"INFO","msg":"stream: started","id":"sh4rlbgu"}
+{"time":"2024-10-30T22:29:32.498906531-04:00","level":"INFO","msg":"sender: started","stream_id":"sh4rlbgu"}
+{"time":"2024-10-30T22:29:32.498890911-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"sh4rlbgu"}}
+{"time":"2024-10-30T22:29:32.498912861-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"sh4rlbgu"}}
+{"time":"2024-10-30T22:29:32.680010526-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241030_222932-sh4rlbgu/logs/debug.log b/wandb/run-20241030_222932-sh4rlbgu/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..2a57d0b284d6f422be2442b09ebcf9e85459193c
--- /dev/null
+++ b/wandb/run-20241030_222932-sh4rlbgu/logs/debug.log
@@ -0,0 +1,29 @@
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Configure stats pid to 447695
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_222932-sh4rlbgu/logs/debug.log
+2024-10-30 22:29:32,386 INFO    MainThread:447695 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_222932-sh4rlbgu/logs/debug-internal.log
+2024-10-30 22:29:32,387 INFO    MainThread:447695 [wandb_init.py:init():621] calling init triggers
+2024-10-30 22:29:32,387 INFO    MainThread:447695 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 22:29:32,387 INFO    MainThread:447695 [wandb_init.py:init():671] starting backend
+2024-10-30 22:29:32,387 INFO    MainThread:447695 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 22:29:32,388 INFO    MainThread:447695 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 22:29:32,388 INFO    MainThread:447695 [wandb_init.py:init():688] backend started and connected
+2024-10-30 22:29:32,391 INFO    MainThread:447695 [wandb_init.py:init():783] updated telemetry
+2024-10-30 22:29:32,423 INFO    MainThread:447695 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 22:29:32,676 INFO    MainThread:447695 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 22:29:32,829 INFO    MainThread:447695 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 22:29:32,829 INFO    MainThread:447695 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 22:29:32,829 INFO    MainThread:447695 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 22:29:32,829 INFO    MainThread:447695 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 22:29:32,831 INFO    MainThread:447695 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 22:29:32,832 INFO    MainThread:447695 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
+2024-10-30 22:30:33,674 INFO    MainThread:447695 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B/babylm_reverse_control_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 1, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 1e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 150, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B/babylm_reverse_control_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-10-30 22:30:33,677 INFO    MainThread:447695 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f4e59f99ca0>>
+2024-10-30 22:30:33,677 INFO    MainThread:447695 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
diff --git a/wandb/run-20241030_225833-8n2ypqsf/files/requirements.txt b/wandb/run-20241030_225833-8n2ypqsf/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_225833-8n2ypqsf/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_225833-8n2ypqsf/files/wandb-metadata.json b/wandb/run-20241030_225833-8n2ypqsf/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..773c14cf65c6da0de2cfbe0935ed30dbdfdb1b71
--- /dev/null
+++ b/wandb/run-20241030_225833-8n2ypqsf/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T02:58:33.877727Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1710970511360"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_225833-8n2ypqsf/logs/debug-internal.log b/wandb/run-20241030_225833-8n2ypqsf/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..662a264b351ec178e890e71aab18e30b339c303a
--- /dev/null
+++ b/wandb/run-20241030_225833-8n2ypqsf/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T22:58:33.879612833-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T22:58:33.879627353-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-8n2ypqsf/logs/debug-core.log"}
+{"time":"2024-10-30T22:58:33.985315098-04:00","level":"INFO","msg":"created new stream","id":"8n2ypqsf"}
+{"time":"2024-10-30T22:58:33.985352588-04:00","level":"INFO","msg":"stream: started","id":"8n2ypqsf"}
+{"time":"2024-10-30T22:58:33.985386238-04:00","level":"INFO","msg":"sender: started","stream_id":"8n2ypqsf"}
+{"time":"2024-10-30T22:58:33.985391678-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"8n2ypqsf"}}
+{"time":"2024-10-30T22:58:33.985382408-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"8n2ypqsf"}}
+{"time":"2024-10-30T22:58:34.313843425-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241030_225833-8n2ypqsf/logs/debug.log b/wandb/run-20241030_225833-8n2ypqsf/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..1b9b69bc6e7f934e444daad328e605b8bd24bec4
--- /dev/null
+++ b/wandb/run-20241030_225833-8n2ypqsf/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Configure stats pid to 451912
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 22:58:33,875 INFO    MainThread:451912 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-8n2ypqsf/logs/debug.log
+2024-10-30 22:58:33,876 INFO    MainThread:451912 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-8n2ypqsf/logs/debug-internal.log
+2024-10-30 22:58:33,876 INFO    MainThread:451912 [wandb_init.py:init():621] calling init triggers
+2024-10-30 22:58:33,876 INFO    MainThread:451912 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 22:58:33,876 INFO    MainThread:451912 [wandb_init.py:init():671] starting backend
+2024-10-30 22:58:33,876 INFO    MainThread:451912 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 22:58:33,877 INFO    MainThread:451912 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 22:58:33,877 INFO    MainThread:451912 [wandb_init.py:init():688] backend started and connected
+2024-10-30 22:58:33,880 INFO    MainThread:451912 [wandb_init.py:init():783] updated telemetry
+2024-10-30 22:58:33,918 INFO    MainThread:451912 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 22:58:34,310 INFO    MainThread:451912 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 22:58:34,438 INFO    MainThread:451912 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 22:58:34,439 INFO    MainThread:451912 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 22:58:34,439 INFO    MainThread:451912 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 22:58:34,439 INFO    MainThread:451912 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 22:58:34,441 INFO    MainThread:451912 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 22:58:34,442 INFO    MainThread:451912 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
diff --git a/wandb/run-20241030_231835-tt0m4qwl/logs/debug-internal.log b/wandb/run-20241030_231835-tt0m4qwl/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..5ea653c0211eb6c83d4a68c96c48c790e60cabbd
--- /dev/null
+++ b/wandb/run-20241030_231835-tt0m4qwl/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T23:18:35.224577864-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T23:18:35.224590524-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_231835-tt0m4qwl/logs/debug-core.log"}
+{"time":"2024-10-30T23:18:35.331278766-04:00","level":"INFO","msg":"created new stream","id":"tt0m4qwl"}
+{"time":"2024-10-30T23:18:35.331306166-04:00","level":"INFO","msg":"stream: started","id":"tt0m4qwl"}
+{"time":"2024-10-30T23:18:35.331349607-04:00","level":"INFO","msg":"sender: started","stream_id":"tt0m4qwl"}
+{"time":"2024-10-30T23:18:35.331323777-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"tt0m4qwl"}}
+{"time":"2024-10-30T23:18:35.331352517-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"tt0m4qwl"}}
+{"time":"2024-10-30T23:18:35.53234522-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_000839-ctnl5lvc/files/output.log b/wandb/run-20241031_000839-ctnl5lvc/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..d6efdbdb3803d9d026006f17c829165836e6c204
--- /dev/null
+++ b/wandb/run-20241031_000839-ctnl5lvc/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.32s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 00:09:00,194] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 00:09:09,716] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.350019693374634 seconds
diff --git a/wandb/run-20241031_000839-ctnl5lvc/files/requirements.txt b/wandb/run-20241031_000839-ctnl5lvc/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241031_000839-ctnl5lvc/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241031_000839-ctnl5lvc/files/wandb-metadata.json b/wandb/run-20241031_000839-ctnl5lvc/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..c68696ae90cd01e50c1f5100c71ef65f59ed8385
--- /dev/null
+++ b/wandb/run-20241031_000839-ctnl5lvc/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T04:08:39.124581Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1727270539264"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_000839-ctnl5lvc/logs/debug-internal.log b/wandb/run-20241031_000839-ctnl5lvc/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..aeec1dca19d628811a472c487fa537d40446d3ae
--- /dev/null
+++ b/wandb/run-20241031_000839-ctnl5lvc/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-31T00:08:39.126579154-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T00:08:39.126592314-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-ctnl5lvc/logs/debug-core.log"}
+{"time":"2024-10-31T00:08:39.232175065-04:00","level":"INFO","msg":"created new stream","id":"ctnl5lvc"}
+{"time":"2024-10-31T00:08:39.232207225-04:00","level":"INFO","msg":"stream: started","id":"ctnl5lvc"}
+{"time":"2024-10-31T00:08:39.232261406-04:00","level":"INFO","msg":"sender: started","stream_id":"ctnl5lvc"}
+{"time":"2024-10-31T00:08:39.232228805-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"ctnl5lvc"}}
+{"time":"2024-10-31T00:08:39.232264286-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"ctnl5lvc"}}
+{"time":"2024-10-31T00:08:39.441361111-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_000839-ctnl5lvc/logs/debug.log b/wandb/run-20241031_000839-ctnl5lvc/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d5fcb4fab1f406fd2ce7e7187f06548728608c57
--- /dev/null
+++ b/wandb/run-20241031_000839-ctnl5lvc/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Configure stats pid to 477296
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-ctnl5lvc/logs/debug.log
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_000839-ctnl5lvc/logs/debug-internal.log
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_init.py:init():621] calling init triggers
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_init.py:init():671] starting backend
+2024-10-31 00:08:39,123 INFO    MainThread:477296 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 00:08:39,124 INFO    MainThread:477296 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 00:08:39,124 INFO    MainThread:477296 [wandb_init.py:init():688] backend started and connected
+2024-10-31 00:08:39,126 INFO    MainThread:477296 [wandb_init.py:init():783] updated telemetry
+2024-10-31 00:08:39,152 INFO    MainThread:477296 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 00:08:39,438 INFO    MainThread:477296 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 00:08:39,549 INFO    MainThread:477296 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 00:08:39,549 INFO    MainThread:477296 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 00:08:39,549 INFO    MainThread:477296 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 00:08:39,549 INFO    MainThread:477296 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 00:08:39,550 INFO    MainThread:477296 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 00:08:39,551 INFO    MainThread:477296 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 1e-05}
diff --git a/wandb/run-20241031_000839-ctnl5lvc/run-ctnl5lvc.wandb b/wandb/run-20241031_000839-ctnl5lvc/run-ctnl5lvc.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..829f2f8f3edbdd2a096f29d0b939a333b795316a
Binary files /dev/null and b/wandb/run-20241031_000839-ctnl5lvc/run-ctnl5lvc.wandb differ
diff --git a/wandb/run-20241031_002020-q6ot1vz6/logs/debug.log b/wandb/run-20241031_002020-q6ot1vz6/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..1d44025d68b16814f4191b5bfa6e5122165f039f
--- /dev/null
+++ b/wandb/run-20241031_002020-q6ot1vz6/logs/debug.log
@@ -0,0 +1,33 @@
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Configure stats pid to 484460
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_002020-q6ot1vz6/logs/debug.log
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_002020-q6ot1vz6/logs/debug-internal.log
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_init.py:init():621] calling init triggers
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_init.py:init():671] starting backend
+2024-10-31 00:20:20,448 INFO    MainThread:484460 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 00:20:20,449 INFO    MainThread:484460 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 00:20:20,449 INFO    MainThread:484460 [wandb_init.py:init():688] backend started and connected
+2024-10-31 00:20:20,452 INFO    MainThread:484460 [wandb_init.py:init():783] updated telemetry
+2024-10-31 00:20:20,476 INFO    MainThread:484460 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 00:20:21,380 INFO    MainThread:484460 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 00:20:21,487 INFO    MainThread:484460 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 00:20:21,487 INFO    MainThread:484460 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 00:20:21,487 INFO    MainThread:484460 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 00:20:21,487 INFO    MainThread:484460 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 00:20:21,489 INFO    MainThread:484460 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 00:20:21,489 INFO    MainThread:484460 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 1e-05}
+2024-10-31 09:17:19,685 INFO    MainThread:484460 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/impossible_llm_reverse/q6ot1vz6
+2024-10-31 09:17:19,700 INFO    MainThread:484460 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-10-31 09:17:19,748 INFO    MainThread:484460 [wandb_run.py:_restore():2408] restore
+2024-10-31 09:17:19,749 INFO    MainThread:484460 [wandb_run.py:_restore():2414] restore done
+2024-10-31 09:17:23,121 INFO    MainThread:484460 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-10-31 09:17:23,121 INFO    MainThread:484460 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-10-31 09:17:23,131 INFO    MainThread:484460 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241031_002020-u516mysu/files/wandb-metadata.json b/wandb/run-20241031_002020-u516mysu/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..e570c2303cc97c8fc581fdea7d082065463a9fd6
--- /dev/null
+++ b/wandb/run-20241031_002020-u516mysu/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T04:20:20.446931Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1735150157824"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_002020-u516mysu/files/wandb-summary.json b/wandb/run-20241031_002020-u516mysu/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..896559bbbec87b818ca9c898427219b310e7a3ca
--- /dev/null
+++ b/wandb/run-20241031_002020-u516mysu/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train/global_step":2922,"train_samples_per_second":3.284,"_runtime":32219.326770301,"train_steps_per_second":0.091,"train_loss":1.267335325887479,"train/epoch":6,"eval/samples_per_second":51.772,"train/learning_rate":6.160164271047228e-08,"total_flos":1.821755618831106e+18,"_timestamp":1.7303806396836321e+09,"_wandb":{"runtime":32219},"train/grad_norm":3.2972512245178223,"train_runtime":32012.2915,"eval/loss":1.9240258932113647,"_step":3214,"train/loss":0.9615,"eval/runtime":11.5892,"eval/steps_per_second":1.122}
\ No newline at end of file
diff --git a/wandb/run-20241031_114700-xl5jvngs/files/output.log b/wandb/run-20241031_114700-xl5jvngs/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..1ba9feb776edeb6087ef22364ceb8b39a737aa36
--- /dev/null
+++ b/wandb/run-20241031_114700-xl5jvngs/files/output.log
@@ -0,0 +1,43 @@
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:32<00:00, 76.41s/it]
+Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.73s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 11:49:40,749] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 11:49:49,163] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.897958517074585 seconds
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 220, in <module>
+    trainer.train()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2052, in train
+    return inner_training_loop(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2388, in _inner_training_loop
+    tr_loss_step = self.training_step(model, inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 3518, in training_step
+    self.accelerator.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/accelerator.py", line 2238, in backward
+    self.deepspeed_engine_wrapped.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/utils/deepspeed.py", line 186, in backward
+    self.engine.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/utils/nvtx.py", line 18, in wrapped_fn
+    ret_val = func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 2020, in backward
+    self.optimizer.backward(loss, retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 2063, in backward
+    self.loss_scaler.backward(loss.float(), retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/fp16/loss_scaler.py", line 63, in backward
+    scaled_loss.backward(retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/_tensor.py", line 487, in backward
+    torch.autograd.backward(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/autograd/__init__.py", line 200, in backward
+    Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+KeyboardInterrupt
+Error in atexit._run_exitfuncs:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/ops/transformer/inference/triton/matmul_ext.py", line 27, in is_nfs_path
diff --git a/wandb/run-20241031_114700-xl5jvngs/files/requirements.txt b/wandb/run-20241031_114700-xl5jvngs/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241031_114700-xl5jvngs/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241031_114700-xl5jvngs/files/wandb-metadata.json b/wandb/run-20241031_114700-xl5jvngs/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..31157ad60ba369cb7d285622447cd7dd3b9c71d7
--- /dev/null
+++ b/wandb/run-20241031_114700-xl5jvngs/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T15:47:00.195057Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753158594560"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_114700-xl5jvngs/logs/debug-internal.log b/wandb/run-20241031_114700-xl5jvngs/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..6c85e1babf94d8cfed7655a827b46c32a5dcd8de
--- /dev/null
+++ b/wandb/run-20241031_114700-xl5jvngs/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-31T11:47:00.198431973-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T11:47:00.198457033-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_114700-xl5jvngs/logs/debug-core.log"}
+{"time":"2024-10-31T11:47:00.311644447-04:00","level":"INFO","msg":"created new stream","id":"xl5jvngs"}
+{"time":"2024-10-31T11:47:00.311692627-04:00","level":"INFO","msg":"stream: started","id":"xl5jvngs"}
+{"time":"2024-10-31T11:47:00.311728668-04:00","level":"INFO","msg":"sender: started","stream_id":"xl5jvngs"}
+{"time":"2024-10-31T11:47:00.311711738-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"xl5jvngs"}}
+{"time":"2024-10-31T11:47:00.311729598-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"xl5jvngs"}}
+{"time":"2024-10-31T11:47:00.607247923-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_114700-xl5jvngs/logs/debug.log b/wandb/run-20241031_114700-xl5jvngs/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..e74e5426b6ccd8598878fc8261a37362d9faf6b7
--- /dev/null
+++ b/wandb/run-20241031_114700-xl5jvngs/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Configure stats pid to 554147
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 11:47:00,192 INFO    MainThread:554147 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_114700-xl5jvngs/logs/debug.log
+2024-10-31 11:47:00,193 INFO    MainThread:554147 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_114700-xl5jvngs/logs/debug-internal.log
+2024-10-31 11:47:00,193 INFO    MainThread:554147 [wandb_init.py:init():621] calling init triggers
+2024-10-31 11:47:00,193 INFO    MainThread:554147 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 11:47:00,193 INFO    MainThread:554147 [wandb_init.py:init():671] starting backend
+2024-10-31 11:47:00,193 INFO    MainThread:554147 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 11:47:00,194 INFO    MainThread:554147 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 11:47:00,194 INFO    MainThread:554147 [wandb_init.py:init():688] backend started and connected
+2024-10-31 11:47:00,198 INFO    MainThread:554147 [wandb_init.py:init():783] updated telemetry
+2024-10-31 11:47:00,224 INFO    MainThread:554147 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 11:47:00,604 INFO    MainThread:554147 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 11:47:00,694 INFO    MainThread:554147 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 11:47:00,695 INFO    MainThread:554147 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 11:47:00,695 INFO    MainThread:554147 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 11:47:00,695 INFO    MainThread:554147 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 11:47:00,696 INFO    MainThread:554147 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 11:47:00,696 INFO    MainThread:554147 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 0.0001}
diff --git a/wandb/run-20241101_012612-kwpxhz4q/files/config.yaml b/wandb/run-20241101_012612-kwpxhz4q/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..16d25ee0e4092474360045faaf0959cfc1b3e91d
--- /dev/null
+++ b/wandb/run-20241101_012612-kwpxhz4q/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 6
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_nodeterministic
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241101_012612-xxe4xsbl/files/config.yaml b/wandb/run-20241101_012612-xxe4xsbl/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..16d25ee0e4092474360045faaf0959cfc1b3e91d
--- /dev/null
+++ b/wandb/run-20241101_012612-xxe4xsbl/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 6
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_nodeterministic
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241101_012612-xxe4xsbl/files/output.log b/wandb/run-20241101_012612-xxe4xsbl/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5824b3c1b0e7410256b3374a200db5bd3cc11c9d
--- /dev/null
+++ b/wandb/run-20241101_012612-xxe4xsbl/files/output.log
@@ -0,0 +1,12 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 164, in <module>
+    dataset = load_dataset('babylm_dataset_test.py', name=dataset_name, trust_remote_code=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 2074, in load_dataset
+    builder_instance = load_dataset_builder(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 1832, in load_dataset_builder
+    builder_instance: DatasetBuilder = builder_cls(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 342, in __init__
+    self.config, self.config_id = self._create_builder_config(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 569, in _create_builder_config
+    raise ValueError(
+ValueError: BuilderConfig 'babylm_shuffle_nodeterministic_10M_seed0' not found. Available: ['babylm_hop_control_10M_seed0', 'babylm_hop_tokens4_10M_seed0', 'babylm_hop_words4_10M_seed0', 'babylm_reverse_control_10M_seed0', 'babylm_reverse_partial_10M_seed0', 'babylm_reverse_full_10M_seed0', 'babylm_shuffle_control_10M_seed0', 'babylm_shuffle_nondeterministic_10M_seed0', 'babylm_shuffle_deterministic21_10M_seed0', 'babylm_shuffle_deterministic57_10M_seed0', 'babylm_shuffle_deterministic84_10M_seed0', 'babylm_shuffle_local3_10M_seed0', 'babylm_shuffle_local5_10M_seed0', 'babylm_shuffle_local10_10M_seed0', 'babylm_shuffle_even_odd_10M_seed0']
diff --git a/wandb/run-20241101_012612-xxe4xsbl/files/wandb-metadata.json b/wandb/run-20241101_012612-xxe4xsbl/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..cc902ae493afb8346bbea8963b3faa9b55acbe52
--- /dev/null
+++ b/wandb/run-20241101_012612-xxe4xsbl/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-01T05:26:12.778667Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nodeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753992224768"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_012612-xxe4xsbl/files/wandb-summary.json b/wandb/run-20241101_012612-xxe4xsbl/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6c37fe1cbbb8aed86fd461a79642cb991e4d35cf
--- /dev/null
+++ b/wandb/run-20241101_012612-xxe4xsbl/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":0}}
\ No newline at end of file
diff --git a/wandb/run-20241101_012612-xxe4xsbl/logs/debug-internal.log b/wandb/run-20241101_012612-xxe4xsbl/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..89f2542e8631d1eb54ae7151b5317fa0feadf7ca
--- /dev/null
+++ b/wandb/run-20241101_012612-xxe4xsbl/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-01T01:26:12.780492422-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T01:26:12.780503152-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_012612-xxe4xsbl/logs/debug-core.log"}
+{"time":"2024-11-01T01:26:12.886257426-04:00","level":"INFO","msg":"created new stream","id":"xxe4xsbl"}
+{"time":"2024-11-01T01:26:12.886310127-04:00","level":"INFO","msg":"stream: started","id":"xxe4xsbl"}
+{"time":"2024-11-01T01:26:12.886326247-04:00","level":"INFO","msg":"sender: started","stream_id":"xxe4xsbl"}
+{"time":"2024-11-01T01:26:12.886315187-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"xxe4xsbl"}}
+{"time":"2024-11-01T01:26:12.886356707-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"xxe4xsbl"}}
+{"time":"2024-11-01T01:26:13.097917136-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-01T01:26:13.213973052-04:00","level":"INFO","msg":"stream: closing","id":"xxe4xsbl"}
+{"time":"2024-11-01T01:26:13.214021623-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-01T01:26:13.214491436-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-01T01:26:13.970357776-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-01T01:26:14.086365941-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"xxe4xsbl"}}
+{"time":"2024-11-01T01:26:14.086446122-04:00","level":"INFO","msg":"sender: closed","stream_id":"xxe4xsbl"}
+{"time":"2024-11-01T01:26:14.086432742-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"xxe4xsbl"}}
+{"time":"2024-11-01T01:26:14.086529832-04:00","level":"INFO","msg":"stream: closed","id":"xxe4xsbl"}
diff --git a/wandb/run-20241101_012612-xxe4xsbl/logs/debug.log b/wandb/run-20241101_012612-xxe4xsbl/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..4f6f0b966e39aaaf29d3225d912006f1873e4723
--- /dev/null
+++ b/wandb/run-20241101_012612-xxe4xsbl/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Configure stats pid to 677634
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_012612-xxe4xsbl/logs/debug.log
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_012612-xxe4xsbl/logs/debug-internal.log
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_init.py:init():621] calling init triggers
+2024-11-01 01:26:12,776 INFO    MainThread:677634 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 01:26:12,777 INFO    MainThread:677634 [wandb_init.py:init():671] starting backend
+2024-11-01 01:26:12,777 INFO    MainThread:677634 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 01:26:12,778 INFO    MainThread:677634 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 01:26:12,778 INFO    MainThread:677634 [wandb_init.py:init():688] backend started and connected
+2024-11-01 01:26:12,781 INFO    MainThread:677634 [wandb_init.py:init():783] updated telemetry
+2024-11-01 01:26:12,810 INFO    MainThread:677634 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 01:26:13,094 INFO    MainThread:677634 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 01:26:13,202 INFO    MainThread:677634 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 01:26:13,203 INFO    MainThread:677634 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 01:26:13,203 INFO    MainThread:677634 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 01:26:13,203 INFO    MainThread:677634 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 01:26:13,204 INFO    MainThread:677634 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 01:26:13,205 INFO    MainThread:677634 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nodeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 5e-06}
+2024-11-01 01:26:13,214 WARNING MsgRouterThr:677634 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241101_012612-xxe4xsbl/run-xxe4xsbl.wandb b/wandb/run-20241101_012612-xxe4xsbl/run-xxe4xsbl.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..6e12528e60786aa0d8ffddcede708e1152f11a48
Binary files /dev/null and b/wandb/run-20241101_012612-xxe4xsbl/run-xxe4xsbl.wandb differ
diff --git a/wandb/run-20241101_200517-77b12390/files/config.yaml b/wandb/run-20241101_200517-77b12390/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4e34fec43368c51fb4bd10a24a21dd490ecdba44
--- /dev/null
+++ b/wandb/run-20241101_200517-77b12390/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_nondeterministic
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241101_200517-77b12390/files/requirements.txt b/wandb/run-20241101_200517-77b12390/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_200517-77b12390/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_201708-vqhiyzcg/files/output.log b/wandb/run-20241101_201708-vqhiyzcg/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..deb5c8eb534f57bd3f0f28ceffd9f32766a7b50c
--- /dev/null
+++ b/wandb/run-20241101_201708-vqhiyzcg/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.48s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-01 20:17:16,678] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-01 20:17:25,940] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.043281316757202 seconds
diff --git a/wandb/run-20241101_201708-vqhiyzcg/files/requirements.txt b/wandb/run-20241101_201708-vqhiyzcg/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_201708-vqhiyzcg/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_201708-vqhiyzcg/logs/debug.log b/wandb/run-20241101_201708-vqhiyzcg/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..1ffc7a84887bad926d07f1290b8d55048700144f
--- /dev/null
+++ b/wandb/run-20241101_201708-vqhiyzcg/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Configure stats pid to 875621
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 20:17:08,009 INFO    MainThread:875621 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 20:17:08,010 INFO    MainThread:875621 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201708-vqhiyzcg/logs/debug.log
+2024-11-01 20:17:08,010 INFO    MainThread:875621 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201708-vqhiyzcg/logs/debug-internal.log
+2024-11-01 20:17:08,010 INFO    MainThread:875621 [wandb_init.py:init():621] calling init triggers
+2024-11-01 20:17:08,010 INFO    MainThread:875621 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 20:17:08,010 INFO    MainThread:875621 [wandb_init.py:init():671] starting backend
+2024-11-01 20:17:08,010 INFO    MainThread:875621 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 20:17:08,012 INFO    MainThread:875621 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 20:17:08,012 INFO    MainThread:875621 [wandb_init.py:init():688] backend started and connected
+2024-11-01 20:17:08,015 INFO    MainThread:875621 [wandb_init.py:init():783] updated telemetry
+2024-11-01 20:17:08,037 INFO    MainThread:875621 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 20:17:10,001 INFO    MainThread:875621 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 20:17:10,089 INFO    MainThread:875621 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 20:17:10,090 INFO    MainThread:875621 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 20:17:10,090 INFO    MainThread:875621 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 20:17:10,090 INFO    MainThread:875621 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 20:17:10,091 INFO    MainThread:875621 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 20:17:10,091 INFO    MainThread:875621 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nondeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241101_201708-vqhiyzcg/run-vqhiyzcg.wandb b/wandb/run-20241101_201708-vqhiyzcg/run-vqhiyzcg.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..9d00a0a66f30a347d020cd0b6fc92d33d5a169f6
Binary files /dev/null and b/wandb/run-20241101_201708-vqhiyzcg/run-vqhiyzcg.wandb differ
diff --git a/wandb/run-20241101_201926-luxs3sga/files/output.log b/wandb/run-20241101_201926-luxs3sga/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..1472fd9308eb65579de4e8392fec6ad82f450bc4
--- /dev/null
+++ b/wandb/run-20241101_201926-luxs3sga/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.46s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-01 20:19:33,860] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-01 20:19:43,151] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.5381553173065186 seconds
diff --git a/wandb/run-20241101_201926-luxs3sga/files/requirements.txt b/wandb/run-20241101_201926-luxs3sga/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_201926-luxs3sga/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_201926-luxs3sga/files/wandb-metadata.json b/wandb/run-20241101_201926-luxs3sga/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..937aa248f64759debdae7a1e9114fa4158e7f0ac
--- /dev/null
+++ b/wandb/run-20241101_201926-luxs3sga/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:19:26.907833Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754803675136"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_201926-luxs3sga/logs/debug.log b/wandb/run-20241101_201926-luxs3sga/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..70bfcb58fec18b65e25e95d747df4817e01c0801
--- /dev/null
+++ b/wandb/run-20241101_201926-luxs3sga/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Configure stats pid to 878466
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201926-luxs3sga/logs/debug.log
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201926-luxs3sga/logs/debug-internal.log
+2024-11-01 20:19:26,905 INFO    MainThread:878466 [wandb_init.py:init():621] calling init triggers
+2024-11-01 20:19:26,906 INFO    MainThread:878466 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 20:19:26,906 INFO    MainThread:878466 [wandb_init.py:init():671] starting backend
+2024-11-01 20:19:26,906 INFO    MainThread:878466 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 20:19:26,907 INFO    MainThread:878466 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 20:19:26,907 INFO    MainThread:878466 [wandb_init.py:init():688] backend started and connected
+2024-11-01 20:19:26,911 INFO    MainThread:878466 [wandb_init.py:init():783] updated telemetry
+2024-11-01 20:19:26,943 INFO    MainThread:878466 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 20:19:27,181 INFO    MainThread:878466 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 20:19:27,301 INFO    MainThread:878466 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 20:19:27,302 INFO    MainThread:878466 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 20:19:27,302 INFO    MainThread:878466 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 20:19:27,302 INFO    MainThread:878466 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 20:19:27,303 INFO    MainThread:878466 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 20:19:27,303 INFO    MainThread:878466 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nondeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241101_201926-luxs3sga/run-luxs3sga.wandb b/wandb/run-20241101_201926-luxs3sga/run-luxs3sga.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..7c6cb20a4193843f30dd7008dc00c885abf09892
Binary files /dev/null and b/wandb/run-20241101_201926-luxs3sga/run-luxs3sga.wandb differ
diff --git a/wandb/run-20241105_160059-czoj7ear/files/wandb-metadata.json b/wandb/run-20241105_160059-czoj7ear/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..a6385c1b96b938a69f9ce47753df0b438c8983a0
--- /dev/null
+++ b/wandb/run-20241105_160059-czoj7ear/files/wandb-metadata.json
@@ -0,0 +1,44 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T21:00:59.419685Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic21",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1792550322176"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  }
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_163248-rhhc1g6i/files/output.log b/wandb/run-20241105_163248-rhhc1g6i/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..47df9e4702ec4eddea2eabd65ec6aeef05214528
--- /dev/null
+++ b/wandb/run-20241105_163248-rhhc1g6i/files/output.log
@@ -0,0 +1,897 @@
+model-00001-of-00002.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.97G/4.97G [00:38<00:00, 41.9MB/s]
+model-00002-of-00002.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 1.46G/1.46G [00:34<00:00, 42.3MB/s]
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [01:13<00:00, 36.80s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.03s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-05 16:34:10,250] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-05 16:34:19,039] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-05 16:34:19,040] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.276744604110718 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                       
+{'loss': 3.0476, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0289, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.9935, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0139, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.9892, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.1252, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0291, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0607, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0306, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0811, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                       
+{'eval_loss': 3.0861313343048096, 'eval_runtime': 37.9342, 'eval_samples_per_second': 26.361, 'eval_steps_per_second': 1.107, 'epoch': 0.01}
+{'loss': 3.0693, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9668, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.052, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0363, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 3.0778, 'grad_norm': 5.58175802230835, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 3.0257, 'grad_norm': 6.360531806945801, 'learning_rate': 3.6496350364963505e-08, 'epoch': 0.02}
+{'loss': 3.0262, 'grad_norm': 6.453113555908203, 'learning_rate': 5.4744525547445264e-08, 'epoch': 0.02}
+{'loss': 3.0671, 'grad_norm': 6.789405345916748, 'learning_rate': 7.299270072992701e-08, 'epoch': 0.02}
+{'loss': 3.0077, 'grad_norm': 6.185514450073242, 'learning_rate': 9.124087591240876e-08, 'epoch': 0.02}
+{'loss': 3.089, 'grad_norm': 5.719798564910889, 'learning_rate': 1.0948905109489053e-07, 'epoch': 0.02}
+{'eval_loss': 3.0846781730651855, 'eval_runtime': 37.4867, 'eval_samples_per_second': 26.676, 'eval_steps_per_second': 1.12, 'epoch': 0.02}
+{'loss': 3.0641, 'grad_norm': 6.307768821716309, 'learning_rate': 1.2773722627737227e-07, 'epoch': 0.02}
+{'loss': 2.9849, 'grad_norm': 6.255112171173096, 'learning_rate': 1.4598540145985402e-07, 'epoch': 0.02}
+{'loss': 3.0211, 'grad_norm': 5.812101364135742, 'learning_rate': 1.642335766423358e-07, 'epoch': 0.03}
+{'loss': 3.0654, 'grad_norm': 6.262075901031494, 'learning_rate': 1.8248175182481753e-07, 'epoch': 0.03}
+{'loss': 3.0661, 'grad_norm': 5.419229507446289, 'learning_rate': 2.0072992700729928e-07, 'epoch': 0.03}
+{'loss': 3.0494, 'grad_norm': 4.750737190246582, 'learning_rate': 2.1897810218978106e-07, 'epoch': 0.03}
+{'loss': 3.0471, 'grad_norm': 4.732361316680908, 'learning_rate': 2.3722627737226278e-07, 'epoch': 0.03}
+{'loss': 3.0107, 'grad_norm': 4.749786853790283, 'learning_rate': 2.5547445255474454e-07, 'epoch': 0.03}
+{'loss': 2.9987, 'grad_norm': 4.451244831085205, 'learning_rate': 2.737226277372263e-07, 'epoch': 0.03}
+{'loss': 2.9686, 'grad_norm': 4.5158257484436035, 'learning_rate': 2.9197080291970804e-07, 'epoch': 0.03}
+{'eval_loss': 3.0404536724090576, 'eval_runtime': 37.23, 'eval_samples_per_second': 26.86, 'eval_steps_per_second': 1.128, 'epoch': 0.03}
+{'loss': 3.0057, 'grad_norm': 3.8239498138427734, 'learning_rate': 3.102189781021898e-07, 'epoch': 0.03}
+{'loss': 2.9733, 'grad_norm': 4.037254810333252, 'learning_rate': 3.284671532846716e-07, 'epoch': 0.04}
+{'loss': 2.9515, 'grad_norm': 4.283931732177734, 'learning_rate': 3.467153284671533e-07, 'epoch': 0.04}
+{'loss': 2.9483, 'grad_norm': 4.1784987449646, 'learning_rate': 3.6496350364963505e-07, 'epoch': 0.04}
+{'loss': 2.9679, 'grad_norm': 3.9210753440856934, 'learning_rate': 3.8321167883211686e-07, 'epoch': 0.04}
+{'loss': 2.9989, 'grad_norm': 3.72884202003479, 'learning_rate': 4.0145985401459856e-07, 'epoch': 0.04}
+{'loss': 2.9384, 'grad_norm': 3.2882330417633057, 'learning_rate': 4.197080291970803e-07, 'epoch': 0.04}
+{'loss': 2.8986, 'grad_norm': 3.515293836593628, 'learning_rate': 4.379562043795621e-07, 'epoch': 0.04}
+{'loss': 2.9854, 'grad_norm': 3.568453073501587, 'learning_rate': 4.562043795620438e-07, 'epoch': 0.04}
+{'loss': 2.8891, 'grad_norm': 3.389789342880249, 'learning_rate': 4.7445255474452557e-07, 'epoch': 0.04}
+{'eval_loss': 2.9720966815948486, 'eval_runtime': 37.3077, 'eval_samples_per_second': 26.804, 'eval_steps_per_second': 1.126, 'epoch': 0.04}
+{'loss': 2.9271, 'grad_norm': 3.1826283931732178, 'learning_rate': 4.927007299270073e-07, 'epoch': 0.04}
+{'loss': 2.9486, 'grad_norm': 2.941539764404297, 'learning_rate': 5.109489051094891e-07, 'epoch': 0.05}
+{'loss': 2.9252, 'grad_norm': 3.0076773166656494, 'learning_rate': 5.291970802919708e-07, 'epoch': 0.05}
+{'loss': 2.9277, 'grad_norm': 2.79028582572937, 'learning_rate': 5.474452554744526e-07, 'epoch': 0.05}
+{'loss': 2.9144, 'grad_norm': 2.603456735610962, 'learning_rate': 5.656934306569343e-07, 'epoch': 0.05}
+{'loss': 2.8732, 'grad_norm': 2.674888849258423, 'learning_rate': 5.839416058394161e-07, 'epoch': 0.05}
+{'loss': 2.8623, 'grad_norm': 2.972093343734741, 'learning_rate': 6.021897810218979e-07, 'epoch': 0.05}
+{'loss': 2.8941, 'grad_norm': 2.757766008377075, 'learning_rate': 6.204379562043796e-07, 'epoch': 0.05}
+{'loss': 2.8101, 'grad_norm': 2.910634994506836, 'learning_rate': 6.386861313868614e-07, 'epoch': 0.05}
+{'loss': 2.9262, 'grad_norm': 2.5542638301849365, 'learning_rate': 6.569343065693432e-07, 'epoch': 0.05}
+{'eval_loss': 2.891536235809326, 'eval_runtime': 37.3132, 'eval_samples_per_second': 26.8, 'eval_steps_per_second': 1.126, 'epoch': 0.05}
+{'loss': 2.8217, 'grad_norm': 2.333974599838257, 'learning_rate': 6.751824817518248e-07, 'epoch': 0.06}
+{'loss': 2.8483, 'grad_norm': 2.181022882461548, 'learning_rate': 6.934306569343066e-07, 'epoch': 0.06}
+{'loss': 2.7788, 'grad_norm': 2.12200927734375, 'learning_rate': 7.116788321167883e-07, 'epoch': 0.06}
+{'loss': 2.7774, 'grad_norm': 2.052626371383667, 'learning_rate': 7.299270072992701e-07, 'epoch': 0.06}
+{'loss': 2.8045, 'grad_norm': 2.11487078666687, 'learning_rate': 7.48175182481752e-07, 'epoch': 0.06}
+{'loss': 2.8119, 'grad_norm': 2.083588123321533, 'learning_rate': 7.664233576642337e-07, 'epoch': 0.06}
+{'loss': 2.82, 'grad_norm': 2.2079808712005615, 'learning_rate': 7.846715328467154e-07, 'epoch': 0.06}
+{'loss': 2.794, 'grad_norm': 2.100802421569824, 'learning_rate': 8.029197080291971e-07, 'epoch': 0.06}
+{'loss': 2.7444, 'grad_norm': 1.8322066068649292, 'learning_rate': 8.211678832116789e-07, 'epoch': 0.06}
+{'loss': 2.7093, 'grad_norm': 2.077005386352539, 'learning_rate': 8.394160583941606e-07, 'epoch': 0.07}
+{'eval_loss': 2.825718402862549, 'eval_runtime': 37.3685, 'eval_samples_per_second': 26.761, 'eval_steps_per_second': 1.124, 'epoch': 0.07}
+{'loss': 2.7446, 'grad_norm': 2.1688592433929443, 'learning_rate': 8.576642335766425e-07, 'epoch': 0.07}
+{'loss': 2.736, 'grad_norm': 2.1709237098693848, 'learning_rate': 8.759124087591242e-07, 'epoch': 0.07}
+{'loss': 2.7583, 'grad_norm': 2.3578364849090576, 'learning_rate': 8.94160583941606e-07, 'epoch': 0.07}
+{'loss': 2.7651, 'grad_norm': 1.9025483131408691, 'learning_rate': 9.124087591240876e-07, 'epoch': 0.07}
+{'loss': 2.7186, 'grad_norm': 1.9450963735580444, 'learning_rate': 9.306569343065694e-07, 'epoch': 0.07}
+{'loss': 2.7421, 'grad_norm': 1.957723617553711, 'learning_rate': 9.489051094890511e-07, 'epoch': 0.07}
+{'loss': 2.7258, 'grad_norm': 1.9823631048202515, 'learning_rate': 9.67153284671533e-07, 'epoch': 0.07}
+{'loss': 2.7733, 'grad_norm': 1.945495843887329, 'learning_rate': 9.854014598540146e-07, 'epoch': 0.07}
+{'loss': 2.7041, 'grad_norm': 1.9684759378433228, 'learning_rate': 1.0036496350364965e-06, 'epoch': 0.08}
+{'loss': 2.6662, 'grad_norm': 2.087336540222168, 'learning_rate': 1.0218978102189781e-06, 'epoch': 0.08}
+{'eval_loss': 2.7607221603393555, 'eval_runtime': 37.3368, 'eval_samples_per_second': 26.783, 'eval_steps_per_second': 1.125, 'epoch': 0.08}
+{'loss': 2.7379, 'grad_norm': 1.7790117263793945, 'learning_rate': 1.04014598540146e-06, 'epoch': 0.08}
+{'loss': 2.6234, 'grad_norm': 2.2780861854553223, 'learning_rate': 1.0583941605839416e-06, 'epoch': 0.08}
+{'loss': 2.6248, 'grad_norm': 2.1144700050354004, 'learning_rate': 1.0766423357664233e-06, 'epoch': 0.08}
+{'loss': 2.6456, 'grad_norm': 2.0247490406036377, 'learning_rate': 1.0948905109489052e-06, 'epoch': 0.08}
+{'loss': 2.6759, 'grad_norm': 2.702547311782837, 'learning_rate': 1.113138686131387e-06, 'epoch': 0.08}
+{'loss': 2.6845, 'grad_norm': 1.8208750486373901, 'learning_rate': 1.1313868613138687e-06, 'epoch': 0.08}
+{'loss': 2.61, 'grad_norm': 2.3829221725463867, 'learning_rate': 1.1496350364963505e-06, 'epoch': 0.08}
+{'loss': 2.5896, 'grad_norm': 2.580885887145996, 'learning_rate': 1.1678832116788322e-06, 'epoch': 0.09}
+{'loss': 2.596, 'grad_norm': 2.2477641105651855, 'learning_rate': 1.1861313868613138e-06, 'epoch': 0.09}
+{'loss': 2.5906, 'grad_norm': 2.1895623207092285, 'learning_rate': 1.2043795620437959e-06, 'epoch': 0.09}
+{'eval_loss': 2.689420223236084, 'eval_runtime': 37.2997, 'eval_samples_per_second': 26.81, 'eval_steps_per_second': 1.126, 'epoch': 0.09}
+{'loss': 2.6005, 'grad_norm': 2.217090606689453, 'learning_rate': 1.2226277372262775e-06, 'epoch': 0.09}
+{'loss': 2.6333, 'grad_norm': 2.4679362773895264, 'learning_rate': 1.2408759124087592e-06, 'epoch': 0.09}
+{'loss': 2.5814, 'grad_norm': 2.2590575218200684, 'learning_rate': 1.259124087591241e-06, 'epoch': 0.09}
+{'loss': 2.5948, 'grad_norm': 1.877977728843689, 'learning_rate': 1.2773722627737229e-06, 'epoch': 0.09}
+{'loss': 2.5781, 'grad_norm': 2.1535534858703613, 'learning_rate': 1.2956204379562045e-06, 'epoch': 0.09}
+{'loss': 2.5339, 'grad_norm': 2.5001144409179688, 'learning_rate': 1.3138686131386864e-06, 'epoch': 0.09}
+{'loss': 2.545, 'grad_norm': 2.3279049396514893, 'learning_rate': 1.332116788321168e-06, 'epoch': 0.1}
+{'loss': 2.4745, 'grad_norm': 2.2230734825134277, 'learning_rate': 1.3503649635036497e-06, 'epoch': 0.1}
+{'loss': 2.516, 'grad_norm': 2.8762636184692383, 'learning_rate': 1.3686131386861315e-06, 'epoch': 0.1}
+{'loss': 2.4547, 'grad_norm': 2.153506278991699, 'learning_rate': 1.3868613138686132e-06, 'epoch': 0.1}
+{'eval_loss': 2.6113998889923096, 'eval_runtime': 37.3003, 'eval_samples_per_second': 26.809, 'eval_steps_per_second': 1.126, 'epoch': 0.1}
+{'loss': 2.547, 'grad_norm': 2.4143614768981934, 'learning_rate': 1.405109489051095e-06, 'epoch': 0.1}
+{'loss': 2.5009, 'grad_norm': 2.354632616043091, 'learning_rate': 1.4233576642335767e-06, 'epoch': 0.1}
+{'loss': 2.5304, 'grad_norm': 2.6605563163757324, 'learning_rate': 1.4416058394160583e-06, 'epoch': 0.1}
+{'loss': 2.4925, 'grad_norm': 2.3724122047424316, 'learning_rate': 1.4598540145985402e-06, 'epoch': 0.1}
+{'loss': 2.4592, 'grad_norm': 3.6323022842407227, 'learning_rate': 1.478102189781022e-06, 'epoch': 0.1}
+{'loss': 2.5223, 'grad_norm': 2.3407089710235596, 'learning_rate': 1.496350364963504e-06, 'epoch': 0.11}
+{'loss': 2.489, 'grad_norm': 2.8238413333892822, 'learning_rate': 1.5145985401459856e-06, 'epoch': 0.11}
+{'loss': 2.5101, 'grad_norm': 2.6433658599853516, 'learning_rate': 1.5328467153284674e-06, 'epoch': 0.11}
+{'loss': 2.4642, 'grad_norm': 2.562761068344116, 'learning_rate': 1.551094890510949e-06, 'epoch': 0.11}
+{'loss': 2.4102, 'grad_norm': 2.4501149654388428, 'learning_rate': 1.5693430656934307e-06, 'epoch': 0.11}
+{'eval_loss': 2.553553581237793, 'eval_runtime': 37.381, 'eval_samples_per_second': 26.752, 'eval_steps_per_second': 1.124, 'epoch': 0.11}
+{'loss': 2.4147, 'grad_norm': 2.475864887237549, 'learning_rate': 1.5875912408759126e-06, 'epoch': 0.11}
+{'loss': 2.4694, 'grad_norm': 2.558875322341919, 'learning_rate': 1.6058394160583942e-06, 'epoch': 0.11}
+{'loss': 2.5099, 'grad_norm': 2.1085734367370605, 'learning_rate': 1.624087591240876e-06, 'epoch': 0.11}
+{'loss': 2.432, 'grad_norm': 2.410731792449951, 'learning_rate': 1.6423357664233577e-06, 'epoch': 0.11}
+{'loss': 2.3669, 'grad_norm': 2.2800745964050293, 'learning_rate': 1.6605839416058394e-06, 'epoch': 0.12}
+{'loss': 2.4145, 'grad_norm': 2.2234933376312256, 'learning_rate': 1.6788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.4272, 'grad_norm': 2.3367040157318115, 'learning_rate': 1.6970802919708029e-06, 'epoch': 0.12}
+{'loss': 2.3478, 'grad_norm': 2.7002811431884766, 'learning_rate': 1.715328467153285e-06, 'epoch': 0.12}
+{'loss': 2.4096, 'grad_norm': 2.6628332138061523, 'learning_rate': 1.7335766423357666e-06, 'epoch': 0.12}
+{'loss': 2.407, 'grad_norm': 2.4174230098724365, 'learning_rate': 1.7518248175182485e-06, 'epoch': 0.12}
+{'eval_loss': 2.4996509552001953, 'eval_runtime': 37.4912, 'eval_samples_per_second': 26.673, 'eval_steps_per_second': 1.12, 'epoch': 0.12}
+{'loss': 2.4369, 'grad_norm': 2.24796986579895, 'learning_rate': 1.77007299270073e-06, 'epoch': 0.12}
+{'loss': 2.4116, 'grad_norm': 2.720939874649048, 'learning_rate': 1.788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.4577, 'grad_norm': 2.6907670497894287, 'learning_rate': 1.8065693430656936e-06, 'epoch': 0.12}
+{'loss': 2.3999, 'grad_norm': 2.559636354446411, 'learning_rate': 1.8248175182481753e-06, 'epoch': 0.12}
+{'loss': 2.3428, 'grad_norm': 2.6730551719665527, 'learning_rate': 1.8430656934306571e-06, 'epoch': 0.13}
+{'loss': 2.3722, 'grad_norm': 3.172179937362671, 'learning_rate': 1.8613138686131388e-06, 'epoch': 0.13}
+{'loss': 2.3572, 'grad_norm': 2.6757171154022217, 'learning_rate': 1.8795620437956206e-06, 'epoch': 0.13}
+{'loss': 2.353, 'grad_norm': 2.5840766429901123, 'learning_rate': 1.8978102189781023e-06, 'epoch': 0.13}
+{'loss': 2.36, 'grad_norm': 2.6248581409454346, 'learning_rate': 1.916058394160584e-06, 'epoch': 0.13}
+{'loss': 2.3821, 'grad_norm': 2.428516387939453, 'learning_rate': 1.934306569343066e-06, 'epoch': 0.13}
+{'eval_loss': 2.459484815597534, 'eval_runtime': 37.5775, 'eval_samples_per_second': 26.612, 'eval_steps_per_second': 1.118, 'epoch': 0.13}
+{'loss': 2.2778, 'grad_norm': 2.9956233501434326, 'learning_rate': 1.952554744525548e-06, 'epoch': 0.13}
+{'loss': 2.325, 'grad_norm': 2.4120893478393555, 'learning_rate': 1.9708029197080293e-06, 'epoch': 0.13}
+{'loss': 2.3248, 'grad_norm': 2.1410024166107178, 'learning_rate': 1.989051094890511e-06, 'epoch': 0.13}
+{'loss': 2.327, 'grad_norm': 2.923799514770508, 'learning_rate': 2.007299270072993e-06, 'epoch': 0.14}
+{'loss': 2.3847, 'grad_norm': 3.0770339965820312, 'learning_rate': 2.025547445255475e-06, 'epoch': 0.14}
+{'loss': 2.3196, 'grad_norm': 2.6408181190490723, 'learning_rate': 2.0437956204379563e-06, 'epoch': 0.14}
+{'loss': 2.3287, 'grad_norm': 2.9127118587493896, 'learning_rate': 2.062043795620438e-06, 'epoch': 0.14}
+{'loss': 2.3243, 'grad_norm': 2.9805052280426025, 'learning_rate': 2.08029197080292e-06, 'epoch': 0.14}
+{'loss': 2.38, 'grad_norm': 3.1342010498046875, 'learning_rate': 2.0985401459854014e-06, 'epoch': 0.14}
+{'loss': 2.2727, 'grad_norm': 2.678422451019287, 'learning_rate': 2.1167883211678833e-06, 'epoch': 0.14}
+{'eval_loss': 2.4268853664398193, 'eval_runtime': 37.1495, 'eval_samples_per_second': 26.918, 'eval_steps_per_second': 1.131, 'epoch': 0.14}
+{'loss': 2.3327, 'grad_norm': 2.9281492233276367, 'learning_rate': 2.135036496350365e-06, 'epoch': 0.14}
+{'loss': 2.3674, 'grad_norm': 2.9592933654785156, 'learning_rate': 2.1532846715328466e-06, 'epoch': 0.14}
+{'loss': 2.2679, 'grad_norm': 3.404761552810669, 'learning_rate': 2.171532846715329e-06, 'epoch': 0.15}
+{'loss': 2.2799, 'grad_norm': 3.635571241378784, 'learning_rate': 2.1897810218978103e-06, 'epoch': 0.15}
+{'loss': 2.3263, 'grad_norm': 3.9130170345306396, 'learning_rate': 2.208029197080292e-06, 'epoch': 0.15}
+{'loss': 2.2969, 'grad_norm': 4.300438404083252, 'learning_rate': 2.226277372262774e-06, 'epoch': 0.15}
+{'loss': 2.297, 'grad_norm': 2.863511085510254, 'learning_rate': 2.244525547445256e-06, 'epoch': 0.15}
+{'loss': 2.3269, 'grad_norm': 4.910321235656738, 'learning_rate': 2.2627737226277373e-06, 'epoch': 0.15}
+{'loss': 2.3195, 'grad_norm': 3.3323862552642822, 'learning_rate': 2.281021897810219e-06, 'epoch': 0.15}
+{'loss': 2.2797, 'grad_norm': 3.2672693729400635, 'learning_rate': 2.299270072992701e-06, 'epoch': 0.15}
+{'eval_loss': 2.402122974395752, 'eval_runtime': 37.1754, 'eval_samples_per_second': 26.9, 'eval_steps_per_second': 1.13, 'epoch': 0.15}
+{'loss': 2.2718, 'grad_norm': 3.9229774475097656, 'learning_rate': 2.3175182481751825e-06, 'epoch': 0.15}
+{'loss': 2.2828, 'grad_norm': 2.6409823894500732, 'learning_rate': 2.3357664233576643e-06, 'epoch': 0.16}
+{'loss': 2.247, 'grad_norm': 4.6122612953186035, 'learning_rate': 2.354014598540146e-06, 'epoch': 0.16}
+{'loss': 2.2863, 'grad_norm': 3.391357898712158, 'learning_rate': 2.3722627737226276e-06, 'epoch': 0.16}
+{'loss': 2.2789, 'grad_norm': 3.3550853729248047, 'learning_rate': 2.39051094890511e-06, 'epoch': 0.16}
+{'loss': 2.2297, 'grad_norm': 3.7376883029937744, 'learning_rate': 2.4087591240875918e-06, 'epoch': 0.16}
+{'loss': 2.2467, 'grad_norm': 3.005157709121704, 'learning_rate': 2.427007299270073e-06, 'epoch': 0.16}
+{'loss': 2.2612, 'grad_norm': 3.4616103172302246, 'learning_rate': 2.445255474452555e-06, 'epoch': 0.16}
+{'loss': 2.3021, 'grad_norm': 3.3595101833343506, 'learning_rate': 2.463503649635037e-06, 'epoch': 0.16}
+{'loss': 2.2174, 'grad_norm': 4.831241607666016, 'learning_rate': 2.4817518248175183e-06, 'epoch': 0.16}
+{'eval_loss': 2.3749918937683105, 'eval_runtime': 37.1895, 'eval_samples_per_second': 26.889, 'eval_steps_per_second': 1.129, 'epoch': 0.16}
+{'loss': 2.1856, 'grad_norm': 2.778820037841797, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 2.3186, 'grad_norm': 4.566643714904785, 'learning_rate': 2.518248175182482e-06, 'epoch': 0.17}
+{'loss': 2.2127, 'grad_norm': 2.9908089637756348, 'learning_rate': 2.5364963503649635e-06, 'epoch': 0.17}
+{'loss': 2.2071, 'grad_norm': 2.9702792167663574, 'learning_rate': 2.5547445255474458e-06, 'epoch': 0.17}
+{'loss': 2.2585, 'grad_norm': 2.850044012069702, 'learning_rate': 2.5729927007299272e-06, 'epoch': 0.17}
+{'loss': 2.2397, 'grad_norm': 2.926091432571411, 'learning_rate': 2.591240875912409e-06, 'epoch': 0.17}
+{'loss': 2.2306, 'grad_norm': 2.8720169067382812, 'learning_rate': 2.6094890510948905e-06, 'epoch': 0.17}
+{'loss': 2.2666, 'grad_norm': 2.8837177753448486, 'learning_rate': 2.627737226277373e-06, 'epoch': 0.17}
+{'loss': 2.2722, 'grad_norm': 3.119621753692627, 'learning_rate': 2.6459854014598542e-06, 'epoch': 0.17}
+{'loss': 2.2346, 'grad_norm': 2.7085700035095215, 'learning_rate': 2.664233576642336e-06, 'epoch': 0.18}
+{'eval_loss': 2.358635663986206, 'eval_runtime': 37.2506, 'eval_samples_per_second': 26.845, 'eval_steps_per_second': 1.127, 'epoch': 0.18}
+{'loss': 2.2155, 'grad_norm': 2.9964346885681152, 'learning_rate': 2.6824817518248175e-06, 'epoch': 0.18}
+{'loss': 2.235, 'grad_norm': 3.1535208225250244, 'learning_rate': 2.7007299270072994e-06, 'epoch': 0.18}
+{'loss': 2.2095, 'grad_norm': 2.7240943908691406, 'learning_rate': 2.718978102189781e-06, 'epoch': 0.18}
+{'loss': 2.2667, 'grad_norm': 3.122654676437378, 'learning_rate': 2.737226277372263e-06, 'epoch': 0.18}
+{'loss': 2.2499, 'grad_norm': 2.9718410968780518, 'learning_rate': 2.755474452554745e-06, 'epoch': 0.18}
+{'loss': 2.2089, 'grad_norm': 3.0081896781921387, 'learning_rate': 2.7737226277372264e-06, 'epoch': 0.18}
+{'loss': 2.3139, 'grad_norm': 2.829509973526001, 'learning_rate': 2.7919708029197082e-06, 'epoch': 0.18}
+{'loss': 2.2705, 'grad_norm': 3.4480397701263428, 'learning_rate': 2.81021897810219e-06, 'epoch': 0.18}
+{'loss': 2.1895, 'grad_norm': 3.1107025146484375, 'learning_rate': 2.828467153284672e-06, 'epoch': 0.19}
+{'loss': 2.2317, 'grad_norm': 2.916790008544922, 'learning_rate': 2.8467153284671534e-06, 'epoch': 0.19}
+{'eval_loss': 2.3434813022613525, 'eval_runtime': 37.3024, 'eval_samples_per_second': 26.808, 'eval_steps_per_second': 1.126, 'epoch': 0.19}
+{'loss': 2.143, 'grad_norm': 3.2582287788391113, 'learning_rate': 2.8649635036496353e-06, 'epoch': 0.19}
+{'loss': 2.1977, 'grad_norm': 2.430973768234253, 'learning_rate': 2.8832116788321167e-06, 'epoch': 0.19}
+{'loss': 2.1551, 'grad_norm': 2.8763599395751953, 'learning_rate': 2.901459854014599e-06, 'epoch': 0.19}
+{'loss': 2.2569, 'grad_norm': 2.9242653846740723, 'learning_rate': 2.9197080291970804e-06, 'epoch': 0.19}
+{'loss': 2.2329, 'grad_norm': 2.623551607131958, 'learning_rate': 2.9379562043795623e-06, 'epoch': 0.19}
+{'loss': 2.2154, 'grad_norm': 2.9511337280273438, 'learning_rate': 2.956204379562044e-06, 'epoch': 0.19}
+{'loss': 2.2637, 'grad_norm': 2.415118932723999, 'learning_rate': 2.9744525547445256e-06, 'epoch': 0.19}
+{'loss': 2.2263, 'grad_norm': 2.9664924144744873, 'learning_rate': 2.992700729927008e-06, 'epoch': 0.2}
+{'loss': 2.1667, 'grad_norm': 2.7214572429656982, 'learning_rate': 3.0109489051094893e-06, 'epoch': 0.2}
+{'loss': 2.1661, 'grad_norm': 2.8712823390960693, 'learning_rate': 3.029197080291971e-06, 'epoch': 0.2}
+{'eval_loss': 2.3269758224487305, 'eval_runtime': 37.2835, 'eval_samples_per_second': 26.822, 'eval_steps_per_second': 1.127, 'epoch': 0.2}
+{'loss': 2.2483, 'grad_norm': 2.959709405899048, 'learning_rate': 3.0474452554744526e-06, 'epoch': 0.2}
+{'loss': 2.2382, 'grad_norm': 2.567089319229126, 'learning_rate': 3.065693430656935e-06, 'epoch': 0.2}
+{'loss': 2.2148, 'grad_norm': 2.47188401222229, 'learning_rate': 3.0839416058394163e-06, 'epoch': 0.2}
+{'loss': 2.2334, 'grad_norm': 2.3435261249542236, 'learning_rate': 3.102189781021898e-06, 'epoch': 0.2}
+{'loss': 2.2214, 'grad_norm': 2.5280468463897705, 'learning_rate': 3.1204379562043796e-06, 'epoch': 0.2}
+{'loss': 2.1554, 'grad_norm': 2.4808971881866455, 'learning_rate': 3.1386861313868614e-06, 'epoch': 0.2}
+{'loss': 2.1389, 'grad_norm': 2.9937026500701904, 'learning_rate': 3.156934306569343e-06, 'epoch': 0.2}
+{'loss': 2.2515, 'grad_norm': 2.9220476150512695, 'learning_rate': 3.175182481751825e-06, 'epoch': 0.21}
+{'loss': 2.2016, 'grad_norm': 3.0449001789093018, 'learning_rate': 3.193430656934307e-06, 'epoch': 0.21}
+{'loss': 2.1823, 'grad_norm': 2.8027074337005615, 'learning_rate': 3.2116788321167884e-06, 'epoch': 0.21}
+{'eval_loss': 2.316633462905884, 'eval_runtime': 37.3164, 'eval_samples_per_second': 26.798, 'eval_steps_per_second': 1.126, 'epoch': 0.21}
+{'loss': 2.1928, 'grad_norm': 2.9158318042755127, 'learning_rate': 3.2299270072992707e-06, 'epoch': 0.21}
+{'loss': 2.1828, 'grad_norm': 2.5328080654144287, 'learning_rate': 3.248175182481752e-06, 'epoch': 0.21}
+{'loss': 2.1052, 'grad_norm': 3.1709704399108887, 'learning_rate': 3.266423357664234e-06, 'epoch': 0.21}
+{'loss': 2.1943, 'grad_norm': 2.9156367778778076, 'learning_rate': 3.2846715328467155e-06, 'epoch': 0.21}
+{'loss': 2.1782, 'grad_norm': 2.879408836364746, 'learning_rate': 3.3029197080291973e-06, 'epoch': 0.21}
+{'loss': 2.2107, 'grad_norm': 3.748483180999756, 'learning_rate': 3.3211678832116788e-06, 'epoch': 0.21}
+{'loss': 2.1845, 'grad_norm': 3.197510004043579, 'learning_rate': 3.339416058394161e-06, 'epoch': 0.22}
+{'loss': 2.1816, 'grad_norm': 3.2596049308776855, 'learning_rate': 3.3576642335766425e-06, 'epoch': 0.22}
+{'loss': 2.181, 'grad_norm': 3.3329780101776123, 'learning_rate': 3.3759124087591243e-06, 'epoch': 0.22}
+{'loss': 2.1761, 'grad_norm': 2.7302327156066895, 'learning_rate': 3.3941605839416058e-06, 'epoch': 0.22}
+{'eval_loss': 2.2985899448394775, 'eval_runtime': 37.3531, 'eval_samples_per_second': 26.772, 'eval_steps_per_second': 1.124, 'epoch': 0.22}
+{'loss': 2.1868, 'grad_norm': 3.002255916595459, 'learning_rate': 3.412408759124088e-06, 'epoch': 0.22}
+{'loss': 2.192, 'grad_norm': 2.6694891452789307, 'learning_rate': 3.43065693430657e-06, 'epoch': 0.22}
+{'loss': 2.1303, 'grad_norm': 2.9225986003875732, 'learning_rate': 3.4489051094890513e-06, 'epoch': 0.22}
+{'loss': 2.1788, 'grad_norm': 2.7844080924987793, 'learning_rate': 3.467153284671533e-06, 'epoch': 0.22}
+{'loss': 2.1193, 'grad_norm': 2.726123332977295, 'learning_rate': 3.4854014598540146e-06, 'epoch': 0.22}
+{'loss': 2.1674, 'grad_norm': 2.838040590286255, 'learning_rate': 3.503649635036497e-06, 'epoch': 0.23}
+{'loss': 2.161, 'grad_norm': 2.6863937377929688, 'learning_rate': 3.5218978102189783e-06, 'epoch': 0.23}
+{'loss': 2.179, 'grad_norm': 2.5116159915924072, 'learning_rate': 3.54014598540146e-06, 'epoch': 0.23}
+{'loss': 2.2035, 'grad_norm': 3.381863594055176, 'learning_rate': 3.5583941605839416e-06, 'epoch': 0.23}
+{'loss': 2.2518, 'grad_norm': 3.2741382122039795, 'learning_rate': 3.576642335766424e-06, 'epoch': 0.23}
+{'eval_loss': 2.2848384380340576, 'eval_runtime': 37.3313, 'eval_samples_per_second': 26.787, 'eval_steps_per_second': 1.125, 'epoch': 0.23}
+{'loss': 2.2265, 'grad_norm': 2.917370319366455, 'learning_rate': 3.5948905109489054e-06, 'epoch': 0.23}
+{'loss': 2.0709, 'grad_norm': 2.8392834663391113, 'learning_rate': 3.6131386861313872e-06, 'epoch': 0.23}
+{'loss': 2.0752, 'grad_norm': 2.753612518310547, 'learning_rate': 3.6313868613138687e-06, 'epoch': 0.23}
+{'loss': 2.1169, 'grad_norm': 3.1477746963500977, 'learning_rate': 3.6496350364963505e-06, 'epoch': 0.23}
+{'loss': 2.1338, 'grad_norm': 2.5448100566864014, 'learning_rate': 3.667883211678833e-06, 'epoch': 0.24}
+{'loss': 2.1065, 'grad_norm': 3.1622560024261475, 'learning_rate': 3.6861313868613142e-06, 'epoch': 0.24}
+{'loss': 2.1104, 'grad_norm': 2.7054336071014404, 'learning_rate': 3.704379562043796e-06, 'epoch': 0.24}
+{'loss': 2.1949, 'grad_norm': 2.964141845703125, 'learning_rate': 3.7226277372262775e-06, 'epoch': 0.24}
+{'loss': 2.165, 'grad_norm': 2.7586112022399902, 'learning_rate': 3.7408759124087594e-06, 'epoch': 0.24}
+{'loss': 2.1192, 'grad_norm': 2.9035964012145996, 'learning_rate': 3.7591240875912412e-06, 'epoch': 0.24}
+{'eval_loss': 2.2722809314727783, 'eval_runtime': 37.6026, 'eval_samples_per_second': 26.594, 'eval_steps_per_second': 1.117, 'epoch': 0.24}
+{'loss': 2.1389, 'grad_norm': 2.4212076663970947, 'learning_rate': 3.777372262773723e-06, 'epoch': 0.24}
+{'loss': 2.132, 'grad_norm': 2.973227024078369, 'learning_rate': 3.7956204379562045e-06, 'epoch': 0.24}
+{'loss': 2.1142, 'grad_norm': 2.9831430912017822, 'learning_rate': 3.8138686131386864e-06, 'epoch': 0.24}
+{'loss': 2.168, 'grad_norm': 3.2880353927612305, 'learning_rate': 3.832116788321168e-06, 'epoch': 0.25}
+{'loss': 2.1277, 'grad_norm': 3.3920998573303223, 'learning_rate': 3.85036496350365e-06, 'epoch': 0.25}
+{'loss': 2.0936, 'grad_norm': 2.7170026302337646, 'learning_rate': 3.868613138686132e-06, 'epoch': 0.25}
+{'loss': 2.1259, 'grad_norm': 3.6220011711120605, 'learning_rate': 3.886861313868613e-06, 'epoch': 0.25}
+{'loss': 2.1421, 'grad_norm': 3.4229273796081543, 'learning_rate': 3.905109489051096e-06, 'epoch': 0.25}
+{'loss': 2.1747, 'grad_norm': 3.0358338356018066, 'learning_rate': 3.923357664233577e-06, 'epoch': 0.25}
+{'loss': 2.1282, 'grad_norm': 2.611771821975708, 'learning_rate': 3.9416058394160585e-06, 'epoch': 0.25}
+{'eval_loss': 2.262422800064087, 'eval_runtime': 37.6882, 'eval_samples_per_second': 26.534, 'eval_steps_per_second': 1.114, 'epoch': 0.25}
+{'loss': 2.1892, 'grad_norm': 3.846412181854248, 'learning_rate': 3.95985401459854e-06, 'epoch': 0.25}
+{'loss': 2.2064, 'grad_norm': 2.488525390625, 'learning_rate': 3.978102189781022e-06, 'epoch': 0.25}
+{'loss': 2.0653, 'grad_norm': 3.114964485168457, 'learning_rate': 3.996350364963504e-06, 'epoch': 0.26}
+{'loss': 2.1503, 'grad_norm': 2.5559768676757812, 'learning_rate': 4.014598540145986e-06, 'epoch': 0.26}
+{'loss': 2.0523, 'grad_norm': 3.2347540855407715, 'learning_rate': 4.032846715328467e-06, 'epoch': 0.26}
+{'loss': 2.1206, 'grad_norm': 2.8086111545562744, 'learning_rate': 4.05109489051095e-06, 'epoch': 0.26}
+{'loss': 2.139, 'grad_norm': 2.909231185913086, 'learning_rate': 4.069343065693431e-06, 'epoch': 0.26}
+{'loss': 2.0908, 'grad_norm': 3.2171082496643066, 'learning_rate': 4.0875912408759126e-06, 'epoch': 0.26}
+{'loss': 2.1133, 'grad_norm': 2.3851265907287598, 'learning_rate': 4.105839416058395e-06, 'epoch': 0.26}
+{'loss': 2.1911, 'grad_norm': 3.3912737369537354, 'learning_rate': 4.124087591240876e-06, 'epoch': 0.26}
+{'eval_loss': 2.2510902881622314, 'eval_runtime': 37.3549, 'eval_samples_per_second': 26.77, 'eval_steps_per_second': 1.124, 'epoch': 0.26}
+{'loss': 2.11, 'grad_norm': 2.82906174659729, 'learning_rate': 4.1423357664233586e-06, 'epoch': 0.26}
+{'loss': 2.0953, 'grad_norm': 3.0317952632904053, 'learning_rate': 4.16058394160584e-06, 'epoch': 0.27}
+{'loss': 2.1746, 'grad_norm': 3.6438329219818115, 'learning_rate': 4.1788321167883214e-06, 'epoch': 0.27}
+{'loss': 2.0555, 'grad_norm': 2.6690592765808105, 'learning_rate': 4.197080291970803e-06, 'epoch': 0.27}
+{'loss': 2.1394, 'grad_norm': 3.135376453399658, 'learning_rate': 4.215328467153285e-06, 'epoch': 0.27}
+{'loss': 2.0822, 'grad_norm': 2.5474987030029297, 'learning_rate': 4.233576642335767e-06, 'epoch': 0.27}
+{'loss': 2.0869, 'grad_norm': 2.883108377456665, 'learning_rate': 4.251824817518249e-06, 'epoch': 0.27}
+{'loss': 2.1194, 'grad_norm': 2.9801037311553955, 'learning_rate': 4.27007299270073e-06, 'epoch': 0.27}
+{'loss': 2.0908, 'grad_norm': 2.7688217163085938, 'learning_rate': 4.288321167883212e-06, 'epoch': 0.27}
+{'loss': 2.0762, 'grad_norm': 3.205148458480835, 'learning_rate': 4.306569343065693e-06, 'epoch': 0.27}
+{'eval_loss': 2.2463667392730713, 'eval_runtime': 37.3048, 'eval_samples_per_second': 26.806, 'eval_steps_per_second': 1.126, 'epoch': 0.27}
+{'loss': 2.0509, 'grad_norm': 2.8262946605682373, 'learning_rate': 4.3248175182481755e-06, 'epoch': 0.28}
+{'loss': 2.1213, 'grad_norm': 3.156261682510376, 'learning_rate': 4.343065693430658e-06, 'epoch': 0.28}
+{'loss': 2.1071, 'grad_norm': 2.6367998123168945, 'learning_rate': 4.361313868613139e-06, 'epoch': 0.28}
+{'loss': 2.1008, 'grad_norm': 2.871534824371338, 'learning_rate': 4.379562043795621e-06, 'epoch': 0.28}
+{'loss': 2.1293, 'grad_norm': 2.839432716369629, 'learning_rate': 4.397810218978102e-06, 'epoch': 0.28}
+{'loss': 2.1141, 'grad_norm': 2.627143383026123, 'learning_rate': 4.416058394160584e-06, 'epoch': 0.28}
+{'loss': 2.0981, 'grad_norm': 2.8292996883392334, 'learning_rate': 4.434306569343066e-06, 'epoch': 0.28}
+{'loss': 2.0707, 'grad_norm': 2.5711069107055664, 'learning_rate': 4.452554744525548e-06, 'epoch': 0.28}
+{'loss': 2.1172, 'grad_norm': 2.488954544067383, 'learning_rate': 4.4708029197080295e-06, 'epoch': 0.28}
+{'loss': 2.1119, 'grad_norm': 2.442209005355835, 'learning_rate': 4.489051094890512e-06, 'epoch': 0.28}
+{'eval_loss': 2.2380030155181885, 'eval_runtime': 37.2553, 'eval_samples_per_second': 26.842, 'eval_steps_per_second': 1.127, 'epoch': 0.28}
+{'loss': 2.1517, 'grad_norm': 2.9147934913635254, 'learning_rate': 4.507299270072993e-06, 'epoch': 0.29}
+{'loss': 2.1047, 'grad_norm': 2.549833297729492, 'learning_rate': 4.525547445255475e-06, 'epoch': 0.29}
+{'loss': 2.0975, 'grad_norm': 3.3405206203460693, 'learning_rate': 4.543795620437956e-06, 'epoch': 0.29}
+{'loss': 2.0622, 'grad_norm': 2.554431676864624, 'learning_rate': 4.562043795620438e-06, 'epoch': 0.29}
+{'loss': 2.1567, 'grad_norm': 3.5529873371124268, 'learning_rate': 4.580291970802921e-06, 'epoch': 0.29}
+{'loss': 2.1619, 'grad_norm': 2.421682119369507, 'learning_rate': 4.598540145985402e-06, 'epoch': 0.29}
+{'loss': 2.1238, 'grad_norm': 2.918288230895996, 'learning_rate': 4.6167883211678835e-06, 'epoch': 0.29}
+{'loss': 2.0728, 'grad_norm': 3.0737621784210205, 'learning_rate': 4.635036496350365e-06, 'epoch': 0.29}
+{'loss': 2.0675, 'grad_norm': 2.5862410068511963, 'learning_rate': 4.653284671532847e-06, 'epoch': 0.29}
+{'loss': 2.1248, 'grad_norm': 2.9004979133605957, 'learning_rate': 4.671532846715329e-06, 'epoch': 0.3}
+{'eval_loss': 2.2259249687194824, 'eval_runtime': 37.3107, 'eval_samples_per_second': 26.802, 'eval_steps_per_second': 1.126, 'epoch': 0.3}
+{'loss': 2.1276, 'grad_norm': 2.4784982204437256, 'learning_rate': 4.689781021897811e-06, 'epoch': 0.3}
+{'loss': 2.0931, 'grad_norm': 2.7971739768981934, 'learning_rate': 4.708029197080292e-06, 'epoch': 0.3}
+{'loss': 2.1371, 'grad_norm': 2.5839481353759766, 'learning_rate': 4.726277372262774e-06, 'epoch': 0.3}
+{'loss': 2.1086, 'grad_norm': 2.7168564796447754, 'learning_rate': 4.744525547445255e-06, 'epoch': 0.3}
+{'loss': 2.0368, 'grad_norm': 2.6566879749298096, 'learning_rate': 4.7627737226277375e-06, 'epoch': 0.3}
+{'loss': 2.1077, 'grad_norm': 2.5068323612213135, 'learning_rate': 4.78102189781022e-06, 'epoch': 0.3}
+{'loss': 2.1013, 'grad_norm': 2.631408214569092, 'learning_rate': 4.799270072992701e-06, 'epoch': 0.3}
+{'loss': 2.0739, 'grad_norm': 2.5642812252044678, 'learning_rate': 4.8175182481751835e-06, 'epoch': 0.3}
+{'loss': 2.0971, 'grad_norm': 2.3326497077941895, 'learning_rate': 4.835766423357665e-06, 'epoch': 0.31}
+{'loss': 2.0904, 'grad_norm': 2.70701265335083, 'learning_rate': 4.854014598540146e-06, 'epoch': 0.31}
+{'eval_loss': 2.2230312824249268, 'eval_runtime': 37.3024, 'eval_samples_per_second': 26.808, 'eval_steps_per_second': 1.126, 'epoch': 0.31}
+{'loss': 2.039, 'grad_norm': 2.615201234817505, 'learning_rate': 4.872262773722628e-06, 'epoch': 0.31}
+{'loss': 2.0529, 'grad_norm': 2.2821998596191406, 'learning_rate': 4.89051094890511e-06, 'epoch': 0.31}
+{'loss': 2.0351, 'grad_norm': 2.767153024673462, 'learning_rate': 4.9087591240875915e-06, 'epoch': 0.31}
+{'loss': 2.0752, 'grad_norm': 2.537121295928955, 'learning_rate': 4.927007299270074e-06, 'epoch': 0.31}
+{'loss': 2.0892, 'grad_norm': 2.835052013397217, 'learning_rate': 4.945255474452555e-06, 'epoch': 0.31}
+{'loss': 2.0569, 'grad_norm': 2.5154924392700195, 'learning_rate': 4.963503649635037e-06, 'epoch': 0.31}
+{'loss': 2.1588, 'grad_norm': 2.8212568759918213, 'learning_rate': 4.981751824817518e-06, 'epoch': 0.31}
+{'loss': 2.1409, 'grad_norm': 2.3840994834899902, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'loss': 2.0892, 'grad_norm': 2.9641315937042236, 'learning_rate': 4.997969130787978e-06, 'epoch': 0.32}
+{'loss': 2.1105, 'grad_norm': 2.4516749382019043, 'learning_rate': 4.995938261575955e-06, 'epoch': 0.32}
+{'eval_loss': 2.214866876602173, 'eval_runtime': 37.2619, 'eval_samples_per_second': 26.837, 'eval_steps_per_second': 1.127, 'epoch': 0.32}
+{'loss': 2.0231, 'grad_norm': 2.768869400024414, 'learning_rate': 4.993907392363932e-06, 'epoch': 0.32}
+{'loss': 2.1018, 'grad_norm': 2.771475315093994, 'learning_rate': 4.9918765231519095e-06, 'epoch': 0.32}
+{'loss': 2.0317, 'grad_norm': 2.773983955383301, 'learning_rate': 4.989845653939887e-06, 'epoch': 0.32}
+{'loss': 2.0739, 'grad_norm': 2.4447343349456787, 'learning_rate': 4.987814784727864e-06, 'epoch': 0.32}
+{'loss': 2.073, 'grad_norm': 2.444261312484741, 'learning_rate': 4.985783915515841e-06, 'epoch': 0.32}
+{'loss': 2.058, 'grad_norm': 2.871792793273926, 'learning_rate': 4.983753046303819e-06, 'epoch': 0.32}
+{'loss': 2.0749, 'grad_norm': 2.3651537895202637, 'learning_rate': 4.981722177091796e-06, 'epoch': 0.33}
+{'loss': 2.065, 'grad_norm': 2.3395845890045166, 'learning_rate': 4.979691307879773e-06, 'epoch': 0.33}
+{'loss': 2.0945, 'grad_norm': 2.6275217533111572, 'learning_rate': 4.9776604386677504e-06, 'epoch': 0.33}
+{'loss': 2.0702, 'grad_norm': 2.866285562515259, 'learning_rate': 4.975629569455728e-06, 'epoch': 0.33}
+{'eval_loss': 2.2075490951538086, 'eval_runtime': 37.2458, 'eval_samples_per_second': 26.849, 'eval_steps_per_second': 1.128, 'epoch': 0.33}
+{'loss': 2.1257, 'grad_norm': 2.268401861190796, 'learning_rate': 4.973598700243705e-06, 'epoch': 0.33}
+{'loss': 2.0347, 'grad_norm': 2.6197733879089355, 'learning_rate': 4.971567831031681e-06, 'epoch': 0.33}
+{'loss': 2.0368, 'grad_norm': 2.4738848209381104, 'learning_rate': 4.9695369618196595e-06, 'epoch': 0.33}
+{'loss': 1.9256, 'grad_norm': 2.705670118331909, 'learning_rate': 4.967506092607636e-06, 'epoch': 0.33}
+{'loss': 2.0214, 'grad_norm': 2.813279628753662, 'learning_rate': 4.965475223395614e-06, 'epoch': 0.33}
+{'loss': 2.0342, 'grad_norm': 2.320960283279419, 'learning_rate': 4.9634443541835905e-06, 'epoch': 0.34}
+{'loss': 2.0421, 'grad_norm': 2.4495227336883545, 'learning_rate': 4.961413484971569e-06, 'epoch': 0.34}
+{'loss': 2.0572, 'grad_norm': 2.5384018421173096, 'learning_rate': 4.959382615759545e-06, 'epoch': 0.34}
+{'loss': 2.0617, 'grad_norm': 2.4018006324768066, 'learning_rate': 4.957351746547523e-06, 'epoch': 0.34}
+{'loss': 2.0384, 'grad_norm': 2.552424907684326, 'learning_rate': 4.9553208773355e-06, 'epoch': 0.34}
+{'eval_loss': 2.2054450511932373, 'eval_runtime': 37.2403, 'eval_samples_per_second': 26.853, 'eval_steps_per_second': 1.128, 'epoch': 0.34}
+{'loss': 2.1701, 'grad_norm': 2.4587671756744385, 'learning_rate': 4.953290008123478e-06, 'epoch': 0.34}
+{'loss': 2.0654, 'grad_norm': 2.4486496448516846, 'learning_rate': 4.951259138911454e-06, 'epoch': 0.34}
+{'loss': 1.9961, 'grad_norm': 2.123568058013916, 'learning_rate': 4.9492282696994315e-06, 'epoch': 0.34}
+{'loss': 2.1265, 'grad_norm': 2.549788475036621, 'learning_rate': 4.947197400487409e-06, 'epoch': 0.34}
+{'loss': 2.0501, 'grad_norm': 2.3453609943389893, 'learning_rate': 4.945166531275386e-06, 'epoch': 0.35}
+{'loss': 2.0402, 'grad_norm': 2.3584256172180176, 'learning_rate': 4.943135662063363e-06, 'epoch': 0.35}
+{'loss': 2.0545, 'grad_norm': 3.3100943565368652, 'learning_rate': 4.9411047928513406e-06, 'epoch': 0.35}
+{'loss': 2.0926, 'grad_norm': 2.4266037940979004, 'learning_rate': 4.939073923639318e-06, 'epoch': 0.35}
+{'loss': 2.0987, 'grad_norm': 3.101090908050537, 'learning_rate': 4.937043054427295e-06, 'epoch': 0.35}
+{'loss': 2.0315, 'grad_norm': 2.743619203567505, 'learning_rate': 4.935012185215272e-06, 'epoch': 0.35}
+{'eval_loss': 2.1970975399017334, 'eval_runtime': 37.4819, 'eval_samples_per_second': 26.68, 'eval_steps_per_second': 1.121, 'epoch': 0.35}
+{'loss': 2.0166, 'grad_norm': 2.6065986156463623, 'learning_rate': 4.93298131600325e-06, 'epoch': 0.35}
+{'loss': 2.0862, 'grad_norm': 2.7554283142089844, 'learning_rate': 4.930950446791227e-06, 'epoch': 0.35}
+{'loss': 2.0472, 'grad_norm': 2.4773144721984863, 'learning_rate': 4.928919577579204e-06, 'epoch': 0.35}
+{'loss': 2.0567, 'grad_norm': 2.695289134979248, 'learning_rate': 4.9268887083671815e-06, 'epoch': 0.36}
+{'loss': 2.046, 'grad_norm': 2.408220052719116, 'learning_rate': 4.924857839155159e-06, 'epoch': 0.36}
+{'loss': 2.054, 'grad_norm': 2.3851559162139893, 'learning_rate': 4.922826969943136e-06, 'epoch': 0.36}
+{'loss': 2.0717, 'grad_norm': 2.8667280673980713, 'learning_rate': 4.920796100731113e-06, 'epoch': 0.36}
+{'loss': 1.9884, 'grad_norm': 2.3814942836761475, 'learning_rate': 4.918765231519091e-06, 'epoch': 0.36}
+{'loss': 2.0474, 'grad_norm': 2.341076612472534, 'learning_rate': 4.916734362307068e-06, 'epoch': 0.36}
+{'loss': 2.0009, 'grad_norm': 2.3571853637695312, 'learning_rate': 4.914703493095045e-06, 'epoch': 0.36}
+{'eval_loss': 2.1942925453186035, 'eval_runtime': 37.5998, 'eval_samples_per_second': 26.596, 'eval_steps_per_second': 1.117, 'epoch': 0.36}
+{'loss': 2.0167, 'grad_norm': 2.3770196437835693, 'learning_rate': 4.912672623883022e-06, 'epoch': 0.36}
+{'loss': 1.9972, 'grad_norm': 2.3357701301574707, 'learning_rate': 4.910641754671e-06, 'epoch': 0.36}
+{'loss': 2.0319, 'grad_norm': 2.4100499153137207, 'learning_rate': 4.908610885458977e-06, 'epoch': 0.36}
+{'loss': 2.0285, 'grad_norm': 2.193018913269043, 'learning_rate': 4.906580016246954e-06, 'epoch': 0.37}
+{'loss': 2.0749, 'grad_norm': 2.275637149810791, 'learning_rate': 4.9045491470349315e-06, 'epoch': 0.37}
+{'loss': 2.0502, 'grad_norm': 2.347121238708496, 'learning_rate': 4.902518277822909e-06, 'epoch': 0.37}
+{'loss': 2.0612, 'grad_norm': 2.210817575454712, 'learning_rate': 4.900487408610886e-06, 'epoch': 0.37}
+{'loss': 2.0653, 'grad_norm': 2.15594482421875, 'learning_rate': 4.898456539398863e-06, 'epoch': 0.37}
+{'loss': 2.074, 'grad_norm': 2.3996052742004395, 'learning_rate': 4.89642567018684e-06, 'epoch': 0.37}
+{'loss': 2.1533, 'grad_norm': 2.384172201156616, 'learning_rate': 4.894394800974818e-06, 'epoch': 0.37}
+{'eval_loss': 2.1834487915039062, 'eval_runtime': 37.2711, 'eval_samples_per_second': 26.83, 'eval_steps_per_second': 1.127, 'epoch': 0.37}
+{'loss': 1.9919, 'grad_norm': 2.3431336879730225, 'learning_rate': 4.892363931762794e-06, 'epoch': 0.37}
+{'loss': 2.0703, 'grad_norm': 2.1828389167785645, 'learning_rate': 4.8903330625507725e-06, 'epoch': 0.37}
+{'loss': 2.0071, 'grad_norm': 2.2117249965667725, 'learning_rate': 4.888302193338749e-06, 'epoch': 0.38}
+{'loss': 1.9879, 'grad_norm': 2.3595967292785645, 'learning_rate': 4.886271324126727e-06, 'epoch': 0.38}
+{'loss': 2.0861, 'grad_norm': 2.5211799144744873, 'learning_rate': 4.8842404549147034e-06, 'epoch': 0.38}
+{'loss': 2.0683, 'grad_norm': 2.1551895141601562, 'learning_rate': 4.8822095857026816e-06, 'epoch': 0.38}
+{'loss': 2.043, 'grad_norm': 2.4145829677581787, 'learning_rate': 4.880178716490658e-06, 'epoch': 0.38}
+{'loss': 1.9928, 'grad_norm': 2.4273521900177, 'learning_rate': 4.878147847278636e-06, 'epoch': 0.38}
+{'loss': 2.0065, 'grad_norm': 2.261054754257202, 'learning_rate': 4.8761169780666125e-06, 'epoch': 0.38}
+{'loss': 1.9766, 'grad_norm': 2.4703147411346436, 'learning_rate': 4.874086108854591e-06, 'epoch': 0.38}
+{'eval_loss': 2.184638261795044, 'eval_runtime': 37.2963, 'eval_samples_per_second': 26.812, 'eval_steps_per_second': 1.126, 'epoch': 0.38}
+{'loss': 1.9874, 'grad_norm': 2.3353374004364014, 'learning_rate': 4.872055239642567e-06, 'epoch': 0.38}
+{'loss': 1.9644, 'grad_norm': 2.227834463119507, 'learning_rate': 4.870024370430544e-06, 'epoch': 0.39}
+{'loss': 2.0227, 'grad_norm': 2.3155159950256348, 'learning_rate': 4.867993501218522e-06, 'epoch': 0.39}
+{'loss': 2.0566, 'grad_norm': 2.2456047534942627, 'learning_rate': 4.865962632006499e-06, 'epoch': 0.39}
+{'loss': 1.9941, 'grad_norm': 2.3364651203155518, 'learning_rate': 4.863931762794476e-06, 'epoch': 0.39}
+{'loss': 2.0163, 'grad_norm': 2.2886059284210205, 'learning_rate': 4.8619008935824535e-06, 'epoch': 0.39}
+{'loss': 2.0525, 'grad_norm': 2.3796911239624023, 'learning_rate': 4.859870024370431e-06, 'epoch': 0.39}
+{'loss': 2.0682, 'grad_norm': 2.381986379623413, 'learning_rate': 4.857839155158408e-06, 'epoch': 0.39}
+{'loss': 2.0748, 'grad_norm': 2.2048425674438477, 'learning_rate': 4.855808285946385e-06, 'epoch': 0.39}
+{'loss': 2.0512, 'grad_norm': 2.162846088409424, 'learning_rate': 4.8537774167343626e-06, 'epoch': 0.39}
+{'eval_loss': 2.172781467437744, 'eval_runtime': 37.2928, 'eval_samples_per_second': 26.815, 'eval_steps_per_second': 1.126, 'epoch': 0.39}
+{'loss': 2.042, 'grad_norm': 2.4070873260498047, 'learning_rate': 4.85174654752234e-06, 'epoch': 0.4}
+{'loss': 2.0398, 'grad_norm': 2.11716628074646, 'learning_rate': 4.849715678310317e-06, 'epoch': 0.4}
+{'loss': 2.0334, 'grad_norm': 2.265479803085327, 'learning_rate': 4.847684809098294e-06, 'epoch': 0.4}
+{'loss': 2.0292, 'grad_norm': 2.2270994186401367, 'learning_rate': 4.845653939886272e-06, 'epoch': 0.4}
+{'loss': 2.0351, 'grad_norm': 2.406064033508301, 'learning_rate': 4.843623070674249e-06, 'epoch': 0.4}
+{'loss': 2.005, 'grad_norm': 2.216654062271118, 'learning_rate': 4.841592201462226e-06, 'epoch': 0.4}
+{'loss': 2.0647, 'grad_norm': 2.4241385459899902, 'learning_rate': 4.8395613322502035e-06, 'epoch': 0.4}
+{'loss': 1.9679, 'grad_norm': 2.4315145015716553, 'learning_rate': 4.837530463038181e-06, 'epoch': 0.4}
+{'loss': 2.0259, 'grad_norm': 2.3034439086914062, 'learning_rate': 4.835499593826158e-06, 'epoch': 0.4}
+{'loss': 2.0468, 'grad_norm': 2.493436098098755, 'learning_rate': 4.833468724614135e-06, 'epoch': 0.41}
+{'eval_loss': 2.169473171234131, 'eval_runtime': 37.1686, 'eval_samples_per_second': 26.904, 'eval_steps_per_second': 1.13, 'epoch': 0.41}
+{'loss': 2.0313, 'grad_norm': 2.3887157440185547, 'learning_rate': 4.831437855402113e-06, 'epoch': 0.41}
+{'loss': 1.9288, 'grad_norm': 2.563095808029175, 'learning_rate': 4.82940698619009e-06, 'epoch': 0.41}
+{'loss': 1.9975, 'grad_norm': 2.2609968185424805, 'learning_rate': 4.827376116978067e-06, 'epoch': 0.41}
+{'loss': 2.0639, 'grad_norm': 2.624257802963257, 'learning_rate': 4.8253452477660444e-06, 'epoch': 0.41}
+{'loss': 2.0424, 'grad_norm': 2.502197265625, 'learning_rate': 4.823314378554022e-06, 'epoch': 0.41}
+{'loss': 2.027, 'grad_norm': 2.36297345161438, 'learning_rate': 4.821283509341998e-06, 'epoch': 0.41}
+{'loss': 2.0002, 'grad_norm': 2.388918161392212, 'learning_rate': 4.819252640129976e-06, 'epoch': 0.41}
+{'loss': 2.0215, 'grad_norm': 2.4262335300445557, 'learning_rate': 4.817221770917953e-06, 'epoch': 0.41}
+{'loss': 1.988, 'grad_norm': 2.8953094482421875, 'learning_rate': 4.815190901705931e-06, 'epoch': 0.42}
+{'loss': 2.0199, 'grad_norm': 2.3092124462127686, 'learning_rate': 4.813160032493907e-06, 'epoch': 0.42}
+{'eval_loss': 2.1672778129577637, 'eval_runtime': 37.2551, 'eval_samples_per_second': 26.842, 'eval_steps_per_second': 1.127, 'epoch': 0.42}
+{'loss': 2.0134, 'grad_norm': 3.0842413902282715, 'learning_rate': 4.811129163281885e-06, 'epoch': 0.42}
+{'loss': 2.0447, 'grad_norm': 2.2015092372894287, 'learning_rate': 4.809098294069862e-06, 'epoch': 0.42}
+{'loss': 2.0329, 'grad_norm': 2.93471097946167, 'learning_rate': 4.80706742485784e-06, 'epoch': 0.42}
+{'loss': 2.0805, 'grad_norm': 2.3277227878570557, 'learning_rate': 4.805036555645816e-06, 'epoch': 0.42}
+{'loss': 2.0008, 'grad_norm': 2.357966184616089, 'learning_rate': 4.8030056864337945e-06, 'epoch': 0.42}
+{'loss': 2.059, 'grad_norm': 2.7505595684051514, 'learning_rate': 4.800974817221771e-06, 'epoch': 0.42}
+{'loss': 2.0125, 'grad_norm': 2.144338369369507, 'learning_rate': 4.798943948009749e-06, 'epoch': 0.42}
+{'loss': 2.0263, 'grad_norm': 2.608407735824585, 'learning_rate': 4.7969130787977254e-06, 'epoch': 0.43}
+{'loss': 2.0107, 'grad_norm': 2.4293761253356934, 'learning_rate': 4.794882209585703e-06, 'epoch': 0.43}
+{'loss': 2.0421, 'grad_norm': 2.2136595249176025, 'learning_rate': 4.79285134037368e-06, 'epoch': 0.43}
+{'eval_loss': 2.1556122303009033, 'eval_runtime': 37.198, 'eval_samples_per_second': 26.883, 'eval_steps_per_second': 1.129, 'epoch': 0.43}
+{'loss': 1.9828, 'grad_norm': 2.3706328868865967, 'learning_rate': 4.790820471161657e-06, 'epoch': 0.43}
+{'loss': 2.0006, 'grad_norm': 2.1628777980804443, 'learning_rate': 4.7887896019496345e-06, 'epoch': 0.43}
+{'loss': 2.0046, 'grad_norm': 2.5572149753570557, 'learning_rate': 4.786758732737612e-06, 'epoch': 0.43}
+{'loss': 2.0513, 'grad_norm': 2.44661808013916, 'learning_rate': 4.784727863525589e-06, 'epoch': 0.43}
+{'loss': 1.9619, 'grad_norm': 2.429487466812134, 'learning_rate': 4.782696994313566e-06, 'epoch': 0.43}
+{'loss': 2.0141, 'grad_norm': 2.233353614807129, 'learning_rate': 4.780666125101544e-06, 'epoch': 0.43}
+{'loss': 1.9512, 'grad_norm': 2.137549638748169, 'learning_rate': 4.778635255889521e-06, 'epoch': 0.44}
+{'loss': 1.9802, 'grad_norm': 2.187638759613037, 'learning_rate': 4.776604386677498e-06, 'epoch': 0.44}
+{'loss': 1.9887, 'grad_norm': 2.3084137439727783, 'learning_rate': 4.7745735174654755e-06, 'epoch': 0.44}
+{'loss': 2.0535, 'grad_norm': 2.16654109954834, 'learning_rate': 4.772542648253453e-06, 'epoch': 0.44}
+{'eval_loss': 2.152639627456665, 'eval_runtime': 37.1816, 'eval_samples_per_second': 26.895, 'eval_steps_per_second': 1.13, 'epoch': 0.44}
+{'loss': 2.0529, 'grad_norm': 2.0973072052001953, 'learning_rate': 4.77051177904143e-06, 'epoch': 0.44}
+{'loss': 1.9893, 'grad_norm': 2.421881675720215, 'learning_rate': 4.768480909829407e-06, 'epoch': 0.44}
+{'loss': 2.0237, 'grad_norm': 2.349296808242798, 'learning_rate': 4.766450040617385e-06, 'epoch': 0.44}
+{'loss': 1.996, 'grad_norm': 2.2154288291931152, 'learning_rate': 4.764419171405362e-06, 'epoch': 0.44}
+{'loss': 2.0345, 'grad_norm': 2.6355648040771484, 'learning_rate': 4.762388302193339e-06, 'epoch': 0.44}
+{'loss': 2.0219, 'grad_norm': 2.352238655090332, 'learning_rate': 4.760357432981316e-06, 'epoch': 0.44}
+{'loss': 1.9923, 'grad_norm': 2.1886510848999023, 'learning_rate': 4.758326563769294e-06, 'epoch': 0.45}
+{'loss': 2.0236, 'grad_norm': 2.6483092308044434, 'learning_rate': 4.756295694557271e-06, 'epoch': 0.45}
+{'loss': 2.0249, 'grad_norm': 2.382389545440674, 'learning_rate': 4.754264825345248e-06, 'epoch': 0.45}
+{'loss': 1.9571, 'grad_norm': 2.4824411869049072, 'learning_rate': 4.7522339561332255e-06, 'epoch': 0.45}
+{'eval_loss': 2.1585566997528076, 'eval_runtime': 37.2719, 'eval_samples_per_second': 26.83, 'eval_steps_per_second': 1.127, 'epoch': 0.45}
+{'loss': 1.9753, 'grad_norm': 2.325589656829834, 'learning_rate': 4.750203086921203e-06, 'epoch': 0.45}
+{'loss': 1.9397, 'grad_norm': 2.3618829250335693, 'learning_rate': 4.74817221770918e-06, 'epoch': 0.45}
+{'loss': 2.0119, 'grad_norm': 2.3922839164733887, 'learning_rate': 4.7461413484971565e-06, 'epoch': 0.45}
+{'loss': 2.0664, 'grad_norm': 2.403475046157837, 'learning_rate': 4.744110479285135e-06, 'epoch': 0.45}
+{'loss': 1.9525, 'grad_norm': 2.225860834121704, 'learning_rate': 4.742079610073111e-06, 'epoch': 0.45}
+{'loss': 1.9785, 'grad_norm': 2.344074010848999, 'learning_rate': 4.740048740861089e-06, 'epoch': 0.46}
+{'loss': 1.9902, 'grad_norm': 2.255382776260376, 'learning_rate': 4.738017871649066e-06, 'epoch': 0.46}
+{'loss': 2.0075, 'grad_norm': 2.160628318786621, 'learning_rate': 4.735987002437044e-06, 'epoch': 0.46}
+{'loss': 2.0625, 'grad_norm': 2.5667307376861572, 'learning_rate': 4.73395613322502e-06, 'epoch': 0.46}
+{'loss': 2.0724, 'grad_norm': 2.3771040439605713, 'learning_rate': 4.731925264012998e-06, 'epoch': 0.46}
+{'eval_loss': 2.146827220916748, 'eval_runtime': 37.5603, 'eval_samples_per_second': 26.624, 'eval_steps_per_second': 1.118, 'epoch': 0.46}
+{'loss': 2.0234, 'grad_norm': 2.336482048034668, 'learning_rate': 4.729894394800975e-06, 'epoch': 0.46}
+{'loss': 1.9693, 'grad_norm': 2.4206933975219727, 'learning_rate': 4.727863525588953e-06, 'epoch': 0.46}
+{'loss': 1.9239, 'grad_norm': 2.4845645427703857, 'learning_rate': 4.725832656376929e-06, 'epoch': 0.46}
+{'loss': 1.9801, 'grad_norm': 2.5199646949768066, 'learning_rate': 4.723801787164907e-06, 'epoch': 0.46}
+{'loss': 2.0192, 'grad_norm': 2.2969748973846436, 'learning_rate': 4.721770917952885e-06, 'epoch': 0.47}
+{'loss': 1.9684, 'grad_norm': 2.423503875732422, 'learning_rate': 4.719740048740861e-06, 'epoch': 0.47}
+{'loss': 1.9934, 'grad_norm': 2.3681061267852783, 'learning_rate': 4.717709179528839e-06, 'epoch': 0.47}
+{'loss': 2.0166, 'grad_norm': 2.277965784072876, 'learning_rate': 4.715678310316816e-06, 'epoch': 0.47}
+{'loss': 2.011, 'grad_norm': 2.2730283737182617, 'learning_rate': 4.713647441104794e-06, 'epoch': 0.47}
+{'loss': 1.9645, 'grad_norm': 2.6694860458374023, 'learning_rate': 4.71161657189277e-06, 'epoch': 0.47}
+{'eval_loss': 2.1404662132263184, 'eval_runtime': 37.6847, 'eval_samples_per_second': 26.536, 'eval_steps_per_second': 1.115, 'epoch': 0.47}
+{'loss': 1.9478, 'grad_norm': 2.4100632667541504, 'learning_rate': 4.709585702680748e-06, 'epoch': 0.47}
+{'loss': 2.0274, 'grad_norm': 2.2779541015625, 'learning_rate': 4.707554833468725e-06, 'epoch': 0.47}
+{'loss': 2.0831, 'grad_norm': 2.55690336227417, 'learning_rate': 4.705523964256703e-06, 'epoch': 0.47}
+{'loss': 1.9673, 'grad_norm': 2.455623149871826, 'learning_rate': 4.703493095044679e-06, 'epoch': 0.48}
+{'loss': 1.992, 'grad_norm': 2.2613699436187744, 'learning_rate': 4.701462225832657e-06, 'epoch': 0.48}
+{'loss': 1.9105, 'grad_norm': 2.4467933177948, 'learning_rate': 4.699431356620634e-06, 'epoch': 0.48}
+{'loss': 2.074, 'grad_norm': 2.4194023609161377, 'learning_rate': 4.697400487408612e-06, 'epoch': 0.48}
+{'loss': 2.0152, 'grad_norm': 2.2165699005126953, 'learning_rate': 4.695369618196588e-06, 'epoch': 0.48}
+{'loss': 1.9888, 'grad_norm': 2.1709225177764893, 'learning_rate': 4.693338748984566e-06, 'epoch': 0.48}
+{'loss': 1.9838, 'grad_norm': 2.2325828075408936, 'learning_rate': 4.691307879772543e-06, 'epoch': 0.48}
+{'eval_loss': 2.1369950771331787, 'eval_runtime': 37.3174, 'eval_samples_per_second': 26.797, 'eval_steps_per_second': 1.125, 'epoch': 0.48}
+{'loss': 1.9295, 'grad_norm': 2.446331739425659, 'learning_rate': 4.68927701056052e-06, 'epoch': 0.48}
+{'loss': 2.0351, 'grad_norm': 2.5459415912628174, 'learning_rate': 4.6872461413484975e-06, 'epoch': 0.48}
+{'loss': 2.0, 'grad_norm': 2.2877118587493896, 'learning_rate': 4.685215272136475e-06, 'epoch': 0.49}
+{'loss': 1.9928, 'grad_norm': 2.346625328063965, 'learning_rate': 4.683184402924452e-06, 'epoch': 0.49}
+{'loss': 1.9969, 'grad_norm': 2.268467664718628, 'learning_rate': 4.681153533712429e-06, 'epoch': 0.49}
+{'loss': 2.0636, 'grad_norm': 2.3699793815612793, 'learning_rate': 4.679122664500407e-06, 'epoch': 0.49}
+{'loss': 1.9535, 'grad_norm': 2.2871041297912598, 'learning_rate': 4.677091795288384e-06, 'epoch': 0.49}
+{'loss': 1.9358, 'grad_norm': 2.249393939971924, 'learning_rate': 4.675060926076361e-06, 'epoch': 0.49}
+{'loss': 2.0299, 'grad_norm': 2.299863815307617, 'learning_rate': 4.673030056864338e-06, 'epoch': 0.49}
+{'loss': 1.9372, 'grad_norm': 2.31239652633667, 'learning_rate': 4.670999187652316e-06, 'epoch': 0.49}
+{'eval_loss': 2.1345434188842773, 'eval_runtime': 37.3461, 'eval_samples_per_second': 26.777, 'eval_steps_per_second': 1.125, 'epoch': 0.49}
+{'loss': 1.9435, 'grad_norm': 2.2824623584747314, 'learning_rate': 4.668968318440293e-06, 'epoch': 0.49}
+{'loss': 1.9455, 'grad_norm': 2.285339593887329, 'learning_rate': 4.66693744922827e-06, 'epoch': 0.5}
+{'loss': 2.0212, 'grad_norm': 2.346592903137207, 'learning_rate': 4.6649065800162475e-06, 'epoch': 0.5}
+{'loss': 1.9136, 'grad_norm': 2.280669689178467, 'learning_rate': 4.662875710804225e-06, 'epoch': 0.5}
+{'loss': 1.9952, 'grad_norm': 2.178434133529663, 'learning_rate': 4.660844841592202e-06, 'epoch': 0.5}
+{'loss': 1.9022, 'grad_norm': 2.108492851257324, 'learning_rate': 4.658813972380179e-06, 'epoch': 0.5}
+{'loss': 2.0332, 'grad_norm': 2.3862147331237793, 'learning_rate': 4.656783103168157e-06, 'epoch': 0.5}
+{'loss': 1.8998, 'grad_norm': 2.2017860412597656, 'learning_rate': 4.654752233956134e-06, 'epoch': 0.5}
+{'loss': 1.9836, 'grad_norm': 2.222134828567505, 'learning_rate': 4.652721364744111e-06, 'epoch': 0.5}
+{'loss': 1.9626, 'grad_norm': 2.2974510192871094, 'learning_rate': 4.6506904955320885e-06, 'epoch': 0.5}
+{'eval_loss': 2.1426424980163574, 'eval_runtime': 37.2693, 'eval_samples_per_second': 26.832, 'eval_steps_per_second': 1.127, 'epoch': 0.5}
+{'loss': 2.0061, 'grad_norm': 2.107480764389038, 'learning_rate': 4.648659626320066e-06, 'epoch': 0.51}
+{'loss': 2.0133, 'grad_norm': 2.3541181087493896, 'learning_rate': 4.646628757108043e-06, 'epoch': 0.51}
+{'loss': 1.9727, 'grad_norm': 2.215571880340576, 'learning_rate': 4.6445978878960194e-06, 'epoch': 0.51}
+{'loss': 1.9477, 'grad_norm': 2.2263615131378174, 'learning_rate': 4.6425670186839976e-06, 'epoch': 0.51}
+{'loss': 1.9842, 'grad_norm': 2.178900957107544, 'learning_rate': 4.640536149471974e-06, 'epoch': 0.51}
+{'loss': 2.0082, 'grad_norm': 2.3703105449676514, 'learning_rate': 4.638505280259952e-06, 'epoch': 0.51}
+{'loss': 2.0271, 'grad_norm': 2.1587533950805664, 'learning_rate': 4.6364744110479285e-06, 'epoch': 0.51}
+{'loss': 1.9858, 'grad_norm': 2.1626017093658447, 'learning_rate': 4.634443541835907e-06, 'epoch': 0.51}
+{'loss': 2.0413, 'grad_norm': 2.326869487762451, 'learning_rate': 4.632412672623883e-06, 'epoch': 0.51}
+{'loss': 1.9584, 'grad_norm': 2.266502857208252, 'learning_rate': 4.630381803411861e-06, 'epoch': 0.52}
+{'eval_loss': 2.1349804401397705, 'eval_runtime': 37.2419, 'eval_samples_per_second': 26.851, 'eval_steps_per_second': 1.128, 'epoch': 0.52}
+{'loss': 1.863, 'grad_norm': 2.131348133087158, 'learning_rate': 4.628350934199838e-06, 'epoch': 0.52}
+{'loss': 1.9699, 'grad_norm': 2.2635257244110107, 'learning_rate': 4.626320064987816e-06, 'epoch': 0.52}
+{'loss': 2.0001, 'grad_norm': 2.1303744316101074, 'learning_rate': 4.624289195775792e-06, 'epoch': 0.52}
+{'loss': 1.9684, 'grad_norm': 2.1736788749694824, 'learning_rate': 4.62225832656377e-06, 'epoch': 0.52}
+{'loss': 1.9739, 'grad_norm': 2.1996278762817383, 'learning_rate': 4.620227457351747e-06, 'epoch': 0.52}
+{'loss': 1.9649, 'grad_norm': 2.225456953048706, 'learning_rate': 4.618196588139724e-06, 'epoch': 0.52}
+{'loss': 1.9911, 'grad_norm': 2.118537187576294, 'learning_rate': 4.616165718927701e-06, 'epoch': 0.52}
+{'loss': 1.944, 'grad_norm': 2.232940435409546, 'learning_rate': 4.6141348497156786e-06, 'epoch': 0.52}
+{'loss': 2.0342, 'grad_norm': 2.1776034832000732, 'learning_rate': 4.612103980503656e-06, 'epoch': 0.52}
+{'loss': 2.0124, 'grad_norm': 2.042645215988159, 'learning_rate': 4.610073111291633e-06, 'epoch': 0.53}
+{'eval_loss': 2.1264491081237793, 'eval_runtime': 37.309, 'eval_samples_per_second': 26.803, 'eval_steps_per_second': 1.126, 'epoch': 0.53}
+{'loss': 1.9874, 'grad_norm': 2.302661895751953, 'learning_rate': 4.60804224207961e-06, 'epoch': 0.53}
+{'loss': 1.9594, 'grad_norm': 2.1251118183135986, 'learning_rate': 4.606011372867588e-06, 'epoch': 0.53}
+{'loss': 1.9955, 'grad_norm': 2.157043933868408, 'learning_rate': 4.603980503655565e-06, 'epoch': 0.53}
+{'loss': 1.9695, 'grad_norm': 2.291428804397583, 'learning_rate': 4.601949634443542e-06, 'epoch': 0.53}
+{'loss': 1.899, 'grad_norm': 2.2341537475585938, 'learning_rate': 4.5999187652315195e-06, 'epoch': 0.53}
+{'loss': 1.9066, 'grad_norm': 2.1881206035614014, 'learning_rate': 4.597887896019497e-06, 'epoch': 0.53}
+{'loss': 1.9646, 'grad_norm': 2.3057658672332764, 'learning_rate': 4.595857026807474e-06, 'epoch': 0.53}
+{'loss': 1.9662, 'grad_norm': 2.2318356037139893, 'learning_rate': 4.593826157595451e-06, 'epoch': 0.53}
+{'loss': 1.9522, 'grad_norm': 2.170509099960327, 'learning_rate': 4.591795288383429e-06, 'epoch': 0.54}
+{'loss': 2.0315, 'grad_norm': 2.101646661758423, 'learning_rate': 4.589764419171406e-06, 'epoch': 0.54}
+{'eval_loss': 2.1217002868652344, 'eval_runtime': 37.2522, 'eval_samples_per_second': 26.844, 'eval_steps_per_second': 1.127, 'epoch': 0.54}
+{'loss': 1.9843, 'grad_norm': 2.1563706398010254, 'learning_rate': 4.587733549959383e-06, 'epoch': 0.54}
+{'loss': 1.9499, 'grad_norm': 2.295722246170044, 'learning_rate': 4.5857026807473604e-06, 'epoch': 0.54}
+{'loss': 1.9346, 'grad_norm': 1.974424123764038, 'learning_rate': 4.583671811535338e-06, 'epoch': 0.54}
+{'loss': 1.9053, 'grad_norm': 2.4402668476104736, 'learning_rate': 4.581640942323315e-06, 'epoch': 0.54}
+{'loss': 2.0108, 'grad_norm': 2.269000768661499, 'learning_rate': 4.579610073111292e-06, 'epoch': 0.54}
+{'loss': 2.0155, 'grad_norm': 2.1182594299316406, 'learning_rate': 4.5775792038992695e-06, 'epoch': 0.54}
+{'loss': 2.0112, 'grad_norm': 2.2181780338287354, 'learning_rate': 4.575548334687247e-06, 'epoch': 0.54}
+{'loss': 2.0418, 'grad_norm': 2.2806756496429443, 'learning_rate': 4.573517465475224e-06, 'epoch': 0.55}
+{'loss': 1.9457, 'grad_norm': 2.2690632343292236, 'learning_rate': 4.571486596263201e-06, 'epoch': 0.55}
+{'loss': 1.9949, 'grad_norm': 2.361335515975952, 'learning_rate': 4.569455727051178e-06, 'epoch': 0.55}
+{'eval_loss': 2.12424373626709, 'eval_runtime': 37.2084, 'eval_samples_per_second': 26.876, 'eval_steps_per_second': 1.129, 'epoch': 0.55}
+{'loss': 1.9932, 'grad_norm': 2.3833138942718506, 'learning_rate': 4.567424857839156e-06, 'epoch': 0.55}
+{'loss': 1.9773, 'grad_norm': 2.328500509262085, 'learning_rate': 4.565393988627132e-06, 'epoch': 0.55}
+{'loss': 2.0389, 'grad_norm': 2.4191694259643555, 'learning_rate': 4.5633631194151105e-06, 'epoch': 0.55}
+{'loss': 1.965, 'grad_norm': 2.4106884002685547, 'learning_rate': 4.561332250203087e-06, 'epoch': 0.55}
+{'loss': 1.9713, 'grad_norm': 2.1452605724334717, 'learning_rate': 4.559301380991065e-06, 'epoch': 0.55}
+{'loss': 1.9116, 'grad_norm': 2.2753357887268066, 'learning_rate': 4.5572705117790414e-06, 'epoch': 0.55}
+{'loss': 1.9593, 'grad_norm': 2.6925032138824463, 'learning_rate': 4.5552396425670196e-06, 'epoch': 0.56}
+{'loss': 2.0072, 'grad_norm': 2.3136658668518066, 'learning_rate': 4.553208773354996e-06, 'epoch': 0.56}
+{'loss': 1.9193, 'grad_norm': 2.254849672317505, 'learning_rate': 4.551177904142974e-06, 'epoch': 0.56}
+{'loss': 2.0228, 'grad_norm': 2.352755546569824, 'learning_rate': 4.5491470349309505e-06, 'epoch': 0.56}
+{'eval_loss': 2.1220173835754395, 'eval_runtime': 37.2373, 'eval_samples_per_second': 26.855, 'eval_steps_per_second': 1.128, 'epoch': 0.56}
+{'loss': 1.9416, 'grad_norm': 2.31339955329895, 'learning_rate': 4.547116165718929e-06, 'epoch': 0.56}
+{'loss': 1.9709, 'grad_norm': 2.191164970397949, 'learning_rate': 4.545085296506905e-06, 'epoch': 0.56}
+{'loss': 1.9475, 'grad_norm': 2.193551778793335, 'learning_rate': 4.543054427294882e-06, 'epoch': 0.56}
+{'loss': 1.9283, 'grad_norm': 2.222710371017456, 'learning_rate': 4.54102355808286e-06, 'epoch': 0.56}
+{'loss': 1.929, 'grad_norm': 2.078907012939453, 'learning_rate': 4.538992688870837e-06, 'epoch': 0.56}
+{'loss': 1.9591, 'grad_norm': 2.2043654918670654, 'learning_rate': 4.536961819658814e-06, 'epoch': 0.57}
+{'loss': 1.9618, 'grad_norm': 2.192481517791748, 'learning_rate': 4.5349309504467915e-06, 'epoch': 0.57}
+{'loss': 1.9782, 'grad_norm': 2.3509292602539062, 'learning_rate': 4.532900081234769e-06, 'epoch': 0.57}
+{'loss': 1.9456, 'grad_norm': 2.2415924072265625, 'learning_rate': 4.530869212022746e-06, 'epoch': 0.57}
+{'loss': 1.9671, 'grad_norm': 2.2135009765625, 'learning_rate': 4.528838342810723e-06, 'epoch': 0.57}
+{'eval_loss': 2.118105173110962, 'eval_runtime': 37.5711, 'eval_samples_per_second': 26.616, 'eval_steps_per_second': 1.118, 'epoch': 0.57}
+{'loss': 1.9625, 'grad_norm': 2.3513574600219727, 'learning_rate': 4.526807473598701e-06, 'epoch': 0.57}
+{'loss': 1.9621, 'grad_norm': 1.9949424266815186, 'learning_rate': 4.524776604386678e-06, 'epoch': 0.57}
+{'loss': 1.9389, 'grad_norm': 2.199488401412964, 'learning_rate': 4.522745735174655e-06, 'epoch': 0.57}
+{'loss': 1.9936, 'grad_norm': 2.2119452953338623, 'learning_rate': 4.520714865962632e-06, 'epoch': 0.57}
+{'loss': 1.9728, 'grad_norm': 2.242812156677246, 'learning_rate': 4.51868399675061e-06, 'epoch': 0.58}
+{'loss': 1.98, 'grad_norm': 2.1713850498199463, 'learning_rate': 4.516653127538587e-06, 'epoch': 0.58}
+{'loss': 1.9412, 'grad_norm': 2.261742353439331, 'learning_rate': 4.514622258326564e-06, 'epoch': 0.58}
+{'loss': 1.9266, 'grad_norm': 2.222663402557373, 'learning_rate': 4.5125913891145415e-06, 'epoch': 0.58}
+{'loss': 1.9539, 'grad_norm': 2.1108906269073486, 'learning_rate': 4.510560519902519e-06, 'epoch': 0.58}
+{'loss': 1.9842, 'grad_norm': 1.9594205617904663, 'learning_rate': 4.508529650690496e-06, 'epoch': 0.58}
+{'eval_loss': 2.1156039237976074, 'eval_runtime': 37.3762, 'eval_samples_per_second': 26.755, 'eval_steps_per_second': 1.124, 'epoch': 0.58}
+{'loss': 1.9095, 'grad_norm': 2.1339495182037354, 'learning_rate': 4.506498781478473e-06, 'epoch': 0.58}
+{'loss': 1.9091, 'grad_norm': 2.116248607635498, 'learning_rate': 4.504467912266451e-06, 'epoch': 0.58}
+{'loss': 1.9537, 'grad_norm': 2.063962459564209, 'learning_rate': 4.502437043054428e-06, 'epoch': 0.58}
+{'loss': 2.0253, 'grad_norm': 2.162569522857666, 'learning_rate': 4.500406173842405e-06, 'epoch': 0.59}
+{'loss': 1.9714, 'grad_norm': 2.1783549785614014, 'learning_rate': 4.4983753046303824e-06, 'epoch': 0.59}
+{'loss': 1.9629, 'grad_norm': 2.0791046619415283, 'learning_rate': 4.49634443541836e-06, 'epoch': 0.59}
+{'loss': 1.9445, 'grad_norm': 2.3923251628875732, 'learning_rate': 4.494313566206336e-06, 'epoch': 0.59}
+{'loss': 2.007, 'grad_norm': 2.1848347187042236, 'learning_rate': 4.492282696994314e-06, 'epoch': 0.59}
+{'loss': 1.9409, 'grad_norm': 2.0824925899505615, 'learning_rate': 4.490251827782291e-06, 'epoch': 0.59}
+{'loss': 1.9061, 'grad_norm': 2.057790756225586, 'learning_rate': 4.488220958570269e-06, 'epoch': 0.59}
+{'eval_loss': 2.117532253265381, 'eval_runtime': 37.1978, 'eval_samples_per_second': 26.883, 'eval_steps_per_second': 1.129, 'epoch': 0.59}
+{'loss': 1.9379, 'grad_norm': 2.3652148246765137, 'learning_rate': 4.486190089358245e-06, 'epoch': 0.59}
+{'loss': 1.8881, 'grad_norm': 2.195535659790039, 'learning_rate': 4.484159220146223e-06, 'epoch': 0.59}
+{'loss': 1.9923, 'grad_norm': 2.258000135421753, 'learning_rate': 4.4821283509342e-06, 'epoch': 0.6}
+{'loss': 1.9715, 'grad_norm': 2.097041606903076, 'learning_rate': 4.480097481722178e-06, 'epoch': 0.6}
+{'loss': 1.9487, 'grad_norm': 2.1741156578063965, 'learning_rate': 4.478066612510154e-06, 'epoch': 0.6}
+{'loss': 1.9172, 'grad_norm': 2.135338306427002, 'learning_rate': 4.4760357432981325e-06, 'epoch': 0.6}
+{'loss': 1.945, 'grad_norm': 2.3435418605804443, 'learning_rate': 4.474004874086109e-06, 'epoch': 0.6}
+{'loss': 2.0717, 'grad_norm': 2.2242488861083984, 'learning_rate': 4.471974004874087e-06, 'epoch': 0.6}
+{'loss': 1.9082, 'grad_norm': 2.3371622562408447, 'learning_rate': 4.4699431356620635e-06, 'epoch': 0.6}
+{'loss': 2.0154, 'grad_norm': 2.176064968109131, 'learning_rate': 4.467912266450041e-06, 'epoch': 0.6}
+{'eval_loss': 2.1125717163085938, 'eval_runtime': 37.2345, 'eval_samples_per_second': 26.857, 'eval_steps_per_second': 1.128, 'epoch': 0.6}
+{'loss': 1.9575, 'grad_norm': 2.131166934967041, 'learning_rate': 4.465881397238018e-06, 'epoch': 0.6}
+{'loss': 1.9544, 'grad_norm': 2.094514846801758, 'learning_rate': 4.463850528025995e-06, 'epoch': 0.6}
+{'loss': 1.9539, 'grad_norm': 2.0827765464782715, 'learning_rate': 4.4618196588139726e-06, 'epoch': 0.61}
+{'loss': 1.983, 'grad_norm': 2.225749969482422, 'learning_rate': 4.45978878960195e-06, 'epoch': 0.61}
+{'loss': 1.9769, 'grad_norm': 2.1363680362701416, 'learning_rate': 4.457757920389927e-06, 'epoch': 0.61}
+{'loss': 1.9094, 'grad_norm': 2.238170623779297, 'learning_rate': 4.455727051177904e-06, 'epoch': 0.61}
+{'loss': 1.9464, 'grad_norm': 2.228384494781494, 'learning_rate': 4.453696181965882e-06, 'epoch': 0.61}
+{'loss': 2.0017, 'grad_norm': 2.479428768157959, 'learning_rate': 4.451665312753859e-06, 'epoch': 0.61}
+{'loss': 1.9728, 'grad_norm': 2.2331902980804443, 'learning_rate': 4.449634443541836e-06, 'epoch': 0.61}
+{'loss': 2.0153, 'grad_norm': 2.1728556156158447, 'learning_rate': 4.4476035743298135e-06, 'epoch': 0.61}
+{'eval_loss': 2.1054491996765137, 'eval_runtime': 37.1346, 'eval_samples_per_second': 26.929, 'eval_steps_per_second': 1.131, 'epoch': 0.61}
+{'loss': 1.9242, 'grad_norm': 2.377814292907715, 'learning_rate': 4.445572705117791e-06, 'epoch': 0.61}
+{'loss': 1.9454, 'grad_norm': 2.190436601638794, 'learning_rate': 4.443541835905768e-06, 'epoch': 0.62}
+{'loss': 2.0048, 'grad_norm': 2.052201986312866, 'learning_rate': 4.441510966693745e-06, 'epoch': 0.62}
+{'loss': 1.9426, 'grad_norm': 2.2706589698791504, 'learning_rate': 4.439480097481723e-06, 'epoch': 0.62}
+{'loss': 2.0047, 'grad_norm': 2.3478105068206787, 'learning_rate': 4.4374492282697e-06, 'epoch': 0.62}
+{'loss': 1.8739, 'grad_norm': 2.465078115463257, 'learning_rate': 4.435418359057677e-06, 'epoch': 0.62}
+{'loss': 1.9588, 'grad_norm': 2.0979490280151367, 'learning_rate': 4.433387489845654e-06, 'epoch': 0.62}
+{'loss': 1.9695, 'grad_norm': 2.1239588260650635, 'learning_rate': 4.431356620633632e-06, 'epoch': 0.62}
+{'loss': 1.9232, 'grad_norm': 2.014007806777954, 'learning_rate': 4.429325751421609e-06, 'epoch': 0.62}
+{'loss': 1.928, 'grad_norm': 2.212414026260376, 'learning_rate': 4.427294882209586e-06, 'epoch': 0.62}
+{'eval_loss': 2.1108851432800293, 'eval_runtime': 37.1986, 'eval_samples_per_second': 26.883, 'eval_steps_per_second': 1.129, 'epoch': 0.62}
+{'loss': 1.9568, 'grad_norm': 2.0944411754608154, 'learning_rate': 4.4252640129975635e-06, 'epoch': 0.63}
+{'loss': 1.8917, 'grad_norm': 2.1068055629730225, 'learning_rate': 4.423233143785541e-06, 'epoch': 0.63}
+{'loss': 1.9536, 'grad_norm': 2.1992151737213135, 'learning_rate': 4.421202274573518e-06, 'epoch': 0.63}
+{'loss': 1.9603, 'grad_norm': 2.2079834938049316, 'learning_rate': 4.4191714053614945e-06, 'epoch': 0.63}
+{'loss': 1.8529, 'grad_norm': 2.1230316162109375, 'learning_rate': 4.417140536149473e-06, 'epoch': 0.63}
+{'loss': 1.8997, 'grad_norm': 2.1069579124450684, 'learning_rate': 4.415109666937449e-06, 'epoch': 0.63}
+{'loss': 1.971, 'grad_norm': 2.1683409214019775, 'learning_rate': 4.413078797725427e-06, 'epoch': 0.63}
+{'loss': 1.9154, 'grad_norm': 2.0599024295806885, 'learning_rate': 4.411047928513404e-06, 'epoch': 0.63}
+{'loss': 1.9562, 'grad_norm': 2.1605849266052246, 'learning_rate': 4.409017059301382e-06, 'epoch': 0.63}
+{'loss': 1.9571, 'grad_norm': 2.151249408721924, 'learning_rate': 4.406986190089358e-06, 'epoch': 0.64}
+{'eval_loss': 2.1060245037078857, 'eval_runtime': 37.2067, 'eval_samples_per_second': 26.877, 'eval_steps_per_second': 1.129, 'epoch': 0.64}
+{'loss': 1.9816, 'grad_norm': 2.1819236278533936, 'learning_rate': 4.404955320877336e-06, 'epoch': 0.64}
+{'loss': 1.9738, 'grad_norm': 2.1131205558776855, 'learning_rate': 4.402924451665313e-06, 'epoch': 0.64}
+{'loss': 1.924, 'grad_norm': 2.0852456092834473, 'learning_rate': 4.400893582453291e-06, 'epoch': 0.64}
+{'loss': 1.9067, 'grad_norm': 2.0997941493988037, 'learning_rate': 4.398862713241267e-06, 'epoch': 0.64}
+{'loss': 1.9393, 'grad_norm': 2.0848538875579834, 'learning_rate': 4.396831844029245e-06, 'epoch': 0.64}
+{'loss': 1.9458, 'grad_norm': 2.2121758460998535, 'learning_rate': 4.394800974817222e-06, 'epoch': 0.64}
+{'loss': 1.9528, 'grad_norm': 2.194462299346924, 'learning_rate': 4.392770105605199e-06, 'epoch': 0.64}
+{'loss': 1.9584, 'grad_norm': 2.1936254501342773, 'learning_rate': 4.390739236393176e-06, 'epoch': 0.64}
+{'loss': 1.9666, 'grad_norm': 2.1685783863067627, 'learning_rate': 4.388708367181154e-06, 'epoch': 0.65}
+{'loss': 1.9748, 'grad_norm': 2.334571123123169, 'learning_rate': 4.386677497969131e-06, 'epoch': 0.65}
+{'eval_loss': 2.1009693145751953, 'eval_runtime': 37.1848, 'eval_samples_per_second': 26.893, 'eval_steps_per_second': 1.129, 'epoch': 0.65}
+{'loss': 1.9597, 'grad_norm': 2.2901110649108887, 'learning_rate': 4.384646628757108e-06, 'epoch': 0.65}
+{'loss': 2.004, 'grad_norm': 2.2364838123321533, 'learning_rate': 4.3826157595450855e-06, 'epoch': 0.65}
+{'loss': 1.9319, 'grad_norm': 2.1088364124298096, 'learning_rate': 4.380584890333063e-06, 'epoch': 0.65}
+{'loss': 1.8906, 'grad_norm': 2.164210319519043, 'learning_rate': 4.37855402112104e-06, 'epoch': 0.65}
+{'loss': 1.8474, 'grad_norm': 2.205200672149658, 'learning_rate': 4.376523151909017e-06, 'epoch': 0.65}
+{'loss': 2.0033, 'grad_norm': 2.239530086517334, 'learning_rate': 4.3744922826969946e-06, 'epoch': 0.65}
+{'loss': 1.9258, 'grad_norm': 2.214747190475464, 'learning_rate': 4.372461413484972e-06, 'epoch': 0.65}
+{'loss': 1.9479, 'grad_norm': 2.1746792793273926, 'learning_rate': 4.370430544272949e-06, 'epoch': 0.66}
+{'loss': 1.9825, 'grad_norm': 2.194131851196289, 'learning_rate': 4.368399675060926e-06, 'epoch': 0.66}
+{'loss': 1.9831, 'grad_norm': 2.3334717750549316, 'learning_rate': 4.366368805848904e-06, 'epoch': 0.66}
+{'eval_loss': 2.0959081649780273, 'eval_runtime': 37.2053, 'eval_samples_per_second': 26.878, 'eval_steps_per_second': 1.129, 'epoch': 0.66}
+{'loss': 1.9407, 'grad_norm': 2.269484758377075, 'learning_rate': 4.364337936636881e-06, 'epoch': 0.66}
+{'loss': 1.8905, 'grad_norm': 2.470773935317993, 'learning_rate': 4.362307067424858e-06, 'epoch': 0.66}
+{'loss': 1.953, 'grad_norm': 2.485574960708618, 'learning_rate': 4.3602761982128355e-06, 'epoch': 0.66}
+{'loss': 1.9244, 'grad_norm': 2.2443618774414062, 'learning_rate': 4.358245329000813e-06, 'epoch': 0.66}
+{'loss': 1.9364, 'grad_norm': 2.039600372314453, 'learning_rate': 4.35621445978879e-06, 'epoch': 0.66}
+{'loss': 1.9439, 'grad_norm': 2.093001127243042, 'learning_rate': 4.354183590576767e-06, 'epoch': 0.66}
+{'loss': 1.9322, 'grad_norm': 2.3433260917663574, 'learning_rate': 4.352152721364745e-06, 'epoch': 0.67}
+{'loss': 1.8829, 'grad_norm': 2.2403812408447266, 'learning_rate': 4.350121852152722e-06, 'epoch': 0.67}
+{'loss': 1.9549, 'grad_norm': 2.1542811393737793, 'learning_rate': 4.348090982940699e-06, 'epoch': 0.67}
+{'loss': 1.9433, 'grad_norm': 2.1526548862457275, 'learning_rate': 4.3460601137286764e-06, 'epoch': 0.67}
+{'eval_loss': 2.091909885406494, 'eval_runtime': 37.2106, 'eval_samples_per_second': 26.874, 'eval_steps_per_second': 1.129, 'epoch': 0.67}
+{'loss': 1.9643, 'grad_norm': 2.093421459197998, 'learning_rate': 4.344029244516654e-06, 'epoch': 0.67}
+{'loss': 1.9309, 'grad_norm': 2.2205088138580322, 'learning_rate': 4.341998375304631e-06, 'epoch': 0.67}
+{'loss': 2.0064, 'grad_norm': 2.059763193130493, 'learning_rate': 4.339967506092607e-06, 'epoch': 0.67}
+{'loss': 1.9394, 'grad_norm': 2.0340707302093506, 'learning_rate': 4.3379366368805855e-06, 'epoch': 0.67}
+{'loss': 1.9421, 'grad_norm': 2.0716137886047363, 'learning_rate': 4.335905767668562e-06, 'epoch': 0.67}
+{'loss': 1.9261, 'grad_norm': 2.176809549331665, 'learning_rate': 4.33387489845654e-06, 'epoch': 0.68}
+{'loss': 1.9635, 'grad_norm': 2.144385814666748, 'learning_rate': 4.3318440292445165e-06, 'epoch': 0.68}
+{'loss': 1.9417, 'grad_norm': 2.0949580669403076, 'learning_rate': 4.329813160032495e-06, 'epoch': 0.68}
+{'loss': 1.9041, 'grad_norm': 2.1727259159088135, 'learning_rate': 4.327782290820471e-06, 'epoch': 0.68}
+{'loss': 1.8973, 'grad_norm': 2.012868881225586, 'learning_rate': 4.325751421608449e-06, 'epoch': 0.68}
+{'eval_loss': 2.091993570327759, 'eval_runtime': 37.5495, 'eval_samples_per_second': 26.631, 'eval_steps_per_second': 1.119, 'epoch': 0.68}
+{'loss': 1.9719, 'grad_norm': 2.204153299331665, 'learning_rate': 4.323720552396426e-06, 'epoch': 0.68}
+{'loss': 1.9207, 'grad_norm': 2.2421770095825195, 'learning_rate': 4.321689683184404e-06, 'epoch': 0.68}
+{'loss': 1.9146, 'grad_norm': 2.2263410091400146, 'learning_rate': 4.31965881397238e-06, 'epoch': 0.68}
+{'loss': 1.9311, 'grad_norm': 2.2015221118927, 'learning_rate': 4.3176279447603574e-06, 'epoch': 0.68}
+{'loss': 1.9673, 'grad_norm': 2.1459643840789795, 'learning_rate': 4.315597075548335e-06, 'epoch': 0.68}
+{'loss': 1.954, 'grad_norm': 2.278928756713867, 'learning_rate': 4.313566206336312e-06, 'epoch': 0.69}
+{'loss': 1.9789, 'grad_norm': 2.05305552482605, 'learning_rate': 4.311535337124289e-06, 'epoch': 0.69}
+{'loss': 1.926, 'grad_norm': 2.3979289531707764, 'learning_rate': 4.3095044679122665e-06, 'epoch': 0.69}
+{'loss': 1.9316, 'grad_norm': 2.1635828018188477, 'learning_rate': 4.307473598700244e-06, 'epoch': 0.69}
+{'loss': 1.9409, 'grad_norm': 2.237713098526001, 'learning_rate': 4.305442729488221e-06, 'epoch': 0.69}
+{'eval_loss': 2.092453718185425, 'eval_runtime': 37.3113, 'eval_samples_per_second': 26.801, 'eval_steps_per_second': 1.126, 'epoch': 0.69}
+{'loss': 1.8777, 'grad_norm': 2.157435894012451, 'learning_rate': 4.303411860276198e-06, 'epoch': 0.69}
+{'loss': 1.9803, 'grad_norm': 2.20766019821167, 'learning_rate': 4.301380991064176e-06, 'epoch': 0.69}
+{'loss': 1.9541, 'grad_norm': 2.173079490661621, 'learning_rate': 4.299350121852153e-06, 'epoch': 0.69}
+{'loss': 1.9766, 'grad_norm': 1.9727106094360352, 'learning_rate': 4.29731925264013e-06, 'epoch': 0.69}
+{'loss': 1.9737, 'grad_norm': 2.268538475036621, 'learning_rate': 4.2952883834281075e-06, 'epoch': 0.7}
+{'loss': 1.9291, 'grad_norm': 2.2118406295776367, 'learning_rate': 4.293257514216085e-06, 'epoch': 0.7}
+{'loss': 1.8868, 'grad_norm': 2.2939369678497314, 'learning_rate': 4.291226645004062e-06, 'epoch': 0.7}
+{'loss': 1.9694, 'grad_norm': 2.4940083026885986, 'learning_rate': 4.289195775792039e-06, 'epoch': 0.7}
+{'loss': 1.9781, 'grad_norm': 2.1988351345062256, 'learning_rate': 4.287164906580017e-06, 'epoch': 0.7}
+{'loss': 1.9145, 'grad_norm': 2.099578619003296, 'learning_rate': 4.285134037367994e-06, 'epoch': 0.7}
+{'eval_loss': 2.0870540142059326, 'eval_runtime': 37.1744, 'eval_samples_per_second': 26.9, 'eval_steps_per_second': 1.13, 'epoch': 0.7}
+{'loss': 1.9075, 'grad_norm': 2.2437307834625244, 'learning_rate': 4.283103168155971e-06, 'epoch': 0.7}
+{'loss': 1.8929, 'grad_norm': 2.320880174636841, 'learning_rate': 4.281072298943948e-06, 'epoch': 0.7}
+{'loss': 1.8872, 'grad_norm': 2.1174306869506836, 'learning_rate': 4.279041429731926e-06, 'epoch': 0.7}
+{'loss': 1.9287, 'grad_norm': 2.2826361656188965, 'learning_rate': 4.277010560519903e-06, 'epoch': 0.71}
+{'loss': 1.9119, 'grad_norm': 2.7543559074401855, 'learning_rate': 4.27497969130788e-06, 'epoch': 0.71}
+{'loss': 1.9118, 'grad_norm': 2.2582201957702637, 'learning_rate': 4.2729488220958575e-06, 'epoch': 0.71}
+{'loss': 1.959, 'grad_norm': 2.3121371269226074, 'learning_rate': 4.270917952883835e-06, 'epoch': 0.71}
+{'loss': 1.9679, 'grad_norm': 2.419102430343628, 'learning_rate': 4.268887083671812e-06, 'epoch': 0.71}
+{'loss': 1.8939, 'grad_norm': 2.285771369934082, 'learning_rate': 4.266856214459789e-06, 'epoch': 0.71}
+{'loss': 2.0097, 'grad_norm': 2.193603754043579, 'learning_rate': 4.264825345247766e-06, 'epoch': 0.71}
+{'eval_loss': 2.086505889892578, 'eval_runtime': 37.2391, 'eval_samples_per_second': 26.854, 'eval_steps_per_second': 1.128, 'epoch': 0.71}
+{'loss': 1.8865, 'grad_norm': 2.2645511627197266, 'learning_rate': 4.262794476035744e-06, 'epoch': 0.71}
+{'loss': 1.9331, 'grad_norm': 2.5553910732269287, 'learning_rate': 4.26076360682372e-06, 'epoch': 0.71}
+{'loss': 1.847, 'grad_norm': 2.2770845890045166, 'learning_rate': 4.2587327376116984e-06, 'epoch': 0.72}
+{'loss': 1.9058, 'grad_norm': 2.1486358642578125, 'learning_rate': 4.256701868399675e-06, 'epoch': 0.72}
+{'loss': 1.9408, 'grad_norm': 2.168975353240967, 'learning_rate': 4.254670999187653e-06, 'epoch': 0.72}
+{'loss': 1.932, 'grad_norm': 2.2156167030334473, 'learning_rate': 4.252640129975629e-06, 'epoch': 0.72}
+{'loss': 1.9327, 'grad_norm': 2.148214101791382, 'learning_rate': 4.2506092607636075e-06, 'epoch': 0.72}
+{'loss': 1.9191, 'grad_norm': 2.3860998153686523, 'learning_rate': 4.248578391551584e-06, 'epoch': 0.72}
+{'loss': 1.8607, 'grad_norm': 2.3917558193206787, 'learning_rate': 4.246547522339562e-06, 'epoch': 0.72}
+{'loss': 1.9083, 'grad_norm': 2.3024795055389404, 'learning_rate': 4.2445166531275385e-06, 'epoch': 0.72}
+{'eval_loss': 2.087529182434082, 'eval_runtime': 37.2247, 'eval_samples_per_second': 26.864, 'eval_steps_per_second': 1.128, 'epoch': 0.72}
+{'loss': 1.9155, 'grad_norm': 2.261615037918091, 'learning_rate': 4.242485783915517e-06, 'epoch': 0.72}
+{'loss': 1.858, 'grad_norm': 2.190124034881592, 'learning_rate': 4.240454914703493e-06, 'epoch': 0.73}
+{'loss': 1.878, 'grad_norm': 2.3396036624908447, 'learning_rate': 4.23842404549147e-06, 'epoch': 0.73}
+{'loss': 1.8755, 'grad_norm': 2.198410987854004, 'learning_rate': 4.236393176279448e-06, 'epoch': 0.73}
+{'loss': 1.8709, 'grad_norm': 2.108875274658203, 'learning_rate': 4.234362307067425e-06, 'epoch': 0.73}
+{'loss': 1.9395, 'grad_norm': 2.0908193588256836, 'learning_rate': 4.232331437855402e-06, 'epoch': 0.73}
+{'loss': 1.9675, 'grad_norm': 2.208134651184082, 'learning_rate': 4.2303005686433795e-06, 'epoch': 0.73}
+{'loss': 1.9661, 'grad_norm': 2.2779526710510254, 'learning_rate': 4.228269699431357e-06, 'epoch': 0.73}
+{'loss': 1.9244, 'grad_norm': 2.053279161453247, 'learning_rate': 4.226238830219334e-06, 'epoch': 0.73}
+{'loss': 1.9252, 'grad_norm': 2.2060821056365967, 'learning_rate': 4.224207961007311e-06, 'epoch': 0.73}
+{'eval_loss': 2.0882723331451416, 'eval_runtime': 37.2469, 'eval_samples_per_second': 26.848, 'eval_steps_per_second': 1.128, 'epoch': 0.73}
+{'loss': 1.926, 'grad_norm': 2.1996090412139893, 'learning_rate': 4.2221770917952886e-06, 'epoch': 0.74}
+{'loss': 1.9123, 'grad_norm': 2.0817034244537354, 'learning_rate': 4.220146222583266e-06, 'epoch': 0.74}
+{'loss': 1.9369, 'grad_norm': 2.2505035400390625, 'learning_rate': 4.218115353371243e-06, 'epoch': 0.74}
+{'loss': 1.9225, 'grad_norm': 2.2053000926971436, 'learning_rate': 4.21608448415922e-06, 'epoch': 0.74}
+{'loss': 1.8876, 'grad_norm': 2.039905071258545, 'learning_rate': 4.214053614947198e-06, 'epoch': 0.74}
+{'loss': 1.9724, 'grad_norm': 2.047445297241211, 'learning_rate': 4.212022745735175e-06, 'epoch': 0.74}
+{'loss': 1.8687, 'grad_norm': 2.277803897857666, 'learning_rate': 4.209991876523152e-06, 'epoch': 0.74}
+{'loss': 1.9349, 'grad_norm': 2.0048105716705322, 'learning_rate': 4.2079610073111295e-06, 'epoch': 0.74}
+{'loss': 1.8723, 'grad_norm': 2.121614456176758, 'learning_rate': 4.205930138099107e-06, 'epoch': 0.74}
+{'loss': 1.9713, 'grad_norm': 2.169165849685669, 'learning_rate': 4.203899268887084e-06, 'epoch': 0.75}
+{'eval_loss': 2.0784857273101807, 'eval_runtime': 37.1829, 'eval_samples_per_second': 26.894, 'eval_steps_per_second': 1.13, 'epoch': 0.75}
+{'loss': 1.9237, 'grad_norm': 2.004974603652954, 'learning_rate': 4.201868399675061e-06, 'epoch': 0.75}
+{'loss': 1.9686, 'grad_norm': 2.042402505874634, 'learning_rate': 4.199837530463039e-06, 'epoch': 0.75}
+{'loss': 1.8498, 'grad_norm': 2.152040719985962, 'learning_rate': 4.197806661251016e-06, 'epoch': 0.75}
+{'loss': 1.9241, 'grad_norm': 2.116483211517334, 'learning_rate': 4.195775792038993e-06, 'epoch': 0.75}
+{'loss': 1.9019, 'grad_norm': 2.1628384590148926, 'learning_rate': 4.19374492282697e-06, 'epoch': 0.75}
+{'loss': 1.836, 'grad_norm': 2.1851415634155273, 'learning_rate': 4.191714053614948e-06, 'epoch': 0.75}
+{'loss': 1.9412, 'grad_norm': 2.173215866088867, 'learning_rate': 4.189683184402924e-06, 'epoch': 0.75}
+{'loss': 1.8871, 'grad_norm': 2.1002466678619385, 'learning_rate': 4.187652315190902e-06, 'epoch': 0.75}
+{'loss': 1.9671, 'grad_norm': 2.1932122707366943, 'learning_rate': 4.185621445978879e-06, 'epoch': 0.76}
+{'loss': 1.8957, 'grad_norm': 2.2915258407592773, 'learning_rate': 4.183590576766857e-06, 'epoch': 0.76}
+{'eval_loss': 2.075087070465088, 'eval_runtime': 37.551, 'eval_samples_per_second': 26.63, 'eval_steps_per_second': 1.118, 'epoch': 0.76}
+{'loss': 1.9091, 'grad_norm': 2.060879707336426, 'learning_rate': 4.181559707554833e-06, 'epoch': 0.76}
+{'loss': 1.9606, 'grad_norm': 2.031156539916992, 'learning_rate': 4.179528838342811e-06, 'epoch': 0.76}
+{'loss': 1.88, 'grad_norm': 2.121628999710083, 'learning_rate': 4.177497969130788e-06, 'epoch': 0.76}
+{'loss': 1.8916, 'grad_norm': 2.2009618282318115, 'learning_rate': 4.175467099918766e-06, 'epoch': 0.76}
+{'loss': 1.9805, 'grad_norm': 2.124082326889038, 'learning_rate': 4.173436230706742e-06, 'epoch': 0.76}
+{'loss': 1.9052, 'grad_norm': 2.3914906978607178, 'learning_rate': 4.1714053614947205e-06, 'epoch': 0.76}
+{'loss': 1.8965, 'grad_norm': 2.2398853302001953, 'learning_rate': 4.169374492282697e-06, 'epoch': 0.76}
+{'loss': 1.8962, 'grad_norm': 2.224860191345215, 'learning_rate': 4.167343623070675e-06, 'epoch': 0.76}
+{'loss': 1.9543, 'grad_norm': 2.3356244564056396, 'learning_rate': 4.165312753858652e-06, 'epoch': 0.77}
+{'loss': 1.9095, 'grad_norm': 2.1308751106262207, 'learning_rate': 4.163281884646629e-06, 'epoch': 0.77}
+{'eval_loss': 2.0741405487060547, 'eval_runtime': 37.1158, 'eval_samples_per_second': 26.943, 'eval_steps_per_second': 1.132, 'epoch': 0.77}
+{'loss': 1.8923, 'grad_norm': 2.1655938625335693, 'learning_rate': 4.161251015434607e-06, 'epoch': 0.77}
+{'loss': 1.9216, 'grad_norm': 2.1985316276550293, 'learning_rate': 4.159220146222583e-06, 'epoch': 0.77}
+{'loss': 1.879, 'grad_norm': 2.1537251472473145, 'learning_rate': 4.157189277010561e-06, 'epoch': 0.77}
+{'loss': 1.905, 'grad_norm': 2.1867849826812744, 'learning_rate': 4.155158407798538e-06, 'epoch': 0.77}
+{'loss': 1.9403, 'grad_norm': 2.342320203781128, 'learning_rate': 4.153127538586516e-06, 'epoch': 0.77}
+{'loss': 1.9109, 'grad_norm': 2.2250113487243652, 'learning_rate': 4.151096669374492e-06, 'epoch': 0.77}
+{'loss': 1.9288, 'grad_norm': 2.179103374481201, 'learning_rate': 4.1490658001624705e-06, 'epoch': 0.77}
+{'loss': 1.8982, 'grad_norm': 2.3618645668029785, 'learning_rate': 4.147034930950447e-06, 'epoch': 0.78}
+{'loss': 1.9, 'grad_norm': 2.150402307510376, 'learning_rate': 4.145004061738425e-06, 'epoch': 0.78}
+{'loss': 1.9003, 'grad_norm': 2.295571804046631, 'learning_rate': 4.1429731925264015e-06, 'epoch': 0.78}
+{'eval_loss': 2.0764248371124268, 'eval_runtime': 37.1736, 'eval_samples_per_second': 26.901, 'eval_steps_per_second': 1.13, 'epoch': 0.78}
+{'loss': 1.8307, 'grad_norm': 2.3279545307159424, 'learning_rate': 4.140942323314379e-06, 'epoch': 0.78}
+{'loss': 1.8755, 'grad_norm': 2.3993380069732666, 'learning_rate': 4.138911454102356e-06, 'epoch': 0.78}
+{'loss': 1.8914, 'grad_norm': 2.139653444290161, 'learning_rate': 4.136880584890333e-06, 'epoch': 0.78}
+{'loss': 1.9289, 'grad_norm': 2.239544153213501, 'learning_rate': 4.1348497156783106e-06, 'epoch': 0.78}
+{'loss': 1.9237, 'grad_norm': 2.2039642333984375, 'learning_rate': 4.132818846466288e-06, 'epoch': 0.78}
+{'loss': 1.9291, 'grad_norm': 2.1453804969787598, 'learning_rate': 4.130787977254265e-06, 'epoch': 0.78}
+{'loss': 1.9413, 'grad_norm': 2.2350032329559326, 'learning_rate': 4.128757108042242e-06, 'epoch': 0.79}
+{'loss': 1.9318, 'grad_norm': 2.1718318462371826, 'learning_rate': 4.12672623883022e-06, 'epoch': 0.79}
+{'loss': 1.9934, 'grad_norm': 2.1860601902008057, 'learning_rate': 4.124695369618197e-06, 'epoch': 0.79}
+{'loss': 1.9038, 'grad_norm': 2.205166816711426, 'learning_rate': 4.122664500406174e-06, 'epoch': 0.79}
+{'eval_loss': 2.0704574584960938, 'eval_runtime': 37.4854, 'eval_samples_per_second': 26.677, 'eval_steps_per_second': 1.12, 'epoch': 0.79}
+{'loss': 1.906, 'grad_norm': 2.2094533443450928, 'learning_rate': 4.1206336311941515e-06, 'epoch': 0.79}
+{'loss': 1.936, 'grad_norm': 2.178891658782959, 'learning_rate': 4.118602761982129e-06, 'epoch': 0.79}
+{'loss': 1.8736, 'grad_norm': 2.051077365875244, 'learning_rate': 4.116571892770106e-06, 'epoch': 0.79}
+{'loss': 1.8396, 'grad_norm': 2.2430427074432373, 'learning_rate': 4.114541023558083e-06, 'epoch': 0.79}
+{'loss': 1.9668, 'grad_norm': 2.2255303859710693, 'learning_rate': 4.112510154346061e-06, 'epoch': 0.79}
+{'loss': 1.8945, 'grad_norm': 2.280313491821289, 'learning_rate': 4.110479285134038e-06, 'epoch': 0.8}
+{'loss': 1.9157, 'grad_norm': 2.2516801357269287, 'learning_rate': 4.108448415922015e-06, 'epoch': 0.8}
+{'loss': 1.935, 'grad_norm': 2.1379809379577637, 'learning_rate': 4.1064175467099924e-06, 'epoch': 0.8}
+{'loss': 1.935, 'grad_norm': 2.149425983428955, 'learning_rate': 4.10438667749797e-06, 'epoch': 0.8}
+{'loss': 1.7889, 'grad_norm': 2.275270700454712, 'learning_rate': 4.102355808285947e-06, 'epoch': 0.8}
+{'eval_loss': 2.071509599685669, 'eval_runtime': 37.2175, 'eval_samples_per_second': 26.869, 'eval_steps_per_second': 1.129, 'epoch': 0.8}
+{'loss': 1.9833, 'grad_norm': 2.1550278663635254, 'learning_rate': 4.100324939073924e-06, 'epoch': 0.8}
+{'loss': 1.8969, 'grad_norm': 2.3050060272216797, 'learning_rate': 4.0982940698619015e-06, 'epoch': 0.8}
+{'loss': 1.8945, 'grad_norm': 2.4548778533935547, 'learning_rate': 4.096263200649879e-06, 'epoch': 0.8}
+{'loss': 1.9071, 'grad_norm': 2.2611639499664307, 'learning_rate': 4.094232331437856e-06, 'epoch': 0.8}
+{'loss': 1.8787, 'grad_norm': 2.1806774139404297, 'learning_rate': 4.092201462225833e-06, 'epoch': 0.81}
+{'loss': 1.88, 'grad_norm': 2.4374301433563232, 'learning_rate': 4.090170593013811e-06, 'epoch': 0.81}
+{'loss': 1.9178, 'grad_norm': 2.328333854675293, 'learning_rate': 4.088139723801787e-06, 'epoch': 0.81}
+{'loss': 1.8587, 'grad_norm': 2.33552885055542, 'learning_rate': 4.086108854589765e-06, 'epoch': 0.81}
+{'loss': 1.877, 'grad_norm': 2.3472790718078613, 'learning_rate': 4.084077985377742e-06, 'epoch': 0.81}
+{'loss': 1.8888, 'grad_norm': 2.307123899459839, 'learning_rate': 4.08204711616572e-06, 'epoch': 0.81}
+{'eval_loss': 2.074458599090576, 'eval_runtime': 37.2683, 'eval_samples_per_second': 26.832, 'eval_steps_per_second': 1.127, 'epoch': 0.81}
+{'loss': 1.9571, 'grad_norm': 2.3688747882843018, 'learning_rate': 4.080016246953696e-06, 'epoch': 0.81}
+{'loss': 1.8657, 'grad_norm': 2.385007381439209, 'learning_rate': 4.077985377741674e-06, 'epoch': 0.81}
+{'loss': 1.9421, 'grad_norm': 2.156766414642334, 'learning_rate': 4.075954508529651e-06, 'epoch': 0.81}
+{'loss': 1.9396, 'grad_norm': 2.2074286937713623, 'learning_rate': 4.073923639317629e-06, 'epoch': 0.82}
+{'loss': 1.9612, 'grad_norm': 2.185458183288574, 'learning_rate': 4.071892770105605e-06, 'epoch': 0.82}
+{'loss': 1.892, 'grad_norm': 2.324209451675415, 'learning_rate': 4.069861900893583e-06, 'epoch': 0.82}
+{'loss': 1.8522, 'grad_norm': 2.1312127113342285, 'learning_rate': 4.06783103168156e-06, 'epoch': 0.82}
+{'loss': 1.8732, 'grad_norm': 2.0959460735321045, 'learning_rate': 4.065800162469538e-06, 'epoch': 0.82}
+{'loss': 1.8832, 'grad_norm': 2.085519552230835, 'learning_rate': 4.063769293257514e-06, 'epoch': 0.82}
+{'loss': 1.919, 'grad_norm': 2.310145854949951, 'learning_rate': 4.061738424045492e-06, 'epoch': 0.82}
+{'eval_loss': 2.071784019470215, 'eval_runtime': 37.2516, 'eval_samples_per_second': 26.845, 'eval_steps_per_second': 1.127, 'epoch': 0.82}
+{'loss': 1.8874, 'grad_norm': 2.3171160221099854, 'learning_rate': 4.059707554833469e-06, 'epoch': 0.82}
+{'loss': 1.9064, 'grad_norm': 2.1065480709075928, 'learning_rate': 4.057676685621446e-06, 'epoch': 0.82}
+{'loss': 1.9376, 'grad_norm': 2.0539677143096924, 'learning_rate': 4.0556458164094235e-06, 'epoch': 0.83}
+{'loss': 1.9129, 'grad_norm': 2.4440360069274902, 'learning_rate': 4.053614947197401e-06, 'epoch': 0.83}
+{'loss': 1.8281, 'grad_norm': 2.2324604988098145, 'learning_rate': 4.051584077985378e-06, 'epoch': 0.83}
+{'loss': 1.9036, 'grad_norm': 2.262627363204956, 'learning_rate': 4.049553208773355e-06, 'epoch': 0.83}
+{'loss': 1.9455, 'grad_norm': 2.2473418712615967, 'learning_rate': 4.047522339561333e-06, 'epoch': 0.83}
+{'loss': 1.9003, 'grad_norm': 2.473444938659668, 'learning_rate': 4.04549147034931e-06, 'epoch': 0.83}
+{'loss': 1.8941, 'grad_norm': 2.3454110622406006, 'learning_rate': 4.043460601137287e-06, 'epoch': 0.83}
+{'loss': 2.0146, 'grad_norm': 2.4391231536865234, 'learning_rate': 4.041429731925264e-06, 'epoch': 0.83}
+{'eval_loss': 2.0698821544647217, 'eval_runtime': 37.1866, 'eval_samples_per_second': 26.891, 'eval_steps_per_second': 1.129, 'epoch': 0.83}
+{'loss': 1.9, 'grad_norm': 2.3129498958587646, 'learning_rate': 4.039398862713242e-06, 'epoch': 0.83}
+{'loss': 1.9017, 'grad_norm': 2.3766934871673584, 'learning_rate': 4.037367993501219e-06, 'epoch': 0.84}
+{'loss': 1.9657, 'grad_norm': 2.1698460578918457, 'learning_rate': 4.035337124289196e-06, 'epoch': 0.84}
+{'loss': 1.8867, 'grad_norm': 2.384904146194458, 'learning_rate': 4.0333062550771735e-06, 'epoch': 0.84}
+{'loss': 1.8561, 'grad_norm': 2.572391986846924, 'learning_rate': 4.031275385865151e-06, 'epoch': 0.84}
+{'loss': 1.8926, 'grad_norm': 2.216606616973877, 'learning_rate': 4.029244516653128e-06, 'epoch': 0.84}
+{'loss': 1.928, 'grad_norm': 2.215756893157959, 'learning_rate': 4.027213647441105e-06, 'epoch': 0.84}
+{'loss': 1.8286, 'grad_norm': 2.2713284492492676, 'learning_rate': 4.025182778229083e-06, 'epoch': 0.84}
+{'loss': 1.8789, 'grad_norm': 2.341747283935547, 'learning_rate': 4.02315190901706e-06, 'epoch': 0.84}
+{'loss': 1.8998, 'grad_norm': 2.1485848426818848, 'learning_rate': 4.021121039805037e-06, 'epoch': 0.84}
+{'eval_loss': 2.067333221435547, 'eval_runtime': 37.1997, 'eval_samples_per_second': 26.882, 'eval_steps_per_second': 1.129, 'epoch': 0.84}
+{'loss': 1.8995, 'grad_norm': 2.234192132949829, 'learning_rate': 4.0190901705930144e-06, 'epoch': 0.84}
+{'loss': 1.9882, 'grad_norm': 2.289328098297119, 'learning_rate': 4.017059301380992e-06, 'epoch': 0.85}
+{'loss': 1.8706, 'grad_norm': 2.1001455783843994, 'learning_rate': 4.015028432168969e-06, 'epoch': 0.85}
+{'loss': 1.9443, 'grad_norm': 2.2200522422790527, 'learning_rate': 4.012997562956945e-06, 'epoch': 0.85}
+{'loss': 1.8552, 'grad_norm': 2.2540805339813232, 'learning_rate': 4.0109666937449235e-06, 'epoch': 0.85}
+{'loss': 1.8741, 'grad_norm': 2.1214053630828857, 'learning_rate': 4.0089358245329e-06, 'epoch': 0.85}
+{'loss': 1.8798, 'grad_norm': 2.0221869945526123, 'learning_rate': 4.006904955320878e-06, 'epoch': 0.85}
+{'loss': 1.8542, 'grad_norm': 2.217261791229248, 'learning_rate': 4.0048740861088545e-06, 'epoch': 0.85}
+{'loss': 1.9342, 'grad_norm': 2.099202871322632, 'learning_rate': 4.002843216896833e-06, 'epoch': 0.85}
+{'loss': 1.9252, 'grad_norm': 2.139526844024658, 'learning_rate': 4.000812347684809e-06, 'epoch': 0.85}
+{'eval_loss': 2.0624051094055176, 'eval_runtime': 37.5071, 'eval_samples_per_second': 26.662, 'eval_steps_per_second': 1.12, 'epoch': 0.85}
+{'loss': 1.8671, 'grad_norm': 2.2231476306915283, 'learning_rate': 3.998781478472787e-06, 'epoch': 0.86}
+{'loss': 1.8759, 'grad_norm': 2.143979072570801, 'learning_rate': 3.996750609260764e-06, 'epoch': 0.86}
+{'loss': 1.8559, 'grad_norm': 2.1353135108947754, 'learning_rate': 3.994719740048742e-06, 'epoch': 0.86}
+{'loss': 1.999, 'grad_norm': 2.222564697265625, 'learning_rate': 3.992688870836718e-06, 'epoch': 0.86}
+{'loss': 1.9019, 'grad_norm': 1.958031177520752, 'learning_rate': 3.990658001624696e-06, 'epoch': 0.86}
+{'loss': 1.8561, 'grad_norm': 2.2048962116241455, 'learning_rate': 3.988627132412673e-06, 'epoch': 0.86}
+{'loss': 1.9399, 'grad_norm': 2.150332450866699, 'learning_rate': 3.98659626320065e-06, 'epoch': 0.86}
+{'loss': 1.8933, 'grad_norm': 2.182742118835449, 'learning_rate': 3.984565393988627e-06, 'epoch': 0.86}
+{'loss': 1.8918, 'grad_norm': 2.19435715675354, 'learning_rate': 3.9825345247766046e-06, 'epoch': 0.86}
+{'loss': 1.8937, 'grad_norm': 2.3382859230041504, 'learning_rate': 3.980503655564582e-06, 'epoch': 0.87}
+                                                                                                                                                                                                                                                                                                         
+{'eval_loss': 2.0603482723236084, 'eval_runtime': 37.7042, 'eval_samples_per_second': 26.522, 'eval_steps_per_second': 1.114, 'epoch': 0.87}
+{'loss': 1.9148, 'grad_norm': 2.2700726985931396, 'learning_rate': 3.978472786352559e-06, 'epoch': 0.87}
+{'loss': 1.9268, 'grad_norm': 2.2998759746551514, 'learning_rate': 3.976441917140536e-06, 'epoch': 0.87}
+{'loss': 1.901, 'grad_norm': 2.2367377281188965, 'learning_rate': 3.974411047928514e-06, 'epoch': 0.87}
+{'loss': 1.9677, 'grad_norm': 2.0868773460388184, 'learning_rate': 3.972380178716491e-06, 'epoch': 0.87}
+{'loss': 1.9271, 'grad_norm': 2.183732509613037, 'learning_rate': 3.970349309504468e-06, 'epoch': 0.87}
+{'loss': 1.9437, 'grad_norm': 2.187282085418701, 'learning_rate': 3.9683184402924455e-06, 'epoch': 0.87}
diff --git a/wandb/run-20241105_163248-rhhc1g6i/files/wandb-metadata.json b/wandb/run-20241105_163248-rhhc1g6i/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..34cdc9d9c3778371fab9a681eb07a5aed77160cf
--- /dev/null
+++ b/wandb/run-20241105_163248-rhhc1g6i/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T21:32:48.431512Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic21",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1785985146880"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_163248-rhhc1g6i/logs/debug-internal.log b/wandb/run-20241105_163248-rhhc1g6i/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..177c7acd5fc19873e83cc423347af1e8823fcba7
--- /dev/null
+++ b/wandb/run-20241105_163248-rhhc1g6i/logs/debug-internal.log
@@ -0,0 +1,10 @@
+{"time":"2024-11-05T16:32:48.433609243-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T16:32:48.433619403-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_163248-rhhc1g6i/logs/debug-core.log"}
+{"time":"2024-11-05T16:32:48.539127221-05:00","level":"INFO","msg":"created new stream","id":"rhhc1g6i"}
+{"time":"2024-11-05T16:32:48.539159492-05:00","level":"INFO","msg":"stream: started","id":"rhhc1g6i"}
+{"time":"2024-11-05T16:32:48.539242432-05:00","level":"INFO","msg":"sender: started","stream_id":"rhhc1g6i"}
+{"time":"2024-11-05T16:32:48.539209062-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"rhhc1g6i"}}
+{"time":"2024-11-05T16:32:48.539199972-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"rhhc1g6i"}}
+{"time":"2024-11-05T16:32:48.725135281-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-05T22:36:19.088474695-05:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/rhhc1g6i/file_stream"}
+{"time":"2024-11-05T22:36:19.09061281-05:00","level":"ERROR+4","msg":"filestream: fatal error: filestream: failed to upload: 404 Not Found path=files/yaning1001-dartmouth-college/exp-impo-shuffle/rhhc1g6i/file_stream: {\"error\":\"project yaning1001-dartmouth-college/exp-impo-shuffle not found while streaming file\"}"}
diff --git a/wandb/run-20241105_223842-16dt45ha/files/config.yaml b/wandb/run-20241105_223842-16dt45ha/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..bad7a642dde2d14def3184e72e6bfa44feda0e32
--- /dev/null
+++ b/wandb/run-20241105_223842-16dt45ha/files/config.yaml
@@ -0,0 +1,50 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic57
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241105_223842-16dt45ha/files/wandb-summary.json b/wandb/run-20241105_223842-16dt45ha/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..f2fa517dc8eabee2143de01af70a271bde12ee17
--- /dev/null
+++ b/wandb/run-20241105_223842-16dt45ha/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":77982}}
\ No newline at end of file
diff --git a/wandb/run-20241106_224719-cbbyxkvt/files/output.log b/wandb/run-20241106_224719-cbbyxkvt/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..bbea89773bfc2810403f594a24032d957738e0d4
--- /dev/null
+++ b/wandb/run-20241106_224719-cbbyxkvt/files/output.log
@@ -0,0 +1,3033 @@
+model-00001-of-00002.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.97G/4.97G [01:45<00:00, 42.3MB/s]
+model-00002-of-00002.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1.46G/1.46G [00:34<00:00, 42.5MB/s]
+Downloading shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:20<00:00, 70.06s/it]
+Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.51s/it]
+Map: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16425/16425 [00:46<00:00, 356.82 examples/s]
+Map: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17013/17013 [00:46<00:00, 365.06 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-06 22:51:19,516] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-06 22:51:28,751] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-06 22:51:28,751] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.657537221908569 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                                                                                                                                                          
+{'loss': 3.0636, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0501, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0238, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0346, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 3.0108, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.131, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0488, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0905, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0493, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.1038, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                                                                                                                                                          
+{'eval_loss': 3.100078821182251, 'eval_runtime': 37.5838, 'eval_samples_per_second': 26.607, 'eval_steps_per_second': 1.118, 'epoch': 0.01}
+{'loss': 3.0804, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0053, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0607, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0539, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 3.0941, 'grad_norm': 5.420984745025635, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 3.036, 'grad_norm': 5.76840877532959, 'learning_rate': 3.6496350364963505e-08, 'epoch': 0.02}
+{'loss': 3.0491, 'grad_norm': 5.905357360839844, 'learning_rate': 5.4744525547445264e-08, 'epoch': 0.02}
+{'loss': 3.0775, 'grad_norm': 5.981553554534912, 'learning_rate': 7.299270072992701e-08, 'epoch': 0.02}
+{'loss': 3.0345, 'grad_norm': 6.240172863006592, 'learning_rate': 9.124087591240876e-08, 'epoch': 0.02}
+{'loss': 3.1063, 'grad_norm': 5.59375, 'learning_rate': 1.0948905109489053e-07, 'epoch': 0.02}
+{'eval_loss': 3.098820686340332, 'eval_runtime': 37.2695, 'eval_samples_per_second': 26.832, 'eval_steps_per_second': 1.127, 'epoch': 0.02}
+{'loss': 3.0808, 'grad_norm': 5.819795608520508, 'learning_rate': 1.2773722627737227e-07, 'epoch': 0.02}
+{'loss': 3.0055, 'grad_norm': 5.7714762687683105, 'learning_rate': 1.4598540145985402e-07, 'epoch': 0.02}
+{'loss': 3.0396, 'grad_norm': 5.51552152633667, 'learning_rate': 1.642335766423358e-07, 'epoch': 0.03}
+{'loss': 3.0824, 'grad_norm': 5.594012260437012, 'learning_rate': 1.8248175182481753e-07, 'epoch': 0.03}
+{'loss': 3.08, 'grad_norm': 5.1974029541015625, 'learning_rate': 2.0072992700729928e-07, 'epoch': 0.03}
+{'loss': 3.0597, 'grad_norm': 4.733968257904053, 'learning_rate': 2.1897810218978106e-07, 'epoch': 0.03}
+{'loss': 3.0696, 'grad_norm': 4.717319011688232, 'learning_rate': 2.3722627737226278e-07, 'epoch': 0.03}
+{'loss': 3.0273, 'grad_norm': 4.6303534507751465, 'learning_rate': 2.5547445255474454e-07, 'epoch': 0.03}
+{'loss': 3.0202, 'grad_norm': 4.413999557495117, 'learning_rate': 2.737226277372263e-07, 'epoch': 0.03}
+{'loss': 2.9926, 'grad_norm': 4.516043186187744, 'learning_rate': 2.9197080291970804e-07, 'epoch': 0.03}
+{'eval_loss': 3.0561797618865967, 'eval_runtime': 37.0351, 'eval_samples_per_second': 27.001, 'eval_steps_per_second': 1.134, 'epoch': 0.03}
+{'loss': 3.0086, 'grad_norm': 3.7179207801818848, 'learning_rate': 3.102189781021898e-07, 'epoch': 0.03}
+{'loss': 2.9986, 'grad_norm': 3.7840425968170166, 'learning_rate': 3.284671532846716e-07, 'epoch': 0.04}
+{'loss': 2.9677, 'grad_norm': 3.843116521835327, 'learning_rate': 3.467153284671533e-07, 'epoch': 0.04}
+{'loss': 2.9732, 'grad_norm': 3.8528714179992676, 'learning_rate': 3.6496350364963505e-07, 'epoch': 0.04}
+{'loss': 2.9855, 'grad_norm': 3.76963210105896, 'learning_rate': 3.8321167883211686e-07, 'epoch': 0.04}
+{'loss': 3.0117, 'grad_norm': 3.6240015029907227, 'learning_rate': 4.0145985401459856e-07, 'epoch': 0.04}
+{'loss': 2.9481, 'grad_norm': 3.1380624771118164, 'learning_rate': 4.197080291970803e-07, 'epoch': 0.04}
+{'loss': 2.9175, 'grad_norm': 3.565329074859619, 'learning_rate': 4.379562043795621e-07, 'epoch': 0.04}
+{'loss': 3.0074, 'grad_norm': 3.8062448501586914, 'learning_rate': 4.562043795620438e-07, 'epoch': 0.04}
+{'loss': 2.9119, 'grad_norm': 3.412046432495117, 'learning_rate': 4.7445255474452557e-07, 'epoch': 0.04}
+{'eval_loss': 2.9874370098114014, 'eval_runtime': 37.0514, 'eval_samples_per_second': 26.99, 'eval_steps_per_second': 1.134, 'epoch': 0.04}
+{'loss': 2.9436, 'grad_norm': 3.227437973022461, 'learning_rate': 4.927007299270073e-07, 'epoch': 0.04}
+{'loss': 2.967, 'grad_norm': 2.9633443355560303, 'learning_rate': 5.109489051094891e-07, 'epoch': 0.05}
+{'loss': 2.9375, 'grad_norm': 2.942678928375244, 'learning_rate': 5.291970802919708e-07, 'epoch': 0.05}
+{'loss': 2.9474, 'grad_norm': 2.9806888103485107, 'learning_rate': 5.474452554744526e-07, 'epoch': 0.05}
+{'loss': 2.9289, 'grad_norm': 3.000063419342041, 'learning_rate': 5.656934306569343e-07, 'epoch': 0.05}
+{'loss': 2.8869, 'grad_norm': 3.1481194496154785, 'learning_rate': 5.839416058394161e-07, 'epoch': 0.05}
+{'loss': 2.8783, 'grad_norm': 2.949202060699463, 'learning_rate': 6.021897810218979e-07, 'epoch': 0.05}
+{'loss': 2.9024, 'grad_norm': 2.706526279449463, 'learning_rate': 6.204379562043796e-07, 'epoch': 0.05}
+{'loss': 2.8325, 'grad_norm': 2.7317655086517334, 'learning_rate': 6.386861313868614e-07, 'epoch': 0.05}
+{'loss': 2.9409, 'grad_norm': 2.25644588470459, 'learning_rate': 6.569343065693432e-07, 'epoch': 0.05}
+{'eval_loss': 2.909320116043091, 'eval_runtime': 37.0714, 'eval_samples_per_second': 26.975, 'eval_steps_per_second': 1.133, 'epoch': 0.05}
+{'loss': 2.8459, 'grad_norm': 2.8789613246917725, 'learning_rate': 6.751824817518248e-07, 'epoch': 0.06}
+{'loss': 2.8653, 'grad_norm': 2.686873435974121, 'learning_rate': 6.934306569343066e-07, 'epoch': 0.06}
+{'loss': 2.7973, 'grad_norm': 2.54382586479187, 'learning_rate': 7.116788321167883e-07, 'epoch': 0.06}
+{'loss': 2.7982, 'grad_norm': 2.1871724128723145, 'learning_rate': 7.299270072992701e-07, 'epoch': 0.06}
+{'loss': 2.8195, 'grad_norm': 2.145303249359131, 'learning_rate': 7.48175182481752e-07, 'epoch': 0.06}
+{'loss': 2.825, 'grad_norm': 2.1635069847106934, 'learning_rate': 7.664233576642337e-07, 'epoch': 0.06}
+{'loss': 2.8407, 'grad_norm': 2.3530752658843994, 'learning_rate': 7.846715328467154e-07, 'epoch': 0.06}
+{'loss': 2.8182, 'grad_norm': 2.2455942630767822, 'learning_rate': 8.029197080291971e-07, 'epoch': 0.06}
+{'loss': 2.772, 'grad_norm': 1.8985673189163208, 'learning_rate': 8.211678832116789e-07, 'epoch': 0.06}
+{'loss': 2.7367, 'grad_norm': 1.9699499607086182, 'learning_rate': 8.394160583941606e-07, 'epoch': 0.07}
+{'eval_loss': 2.8451859951019287, 'eval_runtime': 37.0793, 'eval_samples_per_second': 26.969, 'eval_steps_per_second': 1.133, 'epoch': 0.07}
+{'loss': 2.7635, 'grad_norm': 2.159547805786133, 'learning_rate': 8.576642335766425e-07, 'epoch': 0.07}
+{'loss': 2.7624, 'grad_norm': 2.12705659866333, 'learning_rate': 8.759124087591242e-07, 'epoch': 0.07}
+{'loss': 2.7763, 'grad_norm': 1.8393241167068481, 'learning_rate': 8.94160583941606e-07, 'epoch': 0.07}
+{'loss': 2.7762, 'grad_norm': 1.683522343635559, 'learning_rate': 9.124087591240876e-07, 'epoch': 0.07}
+{'loss': 2.7418, 'grad_norm': 1.9260376691818237, 'learning_rate': 9.306569343065694e-07, 'epoch': 0.07}
+{'loss': 2.7625, 'grad_norm': 2.09322190284729, 'learning_rate': 9.489051094890511e-07, 'epoch': 0.07}
+{'loss': 2.7453, 'grad_norm': 1.9183429479599, 'learning_rate': 9.67153284671533e-07, 'epoch': 0.07}
+{'loss': 2.7858, 'grad_norm': 1.9792778491973877, 'learning_rate': 9.854014598540146e-07, 'epoch': 0.07}
+{'loss': 2.7242, 'grad_norm': 2.1397311687469482, 'learning_rate': 1.0036496350364965e-06, 'epoch': 0.08}
+{'loss': 2.6853, 'grad_norm': 1.8556463718414307, 'learning_rate': 1.0218978102189781e-06, 'epoch': 0.08}
+{'eval_loss': 2.7787046432495117, 'eval_runtime': 37.1017, 'eval_samples_per_second': 26.953, 'eval_steps_per_second': 1.132, 'epoch': 0.08}
+{'loss': 2.749, 'grad_norm': 1.9776800870895386, 'learning_rate': 1.04014598540146e-06, 'epoch': 0.08}
+{'loss': 2.6457, 'grad_norm': 2.3972630500793457, 'learning_rate': 1.0583941605839416e-06, 'epoch': 0.08}
+{'loss': 2.6401, 'grad_norm': 2.090210199356079, 'learning_rate': 1.0766423357664233e-06, 'epoch': 0.08}
+{'loss': 2.6649, 'grad_norm': 2.4117701053619385, 'learning_rate': 1.0948905109489052e-06, 'epoch': 0.08}
+{'loss': 2.6855, 'grad_norm': 2.4845173358917236, 'learning_rate': 1.113138686131387e-06, 'epoch': 0.08}
+{'loss': 2.6926, 'grad_norm': 1.7779242992401123, 'learning_rate': 1.1313868613138687e-06, 'epoch': 0.08}
+{'loss': 2.6302, 'grad_norm': 2.3163535594940186, 'learning_rate': 1.1496350364963505e-06, 'epoch': 0.08}
+{'loss': 2.6054, 'grad_norm': 2.2296528816223145, 'learning_rate': 1.1678832116788322e-06, 'epoch': 0.09}
+{'loss': 2.6104, 'grad_norm': 2.253431797027588, 'learning_rate': 1.1861313868613138e-06, 'epoch': 0.09}
+{'loss': 2.6078, 'grad_norm': 2.490609645843506, 'learning_rate': 1.2043795620437959e-06, 'epoch': 0.09}
+{'eval_loss': 2.706103563308716, 'eval_runtime': 37.0892, 'eval_samples_per_second': 26.962, 'eval_steps_per_second': 1.132, 'epoch': 0.09}
+{'loss': 2.6096, 'grad_norm': 2.3048248291015625, 'learning_rate': 1.2226277372262775e-06, 'epoch': 0.09}
+{'loss': 2.6412, 'grad_norm': 2.440666913986206, 'learning_rate': 1.2408759124087592e-06, 'epoch': 0.09}
+{'loss': 2.591, 'grad_norm': 1.9456374645233154, 'learning_rate': 1.259124087591241e-06, 'epoch': 0.09}
+{'loss': 2.6093, 'grad_norm': 2.598172664642334, 'learning_rate': 1.2773722627737229e-06, 'epoch': 0.09}
+{'loss': 2.5949, 'grad_norm': 2.2587032318115234, 'learning_rate': 1.2956204379562045e-06, 'epoch': 0.09}
+{'loss': 2.5464, 'grad_norm': 2.2927448749542236, 'learning_rate': 1.3138686131386864e-06, 'epoch': 0.09}
+{'loss': 2.5613, 'grad_norm': 2.5940468311309814, 'learning_rate': 1.332116788321168e-06, 'epoch': 0.1}
+{'loss': 2.4955, 'grad_norm': 2.073207378387451, 'learning_rate': 1.3503649635036497e-06, 'epoch': 0.1}
+{'loss': 2.5315, 'grad_norm': 3.211766242980957, 'learning_rate': 1.3686131386861315e-06, 'epoch': 0.1}
+{'loss': 2.4641, 'grad_norm': 2.2590038776397705, 'learning_rate': 1.3868613138686132e-06, 'epoch': 0.1}
+{'eval_loss': 2.625087261199951, 'eval_runtime': 37.0852, 'eval_samples_per_second': 26.965, 'eval_steps_per_second': 1.133, 'epoch': 0.1}
+{'loss': 2.5537, 'grad_norm': 2.3959836959838867, 'learning_rate': 1.405109489051095e-06, 'epoch': 0.1}
+{'loss': 2.5135, 'grad_norm': 2.596761465072632, 'learning_rate': 1.4233576642335767e-06, 'epoch': 0.1}
+{'loss': 2.5436, 'grad_norm': 2.475759267807007, 'learning_rate': 1.4416058394160583e-06, 'epoch': 0.1}
+{'loss': 2.5066, 'grad_norm': 3.0613298416137695, 'learning_rate': 1.4598540145985402e-06, 'epoch': 0.1}
+{'loss': 2.4646, 'grad_norm': 2.406097650527954, 'learning_rate': 1.478102189781022e-06, 'epoch': 0.1}
+{'loss': 2.5351, 'grad_norm': 2.5872504711151123, 'learning_rate': 1.496350364963504e-06, 'epoch': 0.11}
+{'loss': 2.4953, 'grad_norm': 2.4294471740722656, 'learning_rate': 1.5145985401459856e-06, 'epoch': 0.11}
+{'loss': 2.5133, 'grad_norm': 2.674884080886841, 'learning_rate': 1.5328467153284674e-06, 'epoch': 0.11}
+{'loss': 2.4693, 'grad_norm': 2.5096852779388428, 'learning_rate': 1.551094890510949e-06, 'epoch': 0.11}
+{'loss': 2.4195, 'grad_norm': 2.7390334606170654, 'learning_rate': 1.5693430656934307e-06, 'epoch': 0.11}
+{'eval_loss': 2.55997371673584, 'eval_runtime': 37.0732, 'eval_samples_per_second': 26.974, 'eval_steps_per_second': 1.133, 'epoch': 0.11}
+{'loss': 2.4193, 'grad_norm': 2.8887312412261963, 'learning_rate': 1.5875912408759126e-06, 'epoch': 0.11}
+{'loss': 2.4709, 'grad_norm': 3.0721421241760254, 'learning_rate': 1.6058394160583942e-06, 'epoch': 0.11}
+{'loss': 2.5105, 'grad_norm': 2.728156566619873, 'learning_rate': 1.624087591240876e-06, 'epoch': 0.11}
+{'loss': 2.4316, 'grad_norm': 3.1214346885681152, 'learning_rate': 1.6423357664233577e-06, 'epoch': 0.11}
+{'loss': 2.3737, 'grad_norm': 2.9249517917633057, 'learning_rate': 1.6605839416058394e-06, 'epoch': 0.12}
+{'loss': 2.4165, 'grad_norm': 2.6646173000335693, 'learning_rate': 1.6788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.4217, 'grad_norm': 3.108067750930786, 'learning_rate': 1.6970802919708029e-06, 'epoch': 0.12}
+{'loss': 2.3527, 'grad_norm': 3.142338991165161, 'learning_rate': 1.715328467153285e-06, 'epoch': 0.12}
+{'loss': 2.3927, 'grad_norm': 2.9078011512756348, 'learning_rate': 1.7335766423357666e-06, 'epoch': 0.12}
+{'loss': 2.4021, 'grad_norm': 3.40766978263855, 'learning_rate': 1.7518248175182485e-06, 'epoch': 0.12}
+{'eval_loss': 2.5031485557556152, 'eval_runtime': 36.8147, 'eval_samples_per_second': 27.163, 'eval_steps_per_second': 1.141, 'epoch': 0.12}
+{'loss': 2.4373, 'grad_norm': 4.396062850952148, 'learning_rate': 1.77007299270073e-06, 'epoch': 0.12}
+{'loss': 2.4162, 'grad_norm': 4.0441365242004395, 'learning_rate': 1.788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.4515, 'grad_norm': 2.8869969844818115, 'learning_rate': 1.8065693430656936e-06, 'epoch': 0.12}
+{'loss': 2.3965, 'grad_norm': 3.4833669662475586, 'learning_rate': 1.8248175182481753e-06, 'epoch': 0.12}
+{'loss': 2.3374, 'grad_norm': 2.9996068477630615, 'learning_rate': 1.8430656934306571e-06, 'epoch': 0.13}
+{'loss': 2.3608, 'grad_norm': 2.701371192932129, 'learning_rate': 1.8613138686131388e-06, 'epoch': 0.13}
+{'loss': 2.355, 'grad_norm': 2.9491288661956787, 'learning_rate': 1.8795620437956206e-06, 'epoch': 0.13}
+{'loss': 2.3475, 'grad_norm': 2.9266560077667236, 'learning_rate': 1.8978102189781023e-06, 'epoch': 0.13}
+{'loss': 2.3475, 'grad_norm': 3.0419797897338867, 'learning_rate': 1.916058394160584e-06, 'epoch': 0.13}
+{'loss': 2.3724, 'grad_norm': 2.4531214237213135, 'learning_rate': 1.934306569343066e-06, 'epoch': 0.13}
+{'eval_loss': 2.455423593521118, 'eval_runtime': 37.0304, 'eval_samples_per_second': 27.005, 'eval_steps_per_second': 1.134, 'epoch': 0.13}
+{'loss': 2.2671, 'grad_norm': 3.572502851486206, 'learning_rate': 1.952554744525548e-06, 'epoch': 0.13}
+{'loss': 2.3133, 'grad_norm': 3.5408504009246826, 'learning_rate': 1.9708029197080293e-06, 'epoch': 0.13}
+{'loss': 2.3141, 'grad_norm': 2.488725423812866, 'learning_rate': 1.989051094890511e-06, 'epoch': 0.13}
+{'loss': 2.318, 'grad_norm': 3.241276264190674, 'learning_rate': 2.007299270072993e-06, 'epoch': 0.14}
+{'loss': 2.3712, 'grad_norm': 2.853959798812866, 'learning_rate': 2.025547445255475e-06, 'epoch': 0.14}
+{'loss': 2.3072, 'grad_norm': 2.9798169136047363, 'learning_rate': 2.0437956204379563e-06, 'epoch': 0.14}
+{'loss': 2.318, 'grad_norm': 2.8529601097106934, 'learning_rate': 2.062043795620438e-06, 'epoch': 0.14}
+{'loss': 2.31, 'grad_norm': 3.475337028503418, 'learning_rate': 2.08029197080292e-06, 'epoch': 0.14}
+{'loss': 2.3734, 'grad_norm': 4.213955879211426, 'learning_rate': 2.0985401459854014e-06, 'epoch': 0.14}
+{'loss': 2.2602, 'grad_norm': 3.0833330154418945, 'learning_rate': 2.1167883211678833e-06, 'epoch': 0.14}
+{'eval_loss': 2.4205682277679443, 'eval_runtime': 37.0798, 'eval_samples_per_second': 26.969, 'eval_steps_per_second': 1.133, 'epoch': 0.14}
+{'loss': 2.3255, 'grad_norm': 3.411235809326172, 'learning_rate': 2.135036496350365e-06, 'epoch': 0.14}
+{'loss': 2.3483, 'grad_norm': 2.882053852081299, 'learning_rate': 2.1532846715328466e-06, 'epoch': 0.14}
+{'loss': 2.2492, 'grad_norm': 3.2436420917510986, 'learning_rate': 2.171532846715329e-06, 'epoch': 0.15}
+{'loss': 2.2647, 'grad_norm': 2.929466962814331, 'learning_rate': 2.1897810218978103e-06, 'epoch': 0.15}
+{'loss': 2.3061, 'grad_norm': 2.9344966411590576, 'learning_rate': 2.208029197080292e-06, 'epoch': 0.15}
+{'loss': 2.2746, 'grad_norm': 3.2567203044891357, 'learning_rate': 2.226277372262774e-06, 'epoch': 0.15}
+{'loss': 2.2866, 'grad_norm': 3.1494054794311523, 'learning_rate': 2.244525547445256e-06, 'epoch': 0.15}
+{'loss': 2.3109, 'grad_norm': 2.723390817642212, 'learning_rate': 2.2627737226277373e-06, 'epoch': 0.15}
+{'loss': 2.301, 'grad_norm': 2.8904967308044434, 'learning_rate': 2.281021897810219e-06, 'epoch': 0.15}
+{'loss': 2.2637, 'grad_norm': 2.8899483680725098, 'learning_rate': 2.299270072992701e-06, 'epoch': 0.15}
+{'eval_loss': 2.3952724933624268, 'eval_runtime': 37.1272, 'eval_samples_per_second': 26.934, 'eval_steps_per_second': 1.131, 'epoch': 0.15}
+{'loss': 2.2572, 'grad_norm': 3.5309066772460938, 'learning_rate': 2.3175182481751825e-06, 'epoch': 0.15}
+{'loss': 2.2712, 'grad_norm': 2.8369667530059814, 'learning_rate': 2.3357664233576643e-06, 'epoch': 0.16}
+{'loss': 2.2301, 'grad_norm': 3.629161834716797, 'learning_rate': 2.354014598540146e-06, 'epoch': 0.16}
+{'loss': 2.2712, 'grad_norm': 3.5313000679016113, 'learning_rate': 2.3722627737226276e-06, 'epoch': 0.16}
+{'loss': 2.2706, 'grad_norm': 3.1328771114349365, 'learning_rate': 2.39051094890511e-06, 'epoch': 0.16}
+{'loss': 2.219, 'grad_norm': 4.6992950439453125, 'learning_rate': 2.4087591240875918e-06, 'epoch': 0.16}
+{'loss': 2.2396, 'grad_norm': 5.230221748352051, 'learning_rate': 2.427007299270073e-06, 'epoch': 0.16}
+{'loss': 2.2434, 'grad_norm': 3.5680761337280273, 'learning_rate': 2.445255474452555e-06, 'epoch': 0.16}
+{'loss': 2.2856, 'grad_norm': 3.1642441749572754, 'learning_rate': 2.463503649635037e-06, 'epoch': 0.16}
+{'loss': 2.2006, 'grad_norm': 2.694085121154785, 'learning_rate': 2.4817518248175183e-06, 'epoch': 0.16}
+{'eval_loss': 2.37199068069458, 'eval_runtime': 37.1342, 'eval_samples_per_second': 26.929, 'eval_steps_per_second': 1.131, 'epoch': 0.16}
+{'loss': 2.1694, 'grad_norm': 2.9868853092193604, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 2.2965, 'grad_norm': 2.793532371520996, 'learning_rate': 2.518248175182482e-06, 'epoch': 0.17}
+{'loss': 2.1954, 'grad_norm': 2.60152530670166, 'learning_rate': 2.5364963503649635e-06, 'epoch': 0.17}
+{'loss': 2.1909, 'grad_norm': 2.6192219257354736, 'learning_rate': 2.5547445255474458e-06, 'epoch': 0.17}
+{'loss': 2.2438, 'grad_norm': 2.467344045639038, 'learning_rate': 2.5729927007299272e-06, 'epoch': 0.17}
+{'loss': 2.2213, 'grad_norm': 2.772012948989868, 'learning_rate': 2.591240875912409e-06, 'epoch': 0.17}
+{'loss': 2.2213, 'grad_norm': 2.613675355911255, 'learning_rate': 2.6094890510948905e-06, 'epoch': 0.17}
+{'loss': 2.255, 'grad_norm': 2.849245071411133, 'learning_rate': 2.627737226277373e-06, 'epoch': 0.17}
+{'loss': 2.2572, 'grad_norm': 2.8388969898223877, 'learning_rate': 2.6459854014598542e-06, 'epoch': 0.17}
+{'loss': 2.2253, 'grad_norm': 2.5219321250915527, 'learning_rate': 2.664233576642336e-06, 'epoch': 0.18}
+{'eval_loss': 2.3509061336517334, 'eval_runtime': 37.0953, 'eval_samples_per_second': 26.958, 'eval_steps_per_second': 1.132, 'epoch': 0.18}
+{'loss': 2.2009, 'grad_norm': 2.8460891246795654, 'learning_rate': 2.6824817518248175e-06, 'epoch': 0.18}
+{'loss': 2.2211, 'grad_norm': 2.673377275466919, 'learning_rate': 2.7007299270072994e-06, 'epoch': 0.18}
+{'loss': 2.1955, 'grad_norm': 2.8514182567596436, 'learning_rate': 2.718978102189781e-06, 'epoch': 0.18}
+{'loss': 2.2536, 'grad_norm': 3.530385971069336, 'learning_rate': 2.737226277372263e-06, 'epoch': 0.18}
+{'loss': 2.2367, 'grad_norm': 2.733394145965576, 'learning_rate': 2.755474452554745e-06, 'epoch': 0.18}
+{'loss': 2.1949, 'grad_norm': 3.871150016784668, 'learning_rate': 2.7737226277372264e-06, 'epoch': 0.18}
+{'loss': 2.2979, 'grad_norm': 3.7782530784606934, 'learning_rate': 2.7919708029197082e-06, 'epoch': 0.18}
+{'loss': 2.2512, 'grad_norm': 3.094599485397339, 'learning_rate': 2.81021897810219e-06, 'epoch': 0.18}
+{'loss': 2.1784, 'grad_norm': 3.2166848182678223, 'learning_rate': 2.828467153284672e-06, 'epoch': 0.19}
+{'loss': 2.2241, 'grad_norm': 3.4127073287963867, 'learning_rate': 2.8467153284671534e-06, 'epoch': 0.19}
+{'eval_loss': 2.333245038986206, 'eval_runtime': 37.0402, 'eval_samples_per_second': 26.998, 'eval_steps_per_second': 1.134, 'epoch': 0.19}
+{'loss': 2.135, 'grad_norm': 2.677579879760742, 'learning_rate': 2.8649635036496353e-06, 'epoch': 0.19}
+{'loss': 2.1916, 'grad_norm': 2.9602150917053223, 'learning_rate': 2.8832116788321167e-06, 'epoch': 0.19}
+{'loss': 2.1477, 'grad_norm': 2.580122232437134, 'learning_rate': 2.901459854014599e-06, 'epoch': 0.19}
+{'loss': 2.2394, 'grad_norm': 2.652217388153076, 'learning_rate': 2.9197080291970804e-06, 'epoch': 0.19}
+{'loss': 2.2245, 'grad_norm': 2.6887567043304443, 'learning_rate': 2.9379562043795623e-06, 'epoch': 0.19}
+{'loss': 2.2017, 'grad_norm': 2.768165111541748, 'learning_rate': 2.956204379562044e-06, 'epoch': 0.19}
+{'loss': 2.2464, 'grad_norm': 2.9375691413879395, 'learning_rate': 2.9744525547445256e-06, 'epoch': 0.19}
+{'loss': 2.2155, 'grad_norm': 2.8364248275756836, 'learning_rate': 2.992700729927008e-06, 'epoch': 0.2}
+{'loss': 2.1577, 'grad_norm': 2.843487024307251, 'learning_rate': 3.0109489051094893e-06, 'epoch': 0.2}
+{'loss': 2.1549, 'grad_norm': 3.005230665206909, 'learning_rate': 3.029197080291971e-06, 'epoch': 0.2}
+{'eval_loss': 2.3209409713745117, 'eval_runtime': 37.022, 'eval_samples_per_second': 27.011, 'eval_steps_per_second': 1.134, 'epoch': 0.2}
+{'loss': 2.2313, 'grad_norm': 2.490260601043701, 'learning_rate': 3.0474452554744526e-06, 'epoch': 0.2}
+{'loss': 2.2316, 'grad_norm': 2.973118543624878, 'learning_rate': 3.065693430656935e-06, 'epoch': 0.2}
+{'loss': 2.2087, 'grad_norm': 3.3308680057525635, 'learning_rate': 3.0839416058394163e-06, 'epoch': 0.2}
+{'loss': 2.2256, 'grad_norm': 3.1440727710723877, 'learning_rate': 3.102189781021898e-06, 'epoch': 0.2}
+{'loss': 2.2093, 'grad_norm': 2.5696325302124023, 'learning_rate': 3.1204379562043796e-06, 'epoch': 0.2}
+{'loss': 2.1425, 'grad_norm': 3.1225037574768066, 'learning_rate': 3.1386861313868614e-06, 'epoch': 0.2}
+{'loss': 2.1339, 'grad_norm': 3.650743246078491, 'learning_rate': 3.156934306569343e-06, 'epoch': 0.2}
+{'loss': 2.2363, 'grad_norm': 2.924072027206421, 'learning_rate': 3.175182481751825e-06, 'epoch': 0.21}
+{'loss': 2.1934, 'grad_norm': 2.9561989307403564, 'learning_rate': 3.193430656934307e-06, 'epoch': 0.21}
+{'loss': 2.1718, 'grad_norm': 2.731393814086914, 'learning_rate': 3.2116788321167884e-06, 'epoch': 0.21}
+{'eval_loss': 2.3087782859802246, 'eval_runtime': 37.0161, 'eval_samples_per_second': 27.015, 'eval_steps_per_second': 1.135, 'epoch': 0.21}
+{'loss': 2.1841, 'grad_norm': 2.774442434310913, 'learning_rate': 3.2299270072992707e-06, 'epoch': 0.21}
+{'loss': 2.1677, 'grad_norm': 3.0579135417938232, 'learning_rate': 3.248175182481752e-06, 'epoch': 0.21}
+{'loss': 2.0975, 'grad_norm': 2.732984781265259, 'learning_rate': 3.266423357664234e-06, 'epoch': 0.21}
+{'loss': 2.1923, 'grad_norm': 3.442659854888916, 'learning_rate': 3.2846715328467155e-06, 'epoch': 0.21}
+{'loss': 2.1707, 'grad_norm': 3.064223527908325, 'learning_rate': 3.3029197080291973e-06, 'epoch': 0.21}
+{'loss': 2.1933, 'grad_norm': 2.5138468742370605, 'learning_rate': 3.3211678832116788e-06, 'epoch': 0.21}
+{'loss': 2.1725, 'grad_norm': 3.1076464653015137, 'learning_rate': 3.339416058394161e-06, 'epoch': 0.22}
+{'loss': 2.1722, 'grad_norm': 2.7291388511657715, 'learning_rate': 3.3576642335766425e-06, 'epoch': 0.22}
+{'loss': 2.1688, 'grad_norm': 2.805506467819214, 'learning_rate': 3.3759124087591243e-06, 'epoch': 0.22}
+{'loss': 2.1708, 'grad_norm': 2.6190085411071777, 'learning_rate': 3.3941605839416058e-06, 'epoch': 0.22}
+{'eval_loss': 2.295546054840088, 'eval_runtime': 37.0133, 'eval_samples_per_second': 27.017, 'eval_steps_per_second': 1.135, 'epoch': 0.22}
+{'loss': 2.1759, 'grad_norm': 3.1270673274993896, 'learning_rate': 3.412408759124088e-06, 'epoch': 0.22}
+{'loss': 2.1795, 'grad_norm': 3.494178533554077, 'learning_rate': 3.43065693430657e-06, 'epoch': 0.22}
+{'loss': 2.1201, 'grad_norm': 2.7398736476898193, 'learning_rate': 3.4489051094890513e-06, 'epoch': 0.22}
+{'loss': 2.1693, 'grad_norm': 2.981506824493408, 'learning_rate': 3.467153284671533e-06, 'epoch': 0.22}
+{'loss': 2.1125, 'grad_norm': 2.4129178524017334, 'learning_rate': 3.4854014598540146e-06, 'epoch': 0.22}
+{'loss': 2.1565, 'grad_norm': 2.701197385787964, 'learning_rate': 3.503649635036497e-06, 'epoch': 0.23}
+{'loss': 2.1487, 'grad_norm': 2.533306837081909, 'learning_rate': 3.5218978102189783e-06, 'epoch': 0.23}
+{'loss': 2.1801, 'grad_norm': 2.8030788898468018, 'learning_rate': 3.54014598540146e-06, 'epoch': 0.23}
+{'loss': 2.189, 'grad_norm': 2.895414352416992, 'learning_rate': 3.5583941605839416e-06, 'epoch': 0.23}
+{'loss': 2.2376, 'grad_norm': 2.508390426635742, 'learning_rate': 3.576642335766424e-06, 'epoch': 0.23}
+{'eval_loss': 2.2900516986846924, 'eval_runtime': 36.7645, 'eval_samples_per_second': 27.2, 'eval_steps_per_second': 1.142, 'epoch': 0.23}
+{'loss': 2.2267, 'grad_norm': 2.6393816471099854, 'learning_rate': 3.5948905109489054e-06, 'epoch': 0.23}
+{'loss': 2.0744, 'grad_norm': 3.0687549114227295, 'learning_rate': 3.6131386861313872e-06, 'epoch': 0.23}
+{'loss': 2.0737, 'grad_norm': 2.6342105865478516, 'learning_rate': 3.6313868613138687e-06, 'epoch': 0.23}
+{'loss': 2.1147, 'grad_norm': 3.5662875175476074, 'learning_rate': 3.6496350364963505e-06, 'epoch': 0.23}
+{'loss': 2.1268, 'grad_norm': 2.5357561111450195, 'learning_rate': 3.667883211678833e-06, 'epoch': 0.24}
+{'loss': 2.1118, 'grad_norm': 3.439711093902588, 'learning_rate': 3.6861313868613142e-06, 'epoch': 0.24}
+{'loss': 2.1087, 'grad_norm': 2.9410204887390137, 'learning_rate': 3.704379562043796e-06, 'epoch': 0.24}
+{'loss': 2.196, 'grad_norm': 3.3182294368743896, 'learning_rate': 3.7226277372262775e-06, 'epoch': 0.24}
+{'loss': 2.1633, 'grad_norm': 3.3834011554718018, 'learning_rate': 3.7408759124087594e-06, 'epoch': 0.24}
+{'loss': 2.1107, 'grad_norm': 3.114952325820923, 'learning_rate': 3.7591240875912412e-06, 'epoch': 0.24}
+{'eval_loss': 2.277580976486206, 'eval_runtime': 36.9846, 'eval_samples_per_second': 27.038, 'eval_steps_per_second': 1.136, 'epoch': 0.24}
+{'loss': 2.1471, 'grad_norm': 3.1151392459869385, 'learning_rate': 3.777372262773723e-06, 'epoch': 0.24}
+{'loss': 2.1324, 'grad_norm': 3.798450469970703, 'learning_rate': 3.7956204379562045e-06, 'epoch': 0.24}
+{'loss': 2.1061, 'grad_norm': 2.6187098026275635, 'learning_rate': 3.8138686131386864e-06, 'epoch': 0.24}
+{'loss': 2.166, 'grad_norm': 4.014018535614014, 'learning_rate': 3.832116788321168e-06, 'epoch': 0.25}
+{'loss': 2.1197, 'grad_norm': 3.0043938159942627, 'learning_rate': 3.85036496350365e-06, 'epoch': 0.25}
+{'loss': 2.0848, 'grad_norm': 3.507066249847412, 'learning_rate': 3.868613138686132e-06, 'epoch': 0.25}
+{'loss': 2.1239, 'grad_norm': 3.5713281631469727, 'learning_rate': 3.886861313868613e-06, 'epoch': 0.25}
+{'loss': 2.1406, 'grad_norm': 3.961082696914673, 'learning_rate': 3.905109489051096e-06, 'epoch': 0.25}
+{'loss': 2.1689, 'grad_norm': 3.1514859199523926, 'learning_rate': 3.923357664233577e-06, 'epoch': 0.25}
+{'loss': 2.1321, 'grad_norm': 3.8486833572387695, 'learning_rate': 3.9416058394160585e-06, 'epoch': 0.25}
+{'eval_loss': 2.2620601654052734, 'eval_runtime': 37.058, 'eval_samples_per_second': 26.985, 'eval_steps_per_second': 1.133, 'epoch': 0.25}
+{'loss': 2.1777, 'grad_norm': 2.5626907348632812, 'learning_rate': 3.95985401459854e-06, 'epoch': 0.25}
+{'loss': 2.2099, 'grad_norm': 4.105278015136719, 'learning_rate': 3.978102189781022e-06, 'epoch': 0.25}
+{'loss': 2.0705, 'grad_norm': 2.9818739891052246, 'learning_rate': 3.996350364963504e-06, 'epoch': 0.26}
+{'loss': 2.1453, 'grad_norm': 2.87030291557312, 'learning_rate': 4.014598540145986e-06, 'epoch': 0.26}
+{'loss': 2.0461, 'grad_norm': 2.4847915172576904, 'learning_rate': 4.032846715328467e-06, 'epoch': 0.26}
+{'loss': 2.1133, 'grad_norm': 3.451420783996582, 'learning_rate': 4.05109489051095e-06, 'epoch': 0.26}
+{'loss': 2.1316, 'grad_norm': 2.954723358154297, 'learning_rate': 4.069343065693431e-06, 'epoch': 0.26}
+{'loss': 2.0901, 'grad_norm': 2.5295896530151367, 'learning_rate': 4.0875912408759126e-06, 'epoch': 0.26}
+{'loss': 2.117, 'grad_norm': 2.6359453201293945, 'learning_rate': 4.105839416058395e-06, 'epoch': 0.26}
+{'loss': 2.1958, 'grad_norm': 2.5236105918884277, 'learning_rate': 4.124087591240876e-06, 'epoch': 0.26}
+{'eval_loss': 2.250295400619507, 'eval_runtime': 37.0811, 'eval_samples_per_second': 26.968, 'eval_steps_per_second': 1.133, 'epoch': 0.26}
+{'loss': 2.1054, 'grad_norm': 2.581918954849243, 'learning_rate': 4.1423357664233586e-06, 'epoch': 0.26}
+{'loss': 2.0878, 'grad_norm': 2.501332998275757, 'learning_rate': 4.16058394160584e-06, 'epoch': 0.27}
+{'loss': 2.1656, 'grad_norm': 2.6477770805358887, 'learning_rate': 4.1788321167883214e-06, 'epoch': 0.27}
+{'loss': 2.0497, 'grad_norm': 2.7252438068389893, 'learning_rate': 4.197080291970803e-06, 'epoch': 0.27}
+{'loss': 2.1411, 'grad_norm': 2.6056301593780518, 'learning_rate': 4.215328467153285e-06, 'epoch': 0.27}
+{'loss': 2.0829, 'grad_norm': 2.6581931114196777, 'learning_rate': 4.233576642335767e-06, 'epoch': 0.27}
+{'loss': 2.0882, 'grad_norm': 2.6316752433776855, 'learning_rate': 4.251824817518249e-06, 'epoch': 0.27}
+{'loss': 2.1203, 'grad_norm': 2.803823947906494, 'learning_rate': 4.27007299270073e-06, 'epoch': 0.27}
+{'loss': 2.0897, 'grad_norm': 2.9551174640655518, 'learning_rate': 4.288321167883212e-06, 'epoch': 0.27}
+{'loss': 2.0845, 'grad_norm': 2.4847161769866943, 'learning_rate': 4.306569343065693e-06, 'epoch': 0.27}
+{'eval_loss': 2.2491259574890137, 'eval_runtime': 37.1024, 'eval_samples_per_second': 26.952, 'eval_steps_per_second': 1.132, 'epoch': 0.27}
+{'loss': 2.0479, 'grad_norm': 2.6398351192474365, 'learning_rate': 4.3248175182481755e-06, 'epoch': 0.28}
+{'loss': 2.1184, 'grad_norm': 3.0948562622070312, 'learning_rate': 4.343065693430658e-06, 'epoch': 0.28}
+{'loss': 2.1099, 'grad_norm': 2.5378012657165527, 'learning_rate': 4.361313868613139e-06, 'epoch': 0.28}
+{'loss': 2.0982, 'grad_norm': 3.0282225608825684, 'learning_rate': 4.379562043795621e-06, 'epoch': 0.28}
+{'loss': 2.1285, 'grad_norm': 2.6205334663391113, 'learning_rate': 4.397810218978102e-06, 'epoch': 0.28}
+{'loss': 2.1221, 'grad_norm': 3.2056095600128174, 'learning_rate': 4.416058394160584e-06, 'epoch': 0.28}
+{'loss': 2.1016, 'grad_norm': 3.1370127201080322, 'learning_rate': 4.434306569343066e-06, 'epoch': 0.28}
+{'loss': 2.0754, 'grad_norm': 2.494168519973755, 'learning_rate': 4.452554744525548e-06, 'epoch': 0.28}
+{'loss': 2.1218, 'grad_norm': 2.7979183197021484, 'learning_rate': 4.4708029197080295e-06, 'epoch': 0.28}
+{'loss': 2.1136, 'grad_norm': 2.755682945251465, 'learning_rate': 4.489051094890512e-06, 'epoch': 0.28}
+{'eval_loss': 2.2433817386627197, 'eval_runtime': 37.1121, 'eval_samples_per_second': 26.945, 'eval_steps_per_second': 1.132, 'epoch': 0.28}
+{'loss': 2.1488, 'grad_norm': 2.3641891479492188, 'learning_rate': 4.507299270072993e-06, 'epoch': 0.29}
+{'loss': 2.1048, 'grad_norm': 2.741292953491211, 'learning_rate': 4.525547445255475e-06, 'epoch': 0.29}
+{'loss': 2.0996, 'grad_norm': 2.811483383178711, 'learning_rate': 4.543795620437956e-06, 'epoch': 0.29}
+{'loss': 2.0652, 'grad_norm': 2.6705479621887207, 'learning_rate': 4.562043795620438e-06, 'epoch': 0.29}
+{'loss': 2.1574, 'grad_norm': 2.9383747577667236, 'learning_rate': 4.580291970802921e-06, 'epoch': 0.29}
+{'loss': 2.1655, 'grad_norm': 2.591373920440674, 'learning_rate': 4.598540145985402e-06, 'epoch': 0.29}
+{'loss': 2.1285, 'grad_norm': 3.16955828666687, 'learning_rate': 4.6167883211678835e-06, 'epoch': 0.29}
+{'loss': 2.0777, 'grad_norm': 2.66941499710083, 'learning_rate': 4.635036496350365e-06, 'epoch': 0.29}
+{'loss': 2.0748, 'grad_norm': 2.768139600753784, 'learning_rate': 4.653284671532847e-06, 'epoch': 0.29}
+{'loss': 2.1289, 'grad_norm': 2.5951924324035645, 'learning_rate': 4.671532846715329e-06, 'epoch': 0.3}
+{'eval_loss': 2.2393550872802734, 'eval_runtime': 37.0993, 'eval_samples_per_second': 26.955, 'eval_steps_per_second': 1.132, 'epoch': 0.3}
+{'loss': 2.1342, 'grad_norm': 2.5422160625457764, 'learning_rate': 4.689781021897811e-06, 'epoch': 0.3}
+{'loss': 2.097, 'grad_norm': 2.540555477142334, 'learning_rate': 4.708029197080292e-06, 'epoch': 0.3}
+{'loss': 2.1452, 'grad_norm': 2.995366334915161, 'learning_rate': 4.726277372262774e-06, 'epoch': 0.3}
+{'loss': 2.1069, 'grad_norm': 2.2561020851135254, 'learning_rate': 4.744525547445255e-06, 'epoch': 0.3}
+{'loss': 2.0381, 'grad_norm': 2.53476619720459, 'learning_rate': 4.7627737226277375e-06, 'epoch': 0.3}
+{'loss': 2.1027, 'grad_norm': 2.3415749073028564, 'learning_rate': 4.78102189781022e-06, 'epoch': 0.3}
+{'loss': 2.1136, 'grad_norm': 2.9756431579589844, 'learning_rate': 4.799270072992701e-06, 'epoch': 0.3}
+{'loss': 2.0797, 'grad_norm': 2.606208324432373, 'learning_rate': 4.8175182481751835e-06, 'epoch': 0.3}
+{'loss': 2.1026, 'grad_norm': 2.5089313983917236, 'learning_rate': 4.835766423357665e-06, 'epoch': 0.31}
+{'loss': 2.0923, 'grad_norm': 2.5003838539123535, 'learning_rate': 4.854014598540146e-06, 'epoch': 0.31}
+{'eval_loss': 2.2351036071777344, 'eval_runtime': 37.111, 'eval_samples_per_second': 26.946, 'eval_steps_per_second': 1.132, 'epoch': 0.31}
+{'loss': 2.0388, 'grad_norm': 2.403602361679077, 'learning_rate': 4.872262773722628e-06, 'epoch': 0.31}
+{'loss': 2.0561, 'grad_norm': 2.7775959968566895, 'learning_rate': 4.89051094890511e-06, 'epoch': 0.31}
+{'loss': 2.042, 'grad_norm': 2.7128653526306152, 'learning_rate': 4.9087591240875915e-06, 'epoch': 0.31}
+{'loss': 2.0814, 'grad_norm': 2.7029991149902344, 'learning_rate': 4.927007299270074e-06, 'epoch': 0.31}
+{'loss': 2.0906, 'grad_norm': 2.3942933082580566, 'learning_rate': 4.945255474452555e-06, 'epoch': 0.31}
+{'loss': 2.0625, 'grad_norm': 2.5086541175842285, 'learning_rate': 4.963503649635037e-06, 'epoch': 0.31}
+{'loss': 2.1538, 'grad_norm': 2.6668760776519775, 'learning_rate': 4.981751824817518e-06, 'epoch': 0.31}
+{'loss': 2.1423, 'grad_norm': 2.5066750049591064, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'loss': 2.0943, 'grad_norm': 2.84967041015625, 'learning_rate': 4.997969130787978e-06, 'epoch': 0.32}
+{'loss': 2.1098, 'grad_norm': 2.151946544647217, 'learning_rate': 4.995938261575955e-06, 'epoch': 0.32}
+{'eval_loss': 2.223247528076172, 'eval_runtime': 37.1755, 'eval_samples_per_second': 26.899, 'eval_steps_per_second': 1.13, 'epoch': 0.32}
+{'loss': 2.0281, 'grad_norm': 2.887166976928711, 'learning_rate': 4.993907392363932e-06, 'epoch': 0.32}
+{'loss': 2.1063, 'grad_norm': 2.5930211544036865, 'learning_rate': 4.9918765231519095e-06, 'epoch': 0.32}
+{'loss': 2.0313, 'grad_norm': 2.5568413734436035, 'learning_rate': 4.989845653939887e-06, 'epoch': 0.32}
+{'loss': 2.0749, 'grad_norm': 2.536095380783081, 'learning_rate': 4.987814784727864e-06, 'epoch': 0.32}
+{'loss': 2.0666, 'grad_norm': 2.3385651111602783, 'learning_rate': 4.985783915515841e-06, 'epoch': 0.32}
+{'loss': 2.0677, 'grad_norm': 2.504826068878174, 'learning_rate': 4.983753046303819e-06, 'epoch': 0.32}
+{'loss': 2.0828, 'grad_norm': 2.5289409160614014, 'learning_rate': 4.981722177091796e-06, 'epoch': 0.33}
+{'loss': 2.0733, 'grad_norm': 2.803795099258423, 'learning_rate': 4.979691307879773e-06, 'epoch': 0.33}
+{'loss': 2.0987, 'grad_norm': 2.651273012161255, 'learning_rate': 4.9776604386677504e-06, 'epoch': 0.33}
+{'loss': 2.0733, 'grad_norm': 2.4715864658355713, 'learning_rate': 4.975629569455728e-06, 'epoch': 0.33}
+{'eval_loss': 2.214858293533325, 'eval_runtime': 37.0559, 'eval_samples_per_second': 26.986, 'eval_steps_per_second': 1.133, 'epoch': 0.33}
+{'loss': 2.1291, 'grad_norm': 2.2573442459106445, 'learning_rate': 4.973598700243705e-06, 'epoch': 0.33}
+{'loss': 2.046, 'grad_norm': 2.645966053009033, 'learning_rate': 4.971567831031681e-06, 'epoch': 0.33}
+{'loss': 2.0447, 'grad_norm': 2.361392021179199, 'learning_rate': 4.9695369618196595e-06, 'epoch': 0.33}
+{'loss': 1.9272, 'grad_norm': 2.272714376449585, 'learning_rate': 4.967506092607636e-06, 'epoch': 0.33}
+{'loss': 2.0199, 'grad_norm': 2.5846943855285645, 'learning_rate': 4.965475223395614e-06, 'epoch': 0.33}
+{'loss': 2.0394, 'grad_norm': 2.38985013961792, 'learning_rate': 4.9634443541835905e-06, 'epoch': 0.34}
+{'loss': 2.0403, 'grad_norm': 2.3526251316070557, 'learning_rate': 4.961413484971569e-06, 'epoch': 0.34}
+{'loss': 2.0607, 'grad_norm': 2.399531602859497, 'learning_rate': 4.959382615759545e-06, 'epoch': 0.34}
+{'loss': 2.0688, 'grad_norm': 2.50803804397583, 'learning_rate': 4.957351746547523e-06, 'epoch': 0.34}
+{'loss': 2.0453, 'grad_norm': 2.278088092803955, 'learning_rate': 4.9553208773355e-06, 'epoch': 0.34}
+{'eval_loss': 2.2185235023498535, 'eval_runtime': 36.9712, 'eval_samples_per_second': 27.048, 'eval_steps_per_second': 1.136, 'epoch': 0.34}
+{'loss': 2.1726, 'grad_norm': 2.555300712585449, 'learning_rate': 4.953290008123478e-06, 'epoch': 0.34}
+{'loss': 2.0659, 'grad_norm': 2.614870548248291, 'learning_rate': 4.951259138911454e-06, 'epoch': 0.34}
+{'loss': 1.9981, 'grad_norm': 2.1932661533355713, 'learning_rate': 4.9492282696994315e-06, 'epoch': 0.34}
+{'loss': 2.1321, 'grad_norm': 2.707451581954956, 'learning_rate': 4.947197400487409e-06, 'epoch': 0.34}
+{'loss': 2.0548, 'grad_norm': 2.4317946434020996, 'learning_rate': 4.945166531275386e-06, 'epoch': 0.35}
+{'loss': 2.0512, 'grad_norm': 2.639883279800415, 'learning_rate': 4.943135662063363e-06, 'epoch': 0.35}
+{'loss': 2.0611, 'grad_norm': 3.1968822479248047, 'learning_rate': 4.9411047928513406e-06, 'epoch': 0.35}
+{'loss': 2.0974, 'grad_norm': 2.4361510276794434, 'learning_rate': 4.939073923639318e-06, 'epoch': 0.35}
+{'loss': 2.0992, 'grad_norm': 2.8278262615203857, 'learning_rate': 4.937043054427295e-06, 'epoch': 0.35}
+{'loss': 2.0372, 'grad_norm': 3.01247239112854, 'learning_rate': 4.935012185215272e-06, 'epoch': 0.35}
+{'eval_loss': 2.206442356109619, 'eval_runtime': 36.8797, 'eval_samples_per_second': 27.115, 'eval_steps_per_second': 1.139, 'epoch': 0.35}
+{'loss': 2.0211, 'grad_norm': 2.3372156620025635, 'learning_rate': 4.93298131600325e-06, 'epoch': 0.35}
+{'loss': 2.0879, 'grad_norm': 2.91377329826355, 'learning_rate': 4.930950446791227e-06, 'epoch': 0.35}
+{'loss': 2.056, 'grad_norm': 2.3207666873931885, 'learning_rate': 4.928919577579204e-06, 'epoch': 0.35}
+{'loss': 2.0684, 'grad_norm': 2.3260514736175537, 'learning_rate': 4.9268887083671815e-06, 'epoch': 0.36}
+{'loss': 2.0494, 'grad_norm': 2.3070554733276367, 'learning_rate': 4.924857839155159e-06, 'epoch': 0.36}
+{'loss': 2.0531, 'grad_norm': 2.189871072769165, 'learning_rate': 4.922826969943136e-06, 'epoch': 0.36}
+{'loss': 2.0749, 'grad_norm': 2.553520917892456, 'learning_rate': 4.920796100731113e-06, 'epoch': 0.36}
+{'loss': 1.9983, 'grad_norm': 2.62296199798584, 'learning_rate': 4.918765231519091e-06, 'epoch': 0.36}
+{'loss': 2.0641, 'grad_norm': 2.4612369537353516, 'learning_rate': 4.916734362307068e-06, 'epoch': 0.36}
+{'loss': 2.0148, 'grad_norm': 2.656157970428467, 'learning_rate': 4.914703493095045e-06, 'epoch': 0.36}
+{'eval_loss': 2.2054214477539062, 'eval_runtime': 36.886, 'eval_samples_per_second': 27.111, 'eval_steps_per_second': 1.139, 'epoch': 0.36}
+{'loss': 2.0221, 'grad_norm': 2.2823736667633057, 'learning_rate': 4.912672623883022e-06, 'epoch': 0.36}
+{'loss': 2.0149, 'grad_norm': 2.8403289318084717, 'learning_rate': 4.910641754671e-06, 'epoch': 0.36}
+{'loss': 2.0411, 'grad_norm': 2.453887462615967, 'learning_rate': 4.908610885458977e-06, 'epoch': 0.36}
+{'loss': 2.0293, 'grad_norm': 2.6094300746917725, 'learning_rate': 4.906580016246954e-06, 'epoch': 0.37}
+{'loss': 2.0778, 'grad_norm': 2.4412384033203125, 'learning_rate': 4.9045491470349315e-06, 'epoch': 0.37}
+{'loss': 2.0597, 'grad_norm': 2.4435057640075684, 'learning_rate': 4.902518277822909e-06, 'epoch': 0.37}
+{'loss': 2.0654, 'grad_norm': 2.2390244007110596, 'learning_rate': 4.900487408610886e-06, 'epoch': 0.37}
+{'loss': 2.0696, 'grad_norm': 2.4243953227996826, 'learning_rate': 4.898456539398863e-06, 'epoch': 0.37}
+{'loss': 2.0866, 'grad_norm': 2.375720262527466, 'learning_rate': 4.89642567018684e-06, 'epoch': 0.37}
+{'loss': 2.1552, 'grad_norm': 2.6379668712615967, 'learning_rate': 4.894394800974818e-06, 'epoch': 0.37}
+{'eval_loss': 2.196237802505493, 'eval_runtime': 36.8953, 'eval_samples_per_second': 27.104, 'eval_steps_per_second': 1.138, 'epoch': 0.37}
+{'loss': 2.0024, 'grad_norm': 2.417145252227783, 'learning_rate': 4.892363931762794e-06, 'epoch': 0.37}
+{'loss': 2.0837, 'grad_norm': 2.234590768814087, 'learning_rate': 4.8903330625507725e-06, 'epoch': 0.37}
+{'loss': 2.018, 'grad_norm': 2.404266595840454, 'learning_rate': 4.888302193338749e-06, 'epoch': 0.38}
+{'loss': 1.994, 'grad_norm': 2.364802837371826, 'learning_rate': 4.886271324126727e-06, 'epoch': 0.38}
+{'loss': 2.0929, 'grad_norm': 2.2262251377105713, 'learning_rate': 4.8842404549147034e-06, 'epoch': 0.38}
+{'loss': 2.0801, 'grad_norm': 2.4854862689971924, 'learning_rate': 4.8822095857026816e-06, 'epoch': 0.38}
+{'loss': 2.0496, 'grad_norm': 2.3861470222473145, 'learning_rate': 4.880178716490658e-06, 'epoch': 0.38}
+{'loss': 1.9939, 'grad_norm': 2.372326612472534, 'learning_rate': 4.878147847278636e-06, 'epoch': 0.38}
+{'loss': 2.0108, 'grad_norm': 2.3593149185180664, 'learning_rate': 4.8761169780666125e-06, 'epoch': 0.38}
+{'loss': 1.983, 'grad_norm': 2.1802141666412354, 'learning_rate': 4.874086108854591e-06, 'epoch': 0.38}
+{'eval_loss': 2.1947567462921143, 'eval_runtime': 36.8798, 'eval_samples_per_second': 27.115, 'eval_steps_per_second': 1.139, 'epoch': 0.38}
+{'loss': 2.0002, 'grad_norm': 2.47067928314209, 'learning_rate': 4.872055239642567e-06, 'epoch': 0.38}
+{'loss': 1.9799, 'grad_norm': 2.359609365463257, 'learning_rate': 4.870024370430544e-06, 'epoch': 0.39}
+{'loss': 2.0341, 'grad_norm': 2.3711702823638916, 'learning_rate': 4.867993501218522e-06, 'epoch': 0.39}
+{'loss': 2.0687, 'grad_norm': 2.246647834777832, 'learning_rate': 4.865962632006499e-06, 'epoch': 0.39}
+{'loss': 1.9994, 'grad_norm': 2.3031938076019287, 'learning_rate': 4.863931762794476e-06, 'epoch': 0.39}
+{'loss': 2.0195, 'grad_norm': 2.492159605026245, 'learning_rate': 4.8619008935824535e-06, 'epoch': 0.39}
+{'loss': 2.0589, 'grad_norm': 2.2878570556640625, 'learning_rate': 4.859870024370431e-06, 'epoch': 0.39}
+{'loss': 2.0796, 'grad_norm': 2.444096088409424, 'learning_rate': 4.857839155158408e-06, 'epoch': 0.39}
+{'loss': 2.0824, 'grad_norm': 2.463857650756836, 'learning_rate': 4.855808285946385e-06, 'epoch': 0.39}
+{'loss': 2.0651, 'grad_norm': 2.0893168449401855, 'learning_rate': 4.8537774167343626e-06, 'epoch': 0.39}
+{'eval_loss': 2.188523054122925, 'eval_runtime': 36.8679, 'eval_samples_per_second': 27.124, 'eval_steps_per_second': 1.139, 'epoch': 0.39}
+{'loss': 2.0507, 'grad_norm': 2.602850914001465, 'learning_rate': 4.85174654752234e-06, 'epoch': 0.4}
+{'loss': 2.0386, 'grad_norm': 2.4185140132904053, 'learning_rate': 4.849715678310317e-06, 'epoch': 0.4}
+{'loss': 2.0376, 'grad_norm': 2.1492245197296143, 'learning_rate': 4.847684809098294e-06, 'epoch': 0.4}
+{'loss': 2.0383, 'grad_norm': 2.5710153579711914, 'learning_rate': 4.845653939886272e-06, 'epoch': 0.4}
+{'loss': 2.0464, 'grad_norm': 2.4986608028411865, 'learning_rate': 4.843623070674249e-06, 'epoch': 0.4}
+{'loss': 2.0217, 'grad_norm': 2.260388135910034, 'learning_rate': 4.841592201462226e-06, 'epoch': 0.4}
+{'loss': 2.0777, 'grad_norm': 2.6500394344329834, 'learning_rate': 4.8395613322502035e-06, 'epoch': 0.4}
+{'loss': 1.9747, 'grad_norm': 2.159274101257324, 'learning_rate': 4.837530463038181e-06, 'epoch': 0.4}
+{'loss': 2.039, 'grad_norm': 2.4623043537139893, 'learning_rate': 4.835499593826158e-06, 'epoch': 0.4}
+{'loss': 2.0618, 'grad_norm': 2.2265007495880127, 'learning_rate': 4.833468724614135e-06, 'epoch': 0.41}
+{'eval_loss': 2.184051275253296, 'eval_runtime': 36.9284, 'eval_samples_per_second': 27.079, 'eval_steps_per_second': 1.137, 'epoch': 0.41}
+{'loss': 2.0382, 'grad_norm': 2.300276517868042, 'learning_rate': 4.831437855402113e-06, 'epoch': 0.41}
+{'loss': 1.9361, 'grad_norm': 2.341156482696533, 'learning_rate': 4.82940698619009e-06, 'epoch': 0.41}
+{'loss': 2.0087, 'grad_norm': 2.4196999073028564, 'learning_rate': 4.827376116978067e-06, 'epoch': 0.41}
+{'loss': 2.0687, 'grad_norm': 2.4650514125823975, 'learning_rate': 4.8253452477660444e-06, 'epoch': 0.41}
+{'loss': 2.0421, 'grad_norm': 2.393739700317383, 'learning_rate': 4.823314378554022e-06, 'epoch': 0.41}
+{'loss': 2.0358, 'grad_norm': 2.2436327934265137, 'learning_rate': 4.821283509341998e-06, 'epoch': 0.41}
+{'loss': 2.0081, 'grad_norm': 2.1801650524139404, 'learning_rate': 4.819252640129976e-06, 'epoch': 0.41}
+{'loss': 2.0321, 'grad_norm': 2.300882339477539, 'learning_rate': 4.817221770917953e-06, 'epoch': 0.41}
+{'loss': 1.9999, 'grad_norm': 2.2136058807373047, 'learning_rate': 4.815190901705931e-06, 'epoch': 0.42}
+{'loss': 2.0336, 'grad_norm': 2.168034076690674, 'learning_rate': 4.813160032493907e-06, 'epoch': 0.42}
+{'eval_loss': 2.1770179271698, 'eval_runtime': 37.0015, 'eval_samples_per_second': 27.026, 'eval_steps_per_second': 1.135, 'epoch': 0.42}
+{'loss': 2.0212, 'grad_norm': 2.1604163646698, 'learning_rate': 4.811129163281885e-06, 'epoch': 0.42}
+{'loss': 2.0495, 'grad_norm': 2.23923659324646, 'learning_rate': 4.809098294069862e-06, 'epoch': 0.42}
+{'loss': 2.041, 'grad_norm': 2.149949312210083, 'learning_rate': 4.80706742485784e-06, 'epoch': 0.42}
+{'loss': 2.0931, 'grad_norm': 2.49120831489563, 'learning_rate': 4.805036555645816e-06, 'epoch': 0.42}
+{'loss': 2.0087, 'grad_norm': 2.2123563289642334, 'learning_rate': 4.8030056864337945e-06, 'epoch': 0.42}
+{'loss': 2.0656, 'grad_norm': 2.4235594272613525, 'learning_rate': 4.800974817221771e-06, 'epoch': 0.42}
+{'loss': 2.0181, 'grad_norm': 2.158252239227295, 'learning_rate': 4.798943948009749e-06, 'epoch': 0.42}
+{'loss': 2.0323, 'grad_norm': 2.2412970066070557, 'learning_rate': 4.7969130787977254e-06, 'epoch': 0.43}
+{'loss': 2.026, 'grad_norm': 2.2520956993103027, 'learning_rate': 4.794882209585703e-06, 'epoch': 0.43}
+{'loss': 2.0459, 'grad_norm': 2.168954849243164, 'learning_rate': 4.79285134037368e-06, 'epoch': 0.43}
+{'eval_loss': 2.1705472469329834, 'eval_runtime': 37.0913, 'eval_samples_per_second': 26.96, 'eval_steps_per_second': 1.132, 'epoch': 0.43}
+{'loss': 1.9995, 'grad_norm': 2.1397407054901123, 'learning_rate': 4.790820471161657e-06, 'epoch': 0.43}
+{'loss': 2.0088, 'grad_norm': 2.1747751235961914, 'learning_rate': 4.7887896019496345e-06, 'epoch': 0.43}
+{'loss': 2.0134, 'grad_norm': 2.2860991954803467, 'learning_rate': 4.786758732737612e-06, 'epoch': 0.43}
+{'loss': 2.0586, 'grad_norm': 2.2133519649505615, 'learning_rate': 4.784727863525589e-06, 'epoch': 0.43}
+{'loss': 1.9748, 'grad_norm': 2.2147040367126465, 'learning_rate': 4.782696994313566e-06, 'epoch': 0.43}
+{'loss': 2.0223, 'grad_norm': 2.343418836593628, 'learning_rate': 4.780666125101544e-06, 'epoch': 0.43}
+{'loss': 1.9627, 'grad_norm': 2.198935031890869, 'learning_rate': 4.778635255889521e-06, 'epoch': 0.44}
+{'loss': 1.9938, 'grad_norm': 2.1314704418182373, 'learning_rate': 4.776604386677498e-06, 'epoch': 0.44}
+{'loss': 2.0029, 'grad_norm': 2.3005123138427734, 'learning_rate': 4.7745735174654755e-06, 'epoch': 0.44}
+{'loss': 2.0585, 'grad_norm': 2.2826664447784424, 'learning_rate': 4.772542648253453e-06, 'epoch': 0.44}
+{'eval_loss': 2.1691415309906006, 'eval_runtime': 37.0852, 'eval_samples_per_second': 26.965, 'eval_steps_per_second': 1.133, 'epoch': 0.44}
+{'loss': 2.0582, 'grad_norm': 2.0547878742218018, 'learning_rate': 4.77051177904143e-06, 'epoch': 0.44}
+{'loss': 1.9936, 'grad_norm': 2.200042486190796, 'learning_rate': 4.768480909829407e-06, 'epoch': 0.44}
+{'loss': 2.0327, 'grad_norm': 2.354637861251831, 'learning_rate': 4.766450040617385e-06, 'epoch': 0.44}
+{'loss': 2.0052, 'grad_norm': 2.2332348823547363, 'learning_rate': 4.764419171405362e-06, 'epoch': 0.44}
+{'loss': 2.0472, 'grad_norm': 2.288060426712036, 'learning_rate': 4.762388302193339e-06, 'epoch': 0.44}
+{'loss': 2.0305, 'grad_norm': 2.1368887424468994, 'learning_rate': 4.760357432981316e-06, 'epoch': 0.44}
+{'loss': 2.002, 'grad_norm': 2.362630844116211, 'learning_rate': 4.758326563769294e-06, 'epoch': 0.45}
+{'loss': 2.0271, 'grad_norm': 2.283419370651245, 'learning_rate': 4.756295694557271e-06, 'epoch': 0.45}
+{'loss': 2.0256, 'grad_norm': 2.0400819778442383, 'learning_rate': 4.754264825345248e-06, 'epoch': 0.45}
+{'loss': 1.9756, 'grad_norm': 2.588416814804077, 'learning_rate': 4.7522339561332255e-06, 'epoch': 0.45}
+{'eval_loss': 2.17041015625, 'eval_runtime': 36.958, 'eval_samples_per_second': 27.058, 'eval_steps_per_second': 1.136, 'epoch': 0.45}
+{'loss': 1.9876, 'grad_norm': 2.2397494316101074, 'learning_rate': 4.750203086921203e-06, 'epoch': 0.45}
+{'loss': 1.9464, 'grad_norm': 2.2085509300231934, 'learning_rate': 4.74817221770918e-06, 'epoch': 0.45}
+{'loss': 2.0179, 'grad_norm': 2.140974760055542, 'learning_rate': 4.7461413484971565e-06, 'epoch': 0.45}
+{'loss': 2.0732, 'grad_norm': 2.124366044998169, 'learning_rate': 4.744110479285135e-06, 'epoch': 0.45}
+{'loss': 1.9616, 'grad_norm': 2.2463996410369873, 'learning_rate': 4.742079610073111e-06, 'epoch': 0.45}
+{'loss': 1.9889, 'grad_norm': 2.1249961853027344, 'learning_rate': 4.740048740861089e-06, 'epoch': 0.46}
+{'loss': 2.0033, 'grad_norm': 2.25842022895813, 'learning_rate': 4.738017871649066e-06, 'epoch': 0.46}
+{'loss': 2.0148, 'grad_norm': 2.271935224533081, 'learning_rate': 4.735987002437044e-06, 'epoch': 0.46}
+{'loss': 2.0736, 'grad_norm': 2.4797163009643555, 'learning_rate': 4.73395613322502e-06, 'epoch': 0.46}
+{'loss': 2.0763, 'grad_norm': 2.1901395320892334, 'learning_rate': 4.731925264012998e-06, 'epoch': 0.46}
+{'eval_loss': 2.161660671234131, 'eval_runtime': 36.9099, 'eval_samples_per_second': 27.093, 'eval_steps_per_second': 1.138, 'epoch': 0.46}
+{'loss': 2.0299, 'grad_norm': 2.083536386489868, 'learning_rate': 4.729894394800975e-06, 'epoch': 0.46}
+{'loss': 1.9742, 'grad_norm': 2.1118173599243164, 'learning_rate': 4.727863525588953e-06, 'epoch': 0.46}
+{'loss': 1.9318, 'grad_norm': 2.195802927017212, 'learning_rate': 4.725832656376929e-06, 'epoch': 0.46}
+{'loss': 1.9875, 'grad_norm': 2.318098545074463, 'learning_rate': 4.723801787164907e-06, 'epoch': 0.46}
+{'loss': 2.031, 'grad_norm': 2.1698496341705322, 'learning_rate': 4.721770917952885e-06, 'epoch': 0.47}
+{'loss': 1.9766, 'grad_norm': 2.283935785293579, 'learning_rate': 4.719740048740861e-06, 'epoch': 0.47}
+{'loss': 1.9976, 'grad_norm': 2.4180757999420166, 'learning_rate': 4.717709179528839e-06, 'epoch': 0.47}
+{'loss': 2.03, 'grad_norm': 2.2689030170440674, 'learning_rate': 4.715678310316816e-06, 'epoch': 0.47}
+{'loss': 2.0202, 'grad_norm': 2.423708200454712, 'learning_rate': 4.713647441104794e-06, 'epoch': 0.47}
+{'loss': 1.9655, 'grad_norm': 2.184705972671509, 'learning_rate': 4.71161657189277e-06, 'epoch': 0.47}
+{'eval_loss': 2.1548638343811035, 'eval_runtime': 36.9426, 'eval_samples_per_second': 27.069, 'eval_steps_per_second': 1.137, 'epoch': 0.47}
+{'loss': 1.9561, 'grad_norm': 2.295851945877075, 'learning_rate': 4.709585702680748e-06, 'epoch': 0.47}
+{'loss': 2.0341, 'grad_norm': 2.1762046813964844, 'learning_rate': 4.707554833468725e-06, 'epoch': 0.47}
+{'loss': 2.0898, 'grad_norm': 2.4684343338012695, 'learning_rate': 4.705523964256703e-06, 'epoch': 0.47}
+{'loss': 1.9794, 'grad_norm': 2.293318271636963, 'learning_rate': 4.703493095044679e-06, 'epoch': 0.48}
+{'loss': 1.9979, 'grad_norm': 2.1884210109710693, 'learning_rate': 4.701462225832657e-06, 'epoch': 0.48}
+{'loss': 1.9237, 'grad_norm': 2.412504196166992, 'learning_rate': 4.699431356620634e-06, 'epoch': 0.48}
+{'loss': 2.0756, 'grad_norm': 2.192824602127075, 'learning_rate': 4.697400487408612e-06, 'epoch': 0.48}
+{'loss': 2.028, 'grad_norm': 2.368100643157959, 'learning_rate': 4.695369618196588e-06, 'epoch': 0.48}
+{'loss': 2.0049, 'grad_norm': 2.218454122543335, 'learning_rate': 4.693338748984566e-06, 'epoch': 0.48}
+{'loss': 1.9958, 'grad_norm': 2.356168031692505, 'learning_rate': 4.691307879772543e-06, 'epoch': 0.48}
+{'eval_loss': 2.1540727615356445, 'eval_runtime': 36.9557, 'eval_samples_per_second': 27.059, 'eval_steps_per_second': 1.136, 'epoch': 0.48}
+{'loss': 1.9388, 'grad_norm': 2.09956693649292, 'learning_rate': 4.68927701056052e-06, 'epoch': 0.48}
+{'loss': 2.0425, 'grad_norm': 2.5746614933013916, 'learning_rate': 4.6872461413484975e-06, 'epoch': 0.48}
+{'loss': 2.0082, 'grad_norm': 2.2064783573150635, 'learning_rate': 4.685215272136475e-06, 'epoch': 0.49}
+{'loss': 2.0055, 'grad_norm': 2.159029006958008, 'learning_rate': 4.683184402924452e-06, 'epoch': 0.49}
+{'loss': 2.0007, 'grad_norm': 2.5222008228302, 'learning_rate': 4.681153533712429e-06, 'epoch': 0.49}
+{'loss': 2.0719, 'grad_norm': 2.163487672805786, 'learning_rate': 4.679122664500407e-06, 'epoch': 0.49}
+{'loss': 1.9623, 'grad_norm': 2.3383803367614746, 'learning_rate': 4.677091795288384e-06, 'epoch': 0.49}
+{'loss': 1.9443, 'grad_norm': 2.1056675910949707, 'learning_rate': 4.675060926076361e-06, 'epoch': 0.49}
+{'loss': 2.0469, 'grad_norm': 2.145270824432373, 'learning_rate': 4.673030056864338e-06, 'epoch': 0.49}
+{'loss': 1.9569, 'grad_norm': 2.578706741333008, 'learning_rate': 4.670999187652316e-06, 'epoch': 0.49}
+{'eval_loss': 2.1527743339538574, 'eval_runtime': 36.8961, 'eval_samples_per_second': 27.103, 'eval_steps_per_second': 1.138, 'epoch': 0.49}
+{'loss': 1.9559, 'grad_norm': 2.1328542232513428, 'learning_rate': 4.668968318440293e-06, 'epoch': 0.49}
+{'loss': 1.9545, 'grad_norm': 2.148820638656616, 'learning_rate': 4.66693744922827e-06, 'epoch': 0.5}
+{'loss': 2.0358, 'grad_norm': 2.250340461730957, 'learning_rate': 4.6649065800162475e-06, 'epoch': 0.5}
+{'loss': 1.9294, 'grad_norm': 2.452397584915161, 'learning_rate': 4.662875710804225e-06, 'epoch': 0.5}
+{'loss': 2.0084, 'grad_norm': 2.140615701675415, 'learning_rate': 4.660844841592202e-06, 'epoch': 0.5}
+{'loss': 1.9174, 'grad_norm': 2.176806926727295, 'learning_rate': 4.658813972380179e-06, 'epoch': 0.5}
+{'loss': 2.0377, 'grad_norm': 2.349031925201416, 'learning_rate': 4.656783103168157e-06, 'epoch': 0.5}
+{'loss': 1.9133, 'grad_norm': 2.436889171600342, 'learning_rate': 4.654752233956134e-06, 'epoch': 0.5}
+{'loss': 1.9993, 'grad_norm': 2.116610288619995, 'learning_rate': 4.652721364744111e-06, 'epoch': 0.5}
+{'loss': 1.9744, 'grad_norm': 2.186915636062622, 'learning_rate': 4.6506904955320885e-06, 'epoch': 0.5}
+{'eval_loss': 2.1580278873443604, 'eval_runtime': 36.9097, 'eval_samples_per_second': 27.093, 'eval_steps_per_second': 1.138, 'epoch': 0.5}
+{'loss': 2.0173, 'grad_norm': 2.2009212970733643, 'learning_rate': 4.648659626320066e-06, 'epoch': 0.51}
+{'loss': 2.0238, 'grad_norm': 2.117286443710327, 'learning_rate': 4.646628757108043e-06, 'epoch': 0.51}
+{'loss': 1.9885, 'grad_norm': 2.238790273666382, 'learning_rate': 4.6445978878960194e-06, 'epoch': 0.51}
+{'loss': 1.9593, 'grad_norm': 2.3493096828460693, 'learning_rate': 4.6425670186839976e-06, 'epoch': 0.51}
+{'loss': 1.9993, 'grad_norm': 2.3276610374450684, 'learning_rate': 4.640536149471974e-06, 'epoch': 0.51}
+{'loss': 2.0256, 'grad_norm': 2.3671715259552, 'learning_rate': 4.638505280259952e-06, 'epoch': 0.51}
+{'loss': 2.0436, 'grad_norm': 2.251803159713745, 'learning_rate': 4.6364744110479285e-06, 'epoch': 0.51}
+{'loss': 1.9968, 'grad_norm': 2.3023312091827393, 'learning_rate': 4.634443541835907e-06, 'epoch': 0.51}
+{'loss': 2.0492, 'grad_norm': 2.3660333156585693, 'learning_rate': 4.632412672623883e-06, 'epoch': 0.51}
+{'loss': 1.9698, 'grad_norm': 2.262179136276245, 'learning_rate': 4.630381803411861e-06, 'epoch': 0.52}
+{'eval_loss': 2.1516528129577637, 'eval_runtime': 36.7956, 'eval_samples_per_second': 27.177, 'eval_steps_per_second': 1.141, 'epoch': 0.52}
+{'loss': 1.8799, 'grad_norm': 2.450770616531372, 'learning_rate': 4.628350934199838e-06, 'epoch': 0.52}
+{'loss': 1.9829, 'grad_norm': 2.187458038330078, 'learning_rate': 4.626320064987816e-06, 'epoch': 0.52}
+{'loss': 2.012, 'grad_norm': 2.1726722717285156, 'learning_rate': 4.624289195775792e-06, 'epoch': 0.52}
+{'loss': 1.9796, 'grad_norm': 2.4177136421203613, 'learning_rate': 4.62225832656377e-06, 'epoch': 0.52}
+{'loss': 1.99, 'grad_norm': 2.2353951930999756, 'learning_rate': 4.620227457351747e-06, 'epoch': 0.52}
+{'loss': 1.9847, 'grad_norm': 2.369591236114502, 'learning_rate': 4.618196588139724e-06, 'epoch': 0.52}
+{'loss': 2.0047, 'grad_norm': 2.546703577041626, 'learning_rate': 4.616165718927701e-06, 'epoch': 0.52}
+{'loss': 1.9589, 'grad_norm': 2.3509185314178467, 'learning_rate': 4.6141348497156786e-06, 'epoch': 0.52}
+{'loss': 2.045, 'grad_norm': 2.3063488006591797, 'learning_rate': 4.612103980503656e-06, 'epoch': 0.52}
+{'loss': 2.0218, 'grad_norm': 2.285572052001953, 'learning_rate': 4.610073111291633e-06, 'epoch': 0.53}
+{'eval_loss': 2.1472301483154297, 'eval_runtime': 36.7689, 'eval_samples_per_second': 27.197, 'eval_steps_per_second': 1.142, 'epoch': 0.53}
+{'loss': 1.9955, 'grad_norm': 2.22987961769104, 'learning_rate': 4.60804224207961e-06, 'epoch': 0.53}
+{'loss': 1.9768, 'grad_norm': 2.200918197631836, 'learning_rate': 4.606011372867588e-06, 'epoch': 0.53}
+{'loss': 2.0088, 'grad_norm': 2.2441930770874023, 'learning_rate': 4.603980503655565e-06, 'epoch': 0.53}
+{'loss': 1.9853, 'grad_norm': 2.380383014678955, 'learning_rate': 4.601949634443542e-06, 'epoch': 0.53}
+{'loss': 1.9183, 'grad_norm': 2.317995071411133, 'learning_rate': 4.5999187652315195e-06, 'epoch': 0.53}
+{'loss': 1.9201, 'grad_norm': 2.2462668418884277, 'learning_rate': 4.597887896019497e-06, 'epoch': 0.53}
+{'loss': 1.9722, 'grad_norm': 2.1482582092285156, 'learning_rate': 4.595857026807474e-06, 'epoch': 0.53}
+{'loss': 1.977, 'grad_norm': 2.079831123352051, 'learning_rate': 4.593826157595451e-06, 'epoch': 0.53}
+{'loss': 1.9615, 'grad_norm': 2.2169578075408936, 'learning_rate': 4.591795288383429e-06, 'epoch': 0.54}
+{'loss': 2.0402, 'grad_norm': 2.087846279144287, 'learning_rate': 4.589764419171406e-06, 'epoch': 0.54}
+{'eval_loss': 2.1416702270507812, 'eval_runtime': 37.1191, 'eval_samples_per_second': 26.94, 'eval_steps_per_second': 1.131, 'epoch': 0.54}
+{'loss': 1.9959, 'grad_norm': 2.2161977291107178, 'learning_rate': 4.587733549959383e-06, 'epoch': 0.54}
+{'loss': 1.961, 'grad_norm': 2.19530987739563, 'learning_rate': 4.5857026807473604e-06, 'epoch': 0.54}
+{'loss': 1.946, 'grad_norm': 2.1150615215301514, 'learning_rate': 4.583671811535338e-06, 'epoch': 0.54}
+{'loss': 1.9137, 'grad_norm': 2.186352491378784, 'learning_rate': 4.581640942323315e-06, 'epoch': 0.54}
+{'loss': 2.021, 'grad_norm': 2.233370780944824, 'learning_rate': 4.579610073111292e-06, 'epoch': 0.54}
+{'loss': 2.0242, 'grad_norm': 2.1326382160186768, 'learning_rate': 4.5775792038992695e-06, 'epoch': 0.54}
+{'loss': 2.0185, 'grad_norm': 2.536837577819824, 'learning_rate': 4.575548334687247e-06, 'epoch': 0.54}
+{'loss': 2.0533, 'grad_norm': 2.193598747253418, 'learning_rate': 4.573517465475224e-06, 'epoch': 0.55}
+{'loss': 1.9564, 'grad_norm': 2.1346311569213867, 'learning_rate': 4.571486596263201e-06, 'epoch': 0.55}
+{'loss': 2.0003, 'grad_norm': 2.4294722080230713, 'learning_rate': 4.569455727051178e-06, 'epoch': 0.55}
+{'eval_loss': 2.1430764198303223, 'eval_runtime': 37.0591, 'eval_samples_per_second': 26.984, 'eval_steps_per_second': 1.133, 'epoch': 0.55}
+{'loss': 2.0055, 'grad_norm': 2.2394182682037354, 'learning_rate': 4.567424857839156e-06, 'epoch': 0.55}
+{'loss': 1.9837, 'grad_norm': 2.2543067932128906, 'learning_rate': 4.565393988627132e-06, 'epoch': 0.55}
+{'loss': 2.0495, 'grad_norm': 2.2805464267730713, 'learning_rate': 4.5633631194151105e-06, 'epoch': 0.55}
+{'loss': 1.9866, 'grad_norm': 2.2838146686553955, 'learning_rate': 4.561332250203087e-06, 'epoch': 0.55}
+{'loss': 1.9805, 'grad_norm': 2.286147356033325, 'learning_rate': 4.559301380991065e-06, 'epoch': 0.55}
+{'loss': 1.9259, 'grad_norm': 2.064378023147583, 'learning_rate': 4.5572705117790414e-06, 'epoch': 0.55}
+{'loss': 1.9731, 'grad_norm': 2.4020493030548096, 'learning_rate': 4.5552396425670196e-06, 'epoch': 0.56}
+{'loss': 2.0126, 'grad_norm': 2.11594557762146, 'learning_rate': 4.553208773354996e-06, 'epoch': 0.56}
+{'loss': 1.9396, 'grad_norm': 2.4520673751831055, 'learning_rate': 4.551177904142974e-06, 'epoch': 0.56}
+{'loss': 2.0361, 'grad_norm': 2.302771806716919, 'learning_rate': 4.5491470349309505e-06, 'epoch': 0.56}
+{'eval_loss': 2.1408755779266357, 'eval_runtime': 36.9881, 'eval_samples_per_second': 27.036, 'eval_steps_per_second': 1.136, 'epoch': 0.56}
+{'loss': 1.9616, 'grad_norm': 2.250927686691284, 'learning_rate': 4.547116165718929e-06, 'epoch': 0.56}
+{'loss': 1.9836, 'grad_norm': 2.4257938861846924, 'learning_rate': 4.545085296506905e-06, 'epoch': 0.56}
+{'loss': 1.9541, 'grad_norm': 2.08693265914917, 'learning_rate': 4.543054427294882e-06, 'epoch': 0.56}
+{'loss': 1.9377, 'grad_norm': 2.133875846862793, 'learning_rate': 4.54102355808286e-06, 'epoch': 0.56}
+{'loss': 1.9369, 'grad_norm': 2.1217594146728516, 'learning_rate': 4.538992688870837e-06, 'epoch': 0.56}
+{'loss': 1.9666, 'grad_norm': 2.117994546890259, 'learning_rate': 4.536961819658814e-06, 'epoch': 0.57}
+{'loss': 1.9704, 'grad_norm': 2.1514523029327393, 'learning_rate': 4.5349309504467915e-06, 'epoch': 0.57}
+{'loss': 1.9858, 'grad_norm': 2.2309377193450928, 'learning_rate': 4.532900081234769e-06, 'epoch': 0.57}
+{'loss': 1.9573, 'grad_norm': 2.100398540496826, 'learning_rate': 4.530869212022746e-06, 'epoch': 0.57}
+{'loss': 1.9813, 'grad_norm': 2.122840166091919, 'learning_rate': 4.528838342810723e-06, 'epoch': 0.57}
+{'eval_loss': 2.135481357574463, 'eval_runtime': 36.893, 'eval_samples_per_second': 27.105, 'eval_steps_per_second': 1.138, 'epoch': 0.57}
+{'loss': 1.9691, 'grad_norm': 2.1103999614715576, 'learning_rate': 4.526807473598701e-06, 'epoch': 0.57}
+{'loss': 1.9687, 'grad_norm': 2.059232473373413, 'learning_rate': 4.524776604386678e-06, 'epoch': 0.57}
+{'loss': 1.949, 'grad_norm': 2.207000732421875, 'learning_rate': 4.522745735174655e-06, 'epoch': 0.57}
+{'loss': 2.0066, 'grad_norm': 2.264000177383423, 'learning_rate': 4.520714865962632e-06, 'epoch': 0.57}
+{'loss': 1.9879, 'grad_norm': 2.121701717376709, 'learning_rate': 4.51868399675061e-06, 'epoch': 0.58}
+{'loss': 1.9924, 'grad_norm': 2.0745644569396973, 'learning_rate': 4.516653127538587e-06, 'epoch': 0.58}
+{'loss': 1.9525, 'grad_norm': 2.2257349491119385, 'learning_rate': 4.514622258326564e-06, 'epoch': 0.58}
+{'loss': 1.9378, 'grad_norm': 2.1678507328033447, 'learning_rate': 4.5125913891145415e-06, 'epoch': 0.58}
+{'loss': 1.9685, 'grad_norm': 2.2800841331481934, 'learning_rate': 4.510560519902519e-06, 'epoch': 0.58}
+{'loss': 2.0027, 'grad_norm': 2.1471869945526123, 'learning_rate': 4.508529650690496e-06, 'epoch': 0.58}
+{'eval_loss': 2.1354892253875732, 'eval_runtime': 36.8434, 'eval_samples_per_second': 27.142, 'eval_steps_per_second': 1.14, 'epoch': 0.58}
+{'loss': 1.9258, 'grad_norm': 2.2238621711730957, 'learning_rate': 4.506498781478473e-06, 'epoch': 0.58}
+{'loss': 1.9168, 'grad_norm': 2.2224624156951904, 'learning_rate': 4.504467912266451e-06, 'epoch': 0.58}
+{'loss': 1.9656, 'grad_norm': 1.9850294589996338, 'learning_rate': 4.502437043054428e-06, 'epoch': 0.58}
+{'loss': 2.0349, 'grad_norm': 2.1303517818450928, 'learning_rate': 4.500406173842405e-06, 'epoch': 0.59}
+{'loss': 1.9878, 'grad_norm': 2.2114832401275635, 'learning_rate': 4.4983753046303824e-06, 'epoch': 0.59}
+{'loss': 1.9724, 'grad_norm': 1.9375886917114258, 'learning_rate': 4.49634443541836e-06, 'epoch': 0.59}
+{'loss': 1.9584, 'grad_norm': 2.185518741607666, 'learning_rate': 4.494313566206336e-06, 'epoch': 0.59}
+{'loss': 2.0203, 'grad_norm': 2.125638484954834, 'learning_rate': 4.492282696994314e-06, 'epoch': 0.59}
+{'loss': 1.9523, 'grad_norm': 1.9456262588500977, 'learning_rate': 4.490251827782291e-06, 'epoch': 0.59}
+{'loss': 1.9271, 'grad_norm': 2.088125705718994, 'learning_rate': 4.488220958570269e-06, 'epoch': 0.59}
+{'eval_loss': 2.134958505630493, 'eval_runtime': 36.8342, 'eval_samples_per_second': 27.149, 'eval_steps_per_second': 1.14, 'epoch': 0.59}
+{'loss': 1.9467, 'grad_norm': 2.1423559188842773, 'learning_rate': 4.486190089358245e-06, 'epoch': 0.59}
+{'loss': 1.8901, 'grad_norm': 2.2169737815856934, 'learning_rate': 4.484159220146223e-06, 'epoch': 0.59}
+{'loss': 2.0064, 'grad_norm': 2.419947385787964, 'learning_rate': 4.4821283509342e-06, 'epoch': 0.6}
+{'loss': 1.9819, 'grad_norm': 2.0396435260772705, 'learning_rate': 4.480097481722178e-06, 'epoch': 0.6}
+{'loss': 1.9578, 'grad_norm': 2.210700511932373, 'learning_rate': 4.478066612510154e-06, 'epoch': 0.6}
+{'loss': 1.9313, 'grad_norm': 2.159698009490967, 'learning_rate': 4.4760357432981325e-06, 'epoch': 0.6}
+{'loss': 1.9549, 'grad_norm': 2.125058650970459, 'learning_rate': 4.474004874086109e-06, 'epoch': 0.6}
+{'loss': 2.0883, 'grad_norm': 2.477320432662964, 'learning_rate': 4.471974004874087e-06, 'epoch': 0.6}
+{'loss': 1.9184, 'grad_norm': 2.214901924133301, 'learning_rate': 4.4699431356620635e-06, 'epoch': 0.6}
+{'loss': 2.0231, 'grad_norm': 2.1001312732696533, 'learning_rate': 4.467912266450041e-06, 'epoch': 0.6}
+{'eval_loss': 2.1315157413482666, 'eval_runtime': 36.8131, 'eval_samples_per_second': 27.164, 'eval_steps_per_second': 1.141, 'epoch': 0.6}
+{'loss': 1.967, 'grad_norm': 2.1030538082122803, 'learning_rate': 4.465881397238018e-06, 'epoch': 0.6}
+{'loss': 1.9615, 'grad_norm': 2.0390465259552, 'learning_rate': 4.463850528025995e-06, 'epoch': 0.6}
+{'loss': 1.9667, 'grad_norm': 2.1331627368927, 'learning_rate': 4.4618196588139726e-06, 'epoch': 0.61}
+{'loss': 1.9922, 'grad_norm': 2.1987671852111816, 'learning_rate': 4.45978878960195e-06, 'epoch': 0.61}
+{'loss': 1.9913, 'grad_norm': 2.127434253692627, 'learning_rate': 4.457757920389927e-06, 'epoch': 0.61}
+{'loss': 1.9239, 'grad_norm': 2.2486324310302734, 'learning_rate': 4.455727051177904e-06, 'epoch': 0.61}
+{'loss': 1.9521, 'grad_norm': 2.127575397491455, 'learning_rate': 4.453696181965882e-06, 'epoch': 0.61}
+{'loss': 2.0085, 'grad_norm': 2.0798254013061523, 'learning_rate': 4.451665312753859e-06, 'epoch': 0.61}
+{'loss': 1.98, 'grad_norm': 2.287574291229248, 'learning_rate': 4.449634443541836e-06, 'epoch': 0.61}
+{'loss': 2.0282, 'grad_norm': 2.2056541442871094, 'learning_rate': 4.4476035743298135e-06, 'epoch': 0.61}
+{'eval_loss': 2.1287026405334473, 'eval_runtime': 36.7788, 'eval_samples_per_second': 27.19, 'eval_steps_per_second': 1.142, 'epoch': 0.61}
+{'loss': 1.9308, 'grad_norm': 2.169157028198242, 'learning_rate': 4.445572705117791e-06, 'epoch': 0.61}
+{'loss': 1.9507, 'grad_norm': 2.1035149097442627, 'learning_rate': 4.443541835905768e-06, 'epoch': 0.62}
+{'loss': 2.0162, 'grad_norm': 2.1174328327178955, 'learning_rate': 4.441510966693745e-06, 'epoch': 0.62}
+{'loss': 1.9573, 'grad_norm': 2.201641321182251, 'learning_rate': 4.439480097481723e-06, 'epoch': 0.62}
+{'loss': 2.0149, 'grad_norm': 2.1763603687286377, 'learning_rate': 4.4374492282697e-06, 'epoch': 0.62}
+{'loss': 1.8836, 'grad_norm': 2.2866439819335938, 'learning_rate': 4.435418359057677e-06, 'epoch': 0.62}
+{'loss': 1.9806, 'grad_norm': 2.2060160636901855, 'learning_rate': 4.433387489845654e-06, 'epoch': 0.62}
+{'loss': 1.9821, 'grad_norm': 2.0614662170410156, 'learning_rate': 4.431356620633632e-06, 'epoch': 0.62}
+{'loss': 1.9365, 'grad_norm': 2.1055402755737305, 'learning_rate': 4.429325751421609e-06, 'epoch': 0.62}
+{'loss': 1.9429, 'grad_norm': 1.9907679557800293, 'learning_rate': 4.427294882209586e-06, 'epoch': 0.62}
+{'eval_loss': 2.1286206245422363, 'eval_runtime': 36.7748, 'eval_samples_per_second': 27.193, 'eval_steps_per_second': 1.142, 'epoch': 0.62}
+{'loss': 1.9643, 'grad_norm': 2.0169243812561035, 'learning_rate': 4.4252640129975635e-06, 'epoch': 0.63}
+{'loss': 1.9009, 'grad_norm': 2.1082401275634766, 'learning_rate': 4.423233143785541e-06, 'epoch': 0.63}
+{'loss': 1.9694, 'grad_norm': 2.202542543411255, 'learning_rate': 4.421202274573518e-06, 'epoch': 0.63}
+{'loss': 1.9697, 'grad_norm': 2.028489828109741, 'learning_rate': 4.4191714053614945e-06, 'epoch': 0.63}
+{'loss': 1.8672, 'grad_norm': 2.134274482727051, 'learning_rate': 4.417140536149473e-06, 'epoch': 0.63}
+{'loss': 1.909, 'grad_norm': 2.063542366027832, 'learning_rate': 4.415109666937449e-06, 'epoch': 0.63}
+{'loss': 1.9795, 'grad_norm': 1.9747039079666138, 'learning_rate': 4.413078797725427e-06, 'epoch': 0.63}
+{'loss': 1.9283, 'grad_norm': 2.063673496246338, 'learning_rate': 4.411047928513404e-06, 'epoch': 0.63}
+{'loss': 1.9682, 'grad_norm': 2.024611711502075, 'learning_rate': 4.409017059301382e-06, 'epoch': 0.63}
+{'loss': 1.969, 'grad_norm': 2.0471599102020264, 'learning_rate': 4.406986190089358e-06, 'epoch': 0.64}
+{'eval_loss': 2.1233692169189453, 'eval_runtime': 36.8185, 'eval_samples_per_second': 27.16, 'eval_steps_per_second': 1.141, 'epoch': 0.64}
+{'loss': 1.9915, 'grad_norm': 2.1038553714752197, 'learning_rate': 4.404955320877336e-06, 'epoch': 0.64}
+{'loss': 1.9892, 'grad_norm': 2.1222152709960938, 'learning_rate': 4.402924451665313e-06, 'epoch': 0.64}
+{'loss': 1.934, 'grad_norm': 2.09137225151062, 'learning_rate': 4.400893582453291e-06, 'epoch': 0.64}
+{'loss': 1.9188, 'grad_norm': 2.2158281803131104, 'learning_rate': 4.398862713241267e-06, 'epoch': 0.64}
+{'loss': 1.9495, 'grad_norm': 2.34619140625, 'learning_rate': 4.396831844029245e-06, 'epoch': 0.64}
+{'loss': 1.9632, 'grad_norm': 2.2732315063476562, 'learning_rate': 4.394800974817222e-06, 'epoch': 0.64}
+{'loss': 1.9551, 'grad_norm': 2.153338670730591, 'learning_rate': 4.392770105605199e-06, 'epoch': 0.64}
+{'loss': 1.9677, 'grad_norm': 2.2201521396636963, 'learning_rate': 4.390739236393176e-06, 'epoch': 0.64}
+{'loss': 1.9826, 'grad_norm': 1.9894570112228394, 'learning_rate': 4.388708367181154e-06, 'epoch': 0.65}
+{'loss': 1.9826, 'grad_norm': 2.145061492919922, 'learning_rate': 4.386677497969131e-06, 'epoch': 0.65}
+{'eval_loss': 2.122312545776367, 'eval_runtime': 37.1153, 'eval_samples_per_second': 26.943, 'eval_steps_per_second': 1.132, 'epoch': 0.65}
+{'loss': 1.9722, 'grad_norm': 2.257237672805786, 'learning_rate': 4.384646628757108e-06, 'epoch': 0.65}
+{'loss': 2.0141, 'grad_norm': 2.2406375408172607, 'learning_rate': 4.3826157595450855e-06, 'epoch': 0.65}
+{'loss': 1.9435, 'grad_norm': 1.9656853675842285, 'learning_rate': 4.380584890333063e-06, 'epoch': 0.65}
+{'loss': 1.9001, 'grad_norm': 2.1063120365142822, 'learning_rate': 4.37855402112104e-06, 'epoch': 0.65}
+{'loss': 1.8596, 'grad_norm': 2.1594269275665283, 'learning_rate': 4.376523151909017e-06, 'epoch': 0.65}
+{'loss': 2.016, 'grad_norm': 2.2261908054351807, 'learning_rate': 4.3744922826969946e-06, 'epoch': 0.65}
+{'loss': 1.9293, 'grad_norm': 1.9940093755722046, 'learning_rate': 4.372461413484972e-06, 'epoch': 0.65}
+{'loss': 1.9656, 'grad_norm': 2.62186861038208, 'learning_rate': 4.370430544272949e-06, 'epoch': 0.66}
+{'loss': 1.9984, 'grad_norm': 2.3531494140625, 'learning_rate': 4.368399675060926e-06, 'epoch': 0.66}
+{'loss': 1.9971, 'grad_norm': 2.362769365310669, 'learning_rate': 4.366368805848904e-06, 'epoch': 0.66}
+{'eval_loss': 2.1172940731048584, 'eval_runtime': 37.0498, 'eval_samples_per_second': 26.991, 'eval_steps_per_second': 1.134, 'epoch': 0.66}
+{'loss': 1.9566, 'grad_norm': 2.3806607723236084, 'learning_rate': 4.364337936636881e-06, 'epoch': 0.66}
+{'loss': 1.9002, 'grad_norm': 2.5531814098358154, 'learning_rate': 4.362307067424858e-06, 'epoch': 0.66}
+{'loss': 1.9633, 'grad_norm': 2.283364772796631, 'learning_rate': 4.3602761982128355e-06, 'epoch': 0.66}
+{'loss': 1.9277, 'grad_norm': 2.180171489715576, 'learning_rate': 4.358245329000813e-06, 'epoch': 0.66}
+{'loss': 1.9484, 'grad_norm': 2.0771350860595703, 'learning_rate': 4.35621445978879e-06, 'epoch': 0.66}
+{'loss': 1.9564, 'grad_norm': 2.3772811889648438, 'learning_rate': 4.354183590576767e-06, 'epoch': 0.66}
+{'loss': 1.9389, 'grad_norm': 2.205486297607422, 'learning_rate': 4.352152721364745e-06, 'epoch': 0.67}
+{'loss': 1.8948, 'grad_norm': 2.085190773010254, 'learning_rate': 4.350121852152722e-06, 'epoch': 0.67}
+{'loss': 1.9736, 'grad_norm': 2.4398982524871826, 'learning_rate': 4.348090982940699e-06, 'epoch': 0.67}
+{'loss': 1.9607, 'grad_norm': 2.194087028503418, 'learning_rate': 4.3460601137286764e-06, 'epoch': 0.67}
+{'eval_loss': 2.115041971206665, 'eval_runtime': 36.9738, 'eval_samples_per_second': 27.046, 'eval_steps_per_second': 1.136, 'epoch': 0.67}
+{'loss': 1.9733, 'grad_norm': 2.143054485321045, 'learning_rate': 4.344029244516654e-06, 'epoch': 0.67}
+{'loss': 1.9417, 'grad_norm': 2.2484617233276367, 'learning_rate': 4.341998375304631e-06, 'epoch': 0.67}
+{'loss': 2.0192, 'grad_norm': 2.0430805683135986, 'learning_rate': 4.339967506092607e-06, 'epoch': 0.67}
+{'loss': 1.9543, 'grad_norm': 2.061089277267456, 'learning_rate': 4.3379366368805855e-06, 'epoch': 0.67}
+{'loss': 1.9579, 'grad_norm': 2.298022747039795, 'learning_rate': 4.335905767668562e-06, 'epoch': 0.67}
+{'loss': 1.938, 'grad_norm': 2.1418962478637695, 'learning_rate': 4.33387489845654e-06, 'epoch': 0.68}
+{'loss': 1.972, 'grad_norm': 2.1005501747131348, 'learning_rate': 4.3318440292445165e-06, 'epoch': 0.68}
+{'loss': 1.9535, 'grad_norm': 2.1665523052215576, 'learning_rate': 4.329813160032495e-06, 'epoch': 0.68}
+{'loss': 1.9188, 'grad_norm': 2.144580841064453, 'learning_rate': 4.327782290820471e-06, 'epoch': 0.68}
+{'loss': 1.912, 'grad_norm': 1.9855908155441284, 'learning_rate': 4.325751421608449e-06, 'epoch': 0.68}
+{'eval_loss': 2.118319272994995, 'eval_runtime': 36.9677, 'eval_samples_per_second': 27.051, 'eval_steps_per_second': 1.136, 'epoch': 0.68}
+{'loss': 1.9886, 'grad_norm': 2.395538091659546, 'learning_rate': 4.323720552396426e-06, 'epoch': 0.68}
+{'loss': 1.9326, 'grad_norm': 2.190574884414673, 'learning_rate': 4.321689683184404e-06, 'epoch': 0.68}
+{'loss': 1.9278, 'grad_norm': 2.1826560497283936, 'learning_rate': 4.31965881397238e-06, 'epoch': 0.68}
+{'loss': 1.9359, 'grad_norm': 2.151097536087036, 'learning_rate': 4.3176279447603574e-06, 'epoch': 0.68}
+{'loss': 1.9728, 'grad_norm': 2.1830122470855713, 'learning_rate': 4.315597075548335e-06, 'epoch': 0.68}
+{'loss': 1.9638, 'grad_norm': 2.203325033187866, 'learning_rate': 4.313566206336312e-06, 'epoch': 0.69}
+{'loss': 1.9907, 'grad_norm': 2.7240309715270996, 'learning_rate': 4.311535337124289e-06, 'epoch': 0.69}
+{'loss': 1.9352, 'grad_norm': 2.133599281311035, 'learning_rate': 4.3095044679122665e-06, 'epoch': 0.69}
+{'loss': 1.9432, 'grad_norm': 2.0318551063537598, 'learning_rate': 4.307473598700244e-06, 'epoch': 0.69}
+{'loss': 1.9641, 'grad_norm': 2.502101182937622, 'learning_rate': 4.305442729488221e-06, 'epoch': 0.69}
+{'eval_loss': 2.1158926486968994, 'eval_runtime': 36.8818, 'eval_samples_per_second': 27.114, 'eval_steps_per_second': 1.139, 'epoch': 0.69}
+{'loss': 1.8841, 'grad_norm': 2.3620944023132324, 'learning_rate': 4.303411860276198e-06, 'epoch': 0.69}
+{'loss': 1.9896, 'grad_norm': 2.3139240741729736, 'learning_rate': 4.301380991064176e-06, 'epoch': 0.69}
+{'loss': 1.9655, 'grad_norm': 2.314877510070801, 'learning_rate': 4.299350121852153e-06, 'epoch': 0.69}
+{'loss': 1.9917, 'grad_norm': 2.036371946334839, 'learning_rate': 4.29731925264013e-06, 'epoch': 0.69}
+{'loss': 1.9805, 'grad_norm': 2.1859662532806396, 'learning_rate': 4.2952883834281075e-06, 'epoch': 0.7}
+{'loss': 1.9402, 'grad_norm': 2.2317097187042236, 'learning_rate': 4.293257514216085e-06, 'epoch': 0.7}
+{'loss': 1.9013, 'grad_norm': 2.3249905109405518, 'learning_rate': 4.291226645004062e-06, 'epoch': 0.7}
+{'loss': 1.9783, 'grad_norm': 2.199758768081665, 'learning_rate': 4.289195775792039e-06, 'epoch': 0.7}
+{'loss': 1.9936, 'grad_norm': 2.3598549365997314, 'learning_rate': 4.287164906580017e-06, 'epoch': 0.7}
+{'loss': 1.9304, 'grad_norm': 2.1705522537231445, 'learning_rate': 4.285134037367994e-06, 'epoch': 0.7}
+{'eval_loss': 2.1055190563201904, 'eval_runtime': 36.8673, 'eval_samples_per_second': 27.124, 'eval_steps_per_second': 1.139, 'epoch': 0.7}
+{'loss': 1.9196, 'grad_norm': 2.3253612518310547, 'learning_rate': 4.283103168155971e-06, 'epoch': 0.7}
+{'loss': 1.9053, 'grad_norm': 2.3054087162017822, 'learning_rate': 4.281072298943948e-06, 'epoch': 0.7}
+{'loss': 1.8999, 'grad_norm': 2.262057304382324, 'learning_rate': 4.279041429731926e-06, 'epoch': 0.7}
+{'loss': 1.9438, 'grad_norm': 2.421391248703003, 'learning_rate': 4.277010560519903e-06, 'epoch': 0.71}
+{'loss': 1.9187, 'grad_norm': 2.2841498851776123, 'learning_rate': 4.27497969130788e-06, 'epoch': 0.71}
+{'loss': 1.9275, 'grad_norm': 2.3226938247680664, 'learning_rate': 4.2729488220958575e-06, 'epoch': 0.71}
+{'loss': 1.9684, 'grad_norm': 2.2306301593780518, 'learning_rate': 4.270917952883835e-06, 'epoch': 0.71}
+{'loss': 1.9849, 'grad_norm': 2.0551652908325195, 'learning_rate': 4.268887083671812e-06, 'epoch': 0.71}
+{'loss': 1.9026, 'grad_norm': 2.2952210903167725, 'learning_rate': 4.266856214459789e-06, 'epoch': 0.71}
+{'loss': 2.0184, 'grad_norm': 2.1630797386169434, 'learning_rate': 4.264825345247766e-06, 'epoch': 0.71}
+{'eval_loss': 2.1037871837615967, 'eval_runtime': 36.8221, 'eval_samples_per_second': 27.158, 'eval_steps_per_second': 1.141, 'epoch': 0.71}
+{'loss': 1.8932, 'grad_norm': 1.964150309562683, 'learning_rate': 4.262794476035744e-06, 'epoch': 0.71}
+{'loss': 1.9383, 'grad_norm': 2.1474685668945312, 'learning_rate': 4.26076360682372e-06, 'epoch': 0.71}
+{'loss': 1.8599, 'grad_norm': 2.199824094772339, 'learning_rate': 4.2587327376116984e-06, 'epoch': 0.72}
+{'loss': 1.9162, 'grad_norm': 2.12156343460083, 'learning_rate': 4.256701868399675e-06, 'epoch': 0.72}
+{'loss': 1.9613, 'grad_norm': 2.3832154273986816, 'learning_rate': 4.254670999187653e-06, 'epoch': 0.72}
+{'loss': 1.9421, 'grad_norm': 2.063906192779541, 'learning_rate': 4.252640129975629e-06, 'epoch': 0.72}
+{'loss': 1.9471, 'grad_norm': 2.184842586517334, 'learning_rate': 4.2506092607636075e-06, 'epoch': 0.72}
+{'loss': 1.931, 'grad_norm': 2.1340036392211914, 'learning_rate': 4.248578391551584e-06, 'epoch': 0.72}
+{'loss': 1.8698, 'grad_norm': 2.117544651031494, 'learning_rate': 4.246547522339562e-06, 'epoch': 0.72}
+{'loss': 1.9217, 'grad_norm': 2.308344841003418, 'learning_rate': 4.2445166531275385e-06, 'epoch': 0.72}
+{'eval_loss': 2.1086323261260986, 'eval_runtime': 36.8082, 'eval_samples_per_second': 27.168, 'eval_steps_per_second': 1.141, 'epoch': 0.72}
+{'loss': 1.9286, 'grad_norm': 2.2239017486572266, 'learning_rate': 4.242485783915517e-06, 'epoch': 0.72}
+{'loss': 1.8821, 'grad_norm': 2.263697624206543, 'learning_rate': 4.240454914703493e-06, 'epoch': 0.73}
+{'loss': 1.8996, 'grad_norm': 2.4305059909820557, 'learning_rate': 4.23842404549147e-06, 'epoch': 0.73}
+{'loss': 1.8906, 'grad_norm': 2.2333695888519287, 'learning_rate': 4.236393176279448e-06, 'epoch': 0.73}
+{'loss': 1.879, 'grad_norm': 2.160982608795166, 'learning_rate': 4.234362307067425e-06, 'epoch': 0.73}
+{'loss': 1.9577, 'grad_norm': 2.3707094192504883, 'learning_rate': 4.232331437855402e-06, 'epoch': 0.73}
+{'loss': 1.9801, 'grad_norm': 2.0502827167510986, 'learning_rate': 4.2303005686433795e-06, 'epoch': 0.73}
+{'loss': 1.978, 'grad_norm': 2.0648176670074463, 'learning_rate': 4.228269699431357e-06, 'epoch': 0.73}
+{'loss': 1.9387, 'grad_norm': 2.346316337585449, 'learning_rate': 4.226238830219334e-06, 'epoch': 0.73}
+{'loss': 1.9396, 'grad_norm': 1.9734236001968384, 'learning_rate': 4.224207961007311e-06, 'epoch': 0.73}
+{'eval_loss': 2.1104705333709717, 'eval_runtime': 36.8144, 'eval_samples_per_second': 27.163, 'eval_steps_per_second': 1.141, 'epoch': 0.73}
+{'loss': 1.9398, 'grad_norm': 2.3170549869537354, 'learning_rate': 4.2221770917952886e-06, 'epoch': 0.74}
+{'loss': 1.9284, 'grad_norm': 2.0437264442443848, 'learning_rate': 4.220146222583266e-06, 'epoch': 0.74}
+{'loss': 1.9425, 'grad_norm': 2.0808510780334473, 'learning_rate': 4.218115353371243e-06, 'epoch': 0.74}
+{'loss': 1.9358, 'grad_norm': 2.0854742527008057, 'learning_rate': 4.21608448415922e-06, 'epoch': 0.74}
+{'loss': 1.9048, 'grad_norm': 2.131622552871704, 'learning_rate': 4.214053614947198e-06, 'epoch': 0.74}
+{'loss': 1.9871, 'grad_norm': 2.276359796524048, 'learning_rate': 4.212022745735175e-06, 'epoch': 0.74}
+{'loss': 1.882, 'grad_norm': 2.2194812297821045, 'learning_rate': 4.209991876523152e-06, 'epoch': 0.74}
+{'loss': 1.9546, 'grad_norm': 2.181891679763794, 'learning_rate': 4.2079610073111295e-06, 'epoch': 0.74}
+{'loss': 1.8836, 'grad_norm': 2.0956673622131348, 'learning_rate': 4.205930138099107e-06, 'epoch': 0.74}
+{'loss': 1.9842, 'grad_norm': 2.057894229888916, 'learning_rate': 4.203899268887084e-06, 'epoch': 0.75}
+{'eval_loss': 2.104182720184326, 'eval_runtime': 36.8189, 'eval_samples_per_second': 27.16, 'eval_steps_per_second': 1.141, 'epoch': 0.75}
+{'loss': 1.9378, 'grad_norm': 2.0965662002563477, 'learning_rate': 4.201868399675061e-06, 'epoch': 0.75}
+{'loss': 1.9784, 'grad_norm': 2.1843457221984863, 'learning_rate': 4.199837530463039e-06, 'epoch': 0.75}
+{'loss': 1.8642, 'grad_norm': 2.2044246196746826, 'learning_rate': 4.197806661251016e-06, 'epoch': 0.75}
+{'loss': 1.929, 'grad_norm': 2.202115058898926, 'learning_rate': 4.195775792038993e-06, 'epoch': 0.75}
+{'loss': 1.9172, 'grad_norm': 2.3671462535858154, 'learning_rate': 4.19374492282697e-06, 'epoch': 0.75}
+{'loss': 1.8503, 'grad_norm': 2.0602803230285645, 'learning_rate': 4.191714053614948e-06, 'epoch': 0.75}
+{'loss': 1.9511, 'grad_norm': 2.12145733833313, 'learning_rate': 4.189683184402924e-06, 'epoch': 0.75}
+{'loss': 1.9043, 'grad_norm': 2.1049914360046387, 'learning_rate': 4.187652315190902e-06, 'epoch': 0.75}
+{'loss': 1.9784, 'grad_norm': 2.235497236251831, 'learning_rate': 4.185621445978879e-06, 'epoch': 0.76}
+{'loss': 1.9052, 'grad_norm': 2.173222303390503, 'learning_rate': 4.183590576766857e-06, 'epoch': 0.76}
+{'eval_loss': 2.0982251167297363, 'eval_runtime': 37.1446, 'eval_samples_per_second': 26.922, 'eval_steps_per_second': 1.131, 'epoch': 0.76}
+{'loss': 1.9223, 'grad_norm': 2.0693562030792236, 'learning_rate': 4.181559707554833e-06, 'epoch': 0.76}
+{'loss': 1.9709, 'grad_norm': 2.209419012069702, 'learning_rate': 4.179528838342811e-06, 'epoch': 0.76}
+{'loss': 1.889, 'grad_norm': 2.066041946411133, 'learning_rate': 4.177497969130788e-06, 'epoch': 0.76}
+{'loss': 1.9059, 'grad_norm': 2.4114325046539307, 'learning_rate': 4.175467099918766e-06, 'epoch': 0.76}
+{'loss': 1.9877, 'grad_norm': 2.0185043811798096, 'learning_rate': 4.173436230706742e-06, 'epoch': 0.76}
+{'loss': 1.9199, 'grad_norm': 2.23392915725708, 'learning_rate': 4.1714053614947205e-06, 'epoch': 0.76}
+{'loss': 1.9001, 'grad_norm': 2.2158737182617188, 'learning_rate': 4.169374492282697e-06, 'epoch': 0.76}
+{'loss': 1.9166, 'grad_norm': 2.1511690616607666, 'learning_rate': 4.167343623070675e-06, 'epoch': 0.76}
+{'loss': 1.9684, 'grad_norm': 2.374741554260254, 'learning_rate': 4.165312753858652e-06, 'epoch': 0.77}
+{'loss': 1.9177, 'grad_norm': 2.0409998893737793, 'learning_rate': 4.163281884646629e-06, 'epoch': 0.77}
+{'eval_loss': 2.096895933151245, 'eval_runtime': 37.066, 'eval_samples_per_second': 26.979, 'eval_steps_per_second': 1.133, 'epoch': 0.77}
+{'loss': 1.9071, 'grad_norm': 2.3173422813415527, 'learning_rate': 4.161251015434607e-06, 'epoch': 0.77}
+{'loss': 1.935, 'grad_norm': 2.077842950820923, 'learning_rate': 4.159220146222583e-06, 'epoch': 0.77}
+{'loss': 1.8942, 'grad_norm': 2.0518617630004883, 'learning_rate': 4.157189277010561e-06, 'epoch': 0.77}
+{'loss': 1.917, 'grad_norm': 1.9950882196426392, 'learning_rate': 4.155158407798538e-06, 'epoch': 0.77}
+{'loss': 1.9551, 'grad_norm': 2.3222219944000244, 'learning_rate': 4.153127538586516e-06, 'epoch': 0.77}
+{'loss': 1.9204, 'grad_norm': 2.129333972930908, 'learning_rate': 4.151096669374492e-06, 'epoch': 0.77}
+{'loss': 1.9399, 'grad_norm': 2.0357553958892822, 'learning_rate': 4.1490658001624705e-06, 'epoch': 0.77}
+{'loss': 1.9182, 'grad_norm': 2.233694553375244, 'learning_rate': 4.147034930950447e-06, 'epoch': 0.78}
+{'loss': 1.9157, 'grad_norm': 2.1391239166259766, 'learning_rate': 4.145004061738425e-06, 'epoch': 0.78}
+{'loss': 1.9115, 'grad_norm': 2.162320613861084, 'learning_rate': 4.1429731925264015e-06, 'epoch': 0.78}
+{'eval_loss': 2.0954039096832275, 'eval_runtime': 36.9862, 'eval_samples_per_second': 27.037, 'eval_steps_per_second': 1.136, 'epoch': 0.78}
+{'loss': 1.8428, 'grad_norm': 2.2382194995880127, 'learning_rate': 4.140942323314379e-06, 'epoch': 0.78}
+{'loss': 1.8906, 'grad_norm': 2.3286185264587402, 'learning_rate': 4.138911454102356e-06, 'epoch': 0.78}
+{'loss': 1.9132, 'grad_norm': 2.182708501815796, 'learning_rate': 4.136880584890333e-06, 'epoch': 0.78}
+{'loss': 1.9433, 'grad_norm': 1.9978337287902832, 'learning_rate': 4.1348497156783106e-06, 'epoch': 0.78}
+{'loss': 1.9374, 'grad_norm': 2.3092565536499023, 'learning_rate': 4.132818846466288e-06, 'epoch': 0.78}
+{'loss': 1.9361, 'grad_norm': 2.0351054668426514, 'learning_rate': 4.130787977254265e-06, 'epoch': 0.78}
+{'loss': 1.9553, 'grad_norm': 2.14770770072937, 'learning_rate': 4.128757108042242e-06, 'epoch': 0.79}
+{'loss': 1.9506, 'grad_norm': 2.0613555908203125, 'learning_rate': 4.12672623883022e-06, 'epoch': 0.79}
+{'loss': 2.0079, 'grad_norm': 2.1312081813812256, 'learning_rate': 4.124695369618197e-06, 'epoch': 0.79}
+{'loss': 1.9166, 'grad_norm': 2.088552474975586, 'learning_rate': 4.122664500406174e-06, 'epoch': 0.79}
+{'eval_loss': 2.093032121658325, 'eval_runtime': 36.8821, 'eval_samples_per_second': 27.113, 'eval_steps_per_second': 1.139, 'epoch': 0.79}
+{'loss': 1.9212, 'grad_norm': 2.1748929023742676, 'learning_rate': 4.1206336311941515e-06, 'epoch': 0.79}
+{'loss': 1.9452, 'grad_norm': 2.1492016315460205, 'learning_rate': 4.118602761982129e-06, 'epoch': 0.79}
+{'loss': 1.8821, 'grad_norm': 2.3364970684051514, 'learning_rate': 4.116571892770106e-06, 'epoch': 0.79}
+{'loss': 1.8597, 'grad_norm': 2.318488597869873, 'learning_rate': 4.114541023558083e-06, 'epoch': 0.79}
+{'loss': 1.9843, 'grad_norm': 2.153841257095337, 'learning_rate': 4.112510154346061e-06, 'epoch': 0.79}
+{'loss': 1.9105, 'grad_norm': 2.3464651107788086, 'learning_rate': 4.110479285134038e-06, 'epoch': 0.8}
+{'loss': 1.9285, 'grad_norm': 2.34413743019104, 'learning_rate': 4.108448415922015e-06, 'epoch': 0.8}
+{'loss': 1.9536, 'grad_norm': 2.0822196006774902, 'learning_rate': 4.1064175467099924e-06, 'epoch': 0.8}
+{'loss': 1.9487, 'grad_norm': 2.1978065967559814, 'learning_rate': 4.10438667749797e-06, 'epoch': 0.8}
+{'loss': 1.8113, 'grad_norm': 2.4218783378601074, 'learning_rate': 4.102355808285947e-06, 'epoch': 0.8}
+{'eval_loss': 2.0963101387023926, 'eval_runtime': 36.8853, 'eval_samples_per_second': 27.111, 'eval_steps_per_second': 1.139, 'epoch': 0.8}
+{'loss': 2.0024, 'grad_norm': 2.3887739181518555, 'learning_rate': 4.100324939073924e-06, 'epoch': 0.8}
+{'loss': 1.9092, 'grad_norm': 2.296579360961914, 'learning_rate': 4.0982940698619015e-06, 'epoch': 0.8}
+{'loss': 1.9112, 'grad_norm': 2.3881773948669434, 'learning_rate': 4.096263200649879e-06, 'epoch': 0.8}
+{'loss': 1.9191, 'grad_norm': 2.40120530128479, 'learning_rate': 4.094232331437856e-06, 'epoch': 0.8}
+{'loss': 1.8857, 'grad_norm': 2.184706211090088, 'learning_rate': 4.092201462225833e-06, 'epoch': 0.81}
+{'loss': 1.8889, 'grad_norm': 2.3338732719421387, 'learning_rate': 4.090170593013811e-06, 'epoch': 0.81}
+{'loss': 1.9309, 'grad_norm': 2.4065468311309814, 'learning_rate': 4.088139723801787e-06, 'epoch': 0.81}
+{'loss': 1.8727, 'grad_norm': 2.044992446899414, 'learning_rate': 4.086108854589765e-06, 'epoch': 0.81}
+{'loss': 1.8936, 'grad_norm': 2.23860239982605, 'learning_rate': 4.084077985377742e-06, 'epoch': 0.81}
+{'loss': 1.9035, 'grad_norm': 2.1324410438537598, 'learning_rate': 4.08204711616572e-06, 'epoch': 0.81}
+{'eval_loss': 2.092885732650757, 'eval_runtime': 36.7991, 'eval_samples_per_second': 27.175, 'eval_steps_per_second': 1.141, 'epoch': 0.81}
+{'loss': 1.9747, 'grad_norm': 2.337340831756592, 'learning_rate': 4.080016246953696e-06, 'epoch': 0.81}
+{'loss': 1.8817, 'grad_norm': 2.262801170349121, 'learning_rate': 4.077985377741674e-06, 'epoch': 0.81}
+{'loss': 1.9493, 'grad_norm': 2.0494258403778076, 'learning_rate': 4.075954508529651e-06, 'epoch': 0.81}
+{'loss': 1.9611, 'grad_norm': 2.085829019546509, 'learning_rate': 4.073923639317629e-06, 'epoch': 0.82}
+{'loss': 1.9779, 'grad_norm': 2.105806827545166, 'learning_rate': 4.071892770105605e-06, 'epoch': 0.82}
+{'loss': 1.9009, 'grad_norm': 2.2664732933044434, 'learning_rate': 4.069861900893583e-06, 'epoch': 0.82}
+{'loss': 1.8585, 'grad_norm': 1.9899768829345703, 'learning_rate': 4.06783103168156e-06, 'epoch': 0.82}
+{'loss': 1.8904, 'grad_norm': 2.242236614227295, 'learning_rate': 4.065800162469538e-06, 'epoch': 0.82}
+{'loss': 1.8922, 'grad_norm': 2.4481139183044434, 'learning_rate': 4.063769293257514e-06, 'epoch': 0.82}
+{'loss': 1.9292, 'grad_norm': 2.231722354888916, 'learning_rate': 4.061738424045492e-06, 'epoch': 0.82}
+{'eval_loss': 2.0909852981567383, 'eval_runtime': 36.8255, 'eval_samples_per_second': 27.155, 'eval_steps_per_second': 1.141, 'epoch': 0.82}
+{'loss': 1.9053, 'grad_norm': 2.323070764541626, 'learning_rate': 4.059707554833469e-06, 'epoch': 0.82}
+{'loss': 1.9272, 'grad_norm': 2.137535572052002, 'learning_rate': 4.057676685621446e-06, 'epoch': 0.82}
+{'loss': 1.9541, 'grad_norm': 2.2087643146514893, 'learning_rate': 4.0556458164094235e-06, 'epoch': 0.83}
+{'loss': 1.922, 'grad_norm': 2.04811692237854, 'learning_rate': 4.053614947197401e-06, 'epoch': 0.83}
+{'loss': 1.8388, 'grad_norm': 2.062622308731079, 'learning_rate': 4.051584077985378e-06, 'epoch': 0.83}
+{'loss': 1.9153, 'grad_norm': 2.14631986618042, 'learning_rate': 4.049553208773355e-06, 'epoch': 0.83}
+{'loss': 1.9623, 'grad_norm': 2.353529214859009, 'learning_rate': 4.047522339561333e-06, 'epoch': 0.83}
+{'loss': 1.9095, 'grad_norm': 2.122342348098755, 'learning_rate': 4.04549147034931e-06, 'epoch': 0.83}
+{'loss': 1.9068, 'grad_norm': 2.2540230751037598, 'learning_rate': 4.043460601137287e-06, 'epoch': 0.83}
+{'loss': 2.0239, 'grad_norm': 2.164384365081787, 'learning_rate': 4.041429731925264e-06, 'epoch': 0.83}
+{'eval_loss': 2.0904648303985596, 'eval_runtime': 36.7617, 'eval_samples_per_second': 27.202, 'eval_steps_per_second': 1.142, 'epoch': 0.83}
+{'loss': 1.9109, 'grad_norm': 2.2487905025482178, 'learning_rate': 4.039398862713242e-06, 'epoch': 0.83}
+{'loss': 1.9133, 'grad_norm': 2.0947930812835693, 'learning_rate': 4.037367993501219e-06, 'epoch': 0.84}
+{'loss': 1.9821, 'grad_norm': 2.2259862422943115, 'learning_rate': 4.035337124289196e-06, 'epoch': 0.84}
+{'loss': 1.9037, 'grad_norm': 2.0616455078125, 'learning_rate': 4.0333062550771735e-06, 'epoch': 0.84}
+{'loss': 1.8664, 'grad_norm': 2.2704474925994873, 'learning_rate': 4.031275385865151e-06, 'epoch': 0.84}
+{'loss': 1.908, 'grad_norm': 2.0059332847595215, 'learning_rate': 4.029244516653128e-06, 'epoch': 0.84}
+{'loss': 1.9397, 'grad_norm': 2.0462095737457275, 'learning_rate': 4.027213647441105e-06, 'epoch': 0.84}
+{'loss': 1.8505, 'grad_norm': 2.150207996368408, 'learning_rate': 4.025182778229083e-06, 'epoch': 0.84}
+{'loss': 1.8895, 'grad_norm': 2.174863815307617, 'learning_rate': 4.02315190901706e-06, 'epoch': 0.84}
+{'loss': 1.9156, 'grad_norm': 2.1907355785369873, 'learning_rate': 4.021121039805037e-06, 'epoch': 0.84}
+{'eval_loss': 2.0900955200195312, 'eval_runtime': 36.8004, 'eval_samples_per_second': 27.174, 'eval_steps_per_second': 1.141, 'epoch': 0.84}
+{'loss': 1.9115, 'grad_norm': 2.2831835746765137, 'learning_rate': 4.0190901705930144e-06, 'epoch': 0.84}
+{'loss': 2.0047, 'grad_norm': 2.039520263671875, 'learning_rate': 4.017059301380992e-06, 'epoch': 0.85}
+{'loss': 1.8845, 'grad_norm': 2.147209405899048, 'learning_rate': 4.015028432168969e-06, 'epoch': 0.85}
+{'loss': 1.9606, 'grad_norm': 2.168997287750244, 'learning_rate': 4.012997562956945e-06, 'epoch': 0.85}
+{'loss': 1.8734, 'grad_norm': 2.038966417312622, 'learning_rate': 4.0109666937449235e-06, 'epoch': 0.85}
+{'loss': 1.889, 'grad_norm': 2.0531768798828125, 'learning_rate': 4.0089358245329e-06, 'epoch': 0.85}
+{'loss': 1.8972, 'grad_norm': 2.348008155822754, 'learning_rate': 4.006904955320878e-06, 'epoch': 0.85}
+{'loss': 1.8652, 'grad_norm': 2.1647253036499023, 'learning_rate': 4.0048740861088545e-06, 'epoch': 0.85}
+{'loss': 1.9495, 'grad_norm': 2.1971640586853027, 'learning_rate': 4.002843216896833e-06, 'epoch': 0.85}
+{'loss': 1.9307, 'grad_norm': 2.169632911682129, 'learning_rate': 4.000812347684809e-06, 'epoch': 0.85}
+{'eval_loss': 2.087860107421875, 'eval_runtime': 36.7982, 'eval_samples_per_second': 27.175, 'eval_steps_per_second': 1.141, 'epoch': 0.85}
+{'loss': 1.8849, 'grad_norm': 2.4424400329589844, 'learning_rate': 3.998781478472787e-06, 'epoch': 0.86}
+{'loss': 1.8975, 'grad_norm': 2.2226672172546387, 'learning_rate': 3.996750609260764e-06, 'epoch': 0.86}
+{'loss': 1.8751, 'grad_norm': 2.1898491382598877, 'learning_rate': 3.994719740048742e-06, 'epoch': 0.86}
+{'loss': 2.0155, 'grad_norm': 2.466963052749634, 'learning_rate': 3.992688870836718e-06, 'epoch': 0.86}
+{'loss': 1.9133, 'grad_norm': 2.184039831161499, 'learning_rate': 3.990658001624696e-06, 'epoch': 0.86}
+{'loss': 1.8707, 'grad_norm': 2.089228868484497, 'learning_rate': 3.988627132412673e-06, 'epoch': 0.86}
+{'loss': 1.9487, 'grad_norm': 2.0700666904449463, 'learning_rate': 3.98659626320065e-06, 'epoch': 0.86}
+{'loss': 1.9037, 'grad_norm': 2.1495554447174072, 'learning_rate': 3.984565393988627e-06, 'epoch': 0.86}
+{'loss': 1.9096, 'grad_norm': 2.0916988849639893, 'learning_rate': 3.9825345247766046e-06, 'epoch': 0.86}
+{'loss': 1.9139, 'grad_norm': 2.072387933731079, 'learning_rate': 3.980503655564582e-06, 'epoch': 0.87}
+{'eval_loss': 2.0876142978668213, 'eval_runtime': 37.1068, 'eval_samples_per_second': 26.949, 'eval_steps_per_second': 1.132, 'epoch': 0.87}
+{'loss': 1.9331, 'grad_norm': 2.1206343173980713, 'learning_rate': 3.978472786352559e-06, 'epoch': 0.87}
+{'loss': 1.9297, 'grad_norm': 2.20263934135437, 'learning_rate': 3.976441917140536e-06, 'epoch': 0.87}
+{'loss': 1.919, 'grad_norm': 2.027554750442505, 'learning_rate': 3.974411047928514e-06, 'epoch': 0.87}
+{'loss': 1.9682, 'grad_norm': 2.0291616916656494, 'learning_rate': 3.972380178716491e-06, 'epoch': 0.87}
+{'loss': 1.9407, 'grad_norm': 2.2719762325286865, 'learning_rate': 3.970349309504468e-06, 'epoch': 0.87}
+{'loss': 1.9487, 'grad_norm': 2.0452375411987305, 'learning_rate': 3.9683184402924455e-06, 'epoch': 0.87}
+{'loss': 1.8651, 'grad_norm': 2.170441150665283, 'learning_rate': 3.966287571080423e-06, 'epoch': 0.87}
+{'loss': 1.8599, 'grad_norm': 2.3370516300201416, 'learning_rate': 3.9642567018684e-06, 'epoch': 0.87}
+{'loss': 1.9304, 'grad_norm': 2.336737632751465, 'learning_rate': 3.962225832656377e-06, 'epoch': 0.88}
+{'loss': 1.9125, 'grad_norm': 1.9708369970321655, 'learning_rate': 3.960194963444355e-06, 'epoch': 0.88}
+{'eval_loss': 2.0812273025512695, 'eval_runtime': 37.0752, 'eval_samples_per_second': 26.972, 'eval_steps_per_second': 1.133, 'epoch': 0.88}
+{'loss': 1.8304, 'grad_norm': 2.154219627380371, 'learning_rate': 3.958164094232332e-06, 'epoch': 0.88}
+{'loss': 1.9147, 'grad_norm': 2.237786054611206, 'learning_rate': 3.956133225020309e-06, 'epoch': 0.88}
+{'loss': 1.9128, 'grad_norm': 2.07143235206604, 'learning_rate': 3.954102355808286e-06, 'epoch': 0.88}
+{'loss': 1.9145, 'grad_norm': 2.2780392169952393, 'learning_rate': 3.952071486596264e-06, 'epoch': 0.88}
+{'loss': 1.9049, 'grad_norm': 2.2396292686462402, 'learning_rate': 3.950040617384241e-06, 'epoch': 0.88}
+{'loss': 1.8984, 'grad_norm': 2.426511287689209, 'learning_rate': 3.948009748172218e-06, 'epoch': 0.88}
+{'loss': 1.8888, 'grad_norm': 2.1874325275421143, 'learning_rate': 3.9459788789601955e-06, 'epoch': 0.88}
+{'loss': 1.9582, 'grad_norm': 2.038098096847534, 'learning_rate': 3.943948009748173e-06, 'epoch': 0.89}
+{'loss': 1.9091, 'grad_norm': 2.3748130798339844, 'learning_rate': 3.94191714053615e-06, 'epoch': 0.89}
+{'loss': 1.9067, 'grad_norm': 2.2457494735717773, 'learning_rate': 3.939886271324127e-06, 'epoch': 0.89}
+{'eval_loss': 2.0766079425811768, 'eval_runtime': 36.9896, 'eval_samples_per_second': 27.035, 'eval_steps_per_second': 1.135, 'epoch': 0.89}
+{'loss': 1.9347, 'grad_norm': 2.156644821166992, 'learning_rate': 3.937855402112104e-06, 'epoch': 0.89}
+{'loss': 1.8645, 'grad_norm': 2.3991472721099854, 'learning_rate': 3.935824532900082e-06, 'epoch': 0.89}
+{'loss': 1.8537, 'grad_norm': 2.252729654312134, 'learning_rate': 3.933793663688058e-06, 'epoch': 0.89}
+{'loss': 1.9271, 'grad_norm': 2.2917964458465576, 'learning_rate': 3.9317627944760365e-06, 'epoch': 0.89}
+{'loss': 1.9406, 'grad_norm': 2.217310667037964, 'learning_rate': 3.929731925264013e-06, 'epoch': 0.89}
+{'loss': 1.8554, 'grad_norm': 2.167931079864502, 'learning_rate': 3.927701056051991e-06, 'epoch': 0.89}
+{'loss': 1.8795, 'grad_norm': 2.18337082862854, 'learning_rate': 3.9256701868399674e-06, 'epoch': 0.9}
+{'loss': 1.8831, 'grad_norm': 2.2348973751068115, 'learning_rate': 3.9236393176279456e-06, 'epoch': 0.9}
+{'loss': 1.8728, 'grad_norm': 2.1822657585144043, 'learning_rate': 3.921608448415922e-06, 'epoch': 0.9}
+{'loss': 1.8633, 'grad_norm': 2.5253243446350098, 'learning_rate': 3.9195775792039e-06, 'epoch': 0.9}
+{'eval_loss': 2.0769834518432617, 'eval_runtime': 36.838, 'eval_samples_per_second': 27.146, 'eval_steps_per_second': 1.14, 'epoch': 0.9}
+{'loss': 1.912, 'grad_norm': 2.2109973430633545, 'learning_rate': 3.9175467099918765e-06, 'epoch': 0.9}
+{'loss': 1.8928, 'grad_norm': 2.053692102432251, 'learning_rate': 3.915515840779855e-06, 'epoch': 0.9}
+{'loss': 1.9399, 'grad_norm': 2.1418213844299316, 'learning_rate': 3.913484971567831e-06, 'epoch': 0.9}
+{'loss': 1.9293, 'grad_norm': 2.3615458011627197, 'learning_rate': 3.911454102355808e-06, 'epoch': 0.9}
+{'loss': 1.8301, 'grad_norm': 2.098254680633545, 'learning_rate': 3.909423233143786e-06, 'epoch': 0.9}
+{'loss': 1.9254, 'grad_norm': 2.4473679065704346, 'learning_rate': 3.907392363931763e-06, 'epoch': 0.91}
+{'loss': 1.9155, 'grad_norm': 2.252843141555786, 'learning_rate': 3.90536149471974e-06, 'epoch': 0.91}
+{'loss': 1.9809, 'grad_norm': 2.1574337482452393, 'learning_rate': 3.9033306255077175e-06, 'epoch': 0.91}
+{'loss': 2.0045, 'grad_norm': 2.2899720668792725, 'learning_rate': 3.901299756295695e-06, 'epoch': 0.91}
+{'loss': 2.026, 'grad_norm': 2.227285146713257, 'learning_rate': 3.899268887083672e-06, 'epoch': 0.91}
+{'eval_loss': 2.0764760971069336, 'eval_runtime': 36.9195, 'eval_samples_per_second': 27.086, 'eval_steps_per_second': 1.138, 'epoch': 0.91}
+{'loss': 1.8922, 'grad_norm': 2.1935312747955322, 'learning_rate': 3.897238017871649e-06, 'epoch': 0.91}
+{'loss': 1.8981, 'grad_norm': 2.129692316055298, 'learning_rate': 3.8952071486596266e-06, 'epoch': 0.91}
+{'loss': 1.91, 'grad_norm': 2.4435646533966064, 'learning_rate': 3.893176279447604e-06, 'epoch': 0.91}
+{'loss': 1.8688, 'grad_norm': 2.1556732654571533, 'learning_rate': 3.891145410235581e-06, 'epoch': 0.91}
+{'loss': 1.9777, 'grad_norm': 2.175891160964966, 'learning_rate': 3.889114541023558e-06, 'epoch': 0.92}
+{'loss': 1.9152, 'grad_norm': 2.220466375350952, 'learning_rate': 3.887083671811536e-06, 'epoch': 0.92}
+{'loss': 1.892, 'grad_norm': 2.331397294998169, 'learning_rate': 3.885052802599513e-06, 'epoch': 0.92}
+{'loss': 1.841, 'grad_norm': 2.2434773445129395, 'learning_rate': 3.88302193338749e-06, 'epoch': 0.92}
+{'loss': 1.9657, 'grad_norm': 2.3248002529144287, 'learning_rate': 3.8809910641754675e-06, 'epoch': 0.92}
+{'loss': 1.9121, 'grad_norm': 2.090252637863159, 'learning_rate': 3.878960194963445e-06, 'epoch': 0.92}
+{'eval_loss': 2.0798065662384033, 'eval_runtime': 36.8557, 'eval_samples_per_second': 27.133, 'eval_steps_per_second': 1.14, 'epoch': 0.92}
+{'loss': 1.9003, 'grad_norm': 2.6968672275543213, 'learning_rate': 3.876929325751422e-06, 'epoch': 0.92}
+{'loss': 1.9471, 'grad_norm': 2.356321096420288, 'learning_rate': 3.874898456539399e-06, 'epoch': 0.92}
+{'loss': 1.8488, 'grad_norm': 2.2678606510162354, 'learning_rate': 3.872867587327377e-06, 'epoch': 0.92}
+{'loss': 1.9247, 'grad_norm': 2.1122310161590576, 'learning_rate': 3.870836718115354e-06, 'epoch': 0.92}
+{'loss': 1.8829, 'grad_norm': 2.1219136714935303, 'learning_rate': 3.868805848903331e-06, 'epoch': 0.93}
+{'loss': 1.887, 'grad_norm': 2.175607204437256, 'learning_rate': 3.8667749796913084e-06, 'epoch': 0.93}
+{'loss': 1.9119, 'grad_norm': 2.156214714050293, 'learning_rate': 3.864744110479286e-06, 'epoch': 0.93}
+{'loss': 1.9092, 'grad_norm': 2.158461570739746, 'learning_rate': 3.862713241267262e-06, 'epoch': 0.93}
+{'loss': 1.946, 'grad_norm': 2.180551767349243, 'learning_rate': 3.86068237205524e-06, 'epoch': 0.93}
+{'loss': 1.9484, 'grad_norm': 2.1030542850494385, 'learning_rate': 3.858651502843217e-06, 'epoch': 0.93}
+{'eval_loss': 2.0767791271209717, 'eval_runtime': 36.8047, 'eval_samples_per_second': 27.17, 'eval_steps_per_second': 1.141, 'epoch': 0.93}
+{'loss': 1.9114, 'grad_norm': 2.240769386291504, 'learning_rate': 3.856620633631195e-06, 'epoch': 0.93}
+{'loss': 1.8339, 'grad_norm': 2.1964619159698486, 'learning_rate': 3.854589764419171e-06, 'epoch': 0.93}
+{'loss': 1.8942, 'grad_norm': 2.2875845432281494, 'learning_rate': 3.852558895207149e-06, 'epoch': 0.93}
+{'loss': 1.9838, 'grad_norm': 2.1462507247924805, 'learning_rate': 3.850528025995126e-06, 'epoch': 0.94}
+{'loss': 1.9351, 'grad_norm': 2.0982913970947266, 'learning_rate': 3.848497156783104e-06, 'epoch': 0.94}
+{'loss': 1.8745, 'grad_norm': 2.260263442993164, 'learning_rate': 3.84646628757108e-06, 'epoch': 0.94}
+{'loss': 1.8888, 'grad_norm': 2.091778039932251, 'learning_rate': 3.8444354183590585e-06, 'epoch': 0.94}
+{'loss': 1.8801, 'grad_norm': 2.054974317550659, 'learning_rate': 3.842404549147035e-06, 'epoch': 0.94}
+{'loss': 1.8879, 'grad_norm': 2.079641580581665, 'learning_rate': 3.840373679935013e-06, 'epoch': 0.94}
+{'loss': 1.8571, 'grad_norm': 2.3441810607910156, 'learning_rate': 3.8383428107229894e-06, 'epoch': 0.94}
+{'eval_loss': 2.0766854286193848, 'eval_runtime': 36.8414, 'eval_samples_per_second': 27.143, 'eval_steps_per_second': 1.14, 'epoch': 0.94}
+{'loss': 1.8922, 'grad_norm': 2.123061180114746, 'learning_rate': 3.836311941510967e-06, 'epoch': 0.94}
+{'loss': 1.8713, 'grad_norm': 2.1573386192321777, 'learning_rate': 3.834281072298944e-06, 'epoch': 0.94}
+{'loss': 1.925, 'grad_norm': 2.225186824798584, 'learning_rate': 3.832250203086921e-06, 'epoch': 0.95}
+{'loss': 1.8721, 'grad_norm': 2.1539998054504395, 'learning_rate': 3.8302193338748985e-06, 'epoch': 0.95}
+{'loss': 1.9489, 'grad_norm': 2.075580358505249, 'learning_rate': 3.828188464662876e-06, 'epoch': 0.95}
+{'loss': 1.9883, 'grad_norm': 2.1789908409118652, 'learning_rate': 3.826157595450853e-06, 'epoch': 0.95}
+{'loss': 1.9149, 'grad_norm': 2.0838615894317627, 'learning_rate': 3.82412672623883e-06, 'epoch': 0.95}
+{'loss': 1.8505, 'grad_norm': 2.1321213245391846, 'learning_rate': 3.822095857026808e-06, 'epoch': 0.95}
+{'loss': 1.9226, 'grad_norm': 2.1419479846954346, 'learning_rate': 3.820064987814785e-06, 'epoch': 0.95}
+{'loss': 1.8737, 'grad_norm': 2.290163040161133, 'learning_rate': 3.818034118602762e-06, 'epoch': 0.95}
+{'eval_loss': 2.073598623275757, 'eval_runtime': 36.7896, 'eval_samples_per_second': 27.182, 'eval_steps_per_second': 1.142, 'epoch': 0.95}
+{'loss': 1.8699, 'grad_norm': 2.1951074600219727, 'learning_rate': 3.8160032493907395e-06, 'epoch': 0.95}
+{'loss': 1.8813, 'grad_norm': 2.25960111618042, 'learning_rate': 3.813972380178717e-06, 'epoch': 0.96}
+{'loss': 1.8782, 'grad_norm': 2.4376907348632812, 'learning_rate': 3.811941510966694e-06, 'epoch': 0.96}
+{'loss': 1.9205, 'grad_norm': 1.980772614479065, 'learning_rate': 3.809910641754671e-06, 'epoch': 0.96}
+{'loss': 1.8674, 'grad_norm': 2.0699028968811035, 'learning_rate': 3.8078797725426486e-06, 'epoch': 0.96}
+{'loss': 1.81, 'grad_norm': 2.2765867710113525, 'learning_rate': 3.8058489033306254e-06, 'epoch': 0.96}
+{'loss': 1.9061, 'grad_norm': 2.0998799800872803, 'learning_rate': 3.803818034118603e-06, 'epoch': 0.96}
+{'loss': 1.8798, 'grad_norm': 2.2362914085388184, 'learning_rate': 3.80178716490658e-06, 'epoch': 0.96}
+{'loss': 1.9491, 'grad_norm': 2.0789835453033447, 'learning_rate': 3.7997562956945577e-06, 'epoch': 0.96}
+{'loss': 1.931, 'grad_norm': 2.0458688735961914, 'learning_rate': 3.7977254264825345e-06, 'epoch': 0.96}
+{'eval_loss': 2.0672221183776855, 'eval_runtime': 36.8218, 'eval_samples_per_second': 27.158, 'eval_steps_per_second': 1.141, 'epoch': 0.96}
+{'loss': 1.8815, 'grad_norm': 2.361626625061035, 'learning_rate': 3.7956945572705122e-06, 'epoch': 0.97}
+{'loss': 1.8649, 'grad_norm': 2.294160842895508, 'learning_rate': 3.793663688058489e-06, 'epoch': 0.97}
+{'loss': 1.9535, 'grad_norm': 2.2242612838745117, 'learning_rate': 3.791632818846467e-06, 'epoch': 0.97}
+{'loss': 1.9506, 'grad_norm': 2.220269203186035, 'learning_rate': 3.7896019496344436e-06, 'epoch': 0.97}
+{'loss': 1.9487, 'grad_norm': 2.112518072128296, 'learning_rate': 3.787571080422421e-06, 'epoch': 0.97}
+{'loss': 1.9467, 'grad_norm': 2.17695951461792, 'learning_rate': 3.785540211210398e-06, 'epoch': 0.97}
+{'loss': 1.9216, 'grad_norm': 2.0990567207336426, 'learning_rate': 3.7835093419983755e-06, 'epoch': 0.97}
+{'loss': 1.9043, 'grad_norm': 2.222566604614258, 'learning_rate': 3.7814784727863527e-06, 'epoch': 0.97}
+{'loss': 1.884, 'grad_norm': 2.09890079498291, 'learning_rate': 3.77944760357433e-06, 'epoch': 0.97}
+{'loss': 2.0032, 'grad_norm': 2.136141061782837, 'learning_rate': 3.7774167343623073e-06, 'epoch': 0.98}
+{'eval_loss': 2.0665438175201416, 'eval_runtime': 37.1207, 'eval_samples_per_second': 26.939, 'eval_steps_per_second': 1.131, 'epoch': 0.98}
+{'loss': 1.947, 'grad_norm': 2.267444372177124, 'learning_rate': 3.7753858651502846e-06, 'epoch': 0.98}
+{'loss': 1.8705, 'grad_norm': 2.1141815185546875, 'learning_rate': 3.773354995938262e-06, 'epoch': 0.98}
+{'loss': 1.9381, 'grad_norm': 2.1036782264709473, 'learning_rate': 3.771324126726239e-06, 'epoch': 0.98}
+{'loss': 1.9079, 'grad_norm': 2.081982135772705, 'learning_rate': 3.7692932575142164e-06, 'epoch': 0.98}
+{'loss': 1.9417, 'grad_norm': 2.0815446376800537, 'learning_rate': 3.7672623883021937e-06, 'epoch': 0.98}
+{'loss': 1.876, 'grad_norm': 2.0531511306762695, 'learning_rate': 3.765231519090171e-06, 'epoch': 0.98}
+{'loss': 1.8008, 'grad_norm': 2.212940216064453, 'learning_rate': 3.7632006498781482e-06, 'epoch': 0.98}
+{'loss': 1.9039, 'grad_norm': 2.1541531085968018, 'learning_rate': 3.761169780666125e-06, 'epoch': 0.98}
+{'loss': 1.8562, 'grad_norm': 2.113884925842285, 'learning_rate': 3.7591389114541028e-06, 'epoch': 0.99}
+{'loss': 1.9052, 'grad_norm': 2.1503701210021973, 'learning_rate': 3.7571080422420796e-06, 'epoch': 0.99}
+{'eval_loss': 2.0664408206939697, 'eval_runtime': 37.0876, 'eval_samples_per_second': 26.963, 'eval_steps_per_second': 1.132, 'epoch': 0.99}
+{'loss': 1.9296, 'grad_norm': 2.1584348678588867, 'learning_rate': 3.7550771730300573e-06, 'epoch': 0.99}
+{'loss': 1.8834, 'grad_norm': 2.164318084716797, 'learning_rate': 3.753046303818034e-06, 'epoch': 0.99}
+{'loss': 1.9426, 'grad_norm': 2.0222678184509277, 'learning_rate': 3.751015434606012e-06, 'epoch': 0.99}
+{'loss': 1.9195, 'grad_norm': 2.116835832595825, 'learning_rate': 3.7489845653939887e-06, 'epoch': 0.99}
+{'loss': 1.9631, 'grad_norm': 2.2708873748779297, 'learning_rate': 3.7469536961819664e-06, 'epoch': 0.99}
+{'loss': 1.8602, 'grad_norm': 2.1174001693725586, 'learning_rate': 3.7449228269699433e-06, 'epoch': 0.99}
+{'loss': 1.8906, 'grad_norm': 2.091830015182495, 'learning_rate': 3.742891957757921e-06, 'epoch': 0.99}
+{'loss': 1.9122, 'grad_norm': 2.007119655609131, 'learning_rate': 3.740861088545898e-06, 'epoch': 1.0}
+{'loss': 1.9106, 'grad_norm': 2.070396661758423, 'learning_rate': 3.7388302193338755e-06, 'epoch': 1.0}
+{'loss': 1.934, 'grad_norm': 2.080331325531006, 'learning_rate': 3.7367993501218524e-06, 'epoch': 1.0}
+{'eval_loss': 2.0694408416748047, 'eval_runtime': 36.9953, 'eval_samples_per_second': 27.03, 'eval_steps_per_second': 1.135, 'epoch': 1.0}
+{'loss': 1.8679, 'grad_norm': 2.0920615196228027, 'learning_rate': 3.7347684809098297e-06, 'epoch': 1.0}
+{'loss': 1.8723, 'grad_norm': 2.112732172012329, 'learning_rate': 3.732737611697807e-06, 'epoch': 1.0}
+{'loss': 1.8509, 'grad_norm': 2.1449220180511475, 'learning_rate': 3.7307067424857842e-06, 'epoch': 1.0}
+{'loss': 1.7911, 'grad_norm': 2.2179951667785645, 'learning_rate': 3.7286758732737615e-06, 'epoch': 1.0}
+{'loss': 1.8475, 'grad_norm': 2.1392273902893066, 'learning_rate': 3.7266450040617388e-06, 'epoch': 1.0}
+{'loss': 1.8394, 'grad_norm': 2.190265417098999, 'learning_rate': 3.724614134849716e-06, 'epoch': 1.0}
+{'loss': 1.9696, 'grad_norm': 2.1833760738372803, 'learning_rate': 3.7225832656376933e-06, 'epoch': 1.0}
+{'loss': 1.8135, 'grad_norm': 2.2504308223724365, 'learning_rate': 3.7205523964256706e-06, 'epoch': 1.01}
+{'loss': 1.9331, 'grad_norm': 2.3909389972686768, 'learning_rate': 3.718521527213648e-06, 'epoch': 1.01}
+{'loss': 1.9026, 'grad_norm': 2.3367602825164795, 'learning_rate': 3.716490658001625e-06, 'epoch': 1.01}
+{'eval_loss': 2.066087484359741, 'eval_runtime': 36.8701, 'eval_samples_per_second': 27.122, 'eval_steps_per_second': 1.139, 'epoch': 1.01}
+{'loss': 1.8888, 'grad_norm': 2.1732144355773926, 'learning_rate': 3.7144597887896024e-06, 'epoch': 1.01}
+{'loss': 1.7725, 'grad_norm': 2.4632201194763184, 'learning_rate': 3.7124289195775797e-06, 'epoch': 1.01}
+{'loss': 1.9125, 'grad_norm': 2.4887173175811768, 'learning_rate': 3.710398050365557e-06, 'epoch': 1.01}
+{'loss': 1.8829, 'grad_norm': 2.4684619903564453, 'learning_rate': 3.708367181153534e-06, 'epoch': 1.01}
+{'loss': 1.8542, 'grad_norm': 2.348788022994995, 'learning_rate': 3.7063363119415115e-06, 'epoch': 1.01}
+{'loss': 1.903, 'grad_norm': 2.4432766437530518, 'learning_rate': 3.7043054427294884e-06, 'epoch': 1.01}
+{'loss': 1.8532, 'grad_norm': 2.425910234451294, 'learning_rate': 3.702274573517466e-06, 'epoch': 1.02}
+{'loss': 1.8277, 'grad_norm': 2.447777032852173, 'learning_rate': 3.700243704305443e-06, 'epoch': 1.02}
+{'loss': 1.8546, 'grad_norm': 2.1830408573150635, 'learning_rate': 3.6982128350934206e-06, 'epoch': 1.02}
+{'loss': 1.8356, 'grad_norm': 2.2692818641662598, 'learning_rate': 3.6961819658813975e-06, 'epoch': 1.02}
+{'eval_loss': 2.0714614391326904, 'eval_runtime': 36.8661, 'eval_samples_per_second': 27.125, 'eval_steps_per_second': 1.139, 'epoch': 1.02}
+{'loss': 1.8173, 'grad_norm': 2.5044169425964355, 'learning_rate': 3.694151096669375e-06, 'epoch': 1.02}
+{'loss': 1.9418, 'grad_norm': 2.419637680053711, 'learning_rate': 3.692120227457352e-06, 'epoch': 1.02}
+{'loss': 1.8698, 'grad_norm': 2.282288074493408, 'learning_rate': 3.6900893582453297e-06, 'epoch': 1.02}
+{'loss': 1.8935, 'grad_norm': 2.3215551376342773, 'learning_rate': 3.6880584890333066e-06, 'epoch': 1.02}
+{'loss': 1.79, 'grad_norm': 2.5938258171081543, 'learning_rate': 3.6860276198212834e-06, 'epoch': 1.02}
+{'loss': 1.8768, 'grad_norm': 2.215024471282959, 'learning_rate': 3.683996750609261e-06, 'epoch': 1.03}
+{'loss': 1.8887, 'grad_norm': 2.239609956741333, 'learning_rate': 3.681965881397238e-06, 'epoch': 1.03}
+{'loss': 1.8897, 'grad_norm': 2.3134827613830566, 'learning_rate': 3.6799350121852157e-06, 'epoch': 1.03}
+{'loss': 1.909, 'grad_norm': 2.4100260734558105, 'learning_rate': 3.6779041429731925e-06, 'epoch': 1.03}
+{'loss': 1.8514, 'grad_norm': 2.26204776763916, 'learning_rate': 3.6758732737611702e-06, 'epoch': 1.03}
+{'eval_loss': 2.0666027069091797, 'eval_runtime': 36.8336, 'eval_samples_per_second': 27.149, 'eval_steps_per_second': 1.14, 'epoch': 1.03}
+{'loss': 1.8743, 'grad_norm': 2.22210955619812, 'learning_rate': 3.673842404549147e-06, 'epoch': 1.03}
+{'loss': 1.8573, 'grad_norm': 2.2371468544006348, 'learning_rate': 3.671811535337125e-06, 'epoch': 1.03}
+{'loss': 1.8614, 'grad_norm': 2.346745014190674, 'learning_rate': 3.6697806661251016e-06, 'epoch': 1.03}
+{'loss': 1.8654, 'grad_norm': 2.4765074253082275, 'learning_rate': 3.6677497969130793e-06, 'epoch': 1.03}
+{'loss': 1.9901, 'grad_norm': 2.3023204803466797, 'learning_rate': 3.665718927701056e-06, 'epoch': 1.04}
+{'loss': 1.8775, 'grad_norm': 2.322421073913574, 'learning_rate': 3.663688058489034e-06, 'epoch': 1.04}
+{'loss': 1.9303, 'grad_norm': 2.2324275970458984, 'learning_rate': 3.6616571892770107e-06, 'epoch': 1.04}
+{'loss': 1.8673, 'grad_norm': 2.372067928314209, 'learning_rate': 3.659626320064988e-06, 'epoch': 1.04}
+{'loss': 1.8025, 'grad_norm': 2.2404983043670654, 'learning_rate': 3.6575954508529653e-06, 'epoch': 1.04}
+{'loss': 1.8563, 'grad_norm': 2.180673599243164, 'learning_rate': 3.6555645816409426e-06, 'epoch': 1.04}
+{'eval_loss': 2.061262845993042, 'eval_runtime': 36.7727, 'eval_samples_per_second': 27.194, 'eval_steps_per_second': 1.142, 'epoch': 1.04}
+{'loss': 1.8453, 'grad_norm': 2.299043893814087, 'learning_rate': 3.65353371242892e-06, 'epoch': 1.04}
+{'loss': 1.8901, 'grad_norm': 2.4878089427948, 'learning_rate': 3.651502843216897e-06, 'epoch': 1.04}
+{'loss': 1.7371, 'grad_norm': 2.150404930114746, 'learning_rate': 3.6494719740048744e-06, 'epoch': 1.04}
+{'loss': 1.8814, 'grad_norm': 2.177750587463379, 'learning_rate': 3.6474411047928517e-06, 'epoch': 1.05}
+{'loss': 1.8323, 'grad_norm': 2.230797052383423, 'learning_rate': 3.645410235580829e-06, 'epoch': 1.05}
+{'loss': 1.8749, 'grad_norm': 2.2484378814697266, 'learning_rate': 3.6433793663688062e-06, 'epoch': 1.05}
+{'loss': 1.8518, 'grad_norm': 2.201279640197754, 'learning_rate': 3.6413484971567835e-06, 'epoch': 1.05}
+{'loss': 1.846, 'grad_norm': 2.1125736236572266, 'learning_rate': 3.6393176279447608e-06, 'epoch': 1.05}
+{'loss': 1.8791, 'grad_norm': 2.3078789710998535, 'learning_rate': 3.637286758732738e-06, 'epoch': 1.05}
+{'loss': 1.8901, 'grad_norm': 2.2911148071289062, 'learning_rate': 3.6352558895207153e-06, 'epoch': 1.05}
+{'eval_loss': 2.0583066940307617, 'eval_runtime': 36.7535, 'eval_samples_per_second': 27.208, 'eval_steps_per_second': 1.143, 'epoch': 1.05}
+{'loss': 1.9071, 'grad_norm': 2.3990273475646973, 'learning_rate': 3.633225020308692e-06, 'epoch': 1.05}
+{'loss': 1.8982, 'grad_norm': 2.358685255050659, 'learning_rate': 3.63119415109667e-06, 'epoch': 1.05}
+{'loss': 1.8649, 'grad_norm': 2.1145992279052734, 'learning_rate': 3.6291632818846467e-06, 'epoch': 1.06}
+{'loss': 1.8911, 'grad_norm': 2.2302935123443604, 'learning_rate': 3.6271324126726244e-06, 'epoch': 1.06}
+{'loss': 1.8, 'grad_norm': 2.344797372817993, 'learning_rate': 3.6251015434606013e-06, 'epoch': 1.06}
+{'loss': 1.8128, 'grad_norm': 2.2514073848724365, 'learning_rate': 3.623070674248579e-06, 'epoch': 1.06}
+{'loss': 1.8504, 'grad_norm': 2.541221857070923, 'learning_rate': 3.621039805036556e-06, 'epoch': 1.06}
+{'loss': 1.8329, 'grad_norm': 2.3211770057678223, 'learning_rate': 3.6190089358245335e-06, 'epoch': 1.06}
+{'loss': 1.8972, 'grad_norm': 2.1008756160736084, 'learning_rate': 3.6169780666125104e-06, 'epoch': 1.06}
+{'loss': 1.8748, 'grad_norm': 2.4148898124694824, 'learning_rate': 3.614947197400488e-06, 'epoch': 1.06}
+{'eval_loss': 2.0592916011810303, 'eval_runtime': 36.7663, 'eval_samples_per_second': 27.199, 'eval_steps_per_second': 1.142, 'epoch': 1.06}
+{'loss': 1.8915, 'grad_norm': 2.4116220474243164, 'learning_rate': 3.612916328188465e-06, 'epoch': 1.06}
+{'loss': 1.7901, 'grad_norm': 2.257411241531372, 'learning_rate': 3.610885458976442e-06, 'epoch': 1.07}
+{'loss': 1.8969, 'grad_norm': 2.166875123977661, 'learning_rate': 3.6088545897644195e-06, 'epoch': 1.07}
+{'loss': 1.8844, 'grad_norm': 2.464716911315918, 'learning_rate': 3.6068237205523963e-06, 'epoch': 1.07}
+{'loss': 1.8192, 'grad_norm': 2.337334156036377, 'learning_rate': 3.604792851340374e-06, 'epoch': 1.07}
+{'loss': 1.8233, 'grad_norm': 2.117663621902466, 'learning_rate': 3.602761982128351e-06, 'epoch': 1.07}
+{'loss': 1.9133, 'grad_norm': 2.3353586196899414, 'learning_rate': 3.6007311129163286e-06, 'epoch': 1.07}
+{'loss': 1.8803, 'grad_norm': 2.444279909133911, 'learning_rate': 3.5987002437043054e-06, 'epoch': 1.07}
+{'loss': 1.8108, 'grad_norm': 2.3458383083343506, 'learning_rate': 3.596669374492283e-06, 'epoch': 1.07}
+{'loss': 1.8423, 'grad_norm': 2.207977771759033, 'learning_rate': 3.59463850528026e-06, 'epoch': 1.07}
+{'eval_loss': 2.0578773021698, 'eval_runtime': 36.8123, 'eval_samples_per_second': 27.165, 'eval_steps_per_second': 1.141, 'epoch': 1.07}
+{'loss': 1.9268, 'grad_norm': 2.378127336502075, 'learning_rate': 3.5926076360682377e-06, 'epoch': 1.08}
+{'loss': 1.8111, 'grad_norm': 2.248105525970459, 'learning_rate': 3.5905767668562145e-06, 'epoch': 1.08}
+{'loss': 1.9099, 'grad_norm': 2.275592088699341, 'learning_rate': 3.5885458976441922e-06, 'epoch': 1.08}
+{'loss': 1.8728, 'grad_norm': 3.108377456665039, 'learning_rate': 3.586515028432169e-06, 'epoch': 1.08}
+{'loss': 1.9007, 'grad_norm': 2.2702999114990234, 'learning_rate': 3.5844841592201464e-06, 'epoch': 1.08}
+{'loss': 1.9157, 'grad_norm': 3.218647003173828, 'learning_rate': 3.5824532900081237e-06, 'epoch': 1.08}
+{'loss': 1.7936, 'grad_norm': 2.3393027782440186, 'learning_rate': 3.580422420796101e-06, 'epoch': 1.08}
+{'loss': 1.8608, 'grad_norm': 2.420541286468506, 'learning_rate': 3.578391551584078e-06, 'epoch': 1.08}
+{'loss': 1.8684, 'grad_norm': 2.3354556560516357, 'learning_rate': 3.5763606823720555e-06, 'epoch': 1.08}
+{'loss': 1.7814, 'grad_norm': 2.200282573699951, 'learning_rate': 3.5743298131600328e-06, 'epoch': 1.08}
+{'eval_loss': 2.0565249919891357, 'eval_runtime': 36.952, 'eval_samples_per_second': 27.062, 'eval_steps_per_second': 1.137, 'epoch': 1.08}
+{'loss': 1.8708, 'grad_norm': 2.149033308029175, 'learning_rate': 3.57229894394801e-06, 'epoch': 1.09}
+{'loss': 1.8947, 'grad_norm': 2.4663679599761963, 'learning_rate': 3.5702680747359873e-06, 'epoch': 1.09}
+{'loss': 1.8727, 'grad_norm': 2.3142261505126953, 'learning_rate': 3.5682372055239646e-06, 'epoch': 1.09}
+{'loss': 1.8203, 'grad_norm': 2.2223033905029297, 'learning_rate': 3.566206336311942e-06, 'epoch': 1.09}
+{'loss': 1.8687, 'grad_norm': 2.423855781555176, 'learning_rate': 3.564175467099919e-06, 'epoch': 1.09}
+{'loss': 1.8215, 'grad_norm': 2.4022302627563477, 'learning_rate': 3.5621445978878964e-06, 'epoch': 1.09}
+{'loss': 1.7994, 'grad_norm': 2.378236770629883, 'learning_rate': 3.5601137286758737e-06, 'epoch': 1.09}
+{'loss': 1.8779, 'grad_norm': 2.4499096870422363, 'learning_rate': 3.5580828594638505e-06, 'epoch': 1.09}
+{'loss': 1.8341, 'grad_norm': 2.3181755542755127, 'learning_rate': 3.5560519902518282e-06, 'epoch': 1.09}
+{'loss': 1.874, 'grad_norm': 2.2406623363494873, 'learning_rate': 3.554021121039805e-06, 'epoch': 1.1}
+{'eval_loss': 2.0523672103881836, 'eval_runtime': 37.0454, 'eval_samples_per_second': 26.994, 'eval_steps_per_second': 1.134, 'epoch': 1.1}
+{'loss': 1.9017, 'grad_norm': 2.254667043685913, 'learning_rate': 3.551990251827783e-06, 'epoch': 1.1}
+{'loss': 1.8505, 'grad_norm': 2.2846896648406982, 'learning_rate': 3.5499593826157596e-06, 'epoch': 1.1}
+{'loss': 1.8266, 'grad_norm': 2.183469772338867, 'learning_rate': 3.5479285134037373e-06, 'epoch': 1.1}
+{'loss': 1.8487, 'grad_norm': 2.151798963546753, 'learning_rate': 3.545897644191714e-06, 'epoch': 1.1}
+{'loss': 1.8327, 'grad_norm': 2.2039146423339844, 'learning_rate': 3.543866774979692e-06, 'epoch': 1.1}
+{'loss': 1.8214, 'grad_norm': 2.2091665267944336, 'learning_rate': 3.5418359057676687e-06, 'epoch': 1.1}
+{'loss': 1.8591, 'grad_norm': 2.2821404933929443, 'learning_rate': 3.5398050365556464e-06, 'epoch': 1.1}
+{'loss': 1.8265, 'grad_norm': 2.1726973056793213, 'learning_rate': 3.5377741673436233e-06, 'epoch': 1.1}
+{'loss': 1.8783, 'grad_norm': 2.2870233058929443, 'learning_rate': 3.535743298131601e-06, 'epoch': 1.11}
+{'loss': 1.8272, 'grad_norm': 2.148080587387085, 'learning_rate': 3.533712428919578e-06, 'epoch': 1.11}
+{'eval_loss': 2.049504041671753, 'eval_runtime': 36.8717, 'eval_samples_per_second': 27.121, 'eval_steps_per_second': 1.139, 'epoch': 1.11}
+{'loss': 1.8771, 'grad_norm': 2.182035446166992, 'learning_rate': 3.5316815597075547e-06, 'epoch': 1.11}
+{'loss': 1.9031, 'grad_norm': 2.135085344314575, 'learning_rate': 3.5296506904955324e-06, 'epoch': 1.11}
+{'loss': 1.8341, 'grad_norm': 2.1017255783081055, 'learning_rate': 3.5276198212835093e-06, 'epoch': 1.11}
+{'loss': 1.8564, 'grad_norm': 2.2773115634918213, 'learning_rate': 3.525588952071487e-06, 'epoch': 1.11}
+{'loss': 1.8971, 'grad_norm': 2.2773115634918213, 'learning_rate': 3.525588952071487e-06, 'epoch': 1.11}
+{'loss': 1.9074, 'grad_norm': 2.273375988006592, 'learning_rate': 3.523558082859464e-06, 'epoch': 1.11}
+{'loss': 1.8724, 'grad_norm': 2.2055182456970215, 'learning_rate': 3.5215272136474415e-06, 'epoch': 1.11}
+{'loss': 1.8387, 'grad_norm': 2.246126651763916, 'learning_rate': 3.5194963444354184e-06, 'epoch': 1.12}
+{'loss': 1.8387, 'grad_norm': 2.3076183795928955, 'learning_rate': 3.517465475223396e-06, 'epoch': 1.12}
+{'loss': 1.8063, 'grad_norm': 2.3365488052368164, 'learning_rate': 3.515434606011373e-06, 'epoch': 1.12}
+{'eval_loss': 2.0528781414031982, 'eval_runtime': 36.8885, 'eval_samples_per_second': 27.109, 'eval_steps_per_second': 1.139, 'epoch': 1.12}
+{'loss': 1.8843, 'grad_norm': 2.319324493408203, 'learning_rate': 3.5134037367993506e-06, 'epoch': 1.12}
+{'loss': 1.9375, 'grad_norm': 2.238720655441284, 'learning_rate': 3.5113728675873275e-06, 'epoch': 1.12}
+{'loss': 1.8749, 'grad_norm': 2.2824833393096924, 'learning_rate': 3.5093419983753047e-06, 'epoch': 1.12}
+{'loss': 1.8774, 'grad_norm': 2.5120770931243896, 'learning_rate': 3.507311129163282e-06, 'epoch': 1.12}
+{'loss': 1.8018, 'grad_norm': 2.1762094497680664, 'learning_rate': 3.5052802599512593e-06, 'epoch': 1.12}
+{'loss': 1.8451, 'grad_norm': 2.2530343532562256, 'learning_rate': 3.5032493907392366e-06, 'epoch': 1.12}
+{'loss': 1.8613, 'grad_norm': 2.21649169921875, 'learning_rate': 3.501218521527214e-06, 'epoch': 1.13}
+{'loss': 1.7947, 'grad_norm': 2.306431293487549, 'learning_rate': 3.499187652315191e-06, 'epoch': 1.13}
+{'loss': 1.8483, 'grad_norm': 2.203005313873291, 'learning_rate': 3.4971567831031684e-06, 'epoch': 1.13}
+{'loss': 1.8915, 'grad_norm': 2.1645009517669678, 'learning_rate': 3.4951259138911457e-06, 'epoch': 1.13}
+{'eval_loss': 2.053393602371216, 'eval_runtime': 36.855, 'eval_samples_per_second': 27.133, 'eval_steps_per_second': 1.14, 'epoch': 1.13}
+{'loss': 1.8073, 'grad_norm': 2.2863385677337646, 'learning_rate': 3.493095044679123e-06, 'epoch': 1.13}
+{'loss': 1.9191, 'grad_norm': 2.1439812183380127, 'learning_rate': 3.4910641754671002e-06, 'epoch': 1.13}
+{'loss': 1.7478, 'grad_norm': 2.224228858947754, 'learning_rate': 3.4890333062550775e-06, 'epoch': 1.13}
+{'loss': 1.8779, 'grad_norm': 2.319059133529663, 'learning_rate': 3.4870024370430548e-06, 'epoch': 1.13}
+{'loss': 1.776, 'grad_norm': 2.5003139972686768, 'learning_rate': 3.484971567831032e-06, 'epoch': 1.13}
+{'loss': 1.8221, 'grad_norm': 2.2032580375671387, 'learning_rate': 3.482940698619009e-06, 'epoch': 1.14}
+{'loss': 1.8952, 'grad_norm': 2.5253560543060303, 'learning_rate': 3.4809098294069866e-06, 'epoch': 1.14}
+{'loss': 1.847, 'grad_norm': 2.3215854167938232, 'learning_rate': 3.4788789601949634e-06, 'epoch': 1.14}
+{'loss': 1.8689, 'grad_norm': 2.2543280124664307, 'learning_rate': 3.476848090982941e-06, 'epoch': 1.14}
+{'loss': 1.8375, 'grad_norm': 2.1592042446136475, 'learning_rate': 3.474817221770918e-06, 'epoch': 1.14}
+{'eval_loss': 2.0524044036865234, 'eval_runtime': 36.8163, 'eval_samples_per_second': 27.162, 'eval_steps_per_second': 1.141, 'epoch': 1.14}
+{'loss': 1.9442, 'grad_norm': 2.2874810695648193, 'learning_rate': 3.4727863525588957e-06, 'epoch': 1.14}
+{'loss': 1.8881, 'grad_norm': 2.288395404815674, 'learning_rate': 3.4707554833468725e-06, 'epoch': 1.14}
+{'loss': 1.8518, 'grad_norm': 2.2264153957366943, 'learning_rate': 3.4687246141348502e-06, 'epoch': 1.14}
+{'loss': 1.8146, 'grad_norm': 2.4413652420043945, 'learning_rate': 3.466693744922827e-06, 'epoch': 1.14}
+{'loss': 1.8421, 'grad_norm': 2.3597898483276367, 'learning_rate': 3.464662875710805e-06, 'epoch': 1.15}
+{'loss': 1.8643, 'grad_norm': 2.2489402294158936, 'learning_rate': 3.4626320064987817e-06, 'epoch': 1.15}
+{'loss': 1.8522, 'grad_norm': 2.3958940505981445, 'learning_rate': 3.4606011372867594e-06, 'epoch': 1.15}
+{'loss': 1.8677, 'grad_norm': 2.295349597930908, 'learning_rate': 3.458570268074736e-06, 'epoch': 1.15}
+{'loss': 1.8393, 'grad_norm': 2.2571280002593994, 'learning_rate': 3.4565393988627135e-06, 'epoch': 1.15}
+{'loss': 1.8267, 'grad_norm': 2.173983335494995, 'learning_rate': 3.4545085296506908e-06, 'epoch': 1.15}
+{'eval_loss': 2.0489604473114014, 'eval_runtime': 36.7678, 'eval_samples_per_second': 27.198, 'eval_steps_per_second': 1.142, 'epoch': 1.15}
+{'loss': 1.8032, 'grad_norm': 2.3395209312438965, 'learning_rate': 3.452477660438668e-06, 'epoch': 1.15}
+{'loss': 1.8834, 'grad_norm': 2.1894757747650146, 'learning_rate': 3.4504467912266453e-06, 'epoch': 1.15}
+{'loss': 1.7897, 'grad_norm': 2.1978437900543213, 'learning_rate': 3.4484159220146226e-06, 'epoch': 1.15}
+{'loss': 1.8566, 'grad_norm': 2.275792360305786, 'learning_rate': 3.4463850528026e-06, 'epoch': 1.16}
+{'loss': 1.8307, 'grad_norm': 2.2659800052642822, 'learning_rate': 3.444354183590577e-06, 'epoch': 1.16}
+{'loss': 1.8701, 'grad_norm': 2.232149600982666, 'learning_rate': 3.4423233143785544e-06, 'epoch': 1.16}
+{'loss': 1.8008, 'grad_norm': 2.3636281490325928, 'learning_rate': 3.4402924451665317e-06, 'epoch': 1.16}
+{'loss': 1.7751, 'grad_norm': 2.271533489227295, 'learning_rate': 3.438261575954509e-06, 'epoch': 1.16}
+{'loss': 1.865, 'grad_norm': 2.3286566734313965, 'learning_rate': 3.4362307067424862e-06, 'epoch': 1.16}
+{'loss': 1.9001, 'grad_norm': 2.46665096282959, 'learning_rate': 3.434199837530463e-06, 'epoch': 1.16}
+{'eval_loss': 2.0477516651153564, 'eval_runtime': 36.7818, 'eval_samples_per_second': 27.187, 'eval_steps_per_second': 1.142, 'epoch': 1.16}
+{'loss': 1.8637, 'grad_norm': 2.307744264602661, 'learning_rate': 3.432168968318441e-06, 'epoch': 1.16}
+{'loss': 1.7867, 'grad_norm': 2.3935985565185547, 'learning_rate': 3.4301380991064176e-06, 'epoch': 1.16}
+{'loss': 1.8708, 'grad_norm': 2.290971040725708, 'learning_rate': 3.4281072298943953e-06, 'epoch': 1.16}
+{'loss': 1.9031, 'grad_norm': 2.191629409790039, 'learning_rate': 3.426076360682372e-06, 'epoch': 1.17}
+{'loss': 1.9026, 'grad_norm': 2.284426689147949, 'learning_rate': 3.42404549147035e-06, 'epoch': 1.17}
+{'loss': 1.8507, 'grad_norm': 2.2567849159240723, 'learning_rate': 3.4220146222583267e-06, 'epoch': 1.17}
+{'loss': 1.8001, 'grad_norm': 2.2093160152435303, 'learning_rate': 3.4199837530463044e-06, 'epoch': 1.17}
+{'loss': 1.8393, 'grad_norm': 2.092560291290283, 'learning_rate': 3.4179528838342813e-06, 'epoch': 1.17}
+{'loss': 1.9385, 'grad_norm': 2.313749074935913, 'learning_rate': 3.415922014622259e-06, 'epoch': 1.17}
+{'loss': 1.8924, 'grad_norm': 2.488673210144043, 'learning_rate': 3.413891145410236e-06, 'epoch': 1.17}
+{'eval_loss': 2.0482401847839355, 'eval_runtime': 36.7919, 'eval_samples_per_second': 27.18, 'eval_steps_per_second': 1.142, 'epoch': 1.17}
+{'loss': 1.881, 'grad_norm': 2.0804412364959717, 'learning_rate': 3.4118602761982135e-06, 'epoch': 1.17}
+{'loss': 1.9035, 'grad_norm': 2.165426254272461, 'learning_rate': 3.4098294069861904e-06, 'epoch': 1.17}
+{'loss': 1.8554, 'grad_norm': 2.3034675121307373, 'learning_rate': 3.4077985377741673e-06, 'epoch': 1.18}
+{'loss': 1.8255, 'grad_norm': 2.303159713745117, 'learning_rate': 3.405767668562145e-06, 'epoch': 1.18}
+{'loss': 1.9087, 'grad_norm': 2.2402753829956055, 'learning_rate': 3.403736799350122e-06, 'epoch': 1.18}
+{'loss': 1.8878, 'grad_norm': 2.251638650894165, 'learning_rate': 3.4017059301380995e-06, 'epoch': 1.18}
+{'loss': 1.8244, 'grad_norm': 2.2661657333374023, 'learning_rate': 3.3996750609260764e-06, 'epoch': 1.18}
+{'loss': 1.9328, 'grad_norm': 2.3280904293060303, 'learning_rate': 3.397644191714054e-06, 'epoch': 1.18}
+{'loss': 1.8289, 'grad_norm': 2.315779447555542, 'learning_rate': 3.395613322502031e-06, 'epoch': 1.18}
+{'loss': 1.8307, 'grad_norm': 2.136967182159424, 'learning_rate': 3.3935824532900086e-06, 'epoch': 1.18}
+{'eval_loss': 2.0473902225494385, 'eval_runtime': 36.8094, 'eval_samples_per_second': 27.167, 'eval_steps_per_second': 1.141, 'epoch': 1.18}
+{'loss': 1.8123, 'grad_norm': 2.3701720237731934, 'learning_rate': 3.3915515840779855e-06, 'epoch': 1.18}
+{'loss': 1.85, 'grad_norm': 2.2662320137023926, 'learning_rate': 3.389520714865963e-06, 'epoch': 1.19}
+{'loss': 1.845, 'grad_norm': 2.2151782512664795, 'learning_rate': 3.38748984565394e-06, 'epoch': 1.19}
+{'loss': 1.8787, 'grad_norm': 2.2209115028381348, 'learning_rate': 3.3854589764419177e-06, 'epoch': 1.19}
+{'loss': 1.818, 'grad_norm': 2.4760477542877197, 'learning_rate': 3.3834281072298946e-06, 'epoch': 1.19}
+{'loss': 1.8387, 'grad_norm': 2.309034585952759, 'learning_rate': 3.381397238017872e-06, 'epoch': 1.19}
+{'loss': 1.8135, 'grad_norm': 2.2174596786499023, 'learning_rate': 3.379366368805849e-06, 'epoch': 1.19}
+{'loss': 1.9156, 'grad_norm': 2.3043556213378906, 'learning_rate': 3.3773354995938264e-06, 'epoch': 1.19}
+{'loss': 1.8636, 'grad_norm': 2.2240524291992188, 'learning_rate': 3.3753046303818037e-06, 'epoch': 1.19}
+{'loss': 1.8458, 'grad_norm': 2.1108691692352295, 'learning_rate': 3.373273761169781e-06, 'epoch': 1.19}
+{'eval_loss': 2.04378604888916, 'eval_runtime': 36.9058, 'eval_samples_per_second': 27.096, 'eval_steps_per_second': 1.138, 'epoch': 1.19}
+{'loss': 1.8446, 'grad_norm': 2.1893398761749268, 'learning_rate': 3.3712428919577582e-06, 'epoch': 1.2}
+{'loss': 1.8283, 'grad_norm': 2.305298089981079, 'learning_rate': 3.3692120227457355e-06, 'epoch': 1.2}
+{'loss': 1.8708, 'grad_norm': 2.364433765411377, 'learning_rate': 3.3671811535337128e-06, 'epoch': 1.2}
+{'loss': 1.7966, 'grad_norm': 2.259892225265503, 'learning_rate': 3.36515028432169e-06, 'epoch': 1.2}
+{'loss': 1.8238, 'grad_norm': 2.2487263679504395, 'learning_rate': 3.3631194151096673e-06, 'epoch': 1.2}
+{'loss': 1.8651, 'grad_norm': 2.1592557430267334, 'learning_rate': 3.3610885458976446e-06, 'epoch': 1.2}
+{'loss': 1.8926, 'grad_norm': 2.257737159729004, 'learning_rate': 3.359057676685622e-06, 'epoch': 1.2}
+{'loss': 1.8833, 'grad_norm': 2.0702707767486572, 'learning_rate': 3.357026807473599e-06, 'epoch': 1.2}
+{'loss': 1.7732, 'grad_norm': 2.1568455696105957, 'learning_rate': 3.354995938261576e-06, 'epoch': 1.2}
+{'loss': 1.8205, 'grad_norm': 2.294715404510498, 'learning_rate': 3.3529650690495537e-06, 'epoch': 1.21}
+{'eval_loss': 2.044201612472534, 'eval_runtime': 36.9861, 'eval_samples_per_second': 27.037, 'eval_steps_per_second': 1.136, 'epoch': 1.21}
+{'loss': 1.7935, 'grad_norm': 2.3234570026397705, 'learning_rate': 3.3509341998375305e-06, 'epoch': 1.21}
+{'loss': 1.8254, 'grad_norm': 2.307224750518799, 'learning_rate': 3.3489033306255082e-06, 'epoch': 1.21}
+{'loss': 1.8493, 'grad_norm': 2.3725457191467285, 'learning_rate': 3.346872461413485e-06, 'epoch': 1.21}
+{'loss': 1.8241, 'grad_norm': 2.2057435512542725, 'learning_rate': 3.344841592201463e-06, 'epoch': 1.21}
+{'loss': 1.8057, 'grad_norm': 2.232947826385498, 'learning_rate': 3.3428107229894397e-06, 'epoch': 1.21}
+{'loss': 1.8334, 'grad_norm': 2.4268925189971924, 'learning_rate': 3.3407798537774174e-06, 'epoch': 1.21}
+{'loss': 1.8516, 'grad_norm': 2.3134701251983643, 'learning_rate': 3.338748984565394e-06, 'epoch': 1.21}
+{'loss': 1.8942, 'grad_norm': 2.375873327255249, 'learning_rate': 3.336718115353372e-06, 'epoch': 1.21}
+{'loss': 1.9027, 'grad_norm': 2.622528076171875, 'learning_rate': 3.3346872461413488e-06, 'epoch': 1.22}
+{'loss': 1.8258, 'grad_norm': 2.290865898132324, 'learning_rate': 3.3326563769293256e-06, 'epoch': 1.22}
+{'eval_loss': 2.0408973693847656, 'eval_runtime': 36.8596, 'eval_samples_per_second': 27.13, 'eval_steps_per_second': 1.139, 'epoch': 1.22}
+{'loss': 1.8066, 'grad_norm': 2.1596908569335938, 'learning_rate': 3.3306255077173033e-06, 'epoch': 1.22}
+{'loss': 1.8372, 'grad_norm': 2.4652187824249268, 'learning_rate': 3.32859463850528e-06, 'epoch': 1.22}
+{'loss': 1.8535, 'grad_norm': 2.282440185546875, 'learning_rate': 3.326563769293258e-06, 'epoch': 1.22}
+{'loss': 1.7719, 'grad_norm': 2.2390308380126953, 'learning_rate': 3.3245329000812347e-06, 'epoch': 1.22}
+{'loss': 1.8207, 'grad_norm': 2.368565320968628, 'learning_rate': 3.3225020308692124e-06, 'epoch': 1.22}
+{'loss': 1.8402, 'grad_norm': 2.463942766189575, 'learning_rate': 3.3204711616571893e-06, 'epoch': 1.22}
+{'loss': 1.7854, 'grad_norm': 2.266096830368042, 'learning_rate': 3.318440292445167e-06, 'epoch': 1.22}
+{'loss': 1.8449, 'grad_norm': 2.3463494777679443, 'learning_rate': 3.316409423233144e-06, 'epoch': 1.23}
+{'loss': 1.8085, 'grad_norm': 2.381727933883667, 'learning_rate': 3.3143785540211215e-06, 'epoch': 1.23}
+{'loss': 1.8922, 'grad_norm': 2.3251113891601562, 'learning_rate': 3.3123476848090984e-06, 'epoch': 1.23}
+{'eval_loss': 2.0425429344177246, 'eval_runtime': 36.851, 'eval_samples_per_second': 27.136, 'eval_steps_per_second': 1.14, 'epoch': 1.23}
+{'loss': 1.8474, 'grad_norm': 2.2314298152923584, 'learning_rate': 3.310316815597076e-06, 'epoch': 1.23}
+{'loss': 1.8454, 'grad_norm': 2.1847472190856934, 'learning_rate': 3.308285946385053e-06, 'epoch': 1.23}
+{'loss': 1.9257, 'grad_norm': 2.249422788619995, 'learning_rate': 3.30625507717303e-06, 'epoch': 1.23}
+{'loss': 1.7816, 'grad_norm': 2.223930835723877, 'learning_rate': 3.3042242079610075e-06, 'epoch': 1.23}
+{'loss': 1.8773, 'grad_norm': 2.3209826946258545, 'learning_rate': 3.3021933387489847e-06, 'epoch': 1.23}
+{'loss': 1.8931, 'grad_norm': 2.2288055419921875, 'learning_rate': 3.300162469536962e-06, 'epoch': 1.23}
+{'loss': 1.8149, 'grad_norm': 2.201449155807495, 'learning_rate': 3.2981316003249393e-06, 'epoch': 1.24}
+{'loss': 1.8949, 'grad_norm': 2.215824842453003, 'learning_rate': 3.2961007311129166e-06, 'epoch': 1.24}
+{'loss': 1.8669, 'grad_norm': 2.133671522140503, 'learning_rate': 3.294069861900894e-06, 'epoch': 1.24}
+{'loss': 1.9245, 'grad_norm': 2.2195792198181152, 'learning_rate': 3.292038992688871e-06, 'epoch': 1.24}
+{'eval_loss': 2.0442771911621094, 'eval_runtime': 36.8077, 'eval_samples_per_second': 27.168, 'eval_steps_per_second': 1.141, 'epoch': 1.24}
+{'loss': 1.8523, 'grad_norm': 2.310866117477417, 'learning_rate': 3.2900081234768484e-06, 'epoch': 1.24}
+{'loss': 1.8665, 'grad_norm': 2.318300247192383, 'learning_rate': 3.2879772542648257e-06, 'epoch': 1.24}
+{'loss': 1.8962, 'grad_norm': 2.082564115524292, 'learning_rate': 3.285946385052803e-06, 'epoch': 1.24}
+{'loss': 1.7722, 'grad_norm': 2.1982104778289795, 'learning_rate': 3.2839155158407802e-06, 'epoch': 1.24}
+{'loss': 1.8787, 'grad_norm': 2.330782890319824, 'learning_rate': 3.2818846466287575e-06, 'epoch': 1.24}
+{'loss': 1.7739, 'grad_norm': 2.136747121810913, 'learning_rate': 3.2798537774167344e-06, 'epoch': 1.24}
+{'loss': 1.9127, 'grad_norm': 2.205862283706665, 'learning_rate': 3.277822908204712e-06, 'epoch': 1.25}
+{'loss': 1.8379, 'grad_norm': 2.2060093879699707, 'learning_rate': 3.275792038992689e-06, 'epoch': 1.25}
+{'loss': 1.7931, 'grad_norm': 2.255772829055786, 'learning_rate': 3.2737611697806666e-06, 'epoch': 1.25}
+{'loss': 1.8466, 'grad_norm': 2.240095615386963, 'learning_rate': 3.2717303005686435e-06, 'epoch': 1.25}
+{'eval_loss': 2.0429375171661377, 'eval_runtime': 36.7983, 'eval_samples_per_second': 27.175, 'eval_steps_per_second': 1.141, 'epoch': 1.25}
+{'loss': 1.8137, 'grad_norm': 2.1491949558258057, 'learning_rate': 3.269699431356621e-06, 'epoch': 1.25}
+{'loss': 1.8486, 'grad_norm': 2.3854610919952393, 'learning_rate': 3.267668562144598e-06, 'epoch': 1.25}
+{'loss': 1.837, 'grad_norm': 2.3498709201812744, 'learning_rate': 3.2656376929325757e-06, 'epoch': 1.25}
+{'loss': 1.8, 'grad_norm': 2.1651649475097656, 'learning_rate': 3.2636068237205526e-06, 'epoch': 1.25}
+{'loss': 1.8691, 'grad_norm': 2.2500200271606445, 'learning_rate': 3.2615759545085303e-06, 'epoch': 1.25}
+{'loss': 1.8345, 'grad_norm': 2.2178192138671875, 'learning_rate': 3.259545085296507e-06, 'epoch': 1.26}
+{'loss': 1.8935, 'grad_norm': 2.238114595413208, 'learning_rate': 3.257514216084484e-06, 'epoch': 1.26}
+{'loss': 1.7872, 'grad_norm': 2.37042498588562, 'learning_rate': 3.2554833468724617e-06, 'epoch': 1.26}
+{'loss': 1.8913, 'grad_norm': 2.1831908226013184, 'learning_rate': 3.2534524776604385e-06, 'epoch': 1.26}
+{'loss': 1.8611, 'grad_norm': 2.251382827758789, 'learning_rate': 3.2514216084484162e-06, 'epoch': 1.26}
+{'eval_loss': 2.041306257247925, 'eval_runtime': 36.8199, 'eval_samples_per_second': 27.159, 'eval_steps_per_second': 1.141, 'epoch': 1.26}
+{'loss': 1.8283, 'grad_norm': 2.2690420150756836, 'learning_rate': 3.249390739236393e-06, 'epoch': 1.26}
+{'loss': 1.8563, 'grad_norm': 2.255833387374878, 'learning_rate': 3.2473598700243708e-06, 'epoch': 1.26}
+{'loss': 1.809, 'grad_norm': 2.1362855434417725, 'learning_rate': 3.2453290008123476e-06, 'epoch': 1.26}
+{'loss': 1.848, 'grad_norm': 2.1227219104766846, 'learning_rate': 3.2432981316003253e-06, 'epoch': 1.26}
+{'loss': 1.8472, 'grad_norm': 2.3639719486236572, 'learning_rate': 3.241267262388302e-06, 'epoch': 1.27}
+{'loss': 1.8073, 'grad_norm': 2.334404468536377, 'learning_rate': 3.23923639317628e-06, 'epoch': 1.27}
+{'loss': 1.8446, 'grad_norm': 2.231656312942505, 'learning_rate': 3.2372055239642567e-06, 'epoch': 1.27}
+{'loss': 1.8002, 'grad_norm': 2.371375560760498, 'learning_rate': 3.2351746547522344e-06, 'epoch': 1.27}
+{'loss': 1.863, 'grad_norm': 2.5212879180908203, 'learning_rate': 3.2331437855402113e-06, 'epoch': 1.27}
+{'loss': 1.9101, 'grad_norm': 2.3285911083221436, 'learning_rate': 3.2311129163281885e-06, 'epoch': 1.27}
+{'eval_loss': 2.038487195968628, 'eval_runtime': 36.8002, 'eval_samples_per_second': 27.174, 'eval_steps_per_second': 1.141, 'epoch': 1.27}
+{'loss': 1.7952, 'grad_norm': 2.1316046714782715, 'learning_rate': 3.229082047116166e-06, 'epoch': 1.27}
+{'loss': 1.869, 'grad_norm': 2.4078125953674316, 'learning_rate': 3.227051177904143e-06, 'epoch': 1.27}
+{'loss': 1.8478, 'grad_norm': 2.363672971725464, 'learning_rate': 3.2250203086921204e-06, 'epoch': 1.27}
+{'loss': 1.8483, 'grad_norm': 2.240558385848999, 'learning_rate': 3.2229894394800977e-06, 'epoch': 1.28}
+{'loss': 1.8789, 'grad_norm': 2.9142000675201416, 'learning_rate': 3.220958570268075e-06, 'epoch': 1.28}
+{'loss': 1.7659, 'grad_norm': 2.1930558681488037, 'learning_rate': 3.218927701056052e-06, 'epoch': 1.28}
+{'loss': 1.8374, 'grad_norm': 2.312471866607666, 'learning_rate': 3.2168968318440295e-06, 'epoch': 1.28}
+{'loss': 1.7539, 'grad_norm': 2.6222236156463623, 'learning_rate': 3.2148659626320068e-06, 'epoch': 1.28}
+{'loss': 1.9011, 'grad_norm': 2.3013322353363037, 'learning_rate': 3.212835093419984e-06, 'epoch': 1.28}
+{'loss': 1.8032, 'grad_norm': 2.215240716934204, 'learning_rate': 3.2108042242079613e-06, 'epoch': 1.28}
+{'eval_loss': 2.0365872383117676, 'eval_runtime': 36.8265, 'eval_samples_per_second': 27.154, 'eval_steps_per_second': 1.14, 'epoch': 1.28}
+{'loss': 1.8258, 'grad_norm': 2.3620481491088867, 'learning_rate': 3.2087733549959386e-06, 'epoch': 1.28}
+{'loss': 1.8888, 'grad_norm': 2.2650208473205566, 'learning_rate': 3.206742485783916e-06, 'epoch': 1.28}
+{'loss': 1.7874, 'grad_norm': 2.2564077377319336, 'learning_rate': 3.2047116165718927e-06, 'epoch': 1.29}
+{'loss': 1.8003, 'grad_norm': 2.2855281829833984, 'learning_rate': 3.2026807473598704e-06, 'epoch': 1.29}
+{'loss': 1.8466, 'grad_norm': 2.353893756866455, 'learning_rate': 3.2006498781478473e-06, 'epoch': 1.29}
+{'loss': 1.8652, 'grad_norm': 2.1893045902252197, 'learning_rate': 3.198619008935825e-06, 'epoch': 1.29}
+{'loss': 1.797, 'grad_norm': 2.6629793643951416, 'learning_rate': 3.196588139723802e-06, 'epoch': 1.29}
+{'loss': 1.8294, 'grad_norm': 2.2427361011505127, 'learning_rate': 3.1945572705117795e-06, 'epoch': 1.29}
+{'loss': 1.8494, 'grad_norm': 2.321878671646118, 'learning_rate': 3.1925264012997564e-06, 'epoch': 1.29}
+{'loss': 1.8574, 'grad_norm': 2.6928281784057617, 'learning_rate': 3.190495532087734e-06, 'epoch': 1.29}
+{'eval_loss': 2.0426652431488037, 'eval_runtime': 36.8482, 'eval_samples_per_second': 27.138, 'eval_steps_per_second': 1.14, 'epoch': 1.29}
+{'loss': 1.8518, 'grad_norm': 2.382164239883423, 'learning_rate': 3.188464662875711e-06, 'epoch': 1.29}
+{'loss': 1.9083, 'grad_norm': 2.4109256267547607, 'learning_rate': 3.1864337936636886e-06, 'epoch': 1.3}
+{'loss': 1.8247, 'grad_norm': 2.468062400817871, 'learning_rate': 3.1844029244516655e-06, 'epoch': 1.3}
+{'loss': 1.791, 'grad_norm': 2.459378242492676, 'learning_rate': 3.182372055239643e-06, 'epoch': 1.3}
+{'loss': 1.7869, 'grad_norm': 2.3331072330474854, 'learning_rate': 3.18034118602762e-06, 'epoch': 1.3}
+{'loss': 1.8729, 'grad_norm': 2.339428424835205, 'learning_rate': 3.1783103168155973e-06, 'epoch': 1.3}
+{'loss': 1.8455, 'grad_norm': 2.3033406734466553, 'learning_rate': 3.1762794476035746e-06, 'epoch': 1.3}
+{'loss': 1.8233, 'grad_norm': 2.2480714321136475, 'learning_rate': 3.174248578391552e-06, 'epoch': 1.3}
+{'loss': 1.8261, 'grad_norm': 2.2953624725341797, 'learning_rate': 3.172217709179529e-06, 'epoch': 1.3}
+{'loss': 1.8153, 'grad_norm': 2.494307518005371, 'learning_rate': 3.1701868399675064e-06, 'epoch': 1.3}
+{'eval_loss': 2.037719964981079, 'eval_runtime': 36.9788, 'eval_samples_per_second': 27.043, 'eval_steps_per_second': 1.136, 'epoch': 1.3}
+{'loss': 1.8406, 'grad_norm': 2.314159631729126, 'learning_rate': 3.1681559707554837e-06, 'epoch': 1.31}
+{'loss': 1.7803, 'grad_norm': 2.4262588024139404, 'learning_rate': 3.166125101543461e-06, 'epoch': 1.31}
+{'loss': 1.8521, 'grad_norm': 2.3800835609436035, 'learning_rate': 3.1640942323314382e-06, 'epoch': 1.31}
+{'loss': 1.845, 'grad_norm': 2.234551429748535, 'learning_rate': 3.1620633631194155e-06, 'epoch': 1.31}
+{'loss': 1.789, 'grad_norm': 2.167635440826416, 'learning_rate': 3.1600324939073928e-06, 'epoch': 1.31}
+{'loss': 1.8311, 'grad_norm': 2.320247173309326, 'learning_rate': 3.15800162469537e-06, 'epoch': 1.31}
+{'loss': 1.8308, 'grad_norm': 2.2715561389923096, 'learning_rate': 3.155970755483347e-06, 'epoch': 1.31}
+{'loss': 1.8358, 'grad_norm': 2.2535455226898193, 'learning_rate': 3.1539398862713246e-06, 'epoch': 1.31}
+{'loss': 1.8513, 'grad_norm': 2.2399163246154785, 'learning_rate': 3.1519090170593015e-06, 'epoch': 1.31}
+{'loss': 1.8377, 'grad_norm': 2.2984132766723633, 'learning_rate': 3.149878147847279e-06, 'epoch': 1.32}
+{'eval_loss': 2.0334064960479736, 'eval_runtime': 37.0346, 'eval_samples_per_second': 27.002, 'eval_steps_per_second': 1.134, 'epoch': 1.32}
+{'loss': 1.9023, 'grad_norm': 2.1296892166137695, 'learning_rate': 3.147847278635256e-06, 'epoch': 1.32}
+{'loss': 1.917, 'grad_norm': 2.1034350395202637, 'learning_rate': 3.1458164094232337e-06, 'epoch': 1.32}
+{'loss': 1.8093, 'grad_norm': 2.258863687515259, 'learning_rate': 3.1437855402112106e-06, 'epoch': 1.32}
+{'loss': 1.7796, 'grad_norm': 2.20119309425354, 'learning_rate': 3.1417546709991883e-06, 'epoch': 1.32}
+{'loss': 1.8496, 'grad_norm': 2.3005869388580322, 'learning_rate': 3.139723801787165e-06, 'epoch': 1.32}
+{'loss': 1.8244, 'grad_norm': 2.2009031772613525, 'learning_rate': 3.137692932575143e-06, 'epoch': 1.32}
+{'loss': 1.8803, 'grad_norm': 2.3467633724212646, 'learning_rate': 3.1356620633631197e-06, 'epoch': 1.32}
+{'loss': 1.7999, 'grad_norm': 2.318711519241333, 'learning_rate': 3.1336311941510974e-06, 'epoch': 1.32}
+{'loss': 1.836, 'grad_norm': 2.182602882385254, 'learning_rate': 3.1316003249390742e-06, 'epoch': 1.32}
+{'loss': 1.8776, 'grad_norm': 2.217298984527588, 'learning_rate': 3.129569455727051e-06, 'epoch': 1.33}
+{'eval_loss': 2.033573627471924, 'eval_runtime': 36.8029, 'eval_samples_per_second': 27.172, 'eval_steps_per_second': 1.141, 'epoch': 1.33}
+{'loss': 1.8739, 'grad_norm': 2.2814879417419434, 'learning_rate': 3.1275385865150288e-06, 'epoch': 1.33}
+{'loss': 1.8539, 'grad_norm': 2.1692471504211426, 'learning_rate': 3.1255077173030056e-06, 'epoch': 1.33}
+{'loss': 1.8527, 'grad_norm': 2.2472000122070312, 'learning_rate': 3.1234768480909833e-06, 'epoch': 1.33}
+{'loss': 1.8429, 'grad_norm': 2.1969852447509766, 'learning_rate': 3.12144597887896e-06, 'epoch': 1.33}
+{'loss': 1.868, 'grad_norm': 2.141629219055176, 'learning_rate': 3.119415109666938e-06, 'epoch': 1.33}
+{'loss': 1.8913, 'grad_norm': 2.282562494277954, 'learning_rate': 3.1173842404549147e-06, 'epoch': 1.33}
+{'loss': 1.8462, 'grad_norm': 2.2375850677490234, 'learning_rate': 3.1153533712428924e-06, 'epoch': 1.33}
+{'loss': 1.8445, 'grad_norm': 2.3529837131500244, 'learning_rate': 3.1133225020308693e-06, 'epoch': 1.33}
+{'loss': 1.89, 'grad_norm': 2.385857343673706, 'learning_rate': 3.111291632818847e-06, 'epoch': 1.34}
+{'loss': 1.8882, 'grad_norm': 2.301253080368042, 'learning_rate': 3.109260763606824e-06, 'epoch': 1.34}
+{'eval_loss': 2.040025234222412, 'eval_runtime': 36.839, 'eval_samples_per_second': 27.145, 'eval_steps_per_second': 1.14, 'epoch': 1.34}
+{'loss': 1.8545, 'grad_norm': 2.3772335052490234, 'learning_rate': 3.1072298943948015e-06, 'epoch': 1.34}
+{'loss': 1.8653, 'grad_norm': 2.387830972671509, 'learning_rate': 3.1051990251827784e-06, 'epoch': 1.34}
+{'loss': 1.8268, 'grad_norm': 2.4285190105438232, 'learning_rate': 3.1031681559707557e-06, 'epoch': 1.34}
+{'loss': 1.8818, 'grad_norm': 2.1892075538635254, 'learning_rate': 3.101137286758733e-06, 'epoch': 1.34}
+{'loss': 1.879, 'grad_norm': 2.2510695457458496, 'learning_rate': 3.09910641754671e-06, 'epoch': 1.34}
+{'loss': 1.872, 'grad_norm': 2.505671977996826, 'learning_rate': 3.0970755483346875e-06, 'epoch': 1.34}
+{'loss': 1.8651, 'grad_norm': 2.5315067768096924, 'learning_rate': 3.0950446791226648e-06, 'epoch': 1.34}
+{'loss': 1.9167, 'grad_norm': 2.223600387573242, 'learning_rate': 3.093013809910642e-06, 'epoch': 1.35}
+{'loss': 1.8593, 'grad_norm': 2.357802391052246, 'learning_rate': 3.0909829406986193e-06, 'epoch': 1.35}
+{'loss': 1.8994, 'grad_norm': 2.3102364540100098, 'learning_rate': 3.0889520714865966e-06, 'epoch': 1.35}
+{'eval_loss': 2.0332930088043213, 'eval_runtime': 36.989, 'eval_samples_per_second': 27.035, 'eval_steps_per_second': 1.135, 'epoch': 1.35}
+{'loss': 1.8741, 'grad_norm': 2.085080623626709, 'learning_rate': 3.086921202274574e-06, 'epoch': 1.35}
+{'loss': 1.8426, 'grad_norm': 2.267305612564087, 'learning_rate': 3.084890333062551e-06, 'epoch': 1.35}
+{'loss': 1.8199, 'grad_norm': 2.181033134460449, 'learning_rate': 3.0828594638505284e-06, 'epoch': 1.35}
+{'loss': 1.8469, 'grad_norm': 2.288386821746826, 'learning_rate': 3.0808285946385057e-06, 'epoch': 1.35}
+{'loss': 1.8056, 'grad_norm': 2.1516127586364746, 'learning_rate': 3.078797725426483e-06, 'epoch': 1.35}
+{'loss': 1.7535, 'grad_norm': 2.2699198722839355, 'learning_rate': 3.07676685621446e-06, 'epoch': 1.35}
+{'loss': 1.8407, 'grad_norm': 2.193251132965088, 'learning_rate': 3.0747359870024375e-06, 'epoch': 1.36}
+{'loss': 1.8062, 'grad_norm': 2.2217774391174316, 'learning_rate': 3.0727051177904144e-06, 'epoch': 1.36}
+{'loss': 1.829, 'grad_norm': 2.2376203536987305, 'learning_rate': 3.070674248578392e-06, 'epoch': 1.36}
+{'loss': 1.8459, 'grad_norm': 2.387559413909912, 'learning_rate': 3.068643379366369e-06, 'epoch': 1.36}
+{'eval_loss': 2.029298782348633, 'eval_runtime': 37.0491, 'eval_samples_per_second': 26.991, 'eval_steps_per_second': 1.134, 'epoch': 1.36}
+{'loss': 1.831, 'grad_norm': 2.1940178871154785, 'learning_rate': 3.0666125101543466e-06, 'epoch': 1.36}
+{'loss': 1.7919, 'grad_norm': 2.145514488220215, 'learning_rate': 3.0645816409423235e-06, 'epoch': 1.36}
+{'loss': 1.8472, 'grad_norm': 2.319164276123047, 'learning_rate': 3.062550771730301e-06, 'epoch': 1.36}
+{'loss': 1.8184, 'grad_norm': 2.218986749649048, 'learning_rate': 3.060519902518278e-06, 'epoch': 1.36}
+{'loss': 1.8166, 'grad_norm': 2.3755338191986084, 'learning_rate': 3.0584890333062557e-06, 'epoch': 1.36}
+{'loss': 1.7599, 'grad_norm': 2.3186213970184326, 'learning_rate': 3.0564581640942326e-06, 'epoch': 1.37}
+{'loss': 1.8404, 'grad_norm': 2.193958282470703, 'learning_rate': 3.0544272948822094e-06, 'epoch': 1.37}
+{'loss': 1.821, 'grad_norm': 2.40419602394104, 'learning_rate': 3.052396425670187e-06, 'epoch': 1.37}
+{'loss': 1.8518, 'grad_norm': 2.445542573928833, 'learning_rate': 3.050365556458164e-06, 'epoch': 1.37}
+{'loss': 1.8121, 'grad_norm': 2.2776567935943604, 'learning_rate': 3.0483346872461417e-06, 'epoch': 1.37}
+{'eval_loss': 2.030043125152588, 'eval_runtime': 37.0721, 'eval_samples_per_second': 26.974, 'eval_steps_per_second': 1.133, 'epoch': 1.37}
+{'loss': 1.8168, 'grad_norm': 2.420448064804077, 'learning_rate': 3.0463038180341185e-06, 'epoch': 1.37}
+{'loss': 1.8757, 'grad_norm': 2.252065658569336, 'learning_rate': 3.0442729488220962e-06, 'epoch': 1.37}
+{'loss': 1.8711, 'grad_norm': 2.4772560596466064, 'learning_rate': 3.042242079610073e-06, 'epoch': 1.37}
+{'loss': 1.8636, 'grad_norm': 2.3986129760742188, 'learning_rate': 3.0402112103980508e-06, 'epoch': 1.37}
+{'loss': 1.7858, 'grad_norm': 2.257274866104126, 'learning_rate': 3.0381803411860276e-06, 'epoch': 1.38}
+{'loss': 1.817, 'grad_norm': 2.2373499870300293, 'learning_rate': 3.0361494719740053e-06, 'epoch': 1.38}
+{'loss': 1.827, 'grad_norm': 2.292388916015625, 'learning_rate': 3.034118602761982e-06, 'epoch': 1.38}
+{'loss': 1.8218, 'grad_norm': 2.4618642330169678, 'learning_rate': 3.03208773354996e-06, 'epoch': 1.38}
+{'loss': 1.8092, 'grad_norm': 2.271958112716675, 'learning_rate': 3.0300568643379367e-06, 'epoch': 1.38}
+{'loss': 1.8633, 'grad_norm': 2.3990538120269775, 'learning_rate': 3.028025995125914e-06, 'epoch': 1.38}
+{'eval_loss': 2.028458595275879, 'eval_runtime': 37.0659, 'eval_samples_per_second': 26.979, 'eval_steps_per_second': 1.133, 'epoch': 1.38}
+{'loss': 1.8463, 'grad_norm': 2.208803653717041, 'learning_rate': 3.0259951259138913e-06, 'epoch': 1.38}
+{'loss': 1.7784, 'grad_norm': 2.3269028663635254, 'learning_rate': 3.0239642567018686e-06, 'epoch': 1.38}
+{'loss': 1.8281, 'grad_norm': 2.367910623550415, 'learning_rate': 3.021933387489846e-06, 'epoch': 1.38}
+{'loss': 1.7832, 'grad_norm': 2.273686647415161, 'learning_rate': 3.019902518277823e-06, 'epoch': 1.39}
+{'loss': 1.8407, 'grad_norm': 2.421964168548584, 'learning_rate': 3.0178716490658004e-06, 'epoch': 1.39}
+{'loss': 1.8718, 'grad_norm': 2.2627696990966797, 'learning_rate': 3.0158407798537777e-06, 'epoch': 1.39}
+{'loss': 1.7763, 'grad_norm': 2.1981618404388428, 'learning_rate': 3.013809910641755e-06, 'epoch': 1.39}
+{'loss': 1.7915, 'grad_norm': 2.245253562927246, 'learning_rate': 3.0117790414297322e-06, 'epoch': 1.39}
+{'loss': 1.7909, 'grad_norm': 2.2292444705963135, 'learning_rate': 3.0097481722177095e-06, 'epoch': 1.39}
+{'loss': 1.8364, 'grad_norm': 2.2290430068969727, 'learning_rate': 3.0077173030056868e-06, 'epoch': 1.39}
+{'eval_loss': 2.0290327072143555, 'eval_runtime': 37.0666, 'eval_samples_per_second': 26.978, 'eval_steps_per_second': 1.133, 'epoch': 1.39}
+{'loss': 1.7968, 'grad_norm': 2.220881700515747, 'learning_rate': 3.005686433793664e-06, 'epoch': 1.39}
+{'loss': 1.8502, 'grad_norm': 2.375332832336426, 'learning_rate': 3.0036555645816413e-06, 'epoch': 1.39}
+{'loss': 1.8116, 'grad_norm': 2.3065083026885986, 'learning_rate': 3.001624695369618e-06, 'epoch': 1.4}
+{'loss': 1.8641, 'grad_norm': 2.7262511253356934, 'learning_rate': 2.999593826157596e-06, 'epoch': 1.4}
+{'loss': 1.8128, 'grad_norm': 2.3381216526031494, 'learning_rate': 2.9975629569455727e-06, 'epoch': 1.4}
+{'loss': 1.8563, 'grad_norm': 2.1994192600250244, 'learning_rate': 2.9955320877335504e-06, 'epoch': 1.4}
+{'loss': 1.8196, 'grad_norm': 2.3810958862304688, 'learning_rate': 2.9935012185215273e-06, 'epoch': 1.4}
+{'loss': 1.8564, 'grad_norm': 2.4343955516815186, 'learning_rate': 2.991470349309505e-06, 'epoch': 1.4}
+{'loss': 1.8119, 'grad_norm': 2.1929988861083984, 'learning_rate': 2.989439480097482e-06, 'epoch': 1.4}
+{'loss': 1.8289, 'grad_norm': 2.2305309772491455, 'learning_rate': 2.9874086108854595e-06, 'epoch': 1.4}
+{'eval_loss': 2.032022476196289, 'eval_runtime': 37.084, 'eval_samples_per_second': 26.966, 'eval_steps_per_second': 1.133, 'epoch': 1.4}
+{'loss': 1.8176, 'grad_norm': 2.6255314350128174, 'learning_rate': 2.9853777416734364e-06, 'epoch': 1.4}
+{'loss': 1.8679, 'grad_norm': 2.238891363143921, 'learning_rate': 2.983346872461414e-06, 'epoch': 1.4}
+{'loss': 1.8839, 'grad_norm': 2.9972007274627686, 'learning_rate': 2.981316003249391e-06, 'epoch': 1.41}
+{'loss': 1.8451, 'grad_norm': 2.3255932331085205, 'learning_rate': 2.9792851340373678e-06, 'epoch': 1.41}
+{'loss': 1.8244, 'grad_norm': 2.290395498275757, 'learning_rate': 2.9772542648253455e-06, 'epoch': 1.41}
+{'loss': 1.8628, 'grad_norm': 2.288728713989258, 'learning_rate': 2.9752233956133223e-06, 'epoch': 1.41}
+{'loss': 1.8111, 'grad_norm': 2.177381992340088, 'learning_rate': 2.9731925264013e-06, 'epoch': 1.41}
+{'loss': 1.8377, 'grad_norm': 2.214956760406494, 'learning_rate': 2.971161657189277e-06, 'epoch': 1.41}
+{'loss': 1.8154, 'grad_norm': 2.3859663009643555, 'learning_rate': 2.9691307879772546e-06, 'epoch': 1.41}
+{'loss': 1.8098, 'grad_norm': 2.0873706340789795, 'learning_rate': 2.9670999187652314e-06, 'epoch': 1.41}
+{'eval_loss': 2.029996633529663, 'eval_runtime': 37.0979, 'eval_samples_per_second': 26.956, 'eval_steps_per_second': 1.132, 'epoch': 1.41}
+{'loss': 1.7974, 'grad_norm': 2.2632675170898438, 'learning_rate': 2.965069049553209e-06, 'epoch': 1.41}
+{'loss': 1.8856, 'grad_norm': 2.208515167236328, 'learning_rate': 2.963038180341186e-06, 'epoch': 1.42}
+{'loss': 1.7783, 'grad_norm': 2.176525115966797, 'learning_rate': 2.9610073111291637e-06, 'epoch': 1.42}
+{'loss': 1.865, 'grad_norm': 2.226682186126709, 'learning_rate': 2.9589764419171405e-06, 'epoch': 1.42}
+{'loss': 1.8808, 'grad_norm': 2.3544883728027344, 'learning_rate': 2.9569455727051182e-06, 'epoch': 1.42}
+{'loss': 1.7927, 'grad_norm': 2.1729962825775146, 'learning_rate': 2.954914703493095e-06, 'epoch': 1.42}
+{'loss': 1.8253, 'grad_norm': 2.168168067932129, 'learning_rate': 2.9528838342810724e-06, 'epoch': 1.42}
+{'loss': 1.7976, 'grad_norm': 2.2479910850524902, 'learning_rate': 2.9508529650690496e-06, 'epoch': 1.42}
+{'loss': 1.8015, 'grad_norm': 2.1733837127685547, 'learning_rate': 2.948822095857027e-06, 'epoch': 1.42}
+{'loss': 1.8545, 'grad_norm': 2.2553391456604004, 'learning_rate': 2.946791226645004e-06, 'epoch': 1.42}
+{'eval_loss': 2.0245048999786377, 'eval_runtime': 37.0943, 'eval_samples_per_second': 26.958, 'eval_steps_per_second': 1.132, 'epoch': 1.42}
+{'loss': 1.8017, 'grad_norm': 2.2817769050598145, 'learning_rate': 2.9447603574329815e-06, 'epoch': 1.43}
+{'loss': 1.7738, 'grad_norm': 2.170865297317505, 'learning_rate': 2.9427294882209587e-06, 'epoch': 1.43}
+{'loss': 1.8098, 'grad_norm': 2.296919107437134, 'learning_rate': 2.940698619008936e-06, 'epoch': 1.43}
+{'loss': 1.8229, 'grad_norm': 2.476266622543335, 'learning_rate': 2.9386677497969133e-06, 'epoch': 1.43}
+{'loss': 1.8057, 'grad_norm': 2.400918483734131, 'learning_rate': 2.9366368805848906e-06, 'epoch': 1.43}
+{'loss': 1.8568, 'grad_norm': 2.393892765045166, 'learning_rate': 2.934606011372868e-06, 'epoch': 1.43}
+{'loss': 1.8493, 'grad_norm': 2.2551307678222656, 'learning_rate': 2.932575142160845e-06, 'epoch': 1.43}
+{'loss': 1.8297, 'grad_norm': 2.3091611862182617, 'learning_rate': 2.9305442729488224e-06, 'epoch': 1.43}
+{'loss': 1.8345, 'grad_norm': 2.231614828109741, 'learning_rate': 2.9285134037367997e-06, 'epoch': 1.43}
+{'loss': 1.8284, 'grad_norm': 2.24942946434021, 'learning_rate': 2.9264825345247765e-06, 'epoch': 1.44}
+{'eval_loss': 2.024843215942383, 'eval_runtime': 36.7795, 'eval_samples_per_second': 27.189, 'eval_steps_per_second': 1.142, 'epoch': 1.44}
+{'loss': 1.8554, 'grad_norm': 2.2798643112182617, 'learning_rate': 2.9244516653127542e-06, 'epoch': 1.44}
+{'loss': 1.8296, 'grad_norm': 2.342576265335083, 'learning_rate': 2.922420796100731e-06, 'epoch': 1.44}
+{'loss': 1.7467, 'grad_norm': 2.268016815185547, 'learning_rate': 2.9203899268887088e-06, 'epoch': 1.44}
+{'loss': 1.8748, 'grad_norm': 2.2520217895507812, 'learning_rate': 2.9183590576766856e-06, 'epoch': 1.44}
+{'loss': 1.7715, 'grad_norm': 2.2091598510742188, 'learning_rate': 2.9163281884646633e-06, 'epoch': 1.44}
+{'loss': 1.8265, 'grad_norm': 2.197575092315674, 'learning_rate': 2.91429731925264e-06, 'epoch': 1.44}
+{'loss': 1.8758, 'grad_norm': 2.261122465133667, 'learning_rate': 2.912266450040618e-06, 'epoch': 1.44}
+{'loss': 1.8213, 'grad_norm': 2.3291778564453125, 'learning_rate': 2.9102355808285947e-06, 'epoch': 1.44}
+{'loss': 1.822, 'grad_norm': 2.2182250022888184, 'learning_rate': 2.9082047116165724e-06, 'epoch': 1.45}
+{'loss': 1.8008, 'grad_norm': 2.295978546142578, 'learning_rate': 2.9061738424045493e-06, 'epoch': 1.45}
+{'eval_loss': 2.0230674743652344, 'eval_runtime': 37.0013, 'eval_samples_per_second': 27.026, 'eval_steps_per_second': 1.135, 'epoch': 1.45}
+{'loss': 1.7923, 'grad_norm': 2.3187007904052734, 'learning_rate': 2.904142973192527e-06, 'epoch': 1.45}
+{'loss': 1.8874, 'grad_norm': 2.242851972579956, 'learning_rate': 2.902112103980504e-06, 'epoch': 1.45}
+{'loss': 1.8284, 'grad_norm': 2.2560081481933594, 'learning_rate': 2.900081234768481e-06, 'epoch': 1.45}
+{'loss': 1.8263, 'grad_norm': 2.3017799854278564, 'learning_rate': 2.8980503655564584e-06, 'epoch': 1.45}
+{'loss': 1.8174, 'grad_norm': 2.3016278743743896, 'learning_rate': 2.8960194963444357e-06, 'epoch': 1.45}
+{'loss': 1.7812, 'grad_norm': 2.1965372562408447, 'learning_rate': 2.893988627132413e-06, 'epoch': 1.45}
+{'loss': 1.8115, 'grad_norm': 2.302969455718994, 'learning_rate': 2.8919577579203902e-06, 'epoch': 1.45}
+{'loss': 1.7535, 'grad_norm': 2.338066339492798, 'learning_rate': 2.8899268887083675e-06, 'epoch': 1.46}
+{'loss': 1.8052, 'grad_norm': 2.446503162384033, 'learning_rate': 2.8878960194963448e-06, 'epoch': 1.46}
+{'loss': 1.8226, 'grad_norm': 2.2319273948669434, 'learning_rate': 2.885865150284322e-06, 'epoch': 1.46}
+{'eval_loss': 2.022364854812622, 'eval_runtime': 37.0901, 'eval_samples_per_second': 26.961, 'eval_steps_per_second': 1.132, 'epoch': 1.46}
+{'loss': 1.8529, 'grad_norm': 2.391080856323242, 'learning_rate': 2.8838342810722993e-06, 'epoch': 1.46}
+{'loss': 1.8043, 'grad_norm': 2.274463415145874, 'learning_rate': 2.8818034118602766e-06, 'epoch': 1.46}
+{'loss': 1.7842, 'grad_norm': 2.4040963649749756, 'learning_rate': 2.879772542648254e-06, 'epoch': 1.46}
+{'loss': 1.859, 'grad_norm': 2.268629312515259, 'learning_rate': 2.8777416734362307e-06, 'epoch': 1.46}
+{'loss': 1.7615, 'grad_norm': 2.4727842807769775, 'learning_rate': 2.8757108042242084e-06, 'epoch': 1.46}
+{'loss': 1.9085, 'grad_norm': 2.179358959197998, 'learning_rate': 2.8736799350121853e-06, 'epoch': 1.46}
+{'loss': 1.8618, 'grad_norm': 2.220917224884033, 'learning_rate': 2.871649065800163e-06, 'epoch': 1.47}
+{'loss': 1.88, 'grad_norm': 2.3807291984558105, 'learning_rate': 2.86961819658814e-06, 'epoch': 1.47}
+{'loss': 1.8045, 'grad_norm': 2.272507667541504, 'learning_rate': 2.8675873273761175e-06, 'epoch': 1.47}
+{'loss': 1.8273, 'grad_norm': 2.1832377910614014, 'learning_rate': 2.8655564581640944e-06, 'epoch': 1.47}
+{'eval_loss': 2.0218358039855957, 'eval_runtime': 37.1223, 'eval_samples_per_second': 26.938, 'eval_steps_per_second': 1.131, 'epoch': 1.47}
+{'loss': 1.8162, 'grad_norm': 2.2655251026153564, 'learning_rate': 2.863525588952072e-06, 'epoch': 1.47}
+{'loss': 1.8778, 'grad_norm': 2.191852331161499, 'learning_rate': 2.861494719740049e-06, 'epoch': 1.47}
+{'loss': 1.7695, 'grad_norm': 2.1869187355041504, 'learning_rate': 2.8594638505280266e-06, 'epoch': 1.47}
+{'loss': 1.7759, 'grad_norm': 2.248108148574829, 'learning_rate': 2.8574329813160035e-06, 'epoch': 1.47}
+{'loss': 1.8214, 'grad_norm': 2.2599704265594482, 'learning_rate': 2.855402112103981e-06, 'epoch': 1.47}
+{'loss': 1.8061, 'grad_norm': 2.2920355796813965, 'learning_rate': 2.853371242891958e-06, 'epoch': 1.48}
+{'loss': 1.8244, 'grad_norm': 2.26715087890625, 'learning_rate': 2.851340373679935e-06, 'epoch': 1.48}
+{'loss': 1.8401, 'grad_norm': 2.349169969558716, 'learning_rate': 2.8493095044679126e-06, 'epoch': 1.48}
+{'loss': 1.8913, 'grad_norm': 2.3571698665618896, 'learning_rate': 2.8472786352558894e-06, 'epoch': 1.48}
+{'loss': 1.8434, 'grad_norm': 2.334057331085205, 'learning_rate': 2.845247766043867e-06, 'epoch': 1.48}
+{'eval_loss': 2.0251200199127197, 'eval_runtime': 37.1298, 'eval_samples_per_second': 26.933, 'eval_steps_per_second': 1.131, 'epoch': 1.48}
+{'loss': 1.7846, 'grad_norm': 2.363516330718994, 'learning_rate': 2.843216896831844e-06, 'epoch': 1.48}
+{'loss': 1.7791, 'grad_norm': 2.372403860092163, 'learning_rate': 2.8411860276198217e-06, 'epoch': 1.48}
+{'loss': 1.7969, 'grad_norm': 2.2666590213775635, 'learning_rate': 2.8391551584077985e-06, 'epoch': 1.48}
+{'loss': 1.8565, 'grad_norm': 2.3651468753814697, 'learning_rate': 2.8371242891957762e-06, 'epoch': 1.48}
+{'loss': 1.8765, 'grad_norm': 2.3559513092041016, 'learning_rate': 2.835093419983753e-06, 'epoch': 1.48}
+{'loss': 1.805, 'grad_norm': 2.232041358947754, 'learning_rate': 2.833062550771731e-06, 'epoch': 1.49}
+{'loss': 1.8137, 'grad_norm': 2.2423202991485596, 'learning_rate': 2.8310316815597076e-06, 'epoch': 1.49}
+{'loss': 1.7839, 'grad_norm': 2.3454222679138184, 'learning_rate': 2.8290008123476853e-06, 'epoch': 1.49}
+{'loss': 1.8208, 'grad_norm': 2.351266384124756, 'learning_rate': 2.826969943135662e-06, 'epoch': 1.49}
+{'loss': 1.8059, 'grad_norm': 2.3025388717651367, 'learning_rate': 2.8249390739236395e-06, 'epoch': 1.49}
+{'eval_loss': 2.0235962867736816, 'eval_runtime': 37.1359, 'eval_samples_per_second': 26.928, 'eval_steps_per_second': 1.131, 'epoch': 1.49}
+{'loss': 1.8238, 'grad_norm': 2.2277750968933105, 'learning_rate': 2.8229082047116167e-06, 'epoch': 1.49}
+{'loss': 1.7867, 'grad_norm': 2.318286180496216, 'learning_rate': 2.820877335499594e-06, 'epoch': 1.49}
+{'loss': 1.8068, 'grad_norm': 2.296259880065918, 'learning_rate': 2.8188464662875713e-06, 'epoch': 1.49}
+{'loss': 1.7607, 'grad_norm': 2.2617714405059814, 'learning_rate': 2.8168155970755486e-06, 'epoch': 1.49}
+{'loss': 1.7872, 'grad_norm': 2.318294048309326, 'learning_rate': 2.814784727863526e-06, 'epoch': 1.5}
+{'loss': 1.8013, 'grad_norm': 2.260286808013916, 'learning_rate': 2.812753858651503e-06, 'epoch': 1.5}
+{'loss': 1.8338, 'grad_norm': 2.222074508666992, 'learning_rate': 2.8107229894394804e-06, 'epoch': 1.5}
+{'loss': 1.8126, 'grad_norm': 2.6403002738952637, 'learning_rate': 2.8086921202274577e-06, 'epoch': 1.5}
+{'loss': 1.7669, 'grad_norm': 2.2439680099487305, 'learning_rate': 2.806661251015435e-06, 'epoch': 1.5}
+{'loss': 1.8421, 'grad_norm': 2.3914687633514404, 'learning_rate': 2.8046303818034122e-06, 'epoch': 1.5}
+{'eval_loss': 2.0222702026367188, 'eval_runtime': 37.1598, 'eval_samples_per_second': 26.911, 'eval_steps_per_second': 1.13, 'epoch': 1.5}
+{'loss': 1.8902, 'grad_norm': 2.3510093688964844, 'learning_rate': 2.802599512591389e-06, 'epoch': 1.5}
+{'loss': 1.9376, 'grad_norm': 2.4427363872528076, 'learning_rate': 2.8005686433793668e-06, 'epoch': 1.5}
+{'loss': 1.812, 'grad_norm': 2.299356460571289, 'learning_rate': 2.7985377741673436e-06, 'epoch': 1.5}
+{'loss': 1.7666, 'grad_norm': 2.3738906383514404, 'learning_rate': 2.7965069049553213e-06, 'epoch': 1.51}
+{'loss': 1.824, 'grad_norm': 2.3620493412017822, 'learning_rate': 2.794476035743298e-06, 'epoch': 1.51}
+{'loss': 1.8712, 'grad_norm': 2.539048671722412, 'learning_rate': 2.792445166531276e-06, 'epoch': 1.51}
+{'loss': 1.8414, 'grad_norm': 2.2931456565856934, 'learning_rate': 2.7904142973192527e-06, 'epoch': 1.51}
+{'loss': 1.8419, 'grad_norm': 2.4368224143981934, 'learning_rate': 2.7883834281072304e-06, 'epoch': 1.51}
+{'loss': 1.7846, 'grad_norm': 2.298302173614502, 'learning_rate': 2.7863525588952073e-06, 'epoch': 1.51}
+{'loss': 1.7733, 'grad_norm': 2.3726806640625, 'learning_rate': 2.784321689683185e-06, 'epoch': 1.51}
+{'eval_loss': 2.0201807022094727, 'eval_runtime': 37.1012, 'eval_samples_per_second': 26.953, 'eval_steps_per_second': 1.132, 'epoch': 1.51}
+{'loss': 1.7764, 'grad_norm': 2.6515002250671387, 'learning_rate': 2.782290820471162e-06, 'epoch': 1.51}
+{'loss': 1.7747, 'grad_norm': 2.273272752761841, 'learning_rate': 2.7802599512591395e-06, 'epoch': 1.51}
+{'loss': 1.8612, 'grad_norm': 2.570009708404541, 'learning_rate': 2.7782290820471164e-06, 'epoch': 1.52}
+{'loss': 1.8402, 'grad_norm': 2.567878007888794, 'learning_rate': 2.7761982128350932e-06, 'epoch': 1.52}
+{'loss': 1.8473, 'grad_norm': 2.3768470287323, 'learning_rate': 2.774167343623071e-06, 'epoch': 1.52}
+{'loss': 1.8593, 'grad_norm': 2.1383397579193115, 'learning_rate': 2.772136474411048e-06, 'epoch': 1.52}
+{'loss': 1.792, 'grad_norm': 2.4437034130096436, 'learning_rate': 2.7701056051990255e-06, 'epoch': 1.52}
+{'loss': 1.7312, 'grad_norm': 2.433933734893799, 'learning_rate': 2.7680747359870023e-06, 'epoch': 1.52}
+{'loss': 1.8326, 'grad_norm': 2.340994119644165, 'learning_rate': 2.76604386677498e-06, 'epoch': 1.52}
+{'loss': 1.8129, 'grad_norm': 2.4730165004730225, 'learning_rate': 2.764012997562957e-06, 'epoch': 1.52}
+{'eval_loss': 2.0158324241638184, 'eval_runtime': 37.0997, 'eval_samples_per_second': 26.954, 'eval_steps_per_second': 1.132, 'epoch': 1.52}
+{'loss': 1.8726, 'grad_norm': 2.2898151874542236, 'learning_rate': 2.7619821283509346e-06, 'epoch': 1.52}
+{'loss': 1.7587, 'grad_norm': 2.255439519882202, 'learning_rate': 2.7599512591389114e-06, 'epoch': 1.53}
+{'loss': 1.8498, 'grad_norm': 2.4269862174987793, 'learning_rate': 2.757920389926889e-06, 'epoch': 1.53}
+{'loss': 1.8103, 'grad_norm': 2.3411412239074707, 'learning_rate': 2.755889520714866e-06, 'epoch': 1.53}
+{'loss': 1.7909, 'grad_norm': 2.2859277725219727, 'learning_rate': 2.7538586515028437e-06, 'epoch': 1.53}
+{'loss': 1.7672, 'grad_norm': 2.2675201892852783, 'learning_rate': 2.7518277822908205e-06, 'epoch': 1.53}
+{'loss': 1.8162, 'grad_norm': 2.240610361099243, 'learning_rate': 2.749796913078798e-06, 'epoch': 1.53}
+{'loss': 1.8593, 'grad_norm': 2.272045373916626, 'learning_rate': 2.747766043866775e-06, 'epoch': 1.53}
+{'loss': 1.8154, 'grad_norm': 2.1736183166503906, 'learning_rate': 2.7457351746547524e-06, 'epoch': 1.53}
+{'loss': 1.8758, 'grad_norm': 2.197085380554199, 'learning_rate': 2.7437043054427297e-06, 'epoch': 1.53}
+{'eval_loss': 2.017298698425293, 'eval_runtime': 37.1666, 'eval_samples_per_second': 26.906, 'eval_steps_per_second': 1.13, 'epoch': 1.53}
+{'loss': 1.9241, 'grad_norm': 2.2274084091186523, 'learning_rate': 2.741673436230707e-06, 'epoch': 1.54}
+{'loss': 1.8209, 'grad_norm': 2.3320305347442627, 'learning_rate': 2.739642567018684e-06, 'epoch': 1.54}
+{'loss': 1.7897, 'grad_norm': 2.370651960372925, 'learning_rate': 2.7376116978066615e-06, 'epoch': 1.54}
+{'loss': 1.8385, 'grad_norm': 2.387906312942505, 'learning_rate': 2.7355808285946388e-06, 'epoch': 1.54}
+{'loss': 1.8279, 'grad_norm': 2.340228796005249, 'learning_rate': 2.733549959382616e-06, 'epoch': 1.54}
+{'loss': 1.7887, 'grad_norm': 2.338785409927368, 'learning_rate': 2.7315190901705933e-06, 'epoch': 1.54}
+{'loss': 1.8772, 'grad_norm': 2.350057601928711, 'learning_rate': 2.7294882209585706e-06, 'epoch': 1.54}
+{'loss': 1.8393, 'grad_norm': 2.1129322052001953, 'learning_rate': 2.727457351746548e-06, 'epoch': 1.54}
+{'loss': 1.7893, 'grad_norm': 2.282553195953369, 'learning_rate': 2.725426482534525e-06, 'epoch': 1.54}
+{'loss': 1.7921, 'grad_norm': 2.3291871547698975, 'learning_rate': 2.723395613322502e-06, 'epoch': 1.55}
+{'eval_loss': 2.0166046619415283, 'eval_runtime': 36.7906, 'eval_samples_per_second': 27.181, 'eval_steps_per_second': 1.142, 'epoch': 1.55}
+{'loss': 1.8292, 'grad_norm': 2.3050696849823, 'learning_rate': 2.7213647441104797e-06, 'epoch': 1.55}
+{'loss': 1.811, 'grad_norm': 2.2762458324432373, 'learning_rate': 2.7193338748984565e-06, 'epoch': 1.55}
+{'loss': 1.8203, 'grad_norm': 2.5544228553771973, 'learning_rate': 2.7173030056864342e-06, 'epoch': 1.55}
+{'loss': 1.9724, 'grad_norm': 2.6392276287078857, 'learning_rate': 2.715272136474411e-06, 'epoch': 1.55}
+{'loss': 1.7589, 'grad_norm': 2.445366382598877, 'learning_rate': 2.713241267262389e-06, 'epoch': 1.55}
+{'loss': 1.8311, 'grad_norm': 2.5305662155151367, 'learning_rate': 2.7112103980503656e-06, 'epoch': 1.55}
+{'loss': 1.7893, 'grad_norm': 2.405482769012451, 'learning_rate': 2.7091795288383433e-06, 'epoch': 1.55}
+{'loss': 1.8489, 'grad_norm': 2.258361577987671, 'learning_rate': 2.70714865962632e-06, 'epoch': 1.55}
+{'loss': 1.7983, 'grad_norm': 2.1798577308654785, 'learning_rate': 2.705117790414298e-06, 'epoch': 1.56}
+{'loss': 1.7934, 'grad_norm': 2.1985363960266113, 'learning_rate': 2.7030869212022747e-06, 'epoch': 1.56}
+{'eval_loss': 2.0219907760620117, 'eval_runtime': 36.9416, 'eval_samples_per_second': 27.07, 'eval_steps_per_second': 1.137, 'epoch': 1.56}
+{'loss': 1.8571, 'grad_norm': 2.273252248764038, 'learning_rate': 2.7010560519902516e-06, 'epoch': 1.56}
+{'loss': 1.7785, 'grad_norm': 2.22920298576355, 'learning_rate': 2.6990251827782293e-06, 'epoch': 1.56}
+{'loss': 1.8053, 'grad_norm': 2.1784098148345947, 'learning_rate': 2.696994313566206e-06, 'epoch': 1.56}
+{'loss': 1.7965, 'grad_norm': 2.223404884338379, 'learning_rate': 2.694963444354184e-06, 'epoch': 1.56}
+{'loss': 1.8851, 'grad_norm': 2.2004787921905518, 'learning_rate': 2.6929325751421607e-06, 'epoch': 1.56}
+{'loss': 1.7884, 'grad_norm': 2.202467441558838, 'learning_rate': 2.6909017059301384e-06, 'epoch': 1.56}
+{'loss': 1.8543, 'grad_norm': 2.337430238723755, 'learning_rate': 2.6888708367181153e-06, 'epoch': 1.56}
+{'loss': 1.7607, 'grad_norm': 2.322848081588745, 'learning_rate': 2.686839967506093e-06, 'epoch': 1.56}
+{'loss': 1.8354, 'grad_norm': 2.277765989303589, 'learning_rate': 2.68480909829407e-06, 'epoch': 1.57}
+{'loss': 1.7277, 'grad_norm': 2.3229448795318604, 'learning_rate': 2.6827782290820475e-06, 'epoch': 1.57}
+{'eval_loss': 2.0220985412597656, 'eval_runtime': 37.0054, 'eval_samples_per_second': 27.023, 'eval_steps_per_second': 1.135, 'epoch': 1.57}
+{'loss': 1.7351, 'grad_norm': 2.49545955657959, 'learning_rate': 2.6807473598700244e-06, 'epoch': 1.57}
+{'loss': 1.8614, 'grad_norm': 2.530553102493286, 'learning_rate': 2.678716490658002e-06, 'epoch': 1.57}
+{'loss': 1.8218, 'grad_norm': 2.3352842330932617, 'learning_rate': 2.676685621445979e-06, 'epoch': 1.57}
+{'loss': 1.8282, 'grad_norm': 2.3533058166503906, 'learning_rate': 2.674654752233956e-06, 'epoch': 1.57}
+{'loss': 1.8333, 'grad_norm': 2.5509746074676514, 'learning_rate': 2.6726238830219335e-06, 'epoch': 1.57}
+{'loss': 1.8299, 'grad_norm': 2.185175895690918, 'learning_rate': 2.6705930138099107e-06, 'epoch': 1.57}
+{'loss': 1.857, 'grad_norm': 2.2338390350341797, 'learning_rate': 2.668562144597888e-06, 'epoch': 1.57}
+{'loss': 1.7333, 'grad_norm': 2.4094536304473877, 'learning_rate': 2.6665312753858653e-06, 'epoch': 1.58}
+{'loss': 1.8237, 'grad_norm': 2.4650957584381104, 'learning_rate': 2.6645004061738426e-06, 'epoch': 1.58}
+{'loss': 1.8206, 'grad_norm': 2.427415132522583, 'learning_rate': 2.66246953696182e-06, 'epoch': 1.58}
+{'eval_loss': 2.0222699642181396, 'eval_runtime': 37.0252, 'eval_samples_per_second': 27.009, 'eval_steps_per_second': 1.134, 'epoch': 1.58}
+{'loss': 1.775, 'grad_norm': 2.3878679275512695, 'learning_rate': 2.660438667749797e-06, 'epoch': 1.58}
+{'loss': 1.7479, 'grad_norm': 2.317819595336914, 'learning_rate': 2.6584077985377744e-06, 'epoch': 1.58}
+{'loss': 1.8025, 'grad_norm': 2.34951114654541, 'learning_rate': 2.6563769293257517e-06, 'epoch': 1.58}
+{'loss': 1.8152, 'grad_norm': 2.2849795818328857, 'learning_rate': 2.654346060113729e-06, 'epoch': 1.58}
+{'loss': 1.7666, 'grad_norm': 2.211489677429199, 'learning_rate': 2.6523151909017062e-06, 'epoch': 1.58}
+{'loss': 1.7933, 'grad_norm': 2.1876230239868164, 'learning_rate': 2.6502843216896835e-06, 'epoch': 1.58}
+{'loss': 1.7756, 'grad_norm': 2.367628335952759, 'learning_rate': 2.6482534524776603e-06, 'epoch': 1.59}
+{'loss': 1.8908, 'grad_norm': 2.1198348999023438, 'learning_rate': 2.646222583265638e-06, 'epoch': 1.59}
+{'loss': 1.8432, 'grad_norm': 2.192788600921631, 'learning_rate': 2.644191714053615e-06, 'epoch': 1.59}
+{'loss': 1.8223, 'grad_norm': 2.4480655193328857, 'learning_rate': 2.6421608448415926e-06, 'epoch': 1.59}
+{'eval_loss': 2.019976854324341, 'eval_runtime': 37.0117, 'eval_samples_per_second': 27.018, 'eval_steps_per_second': 1.135, 'epoch': 1.59}
+{'loss': 1.7881, 'grad_norm': 2.573078155517578, 'learning_rate': 2.6401299756295694e-06, 'epoch': 1.59}
+{'loss': 1.7703, 'grad_norm': 2.2820355892181396, 'learning_rate': 2.638099106417547e-06, 'epoch': 1.59}
+{'loss': 1.8281, 'grad_norm': 2.526477575302124, 'learning_rate': 2.636068237205524e-06, 'epoch': 1.59}
+{'loss': 1.7771, 'grad_norm': 2.873647689819336, 'learning_rate': 2.6340373679935017e-06, 'epoch': 1.59}
+{'loss': 1.8864, 'grad_norm': 2.3782413005828857, 'learning_rate': 2.6320064987814785e-06, 'epoch': 1.59}
+{'loss': 1.734, 'grad_norm': 2.3153343200683594, 'learning_rate': 2.6299756295694562e-06, 'epoch': 1.6}
+{'loss': 1.8295, 'grad_norm': 2.631880283355713, 'learning_rate': 2.627944760357433e-06, 'epoch': 1.6}
+{'loss': 1.8738, 'grad_norm': 2.5827910900115967, 'learning_rate': 2.6259138911454104e-06, 'epoch': 1.6}
+{'loss': 1.8832, 'grad_norm': 2.3519935607910156, 'learning_rate': 2.6238830219333877e-06, 'epoch': 1.6}
+{'loss': 1.8595, 'grad_norm': 2.5236215591430664, 'learning_rate': 2.621852152721365e-06, 'epoch': 1.6}
+{'eval_loss': 2.0170512199401855, 'eval_runtime': 37.0302, 'eval_samples_per_second': 27.005, 'eval_steps_per_second': 1.134, 'epoch': 1.6}
+{'loss': 1.7476, 'grad_norm': 2.725083112716675, 'learning_rate': 2.619821283509342e-06, 'epoch': 1.6}
+{'loss': 1.8475, 'grad_norm': 2.212644100189209, 'learning_rate': 2.6177904142973195e-06, 'epoch': 1.6}
+{'loss': 1.7762, 'grad_norm': 2.346808910369873, 'learning_rate': 2.6157595450852968e-06, 'epoch': 1.6}
+{'loss': 1.8296, 'grad_norm': 2.702331304550171, 'learning_rate': 2.613728675873274e-06, 'epoch': 1.6}
+{'loss': 1.8476, 'grad_norm': 2.4175899028778076, 'learning_rate': 2.6116978066612513e-06, 'epoch': 1.61}
+{'loss': 1.8706, 'grad_norm': 2.325457811355591, 'learning_rate': 2.6096669374492286e-06, 'epoch': 1.61}
+{'loss': 1.8246, 'grad_norm': 2.383842945098877, 'learning_rate': 2.607636068237206e-06, 'epoch': 1.61}
+{'loss': 1.7728, 'grad_norm': 2.289515256881714, 'learning_rate': 2.605605199025183e-06, 'epoch': 1.61}
+{'loss': 1.8359, 'grad_norm': 2.5116689205169678, 'learning_rate': 2.6035743298131604e-06, 'epoch': 1.61}
+{'loss': 1.8155, 'grad_norm': 2.279695749282837, 'learning_rate': 2.6015434606011377e-06, 'epoch': 1.61}
+{'eval_loss': 2.0142691135406494, 'eval_runtime': 37.0119, 'eval_samples_per_second': 27.018, 'eval_steps_per_second': 1.135, 'epoch': 1.61}
+{'loss': 1.8424, 'grad_norm': 2.4397690296173096, 'learning_rate': 2.5995125913891145e-06, 'epoch': 1.61}
+{'loss': 1.8196, 'grad_norm': 2.433577299118042, 'learning_rate': 2.5974817221770922e-06, 'epoch': 1.61}
+{'loss': 1.8124, 'grad_norm': 2.365459442138672, 'learning_rate': 2.595450852965069e-06, 'epoch': 1.61}
+{'loss': 1.8443, 'grad_norm': 2.253133535385132, 'learning_rate': 2.593419983753047e-06, 'epoch': 1.62}
+{'loss': 1.8524, 'grad_norm': 2.227625608444214, 'learning_rate': 2.5913891145410236e-06, 'epoch': 1.62}
+{'loss': 1.7983, 'grad_norm': 2.403702974319458, 'learning_rate': 2.5893582453290013e-06, 'epoch': 1.62}
+{'loss': 1.8563, 'grad_norm': 2.24507999420166, 'learning_rate': 2.587327376116978e-06, 'epoch': 1.62}
+{'loss': 1.7958, 'grad_norm': 2.284700393676758, 'learning_rate': 2.585296506904956e-06, 'epoch': 1.62}
+{'loss': 1.8021, 'grad_norm': 2.288215398788452, 'learning_rate': 2.5832656376929327e-06, 'epoch': 1.62}
+{'loss': 1.7856, 'grad_norm': 2.2312939167022705, 'learning_rate': 2.5812347684809104e-06, 'epoch': 1.62}
+{'eval_loss': 2.01674222946167, 'eval_runtime': 36.9943, 'eval_samples_per_second': 27.031, 'eval_steps_per_second': 1.135, 'epoch': 1.62}
+{'loss': 1.7263, 'grad_norm': 2.319363832473755, 'learning_rate': 2.5792038992688873e-06, 'epoch': 1.62}
+{'loss': 1.897, 'grad_norm': 2.4342033863067627, 'learning_rate': 2.577173030056865e-06, 'epoch': 1.62}
+{'loss': 1.7165, 'grad_norm': 2.3052282333374023, 'learning_rate': 2.575142160844842e-06, 'epoch': 1.63}
+{'loss': 1.8347, 'grad_norm': 2.2476744651794434, 'learning_rate': 2.5731112916328187e-06, 'epoch': 1.63}
+{'loss': 1.8403, 'grad_norm': 2.3128387928009033, 'learning_rate': 2.5710804224207964e-06, 'epoch': 1.63}
+{'loss': 1.781, 'grad_norm': 2.3483974933624268, 'learning_rate': 2.5690495532087733e-06, 'epoch': 1.63}
+{'loss': 1.7356, 'grad_norm': 2.328298568725586, 'learning_rate': 2.567018683996751e-06, 'epoch': 1.63}
+{'loss': 1.8449, 'grad_norm': 2.2756922245025635, 'learning_rate': 2.564987814784728e-06, 'epoch': 1.63}
+{'loss': 1.7767, 'grad_norm': 2.363874912261963, 'learning_rate': 2.5629569455727055e-06, 'epoch': 1.63}
+{'loss': 1.8052, 'grad_norm': 2.2872767448425293, 'learning_rate': 2.5609260763606824e-06, 'epoch': 1.63}
+{'eval_loss': 2.0134243965148926, 'eval_runtime': 37.029, 'eval_samples_per_second': 27.006, 'eval_steps_per_second': 1.134, 'epoch': 1.63}
+{'loss': 1.7953, 'grad_norm': 2.354851007461548, 'learning_rate': 2.55889520714866e-06, 'epoch': 1.63}
+{'loss': 1.9063, 'grad_norm': 2.4440531730651855, 'learning_rate': 2.556864337936637e-06, 'epoch': 1.64}
+{'loss': 1.7961, 'grad_norm': 2.296835422515869, 'learning_rate': 2.5548334687246146e-06, 'epoch': 1.64}
+{'loss': 1.809, 'grad_norm': 2.7421159744262695, 'learning_rate': 2.5528025995125915e-06, 'epoch': 1.64}
+{'loss': 1.853, 'grad_norm': 2.819125175476074, 'learning_rate': 2.550771730300569e-06, 'epoch': 1.64}
+{'loss': 1.8297, 'grad_norm': 2.2536680698394775, 'learning_rate': 2.548740861088546e-06, 'epoch': 1.64}
+{'loss': 1.843, 'grad_norm': 2.7130825519561768, 'learning_rate': 2.5467099918765233e-06, 'epoch': 1.64}
+{'loss': 1.7462, 'grad_norm': 3.0625038146972656, 'learning_rate': 2.5446791226645006e-06, 'epoch': 1.64}
+{'loss': 1.7363, 'grad_norm': 2.3095271587371826, 'learning_rate': 2.542648253452478e-06, 'epoch': 1.64}
+{'loss': 1.8422, 'grad_norm': 2.536547899246216, 'learning_rate': 2.540617384240455e-06, 'epoch': 1.64}
+{'eval_loss': 2.0126097202301025, 'eval_runtime': 37.0469, 'eval_samples_per_second': 26.993, 'eval_steps_per_second': 1.134, 'epoch': 1.64}
+{'loss': 1.8183, 'grad_norm': 2.7454309463500977, 'learning_rate': 2.5385865150284324e-06, 'epoch': 1.64}
+{'loss': 1.7827, 'grad_norm': 2.3443901538848877, 'learning_rate': 2.5365556458164097e-06, 'epoch': 1.65}
+{'loss': 1.797, 'grad_norm': 2.2412657737731934, 'learning_rate': 2.534524776604387e-06, 'epoch': 1.65}
+{'loss': 1.8103, 'grad_norm': 2.6193699836730957, 'learning_rate': 2.5324939073923642e-06, 'epoch': 1.65}
+{'loss': 1.6987, 'grad_norm': 2.363919258117676, 'learning_rate': 2.5304630381803415e-06, 'epoch': 1.65}
+{'loss': 1.8005, 'grad_norm': 2.303164482116699, 'learning_rate': 2.5284321689683188e-06, 'epoch': 1.65}
+{'loss': 1.8009, 'grad_norm': 2.444174289703369, 'learning_rate': 2.526401299756296e-06, 'epoch': 1.65}
+{'loss': 1.782, 'grad_norm': 2.418454647064209, 'learning_rate': 2.524370430544273e-06, 'epoch': 1.65}
+{'loss': 1.8143, 'grad_norm': 2.48840069770813, 'learning_rate': 2.5223395613322506e-06, 'epoch': 1.65}
+{'loss': 1.7687, 'grad_norm': 2.2814347743988037, 'learning_rate': 2.5203086921202274e-06, 'epoch': 1.65}
+{'eval_loss': 2.0148253440856934, 'eval_runtime': 36.7833, 'eval_samples_per_second': 27.186, 'eval_steps_per_second': 1.142, 'epoch': 1.65}
+{'loss': 1.8416, 'grad_norm': 2.228933572769165, 'learning_rate': 2.518277822908205e-06, 'epoch': 1.66}
+{'loss': 1.7868, 'grad_norm': 2.3696742057800293, 'learning_rate': 2.516246953696182e-06, 'epoch': 1.66}
+{'loss': 1.8312, 'grad_norm': 2.216360092163086, 'learning_rate': 2.5142160844841597e-06, 'epoch': 1.66}
+{'loss': 1.8309, 'grad_norm': 2.454345226287842, 'learning_rate': 2.5121852152721365e-06, 'epoch': 1.66}
+{'loss': 1.8155, 'grad_norm': 2.2106776237487793, 'learning_rate': 2.5101543460601142e-06, 'epoch': 1.66}
+{'loss': 1.8162, 'grad_norm': 2.289006233215332, 'learning_rate': 2.508123476848091e-06, 'epoch': 1.66}
+{'loss': 1.7559, 'grad_norm': 2.297246217727661, 'learning_rate': 2.506092607636069e-06, 'epoch': 1.66}
+{'loss': 1.8389, 'grad_norm': 2.3909482955932617, 'learning_rate': 2.5040617384240457e-06, 'epoch': 1.66}
+{'loss': 1.7785, 'grad_norm': 2.398171901702881, 'learning_rate': 2.5020308692120234e-06, 'epoch': 1.66}
+{'loss': 1.768, 'grad_norm': 2.377707004547119, 'learning_rate': 2.5e-06, 'epoch': 1.67}
+{'eval_loss': 2.012815475463867, 'eval_runtime': 36.9603, 'eval_samples_per_second': 27.056, 'eval_steps_per_second': 1.136, 'epoch': 1.67}
+{'loss': 1.8653, 'grad_norm': 2.336160898208618, 'learning_rate': 2.4979691307879775e-06, 'epoch': 1.67}
+{'loss': 1.7798, 'grad_norm': 2.288424253463745, 'learning_rate': 2.4959382615759548e-06, 'epoch': 1.67}
+{'loss': 1.7736, 'grad_norm': 2.2599472999572754, 'learning_rate': 2.493907392363932e-06, 'epoch': 1.67}
+{'loss': 1.8753, 'grad_norm': 2.242276430130005, 'learning_rate': 2.4918765231519093e-06, 'epoch': 1.67}
+{'loss': 1.8353, 'grad_norm': 2.1897733211517334, 'learning_rate': 2.4898456539398866e-06, 'epoch': 1.67}
+{'loss': 1.7825, 'grad_norm': 2.254009246826172, 'learning_rate': 2.487814784727864e-06, 'epoch': 1.67}
+{'loss': 1.8742, 'grad_norm': 2.3704216480255127, 'learning_rate': 2.4857839155158407e-06, 'epoch': 1.67}
+{'loss': 1.7974, 'grad_norm': 2.1590118408203125, 'learning_rate': 2.483753046303818e-06, 'epoch': 1.67}
+{'loss': 1.8007, 'grad_norm': 2.2389416694641113, 'learning_rate': 2.4817221770917953e-06, 'epoch': 1.68}
+{'loss': 1.8079, 'grad_norm': 2.324131488800049, 'learning_rate': 2.4796913078797725e-06, 'epoch': 1.68}
+{'eval_loss': 2.013923168182373, 'eval_runtime': 37.0828, 'eval_samples_per_second': 26.967, 'eval_steps_per_second': 1.133, 'epoch': 1.68}
+{'loss': 1.8356, 'grad_norm': 2.406456708908081, 'learning_rate': 2.47766043866775e-06, 'epoch': 1.68}
+{'loss': 1.8239, 'grad_norm': 2.289919137954712, 'learning_rate': 2.475629569455727e-06, 'epoch': 1.68}
+{'loss': 1.8025, 'grad_norm': 2.2617733478546143, 'learning_rate': 2.4735987002437044e-06, 'epoch': 1.68}
+{'loss': 1.7743, 'grad_norm': 2.133652925491333, 'learning_rate': 2.4715678310316816e-06, 'epoch': 1.68}
+{'loss': 1.7979, 'grad_norm': 2.215322256088257, 'learning_rate': 2.469536961819659e-06, 'epoch': 1.68}
+{'loss': 1.8027, 'grad_norm': 2.336021900177002, 'learning_rate': 2.467506092607636e-06, 'epoch': 1.68}
+{'loss': 1.7877, 'grad_norm': 2.3567142486572266, 'learning_rate': 2.4654752233956135e-06, 'epoch': 1.68}
+{'loss': 1.7695, 'grad_norm': 2.2642927169799805, 'learning_rate': 2.4634443541835907e-06, 'epoch': 1.69}
+{'loss': 1.867, 'grad_norm': 2.353303909301758, 'learning_rate': 2.461413484971568e-06, 'epoch': 1.69}
+{'loss': 1.8009, 'grad_norm': 2.252074956893921, 'learning_rate': 2.4593826157595453e-06, 'epoch': 1.69}
+{'eval_loss': 2.0113608837127686, 'eval_runtime': 37.0875, 'eval_samples_per_second': 26.963, 'eval_steps_per_second': 1.132, 'epoch': 1.69}
+{'loss': 1.8881, 'grad_norm': 2.2303407192230225, 'learning_rate': 2.4573517465475226e-06, 'epoch': 1.69}
+{'loss': 1.7388, 'grad_norm': 2.3359081745147705, 'learning_rate': 2.4553208773355e-06, 'epoch': 1.69}
+{'loss': 1.7993, 'grad_norm': 2.3783583641052246, 'learning_rate': 2.453290008123477e-06, 'epoch': 1.69}
+{'loss': 1.81, 'grad_norm': 2.159264326095581, 'learning_rate': 2.4512591389114544e-06, 'epoch': 1.69}
+{'loss': 1.8095, 'grad_norm': 2.2232203483581543, 'learning_rate': 2.4492282696994317e-06, 'epoch': 1.69}
+{'loss': 1.8149, 'grad_norm': 2.1755056381225586, 'learning_rate': 2.447197400487409e-06, 'epoch': 1.69}
+{'loss': 1.8154, 'grad_norm': 2.325871467590332, 'learning_rate': 2.4451665312753862e-06, 'epoch': 1.7}
+{'loss': 1.8409, 'grad_norm': 2.286848545074463, 'learning_rate': 2.4431356620633635e-06, 'epoch': 1.7}
+{'loss': 1.843, 'grad_norm': 2.359510898590088, 'learning_rate': 2.4411047928513408e-06, 'epoch': 1.7}
+{'loss': 1.8089, 'grad_norm': 2.474428176879883, 'learning_rate': 2.439073923639318e-06, 'epoch': 1.7}
+{'eval_loss': 2.0077731609344482, 'eval_runtime': 37.1092, 'eval_samples_per_second': 26.947, 'eval_steps_per_second': 1.132, 'epoch': 1.7}
+{'loss': 1.8176, 'grad_norm': 2.3662912845611572, 'learning_rate': 2.4370430544272953e-06, 'epoch': 1.7}
+{'loss': 1.7776, 'grad_norm': 2.448948860168457, 'learning_rate': 2.435012185215272e-06, 'epoch': 1.7}
+{'loss': 1.7552, 'grad_norm': 2.333739757537842, 'learning_rate': 2.4329813160032495e-06, 'epoch': 1.7}
+{'loss': 1.7759, 'grad_norm': 2.170365571975708, 'learning_rate': 2.4309504467912267e-06, 'epoch': 1.7}
+{'loss': 1.8073, 'grad_norm': 2.2343010902404785, 'learning_rate': 2.428919577579204e-06, 'epoch': 1.7}
+{'loss': 1.7826, 'grad_norm': 2.2245287895202637, 'learning_rate': 2.4268887083671813e-06, 'epoch': 1.71}
+{'loss': 1.8766, 'grad_norm': 2.339942216873169, 'learning_rate': 2.4248578391551586e-06, 'epoch': 1.71}
+{'loss': 1.7605, 'grad_norm': 2.1585116386413574, 'learning_rate': 2.422826969943136e-06, 'epoch': 1.71}
+{'loss': 1.7855, 'grad_norm': 2.2108142375946045, 'learning_rate': 2.420796100731113e-06, 'epoch': 1.71}
+{'loss': 1.7489, 'grad_norm': 2.192457675933838, 'learning_rate': 2.4187652315190904e-06, 'epoch': 1.71}
+{'eval_loss': 2.0085604190826416, 'eval_runtime': 37.1105, 'eval_samples_per_second': 26.947, 'eval_steps_per_second': 1.132, 'epoch': 1.71}
+{'loss': 1.7981, 'grad_norm': 2.291106939315796, 'learning_rate': 2.4167343623070677e-06, 'epoch': 1.71}
+{'loss': 1.8146, 'grad_norm': 2.509237766265869, 'learning_rate': 2.414703493095045e-06, 'epoch': 1.71}
+{'loss': 1.807, 'grad_norm': 2.497162342071533, 'learning_rate': 2.4126726238830222e-06, 'epoch': 1.71}
+{'loss': 1.8304, 'grad_norm': 2.256833076477051, 'learning_rate': 2.410641754670999e-06, 'epoch': 1.71}
+{'loss': 1.7794, 'grad_norm': 2.2523772716522217, 'learning_rate': 2.4086108854589763e-06, 'epoch': 1.72}
+{'loss': 1.8425, 'grad_norm': 2.289182424545288, 'learning_rate': 2.4065800162469536e-06, 'epoch': 1.72}
+{'loss': 1.7791, 'grad_norm': 2.734487771987915, 'learning_rate': 2.404549147034931e-06, 'epoch': 1.72}
+{'loss': 1.8064, 'grad_norm': 2.3307888507843018, 'learning_rate': 2.402518277822908e-06, 'epoch': 1.72}
+{'loss': 1.8544, 'grad_norm': 2.5016298294067383, 'learning_rate': 2.4004874086108854e-06, 'epoch': 1.72}
+{'loss': 1.7653, 'grad_norm': 2.142246961593628, 'learning_rate': 2.3984565393988627e-06, 'epoch': 1.72}
+{'eval_loss': 2.0068864822387695, 'eval_runtime': 37.1078, 'eval_samples_per_second': 26.949, 'eval_steps_per_second': 1.132, 'epoch': 1.72}
+{'loss': 1.8444, 'grad_norm': 2.5692505836486816, 'learning_rate': 2.39642567018684e-06, 'epoch': 1.72}
+{'loss': 1.7694, 'grad_norm': 2.2596213817596436, 'learning_rate': 2.3943948009748173e-06, 'epoch': 1.72}
+{'loss': 1.786, 'grad_norm': 2.230984926223755, 'learning_rate': 2.3923639317627945e-06, 'epoch': 1.72}
+{'loss': 1.8138, 'grad_norm': 2.366178274154663, 'learning_rate': 2.390333062550772e-06, 'epoch': 1.72}
+{'loss': 1.7615, 'grad_norm': 2.23783016204834, 'learning_rate': 2.388302193338749e-06, 'epoch': 1.73}
+{'loss': 1.6811, 'grad_norm': 2.3766677379608154, 'learning_rate': 2.3862713241267264e-06, 'epoch': 1.73}
+{'loss': 1.8806, 'grad_norm': 2.3434040546417236, 'learning_rate': 2.3842404549147037e-06, 'epoch': 1.73}
+{'loss': 1.7968, 'grad_norm': 2.2444276809692383, 'learning_rate': 2.382209585702681e-06, 'epoch': 1.73}
+{'loss': 1.7602, 'grad_norm': 2.2524919509887695, 'learning_rate': 2.380178716490658e-06, 'epoch': 1.73}
+{'loss': 1.8414, 'grad_norm': 2.3310587406158447, 'learning_rate': 2.3781478472786355e-06, 'epoch': 1.73}
+{'eval_loss': 1.9981482028961182, 'eval_runtime': 37.0827, 'eval_samples_per_second': 26.967, 'eval_steps_per_second': 1.133, 'epoch': 1.73}
+{'loss': 1.8002, 'grad_norm': 2.4081802368164062, 'learning_rate': 2.3761169780666128e-06, 'epoch': 1.73}
+{'loss': 1.8365, 'grad_norm': 2.293506622314453, 'learning_rate': 2.37408610885459e-06, 'epoch': 1.73}
+{'loss': 1.8571, 'grad_norm': 2.2015790939331055, 'learning_rate': 2.3720552396425673e-06, 'epoch': 1.73}
+{'loss': 1.7821, 'grad_norm': 2.308809518814087, 'learning_rate': 2.3700243704305446e-06, 'epoch': 1.74}
+{'loss': 1.8701, 'grad_norm': 2.376842975616455, 'learning_rate': 2.367993501218522e-06, 'epoch': 1.74}
+{'loss': 1.8055, 'grad_norm': 2.4102022647857666, 'learning_rate': 2.365962632006499e-06, 'epoch': 1.74}
+{'loss': 1.8117, 'grad_norm': 2.2734079360961914, 'learning_rate': 2.3639317627944764e-06, 'epoch': 1.74}
+{'loss': 1.8337, 'grad_norm': 2.3426599502563477, 'learning_rate': 2.3619008935824537e-06, 'epoch': 1.74}
+{'loss': 1.8247, 'grad_norm': 2.340383768081665, 'learning_rate': 2.3598700243704305e-06, 'epoch': 1.74}
+{'loss': 1.8249, 'grad_norm': 2.2561380863189697, 'learning_rate': 2.357839155158408e-06, 'epoch': 1.74}
+{'eval_loss': 1.9979513883590698, 'eval_runtime': 37.0948, 'eval_samples_per_second': 26.958, 'eval_steps_per_second': 1.132, 'epoch': 1.74}
+{'loss': 1.8273, 'grad_norm': 2.2459654808044434, 'learning_rate': 2.355808285946385e-06, 'epoch': 1.74}
+{'loss': 1.828, 'grad_norm': 2.2017974853515625, 'learning_rate': 2.3537774167343624e-06, 'epoch': 1.74}
+{'loss': 1.8497, 'grad_norm': 2.286304235458374, 'learning_rate': 2.3517465475223396e-06, 'epoch': 1.75}
+{'loss': 1.8155, 'grad_norm': 2.296494722366333, 'learning_rate': 2.349715678310317e-06, 'epoch': 1.75}
+{'loss': 1.8214, 'grad_norm': 2.2989203929901123, 'learning_rate': 2.347684809098294e-06, 'epoch': 1.75}
+{'loss': 1.7792, 'grad_norm': 2.3034965991973877, 'learning_rate': 2.3456539398862715e-06, 'epoch': 1.75}
+{'loss': 1.8326, 'grad_norm': 2.3823719024658203, 'learning_rate': 2.3436230706742487e-06, 'epoch': 1.75}
+{'loss': 1.7713, 'grad_norm': 2.231095552444458, 'learning_rate': 2.341592201462226e-06, 'epoch': 1.75}
+{'loss': 1.8143, 'grad_norm': 2.287524938583374, 'learning_rate': 2.3395613322502033e-06, 'epoch': 1.75}
+{'loss': 1.7883, 'grad_norm': 2.267552614212036, 'learning_rate': 2.3375304630381806e-06, 'epoch': 1.75}
+{'eval_loss': 1.998821496963501, 'eval_runtime': 37.1222, 'eval_samples_per_second': 26.938, 'eval_steps_per_second': 1.131, 'epoch': 1.75}
+{'loss': 1.7615, 'grad_norm': 2.2986714839935303, 'learning_rate': 2.335499593826158e-06, 'epoch': 1.75}
+{'loss': 1.7584, 'grad_norm': 2.2913246154785156, 'learning_rate': 2.333468724614135e-06, 'epoch': 1.76}
+{'loss': 1.8089, 'grad_norm': 2.2486486434936523, 'learning_rate': 2.3314378554021124e-06, 'epoch': 1.76}
+{'loss': 1.8364, 'grad_norm': 2.319581985473633, 'learning_rate': 2.3294069861900897e-06, 'epoch': 1.76}
+{'loss': 1.7661, 'grad_norm': 2.2775609493255615, 'learning_rate': 2.327376116978067e-06, 'epoch': 1.76}
+{'loss': 1.7583, 'grad_norm': 2.3445472717285156, 'learning_rate': 2.3253452477660442e-06, 'epoch': 1.76}
+{'loss': 1.8411, 'grad_norm': 2.420865058898926, 'learning_rate': 2.3233143785540215e-06, 'epoch': 1.76}
+{'loss': 1.7812, 'grad_norm': 2.294821262359619, 'learning_rate': 2.3212835093419988e-06, 'epoch': 1.76}
+{'loss': 1.8252, 'grad_norm': 2.332784414291382, 'learning_rate': 2.319252640129976e-06, 'epoch': 1.76}
+{'loss': 1.7709, 'grad_norm': 2.433619499206543, 'learning_rate': 2.3172217709179533e-06, 'epoch': 1.76}
+{'eval_loss': 2.0010287761688232, 'eval_runtime': 36.7858, 'eval_samples_per_second': 27.184, 'eval_steps_per_second': 1.142, 'epoch': 1.76}
+{'loss': 1.8677, 'grad_norm': 2.532618522644043, 'learning_rate': 2.3151909017059306e-06, 'epoch': 1.77}
+{'loss': 1.8412, 'grad_norm': 2.354578733444214, 'learning_rate': 2.313160032493908e-06, 'epoch': 1.77}
+{'loss': 1.7543, 'grad_norm': 2.382774591445923, 'learning_rate': 2.311129163281885e-06, 'epoch': 1.77}
+{'loss': 1.8267, 'grad_norm': 2.3443398475646973, 'learning_rate': 2.309098294069862e-06, 'epoch': 1.77}
+{'loss': 1.7582, 'grad_norm': 2.3804502487182617, 'learning_rate': 2.3070674248578393e-06, 'epoch': 1.77}
+{'loss': 1.7539, 'grad_norm': 2.3163580894470215, 'learning_rate': 2.3050365556458166e-06, 'epoch': 1.77}
+{'loss': 1.8124, 'grad_norm': 2.605738639831543, 'learning_rate': 2.303005686433794e-06, 'epoch': 1.77}
+{'loss': 1.8271, 'grad_norm': 2.3859915733337402, 'learning_rate': 2.300974817221771e-06, 'epoch': 1.77}
+{'loss': 1.7823, 'grad_norm': 2.3715479373931885, 'learning_rate': 2.2989439480097484e-06, 'epoch': 1.77}
+{'loss': 1.7461, 'grad_norm': 2.441100597381592, 'learning_rate': 2.2969130787977257e-06, 'epoch': 1.78}
+{'eval_loss': 2.002152442932129, 'eval_runtime': 37.0246, 'eval_samples_per_second': 27.009, 'eval_steps_per_second': 1.134, 'epoch': 1.78}
+{'loss': 1.8012, 'grad_norm': 2.4154021739959717, 'learning_rate': 2.294882209585703e-06, 'epoch': 1.78}
+{'loss': 1.8222, 'grad_norm': 2.333400249481201, 'learning_rate': 2.2928513403736802e-06, 'epoch': 1.78}
+{'loss': 1.7561, 'grad_norm': 2.3183937072753906, 'learning_rate': 2.2908204711616575e-06, 'epoch': 1.78}
+{'loss': 1.7975, 'grad_norm': 2.302823066711426, 'learning_rate': 2.2887896019496348e-06, 'epoch': 1.78}
+{'loss': 1.8478, 'grad_norm': 2.3702917098999023, 'learning_rate': 2.286758732737612e-06, 'epoch': 1.78}
+{'loss': 1.7855, 'grad_norm': 2.4997549057006836, 'learning_rate': 2.284727863525589e-06, 'epoch': 1.78}
+{'loss': 1.7922, 'grad_norm': 2.296191930770874, 'learning_rate': 2.282696994313566e-06, 'epoch': 1.78}
+{'loss': 1.8455, 'grad_norm': 2.2567873001098633, 'learning_rate': 2.2806661251015434e-06, 'epoch': 1.78}
+{'loss': 1.8141, 'grad_norm': 2.393336534500122, 'learning_rate': 2.2786352558895207e-06, 'epoch': 1.79}
+{'loss': 1.7875, 'grad_norm': 2.610466480255127, 'learning_rate': 2.276604386677498e-06, 'epoch': 1.79}
+{'eval_loss': 1.9985637664794922, 'eval_runtime': 37.1001, 'eval_samples_per_second': 26.954, 'eval_steps_per_second': 1.132, 'epoch': 1.79}
+{'loss': 1.7479, 'grad_norm': 2.2163283824920654, 'learning_rate': 2.2745735174654753e-06, 'epoch': 1.79}
+{'loss': 1.7749, 'grad_norm': 2.2641165256500244, 'learning_rate': 2.2725426482534526e-06, 'epoch': 1.79}
+{'loss': 1.8403, 'grad_norm': 2.2786946296691895, 'learning_rate': 2.27051177904143e-06, 'epoch': 1.79}
+{'loss': 1.7994, 'grad_norm': 2.660356044769287, 'learning_rate': 2.268480909829407e-06, 'epoch': 1.79}
+{'loss': 1.7917, 'grad_norm': 2.322181224822998, 'learning_rate': 2.2664500406173844e-06, 'epoch': 1.79}
+{'loss': 1.7983, 'grad_norm': 2.3020682334899902, 'learning_rate': 2.2644191714053617e-06, 'epoch': 1.79}
+{'loss': 1.8378, 'grad_norm': 2.5280368328094482, 'learning_rate': 2.262388302193339e-06, 'epoch': 1.79}
+{'loss': 1.8081, 'grad_norm': 2.3975653648376465, 'learning_rate': 2.260357432981316e-06, 'epoch': 1.8}
+{'loss': 1.793, 'grad_norm': 2.419806957244873, 'learning_rate': 2.2583265637692935e-06, 'epoch': 1.8}
+{'loss': 1.8116, 'grad_norm': 2.4601471424102783, 'learning_rate': 2.2562956945572708e-06, 'epoch': 1.8}
+{'eval_loss': 1.9951634407043457, 'eval_runtime': 37.1095, 'eval_samples_per_second': 26.947, 'eval_steps_per_second': 1.132, 'epoch': 1.8}
+{'loss': 1.7845, 'grad_norm': 2.17830753326416, 'learning_rate': 2.254264825345248e-06, 'epoch': 1.8}
+{'loss': 1.7945, 'grad_norm': 2.3332247734069824, 'learning_rate': 2.2522339561332253e-06, 'epoch': 1.8}
+{'loss': 1.7994, 'grad_norm': 2.3841960430145264, 'learning_rate': 2.2502030869212026e-06, 'epoch': 1.8}
+{'loss': 1.8053, 'grad_norm': 2.3669073581695557, 'learning_rate': 2.24817221770918e-06, 'epoch': 1.8}
+{'loss': 1.8647, 'grad_norm': 2.406858205795288, 'learning_rate': 2.246141348497157e-06, 'epoch': 1.8}
+{'loss': 1.8312, 'grad_norm': 2.2854161262512207, 'learning_rate': 2.2441104792851344e-06, 'epoch': 1.8}
+{'loss': 1.7834, 'grad_norm': 2.252976655960083, 'learning_rate': 2.2420796100731117e-06, 'epoch': 1.8}
+{'loss': 1.8204, 'grad_norm': 2.4131624698638916, 'learning_rate': 2.240048740861089e-06, 'epoch': 1.81}
+{'loss': 1.8326, 'grad_norm': 2.4727940559387207, 'learning_rate': 2.2380178716490662e-06, 'epoch': 1.81}
+{'loss': 1.6911, 'grad_norm': 2.4432709217071533, 'learning_rate': 2.2359870024370435e-06, 'epoch': 1.81}
+{'eval_loss': 1.996634840965271, 'eval_runtime': 37.072, 'eval_samples_per_second': 26.975, 'eval_steps_per_second': 1.133, 'epoch': 1.81}
+{'loss': 1.8256, 'grad_norm': 2.3810362815856934, 'learning_rate': 2.2339561332250204e-06, 'epoch': 1.81}
+{'loss': 1.8368, 'grad_norm': 2.4489142894744873, 'learning_rate': 2.2319252640129976e-06, 'epoch': 1.81}
+{'loss': 1.8176, 'grad_norm': 2.458686113357544, 'learning_rate': 2.229894394800975e-06, 'epoch': 1.81}
+{'loss': 1.7516, 'grad_norm': 2.3977842330932617, 'learning_rate': 2.227863525588952e-06, 'epoch': 1.81}
+{'loss': 1.732, 'grad_norm': 2.3777663707733154, 'learning_rate': 2.2258326563769295e-06, 'epoch': 1.81}
+{'loss': 1.749, 'grad_norm': 2.2874817848205566, 'learning_rate': 2.2238017871649067e-06, 'epoch': 1.81}
+{'loss': 1.7357, 'grad_norm': 2.288114547729492, 'learning_rate': 2.221770917952884e-06, 'epoch': 1.82}
+{'loss': 1.7953, 'grad_norm': 2.3532187938690186, 'learning_rate': 2.2197400487408613e-06, 'epoch': 1.82}
+{'loss': 1.8358, 'grad_norm': 2.2829396724700928, 'learning_rate': 2.2177091795288386e-06, 'epoch': 1.82}
+{'loss': 1.7448, 'grad_norm': 2.3282570838928223, 'learning_rate': 2.215678310316816e-06, 'epoch': 1.82}
+{'eval_loss': 1.999374270439148, 'eval_runtime': 37.0739, 'eval_samples_per_second': 26.973, 'eval_steps_per_second': 1.133, 'epoch': 1.82}
+{'loss': 1.7979, 'grad_norm': 2.474106788635254, 'learning_rate': 2.213647441104793e-06, 'epoch': 1.82}
+{'loss': 1.8075, 'grad_norm': 2.159498453140259, 'learning_rate': 2.2116165718927704e-06, 'epoch': 1.82}
+{'loss': 1.7742, 'grad_norm': 2.2503573894500732, 'learning_rate': 2.2095857026807473e-06, 'epoch': 1.82}
+{'loss': 1.8067, 'grad_norm': 2.4465060234069824, 'learning_rate': 2.2075548334687245e-06, 'epoch': 1.82}
+{'loss': 1.7456, 'grad_norm': 2.462158679962158, 'learning_rate': 2.205523964256702e-06, 'epoch': 1.82}
+{'loss': 1.7688, 'grad_norm': 2.354051113128662, 'learning_rate': 2.203493095044679e-06, 'epoch': 1.83}
+{'loss': 1.7986, 'grad_norm': 2.3165128231048584, 'learning_rate': 2.2014622258326564e-06, 'epoch': 1.83}
+{'loss': 1.8348, 'grad_norm': 2.3131113052368164, 'learning_rate': 2.1994313566206336e-06, 'epoch': 1.83}
+{'loss': 1.8413, 'grad_norm': 2.303086996078491, 'learning_rate': 2.197400487408611e-06, 'epoch': 1.83}
+{'loss': 1.7663, 'grad_norm': 2.392995834350586, 'learning_rate': 2.195369618196588e-06, 'epoch': 1.83}
+{'eval_loss': 1.9936721324920654, 'eval_runtime': 37.0717, 'eval_samples_per_second': 26.975, 'eval_steps_per_second': 1.133, 'epoch': 1.83}
+{'loss': 1.7463, 'grad_norm': 2.323596477508545, 'learning_rate': 2.1933387489845655e-06, 'epoch': 1.83}
+{'loss': 1.7844, 'grad_norm': 2.3553171157836914, 'learning_rate': 2.1913078797725427e-06, 'epoch': 1.83}
+{'loss': 1.7955, 'grad_norm': 2.3724591732025146, 'learning_rate': 2.18927701056052e-06, 'epoch': 1.83}
+{'loss': 1.8697, 'grad_norm': 2.4300284385681152, 'learning_rate': 2.1872461413484973e-06, 'epoch': 1.83}
+{'loss': 1.8065, 'grad_norm': 2.4300284385681152, 'learning_rate': 2.1872461413484973e-06, 'epoch': 1.84}
+{'loss': 1.801, 'grad_norm': 2.523627519607544, 'learning_rate': 2.1852152721364746e-06, 'epoch': 1.84}
+{'loss': 1.7512, 'grad_norm': 2.2884891033172607, 'learning_rate': 2.183184402924452e-06, 'epoch': 1.84}
+{'loss': 1.8245, 'grad_norm': 2.3114986419677734, 'learning_rate': 2.181153533712429e-06, 'epoch': 1.84}
+{'loss': 1.7921, 'grad_norm': 2.326855421066284, 'learning_rate': 2.1791226645004064e-06, 'epoch': 1.84}
+{'loss': 1.7709, 'grad_norm': 2.3448753356933594, 'learning_rate': 2.1770917952883837e-06, 'epoch': 1.84}
+{'eval_loss': 1.996195673942566, 'eval_runtime': 37.0481, 'eval_samples_per_second': 26.992, 'eval_steps_per_second': 1.134, 'epoch': 1.84}
+{'loss': 1.8468, 'grad_norm': 2.223470687866211, 'learning_rate': 2.175060926076361e-06, 'epoch': 1.84}
+{'loss': 1.8753, 'grad_norm': 2.29726505279541, 'learning_rate': 2.1730300568643382e-06, 'epoch': 1.84}
+{'loss': 1.7835, 'grad_norm': 2.3869571685791016, 'learning_rate': 2.1709991876523155e-06, 'epoch': 1.84}
+{'loss': 1.7556, 'grad_norm': 2.192608594894409, 'learning_rate': 2.1689683184402928e-06, 'epoch': 1.85}
+{'loss': 1.8323, 'grad_norm': 2.355975866317749, 'learning_rate': 2.16693744922827e-06, 'epoch': 1.85}
+{'loss': 1.7942, 'grad_norm': 2.243938446044922, 'learning_rate': 2.1649065800162473e-06, 'epoch': 1.85}
+{'loss': 1.7709, 'grad_norm': 2.337069511413574, 'learning_rate': 2.1628757108042246e-06, 'epoch': 1.85}
+{'loss': 1.7496, 'grad_norm': 2.257504463195801, 'learning_rate': 2.160844841592202e-06, 'epoch': 1.85}
+{'loss': 1.7454, 'grad_norm': 2.287336826324463, 'learning_rate': 2.1588139723801787e-06, 'epoch': 1.85}
+{'loss': 1.7807, 'grad_norm': 2.2864668369293213, 'learning_rate': 2.156783103168156e-06, 'epoch': 1.85}
+{'eval_loss': 1.9940879344940186, 'eval_runtime': 37.0261, 'eval_samples_per_second': 27.008, 'eval_steps_per_second': 1.134, 'epoch': 1.85}
+{'loss': 1.7567, 'grad_norm': 2.1782145500183105, 'learning_rate': 2.1547522339561333e-06, 'epoch': 1.85}
+{'loss': 1.811, 'grad_norm': 2.252023458480835, 'learning_rate': 2.1527213647441106e-06, 'epoch': 1.85}
+{'loss': 1.8491, 'grad_norm': 2.2532849311828613, 'learning_rate': 2.150690495532088e-06, 'epoch': 1.86}
+{'loss': 1.8125, 'grad_norm': 2.35648250579834, 'learning_rate': 2.148659626320065e-06, 'epoch': 1.86}
+{'loss': 1.8035, 'grad_norm': 2.3490521907806396, 'learning_rate': 2.1466287571080424e-06, 'epoch': 1.86}
+{'loss': 1.7755, 'grad_norm': 2.2851879596710205, 'learning_rate': 2.1445978878960197e-06, 'epoch': 1.86}
+{'loss': 1.7861, 'grad_norm': 2.166754961013794, 'learning_rate': 2.142567018683997e-06, 'epoch': 1.86}
+{'loss': 1.8412, 'grad_norm': 2.2356410026550293, 'learning_rate': 2.140536149471974e-06, 'epoch': 1.86}
+{'loss': 1.7623, 'grad_norm': 2.215618133544922, 'learning_rate': 2.1385052802599515e-06, 'epoch': 1.86}
+{'loss': 1.7692, 'grad_norm': 2.283298969268799, 'learning_rate': 2.1364744110479288e-06, 'epoch': 1.86}
+{'eval_loss': 1.9961501359939575, 'eval_runtime': 37.0338, 'eval_samples_per_second': 27.002, 'eval_steps_per_second': 1.134, 'epoch': 1.86}
+{'loss': 1.8251, 'grad_norm': 2.292818546295166, 'learning_rate': 2.134443541835906e-06, 'epoch': 1.86}
+{'loss': 1.7726, 'grad_norm': 2.235895872116089, 'learning_rate': 2.132412672623883e-06, 'epoch': 1.87}
+{'loss': 1.7509, 'grad_norm': 2.239413022994995, 'learning_rate': 2.13038180341186e-06, 'epoch': 1.87}
+{'loss': 1.7973, 'grad_norm': 2.4125585556030273, 'learning_rate': 2.1283509341998374e-06, 'epoch': 1.87}
+{'loss': 1.8526, 'grad_norm': 2.3774733543395996, 'learning_rate': 2.1263200649878147e-06, 'epoch': 1.87}
+{'loss': 1.7708, 'grad_norm': 2.344918966293335, 'learning_rate': 2.124289195775792e-06, 'epoch': 1.87}
+{'loss': 1.7935, 'grad_norm': 2.1933865547180176, 'learning_rate': 2.1222583265637693e-06, 'epoch': 1.87}
+{'loss': 1.706, 'grad_norm': 2.4939582347869873, 'learning_rate': 2.1202274573517465e-06, 'epoch': 1.87}
+{'loss': 1.7522, 'grad_norm': 2.407532215118408, 'learning_rate': 2.118196588139724e-06, 'epoch': 1.87}
+{'loss': 1.7558, 'grad_norm': 2.297900915145874, 'learning_rate': 2.116165718927701e-06, 'epoch': 1.87}
+{'eval_loss': 1.9946404695510864, 'eval_runtime': 36.7569, 'eval_samples_per_second': 27.206, 'eval_steps_per_second': 1.143, 'epoch': 1.87}
+{'loss': 1.7836, 'grad_norm': 2.2298660278320312, 'learning_rate': 2.1141348497156784e-06, 'epoch': 1.88}
+{'loss': 1.7616, 'grad_norm': 2.308060884475708, 'learning_rate': 2.1121039805036556e-06, 'epoch': 1.88}
+{'loss': 1.7502, 'grad_norm': 2.288381338119507, 'learning_rate': 2.110073111291633e-06, 'epoch': 1.88}
+{'loss': 1.7946, 'grad_norm': 2.2191097736358643, 'learning_rate': 2.10804224207961e-06, 'epoch': 1.88}
+{'loss': 1.8238, 'grad_norm': 2.211777925491333, 'learning_rate': 2.1060113728675875e-06, 'epoch': 1.88}
+{'loss': 1.8146, 'grad_norm': 2.3946406841278076, 'learning_rate': 2.1039805036555647e-06, 'epoch': 1.88}
+{'loss': 1.6877, 'grad_norm': 2.2949914932250977, 'learning_rate': 2.101949634443542e-06, 'epoch': 1.88}
+{'loss': 1.7868, 'grad_norm': 2.2905256748199463, 'learning_rate': 2.0999187652315193e-06, 'epoch': 1.88}
+{'loss': 1.7387, 'grad_norm': 2.289280891418457, 'learning_rate': 2.0978878960194966e-06, 'epoch': 1.88}
+{'loss': 1.8002, 'grad_norm': 2.35497784614563, 'learning_rate': 2.095857026807474e-06, 'epoch': 1.88}
+{'eval_loss': 1.9928913116455078, 'eval_runtime': 36.9289, 'eval_samples_per_second': 27.079, 'eval_steps_per_second': 1.137, 'epoch': 1.88}
+{'loss': 1.7981, 'grad_norm': 2.4404468536376953, 'learning_rate': 2.093826157595451e-06, 'epoch': 1.89}
+{'loss': 1.7581, 'grad_norm': 2.315718173980713, 'learning_rate': 2.0917952883834284e-06, 'epoch': 1.89}
+{'loss': 1.8153, 'grad_norm': 2.2984843254089355, 'learning_rate': 2.0897644191714057e-06, 'epoch': 1.89}
+{'loss': 1.831, 'grad_norm': 2.3332557678222656, 'learning_rate': 2.087733549959383e-06, 'epoch': 1.89}
+{'loss': 1.7486, 'grad_norm': 2.3394649028778076, 'learning_rate': 2.0857026807473602e-06, 'epoch': 1.89}
+{'loss': 1.721, 'grad_norm': 2.2985246181488037, 'learning_rate': 2.0836718115353375e-06, 'epoch': 1.89}
+{'loss': 1.8469, 'grad_norm': 2.318504810333252, 'learning_rate': 2.0816409423233144e-06, 'epoch': 1.89}
+{'loss': 1.7525, 'grad_norm': 2.4938831329345703, 'learning_rate': 2.0796100731112916e-06, 'epoch': 1.89}
+{'loss': 1.7733, 'grad_norm': 2.3391780853271484, 'learning_rate': 2.077579203899269e-06, 'epoch': 1.89}
+{'loss': 1.7344, 'grad_norm': 2.437540054321289, 'learning_rate': 2.075548334687246e-06, 'epoch': 1.9}
+{'eval_loss': 1.990493655204773, 'eval_runtime': 37.0347, 'eval_samples_per_second': 27.002, 'eval_steps_per_second': 1.134, 'epoch': 1.9}
+{'loss': 1.7978, 'grad_norm': 2.413628578186035, 'learning_rate': 2.0735174654752235e-06, 'epoch': 1.9}
+{'loss': 1.7414, 'grad_norm': 2.3673973083496094, 'learning_rate': 2.0714865962632007e-06, 'epoch': 1.9}
+{'loss': 1.7854, 'grad_norm': 2.3961968421936035, 'learning_rate': 2.069455727051178e-06, 'epoch': 1.9}
+{'loss': 1.7629, 'grad_norm': 2.5583736896514893, 'learning_rate': 2.0674248578391553e-06, 'epoch': 1.9}
+{'loss': 1.7845, 'grad_norm': 2.256418228149414, 'learning_rate': 2.0653939886271326e-06, 'epoch': 1.9}
+{'loss': 1.8151, 'grad_norm': 2.4235012531280518, 'learning_rate': 2.06336311941511e-06, 'epoch': 1.9}
+{'loss': 1.7665, 'grad_norm': 2.2945358753204346, 'learning_rate': 2.061332250203087e-06, 'epoch': 1.9}
+{'loss': 1.7355, 'grad_norm': 2.371809959411621, 'learning_rate': 2.0593013809910644e-06, 'epoch': 1.9}
+{'loss': 1.7702, 'grad_norm': 2.26947021484375, 'learning_rate': 2.0572705117790417e-06, 'epoch': 1.91}
+{'loss': 1.8084, 'grad_norm': 2.314237356185913, 'learning_rate': 2.055239642567019e-06, 'epoch': 1.91}
+{'eval_loss': 1.9961000680923462, 'eval_runtime': 37.0775, 'eval_samples_per_second': 26.971, 'eval_steps_per_second': 1.133, 'epoch': 1.91}
+{'loss': 1.7898, 'grad_norm': 2.248680591583252, 'learning_rate': 2.0532087733549962e-06, 'epoch': 1.91}
+{'loss': 1.795, 'grad_norm': 2.336378812789917, 'learning_rate': 2.0511779041429735e-06, 'epoch': 1.91}
+{'loss': 1.76, 'grad_norm': 2.2420554161071777, 'learning_rate': 2.0491470349309508e-06, 'epoch': 1.91}
+{'loss': 1.7959, 'grad_norm': 2.3305511474609375, 'learning_rate': 2.047116165718928e-06, 'epoch': 1.91}
+{'loss': 1.7922, 'grad_norm': 2.2677786350250244, 'learning_rate': 2.0450852965069053e-06, 'epoch': 1.91}
+{'loss': 1.841, 'grad_norm': 2.224148988723755, 'learning_rate': 2.0430544272948826e-06, 'epoch': 1.91}
+{'loss': 1.784, 'grad_norm': 2.172091245651245, 'learning_rate': 2.04102355808286e-06, 'epoch': 1.91}
+{'loss': 1.7238, 'grad_norm': 2.319962501525879, 'learning_rate': 2.038992688870837e-06, 'epoch': 1.92}
+{'loss': 1.7501, 'grad_norm': 2.299760103225708, 'learning_rate': 2.0369618196588144e-06, 'epoch': 1.92}
+{'loss': 1.7628, 'grad_norm': 2.218407154083252, 'learning_rate': 2.0349309504467917e-06, 'epoch': 1.92}
+{'eval_loss': 1.9934331178665161, 'eval_runtime': 37.0986, 'eval_samples_per_second': 26.955, 'eval_steps_per_second': 1.132, 'epoch': 1.92}
+{'loss': 1.8128, 'grad_norm': 2.4121744632720947, 'learning_rate': 2.032900081234769e-06, 'epoch': 1.92}
+{'loss': 1.8161, 'grad_norm': 2.253225326538086, 'learning_rate': 2.030869212022746e-06, 'epoch': 1.92}
+{'loss': 1.7769, 'grad_norm': 2.28702449798584, 'learning_rate': 2.028838342810723e-06, 'epoch': 1.92}
+{'loss': 1.7631, 'grad_norm': 2.3004465103149414, 'learning_rate': 2.0268074735987004e-06, 'epoch': 1.92}
+{'loss': 1.75, 'grad_norm': 2.2733960151672363, 'learning_rate': 2.0247766043866777e-06, 'epoch': 1.92}
+{'loss': 1.8317, 'grad_norm': 2.274019241333008, 'learning_rate': 2.022745735174655e-06, 'epoch': 1.92}
+{'loss': 1.7841, 'grad_norm': 2.3094100952148438, 'learning_rate': 2.020714865962632e-06, 'epoch': 1.93}
+{'loss': 1.8052, 'grad_norm': 2.269321918487549, 'learning_rate': 2.0186839967506095e-06, 'epoch': 1.93}
+{'loss': 1.7916, 'grad_norm': 2.5324459075927734, 'learning_rate': 2.0166531275385868e-06, 'epoch': 1.93}
+{'loss': 1.7499, 'grad_norm': 2.302569627761841, 'learning_rate': 2.014622258326564e-06, 'epoch': 1.93}
+{'eval_loss': 1.9879337549209595, 'eval_runtime': 37.1186, 'eval_samples_per_second': 26.941, 'eval_steps_per_second': 1.132, 'epoch': 1.93}
+{'loss': 1.7922, 'grad_norm': 2.29470157623291, 'learning_rate': 2.0125913891145413e-06, 'epoch': 1.93}
+{'loss': 1.7802, 'grad_norm': 2.4307754039764404, 'learning_rate': 2.0105605199025186e-06, 'epoch': 1.93}
+{'loss': 1.7391, 'grad_norm': 2.179588794708252, 'learning_rate': 2.008529650690496e-06, 'epoch': 1.93}
+{'loss': 1.8106, 'grad_norm': 2.5824451446533203, 'learning_rate': 2.0064987814784727e-06, 'epoch': 1.93}
+{'loss': 1.7689, 'grad_norm': 2.32308292388916, 'learning_rate': 2.00446791226645e-06, 'epoch': 1.93}
+{'loss': 1.7604, 'grad_norm': 2.262533664703369, 'learning_rate': 2.0024370430544273e-06, 'epoch': 1.94}
+{'loss': 1.7695, 'grad_norm': 2.325253963470459, 'learning_rate': 2.0004061738424045e-06, 'epoch': 1.94}
+{'loss': 1.8233, 'grad_norm': 2.2855470180511475, 'learning_rate': 1.998375304630382e-06, 'epoch': 1.94}
+{'loss': 1.7799, 'grad_norm': 2.3688673973083496, 'learning_rate': 1.996344435418359e-06, 'epoch': 1.94}
+{'loss': 1.8036, 'grad_norm': 2.4682323932647705, 'learning_rate': 1.9943135662063364e-06, 'epoch': 1.94}
+{'eval_loss': 1.9906389713287354, 'eval_runtime': 37.0959, 'eval_samples_per_second': 26.957, 'eval_steps_per_second': 1.132, 'epoch': 1.94}
+{'loss': 1.7878, 'grad_norm': 2.369166374206543, 'learning_rate': 1.9922826969943136e-06, 'epoch': 1.94}
+{'loss': 1.8228, 'grad_norm': 2.4669666290283203, 'learning_rate': 1.990251827782291e-06, 'epoch': 1.94}
+{'loss': 1.7997, 'grad_norm': 2.3083250522613525, 'learning_rate': 1.988220958570268e-06, 'epoch': 1.94}
+{'loss': 1.8105, 'grad_norm': 2.4884281158447266, 'learning_rate': 1.9861900893582455e-06, 'epoch': 1.94}
+{'loss': 1.8159, 'grad_norm': 2.3504858016967773, 'learning_rate': 1.9841592201462227e-06, 'epoch': 1.95}
+{'loss': 1.7352, 'grad_norm': 2.618431329727173, 'learning_rate': 1.9821283509342e-06, 'epoch': 1.95}
+{'loss': 1.7451, 'grad_norm': 2.3452653884887695, 'learning_rate': 1.9800974817221773e-06, 'epoch': 1.95}
+{'loss': 1.7965, 'grad_norm': 2.5966849327087402, 'learning_rate': 1.9780666125101546e-06, 'epoch': 1.95}
+{'loss': 1.7629, 'grad_norm': 2.3017661571502686, 'learning_rate': 1.976035743298132e-06, 'epoch': 1.95}
+{'loss': 1.8403, 'grad_norm': 2.3766098022460938, 'learning_rate': 1.974004874086109e-06, 'epoch': 1.95}
+{'eval_loss': 1.9936374425888062, 'eval_runtime': 37.1158, 'eval_samples_per_second': 26.943, 'eval_steps_per_second': 1.132, 'epoch': 1.95}
+{'loss': 1.7096, 'grad_norm': 2.2327704429626465, 'learning_rate': 1.9719740048740864e-06, 'epoch': 1.95}
+{'loss': 1.7636, 'grad_norm': 2.458707809448242, 'learning_rate': 1.9699431356620637e-06, 'epoch': 1.95}
+{'loss': 1.757, 'grad_norm': 2.4143803119659424, 'learning_rate': 1.967912266450041e-06, 'epoch': 1.95}
+{'loss': 1.7526, 'grad_norm': 2.465148448944092, 'learning_rate': 1.9658813972380182e-06, 'epoch': 1.96}
+{'loss': 1.8705, 'grad_norm': 2.356210231781006, 'learning_rate': 1.9638505280259955e-06, 'epoch': 1.96}
+{'loss': 1.7574, 'grad_norm': 2.7456002235412598, 'learning_rate': 1.9618196588139728e-06, 'epoch': 1.96}
+{'loss': 1.7854, 'grad_norm': 2.3724262714385986, 'learning_rate': 1.95978878960195e-06, 'epoch': 1.96}
+{'loss': 1.8447, 'grad_norm': 2.275827646255493, 'learning_rate': 1.9577579203899273e-06, 'epoch': 1.96}
+{'loss': 1.8299, 'grad_norm': 2.369992256164551, 'learning_rate': 1.955727051177904e-06, 'epoch': 1.96}
+{'loss': 1.7596, 'grad_norm': 2.462372064590454, 'learning_rate': 1.9536961819658815e-06, 'epoch': 1.96}
+{'eval_loss': 1.9947243928909302, 'eval_runtime': 37.111, 'eval_samples_per_second': 26.946, 'eval_steps_per_second': 1.132, 'epoch': 1.96}
+{'loss': 1.7391, 'grad_norm': 2.3040034770965576, 'learning_rate': 1.9516653127538587e-06, 'epoch': 1.96}
+{'loss': 1.7428, 'grad_norm': 2.449328899383545, 'learning_rate': 1.949634443541836e-06, 'epoch': 1.96}
+{'loss': 1.738, 'grad_norm': 2.2679781913757324, 'learning_rate': 1.9476035743298133e-06, 'epoch': 1.96}
+{'loss': 1.8089, 'grad_norm': 2.3444032669067383, 'learning_rate': 1.9455727051177906e-06, 'epoch': 1.97}
+{'loss': 1.7718, 'grad_norm': 2.3005306720733643, 'learning_rate': 1.943541835905768e-06, 'epoch': 1.97}
+{'loss': 1.8325, 'grad_norm': 2.6022629737854004, 'learning_rate': 1.941510966693745e-06, 'epoch': 1.97}
+{'loss': 1.737, 'grad_norm': 2.407585382461548, 'learning_rate': 1.9394800974817224e-06, 'epoch': 1.97}
+{'loss': 1.81, 'grad_norm': 2.349339723587036, 'learning_rate': 1.9374492282696997e-06, 'epoch': 1.97}
+{'loss': 1.8424, 'grad_norm': 2.296192169189453, 'learning_rate': 1.935418359057677e-06, 'epoch': 1.97}
+{'loss': 1.7977, 'grad_norm': 2.175875663757324, 'learning_rate': 1.9333874898456542e-06, 'epoch': 1.97}
+{'eval_loss': 1.9929841756820679, 'eval_runtime': 37.1159, 'eval_samples_per_second': 26.943, 'eval_steps_per_second': 1.132, 'epoch': 1.97}
+{'loss': 1.8248, 'grad_norm': 2.37428617477417, 'learning_rate': 1.931356620633631e-06, 'epoch': 1.97}
+{'loss': 1.7215, 'grad_norm': 2.297621965408325, 'learning_rate': 1.9293257514216083e-06, 'epoch': 1.97}
+{'loss': 1.7828, 'grad_norm': 2.217275857925415, 'learning_rate': 1.9272948822095856e-06, 'epoch': 1.98}
+{'loss': 1.7245, 'grad_norm': 2.250854015350342, 'learning_rate': 1.925264012997563e-06, 'epoch': 1.98}
+{'loss': 1.7715, 'grad_norm': 2.2556822299957275, 'learning_rate': 1.92323314378554e-06, 'epoch': 1.98}
+{'loss': 1.8063, 'grad_norm': 2.316389322280884, 'learning_rate': 1.9212022745735174e-06, 'epoch': 1.98}
+{'loss': 1.747, 'grad_norm': 2.4358153343200684, 'learning_rate': 1.9191714053614947e-06, 'epoch': 1.98}
+{'loss': 1.7485, 'grad_norm': 2.437631368637085, 'learning_rate': 1.917140536149472e-06, 'epoch': 1.98}
+{'loss': 1.7195, 'grad_norm': 2.3554601669311523, 'learning_rate': 1.9151096669374493e-06, 'epoch': 1.98}
+{'loss': 1.8368, 'grad_norm': 2.575559616088867, 'learning_rate': 1.9130787977254266e-06, 'epoch': 1.98}
+{'eval_loss': 1.9903514385223389, 'eval_runtime': 36.8082, 'eval_samples_per_second': 27.168, 'eval_steps_per_second': 1.141, 'epoch': 1.98}
+{'loss': 1.7952, 'grad_norm': 2.3074066638946533, 'learning_rate': 1.911047928513404e-06, 'epoch': 1.98}
+{'loss': 1.7455, 'grad_norm': 2.3162307739257812, 'learning_rate': 1.909017059301381e-06, 'epoch': 1.99}
+{'loss': 1.7513, 'grad_norm': 2.3085129261016846, 'learning_rate': 1.9069861900893586e-06, 'epoch': 1.99}
+{'loss': 1.803, 'grad_norm': 2.3454785346984863, 'learning_rate': 1.9049553208773354e-06, 'epoch': 1.99}
+{'loss': 1.7567, 'grad_norm': 2.4522876739501953, 'learning_rate': 1.9029244516653127e-06, 'epoch': 1.99}
+{'loss': 1.7126, 'grad_norm': 2.3876044750213623, 'learning_rate': 1.90089358245329e-06, 'epoch': 1.99}
+{'loss': 1.7618, 'grad_norm': 2.4061570167541504, 'learning_rate': 1.8988627132412673e-06, 'epoch': 1.99}
+{'loss': 1.8014, 'grad_norm': 2.307445764541626, 'learning_rate': 1.8968318440292445e-06, 'epoch': 1.99}
+{'loss': 1.7202, 'grad_norm': 2.4414806365966797, 'learning_rate': 1.8948009748172218e-06, 'epoch': 1.99}
+{'loss': 1.8133, 'grad_norm': 2.3933329582214355, 'learning_rate': 1.892770105605199e-06, 'epoch': 1.99}
+{'eval_loss': 1.991702675819397, 'eval_runtime': 37.0127, 'eval_samples_per_second': 27.018, 'eval_steps_per_second': 1.135, 'epoch': 1.99}
+{'loss': 1.8026, 'grad_norm': 2.237699508666992, 'learning_rate': 1.8907392363931764e-06, 'epoch': 2.0}
+{'loss': 1.7689, 'grad_norm': 2.290004014968872, 'learning_rate': 1.8887083671811536e-06, 'epoch': 2.0}
+{'loss': 1.7862, 'grad_norm': 2.2264676094055176, 'learning_rate': 1.886677497969131e-06, 'epoch': 2.0}
+{'loss': 1.6763, 'grad_norm': 2.2764949798583984, 'learning_rate': 1.8846466287571082e-06, 'epoch': 2.0}
+{'loss': 1.8076, 'grad_norm': 2.3024826049804688, 'learning_rate': 1.8826157595450855e-06, 'epoch': 2.0}
+{'loss': 1.7009, 'grad_norm': 2.362882614135742, 'learning_rate': 1.8805848903330625e-06, 'epoch': 2.0}
+{'loss': 1.8712, 'grad_norm': 2.432370185852051, 'learning_rate': 1.8785540211210398e-06, 'epoch': 2.0}
+{'loss': 1.7869, 'grad_norm': 2.3584744930267334, 'learning_rate': 1.876523151909017e-06, 'epoch': 2.0}
+{'loss': 1.7376, 'grad_norm': 2.534205198287964, 'learning_rate': 1.8744922826969944e-06, 'epoch': 2.0}
+{'loss': 1.7204, 'grad_norm': 2.58241605758667, 'learning_rate': 1.8724614134849716e-06, 'epoch': 2.01}
+{'eval_loss': 1.9912636280059814, 'eval_runtime': 37.0969, 'eval_samples_per_second': 26.956, 'eval_steps_per_second': 1.132, 'epoch': 2.01}
+{'loss': 1.7537, 'grad_norm': 2.3742504119873047, 'learning_rate': 1.870430544272949e-06, 'epoch': 2.01}
+{'loss': 1.8524, 'grad_norm': 2.6560916900634766, 'learning_rate': 1.8683996750609262e-06, 'epoch': 2.01}
+{'loss': 1.7405, 'grad_norm': 2.523041248321533, 'learning_rate': 1.8663688058489035e-06, 'epoch': 2.01}
+{'loss': 1.7588, 'grad_norm': 2.5444304943084717, 'learning_rate': 1.8643379366368807e-06, 'epoch': 2.01}
+{'loss': 1.7686, 'grad_norm': 2.708984613418579, 'learning_rate': 1.862307067424858e-06, 'epoch': 2.01}
+{'loss': 1.7733, 'grad_norm': 2.726691961288452, 'learning_rate': 1.8602761982128353e-06, 'epoch': 2.01}
+{'loss': 1.81, 'grad_norm': 2.5085904598236084, 'learning_rate': 1.8582453290008126e-06, 'epoch': 2.01}
+{'loss': 1.7369, 'grad_norm': 2.4699466228485107, 'learning_rate': 1.8562144597887898e-06, 'epoch': 2.01}
+{'loss': 1.7611, 'grad_norm': 2.531027317047119, 'learning_rate': 1.854183590576767e-06, 'epoch': 2.02}
+{'loss': 1.811, 'grad_norm': 2.5061161518096924, 'learning_rate': 1.8521527213647442e-06, 'epoch': 2.02}
+{'eval_loss': 1.9893144369125366, 'eval_runtime': 37.1262, 'eval_samples_per_second': 26.935, 'eval_steps_per_second': 1.131, 'epoch': 2.02}
+{'loss': 1.7153, 'grad_norm': 2.5739994049072266, 'learning_rate': 1.8501218521527215e-06, 'epoch': 2.02}
+{'loss': 1.6879, 'grad_norm': 2.5673015117645264, 'learning_rate': 1.8480909829406987e-06, 'epoch': 2.02}
+{'loss': 1.723, 'grad_norm': 2.717430353164673, 'learning_rate': 1.846060113728676e-06, 'epoch': 2.02}
+{'loss': 1.7651, 'grad_norm': 2.4905285835266113, 'learning_rate': 1.8440292445166533e-06, 'epoch': 2.02}
+{'loss': 1.7308, 'grad_norm': 2.6798791885375977, 'learning_rate': 1.8419983753046306e-06, 'epoch': 2.02}
+{'loss': 1.786, 'grad_norm': 2.591614007949829, 'learning_rate': 1.8399675060926078e-06, 'epoch': 2.02}
+{'loss': 1.7699, 'grad_norm': 2.5405824184417725, 'learning_rate': 1.8379366368805851e-06, 'epoch': 2.02}
+{'loss': 1.732, 'grad_norm': 2.4189934730529785, 'learning_rate': 1.8359057676685624e-06, 'epoch': 2.03}
+{'loss': 1.7123, 'grad_norm': 2.5857982635498047, 'learning_rate': 1.8338748984565397e-06, 'epoch': 2.03}
+{'loss': 1.7419, 'grad_norm': 2.4710893630981445, 'learning_rate': 1.831844029244517e-06, 'epoch': 2.03}
+{'eval_loss': 1.9874999523162842, 'eval_runtime': 37.1588, 'eval_samples_per_second': 26.912, 'eval_steps_per_second': 1.13, 'epoch': 2.03}
+{'loss': 1.7102, 'grad_norm': 2.3414645195007324, 'learning_rate': 1.829813160032494e-06, 'epoch': 2.03}
+{'loss': 1.7287, 'grad_norm': 2.4148900508880615, 'learning_rate': 1.8277822908204713e-06, 'epoch': 2.03}
+{'loss': 1.7633, 'grad_norm': 2.5501346588134766, 'learning_rate': 1.8257514216084486e-06, 'epoch': 2.03}
+{'loss': 1.7385, 'grad_norm': 2.52215576171875, 'learning_rate': 1.8237205523964258e-06, 'epoch': 2.03}
+{'loss': 1.7566, 'grad_norm': 2.433335065841675, 'learning_rate': 1.8216896831844031e-06, 'epoch': 2.03}
+{'loss': 1.8027, 'grad_norm': 2.441232442855835, 'learning_rate': 1.8196588139723804e-06, 'epoch': 2.03}
+{'loss': 1.6859, 'grad_norm': 2.4601082801818848, 'learning_rate': 1.8176279447603577e-06, 'epoch': 2.04}
+{'loss': 1.7294, 'grad_norm': 2.5008108615875244, 'learning_rate': 1.815597075548335e-06, 'epoch': 2.04}
+{'loss': 1.755, 'grad_norm': 2.433915615081787, 'learning_rate': 1.8135662063363122e-06, 'epoch': 2.04}
+{'loss': 1.7904, 'grad_norm': 2.4938697814941406, 'learning_rate': 1.8115353371242895e-06, 'epoch': 2.04}
+{'eval_loss': 1.9939266443252563, 'eval_runtime': 37.1539, 'eval_samples_per_second': 26.915, 'eval_steps_per_second': 1.13, 'epoch': 2.04}
+{'loss': 1.6856, 'grad_norm': 2.382324695587158, 'learning_rate': 1.8095044679122668e-06, 'epoch': 2.04}
+{'loss': 1.7434, 'grad_norm': 2.5250437259674072, 'learning_rate': 1.807473598700244e-06, 'epoch': 2.04}
+{'loss': 1.7343, 'grad_norm': 2.63969087600708, 'learning_rate': 1.805442729488221e-06, 'epoch': 2.04}
+{'loss': 1.7494, 'grad_norm': 2.4852068424224854, 'learning_rate': 1.8034118602761982e-06, 'epoch': 2.04}
+{'loss': 1.7503, 'grad_norm': 2.393967390060425, 'learning_rate': 1.8013809910641754e-06, 'epoch': 2.04}
+{'loss': 1.7539, 'grad_norm': 2.4447648525238037, 'learning_rate': 1.7993501218521527e-06, 'epoch': 2.04}
+{'loss': 1.7001, 'grad_norm': 2.483530044555664, 'learning_rate': 1.79731925264013e-06, 'epoch': 2.05}
+{'loss': 1.7828, 'grad_norm': 2.56669282913208, 'learning_rate': 1.7952883834281073e-06, 'epoch': 2.05}
+{'loss': 1.7208, 'grad_norm': 2.4894964694976807, 'learning_rate': 1.7932575142160846e-06, 'epoch': 2.05}
+{'loss': 1.7687, 'grad_norm': 2.4713854789733887, 'learning_rate': 1.7912266450040618e-06, 'epoch': 2.05}
+{'eval_loss': 1.9938212633132935, 'eval_runtime': 37.1298, 'eval_samples_per_second': 26.933, 'eval_steps_per_second': 1.131, 'epoch': 2.05}
+{'loss': 1.7718, 'grad_norm': 2.6204898357391357, 'learning_rate': 1.789195775792039e-06, 'epoch': 2.05}
+{'loss': 1.6653, 'grad_norm': 2.5194199085235596, 'learning_rate': 1.7871649065800164e-06, 'epoch': 2.05}
+{'loss': 1.8098, 'grad_norm': 2.5077965259552, 'learning_rate': 1.7851340373679937e-06, 'epoch': 2.05}
+{'loss': 1.7126, 'grad_norm': 2.5841965675354004, 'learning_rate': 1.783103168155971e-06, 'epoch': 2.05}
+{'loss': 1.7294, 'grad_norm': 2.617910623550415, 'learning_rate': 1.7810722989439482e-06, 'epoch': 2.05}
+{'loss': 1.7497, 'grad_norm': 2.519253969192505, 'learning_rate': 1.7790414297319253e-06, 'epoch': 2.06}
+{'loss': 1.7188, 'grad_norm': 2.5518412590026855, 'learning_rate': 1.7770105605199025e-06, 'epoch': 2.06}
+{'loss': 1.6998, 'grad_norm': 2.5372824668884277, 'learning_rate': 1.7749796913078798e-06, 'epoch': 2.06}
+{'loss': 1.7621, 'grad_norm': 2.6649036407470703, 'learning_rate': 1.772948822095857e-06, 'epoch': 2.06}
+{'loss': 1.7963, 'grad_norm': 2.5216212272644043, 'learning_rate': 1.7709179528838344e-06, 'epoch': 2.06}
+{'eval_loss': 1.993401050567627, 'eval_runtime': 37.0954, 'eval_samples_per_second': 26.957, 'eval_steps_per_second': 1.132, 'epoch': 2.06}
+{'loss': 1.7841, 'grad_norm': 2.5226478576660156, 'learning_rate': 1.7688870836718116e-06, 'epoch': 2.06}
+{'loss': 1.7449, 'grad_norm': 2.584319829940796, 'learning_rate': 1.766856214459789e-06, 'epoch': 2.06}
+{'loss': 1.7373, 'grad_norm': 2.5305304527282715, 'learning_rate': 1.7648253452477662e-06, 'epoch': 2.06}
+{'loss': 1.722, 'grad_norm': 2.48797607421875, 'learning_rate': 1.7627944760357435e-06, 'epoch': 2.06}
+{'loss': 1.7983, 'grad_norm': 2.4461028575897217, 'learning_rate': 1.7607636068237208e-06, 'epoch': 2.07}
+{'loss': 1.7709, 'grad_norm': 2.624058961868286, 'learning_rate': 1.758732737611698e-06, 'epoch': 2.07}
+{'loss': 1.7513, 'grad_norm': 2.848062515258789, 'learning_rate': 1.7567018683996753e-06, 'epoch': 2.07}
+{'loss': 1.7387, 'grad_norm': 2.5219593048095703, 'learning_rate': 1.7546709991876524e-06, 'epoch': 2.07}
+{'loss': 1.7378, 'grad_norm': 2.5296876430511475, 'learning_rate': 1.7526401299756296e-06, 'epoch': 2.07}
+{'loss': 1.7402, 'grad_norm': 2.5452613830566406, 'learning_rate': 1.750609260763607e-06, 'epoch': 2.07}
+{'eval_loss': 1.9914054870605469, 'eval_runtime': 37.0548, 'eval_samples_per_second': 26.987, 'eval_steps_per_second': 1.133, 'epoch': 2.07}
+{'loss': 1.7369, 'grad_norm': 2.653596878051758, 'learning_rate': 1.7485783915515842e-06, 'epoch': 2.07}
+{'loss': 1.7317, 'grad_norm': 2.615581750869751, 'learning_rate': 1.7465475223395615e-06, 'epoch': 2.07}
+{'loss': 1.7121, 'grad_norm': 2.610304832458496, 'learning_rate': 1.7445166531275387e-06, 'epoch': 2.07}
+{'loss': 1.8523, 'grad_norm': 2.6463494300842285, 'learning_rate': 1.742485783915516e-06, 'epoch': 2.08}
+{'loss': 1.8239, 'grad_norm': 2.4814131259918213, 'learning_rate': 1.7404549147034933e-06, 'epoch': 2.08}
+{'loss': 1.669, 'grad_norm': 2.7416090965270996, 'learning_rate': 1.7384240454914706e-06, 'epoch': 2.08}
+{'loss': 1.7504, 'grad_norm': 2.9458305835723877, 'learning_rate': 1.7363931762794478e-06, 'epoch': 2.08}
+{'loss': 1.7854, 'grad_norm': 2.5118932723999023, 'learning_rate': 1.7343623070674251e-06, 'epoch': 2.08}
+{'loss': 1.7325, 'grad_norm': 2.479421615600586, 'learning_rate': 1.7323314378554024e-06, 'epoch': 2.08}
+{'loss': 1.7434, 'grad_norm': 2.7400424480438232, 'learning_rate': 1.7303005686433797e-06, 'epoch': 2.08}
+{'eval_loss': 1.9887213706970215, 'eval_runtime': 37.0484, 'eval_samples_per_second': 26.992, 'eval_steps_per_second': 1.134, 'epoch': 2.08}
+{'loss': 1.7335, 'grad_norm': 2.587714433670044, 'learning_rate': 1.7282696994313567e-06, 'epoch': 2.08}
+{'loss': 1.7538, 'grad_norm': 2.526818037033081, 'learning_rate': 1.726238830219334e-06, 'epoch': 2.08}
+{'loss': 1.7331, 'grad_norm': 2.595221519470215, 'learning_rate': 1.7242079610073113e-06, 'epoch': 2.09}
+{'loss': 1.8069, 'grad_norm': 2.5018110275268555, 'learning_rate': 1.7221770917952886e-06, 'epoch': 2.09}
+{'loss': 1.757, 'grad_norm': 2.4378256797790527, 'learning_rate': 1.7201462225832658e-06, 'epoch': 2.09}
+{'loss': 1.7696, 'grad_norm': 2.651167392730713, 'learning_rate': 1.7181153533712431e-06, 'epoch': 2.09}
+{'loss': 1.6551, 'grad_norm': 2.550239086151123, 'learning_rate': 1.7160844841592204e-06, 'epoch': 2.09}
+{'loss': 1.7031, 'grad_norm': 2.4192144870758057, 'learning_rate': 1.7140536149471977e-06, 'epoch': 2.09}
+{'loss': 1.734, 'grad_norm': 2.5327398777008057, 'learning_rate': 1.712022745735175e-06, 'epoch': 2.09}
+{'loss': 1.732, 'grad_norm': 2.5962865352630615, 'learning_rate': 1.7099918765231522e-06, 'epoch': 2.09}
+{'eval_loss': 1.9915482997894287, 'eval_runtime': 36.7856, 'eval_samples_per_second': 27.185, 'eval_steps_per_second': 1.142, 'epoch': 2.09}
+{'loss': 1.7556, 'grad_norm': 2.561943531036377, 'learning_rate': 1.7079610073111295e-06, 'epoch': 2.09}
+{'loss': 1.6839, 'grad_norm': 2.529829263687134, 'learning_rate': 1.7059301380991068e-06, 'epoch': 2.1}
+{'loss': 1.7393, 'grad_norm': 2.636559009552002, 'learning_rate': 1.7038992688870836e-06, 'epoch': 2.1}
+{'loss': 1.7346, 'grad_norm': 2.558166742324829, 'learning_rate': 1.701868399675061e-06, 'epoch': 2.1}
+{'loss': 1.7666, 'grad_norm': 2.5193750858306885, 'learning_rate': 1.6998375304630382e-06, 'epoch': 2.1}
+{'loss': 1.827, 'grad_norm': 2.498244047164917, 'learning_rate': 1.6978066612510155e-06, 'epoch': 2.1}
+{'loss': 1.788, 'grad_norm': 2.799603223800659, 'learning_rate': 1.6957757920389927e-06, 'epoch': 2.1}
+{'loss': 1.7487, 'grad_norm': 2.733391761779785, 'learning_rate': 1.69374492282697e-06, 'epoch': 2.1}
+{'loss': 1.7114, 'grad_norm': 2.5135183334350586, 'learning_rate': 1.6917140536149473e-06, 'epoch': 2.1}
+{'loss': 1.797, 'grad_norm': 2.5275800228118896, 'learning_rate': 1.6896831844029246e-06, 'epoch': 2.1}
+{'eval_loss': 1.9926362037658691, 'eval_runtime': 36.9326, 'eval_samples_per_second': 27.076, 'eval_steps_per_second': 1.137, 'epoch': 2.1}
+{'loss': 1.7581, 'grad_norm': 2.682774782180786, 'learning_rate': 1.6876523151909018e-06, 'epoch': 2.11}
+{'loss': 1.7606, 'grad_norm': 2.625620126724243, 'learning_rate': 1.6856214459788791e-06, 'epoch': 2.11}
+{'loss': 1.7139, 'grad_norm': 2.5005173683166504, 'learning_rate': 1.6835905767668564e-06, 'epoch': 2.11}
+{'loss': 1.7174, 'grad_norm': 2.6731526851654053, 'learning_rate': 1.6815597075548337e-06, 'epoch': 2.11}
+{'loss': 1.8049, 'grad_norm': 2.5407724380493164, 'learning_rate': 1.679528838342811e-06, 'epoch': 2.11}
+{'loss': 1.7068, 'grad_norm': 2.502427101135254, 'learning_rate': 1.677497969130788e-06, 'epoch': 2.11}
+{'loss': 1.7174, 'grad_norm': 2.5063414573669434, 'learning_rate': 1.6754670999187653e-06, 'epoch': 2.11}
+{'loss': 1.7442, 'grad_norm': 2.524588108062744, 'learning_rate': 1.6734362307067426e-06, 'epoch': 2.11}
+{'loss': 1.692, 'grad_norm': 2.531909465789795, 'learning_rate': 1.6714053614947198e-06, 'epoch': 2.11}
+{'loss': 1.7039, 'grad_norm': 2.5104269981384277, 'learning_rate': 1.669374492282697e-06, 'epoch': 2.12}
+{'eval_loss': 1.9927221536636353, 'eval_runtime': 37.004, 'eval_samples_per_second': 27.024, 'eval_steps_per_second': 1.135, 'epoch': 2.12}
+{'loss': 1.7896, 'grad_norm': 2.5443670749664307, 'learning_rate': 1.6673436230706744e-06, 'epoch': 2.12}
+{'loss': 1.7735, 'grad_norm': 2.6495745182037354, 'learning_rate': 1.6653127538586517e-06, 'epoch': 2.12}
+{'loss': 1.7186, 'grad_norm': 2.7233121395111084, 'learning_rate': 1.663281884646629e-06, 'epoch': 2.12}
+{'loss': 1.7378, 'grad_norm': 2.4411816596984863, 'learning_rate': 1.6612510154346062e-06, 'epoch': 2.12}
+{'loss': 1.7989, 'grad_norm': 2.6478421688079834, 'learning_rate': 1.6592201462225835e-06, 'epoch': 2.12}
+{'loss': 1.7663, 'grad_norm': 2.56093168258667, 'learning_rate': 1.6571892770105608e-06, 'epoch': 2.12}
+{'loss': 1.7956, 'grad_norm': 2.5598859786987305, 'learning_rate': 1.655158407798538e-06, 'epoch': 2.12}
+{'loss': 1.7482, 'grad_norm': 2.4958112239837646, 'learning_rate': 1.653127538586515e-06, 'epoch': 2.12}
+{'loss': 1.7811, 'grad_norm': 2.5133280754089355, 'learning_rate': 1.6510966693744924e-06, 'epoch': 2.12}
+{'loss': 1.7883, 'grad_norm': 2.492892026901245, 'learning_rate': 1.6490658001624696e-06, 'epoch': 2.13}
+{'eval_loss': 1.9917834997177124, 'eval_runtime': 37.0222, 'eval_samples_per_second': 27.011, 'eval_steps_per_second': 1.134, 'epoch': 2.13}
+{'loss': 1.7871, 'grad_norm': 2.560483455657959, 'learning_rate': 1.647034930950447e-06, 'epoch': 2.13}
+{'loss': 1.7097, 'grad_norm': 2.549100160598755, 'learning_rate': 1.6450040617384242e-06, 'epoch': 2.13}
+{'loss': 1.736, 'grad_norm': 2.4832775592803955, 'learning_rate': 1.6429731925264015e-06, 'epoch': 2.13}
+{'loss': 1.765, 'grad_norm': 2.60006046295166, 'learning_rate': 1.6409423233143788e-06, 'epoch': 2.13}
+{'loss': 1.7317, 'grad_norm': 2.4875144958496094, 'learning_rate': 1.638911454102356e-06, 'epoch': 2.13}
+{'loss': 1.6982, 'grad_norm': 2.5562970638275146, 'learning_rate': 1.6368805848903333e-06, 'epoch': 2.13}
+{'loss': 1.7821, 'grad_norm': 2.4928972721099854, 'learning_rate': 1.6348497156783106e-06, 'epoch': 2.13}
+{'loss': 1.7223, 'grad_norm': 2.6159043312072754, 'learning_rate': 1.6328188464662879e-06, 'epoch': 2.13}
+{'loss': 1.7321, 'grad_norm': 2.541520833969116, 'learning_rate': 1.6307879772542651e-06, 'epoch': 2.14}
+{'loss': 1.7571, 'grad_norm': 2.5165696144104004, 'learning_rate': 1.628757108042242e-06, 'epoch': 2.14}
+{'eval_loss': 1.9868476390838623, 'eval_runtime': 37.0367, 'eval_samples_per_second': 27.0, 'eval_steps_per_second': 1.134, 'epoch': 2.14}
+{'loss': 1.7855, 'grad_norm': 2.5660274028778076, 'learning_rate': 1.6267262388302193e-06, 'epoch': 2.14}
+{'loss': 1.7324, 'grad_norm': 2.4606971740722656, 'learning_rate': 1.6246953696181965e-06, 'epoch': 2.14}
+{'loss': 1.7715, 'grad_norm': 2.6528608798980713, 'learning_rate': 1.6226645004061738e-06, 'epoch': 2.14}
+{'loss': 1.837, 'grad_norm': 2.7232985496520996, 'learning_rate': 1.620633631194151e-06, 'epoch': 2.14}
+{'loss': 1.7678, 'grad_norm': 2.6264185905456543, 'learning_rate': 1.6186027619821284e-06, 'epoch': 2.14}
+{'loss': 1.7218, 'grad_norm': 2.6248252391815186, 'learning_rate': 1.6165718927701056e-06, 'epoch': 2.14}
+{'loss': 1.7678, 'grad_norm': 3.00539493560791, 'learning_rate': 1.614541023558083e-06, 'epoch': 2.14}
+{'loss': 1.7737, 'grad_norm': 2.5368528366088867, 'learning_rate': 1.6125101543460602e-06, 'epoch': 2.15}
+{'loss': 1.7394, 'grad_norm': 2.5805916786193848, 'learning_rate': 1.6104792851340375e-06, 'epoch': 2.15}
+{'loss': 1.766, 'grad_norm': 2.615856647491455, 'learning_rate': 1.6084484159220147e-06, 'epoch': 2.15}
+{'eval_loss': 1.987140417098999, 'eval_runtime': 37.0593, 'eval_samples_per_second': 26.984, 'eval_steps_per_second': 1.133, 'epoch': 2.15}
+{'loss': 1.7342, 'grad_norm': 2.6550803184509277, 'learning_rate': 1.606417546709992e-06, 'epoch': 2.15}
+{'loss': 1.7175, 'grad_norm': 2.5999467372894287, 'learning_rate': 1.6043866774979693e-06, 'epoch': 2.15}
+{'loss': 1.7409, 'grad_norm': 2.561642646789551, 'learning_rate': 1.6023558082859464e-06, 'epoch': 2.15}
+{'loss': 1.7052, 'grad_norm': 2.6062211990356445, 'learning_rate': 1.6003249390739236e-06, 'epoch': 2.15}
+{'loss': 1.7444, 'grad_norm': 2.5122230052948, 'learning_rate': 1.598294069861901e-06, 'epoch': 2.15}
+{'loss': 1.716, 'grad_norm': 2.5838866233825684, 'learning_rate': 1.5962632006498782e-06, 'epoch': 2.15}
+{'loss': 1.7902, 'grad_norm': 2.5454747676849365, 'learning_rate': 1.5942323314378555e-06, 'epoch': 2.16}
+{'loss': 1.6963, 'grad_norm': 2.57637619972229, 'learning_rate': 1.5922014622258327e-06, 'epoch': 2.16}
+{'loss': 1.7151, 'grad_norm': 2.5542941093444824, 'learning_rate': 1.59017059301381e-06, 'epoch': 2.16}
+{'loss': 1.7624, 'grad_norm': 2.4912102222442627, 'learning_rate': 1.5881397238017873e-06, 'epoch': 2.16}
+{'eval_loss': 1.9855093955993652, 'eval_runtime': 37.0796, 'eval_samples_per_second': 26.969, 'eval_steps_per_second': 1.133, 'epoch': 2.16}
+{'loss': 1.7617, 'grad_norm': 2.4793057441711426, 'learning_rate': 1.5861088545897646e-06, 'epoch': 2.16}
+{'loss': 1.6845, 'grad_norm': 2.5231704711914062, 'learning_rate': 1.5840779853777418e-06, 'epoch': 2.16}
+{'loss': 1.7468, 'grad_norm': 2.5126073360443115, 'learning_rate': 1.5820471161657191e-06, 'epoch': 2.16}
+{'loss': 1.7253, 'grad_norm': 2.5558865070343018, 'learning_rate': 1.5800162469536964e-06, 'epoch': 2.16}
+{'loss': 1.7844, 'grad_norm': 2.808987855911255, 'learning_rate': 1.5779853777416735e-06, 'epoch': 2.16}
+{'loss': 1.7658, 'grad_norm': 2.765275001525879, 'learning_rate': 1.5759545085296507e-06, 'epoch': 2.17}
+{'loss': 1.74, 'grad_norm': 2.5721709728240967, 'learning_rate': 1.573923639317628e-06, 'epoch': 2.17}
+{'loss': 1.7613, 'grad_norm': 2.4276933670043945, 'learning_rate': 1.5718927701056053e-06, 'epoch': 2.17}
+{'loss': 1.7514, 'grad_norm': 2.5665223598480225, 'learning_rate': 1.5698619008935826e-06, 'epoch': 2.17}
+{'loss': 1.7749, 'grad_norm': 2.5588295459747314, 'learning_rate': 1.5678310316815598e-06, 'epoch': 2.17}
+{'eval_loss': 1.9858319759368896, 'eval_runtime': 37.0705, 'eval_samples_per_second': 26.976, 'eval_steps_per_second': 1.133, 'epoch': 2.17}
+{'loss': 1.706, 'grad_norm': 2.5413172245025635, 'learning_rate': 1.5658001624695371e-06, 'epoch': 2.17}
+{'loss': 1.7825, 'grad_norm': 2.5246310234069824, 'learning_rate': 1.5637692932575144e-06, 'epoch': 2.17}
+{'loss': 1.7268, 'grad_norm': 2.385380506515503, 'learning_rate': 1.5617384240454917e-06, 'epoch': 2.17}
+{'loss': 1.7424, 'grad_norm': 2.4967970848083496, 'learning_rate': 1.559707554833469e-06, 'epoch': 2.17}
+{'loss': 1.7904, 'grad_norm': 2.563683271408081, 'learning_rate': 1.5576766856214462e-06, 'epoch': 2.18}
+{'loss': 1.6616, 'grad_norm': 2.518751859664917, 'learning_rate': 1.5556458164094235e-06, 'epoch': 2.18}
+{'loss': 1.7363, 'grad_norm': 2.5789380073547363, 'learning_rate': 1.5536149471974008e-06, 'epoch': 2.18}
+{'loss': 1.6835, 'grad_norm': 2.567406415939331, 'learning_rate': 1.5515840779853778e-06, 'epoch': 2.18}
+{'loss': 1.7493, 'grad_norm': 2.509427309036255, 'learning_rate': 1.549553208773355e-06, 'epoch': 2.18}
+{'loss': 1.7292, 'grad_norm': 2.6355340480804443, 'learning_rate': 1.5475223395613324e-06, 'epoch': 2.18}
+{'eval_loss': 1.9893935918807983, 'eval_runtime': 37.0928, 'eval_samples_per_second': 26.959, 'eval_steps_per_second': 1.132, 'epoch': 2.18}
+{'loss': 1.7248, 'grad_norm': 2.564587116241455, 'learning_rate': 1.5454914703493097e-06, 'epoch': 2.18}
+{'loss': 1.8123, 'grad_norm': 2.6708462238311768, 'learning_rate': 1.543460601137287e-06, 'epoch': 2.18}
+{'loss': 1.7742, 'grad_norm': 2.6396312713623047, 'learning_rate': 1.5414297319252642e-06, 'epoch': 2.18}
+{'loss': 1.7705, 'grad_norm': 2.553544044494629, 'learning_rate': 1.5393988627132415e-06, 'epoch': 2.19}
+{'loss': 1.737, 'grad_norm': 2.554997682571411, 'learning_rate': 1.5373679935012188e-06, 'epoch': 2.19}
+{'loss': 1.6865, 'grad_norm': 2.5650475025177, 'learning_rate': 1.535337124289196e-06, 'epoch': 2.19}
+{'loss': 1.7428, 'grad_norm': 2.8019111156463623, 'learning_rate': 1.5333062550771733e-06, 'epoch': 2.19}
+{'loss': 1.8291, 'grad_norm': 2.5704092979431152, 'learning_rate': 1.5312753858651506e-06, 'epoch': 2.19}
+{'loss': 1.7274, 'grad_norm': 2.5332226753234863, 'learning_rate': 1.5292445166531279e-06, 'epoch': 2.19}
+{'loss': 1.7497, 'grad_norm': 2.555288553237915, 'learning_rate': 1.5272136474411047e-06, 'epoch': 2.19}
+{'eval_loss': 1.9881768226623535, 'eval_runtime': 37.0996, 'eval_samples_per_second': 26.954, 'eval_steps_per_second': 1.132, 'epoch': 2.19}
+{'loss': 1.7955, 'grad_norm': 2.6068379878997803, 'learning_rate': 1.525182778229082e-06, 'epoch': 2.19}
+{'loss': 1.7342, 'grad_norm': 2.479121208190918, 'learning_rate': 1.5231519090170593e-06, 'epoch': 2.19}
+{'loss': 1.7125, 'grad_norm': 2.495670795440674, 'learning_rate': 1.5211210398050365e-06, 'epoch': 2.2}
+{'loss': 1.7137, 'grad_norm': 2.4988651275634766, 'learning_rate': 1.5190901705930138e-06, 'epoch': 2.2}
+{'loss': 1.7672, 'grad_norm': 2.5191574096679688, 'learning_rate': 1.517059301380991e-06, 'epoch': 2.2}
+{'loss': 1.7127, 'grad_norm': 2.5469892024993896, 'learning_rate': 1.5150284321689684e-06, 'epoch': 2.2}
+{'loss': 1.7397, 'grad_norm': 2.490896701812744, 'learning_rate': 1.5129975629569456e-06, 'epoch': 2.2}
+{'loss': 1.7431, 'grad_norm': 2.5142805576324463, 'learning_rate': 1.510966693744923e-06, 'epoch': 2.2}
+{'loss': 1.7439, 'grad_norm': 2.5397887229919434, 'learning_rate': 1.5089358245329002e-06, 'epoch': 2.2}
+{'loss': 1.7259, 'grad_norm': 2.5063931941986084, 'learning_rate': 1.5069049553208775e-06, 'epoch': 2.2}
+{'eval_loss': 1.9853808879852295, 'eval_runtime': 36.8066, 'eval_samples_per_second': 27.169, 'eval_steps_per_second': 1.141, 'epoch': 2.2}
+{'loss': 1.7714, 'grad_norm': 2.6017589569091797, 'learning_rate': 1.5048740861088547e-06, 'epoch': 2.2}
+{'loss': 1.7561, 'grad_norm': 2.5295040607452393, 'learning_rate': 1.502843216896832e-06, 'epoch': 2.2}
+{'loss': 1.6761, 'grad_norm': 2.5187482833862305, 'learning_rate': 1.500812347684809e-06, 'epoch': 2.21}
+{'loss': 1.7469, 'grad_norm': 2.5163650512695312, 'learning_rate': 1.4987814784727864e-06, 'epoch': 2.21}
+{'loss': 1.7527, 'grad_norm': 2.731238603591919, 'learning_rate': 1.4967506092607636e-06, 'epoch': 2.21}
+{'loss': 1.6912, 'grad_norm': 2.5298311710357666, 'learning_rate': 1.494719740048741e-06, 'epoch': 2.21}
+{'loss': 1.7664, 'grad_norm': 2.6385974884033203, 'learning_rate': 1.4926888708367182e-06, 'epoch': 2.21}
+{'loss': 1.7708, 'grad_norm': 2.6150033473968506, 'learning_rate': 1.4906580016246955e-06, 'epoch': 2.21}
+{'loss': 1.7875, 'grad_norm': 2.589329957962036, 'learning_rate': 1.4886271324126727e-06, 'epoch': 2.21}
+{'loss': 1.8136, 'grad_norm': 2.6769933700561523, 'learning_rate': 1.48659626320065e-06, 'epoch': 2.21}
+{'eval_loss': 1.9827086925506592, 'eval_runtime': 37.0026, 'eval_samples_per_second': 27.025, 'eval_steps_per_second': 1.135, 'epoch': 2.21}
+{'loss': 1.6627, 'grad_norm': 2.7220497131347656, 'learning_rate': 1.4845653939886273e-06, 'epoch': 2.21}
+{'loss': 1.6676, 'grad_norm': 2.6115968227386475, 'learning_rate': 1.4825345247766046e-06, 'epoch': 2.22}
+{'loss': 1.6644, 'grad_norm': 2.4612581729888916, 'learning_rate': 1.4805036555645818e-06, 'epoch': 2.22}
+{'loss': 1.7357, 'grad_norm': 2.5708696842193604, 'learning_rate': 1.4784727863525591e-06, 'epoch': 2.22}
+{'loss': 1.7011, 'grad_norm': 2.578158140182495, 'learning_rate': 1.4764419171405362e-06, 'epoch': 2.22}
+{'loss': 1.7787, 'grad_norm': 2.547666072845459, 'learning_rate': 1.4744110479285135e-06, 'epoch': 2.22}
+{'loss': 1.784, 'grad_norm': 2.617551326751709, 'learning_rate': 1.4723801787164907e-06, 'epoch': 2.22}
+{'loss': 1.7764, 'grad_norm': 2.4385478496551514, 'learning_rate': 1.470349309504468e-06, 'epoch': 2.22}
+{'loss': 1.7477, 'grad_norm': 2.6088693141937256, 'learning_rate': 1.4683184402924453e-06, 'epoch': 2.22}
+{'loss': 1.7531, 'grad_norm': 2.6165895462036133, 'learning_rate': 1.4662875710804226e-06, 'epoch': 2.22}
+{'eval_loss': 1.9826008081436157, 'eval_runtime': 37.085, 'eval_samples_per_second': 26.965, 'eval_steps_per_second': 1.133, 'epoch': 2.22}
+{'loss': 1.8403, 'grad_norm': 2.6285006999969482, 'learning_rate': 1.4642567018683998e-06, 'epoch': 2.23}
+{'loss': 1.7304, 'grad_norm': 2.549326181411743, 'learning_rate': 1.4622258326563771e-06, 'epoch': 2.23}
+{'loss': 1.7147, 'grad_norm': 2.6198782920837402, 'learning_rate': 1.4601949634443544e-06, 'epoch': 2.23}
+{'loss': 1.7639, 'grad_norm': 2.536947727203369, 'learning_rate': 1.4581640942323317e-06, 'epoch': 2.23}
+{'loss': 1.8434, 'grad_norm': 2.6757264137268066, 'learning_rate': 1.456133225020309e-06, 'epoch': 2.23}
+{'loss': 1.7593, 'grad_norm': 2.598095655441284, 'learning_rate': 1.4541023558082862e-06, 'epoch': 2.23}
+{'loss': 1.7473, 'grad_norm': 2.6104440689086914, 'learning_rate': 1.4520714865962635e-06, 'epoch': 2.23}
+{'loss': 1.777, 'grad_norm': 2.6350162029266357, 'learning_rate': 1.4500406173842406e-06, 'epoch': 2.23}
+{'loss': 1.7506, 'grad_norm': 2.593874216079712, 'learning_rate': 1.4480097481722178e-06, 'epoch': 2.23}
+{'loss': 1.7375, 'grad_norm': 2.6991093158721924, 'learning_rate': 1.4459788789601951e-06, 'epoch': 2.24}
+{'eval_loss': 1.9815349578857422, 'eval_runtime': 37.1126, 'eval_samples_per_second': 26.945, 'eval_steps_per_second': 1.132, 'epoch': 2.24}
+{'loss': 1.7045, 'grad_norm': 2.6339058876037598, 'learning_rate': 1.4439480097481724e-06, 'epoch': 2.24}
+{'loss': 1.7063, 'grad_norm': 2.691631555557251, 'learning_rate': 1.4419171405361497e-06, 'epoch': 2.24}
+{'loss': 1.7607, 'grad_norm': 3.021667003631592, 'learning_rate': 1.439886271324127e-06, 'epoch': 2.24}
+{'loss': 1.7594, 'grad_norm': 2.690802812576294, 'learning_rate': 1.4378554021121042e-06, 'epoch': 2.24}
+{'loss': 1.7177, 'grad_norm': 2.5371177196502686, 'learning_rate': 1.4358245329000815e-06, 'epoch': 2.24}
+{'loss': 1.7864, 'grad_norm': 2.5586729049682617, 'learning_rate': 1.4337936636880588e-06, 'epoch': 2.24}
+{'loss': 1.7616, 'grad_norm': 2.6621484756469727, 'learning_rate': 1.431762794476036e-06, 'epoch': 2.24}
+{'loss': 1.7056, 'grad_norm': 2.787508010864258, 'learning_rate': 1.4297319252640133e-06, 'epoch': 2.24}
+{'loss': 1.7413, 'grad_norm': 2.6896064281463623, 'learning_rate': 1.4277010560519906e-06, 'epoch': 2.25}
+{'loss': 1.7096, 'grad_norm': 2.540524959564209, 'learning_rate': 1.4256701868399674e-06, 'epoch': 2.25}
+{'eval_loss': 1.9832353591918945, 'eval_runtime': 37.1202, 'eval_samples_per_second': 26.94, 'eval_steps_per_second': 1.131, 'epoch': 2.25}
+{'loss': 1.8262, 'grad_norm': 2.582171678543091, 'learning_rate': 1.4236393176279447e-06, 'epoch': 2.25}
+{'loss': 1.7458, 'grad_norm': 2.659044027328491, 'learning_rate': 1.421608448415922e-06, 'epoch': 2.25}
+{'loss': 1.8341, 'grad_norm': 2.7265775203704834, 'learning_rate': 1.4195775792038993e-06, 'epoch': 2.25}
+{'loss': 1.7103, 'grad_norm': 2.922330379486084, 'learning_rate': 1.4175467099918765e-06, 'epoch': 2.25}
+{'loss': 1.7461, 'grad_norm': 2.4665236473083496, 'learning_rate': 1.4155158407798538e-06, 'epoch': 2.25}
+{'loss': 1.7683, 'grad_norm': 2.639538049697876, 'learning_rate': 1.413484971567831e-06, 'epoch': 2.25}
+{'loss': 1.6821, 'grad_norm': 2.558363676071167, 'learning_rate': 1.4114541023558084e-06, 'epoch': 2.25}
+{'loss': 1.7226, 'grad_norm': 2.6308321952819824, 'learning_rate': 1.4094232331437856e-06, 'epoch': 2.26}
+{'loss': 1.783, 'grad_norm': 2.6325299739837646, 'learning_rate': 1.407392363931763e-06, 'epoch': 2.26}
+{'loss': 1.8402, 'grad_norm': 2.6024723052978516, 'learning_rate': 1.4053614947197402e-06, 'epoch': 2.26}
+{'eval_loss': 1.983332633972168, 'eval_runtime': 37.1133, 'eval_samples_per_second': 26.945, 'eval_steps_per_second': 1.132, 'epoch': 2.26}
+{'loss': 1.7625, 'grad_norm': 2.548522710800171, 'learning_rate': 1.4033306255077175e-06, 'epoch': 2.26}
+{'loss': 1.6632, 'grad_norm': 2.5953831672668457, 'learning_rate': 1.4012997562956945e-06, 'epoch': 2.26}
+{'loss': 1.7957, 'grad_norm': 2.5880215167999268, 'learning_rate': 1.3992688870836718e-06, 'epoch': 2.26}
+{'loss': 1.76, 'grad_norm': 2.439326047897339, 'learning_rate': 1.397238017871649e-06, 'epoch': 2.26}
+{'loss': 1.7385, 'grad_norm': 2.5185437202453613, 'learning_rate': 1.3952071486596264e-06, 'epoch': 2.26}
+{'loss': 1.7066, 'grad_norm': 2.5943732261657715, 'learning_rate': 1.3931762794476036e-06, 'epoch': 2.26}
+{'loss': 1.7884, 'grad_norm': 2.6375551223754883, 'learning_rate': 1.391145410235581e-06, 'epoch': 2.27}
+{'loss': 1.7295, 'grad_norm': 2.4962515830993652, 'learning_rate': 1.3891145410235582e-06, 'epoch': 2.27}
+{'loss': 1.6697, 'grad_norm': 2.5873053073883057, 'learning_rate': 1.3870836718115355e-06, 'epoch': 2.27}
+{'loss': 1.7198, 'grad_norm': 2.573211908340454, 'learning_rate': 1.3850528025995127e-06, 'epoch': 2.27}
+{'eval_loss': 1.9826557636260986, 'eval_runtime': 37.1271, 'eval_samples_per_second': 26.934, 'eval_steps_per_second': 1.131, 'epoch': 2.27}
+{'loss': 1.7294, 'grad_norm': 2.68015718460083, 'learning_rate': 1.38302193338749e-06, 'epoch': 2.27}
+{'loss': 1.6592, 'grad_norm': 2.4882888793945312, 'learning_rate': 1.3809910641754673e-06, 'epoch': 2.27}
+{'loss': 1.7605, 'grad_norm': 2.587048053741455, 'learning_rate': 1.3789601949634446e-06, 'epoch': 2.27}
+{'loss': 1.6664, 'grad_norm': 2.6452062129974365, 'learning_rate': 1.3769293257514218e-06, 'epoch': 2.27}
+{'loss': 1.771, 'grad_norm': 2.5663232803344727, 'learning_rate': 1.374898456539399e-06, 'epoch': 2.27}
+{'loss': 1.7096, 'grad_norm': 2.652989149093628, 'learning_rate': 1.3728675873273762e-06, 'epoch': 2.28}
+{'loss': 1.798, 'grad_norm': 2.538435220718384, 'learning_rate': 1.3708367181153535e-06, 'epoch': 2.28}
+{'loss': 1.7904, 'grad_norm': 2.4685096740722656, 'learning_rate': 1.3688058489033307e-06, 'epoch': 2.28}
+{'loss': 1.7569, 'grad_norm': 2.566723108291626, 'learning_rate': 1.366774979691308e-06, 'epoch': 2.28}
+{'loss': 1.7734, 'grad_norm': 2.560960531234741, 'learning_rate': 1.3647441104792853e-06, 'epoch': 2.28}
+{'eval_loss': 1.9809880256652832, 'eval_runtime': 37.1137, 'eval_samples_per_second': 26.944, 'eval_steps_per_second': 1.132, 'epoch': 2.28}
+{'loss': 1.7431, 'grad_norm': 2.576608419418335, 'learning_rate': 1.3627132412672626e-06, 'epoch': 2.28}
+{'loss': 1.6959, 'grad_norm': 2.648301601409912, 'learning_rate': 1.3606823720552398e-06, 'epoch': 2.28}
+{'loss': 1.7519, 'grad_norm': 2.516493082046509, 'learning_rate': 1.3586515028432171e-06, 'epoch': 2.28}
+{'loss': 1.6796, 'grad_norm': 2.474616050720215, 'learning_rate': 1.3566206336311944e-06, 'epoch': 2.28}
+{'loss': 1.7443, 'grad_norm': 2.482044219970703, 'learning_rate': 1.3545897644191717e-06, 'epoch': 2.28}
+{'loss': 1.7145, 'grad_norm': 2.6574456691741943, 'learning_rate': 1.352558895207149e-06, 'epoch': 2.29}
+{'loss': 1.765, 'grad_norm': 2.5350115299224854, 'learning_rate': 1.3505280259951258e-06, 'epoch': 2.29}
+{'loss': 1.7407, 'grad_norm': 2.6488730907440186, 'learning_rate': 1.348497156783103e-06, 'epoch': 2.29}
+{'loss': 1.779, 'grad_norm': 2.6020500659942627, 'learning_rate': 1.3464662875710804e-06, 'epoch': 2.29}
+{'loss': 1.6824, 'grad_norm': 2.633013963699341, 'learning_rate': 1.3444354183590576e-06, 'epoch': 2.29}
+{'eval_loss': 1.982380986213684, 'eval_runtime': 37.1166, 'eval_samples_per_second': 26.942, 'eval_steps_per_second': 1.132, 'epoch': 2.29}
+{'loss': 1.7634, 'grad_norm': 2.6399149894714355, 'learning_rate': 1.342404549147035e-06, 'epoch': 2.29}
+{'loss': 1.7099, 'grad_norm': 2.580634832382202, 'learning_rate': 1.3403736799350122e-06, 'epoch': 2.29}
+{'loss': 1.7705, 'grad_norm': 2.523400068283081, 'learning_rate': 1.3383428107229895e-06, 'epoch': 2.29}
+{'loss': 1.7961, 'grad_norm': 2.5114550590515137, 'learning_rate': 1.3363119415109667e-06, 'epoch': 2.29}
+{'loss': 1.7507, 'grad_norm': 2.457369804382324, 'learning_rate': 1.334281072298944e-06, 'epoch': 2.3}
+{'loss': 1.7607, 'grad_norm': 2.5671467781066895, 'learning_rate': 1.3322502030869213e-06, 'epoch': 2.3}
+{'loss': 1.7193, 'grad_norm': 2.459540367126465, 'learning_rate': 1.3302193338748986e-06, 'epoch': 2.3}
+{'loss': 1.7775, 'grad_norm': 2.4934308528900146, 'learning_rate': 1.3281884646628758e-06, 'epoch': 2.3}
+{'loss': 1.7847, 'grad_norm': 2.520641565322876, 'learning_rate': 1.3261575954508531e-06, 'epoch': 2.3}
+{'loss': 1.7812, 'grad_norm': 2.4607160091400146, 'learning_rate': 1.3241267262388302e-06, 'epoch': 2.3}
+{'eval_loss': 1.9836152791976929, 'eval_runtime': 37.1239, 'eval_samples_per_second': 26.937, 'eval_steps_per_second': 1.131, 'epoch': 2.3}
+{'loss': 1.7452, 'grad_norm': 2.577761650085449, 'learning_rate': 1.3220958570268074e-06, 'epoch': 2.3}
+{'loss': 1.6989, 'grad_norm': 2.5331356525421143, 'learning_rate': 1.3200649878147847e-06, 'epoch': 2.3}
+{'loss': 1.7368, 'grad_norm': 2.632581949234009, 'learning_rate': 1.318034118602762e-06, 'epoch': 2.3}
+{'loss': 1.7806, 'grad_norm': 2.55940318107605, 'learning_rate': 1.3160032493907393e-06, 'epoch': 2.31}
+{'loss': 1.7482, 'grad_norm': 2.5680153369903564, 'learning_rate': 1.3139723801787166e-06, 'epoch': 2.31}
+{'loss': 1.832, 'grad_norm': 2.7915756702423096, 'learning_rate': 1.3119415109666938e-06, 'epoch': 2.31}
+{'loss': 1.7401, 'grad_norm': 2.518031597137451, 'learning_rate': 1.309910641754671e-06, 'epoch': 2.31}
+{'loss': 1.6992, 'grad_norm': 2.7410221099853516, 'learning_rate': 1.3078797725426484e-06, 'epoch': 2.31}
+{'loss': 1.7085, 'grad_norm': 2.611825466156006, 'learning_rate': 1.3058489033306257e-06, 'epoch': 2.31}
+{'loss': 1.7129, 'grad_norm': 2.5833330154418945, 'learning_rate': 1.303818034118603e-06, 'epoch': 2.31}
+{'eval_loss': 1.9824191331863403, 'eval_runtime': 36.773, 'eval_samples_per_second': 27.194, 'eval_steps_per_second': 1.142, 'epoch': 2.31}
+{'loss': 1.7439, 'grad_norm': 2.587327003479004, 'learning_rate': 1.3017871649065802e-06, 'epoch': 2.31}
+{'loss': 1.7173, 'grad_norm': 2.574925422668457, 'learning_rate': 1.2997562956945573e-06, 'epoch': 2.31}
+{'loss': 1.7052, 'grad_norm': 2.6404287815093994, 'learning_rate': 1.2977254264825345e-06, 'epoch': 2.32}
+{'loss': 1.741, 'grad_norm': 2.634584903717041, 'learning_rate': 1.2956945572705118e-06, 'epoch': 2.32}
+{'loss': 1.76, 'grad_norm': 2.66159987449646, 'learning_rate': 1.293663688058489e-06, 'epoch': 2.32}
+{'loss': 1.7035, 'grad_norm': 2.6337332725524902, 'learning_rate': 1.2916328188464664e-06, 'epoch': 2.32}
+{'loss': 1.6439, 'grad_norm': 2.528524398803711, 'learning_rate': 1.2896019496344436e-06, 'epoch': 2.32}
+{'loss': 1.7134, 'grad_norm': 2.5938384532928467, 'learning_rate': 1.287571080422421e-06, 'epoch': 2.32}
+{'loss': 1.7758, 'grad_norm': 2.606271505355835, 'learning_rate': 1.2855402112103982e-06, 'epoch': 2.32}
+{'loss': 1.6927, 'grad_norm': 2.530071258544922, 'learning_rate': 1.2835093419983755e-06, 'epoch': 2.32}
+{'eval_loss': 1.9856306314468384, 'eval_runtime': 36.9674, 'eval_samples_per_second': 27.051, 'eval_steps_per_second': 1.136, 'epoch': 2.32}
+{'loss': 1.7225, 'grad_norm': 2.8125321865081787, 'learning_rate': 1.2814784727863528e-06, 'epoch': 2.32}
+{'loss': 1.7177, 'grad_norm': 2.57012939453125, 'learning_rate': 1.27944760357433e-06, 'epoch': 2.33}
+{'loss': 1.7807, 'grad_norm': 2.6595780849456787, 'learning_rate': 1.2774167343623073e-06, 'epoch': 2.33}
+{'loss': 1.7762, 'grad_norm': 2.557115077972412, 'learning_rate': 1.2753858651502846e-06, 'epoch': 2.33}
+{'loss': 1.7638, 'grad_norm': 2.763218879699707, 'learning_rate': 1.2733549959382616e-06, 'epoch': 2.33}
+{'loss': 1.7387, 'grad_norm': 2.7284505367279053, 'learning_rate': 1.271324126726239e-06, 'epoch': 2.33}
+{'loss': 1.7322, 'grad_norm': 2.5893704891204834, 'learning_rate': 1.2692932575142162e-06, 'epoch': 2.33}
+{'loss': 1.6865, 'grad_norm': 2.625582456588745, 'learning_rate': 1.2672623883021935e-06, 'epoch': 2.33}
+{'loss': 1.6817, 'grad_norm': 2.5458641052246094, 'learning_rate': 1.2652315190901707e-06, 'epoch': 2.33}
+{'loss': 1.8076, 'grad_norm': 2.5718271732330322, 'learning_rate': 1.263200649878148e-06, 'epoch': 2.33}
+{'eval_loss': 1.9806523323059082, 'eval_runtime': 36.9843, 'eval_samples_per_second': 27.038, 'eval_steps_per_second': 1.136, 'epoch': 2.33}
+{'loss': 1.7308, 'grad_norm': 2.4864919185638428, 'learning_rate': 1.2611697806661253e-06, 'epoch': 2.34}
+{'loss': 1.7523, 'grad_norm': 2.6007416248321533, 'learning_rate': 1.2591389114541026e-06, 'epoch': 2.34}
+{'loss': 1.7422, 'grad_norm': 2.600177049636841, 'learning_rate': 1.2571080422420798e-06, 'epoch': 2.34}
+{'loss': 1.7184, 'grad_norm': 2.489025831222534, 'learning_rate': 1.2550771730300571e-06, 'epoch': 2.34}
+{'loss': 1.7922, 'grad_norm': 2.5677363872528076, 'learning_rate': 1.2530463038180344e-06, 'epoch': 2.34}
+{'loss': 1.7354, 'grad_norm': 2.616976737976074, 'learning_rate': 1.2510154346060117e-06, 'epoch': 2.34}
+{'loss': 1.7377, 'grad_norm': 2.646456241607666, 'learning_rate': 1.2489845653939887e-06, 'epoch': 2.34}
+{'loss': 1.7751, 'grad_norm': 2.550020933151245, 'learning_rate': 1.246953696181966e-06, 'epoch': 2.34}
+{'loss': 1.8157, 'grad_norm': 2.634279251098633, 'learning_rate': 1.2449228269699433e-06, 'epoch': 2.34}
+{'loss': 1.7383, 'grad_norm': 2.5621821880340576, 'learning_rate': 1.2428919577579204e-06, 'epoch': 2.35}
+{'eval_loss': 1.9809924364089966, 'eval_runtime': 37.004, 'eval_samples_per_second': 27.024, 'eval_steps_per_second': 1.135, 'epoch': 2.35}
+{'loss': 1.6988, 'grad_norm': 2.638831615447998, 'learning_rate': 1.2408610885458976e-06, 'epoch': 2.35}
+{'loss': 1.7331, 'grad_norm': 2.634612798690796, 'learning_rate': 1.238830219333875e-06, 'epoch': 2.35}
+{'loss': 1.7148, 'grad_norm': 2.552955389022827, 'learning_rate': 1.2367993501218522e-06, 'epoch': 2.35}
+{'loss': 1.7815, 'grad_norm': 2.6475753784179688, 'learning_rate': 1.2347684809098295e-06, 'epoch': 2.35}
+{'loss': 1.7634, 'grad_norm': 2.7666079998016357, 'learning_rate': 1.2327376116978067e-06, 'epoch': 2.35}
+{'loss': 1.6769, 'grad_norm': 2.6810429096221924, 'learning_rate': 1.230706742485784e-06, 'epoch': 2.35}
+{'loss': 1.6884, 'grad_norm': 2.671382188796997, 'learning_rate': 1.2286758732737613e-06, 'epoch': 2.35}
+{'loss': 1.8226, 'grad_norm': 2.614684820175171, 'learning_rate': 1.2266450040617386e-06, 'epoch': 2.35}
+{'loss': 1.819, 'grad_norm': 2.47189998626709, 'learning_rate': 1.2246141348497158e-06, 'epoch': 2.36}
+{'loss': 1.7494, 'grad_norm': 2.4641449451446533, 'learning_rate': 1.2225832656376931e-06, 'epoch': 2.36}
+{'eval_loss': 1.9806426763534546, 'eval_runtime': 37.0153, 'eval_samples_per_second': 27.016, 'eval_steps_per_second': 1.135, 'epoch': 2.36}
+{'loss': 1.7432, 'grad_norm': 2.7310373783111572, 'learning_rate': 1.2205523964256704e-06, 'epoch': 2.36}
+{'loss': 1.7213, 'grad_norm': 2.5554895401000977, 'learning_rate': 1.2185215272136477e-06, 'epoch': 2.36}
+{'loss': 1.7469, 'grad_norm': 2.5401952266693115, 'learning_rate': 1.2164906580016247e-06, 'epoch': 2.36}
+{'loss': 1.7459, 'grad_norm': 2.5213980674743652, 'learning_rate': 1.214459788789602e-06, 'epoch': 2.36}
+{'loss': 1.6587, 'grad_norm': 2.5585155487060547, 'learning_rate': 1.2124289195775793e-06, 'epoch': 2.36}
+{'loss': 1.6925, 'grad_norm': 2.6329963207244873, 'learning_rate': 1.2103980503655566e-06, 'epoch': 2.36}
+{'loss': 1.7322, 'grad_norm': 2.678351640701294, 'learning_rate': 1.2083671811535338e-06, 'epoch': 2.36}
+{'loss': 1.7142, 'grad_norm': 2.595313549041748, 'learning_rate': 1.2063363119415111e-06, 'epoch': 2.36}
+{'loss': 1.7024, 'grad_norm': 2.5650861263275146, 'learning_rate': 1.2043054427294882e-06, 'epoch': 2.37}
+{'loss': 1.7205, 'grad_norm': 2.495866537094116, 'learning_rate': 1.2022745735174654e-06, 'epoch': 2.37}
+{'eval_loss': 1.976922631263733, 'eval_runtime': 37.012, 'eval_samples_per_second': 27.018, 'eval_steps_per_second': 1.135, 'epoch': 2.37}
+{'loss': 1.7601, 'grad_norm': 2.570307493209839, 'learning_rate': 1.2002437043054427e-06, 'epoch': 2.37}
+{'loss': 1.7857, 'grad_norm': 2.444373846054077, 'learning_rate': 1.19821283509342e-06, 'epoch': 2.37}
+{'loss': 1.7875, 'grad_norm': 2.525505781173706, 'learning_rate': 1.1961819658813973e-06, 'epoch': 2.37}
+{'loss': 1.7596, 'grad_norm': 2.622260093688965, 'learning_rate': 1.1941510966693746e-06, 'epoch': 2.37}
+{'loss': 1.7248, 'grad_norm': 2.542076349258423, 'learning_rate': 1.1921202274573518e-06, 'epoch': 2.37}
+{'loss': 1.7168, 'grad_norm': 2.510263681411743, 'learning_rate': 1.190089358245329e-06, 'epoch': 2.37}
+{'loss': 1.798, 'grad_norm': 2.605023145675659, 'learning_rate': 1.1880584890333064e-06, 'epoch': 2.37}
+{'loss': 1.7247, 'grad_norm': 2.593261480331421, 'learning_rate': 1.1860276198212837e-06, 'epoch': 2.38}
+{'loss': 1.7607, 'grad_norm': 2.6010820865631104, 'learning_rate': 1.183996750609261e-06, 'epoch': 2.38}
+{'loss': 1.7641, 'grad_norm': 2.62886118888855, 'learning_rate': 1.1819658813972382e-06, 'epoch': 2.38}
+{'eval_loss': 1.9790476560592651, 'eval_runtime': 37.0413, 'eval_samples_per_second': 26.997, 'eval_steps_per_second': 1.134, 'epoch': 2.38}
+{'loss': 1.7407, 'grad_norm': 2.5506582260131836, 'learning_rate': 1.1799350121852153e-06, 'epoch': 2.38}
+{'loss': 1.7808, 'grad_norm': 2.547445774078369, 'learning_rate': 1.1779041429731925e-06, 'epoch': 2.38}
+{'loss': 1.7842, 'grad_norm': 2.5443003177642822, 'learning_rate': 1.1758732737611698e-06, 'epoch': 2.38}
+{'loss': 1.6902, 'grad_norm': 2.5733375549316406, 'learning_rate': 1.173842404549147e-06, 'epoch': 2.38}
+{'loss': 1.8049, 'grad_norm': 2.63702392578125, 'learning_rate': 1.1718115353371244e-06, 'epoch': 2.38}
+{'loss': 1.7162, 'grad_norm': 2.5577163696289062, 'learning_rate': 1.1697806661251016e-06, 'epoch': 2.38}
+{'loss': 1.7883, 'grad_norm': 2.4259274005889893, 'learning_rate': 1.167749796913079e-06, 'epoch': 2.39}
+{'loss': 1.7882, 'grad_norm': 2.537519931793213, 'learning_rate': 1.1657189277010562e-06, 'epoch': 2.39}
+{'loss': 1.7245, 'grad_norm': 2.5480241775512695, 'learning_rate': 1.1636880584890335e-06, 'epoch': 2.39}
+{'loss': 1.7165, 'grad_norm': 2.630337953567505, 'learning_rate': 1.1616571892770108e-06, 'epoch': 2.39}
+{'eval_loss': 1.9772392511367798, 'eval_runtime': 37.1283, 'eval_samples_per_second': 26.934, 'eval_steps_per_second': 1.131, 'epoch': 2.39}
+{'loss': 1.7806, 'grad_norm': 2.5741171836853027, 'learning_rate': 1.159626320064988e-06, 'epoch': 2.39}
+{'loss': 1.744, 'grad_norm': 2.6166305541992188, 'learning_rate': 1.1575954508529653e-06, 'epoch': 2.39}
+{'loss': 1.7736, 'grad_norm': 2.6965837478637695, 'learning_rate': 1.1555645816409426e-06, 'epoch': 2.39}
+{'loss': 1.7455, 'grad_norm': 2.586827516555786, 'learning_rate': 1.1535337124289196e-06, 'epoch': 2.39}
+{'loss': 1.6999, 'grad_norm': 2.587235689163208, 'learning_rate': 1.151502843216897e-06, 'epoch': 2.39}
+{'loss': 1.6518, 'grad_norm': 2.656740665435791, 'learning_rate': 1.1494719740048742e-06, 'epoch': 2.4}
+{'loss': 1.7389, 'grad_norm': 2.5353455543518066, 'learning_rate': 1.1474411047928515e-06, 'epoch': 2.4}
+{'loss': 1.7309, 'grad_norm': 2.622314453125, 'learning_rate': 1.1454102355808287e-06, 'epoch': 2.4}
+{'loss': 1.7094, 'grad_norm': 2.6286797523498535, 'learning_rate': 1.143379366368806e-06, 'epoch': 2.4}
+{'loss': 1.6905, 'grad_norm': 2.5203921794891357, 'learning_rate': 1.141348497156783e-06, 'epoch': 2.4}
+{'eval_loss': 1.9822566509246826, 'eval_runtime': 37.0581, 'eval_samples_per_second': 26.985, 'eval_steps_per_second': 1.133, 'epoch': 2.4}
+{'loss': 1.8293, 'grad_norm': 2.6562373638153076, 'learning_rate': 1.1393176279447604e-06, 'epoch': 2.4}
+{'loss': 1.7936, 'grad_norm': 2.5581510066986084, 'learning_rate': 1.1372867587327376e-06, 'epoch': 2.4}
+{'loss': 1.6648, 'grad_norm': 2.534675121307373, 'learning_rate': 1.135255889520715e-06, 'epoch': 2.4}
+{'loss': 1.7654, 'grad_norm': 2.7236168384552, 'learning_rate': 1.1332250203086922e-06, 'epoch': 2.4}
+{'loss': 1.7427, 'grad_norm': 2.5706138610839844, 'learning_rate': 1.1311941510966695e-06, 'epoch': 2.41}
+{'loss': 1.7216, 'grad_norm': 2.7030224800109863, 'learning_rate': 1.1291632818846467e-06, 'epoch': 2.41}
+{'loss': 1.7033, 'grad_norm': 2.4936161041259766, 'learning_rate': 1.127132412672624e-06, 'epoch': 2.41}
+{'loss': 1.7023, 'grad_norm': 2.5384793281555176, 'learning_rate': 1.1251015434606013e-06, 'epoch': 2.41}
+{'loss': 1.738, 'grad_norm': 2.5271613597869873, 'learning_rate': 1.1230706742485786e-06, 'epoch': 2.41}
+{'loss': 1.7927, 'grad_norm': 2.557610034942627, 'learning_rate': 1.1210398050365558e-06, 'epoch': 2.41}
+{'eval_loss': 1.9795563220977783, 'eval_runtime': 37.0832, 'eval_samples_per_second': 26.966, 'eval_steps_per_second': 1.133, 'epoch': 2.41}
+{'loss': 1.7361, 'grad_norm': 2.5497145652770996, 'learning_rate': 1.1190089358245331e-06, 'epoch': 2.41}
+{'loss': 1.6624, 'grad_norm': 2.622793436050415, 'learning_rate': 1.1169780666125102e-06, 'epoch': 2.41}
+{'loss': 1.7755, 'grad_norm': 2.694563865661621, 'learning_rate': 1.1149471974004875e-06, 'epoch': 2.41}
+{'loss': 1.7132, 'grad_norm': 2.68461012840271, 'learning_rate': 1.1129163281884647e-06, 'epoch': 2.42}
+{'loss': 1.7728, 'grad_norm': 2.65791654586792, 'learning_rate': 1.110885458976442e-06, 'epoch': 2.42}
+{'loss': 1.6973, 'grad_norm': 2.46262788772583, 'learning_rate': 1.1088545897644193e-06, 'epoch': 2.42}
+{'loss': 1.7651, 'grad_norm': 2.5602169036865234, 'learning_rate': 1.1068237205523966e-06, 'epoch': 2.42}
+{'loss': 1.7674, 'grad_norm': 2.5492701530456543, 'learning_rate': 1.1047928513403736e-06, 'epoch': 2.42}
+{'loss': 1.7719, 'grad_norm': 2.798940420150757, 'learning_rate': 1.102761982128351e-06, 'epoch': 2.42}
+{'loss': 1.6821, 'grad_norm': 2.6989545822143555, 'learning_rate': 1.1007311129163282e-06, 'epoch': 2.42}
+{'eval_loss': 1.9763859510421753, 'eval_runtime': 36.7821, 'eval_samples_per_second': 27.187, 'eval_steps_per_second': 1.142, 'epoch': 2.42}
+{'loss': 1.7432, 'grad_norm': 2.752720594406128, 'learning_rate': 1.0987002437043055e-06, 'epoch': 2.42}
+{'loss': 1.718, 'grad_norm': 2.6162850856781006, 'learning_rate': 1.0966693744922827e-06, 'epoch': 2.42}
+{'loss': 1.6761, 'grad_norm': 2.938995838165283, 'learning_rate': 1.09463850528026e-06, 'epoch': 2.43}
+{'loss': 1.7267, 'grad_norm': 2.7038822174072266, 'learning_rate': 1.0926076360682373e-06, 'epoch': 2.43}
+{'loss': 1.7021, 'grad_norm': 2.6025028228759766, 'learning_rate': 1.0905767668562146e-06, 'epoch': 2.43}
+{'loss': 1.7221, 'grad_norm': 2.5922977924346924, 'learning_rate': 1.0885458976441918e-06, 'epoch': 2.43}
+{'loss': 1.8047, 'grad_norm': 2.634716033935547, 'learning_rate': 1.0865150284321691e-06, 'epoch': 2.43}
+{'loss': 1.7426, 'grad_norm': 2.655155658721924, 'learning_rate': 1.0844841592201464e-06, 'epoch': 2.43}
+{'loss': 1.7627, 'grad_norm': 2.5151286125183105, 'learning_rate': 1.0824532900081237e-06, 'epoch': 2.43}
+{'loss': 1.7325, 'grad_norm': 2.696597099304199, 'learning_rate': 1.080422420796101e-06, 'epoch': 2.43}
+{'eval_loss': 1.9818732738494873, 'eval_runtime': 36.9854, 'eval_samples_per_second': 27.038, 'eval_steps_per_second': 1.136, 'epoch': 2.43}
+{'loss': 1.743, 'grad_norm': 2.7444307804107666, 'learning_rate': 1.078391551584078e-06, 'epoch': 2.43}
+{'loss': 1.7699, 'grad_norm': 2.503706455230713, 'learning_rate': 1.0763606823720553e-06, 'epoch': 2.44}
+{'loss': 1.8077, 'grad_norm': 2.546041965484619, 'learning_rate': 1.0743298131600326e-06, 'epoch': 2.44}
+{'loss': 1.7637, 'grad_norm': 2.5515291690826416, 'learning_rate': 1.0722989439480098e-06, 'epoch': 2.44}
+{'loss': 1.7299, 'grad_norm': 2.564180850982666, 'learning_rate': 1.070268074735987e-06, 'epoch': 2.44}
+{'loss': 1.713, 'grad_norm': 2.532708168029785, 'learning_rate': 1.0682372055239644e-06, 'epoch': 2.44}
+{'loss': 1.7103, 'grad_norm': 2.672358512878418, 'learning_rate': 1.0662063363119414e-06, 'epoch': 2.44}
+{'loss': 1.7129, 'grad_norm': 2.7836480140686035, 'learning_rate': 1.0641754670999187e-06, 'epoch': 2.44}
+{'loss': 1.7389, 'grad_norm': 2.6253440380096436, 'learning_rate': 1.062144597887896e-06, 'epoch': 2.44}
+{'loss': 1.7293, 'grad_norm': 2.5863685607910156, 'learning_rate': 1.0601137286758733e-06, 'epoch': 2.44}
+{'eval_loss': 1.9771078824996948, 'eval_runtime': 37.0603, 'eval_samples_per_second': 26.983, 'eval_steps_per_second': 1.133, 'epoch': 2.44}
+{'loss': 1.8012, 'grad_norm': 2.732042074203491, 'learning_rate': 1.0580828594638505e-06, 'epoch': 2.44}
+{'loss': 1.6482, 'grad_norm': 2.5275564193725586, 'learning_rate': 1.0560519902518278e-06, 'epoch': 2.45}
+{'loss': 1.7799, 'grad_norm': 2.7054405212402344, 'learning_rate': 1.054021121039805e-06, 'epoch': 2.45}
+{'loss': 1.6797, 'grad_norm': 2.587719678878784, 'learning_rate': 1.0519902518277824e-06, 'epoch': 2.45}
+{'loss': 1.6727, 'grad_norm': 2.600907564163208, 'learning_rate': 1.0499593826157596e-06, 'epoch': 2.45}
+{'loss': 1.7535, 'grad_norm': 2.6509485244750977, 'learning_rate': 1.047928513403737e-06, 'epoch': 2.45}
+{'loss': 1.7285, 'grad_norm': 2.6827805042266846, 'learning_rate': 1.0458976441917142e-06, 'epoch': 2.45}
+{'loss': 1.6546, 'grad_norm': 2.7095749378204346, 'learning_rate': 1.0438667749796915e-06, 'epoch': 2.45}
+{'loss': 1.6659, 'grad_norm': 2.7757186889648438, 'learning_rate': 1.0418359057676688e-06, 'epoch': 2.45}
+{'loss': 1.7108, 'grad_norm': 2.7696826457977295, 'learning_rate': 1.0398050365556458e-06, 'epoch': 2.45}
+{'eval_loss': 1.980337142944336, 'eval_runtime': 37.0883, 'eval_samples_per_second': 26.963, 'eval_steps_per_second': 1.132, 'epoch': 2.45}
+{'loss': 1.77, 'grad_norm': 2.96648907661438, 'learning_rate': 1.037774167343623e-06, 'epoch': 2.46}
+{'loss': 1.6962, 'grad_norm': 2.561461925506592, 'learning_rate': 1.0357432981316004e-06, 'epoch': 2.46}
+{'loss': 1.7385, 'grad_norm': 2.5870988368988037, 'learning_rate': 1.0337124289195776e-06, 'epoch': 2.46}
+{'loss': 1.7771, 'grad_norm': 2.607558488845825, 'learning_rate': 1.031681559707555e-06, 'epoch': 2.46}
+{'loss': 1.7845, 'grad_norm': 2.6373603343963623, 'learning_rate': 1.0296506904955322e-06, 'epoch': 2.46}
+{'loss': 1.7384, 'grad_norm': 2.5508599281311035, 'learning_rate': 1.0276198212835095e-06, 'epoch': 2.46}
+{'loss': 1.7458, 'grad_norm': 2.730696201324463, 'learning_rate': 1.0255889520714867e-06, 'epoch': 2.46}
+{'loss': 1.7195, 'grad_norm': 2.4905753135681152, 'learning_rate': 1.023558082859464e-06, 'epoch': 2.46}
+{'loss': 1.6986, 'grad_norm': 2.664184331893921, 'learning_rate': 1.0215272136474413e-06, 'epoch': 2.46}
+{'loss': 1.7981, 'grad_norm': 2.683645009994507, 'learning_rate': 1.0194963444354186e-06, 'epoch': 2.47}
+{'eval_loss': 1.9768283367156982, 'eval_runtime': 37.1086, 'eval_samples_per_second': 26.948, 'eval_steps_per_second': 1.132, 'epoch': 2.47}
+{'loss': 1.6807, 'grad_norm': 2.633633852005005, 'learning_rate': 1.0174654752233958e-06, 'epoch': 2.47}
+{'loss': 1.7705, 'grad_norm': 2.655794382095337, 'learning_rate': 1.015434606011373e-06, 'epoch': 2.47}
+{'loss': 1.7201, 'grad_norm': 2.6457812786102295, 'learning_rate': 1.0134037367993502e-06, 'epoch': 2.47}
+{'loss': 1.7402, 'grad_norm': 2.623656749725342, 'learning_rate': 1.0113728675873275e-06, 'epoch': 2.47}
+{'loss': 1.7372, 'grad_norm': 2.65552020072937, 'learning_rate': 1.0093419983753047e-06, 'epoch': 2.47}
+{'loss': 1.7299, 'grad_norm': 2.707531213760376, 'learning_rate': 1.007311129163282e-06, 'epoch': 2.47}
+{'loss': 1.6858, 'grad_norm': 2.504805564880371, 'learning_rate': 1.0052802599512593e-06, 'epoch': 2.47}
+{'loss': 1.6867, 'grad_norm': 2.584251642227173, 'learning_rate': 1.0032493907392364e-06, 'epoch': 2.47}
+{'loss': 1.7442, 'grad_norm': 2.5356390476226807, 'learning_rate': 1.0012185215272136e-06, 'epoch': 2.48}
+{'loss': 1.6777, 'grad_norm': 2.5929319858551025, 'learning_rate': 9.99187652315191e-07, 'epoch': 2.48}
+{'eval_loss': 1.9772632122039795, 'eval_runtime': 37.0951, 'eval_samples_per_second': 26.958, 'eval_steps_per_second': 1.132, 'epoch': 2.48}
+{'loss': 1.7638, 'grad_norm': 2.6396026611328125, 'learning_rate': 9.971567831031682e-07, 'epoch': 2.48}
+{'loss': 1.7566, 'grad_norm': 2.5710740089416504, 'learning_rate': 9.951259138911455e-07, 'epoch': 2.48}
+{'loss': 1.6639, 'grad_norm': 2.5611767768859863, 'learning_rate': 9.930950446791227e-07, 'epoch': 2.48}
+{'loss': 1.7887, 'grad_norm': 2.5390372276306152, 'learning_rate': 9.910641754671e-07, 'epoch': 2.48}
+{'loss': 1.8221, 'grad_norm': 2.6124560832977295, 'learning_rate': 9.890333062550773e-07, 'epoch': 2.48}
+{'loss': 1.725, 'grad_norm': 2.6506896018981934, 'learning_rate': 9.870024370430546e-07, 'epoch': 2.48}
+{'loss': 1.7566, 'grad_norm': 2.617889642715454, 'learning_rate': 9.849715678310318e-07, 'epoch': 2.48}
+{'loss': 1.7327, 'grad_norm': 2.571110486984253, 'learning_rate': 9.829406986190091e-07, 'epoch': 2.49}
+{'loss': 1.7471, 'grad_norm': 2.657665252685547, 'learning_rate': 9.809098294069864e-07, 'epoch': 2.49}
+{'loss': 1.6597, 'grad_norm': 2.5402324199676514, 'learning_rate': 9.788789601949637e-07, 'epoch': 2.49}
+{'eval_loss': 1.975923776626587, 'eval_runtime': 37.0909, 'eval_samples_per_second': 26.961, 'eval_steps_per_second': 1.132, 'epoch': 2.49}
+{'loss': 1.7434, 'grad_norm': 2.619765281677246, 'learning_rate': 9.768480909829407e-07, 'epoch': 2.49}
+{'loss': 1.7937, 'grad_norm': 2.664238214492798, 'learning_rate': 9.74817221770918e-07, 'epoch': 2.49}
+{'loss': 1.7203, 'grad_norm': 2.6743860244750977, 'learning_rate': 9.727863525588953e-07, 'epoch': 2.49}
+{'loss': 1.7473, 'grad_norm': 2.695051670074463, 'learning_rate': 9.707554833468726e-07, 'epoch': 2.49}
+{'loss': 1.7358, 'grad_norm': 2.6115036010742188, 'learning_rate': 9.687246141348498e-07, 'epoch': 2.49}
+{'loss': 1.723, 'grad_norm': 2.7951300144195557, 'learning_rate': 9.666937449228271e-07, 'epoch': 2.49}
+{'loss': 1.7389, 'grad_norm': 2.6242685317993164, 'learning_rate': 9.646628757108042e-07, 'epoch': 2.5}
+{'loss': 1.6775, 'grad_norm': 2.567150831222534, 'learning_rate': 9.626320064987814e-07, 'epoch': 2.5}
+{'loss': 1.7624, 'grad_norm': 2.6157355308532715, 'learning_rate': 9.606011372867587e-07, 'epoch': 2.5}
+{'loss': 1.6955, 'grad_norm': 2.5663843154907227, 'learning_rate': 9.58570268074736e-07, 'epoch': 2.5}
+{'eval_loss': 1.9744558334350586, 'eval_runtime': 37.1094, 'eval_samples_per_second': 26.947, 'eval_steps_per_second': 1.132, 'epoch': 2.5}
+{'loss': 1.7261, 'grad_norm': 2.667611598968506, 'learning_rate': 9.565393988627133e-07, 'epoch': 2.5}
+{'loss': 1.7252, 'grad_norm': 2.5702202320098877, 'learning_rate': 9.545085296506906e-07, 'epoch': 2.5}
+{'loss': 1.7407, 'grad_norm': 2.5271430015563965, 'learning_rate': 9.524776604386677e-07, 'epoch': 2.5}
+{'loss': 1.739, 'grad_norm': 2.5804171562194824, 'learning_rate': 9.50446791226645e-07, 'epoch': 2.5}
+{'loss': 1.668, 'grad_norm': 2.571345090866089, 'learning_rate': 9.484159220146223e-07, 'epoch': 2.5}
+{'loss': 1.7677, 'grad_norm': 2.5697009563446045, 'learning_rate': 9.463850528025995e-07, 'epoch': 2.51}
+{'loss': 1.7589, 'grad_norm': 2.5846893787384033, 'learning_rate': 9.443541835905768e-07, 'epoch': 2.51}
+{'loss': 1.8104, 'grad_norm': 2.803380250930786, 'learning_rate': 9.423233143785541e-07, 'epoch': 2.51}
+{'loss': 1.8061, 'grad_norm': 2.6451611518859863, 'learning_rate': 9.402924451665313e-07, 'epoch': 2.51}
+{'loss': 1.6899, 'grad_norm': 2.6164097785949707, 'learning_rate': 9.382615759545085e-07, 'epoch': 2.51}
+{'eval_loss': 1.9739093780517578, 'eval_runtime': 37.1222, 'eval_samples_per_second': 26.938, 'eval_steps_per_second': 1.131, 'epoch': 2.51}
+{'loss': 1.7692, 'grad_norm': 2.5874385833740234, 'learning_rate': 9.362307067424858e-07, 'epoch': 2.51}
+{'loss': 1.7303, 'grad_norm': 2.5705063343048096, 'learning_rate': 9.341998375304631e-07, 'epoch': 2.51}
+{'loss': 1.7892, 'grad_norm': 2.6130380630493164, 'learning_rate': 9.321689683184404e-07, 'epoch': 2.51}
+{'loss': 1.6877, 'grad_norm': 2.5991110801696777, 'learning_rate': 9.301380991064176e-07, 'epoch': 2.51}
+{'loss': 1.6729, 'grad_norm': 2.6092689037323, 'learning_rate': 9.281072298943949e-07, 'epoch': 2.52}
+{'loss': 1.7181, 'grad_norm': 2.5563883781433105, 'learning_rate': 9.260763606823721e-07, 'epoch': 2.52}
+{'loss': 1.7528, 'grad_norm': 2.623948574066162, 'learning_rate': 9.240454914703494e-07, 'epoch': 2.52}
+{'loss': 1.7582, 'grad_norm': 2.661874294281006, 'learning_rate': 9.220146222583266e-07, 'epoch': 2.52}
+{'loss': 1.6987, 'grad_norm': 2.5936238765716553, 'learning_rate': 9.199837530463039e-07, 'epoch': 2.52}
+{'loss': 1.7265, 'grad_norm': 2.5134992599487305, 'learning_rate': 9.179528838342812e-07, 'epoch': 2.52}
+{'eval_loss': 1.9737082719802856, 'eval_runtime': 37.1105, 'eval_samples_per_second': 26.947, 'eval_steps_per_second': 1.132, 'epoch': 2.52}
+{'loss': 1.7059, 'grad_norm': 2.627927541732788, 'learning_rate': 9.159220146222585e-07, 'epoch': 2.52}
+{'loss': 1.7558, 'grad_norm': 2.6419436931610107, 'learning_rate': 9.138911454102356e-07, 'epoch': 2.52}
+{'loss': 1.6281, 'grad_norm': 2.6184327602386475, 'learning_rate': 9.118602761982129e-07, 'epoch': 2.52}
+{'loss': 1.7408, 'grad_norm': 2.6111767292022705, 'learning_rate': 9.098294069861902e-07, 'epoch': 2.52}
+{'loss': 1.7397, 'grad_norm': 2.6416513919830322, 'learning_rate': 9.077985377741675e-07, 'epoch': 2.53}
+{'loss': 1.6941, 'grad_norm': 2.5487682819366455, 'learning_rate': 9.057676685621447e-07, 'epoch': 2.53}
+{'loss': 1.66, 'grad_norm': 2.6250264644622803, 'learning_rate': 9.03736799350122e-07, 'epoch': 2.53}
+{'loss': 1.7829, 'grad_norm': 2.6054790019989014, 'learning_rate': 9.017059301380991e-07, 'epoch': 2.53}
+{'loss': 1.7693, 'grad_norm': 2.751016616821289, 'learning_rate': 8.996750609260764e-07, 'epoch': 2.53}
+{'loss': 1.7971, 'grad_norm': 2.6321675777435303, 'learning_rate': 8.976441917140536e-07, 'epoch': 2.53}
+{'eval_loss': 1.9757944345474243, 'eval_runtime': 36.77, 'eval_samples_per_second': 27.196, 'eval_steps_per_second': 1.142, 'epoch': 2.53}
+{'loss': 1.7703, 'grad_norm': 2.642702341079712, 'learning_rate': 8.956133225020309e-07, 'epoch': 2.53}
+{'loss': 1.8009, 'grad_norm': 2.614771604537964, 'learning_rate': 8.935824532900082e-07, 'epoch': 2.53}
+{'loss': 1.6954, 'grad_norm': 2.514615058898926, 'learning_rate': 8.915515840779855e-07, 'epoch': 2.53}
+{'loss': 1.6779, 'grad_norm': 2.644207715988159, 'learning_rate': 8.895207148659626e-07, 'epoch': 2.54}
+{'loss': 1.7595, 'grad_norm': 2.7844860553741455, 'learning_rate': 8.874898456539399e-07, 'epoch': 2.54}
+{'loss': 1.7448, 'grad_norm': 2.714629650115967, 'learning_rate': 8.854589764419172e-07, 'epoch': 2.54}
+{'loss': 1.7438, 'grad_norm': 2.57271409034729, 'learning_rate': 8.834281072298945e-07, 'epoch': 2.54}
+{'loss': 1.6924, 'grad_norm': 2.6566264629364014, 'learning_rate': 8.813972380178717e-07, 'epoch': 2.54}
+{'loss': 1.7317, 'grad_norm': 2.619744300842285, 'learning_rate': 8.79366368805849e-07, 'epoch': 2.54}
+{'loss': 1.7467, 'grad_norm': 2.6249327659606934, 'learning_rate': 8.773354995938262e-07, 'epoch': 2.54}
+{'eval_loss': 1.9757587909698486, 'eval_runtime': 36.9112, 'eval_samples_per_second': 27.092, 'eval_steps_per_second': 1.138, 'epoch': 2.54}
+{'loss': 1.6962, 'grad_norm': 2.584317445755005, 'learning_rate': 8.753046303818035e-07, 'epoch': 2.54}
+{'loss': 1.6863, 'grad_norm': 2.7346856594085693, 'learning_rate': 8.732737611697807e-07, 'epoch': 2.54}
+{'loss': 1.7271, 'grad_norm': 2.574941635131836, 'learning_rate': 8.71242891957758e-07, 'epoch': 2.55}
+{'loss': 1.751, 'grad_norm': 2.546217441558838, 'learning_rate': 8.692120227457353e-07, 'epoch': 2.55}
+{'loss': 1.7692, 'grad_norm': 2.534414768218994, 'learning_rate': 8.671811535337126e-07, 'epoch': 2.55}
+{'loss': 1.7135, 'grad_norm': 2.625565528869629, 'learning_rate': 8.651502843216898e-07, 'epoch': 2.55}
+{'loss': 1.8093, 'grad_norm': 2.715276002883911, 'learning_rate': 8.63119415109667e-07, 'epoch': 2.55}
+{'loss': 1.7589, 'grad_norm': 2.6494171619415283, 'learning_rate': 8.610885458976443e-07, 'epoch': 2.55}
+{'loss': 1.7484, 'grad_norm': 2.6840505599975586, 'learning_rate': 8.590576766856216e-07, 'epoch': 2.55}
+{'loss': 1.6985, 'grad_norm': 2.510047435760498, 'learning_rate': 8.570268074735988e-07, 'epoch': 2.55}
+{'eval_loss': 1.9751781225204468, 'eval_runtime': 36.9998, 'eval_samples_per_second': 27.027, 'eval_steps_per_second': 1.135, 'epoch': 2.55}
+{'loss': 1.6873, 'grad_norm': 2.6174721717834473, 'learning_rate': 8.549959382615761e-07, 'epoch': 2.55}
+{'loss': 1.7058, 'grad_norm': 2.570403814315796, 'learning_rate': 8.529650690495534e-07, 'epoch': 2.56}
+{'loss': 1.7342, 'grad_norm': 2.8619518280029297, 'learning_rate': 8.509341998375305e-07, 'epoch': 2.56}
+{'loss': 1.6736, 'grad_norm': 2.6569507122039795, 'learning_rate': 8.489033306255077e-07, 'epoch': 2.56}
+{'loss': 1.648, 'grad_norm': 2.5437800884246826, 'learning_rate': 8.46872461413485e-07, 'epoch': 2.56}
+{'loss': 1.692, 'grad_norm': 2.652275323867798, 'learning_rate': 8.448415922014623e-07, 'epoch': 2.56}
+{'loss': 1.7033, 'grad_norm': 2.6103672981262207, 'learning_rate': 8.428107229894396e-07, 'epoch': 2.56}
+{'loss': 1.7473, 'grad_norm': 2.6765308380126953, 'learning_rate': 8.407798537774168e-07, 'epoch': 2.56}
+{'loss': 1.7346, 'grad_norm': 2.708935260772705, 'learning_rate': 8.38748984565394e-07, 'epoch': 2.56}
+{'loss': 1.6927, 'grad_norm': 2.597233772277832, 'learning_rate': 8.367181153533713e-07, 'epoch': 2.56}
+{'eval_loss': 1.9768768548965454, 'eval_runtime': 37.0191, 'eval_samples_per_second': 27.013, 'eval_steps_per_second': 1.135, 'epoch': 2.56}
+{'loss': 1.7219, 'grad_norm': 2.624343156814575, 'learning_rate': 8.346872461413486e-07, 'epoch': 2.57}
+{'loss': 1.7136, 'grad_norm': 2.675095796585083, 'learning_rate': 8.326563769293258e-07, 'epoch': 2.57}
+{'loss': 1.7187, 'grad_norm': 2.575009822845459, 'learning_rate': 8.306255077173031e-07, 'epoch': 2.57}
+{'loss': 1.8232, 'grad_norm': 2.539958953857422, 'learning_rate': 8.285946385052804e-07, 'epoch': 2.57}
+{'loss': 1.6746, 'grad_norm': 2.613976001739502, 'learning_rate': 8.265637692932575e-07, 'epoch': 2.57}
+{'loss': 1.7542, 'grad_norm': 2.5001742839813232, 'learning_rate': 8.245329000812348e-07, 'epoch': 2.57}
+{'loss': 1.7434, 'grad_norm': 2.6975460052490234, 'learning_rate': 8.225020308692121e-07, 'epoch': 2.57}
+{'loss': 1.6843, 'grad_norm': 2.6900603771209717, 'learning_rate': 8.204711616571894e-07, 'epoch': 2.57}
+{'loss': 1.7279, 'grad_norm': 2.5895581245422363, 'learning_rate': 8.184402924451667e-07, 'epoch': 2.57}
+{'loss': 1.6743, 'grad_norm': 2.5448262691497803, 'learning_rate': 8.164094232331439e-07, 'epoch': 2.58}
+{'eval_loss': 1.9762015342712402, 'eval_runtime': 37.0186, 'eval_samples_per_second': 27.013, 'eval_steps_per_second': 1.135, 'epoch': 2.58}
+{'loss': 1.7525, 'grad_norm': 2.6080751419067383, 'learning_rate': 8.14378554021121e-07, 'epoch': 2.58}
+{'loss': 1.7304, 'grad_norm': 2.6307425498962402, 'learning_rate': 8.123476848090983e-07, 'epoch': 2.58}
+{'loss': 1.7018, 'grad_norm': 2.7442290782928467, 'learning_rate': 8.103168155970755e-07, 'epoch': 2.58}
+{'loss': 1.7115, 'grad_norm': 2.5672149658203125, 'learning_rate': 8.082859463850528e-07, 'epoch': 2.58}
+{'loss': 1.7461, 'grad_norm': 2.7201836109161377, 'learning_rate': 8.062550771730301e-07, 'epoch': 2.58}
+{'loss': 1.7169, 'grad_norm': 2.7145047187805176, 'learning_rate': 8.042242079610074e-07, 'epoch': 2.58}
+{'loss': 1.71, 'grad_norm': 2.7162413597106934, 'learning_rate': 8.021933387489846e-07, 'epoch': 2.58}
+{'loss': 1.7016, 'grad_norm': 2.515169858932495, 'learning_rate': 8.001624695369618e-07, 'epoch': 2.58}
+{'loss': 1.7251, 'grad_norm': 2.620922803878784, 'learning_rate': 7.981316003249391e-07, 'epoch': 2.59}
+{'loss': 1.787, 'grad_norm': 2.8066515922546387, 'learning_rate': 7.961007311129164e-07, 'epoch': 2.59}
+{'eval_loss': 1.9778543710708618, 'eval_runtime': 37.0094, 'eval_samples_per_second': 27.02, 'eval_steps_per_second': 1.135, 'epoch': 2.59}
+{'loss': 1.6654, 'grad_norm': 2.5266482830047607, 'learning_rate': 7.940698619008936e-07, 'epoch': 2.59}
+{'loss': 1.7532, 'grad_norm': 2.6038002967834473, 'learning_rate': 7.920389926888709e-07, 'epoch': 2.59}
+{'loss': 1.8235, 'grad_norm': 2.716871976852417, 'learning_rate': 7.900081234768482e-07, 'epoch': 2.59}
+{'loss': 1.6927, 'grad_norm': 2.6962411403656006, 'learning_rate': 7.879772542648254e-07, 'epoch': 2.59}
+{'loss': 1.7448, 'grad_norm': 2.670116662979126, 'learning_rate': 7.859463850528026e-07, 'epoch': 2.59}
+{'loss': 1.7369, 'grad_norm': 2.6886184215545654, 'learning_rate': 7.839155158407799e-07, 'epoch': 2.59}
+{'loss': 1.7368, 'grad_norm': 2.6570565700531006, 'learning_rate': 7.818846466287572e-07, 'epoch': 2.59}
+{'loss': 1.7357, 'grad_norm': 2.551548719406128, 'learning_rate': 7.798537774167345e-07, 'epoch': 2.6}
+{'loss': 1.7614, 'grad_norm': 2.646280527114868, 'learning_rate': 7.778229082047117e-07, 'epoch': 2.6}
+{'loss': 1.694, 'grad_norm': 2.626239776611328, 'learning_rate': 7.757920389926889e-07, 'epoch': 2.6}
+{'eval_loss': 1.9757529497146606, 'eval_runtime': 36.9858, 'eval_samples_per_second': 27.037, 'eval_steps_per_second': 1.136, 'epoch': 2.6}
+{'loss': 1.7342, 'grad_norm': 2.6001148223876953, 'learning_rate': 7.737611697806662e-07, 'epoch': 2.6}
+{'loss': 1.7031, 'grad_norm': 2.5435168743133545, 'learning_rate': 7.717303005686435e-07, 'epoch': 2.6}
+{'loss': 1.7598, 'grad_norm': 2.652031183242798, 'learning_rate': 7.696994313566207e-07, 'epoch': 2.6}
+{'loss': 1.8008, 'grad_norm': 2.635340690612793, 'learning_rate': 7.67668562144598e-07, 'epoch': 2.6}
+{'loss': 1.6821, 'grad_norm': 2.6935770511627197, 'learning_rate': 7.656376929325753e-07, 'epoch': 2.6}
+{'loss': 1.6844, 'grad_norm': 2.621493339538574, 'learning_rate': 7.636068237205524e-07, 'epoch': 2.6}
+{'loss': 1.7622, 'grad_norm': 2.6231918334960938, 'learning_rate': 7.615759545085296e-07, 'epoch': 2.6}
+{'loss': 1.6772, 'grad_norm': 2.608091115951538, 'learning_rate': 7.595450852965069e-07, 'epoch': 2.61}
+{'loss': 1.7139, 'grad_norm': 2.7701456546783447, 'learning_rate': 7.575142160844842e-07, 'epoch': 2.61}
+{'loss': 1.7525, 'grad_norm': 2.6648287773132324, 'learning_rate': 7.554833468724615e-07, 'epoch': 2.61}
+{'eval_loss': 1.9792429208755493, 'eval_runtime': 37.0103, 'eval_samples_per_second': 27.02, 'eval_steps_per_second': 1.135, 'epoch': 2.61}
+{'loss': 1.679, 'grad_norm': 2.690938949584961, 'learning_rate': 7.534524776604387e-07, 'epoch': 2.61}
+{'loss': 1.7033, 'grad_norm': 2.658691167831421, 'learning_rate': 7.51421608448416e-07, 'epoch': 2.61}
+{'loss': 1.7527, 'grad_norm': 2.576317310333252, 'learning_rate': 7.493907392363932e-07, 'epoch': 2.61}
+{'loss': 1.702, 'grad_norm': 2.5913753509521484, 'learning_rate': 7.473598700243705e-07, 'epoch': 2.61}
+{'loss': 1.6568, 'grad_norm': 2.61553692817688, 'learning_rate': 7.453290008123477e-07, 'epoch': 2.61}
+{'loss': 1.7216, 'grad_norm': 2.6631391048431396, 'learning_rate': 7.43298131600325e-07, 'epoch': 2.61}
+{'loss': 1.7278, 'grad_norm': 2.6120619773864746, 'learning_rate': 7.412672623883023e-07, 'epoch': 2.62}
+{'loss': 1.7275, 'grad_norm': 2.6166980266571045, 'learning_rate': 7.392363931762796e-07, 'epoch': 2.62}
+{'loss': 1.6657, 'grad_norm': 2.7203712463378906, 'learning_rate': 7.372055239642567e-07, 'epoch': 2.62}
+{'loss': 1.7206, 'grad_norm': 2.6785244941711426, 'learning_rate': 7.35174654752234e-07, 'epoch': 2.62}
+{'eval_loss': 1.9763447046279907, 'eval_runtime': 37.0352, 'eval_samples_per_second': 27.001, 'eval_steps_per_second': 1.134, 'epoch': 2.62}
+{'loss': 1.7474, 'grad_norm': 2.72511887550354, 'learning_rate': 7.331437855402113e-07, 'epoch': 2.62}
+{'loss': 1.7694, 'grad_norm': 2.6428632736206055, 'learning_rate': 7.311129163281886e-07, 'epoch': 2.62}
+{'loss': 1.6883, 'grad_norm': 2.6593737602233887, 'learning_rate': 7.290820471161658e-07, 'epoch': 2.62}
+{'loss': 1.7457, 'grad_norm': 2.6048357486724854, 'learning_rate': 7.270511779041431e-07, 'epoch': 2.62}
+{'loss': 1.7508, 'grad_norm': 2.6435704231262207, 'learning_rate': 7.250203086921203e-07, 'epoch': 2.62}
+{'loss': 1.6603, 'grad_norm': 2.609815835952759, 'learning_rate': 7.229894394800976e-07, 'epoch': 2.63}
+{'loss': 1.725, 'grad_norm': 2.5431087017059326, 'learning_rate': 7.209585702680748e-07, 'epoch': 2.63}
+{'loss': 1.7428, 'grad_norm': 2.6712050437927246, 'learning_rate': 7.189277010560521e-07, 'epoch': 2.63}
+{'loss': 1.6834, 'grad_norm': 2.6398820877075195, 'learning_rate': 7.168968318440294e-07, 'epoch': 2.63}
+{'loss': 1.6985, 'grad_norm': 2.5986127853393555, 'learning_rate': 7.148659626320067e-07, 'epoch': 2.63}
+{'eval_loss': 1.9727513790130615, 'eval_runtime': 37.0552, 'eval_samples_per_second': 26.987, 'eval_steps_per_second': 1.133, 'epoch': 2.63}
+{'loss': 1.6732, 'grad_norm': 2.6422410011291504, 'learning_rate': 7.128350934199837e-07, 'epoch': 2.63}
+{'loss': 1.7855, 'grad_norm': 2.59894061088562, 'learning_rate': 7.10804224207961e-07, 'epoch': 2.63}
+{'loss': 1.7768, 'grad_norm': 2.6503429412841797, 'learning_rate': 7.087733549959383e-07, 'epoch': 2.63}
+{'loss': 1.7221, 'grad_norm': 2.5734922885894775, 'learning_rate': 7.067424857839155e-07, 'epoch': 2.63}
+{'loss': 1.7116, 'grad_norm': 2.5473709106445312, 'learning_rate': 7.047116165718928e-07, 'epoch': 2.64}
+{'loss': 1.7085, 'grad_norm': 2.655651330947876, 'learning_rate': 7.026807473598701e-07, 'epoch': 2.64}
+{'loss': 1.7189, 'grad_norm': 2.615900993347168, 'learning_rate': 7.006498781478473e-07, 'epoch': 2.64}
+{'loss': 1.7902, 'grad_norm': 2.5976428985595703, 'learning_rate': 6.986190089358245e-07, 'epoch': 2.64}
+{'loss': 1.6842, 'grad_norm': 2.6213088035583496, 'learning_rate': 6.965881397238018e-07, 'epoch': 2.64}
+{'loss': 1.7297, 'grad_norm': 2.476685047149658, 'learning_rate': 6.945572705117791e-07, 'epoch': 2.64}
+{'eval_loss': 1.9702810049057007, 'eval_runtime': 36.7953, 'eval_samples_per_second': 27.177, 'eval_steps_per_second': 1.141, 'epoch': 2.64}
+{'loss': 1.7335, 'grad_norm': 2.625504732131958, 'learning_rate': 6.925264012997564e-07, 'epoch': 2.64}
+{'loss': 1.7339, 'grad_norm': 2.849334716796875, 'learning_rate': 6.904955320877336e-07, 'epoch': 2.64}
+{'loss': 1.7431, 'grad_norm': 2.7533011436462402, 'learning_rate': 6.884646628757109e-07, 'epoch': 2.64}
+{'loss': 1.7474, 'grad_norm': 2.6793112754821777, 'learning_rate': 6.864337936636881e-07, 'epoch': 2.65}
+{'loss': 1.8092, 'grad_norm': 2.68094539642334, 'learning_rate': 6.844029244516654e-07, 'epoch': 2.65}
+{'loss': 1.7838, 'grad_norm': 2.7346346378326416, 'learning_rate': 6.823720552396426e-07, 'epoch': 2.65}
+{'loss': 1.6927, 'grad_norm': 2.6850287914276123, 'learning_rate': 6.803411860276199e-07, 'epoch': 2.65}
+{'loss': 1.7505, 'grad_norm': 2.5687966346740723, 'learning_rate': 6.783103168155972e-07, 'epoch': 2.65}
+{'loss': 1.7285, 'grad_norm': 2.515760660171509, 'learning_rate': 6.762794476035745e-07, 'epoch': 2.65}
+{'loss': 1.7148, 'grad_norm': 2.604621171951294, 'learning_rate': 6.742485783915515e-07, 'epoch': 2.65}
+{'eval_loss': 1.9678161144256592, 'eval_runtime': 36.9829, 'eval_samples_per_second': 27.04, 'eval_steps_per_second': 1.136, 'epoch': 2.65}
+{'loss': 1.756, 'grad_norm': 2.5340449810028076, 'learning_rate': 6.722177091795288e-07, 'epoch': 2.65}
+{'loss': 1.7439, 'grad_norm': 2.5800235271453857, 'learning_rate': 6.701868399675061e-07, 'epoch': 2.65}
+{'loss': 1.7351, 'grad_norm': 2.6596486568450928, 'learning_rate': 6.681559707554834e-07, 'epoch': 2.66}
+{'loss': 1.6978, 'grad_norm': 2.55759334564209, 'learning_rate': 6.661251015434606e-07, 'epoch': 2.66}
+{'loss': 1.7011, 'grad_norm': 2.6761016845703125, 'learning_rate': 6.640942323314379e-07, 'epoch': 2.66}
+{'loss': 1.6891, 'grad_norm': 2.5663347244262695, 'learning_rate': 6.620633631194151e-07, 'epoch': 2.66}
+{'loss': 1.703, 'grad_norm': 2.64680552482605, 'learning_rate': 6.600324939073924e-07, 'epoch': 2.66}
+{'loss': 1.7329, 'grad_norm': 2.730487585067749, 'learning_rate': 6.580016246953696e-07, 'epoch': 2.66}
+{'loss': 1.7126, 'grad_norm': 2.6785171031951904, 'learning_rate': 6.559707554833469e-07, 'epoch': 2.66}
+{'loss': 1.7663, 'grad_norm': 2.657883882522583, 'learning_rate': 6.539398862713242e-07, 'epoch': 2.66}
+{'eval_loss': 1.968948245048523, 'eval_runtime': 37.0622, 'eval_samples_per_second': 26.982, 'eval_steps_per_second': 1.133, 'epoch': 2.66}
+{'loss': 1.7067, 'grad_norm': 2.5575273036956787, 'learning_rate': 6.519090170593015e-07, 'epoch': 2.66}
+{'loss': 1.7674, 'grad_norm': 2.664853811264038, 'learning_rate': 6.498781478472786e-07, 'epoch': 2.67}
+{'loss': 1.7328, 'grad_norm': 2.571324348449707, 'learning_rate': 6.478472786352559e-07, 'epoch': 2.67}
+{'loss': 1.7736, 'grad_norm': 2.7143940925598145, 'learning_rate': 6.458164094232332e-07, 'epoch': 2.67}
+{'loss': 1.7266, 'grad_norm': 2.6819112300872803, 'learning_rate': 6.437855402112105e-07, 'epoch': 2.67}
+{'loss': 1.6662, 'grad_norm': 2.701815128326416, 'learning_rate': 6.417546709991877e-07, 'epoch': 2.67}
+{'loss': 1.6896, 'grad_norm': 2.6434922218322754, 'learning_rate': 6.39723801787165e-07, 'epoch': 2.67}
+{'loss': 1.7794, 'grad_norm': 2.738567590713501, 'learning_rate': 6.376929325751423e-07, 'epoch': 2.67}
+{'loss': 1.7159, 'grad_norm': 2.6100597381591797, 'learning_rate': 6.356620633631195e-07, 'epoch': 2.67}
+{'loss': 1.7106, 'grad_norm': 2.6096298694610596, 'learning_rate': 6.336311941510967e-07, 'epoch': 2.67}
+{'eval_loss': 1.967889428138733, 'eval_runtime': 37.0763, 'eval_samples_per_second': 26.971, 'eval_steps_per_second': 1.133, 'epoch': 2.67}
+{'loss': 1.7106, 'grad_norm': 2.671086072921753, 'learning_rate': 6.31600324939074e-07, 'epoch': 2.68}
+{'loss': 1.734, 'grad_norm': 2.7339978218078613, 'learning_rate': 6.295694557270513e-07, 'epoch': 2.68}
+{'loss': 1.7677, 'grad_norm': 2.626713752746582, 'learning_rate': 6.275385865150286e-07, 'epoch': 2.68}
+{'loss': 1.7415, 'grad_norm': 2.542891502380371, 'learning_rate': 6.255077173030058e-07, 'epoch': 2.68}
+{'loss': 1.724, 'grad_norm': 2.657703161239624, 'learning_rate': 6.23476848090983e-07, 'epoch': 2.68}
+{'loss': 1.7319, 'grad_norm': 2.6566591262817383, 'learning_rate': 6.214459788789602e-07, 'epoch': 2.68}
+{'loss': 1.7148, 'grad_norm': 2.684117078781128, 'learning_rate': 6.194151096669375e-07, 'epoch': 2.68}
+{'loss': 1.7515, 'grad_norm': 2.6989500522613525, 'learning_rate': 6.173842404549147e-07, 'epoch': 2.68}
+{'loss': 1.7195, 'grad_norm': 2.731233835220337, 'learning_rate': 6.15353371242892e-07, 'epoch': 2.68}
+{'loss': 1.7311, 'grad_norm': 2.6298322677612305, 'learning_rate': 6.133225020308693e-07, 'epoch': 2.68}
+{'eval_loss': 1.9676637649536133, 'eval_runtime': 37.0926, 'eval_samples_per_second': 26.96, 'eval_steps_per_second': 1.132, 'epoch': 2.68}
+{'loss': 1.6388, 'grad_norm': 2.57230806350708, 'learning_rate': 6.112916328188466e-07, 'epoch': 2.69}
+{'loss': 1.7108, 'grad_norm': 2.5881690979003906, 'learning_rate': 6.092607636068238e-07, 'epoch': 2.69}
+{'loss': 1.7814, 'grad_norm': 2.732182264328003, 'learning_rate': 6.07229894394801e-07, 'epoch': 2.69}
+{'loss': 1.6969, 'grad_norm': 2.6008358001708984, 'learning_rate': 6.051990251827783e-07, 'epoch': 2.69}
+{'loss': 1.6973, 'grad_norm': 2.638119697570801, 'learning_rate': 6.031681559707556e-07, 'epoch': 2.69}
+{'loss': 1.7385, 'grad_norm': 2.5765764713287354, 'learning_rate': 6.011372867587327e-07, 'epoch': 2.69}
+{'loss': 1.7311, 'grad_norm': 2.6819193363189697, 'learning_rate': 5.9910641754671e-07, 'epoch': 2.69}
+{'loss': 1.6935, 'grad_norm': 2.562638521194458, 'learning_rate': 5.970755483346873e-07, 'epoch': 2.69}
+{'loss': 1.7083, 'grad_norm': 2.6333518028259277, 'learning_rate': 5.950446791226646e-07, 'epoch': 2.69}
+{'loss': 1.7082, 'grad_norm': 2.6318745613098145, 'learning_rate': 5.930138099106418e-07, 'epoch': 2.7}
+{'eval_loss': 1.9667798280715942, 'eval_runtime': 37.0761, 'eval_samples_per_second': 26.972, 'eval_steps_per_second': 1.133, 'epoch': 2.7}
+{'loss': 1.7251, 'grad_norm': 2.7109830379486084, 'learning_rate': 5.909829406986191e-07, 'epoch': 2.7}
+{'loss': 1.7057, 'grad_norm': 2.5945379734039307, 'learning_rate': 5.889520714865963e-07, 'epoch': 2.7}
+{'loss': 1.7358, 'grad_norm': 2.658888816833496, 'learning_rate': 5.869212022745735e-07, 'epoch': 2.7}
+{'loss': 1.6777, 'grad_norm': 2.6142160892486572, 'learning_rate': 5.848903330625508e-07, 'epoch': 2.7}
+{'loss': 1.7342, 'grad_norm': 2.6961355209350586, 'learning_rate': 5.828594638505281e-07, 'epoch': 2.7}
+{'loss': 1.7343, 'grad_norm': 2.527519464492798, 'learning_rate': 5.808285946385054e-07, 'epoch': 2.7}
+{'loss': 1.7084, 'grad_norm': 2.661269187927246, 'learning_rate': 5.787977254264827e-07, 'epoch': 2.7}
+{'loss': 1.7417, 'grad_norm': 2.648587703704834, 'learning_rate': 5.767668562144598e-07, 'epoch': 2.7}
+{'loss': 1.7651, 'grad_norm': 2.690467596054077, 'learning_rate': 5.747359870024371e-07, 'epoch': 2.71}
+{'loss': 1.7156, 'grad_norm': 2.6351239681243896, 'learning_rate': 5.727051177904144e-07, 'epoch': 2.71}
+{'eval_loss': 1.9673000574111938, 'eval_runtime': 37.0884, 'eval_samples_per_second': 26.963, 'eval_steps_per_second': 1.132, 'epoch': 2.71}
+{'loss': 1.7276, 'grad_norm': 2.674419403076172, 'learning_rate': 5.706742485783915e-07, 'epoch': 2.71}
+{'loss': 1.7578, 'grad_norm': 2.626304864883423, 'learning_rate': 5.686433793663688e-07, 'epoch': 2.71}
+{'loss': 1.6909, 'grad_norm': 2.6923720836639404, 'learning_rate': 5.666125101543461e-07, 'epoch': 2.71}
+{'loss': 1.6691, 'grad_norm': 2.6496634483337402, 'learning_rate': 5.645816409423234e-07, 'epoch': 2.71}
+{'loss': 1.7705, 'grad_norm': 2.640418529510498, 'learning_rate': 5.625507717303006e-07, 'epoch': 2.71}
+{'loss': 1.7356, 'grad_norm': 2.5379440784454346, 'learning_rate': 5.605199025182779e-07, 'epoch': 2.71}
+{'loss': 1.7128, 'grad_norm': 2.6212170124053955, 'learning_rate': 5.584890333062551e-07, 'epoch': 2.71}
+{'loss': 1.6933, 'grad_norm': 2.676152467727661, 'learning_rate': 5.564581640942324e-07, 'epoch': 2.72}
+{'loss': 1.7651, 'grad_norm': 2.684361457824707, 'learning_rate': 5.544272948822096e-07, 'epoch': 2.72}
+{'loss': 1.7054, 'grad_norm': 2.630239486694336, 'learning_rate': 5.523964256701868e-07, 'epoch': 2.72}
+{'eval_loss': 1.967214822769165, 'eval_runtime': 37.0987, 'eval_samples_per_second': 26.955, 'eval_steps_per_second': 1.132, 'epoch': 2.72}
+{'loss': 1.7152, 'grad_norm': 2.5909178256988525, 'learning_rate': 5.503655564581641e-07, 'epoch': 2.72}
+{'loss': 1.7383, 'grad_norm': 2.6395678520202637, 'learning_rate': 5.483346872461414e-07, 'epoch': 2.72}
+{'loss': 1.7111, 'grad_norm': 2.5965633392333984, 'learning_rate': 5.463038180341186e-07, 'epoch': 2.72}
+{'loss': 1.7126, 'grad_norm': 2.5583207607269287, 'learning_rate': 5.442729488220959e-07, 'epoch': 2.72}
+{'loss': 1.698, 'grad_norm': 2.691272258758545, 'learning_rate': 5.422420796100732e-07, 'epoch': 2.72}
+{'loss': 1.7397, 'grad_norm': 2.5674681663513184, 'learning_rate': 5.402112103980505e-07, 'epoch': 2.72}
+{'loss': 1.7095, 'grad_norm': 2.626338243484497, 'learning_rate': 5.381803411860276e-07, 'epoch': 2.73}
+{'loss': 1.758, 'grad_norm': 2.636225700378418, 'learning_rate': 5.361494719740049e-07, 'epoch': 2.73}
+{'loss': 1.7969, 'grad_norm': 2.7304928302764893, 'learning_rate': 5.341186027619822e-07, 'epoch': 2.73}
+{'loss': 1.6876, 'grad_norm': 2.660935640335083, 'learning_rate': 5.320877335499594e-07, 'epoch': 2.73}
+{'eval_loss': 1.9665592908859253, 'eval_runtime': 37.0848, 'eval_samples_per_second': 26.965, 'eval_steps_per_second': 1.133, 'epoch': 2.73}
+{'loss': 1.699, 'grad_norm': 2.623068332672119, 'learning_rate': 5.300568643379366e-07, 'epoch': 2.73}
+{'loss': 1.7789, 'grad_norm': 2.528489112854004, 'learning_rate': 5.280259951259139e-07, 'epoch': 2.73}
+{'loss': 1.7358, 'grad_norm': 2.6441330909729004, 'learning_rate': 5.259951259138912e-07, 'epoch': 2.73}
+{'loss': 1.6946, 'grad_norm': 2.6011250019073486, 'learning_rate': 5.239642567018685e-07, 'epoch': 2.73}
+{'loss': 1.6922, 'grad_norm': 2.669063091278076, 'learning_rate': 5.219333874898457e-07, 'epoch': 2.73}
+{'loss': 1.7191, 'grad_norm': 2.7551729679107666, 'learning_rate': 5.199025182778229e-07, 'epoch': 2.74}
+{'loss': 1.7319, 'grad_norm': 2.730877637863159, 'learning_rate': 5.178716490658002e-07, 'epoch': 2.74}
+{'loss': 1.6891, 'grad_norm': 2.6159300804138184, 'learning_rate': 5.158407798537775e-07, 'epoch': 2.74}
+{'loss': 1.651, 'grad_norm': 2.7436540126800537, 'learning_rate': 5.138099106417547e-07, 'epoch': 2.74}
+{'loss': 1.6241, 'grad_norm': 2.6271872520446777, 'learning_rate': 5.11779041429732e-07, 'epoch': 2.74}
+{'eval_loss': 1.9660766124725342, 'eval_runtime': 37.0963, 'eval_samples_per_second': 26.957, 'eval_steps_per_second': 1.132, 'epoch': 2.74}
+{'loss': 1.71, 'grad_norm': 2.651845693588257, 'learning_rate': 5.097481722177093e-07, 'epoch': 2.74}
+{'loss': 1.6902, 'grad_norm': 2.63710880279541, 'learning_rate': 5.077173030056865e-07, 'epoch': 2.74}
+{'loss': 1.7641, 'grad_norm': 2.6147260665893555, 'learning_rate': 5.056864337936637e-07, 'epoch': 2.74}
+{'loss': 1.7655, 'grad_norm': 2.715195655822754, 'learning_rate': 5.03655564581641e-07, 'epoch': 2.74}
+{'loss': 1.7217, 'grad_norm': 2.5544769763946533, 'learning_rate': 5.016246953696182e-07, 'epoch': 2.75}
+{'loss': 1.8411, 'grad_norm': 2.703354835510254, 'learning_rate': 4.995938261575955e-07, 'epoch': 2.75}
+{'loss': 1.7204, 'grad_norm': 2.7403740882873535, 'learning_rate': 4.975629569455727e-07, 'epoch': 2.75}
+{'loss': 1.7404, 'grad_norm': 2.595554828643799, 'learning_rate': 4.9553208773355e-07, 'epoch': 2.75}
+{'loss': 1.7964, 'grad_norm': 2.5391628742218018, 'learning_rate': 4.935012185215273e-07, 'epoch': 2.75}
+{'loss': 1.7033, 'grad_norm': 2.547213315963745, 'learning_rate': 4.914703493095046e-07, 'epoch': 2.75}
+{'eval_loss': 1.9653823375701904, 'eval_runtime': 36.7942, 'eval_samples_per_second': 27.178, 'eval_steps_per_second': 1.141, 'epoch': 2.75}
+{'loss': 1.6756, 'grad_norm': 2.6644885540008545, 'learning_rate': 4.894394800974818e-07, 'epoch': 2.75}
+{'loss': 1.6903, 'grad_norm': 2.617520570755005, 'learning_rate': 4.87408610885459e-07, 'epoch': 2.75}
+{'loss': 1.8086, 'grad_norm': 2.7279889583587646, 'learning_rate': 4.853777416734363e-07, 'epoch': 2.75}
+{'loss': 1.758, 'grad_norm': 2.6223795413970947, 'learning_rate': 4.833468724614136e-07, 'epoch': 2.76}
+{'loss': 1.7157, 'grad_norm': 2.6278305053710938, 'learning_rate': 4.813160032493907e-07, 'epoch': 2.76}
+{'loss': 1.6986, 'grad_norm': 2.575812339782715, 'learning_rate': 4.79285134037368e-07, 'epoch': 2.76}
+{'loss': 1.6844, 'grad_norm': 2.67112398147583, 'learning_rate': 4.772542648253453e-07, 'epoch': 2.76}
+{'loss': 1.6937, 'grad_norm': 2.826032876968384, 'learning_rate': 4.752233956133225e-07, 'epoch': 2.76}
+{'loss': 1.7048, 'grad_norm': 2.6157286167144775, 'learning_rate': 4.731925264012998e-07, 'epoch': 2.76}
+{'loss': 1.7749, 'grad_norm': 2.7270114421844482, 'learning_rate': 4.7116165718927705e-07, 'epoch': 2.76}
+{'eval_loss': 1.9666064977645874, 'eval_runtime': 36.9714, 'eval_samples_per_second': 27.048, 'eval_steps_per_second': 1.136, 'epoch': 2.76}
+{'loss': 1.73, 'grad_norm': 2.5923123359680176, 'learning_rate': 4.6913078797725427e-07, 'epoch': 2.76}
+{'loss': 1.7124, 'grad_norm': 2.6962082386016846, 'learning_rate': 4.6709991876523155e-07, 'epoch': 2.76}
+{'loss': 1.7052, 'grad_norm': 2.6244304180145264, 'learning_rate': 4.650690495532088e-07, 'epoch': 2.76}
+{'loss': 1.7873, 'grad_norm': 2.58933162689209, 'learning_rate': 4.6303818034118605e-07, 'epoch': 2.77}
+{'loss': 1.7642, 'grad_norm': 2.7308239936828613, 'learning_rate': 4.610073111291633e-07, 'epoch': 2.77}
+{'loss': 1.6554, 'grad_norm': 2.666278600692749, 'learning_rate': 4.589764419171406e-07, 'epoch': 2.77}
+{'loss': 1.7196, 'grad_norm': 2.591625452041626, 'learning_rate': 4.569455727051178e-07, 'epoch': 2.77}
+{'loss': 1.6805, 'grad_norm': 2.6249170303344727, 'learning_rate': 4.549147034930951e-07, 'epoch': 2.77}
+{'loss': 1.7684, 'grad_norm': 2.6104607582092285, 'learning_rate': 4.5288383428107237e-07, 'epoch': 2.77}
+{'loss': 1.747, 'grad_norm': 2.6448006629943848, 'learning_rate': 4.5085296506904954e-07, 'epoch': 2.77}
+{'eval_loss': 1.9661206007003784, 'eval_runtime': 37.0394, 'eval_samples_per_second': 26.998, 'eval_steps_per_second': 1.134, 'epoch': 2.77}
+{'loss': 1.7146, 'grad_norm': 2.6639955043792725, 'learning_rate': 4.488220958570268e-07, 'epoch': 2.77}
+{'loss': 1.6874, 'grad_norm': 2.6226794719696045, 'learning_rate': 4.467912266450041e-07, 'epoch': 2.77}
+{'loss': 1.6824, 'grad_norm': 2.6525795459747314, 'learning_rate': 4.447603574329813e-07, 'epoch': 2.78}
+{'loss': 1.753, 'grad_norm': 2.596771240234375, 'learning_rate': 4.427294882209586e-07, 'epoch': 2.78}
+{'loss': 1.6772, 'grad_norm': 2.4983580112457275, 'learning_rate': 4.4069861900893587e-07, 'epoch': 2.78}
+{'loss': 1.7303, 'grad_norm': 2.6461708545684814, 'learning_rate': 4.386677497969131e-07, 'epoch': 2.78}
+{'loss': 1.8144, 'grad_norm': 2.532766103744507, 'learning_rate': 4.3663688058489037e-07, 'epoch': 2.78}
+{'loss': 1.7293, 'grad_norm': 2.6262009143829346, 'learning_rate': 4.3460601137286764e-07, 'epoch': 2.78}
+{'loss': 1.7619, 'grad_norm': 2.6355018615722656, 'learning_rate': 4.325751421608449e-07, 'epoch': 2.78}
+{'loss': 1.7309, 'grad_norm': 2.586331844329834, 'learning_rate': 4.3054427294882214e-07, 'epoch': 2.78}
+{'eval_loss': 1.9656602144241333, 'eval_runtime': 37.0374, 'eval_samples_per_second': 27.0, 'eval_steps_per_second': 1.134, 'epoch': 2.78}
+{'loss': 1.7478, 'grad_norm': 2.564220666885376, 'learning_rate': 4.285134037367994e-07, 'epoch': 2.78}
+{'loss': 1.7131, 'grad_norm': 2.5705366134643555, 'learning_rate': 4.264825345247767e-07, 'epoch': 2.79}
+{'loss': 1.6439, 'grad_norm': 2.5889837741851807, 'learning_rate': 4.2445166531275386e-07, 'epoch': 2.79}
+{'loss': 1.6999, 'grad_norm': 2.632688045501709, 'learning_rate': 4.2242079610073114e-07, 'epoch': 2.79}
+{'loss': 1.6499, 'grad_norm': 2.690004587173462, 'learning_rate': 4.203899268887084e-07, 'epoch': 2.79}
+{'loss': 1.7666, 'grad_norm': 2.723090171813965, 'learning_rate': 4.1835905767668564e-07, 'epoch': 2.79}
+{'loss': 1.7831, 'grad_norm': 2.657174587249756, 'learning_rate': 4.163281884646629e-07, 'epoch': 2.79}
+{'loss': 1.7211, 'grad_norm': 2.6086323261260986, 'learning_rate': 4.142973192526402e-07, 'epoch': 2.79}
+{'loss': 1.7582, 'grad_norm': 2.59486722946167, 'learning_rate': 4.122664500406174e-07, 'epoch': 2.79}
+{'loss': 1.7339, 'grad_norm': 2.6308753490448, 'learning_rate': 4.102355808285947e-07, 'epoch': 2.79}
+{'eval_loss': 1.9652767181396484, 'eval_runtime': 37.0143, 'eval_samples_per_second': 27.017, 'eval_steps_per_second': 1.135, 'epoch': 2.79}
+{'loss': 1.7125, 'grad_norm': 3.7471933364868164, 'learning_rate': 4.0820471161657196e-07, 'epoch': 2.8}
+{'loss': 1.7468, 'grad_norm': 2.7045977115631104, 'learning_rate': 4.0617384240454913e-07, 'epoch': 2.8}
+{'loss': 1.7574, 'grad_norm': 2.595890998840332, 'learning_rate': 4.041429731925264e-07, 'epoch': 2.8}
+{'loss': 1.6704, 'grad_norm': 2.6221795082092285, 'learning_rate': 4.021121039805037e-07, 'epoch': 2.8}
+{'loss': 1.6908, 'grad_norm': 2.5565948486328125, 'learning_rate': 4.000812347684809e-07, 'epoch': 2.8}
+{'loss': 1.7007, 'grad_norm': 2.6208608150482178, 'learning_rate': 3.980503655564582e-07, 'epoch': 2.8}
+{'loss': 1.7264, 'grad_norm': 2.6080801486968994, 'learning_rate': 3.9601949634443546e-07, 'epoch': 2.8}
+{'loss': 1.7196, 'grad_norm': 2.5089752674102783, 'learning_rate': 3.939886271324127e-07, 'epoch': 2.8}
+{'loss': 1.6998, 'grad_norm': 2.6230075359344482, 'learning_rate': 3.9195775792038996e-07, 'epoch': 2.8}
+{'loss': 1.7544, 'grad_norm': 2.5645101070404053, 'learning_rate': 3.8992688870836723e-07, 'epoch': 2.81}
+{'eval_loss': 1.9631915092468262, 'eval_runtime': 37.0012, 'eval_samples_per_second': 27.026, 'eval_steps_per_second': 1.135, 'epoch': 2.81}
+{'loss': 1.7466, 'grad_norm': 2.5155181884765625, 'learning_rate': 3.8789601949634446e-07, 'epoch': 2.81}
+{'loss': 1.7114, 'grad_norm': 2.6017398834228516, 'learning_rate': 3.8586515028432173e-07, 'epoch': 2.81}
+{'loss': 1.6367, 'grad_norm': 2.6371278762817383, 'learning_rate': 3.83834281072299e-07, 'epoch': 2.81}
+{'loss': 1.7213, 'grad_norm': 2.644526481628418, 'learning_rate': 3.818034118602762e-07, 'epoch': 2.81}
+{'loss': 1.6771, 'grad_norm': 2.571929931640625, 'learning_rate': 3.7977254264825345e-07, 'epoch': 2.81}
+{'loss': 1.7317, 'grad_norm': 2.7080020904541016, 'learning_rate': 3.7774167343623073e-07, 'epoch': 2.81}
+{'loss': 1.738, 'grad_norm': 2.6303861141204834, 'learning_rate': 3.75710804224208e-07, 'epoch': 2.81}
+{'loss': 1.7589, 'grad_norm': 2.5958845615386963, 'learning_rate': 3.7367993501218523e-07, 'epoch': 2.81}
+{'loss': 1.6922, 'grad_norm': 2.6587975025177, 'learning_rate': 3.716490658001625e-07, 'epoch': 2.82}
+{'loss': 1.7082, 'grad_norm': 2.678011178970337, 'learning_rate': 3.696181965881398e-07, 'epoch': 2.82}
+{'eval_loss': 1.963266372680664, 'eval_runtime': 37.0097, 'eval_samples_per_second': 27.02, 'eval_steps_per_second': 1.135, 'epoch': 2.82}
+{'loss': 1.6702, 'grad_norm': 2.630423069000244, 'learning_rate': 3.67587327376117e-07, 'epoch': 2.82}
+{'loss': 1.7208, 'grad_norm': 2.6961770057678223, 'learning_rate': 3.655564581640943e-07, 'epoch': 2.82}
+{'loss': 1.7199, 'grad_norm': 2.5735878944396973, 'learning_rate': 3.6352558895207155e-07, 'epoch': 2.82}
+{'loss': 1.6768, 'grad_norm': 2.754194974899292, 'learning_rate': 3.614947197400488e-07, 'epoch': 2.82}
+{'loss': 1.7271, 'grad_norm': 2.5502395629882812, 'learning_rate': 3.5946385052802605e-07, 'epoch': 2.82}
+{'loss': 1.7188, 'grad_norm': 2.6345295906066895, 'learning_rate': 3.5743298131600333e-07, 'epoch': 2.82}
+{'loss': 1.6977, 'grad_norm': 2.6169989109039307, 'learning_rate': 3.554021121039805e-07, 'epoch': 2.82}
+{'loss': 1.7722, 'grad_norm': 2.6612536907196045, 'learning_rate': 3.533712428919578e-07, 'epoch': 2.83}
+{'loss': 1.7119, 'grad_norm': 2.58573579788208, 'learning_rate': 3.5134037367993505e-07, 'epoch': 2.83}
+{'loss': 1.711, 'grad_norm': 2.648927688598633, 'learning_rate': 3.4930950446791227e-07, 'epoch': 2.83}
+{'eval_loss': 1.9636057615280151, 'eval_runtime': 37.0115, 'eval_samples_per_second': 27.019, 'eval_steps_per_second': 1.135, 'epoch': 2.83}
+{'loss': 1.7076, 'grad_norm': 2.648447036743164, 'learning_rate': 3.4727863525588955e-07, 'epoch': 2.83}
+{'loss': 1.7107, 'grad_norm': 2.633486747741699, 'learning_rate': 3.452477660438668e-07, 'epoch': 2.83}
+{'loss': 1.7511, 'grad_norm': 2.8554606437683105, 'learning_rate': 3.4321689683184405e-07, 'epoch': 2.83}
+{'loss': 1.7144, 'grad_norm': 2.6638591289520264, 'learning_rate': 3.411860276198213e-07, 'epoch': 2.83}
+{'loss': 1.6839, 'grad_norm': 2.530543804168701, 'learning_rate': 3.391551584077986e-07, 'epoch': 2.83}
+{'loss': 1.7418, 'grad_norm': 2.653428792953491, 'learning_rate': 3.3712428919577577e-07, 'epoch': 2.83}
+{'loss': 1.7314, 'grad_norm': 2.74092960357666, 'learning_rate': 3.3509341998375304e-07, 'epoch': 2.84}
+{'loss': 1.6719, 'grad_norm': 2.632279872894287, 'learning_rate': 3.330625507717303e-07, 'epoch': 2.84}
+{'loss': 1.7074, 'grad_norm': 2.7040152549743652, 'learning_rate': 3.3103168155970754e-07, 'epoch': 2.84}
+{'loss': 1.782, 'grad_norm': 2.6040985584259033, 'learning_rate': 3.290008123476848e-07, 'epoch': 2.84}
+{'eval_loss': 1.9626216888427734, 'eval_runtime': 36.9933, 'eval_samples_per_second': 27.032, 'eval_steps_per_second': 1.135, 'epoch': 2.84}
+{'loss': 1.7994, 'grad_norm': 2.7316091060638428, 'learning_rate': 3.269699431356621e-07, 'epoch': 2.84}
+{'loss': 1.6929, 'grad_norm': 2.657702922821045, 'learning_rate': 3.249390739236393e-07, 'epoch': 2.84}
+{'loss': 1.6652, 'grad_norm': 2.6281511783599854, 'learning_rate': 3.229082047116166e-07, 'epoch': 2.84}
+{'loss': 1.7714, 'grad_norm': 2.5952417850494385, 'learning_rate': 3.2087733549959387e-07, 'epoch': 2.84}
+{'loss': 1.7546, 'grad_norm': 2.7457919120788574, 'learning_rate': 3.1884646628757114e-07, 'epoch': 2.84}
+{'loss': 1.7424, 'grad_norm': 2.580235481262207, 'learning_rate': 3.1681559707554837e-07, 'epoch': 2.84}
+{'loss': 1.7333, 'grad_norm': 2.6735477447509766, 'learning_rate': 3.1478472786352564e-07, 'epoch': 2.85}
+{'loss': 1.6817, 'grad_norm': 2.6106553077697754, 'learning_rate': 3.127538586515029e-07, 'epoch': 2.85}
+{'loss': 1.7129, 'grad_norm': 2.6753358840942383, 'learning_rate': 3.107229894394801e-07, 'epoch': 2.85}
+{'loss': 1.7113, 'grad_norm': 2.6023521423339844, 'learning_rate': 3.0869212022745736e-07, 'epoch': 2.85}
+{'eval_loss': 1.9635719060897827, 'eval_runtime': 37.0071, 'eval_samples_per_second': 27.022, 'eval_steps_per_second': 1.135, 'epoch': 2.85}
+{'loss': 1.6714, 'grad_norm': 2.5706582069396973, 'learning_rate': 3.0666125101543464e-07, 'epoch': 2.85}
+{'loss': 1.7134, 'grad_norm': 2.713901996612549, 'learning_rate': 3.046303818034119e-07, 'epoch': 2.85}
+{'loss': 1.7886, 'grad_norm': 2.5868680477142334, 'learning_rate': 3.0259951259138914e-07, 'epoch': 2.85}
+{'loss': 1.763, 'grad_norm': 2.6186039447784424, 'learning_rate': 3.0056864337936636e-07, 'epoch': 2.85}
+{'loss': 1.6239, 'grad_norm': 2.552243947982788, 'learning_rate': 2.9853777416734364e-07, 'epoch': 2.85}
+{'loss': 1.717, 'grad_norm': 2.6723620891571045, 'learning_rate': 2.965069049553209e-07, 'epoch': 2.86}
+{'loss': 1.7305, 'grad_norm': 2.583568572998047, 'learning_rate': 2.9447603574329814e-07, 'epoch': 2.86}
+{'loss': 1.6826, 'grad_norm': 2.565744638442993, 'learning_rate': 2.924451665312754e-07, 'epoch': 2.86}
+{'loss': 1.6792, 'grad_norm': 2.530231237411499, 'learning_rate': 2.904142973192527e-07, 'epoch': 2.86}
+{'loss': 1.6197, 'grad_norm': 2.6516849994659424, 'learning_rate': 2.883834281072299e-07, 'epoch': 2.86}
+{'eval_loss': 1.964681625366211, 'eval_runtime': 36.7638, 'eval_samples_per_second': 27.201, 'eval_steps_per_second': 1.142, 'epoch': 2.86}
+{'loss': 1.6876, 'grad_norm': 2.6955394744873047, 'learning_rate': 2.863525588952072e-07, 'epoch': 2.86}
+{'loss': 1.6877, 'grad_norm': 2.621171712875366, 'learning_rate': 2.843216896831844e-07, 'epoch': 2.86}
+{'loss': 1.6327, 'grad_norm': 2.5558149814605713, 'learning_rate': 2.822908204711617e-07, 'epoch': 2.86}
+{'loss': 1.7326, 'grad_norm': 2.6703007221221924, 'learning_rate': 2.8025995125913896e-07, 'epoch': 2.86}
+{'loss': 1.708, 'grad_norm': 2.7378921508789062, 'learning_rate': 2.782290820471162e-07, 'epoch': 2.87}
+{'loss': 1.747, 'grad_norm': 2.558793067932129, 'learning_rate': 2.761982128350934e-07, 'epoch': 2.87}
+{'loss': 1.7215, 'grad_norm': 2.684159755706787, 'learning_rate': 2.741673436230707e-07, 'epoch': 2.87}
+{'loss': 1.7272, 'grad_norm': 2.6290979385375977, 'learning_rate': 2.7213647441104796e-07, 'epoch': 2.87}
+{'loss': 1.7039, 'grad_norm': 2.5173256397247314, 'learning_rate': 2.7010560519902523e-07, 'epoch': 2.87}
+{'loss': 1.6348, 'grad_norm': 2.6074047088623047, 'learning_rate': 2.6807473598700246e-07, 'epoch': 2.87}
+{'eval_loss': 1.9641804695129395, 'eval_runtime': 36.9712, 'eval_samples_per_second': 27.048, 'eval_steps_per_second': 1.136, 'epoch': 2.87}
+{'loss': 1.7508, 'grad_norm': 2.6562676429748535, 'learning_rate': 2.660438667749797e-07, 'epoch': 2.87}
+{'loss': 1.6785, 'grad_norm': 2.6405282020568848, 'learning_rate': 2.6401299756295696e-07, 'epoch': 2.87}
+{'loss': 1.6874, 'grad_norm': 2.585638999938965, 'learning_rate': 2.6198212835093423e-07, 'epoch': 2.87}
+{'loss': 1.6861, 'grad_norm': 2.5654988288879395, 'learning_rate': 2.5995125913891145e-07, 'epoch': 2.88}
+{'loss': 1.6551, 'grad_norm': 2.632495164871216, 'learning_rate': 2.5792038992688873e-07, 'epoch': 2.88}
+{'loss': 1.6782, 'grad_norm': 2.6532957553863525, 'learning_rate': 2.55889520714866e-07, 'epoch': 2.88}
+{'loss': 1.7241, 'grad_norm': 2.592057704925537, 'learning_rate': 2.5385865150284323e-07, 'epoch': 2.88}
+{'loss': 1.7393, 'grad_norm': 2.7506961822509766, 'learning_rate': 2.518277822908205e-07, 'epoch': 2.88}
+{'loss': 1.7235, 'grad_norm': 2.641268253326416, 'learning_rate': 2.4979691307879773e-07, 'epoch': 2.88}
+{'loss': 1.7649, 'grad_norm': 2.6326711177825928, 'learning_rate': 2.47766043866775e-07, 'epoch': 2.88}
+{'eval_loss': 1.9626506567001343, 'eval_runtime': 37.0537, 'eval_samples_per_second': 26.988, 'eval_steps_per_second': 1.133, 'epoch': 2.88}
+{'loss': 1.6753, 'grad_norm': 2.5477182865142822, 'learning_rate': 2.457351746547523e-07, 'epoch': 2.88}
+{'loss': 1.6535, 'grad_norm': 2.6226961612701416, 'learning_rate': 2.437043054427295e-07, 'epoch': 2.88}
+{'loss': 1.7206, 'grad_norm': 2.6449313163757324, 'learning_rate': 2.416734362307068e-07, 'epoch': 2.89}
+{'loss': 1.6965, 'grad_norm': 2.5746026039123535, 'learning_rate': 2.39642567018684e-07, 'epoch': 2.89}
+{'loss': 1.6671, 'grad_norm': 2.703247547149658, 'learning_rate': 2.3761169780666125e-07, 'epoch': 2.89}
+{'loss': 1.7183, 'grad_norm': 2.595435619354248, 'learning_rate': 2.3558082859463852e-07, 'epoch': 2.89}
+{'loss': 1.6871, 'grad_norm': 2.675107479095459, 'learning_rate': 2.3354995938261577e-07, 'epoch': 2.89}
+{'loss': 1.6295, 'grad_norm': 2.638805389404297, 'learning_rate': 2.3151909017059302e-07, 'epoch': 2.89}
+{'loss': 1.7484, 'grad_norm': 2.6430931091308594, 'learning_rate': 2.294882209585703e-07, 'epoch': 2.89}
+{'loss': 1.7493, 'grad_norm': 2.721851110458374, 'learning_rate': 2.2745735174654755e-07, 'epoch': 2.89}
+{'eval_loss': 1.9622678756713867, 'eval_runtime': 37.0816, 'eval_samples_per_second': 26.968, 'eval_steps_per_second': 1.133, 'epoch': 2.89}
+{'loss': 1.6547, 'grad_norm': 2.4975221157073975, 'learning_rate': 2.2542648253452477e-07, 'epoch': 2.89}
+{'loss': 1.7229, 'grad_norm': 2.6147918701171875, 'learning_rate': 2.2339561332250205e-07, 'epoch': 2.9}
+{'loss': 1.7659, 'grad_norm': 2.746217727661133, 'learning_rate': 2.213647441104793e-07, 'epoch': 2.9}
+{'loss': 1.7385, 'grad_norm': 2.6737985610961914, 'learning_rate': 2.1933387489845655e-07, 'epoch': 2.9}
+{'loss': 1.6906, 'grad_norm': 2.629483461380005, 'learning_rate': 2.1730300568643382e-07, 'epoch': 2.9}
+{'loss': 1.712, 'grad_norm': 2.7145309448242188, 'learning_rate': 2.1527213647441107e-07, 'epoch': 2.9}
+{'loss': 1.7174, 'grad_norm': 2.5909948348999023, 'learning_rate': 2.1324126726238835e-07, 'epoch': 2.9}
+{'loss': 1.7084, 'grad_norm': 2.6045870780944824, 'learning_rate': 2.1121039805036557e-07, 'epoch': 2.9}
+{'loss': 1.7163, 'grad_norm': 2.6095938682556152, 'learning_rate': 2.0917952883834282e-07, 'epoch': 2.9}
+{'loss': 1.753, 'grad_norm': 2.523810625076294, 'learning_rate': 2.071486596263201e-07, 'epoch': 2.9}
+{'eval_loss': 1.9622342586517334, 'eval_runtime': 37.0935, 'eval_samples_per_second': 26.959, 'eval_steps_per_second': 1.132, 'epoch': 2.9}
+{'loss': 1.6733, 'grad_norm': 2.6882834434509277, 'learning_rate': 2.0511779041429734e-07, 'epoch': 2.91}
+{'loss': 1.6906, 'grad_norm': 2.6523468494415283, 'learning_rate': 2.0308692120227457e-07, 'epoch': 2.91}
+{'loss': 1.7477, 'grad_norm': 2.599538564682007, 'learning_rate': 2.0105605199025184e-07, 'epoch': 2.91}
+{'loss': 1.7448, 'grad_norm': 2.5843749046325684, 'learning_rate': 1.990251827782291e-07, 'epoch': 2.91}
+{'loss': 1.7694, 'grad_norm': 2.582916021347046, 'learning_rate': 1.9699431356620634e-07, 'epoch': 2.91}
+{'loss': 1.6609, 'grad_norm': 2.6018640995025635, 'learning_rate': 1.9496344435418362e-07, 'epoch': 2.91}
+{'loss': 1.7241, 'grad_norm': 2.7332935333251953, 'learning_rate': 1.9293257514216087e-07, 'epoch': 2.91}
+{'loss': 1.7119, 'grad_norm': 2.5704188346862793, 'learning_rate': 1.909017059301381e-07, 'epoch': 2.91}
+{'loss': 1.6816, 'grad_norm': 2.5335330963134766, 'learning_rate': 1.8887083671811536e-07, 'epoch': 2.91}
+{'loss': 1.6807, 'grad_norm': 2.539705753326416, 'learning_rate': 1.8683996750609261e-07, 'epoch': 2.92}
+{'eval_loss': 1.9629089832305908, 'eval_runtime': 37.1041, 'eval_samples_per_second': 26.951, 'eval_steps_per_second': 1.132, 'epoch': 2.92}
+{'loss': 1.7554, 'grad_norm': 2.753588914871216, 'learning_rate': 1.848090982940699e-07, 'epoch': 2.92}
+{'loss': 1.7728, 'grad_norm': 2.527890920639038, 'learning_rate': 1.8277822908204714e-07, 'epoch': 2.92}
+{'loss': 1.7066, 'grad_norm': 2.633578062057495, 'learning_rate': 1.807473598700244e-07, 'epoch': 2.92}
+{'loss': 1.6998, 'grad_norm': 2.718923330307007, 'learning_rate': 1.7871649065800166e-07, 'epoch': 2.92}
+{'loss': 1.8297, 'grad_norm': 2.6352500915527344, 'learning_rate': 1.766856214459789e-07, 'epoch': 2.92}
+{'loss': 1.7173, 'grad_norm': 2.7882955074310303, 'learning_rate': 1.7465475223395614e-07, 'epoch': 2.92}
+{'loss': 1.7189, 'grad_norm': 2.6349411010742188, 'learning_rate': 1.726238830219334e-07, 'epoch': 2.92}
+{'loss': 1.6932, 'grad_norm': 2.5535967350006104, 'learning_rate': 1.7059301380991066e-07, 'epoch': 2.92}
+{'loss': 1.7063, 'grad_norm': 2.532588005065918, 'learning_rate': 1.6856214459788788e-07, 'epoch': 2.92}
+{'loss': 1.6483, 'grad_norm': 2.582728385925293, 'learning_rate': 1.6653127538586516e-07, 'epoch': 2.93}
+{'eval_loss': 1.9633177518844604, 'eval_runtime': 37.1188, 'eval_samples_per_second': 26.941, 'eval_steps_per_second': 1.132, 'epoch': 2.93}
+{'loss': 1.7469, 'grad_norm': 2.5580954551696777, 'learning_rate': 1.645004061738424e-07, 'epoch': 2.93}
+{'loss': 1.6804, 'grad_norm': 2.6630613803863525, 'learning_rate': 1.6246953696181966e-07, 'epoch': 2.93}
+{'loss': 1.7153, 'grad_norm': 2.6406219005584717, 'learning_rate': 1.6043866774979693e-07, 'epoch': 2.93}
+{'loss': 1.7516, 'grad_norm': 2.597848415374756, 'learning_rate': 1.5840779853777418e-07, 'epoch': 2.93}
+{'loss': 1.7111, 'grad_norm': 2.615588903427124, 'learning_rate': 1.5637692932575146e-07, 'epoch': 2.93}
+{'loss': 1.6848, 'grad_norm': 2.6540143489837646, 'learning_rate': 1.5434606011372868e-07, 'epoch': 2.93}
+{'loss': 1.752, 'grad_norm': 2.615410089492798, 'learning_rate': 1.5231519090170596e-07, 'epoch': 2.93}
+{'loss': 1.7376, 'grad_norm': 2.671832799911499, 'learning_rate': 1.5028432168968318e-07, 'epoch': 2.93}
+{'loss': 1.7154, 'grad_norm': 2.593533515930176, 'learning_rate': 1.4825345247766046e-07, 'epoch': 2.94}
+{'loss': 1.7417, 'grad_norm': 2.6604819297790527, 'learning_rate': 1.462225832656377e-07, 'epoch': 2.94}
+{'eval_loss': 1.9629994630813599, 'eval_runtime': 37.1187, 'eval_samples_per_second': 26.941, 'eval_steps_per_second': 1.132, 'epoch': 2.94}
+{'loss': 1.6853, 'grad_norm': 2.511612892150879, 'learning_rate': 1.4419171405361496e-07, 'epoch': 2.94}
+{'loss': 1.7201, 'grad_norm': 2.617175817489624, 'learning_rate': 1.421608448415922e-07, 'epoch': 2.94}
+{'loss': 1.7466, 'grad_norm': 2.5828356742858887, 'learning_rate': 1.4012997562956948e-07, 'epoch': 2.94}
+{'loss': 1.7613, 'grad_norm': 2.606675148010254, 'learning_rate': 1.380991064175467e-07, 'epoch': 2.94}
+{'loss': 1.738, 'grad_norm': 2.647289752960205, 'learning_rate': 1.3606823720552398e-07, 'epoch': 2.94}
+{'loss': 1.7816, 'grad_norm': 2.7429590225219727, 'learning_rate': 1.3403736799350123e-07, 'epoch': 2.94}
+{'loss': 1.7285, 'grad_norm': 2.7712502479553223, 'learning_rate': 1.3200649878147848e-07, 'epoch': 2.94}
+{'loss': 1.7469, 'grad_norm': 2.7036044597625732, 'learning_rate': 1.2997562956945573e-07, 'epoch': 2.95}
+{'loss': 1.7618, 'grad_norm': 2.5541577339172363, 'learning_rate': 1.27944760357433e-07, 'epoch': 2.95}
+{'loss': 1.7517, 'grad_norm': 2.5541577339172363, 'learning_rate': 1.27944760357433e-07, 'epoch': 2.95}
+{'eval_loss': 1.9628636837005615, 'eval_runtime': 37.1322, 'eval_samples_per_second': 26.931, 'eval_steps_per_second': 1.131, 'epoch': 2.95}
+{'loss': 1.7081, 'grad_norm': 2.5580790042877197, 'learning_rate': 1.2591389114541025e-07, 'epoch': 2.95}
+{'loss': 1.6632, 'grad_norm': 2.5702037811279297, 'learning_rate': 1.238830219333875e-07, 'epoch': 2.95}
+{'loss': 1.6674, 'grad_norm': 2.633673906326294, 'learning_rate': 1.2185215272136475e-07, 'epoch': 2.95}
+{'loss': 1.7307, 'grad_norm': 2.5518593788146973, 'learning_rate': 1.19821283509342e-07, 'epoch': 2.95}
+{'loss': 1.7648, 'grad_norm': 2.685305595397949, 'learning_rate': 1.1779041429731926e-07, 'epoch': 2.95}
+{'loss': 1.6828, 'grad_norm': 2.523141622543335, 'learning_rate': 1.1575954508529651e-07, 'epoch': 2.95}
+{'loss': 1.7209, 'grad_norm': 2.6578328609466553, 'learning_rate': 1.1372867587327377e-07, 'epoch': 2.96}
+{'loss': 1.7541, 'grad_norm': 2.674617290496826, 'learning_rate': 1.1169780666125102e-07, 'epoch': 2.96}
+{'loss': 1.715, 'grad_norm': 2.6306309700012207, 'learning_rate': 1.0966693744922827e-07, 'epoch': 2.96}
+{'loss': 1.6769, 'grad_norm': 2.6116249561309814, 'learning_rate': 1.0763606823720554e-07, 'epoch': 2.96}
+{'eval_loss': 1.9627667665481567, 'eval_runtime': 37.1326, 'eval_samples_per_second': 26.931, 'eval_steps_per_second': 1.131, 'epoch': 2.96}
+{'loss': 1.7254, 'grad_norm': 2.6990067958831787, 'learning_rate': 1.0560519902518278e-07, 'epoch': 2.96}
+{'loss': 1.7335, 'grad_norm': 2.623591423034668, 'learning_rate': 1.0357432981316005e-07, 'epoch': 2.96}
+{'loss': 1.7694, 'grad_norm': 2.589193820953369, 'learning_rate': 1.0154346060113728e-07, 'epoch': 2.96}
+{'loss': 1.7075, 'grad_norm': 2.6477229595184326, 'learning_rate': 9.951259138911455e-08, 'epoch': 2.96}
+{'loss': 1.7278, 'grad_norm': 2.6184494495391846, 'learning_rate': 9.748172217709181e-08, 'epoch': 2.96}
+{'loss': 1.7075, 'grad_norm': 2.5503737926483154, 'learning_rate': 9.545085296506904e-08, 'epoch': 2.97}
+{'loss': 1.6916, 'grad_norm': 2.5746653079986572, 'learning_rate': 9.341998375304631e-08, 'epoch': 2.97}
+{'loss': 1.7135, 'grad_norm': 2.6722257137298584, 'learning_rate': 9.138911454102357e-08, 'epoch': 2.97}
+{'loss': 1.7677, 'grad_norm': 2.66283917427063, 'learning_rate': 8.935824532900083e-08, 'epoch': 2.97}
+{'loss': 1.7156, 'grad_norm': 2.7665677070617676, 'learning_rate': 8.732737611697807e-08, 'epoch': 2.97}
+{'eval_loss': 1.9624519348144531, 'eval_runtime': 36.8241, 'eval_samples_per_second': 27.156, 'eval_steps_per_second': 1.141, 'epoch': 2.97}
+{'loss': 1.6346, 'grad_norm': 2.503875494003296, 'learning_rate': 8.529650690495533e-08, 'epoch': 2.97}
+{'loss': 1.7463, 'grad_norm': 2.620894193649292, 'learning_rate': 8.326563769293258e-08, 'epoch': 2.97}
+{'loss': 1.7638, 'grad_norm': 2.5881683826446533, 'learning_rate': 8.123476848090983e-08, 'epoch': 2.97}
+{'loss': 1.7393, 'grad_norm': 2.6364197731018066, 'learning_rate': 7.920389926888709e-08, 'epoch': 2.97}
+{'loss': 1.743, 'grad_norm': 2.6343064308166504, 'learning_rate': 7.717303005686434e-08, 'epoch': 2.98}
+{'loss': 1.7739, 'grad_norm': 2.5962576866149902, 'learning_rate': 7.514216084484159e-08, 'epoch': 2.98}
+{'loss': 1.7346, 'grad_norm': 2.588054895401001, 'learning_rate': 7.311129163281885e-08, 'epoch': 2.98}
+{'loss': 1.7499, 'grad_norm': 2.5995776653289795, 'learning_rate': 7.10804224207961e-08, 'epoch': 2.98}
+{'loss': 1.7205, 'grad_norm': 2.622551202774048, 'learning_rate': 6.904955320877335e-08, 'epoch': 2.98}
+{'loss': 1.7256, 'grad_norm': 2.663560390472412, 'learning_rate': 6.701868399675061e-08, 'epoch': 2.98}
+{'eval_loss': 1.9623063802719116, 'eval_runtime': 37.024, 'eval_samples_per_second': 27.01, 'eval_steps_per_second': 1.134, 'epoch': 2.98}
+{'loss': 1.7117, 'grad_norm': 2.6152045726776123, 'learning_rate': 6.498781478472786e-08, 'epoch': 2.98}
+{'loss': 1.7812, 'grad_norm': 2.6273841857910156, 'learning_rate': 6.295694557270513e-08, 'epoch': 2.98}
+{'loss': 1.7245, 'grad_norm': 2.60894775390625, 'learning_rate': 6.092607636068238e-08, 'epoch': 2.98}
+{'loss': 1.7349, 'grad_norm': 2.7173938751220703, 'learning_rate': 5.889520714865963e-08, 'epoch': 2.99}
+{'loss': 1.716, 'grad_norm': 2.583528757095337, 'learning_rate': 5.686433793663689e-08, 'epoch': 2.99}
+{'loss': 1.8053, 'grad_norm': 2.562299966812134, 'learning_rate': 5.4833468724614136e-08, 'epoch': 2.99}
+{'loss': 1.7225, 'grad_norm': 2.697636365890503, 'learning_rate': 5.280259951259139e-08, 'epoch': 2.99}
+{'loss': 1.6465, 'grad_norm': 2.626115560531616, 'learning_rate': 5.077173030056864e-08, 'epoch': 2.99}
+{'loss': 1.6945, 'grad_norm': 2.5951826572418213, 'learning_rate': 4.8740861088545904e-08, 'epoch': 2.99}
+{'loss': 1.7814, 'grad_norm': 2.6834988594055176, 'learning_rate': 4.6709991876523154e-08, 'epoch': 2.99}
+{'eval_loss': 1.9622313976287842, 'eval_runtime': 37.0886, 'eval_samples_per_second': 26.962, 'eval_steps_per_second': 1.132, 'epoch': 2.99}
+{'loss': 1.7937, 'grad_norm': 2.5949723720550537, 'learning_rate': 4.4679122664500416e-08, 'epoch': 2.99}
+{'loss': 1.7202, 'grad_norm': 2.5624232292175293, 'learning_rate': 4.2648253452477665e-08, 'epoch': 2.99}
+{'loss': 1.761, 'grad_norm': 2.6236395835876465, 'learning_rate': 4.0617384240454915e-08, 'epoch': 3.0}
+{'loss': 1.7573, 'grad_norm': 2.611375093460083, 'learning_rate': 3.858651502843217e-08, 'epoch': 3.0}
+{'loss': 1.7201, 'grad_norm': 2.5626072883605957, 'learning_rate': 3.6555645816409427e-08, 'epoch': 3.0}
+{'loss': 1.7716, 'grad_norm': 2.6289279460906982, 'learning_rate': 3.4524776604386676e-08, 'epoch': 3.0}
+{'train_runtime': 52115.7941, 'train_samples_per_second': 0.945, 'train_steps_per_second': 0.052, 'train_loss': 1.886892186488673, 'epoch': 3.0}
diff --git a/wandb/run-20241106_233338-6n0t2ama/logs/debug.log b/wandb/run-20241106_233338-6n0t2ama/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..2afad0ba37d348ae4f311e70a2d4dbfef3970f9f
--- /dev/null
+++ b/wandb/run-20241106_233338-6n0t2ama/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Configure stats pid to 1995337
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-6n0t2ama/logs/debug.log
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-6n0t2ama/logs/debug-internal.log
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_init.py:init():621] calling init triggers
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_init.py:init():671] starting backend
+2024-11-06 23:33:38,756 INFO    MainThread:1995337 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 23:33:38,758 INFO    MainThread:1995337 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 23:33:38,759 INFO    MainThread:1995337 [wandb_init.py:init():688] backend started and connected
+2024-11-06 23:33:38,762 INFO    MainThread:1995337 [wandb_init.py:init():783] updated telemetry
+2024-11-06 23:33:38,785 INFO    MainThread:1995337 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 23:33:39,136 INFO    MainThread:1995337 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 23:33:40,561 INFO    MainThread:1995337 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 23:33:40,561 INFO    MainThread:1995337 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 23:33:40,561 INFO    MainThread:1995337 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 23:33:40,561 INFO    MainThread:1995337 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 23:33:40,600 INFO    MainThread:1995337 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 23:33:40,601 INFO    MainThread:1995337 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 23:33:41,519 WARNING MsgRouterThr:1995337 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_233338-i9i1v8jx/files/config.yaml b/wandb/run-20241106_233338-i9i1v8jx/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..45c9885a80c6c6551af0939982b4765da8541cf4
--- /dev/null
+++ b/wandb/run-20241106_233338-i9i1v8jx/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_233338-i9i1v8jx/files/output.log b/wandb/run-20241106_233338-i9i1v8jx/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..588c1ff7d0b974f9eb52d275ee8e49964e41d309
--- /dev/null
+++ b/wandb/run-20241106_233338-i9i1v8jx/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c4325-264cd6936b7feee82b430947;9cddd62e-fe63-4a7c-8c74-25316055ff8f)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c4325-264cd6936b7feee82b430947;9cddd62e-fe63-4a7c-8c74-25316055ff8f)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_233338-i9i1v8jx/logs/debug-internal.log b/wandb/run-20241106_233338-i9i1v8jx/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..3ff3f528e603b6c795a8619663b45f6a17abf87c
--- /dev/null
+++ b/wandb/run-20241106_233338-i9i1v8jx/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T23:33:38.761834785-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T23:33:38.761855645-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-i9i1v8jx/logs/debug-core.log"}
+{"time":"2024-11-06T23:33:38.873305253-05:00","level":"INFO","msg":"created new stream","id":"i9i1v8jx"}
+{"time":"2024-11-06T23:33:38.873404204-05:00","level":"INFO","msg":"stream: started","id":"i9i1v8jx"}
+{"time":"2024-11-06T23:33:38.873553095-05:00","level":"INFO","msg":"sender: started","stream_id":"i9i1v8jx"}
+{"time":"2024-11-06T23:33:38.873578646-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"i9i1v8jx"}}
+{"time":"2024-11-06T23:33:38.873501995-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"i9i1v8jx"}}
+{"time":"2024-11-06T23:33:39.140251114-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T23:33:41.51987837-05:00","level":"INFO","msg":"stream: closing","id":"i9i1v8jx"}
+{"time":"2024-11-06T23:33:41.519962251-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T23:33:41.521448733-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T23:33:41.86949124-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T23:33:42.02377034-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"i9i1v8jx"}}
+{"time":"2024-11-06T23:33:42.023905541-05:00","level":"INFO","msg":"sender: closed","stream_id":"i9i1v8jx"}
+{"time":"2024-11-06T23:33:42.023876321-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"i9i1v8jx"}}
+{"time":"2024-11-06T23:33:42.024014132-05:00","level":"INFO","msg":"stream: closed","id":"i9i1v8jx"}
diff --git a/wandb/run-20241106_233338-i9i1v8jx/logs/debug.log b/wandb/run-20241106_233338-i9i1v8jx/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..9153bb9813cbb43193567044f86e1cb45d160e50
--- /dev/null
+++ b/wandb/run-20241106_233338-i9i1v8jx/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 23:33:38,753 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 23:33:38,753 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Configure stats pid to 1995336
+2024-11-06 23:33:38,753 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 23:33:38,753 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 23:33:38,753 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 23:33:38,753 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-i9i1v8jx/logs/debug.log
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-i9i1v8jx/logs/debug-internal.log
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_init.py:init():621] calling init triggers
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_init.py:init():671] starting backend
+2024-11-06 23:33:38,754 INFO    MainThread:1995336 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 23:33:38,755 INFO    MainThread:1995336 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 23:33:38,756 INFO    MainThread:1995336 [wandb_init.py:init():688] backend started and connected
+2024-11-06 23:33:38,761 INFO    MainThread:1995336 [wandb_init.py:init():783] updated telemetry
+2024-11-06 23:33:38,789 INFO    MainThread:1995336 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 23:33:39,135 INFO    MainThread:1995336 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 23:33:40,561 INFO    MainThread:1995336 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 23:33:40,561 INFO    MainThread:1995336 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 23:33:40,561 INFO    MainThread:1995336 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 23:33:40,561 INFO    MainThread:1995336 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 23:33:40,600 INFO    MainThread:1995336 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 23:33:40,601 INFO    MainThread:1995336 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 23:33:41,520 WARNING MsgRouterThr:1995336 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241113_180229-iqjhupph/files/wandb-summary.json b/wandb/run-20241113_180229-iqjhupph/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..30a02fe6ae622e16eae968b525acd83cf39163c1
--- /dev/null
+++ b/wandb/run-20241113_180229-iqjhupph/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_step":3210,"eval/loss":1.8668324947357178,"train_samples_per_second":1.155,"train_runtime":45510.3274,"train/epoch":2.9984591679506933,"train/grad_norm":2.4492380619049072,"eval/samples_per_second":26.685,"eval/runtime":37.4749,"train/loss":1.3631,"total_flos":9.099426165927444e+17,"_timestamp":1.7315848291897137e+09,"_runtime":45879.622191282,"train_loss":1.5251425182055676,"train_steps_per_second":0.064,"_wandb":{"runtime":45879},"train/global_step":2919,"train/learning_rate":3.235629996193377e-08,"eval/steps_per_second":1.121}
\ No newline at end of file
diff --git a/wandb/run-20241113_180229-iqjhupph/logs/debug.log b/wandb/run-20241113_180229-iqjhupph/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..871b3ba8999be2a3a3a7fb010818f21db61f206a
--- /dev/null
+++ b/wandb/run-20241113_180229-iqjhupph/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-13 18:02:29,628 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-13 18:02:29,628 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Configure stats pid to 2553606
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_ftp.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py'}
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241113_180229-iqjhupph/logs/debug.log
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241113_180229-iqjhupph/logs/debug-internal.log
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_init.py:init():621] calling init triggers
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_init.py:init():671] starting backend
+2024-11-13 18:02:29,629 INFO    MainThread:2553606 [wandb_init.py:init():675] sending inform_init request
+2024-11-13 18:02:29,631 INFO    MainThread:2553606 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-13 18:02:29,631 INFO    MainThread:2553606 [wandb_init.py:init():688] backend started and connected
+2024-11-13 18:02:29,635 INFO    MainThread:2553606 [wandb_init.py:init():783] updated telemetry
+2024-11-13 18:02:29,661 INFO    MainThread:2553606 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-13 18:02:30,004 INFO    MainThread:2553606 [wandb_init.py:init():867] starting run threads in backend
+2024-11-13 18:02:30,088 INFO    MainThread:2553606 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-13 18:02:30,088 INFO    MainThread:2553606 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-13 18:02:30,088 INFO    MainThread:2553606 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-13 18:02:30,088 INFO    MainThread:2553606 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-13 18:02:30,089 INFO    MainThread:2553606 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-13 18:02:30,090 INFO    MainThread:2553606 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_partial', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-13 18:08:38,865 INFO    MainThread:2553606 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B-FTP/babylm_reverse_partial_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B-FTP/babylm_reverse_partial_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-13 18:08:38,869 INFO    MainThread:2553606 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f21d8cc7490>>
+2024-11-13 18:08:38,869 INFO    MainThread:2553606 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-11-14 06:47:09,191 INFO    MainThread:2553606 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-reverse/iqjhupph
+2024-11-14 06:47:09,256 INFO    MainThread:2553606 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-14 06:47:09,350 INFO    MainThread:2553606 [wandb_run.py:_restore():2408] restore
+2024-11-14 06:47:09,350 INFO    MainThread:2553606 [wandb_run.py:_restore():2414] restore done
+2024-11-14 06:47:12,557 INFO    MainThread:2553606 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-14 06:47:12,559 INFO    MainThread:2553606 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-14 06:47:12,568 INFO    MainThread:2553606 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241116_005740-7s35r5p2/files/wandb-metadata.json b/wandb/run-20241116_005740-7s35r5p2/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..13762617762e3d8390a2f07fd9095ae0d81c30ed
--- /dev/null
+++ b/wandb/run-20241116_005740-7s35r5p2/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-16T05:57:40.641494Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic84",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py",
+  "codePath":  "train/train_ftp.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_ftp.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1787098271744"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241116_005740-7s35r5p2/logs/debug-internal.log b/wandb/run-20241116_005740-7s35r5p2/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..84e3b53309dda06fa916580deb181a93cf9ee722
--- /dev/null
+++ b/wandb/run-20241116_005740-7s35r5p2/logs/debug-internal.log
@@ -0,0 +1,20 @@
+{"time":"2024-11-16T00:57:40.645290088-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-16T00:57:40.645307188-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241116_005740-7s35r5p2/logs/debug-core.log"}
+{"time":"2024-11-16T00:57:40.759074087-05:00","level":"INFO","msg":"created new stream","id":"7s35r5p2"}
+{"time":"2024-11-16T00:57:40.759136428-05:00","level":"INFO","msg":"stream: started","id":"7s35r5p2"}
+{"time":"2024-11-16T00:57:40.759195968-05:00","level":"INFO","msg":"sender: started","stream_id":"7s35r5p2"}
+{"time":"2024-11-16T00:57:40.759173738-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"7s35r5p2"}}
+{"time":"2024-11-16T00:57:40.759234608-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"7s35r5p2"}}
+{"time":"2024-11-16T00:57:40.985004445-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-16T11:20:31.373732731-05:00","level":"INFO","msg":"api: retrying HTTP error","status":500,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/7s35r5p2/file_stream"}
+{"time":"2024-11-16T11:20:38.628314972-05:00","level":"INFO","msg":"api: retrying HTTP error","status":500,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/7s35r5p2/file_stream"}
+{"time":"2024-11-16T11:21:00.113695166-05:00","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2024-11-16T12:50:24.495299648-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-16T12:50:24.690800762-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-16T12:50:25.329808769-05:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"saving job artifact","runtime_seconds":0.471447475}],"total_operations":1}}
+{"time":"2024-11-16T12:50:27.749719608-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-16T12:50:28.88933533-05:00","level":"INFO","msg":"stream: closing","id":"7s35r5p2"}
+{"time":"2024-11-16T12:50:28.88936292-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"7s35r5p2"}}
+{"time":"2024-11-16T12:50:28.88938348-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"7s35r5p2"}}
+{"time":"2024-11-16T12:50:28.88940155-05:00","level":"INFO","msg":"sender: closed","stream_id":"7s35r5p2"}
+{"time":"2024-11-16T12:50:28.889469211-05:00","level":"INFO","msg":"stream: closed","id":"7s35r5p2"}
diff --git a/wandb/run-20241129_083813-gsvlu1z8/files/wandb-metadata.json b/wandb/run-20241129_083813-gsvlu1z8/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..59393bb6c8da44151659dfd062bfcdaa8f5cf173
--- /dev/null
+++ b/wandb/run-20241129_083813-gsvlu1z8/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-29T13:38:13.504113Z",
+  "args":  [
+    "--perturbation",
+    "reverse_partial",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_llama_1B.py",
+  "codePath":  "train/train_llama_1B.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_llama_1B.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1723546361856"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241129_235241-3ftwr60m/logs/debug-core.log b/wandb/run-20241129_235241-3ftwr60m/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..29fd1aa4868c88aa6e8ad37f667ff6400993bc93
--- /dev/null
+++ b/wandb/run-20241129_235241-3ftwr60m/logs/debug-core.log
@@ -0,0 +1,24 @@
+{"time":"2024-11-29T23:52:40.794147496-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpkrexe9wt/port-3200481.txt","pid":3200481,"debug":false,"disable-analytics":false}
+{"time":"2024-11-29T23:52:40.794182726-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-29T23:52:40.795140224-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3200481}
+{"time":"2024-11-29T23:52:40.795155284-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":43909,"Zone":""}}
+{"time":"2024-11-29T23:52:40.801433856-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpcp99_atc/port-3200479.txt","pid":3200479,"debug":false,"disable-analytics":false}
+{"time":"2024-11-29T23:52:40.801457826-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-29T23:52:40.80197699-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3200479}
+{"time":"2024-11-29T23:52:40.80198148-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":35697,"Zone":""}}
+{"time":"2024-11-29T23:52:40.808908666-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpeo16ghb_/port-3200480.txt","pid":3200480,"debug":false,"disable-analytics":false}
+{"time":"2024-11-29T23:52:40.808956096-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-29T23:52:40.809514601-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3200480}
+{"time":"2024-11-29T23:52:40.809524331-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":40771,"Zone":""}}
+{"time":"2024-11-29T23:52:40.985268342-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:45208"}
+{"time":"2024-11-29T23:52:40.993322078-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:46582"}
+{"time":"2024-11-29T23:52:41.002111259-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:37004"}
+{"time":"2024-11-29T23:52:41.149236286-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"hx37w012","id":"127.0.0.1:46582"}
+{"time":"2024-11-29T23:52:41.149310347-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"3vsgtb8n","id":"127.0.0.1:45208"}
+{"time":"2024-11-29T23:52:41.158457462-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"3ftwr60m","id":"127.0.0.1:37004"}
+{"time":"2024-11-29T23:52:41.257153555-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"hx37w012","id":"127.0.0.1:46582"}
+{"time":"2024-11-29T23:52:41.257268116-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"3vsgtb8n","id":"127.0.0.1:45208"}
+{"time":"2024-11-29T23:52:41.26517705-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"3ftwr60m","id":"127.0.0.1:37004"}
+{"time":"2024-11-30T00:02:00.014655319-05:00","level":"INFO","msg":"Parent process exited, terminating service process."}
+{"time":"2024-11-30T00:02:00.213898401-05:00","level":"INFO","msg":"Parent process exited, terminating service process."}
+{"time":"2024-11-30T00:02:00.316781185-05:00","level":"INFO","msg":"Parent process exited, terminating service process."}