diff --git a/.gitattributes b/.gitattributes
index 7fdefa43d21d21942e7bb35c7b7b3458edc62f94..5f2820b23c1a48f8bce5343f41b41daa5731390b 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -69,3 +69,10 @@ wandb/run-20241113_180154-b24s43he/run-b24s43he.wandb filter=lfs diff=lfs merge=
 wandb/run-20241030_233740-0fagh7s8/run-0fagh7s8.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241031_001055-dua2g15g/run-dua2g15g.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241101_200535-xloij0da/run-xloij0da.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241101_200535-k9brpado/run-k9brpado.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241030_225833-5mf4xvmz/run-5mf4xvmz.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241030_225833-a1ftigpc/run-a1ftigpc.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241130_000210-r9oa6v8c/run-r9oa6v8c.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241030_231835-aqeiow5c/run-aqeiow5c.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241030_233740-a8ghkt6q/run-a8ghkt6q.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241101_200535-lnp8ii96/run-lnp8ii96.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/wandb/run-20241030_010641-ig1px172/files/config.yaml b/wandb/run-20241030_010641-ig1px172/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f8546482f67cbb9041af9d756594322c485d67a9
--- /dev/null
+++ b/wandb/run-20241030_010641-ig1px172/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 7
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_010641-ig1px172/files/output.log b/wandb/run-20241030_010641-ig1px172/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..1777f063b107f651dddc063d1d3a3fa80015bf9e
--- /dev/null
+++ b/wandb/run-20241030_010641-ig1px172/files/output.log
@@ -0,0 +1,4 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 162, in <module>
+    dataset_name = f"babylm_{args.perturbation}_{args.train_zset}_seed{args.seed}"
+AttributeError: 'Namespace' object has no attribute 'train_zset'
diff --git a/wandb/run-20241030_010641-ig1px172/files/wandb-metadata.json b/wandb/run-20241030_010641-ig1px172/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..a0f6cf57c7a8d3429273f5be29b9163dc451e89e
--- /dev/null
+++ b/wandb/run-20241030_010641-ig1px172/files/wandb-metadata.json
@@ -0,0 +1,29 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-30T05:06:41.443612Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "7",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_010641-ig1px172/files/wandb-summary.json b/wandb/run-20241030_010641-ig1px172/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..4e355fc8e9915c58fba97556eba40fd65c826d6a
--- /dev/null
+++ b/wandb/run-20241030_010641-ig1px172/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":1}}
\ No newline at end of file
diff --git a/wandb/run-20241030_010641-ig1px172/logs/debug-internal.log b/wandb/run-20241030_010641-ig1px172/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..a561777798856af2e015a52cc680e41ecc76d650
--- /dev/null
+++ b/wandb/run-20241030_010641-ig1px172/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-10-30T01:06:41.44738347-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:06:41.44739976-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010641-ig1px172/logs/debug-core.log"}
+{"time":"2024-10-30T01:06:41.555521578-04:00","level":"INFO","msg":"created new stream","id":"ig1px172"}
+{"time":"2024-10-30T01:06:41.555572528-04:00","level":"INFO","msg":"stream: started","id":"ig1px172"}
+{"time":"2024-10-30T01:06:41.555614238-04:00","level":"INFO","msg":"sender: started","stream_id":"ig1px172"}
+{"time":"2024-10-30T01:06:41.555601318-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"ig1px172"}}
+{"time":"2024-10-30T01:06:41.555602858-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"ig1px172"}}
+{"time":"2024-10-30T01:06:43.050607579-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T01:06:43.145734168-04:00","level":"INFO","msg":"stream: closing","id":"ig1px172"}
+{"time":"2024-10-30T01:06:43.145770938-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T01:06:43.240066421-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-30T01:06:43.773982834-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-30T01:06:43.883577491-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"ig1px172"}}
+{"time":"2024-10-30T01:06:43.883615942-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"ig1px172"}}
+{"time":"2024-10-30T01:06:43.883633552-04:00","level":"INFO","msg":"sender: closed","stream_id":"ig1px172"}
+{"time":"2024-10-30T01:06:43.883683032-04:00","level":"INFO","msg":"stream: closed","id":"ig1px172"}
diff --git a/wandb/run-20241030_010641-ig1px172/logs/debug.log b/wandb/run-20241030_010641-ig1px172/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..af6ec3ebd805555721580a588f578cc852e2575a
--- /dev/null
+++ b/wandb/run-20241030_010641-ig1px172/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Configure stats pid to 321596
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010641-ig1px172/logs/debug.log
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_010641-ig1px172/logs/debug-internal.log
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_init.py:init():621] calling init triggers
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_init.py:init():671] starting backend
+2024-10-30 01:06:41,442 INFO    MainThread:321596 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 01:06:41,443 INFO    MainThread:321596 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 01:06:41,443 INFO    MainThread:321596 [wandb_init.py:init():688] backend started and connected
+2024-10-30 01:06:41,446 INFO    MainThread:321596 [wandb_init.py:init():783] updated telemetry
+2024-10-30 01:06:41,466 INFO    MainThread:321596 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 01:06:43,047 INFO    MainThread:321596 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 01:06:43,143 INFO    MainThread:321596 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 01:06:43,143 INFO    MainThread:321596 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 01:06:43,143 INFO    MainThread:321596 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 01:06:43,143 INFO    MainThread:321596 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 01:06:43,144 INFO    MainThread:321596 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 01:06:43,145 INFO    MainThread:321596 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0}
+2024-10-30 01:06:43,145 WARNING MsgRouterThr:321596 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241030_010641-ig1px172/run-ig1px172.wandb b/wandb/run-20241030_010641-ig1px172/run-ig1px172.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..7537897f5110f8127610eb345d63842ca6ed82de
Binary files /dev/null and b/wandb/run-20241030_010641-ig1px172/run-ig1px172.wandb differ
diff --git a/wandb/run-20241030_222932-73t76wgo/files/output.log b/wandb/run-20241030_222932-73t76wgo/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..a766208d56d1f5e4828d5463e591993a65343a76
--- /dev/null
+++ b/wandb/run-20241030_222932-73t76wgo/files/output.log
@@ -0,0 +1,40 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.40s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-30 22:29:54,266] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-30 22:30:04,072] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.045851945877075 seconds
+[34m[1mwandb[0m: [33mWARNING[0m Fatal error while uploading data. Some run data will not be synced, but it will still be written to disk. Use `wandb sync` at the end of the run to try uploading.
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 219, in <module>
+    trainer.train()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2052, in train
+    return inner_training_loop(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2388, in _inner_training_loop
+    tr_loss_step = self.training_step(model, inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 3518, in training_step
+    self.accelerator.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/accelerator.py", line 2238, in backward
+    self.deepspeed_engine_wrapped.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/utils/deepspeed.py", line 186, in backward
+    self.engine.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/utils/nvtx.py", line 18, in wrapped_fn
+    ret_val = func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 2020, in backward
+    self.optimizer.backward(loss, retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 2063, in backward
+    self.loss_scaler.backward(loss.float(), retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/fp16/loss_scaler.py", line 63, in backward
+    scaled_loss.backward(retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/_tensor.py", line 487, in backward
+    torch.autograd.backward(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/autograd/__init__.py", line 200, in backward
+    Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+KeyboardInterrupt
diff --git a/wandb/run-20241030_222932-73t76wgo/files/requirements.txt b/wandb/run-20241030_222932-73t76wgo/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_222932-73t76wgo/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_222932-73t76wgo/files/wandb-metadata.json b/wandb/run-20241030_222932-73t76wgo/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..8dc2bb65558b3a8840c702d0dccec213500818cb
--- /dev/null
+++ b/wandb/run-20241030_222932-73t76wgo/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T02:29:32.412130Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1710969503744"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_222932-73t76wgo/logs/debug-internal.log b/wandb/run-20241030_222932-73t76wgo/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..892e9cd9ea8121e25c68d68e44664135428f0989
--- /dev/null
+++ b/wandb/run-20241030_222932-73t76wgo/logs/debug-internal.log
@@ -0,0 +1,10 @@
+{"time":"2024-10-30T22:29:32.414170083-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T22:29:32.414182363-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_222932-73t76wgo/logs/debug-core.log"}
+{"time":"2024-10-30T22:29:32.521624282-04:00","level":"INFO","msg":"created new stream","id":"73t76wgo"}
+{"time":"2024-10-30T22:29:32.521728433-04:00","level":"INFO","msg":"stream: started","id":"73t76wgo"}
+{"time":"2024-10-30T22:29:32.521755523-04:00","level":"INFO","msg":"sender: started","stream_id":"73t76wgo"}
+{"time":"2024-10-30T22:29:32.521740263-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"73t76wgo"}}
+{"time":"2024-10-30T22:29:32.521770803-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"73t76wgo"}}
+{"time":"2024-10-30T22:29:32.718393175-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T22:55:33.122240017-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/impossible_llm_reverse/73t76wgo/file_stream"}
+{"time":"2024-10-30T22:55:33.126562902-04:00","level":"ERROR+4","msg":"filestream: fatal error: filestream: failed to upload: 404 Not Found path=files/yaning1001-dartmouth-college/impossible_llm_reverse/73t76wgo/file_stream: {\"error\":\"run impossible_llm_reverse/73t76wgo not found while streaming file\"}"}
diff --git a/wandb/run-20241030_222932-73t76wgo/logs/debug.log b/wandb/run-20241030_222932-73t76wgo/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..4b9071b954317113c745f8353d890b6033ec09be
--- /dev/null
+++ b/wandb/run-20241030_222932-73t76wgo/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Configure stats pid to 447698
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_222932-73t76wgo/logs/debug.log
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_222932-73t76wgo/logs/debug-internal.log
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_init.py:init():621] calling init triggers
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_init.py:init():671] starting backend
+2024-10-30 22:29:32,410 INFO    MainThread:447698 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 22:29:32,411 INFO    MainThread:447698 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 22:29:32,411 INFO    MainThread:447698 [wandb_init.py:init():688] backend started and connected
+2024-10-30 22:29:32,415 INFO    MainThread:447698 [wandb_init.py:init():783] updated telemetry
+2024-10-30 22:29:32,447 INFO    MainThread:447698 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 22:29:32,714 INFO    MainThread:447698 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 22:29:32,823 INFO    MainThread:447698 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 22:29:32,823 INFO    MainThread:447698 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 22:29:32,823 INFO    MainThread:447698 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 22:29:32,823 INFO    MainThread:447698 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 22:29:32,825 INFO    MainThread:447698 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 22:29:32,825 INFO    MainThread:447698 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
diff --git a/wandb/run-20241030_225833-5mf4xvmz/run-5mf4xvmz.wandb b/wandb/run-20241030_225833-5mf4xvmz/run-5mf4xvmz.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..07059e8c3084660b7fc2d3019b3a81c33727bb6f
--- /dev/null
+++ b/wandb/run-20241030_225833-5mf4xvmz/run-5mf4xvmz.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff1e5d3401f4c043bfc35fdb9ffe7a85d9356ed56e86883fa1d4efd013cf8529
+size 720896
diff --git a/wandb/run-20241030_225833-a1ftigpc/run-a1ftigpc.wandb b/wandb/run-20241030_225833-a1ftigpc/run-a1ftigpc.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..f7c28d375235a628bc737a69d5c7890e1d6b271d
--- /dev/null
+++ b/wandb/run-20241030_225833-a1ftigpc/run-a1ftigpc.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ceda6532ed28cc374b6ea26a5f7ee5b5e7080c57164f2dbcf50c6442b3792596
+size 1114112
diff --git a/wandb/run-20241030_225833-h0mm818w/files/output.log b/wandb/run-20241030_225833-h0mm818w/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..510162a83b684c2383c5077bc0d32314d6822c7d
--- /dev/null
+++ b/wandb/run-20241030_225833-h0mm818w/files/output.log
@@ -0,0 +1,38 @@
+config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 844/844 [00:00<00:00, 353kB/s]
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:32<00:00, 76.31s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.52s/it]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:57<00:00, 315.81 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-30 23:02:11,098] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-30 23:02:20,163] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.8812315464019775 seconds
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 219, in <module>
+    trainer.train()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2052, in train
+    return inner_training_loop(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2388, in _inner_training_loop
+    tr_loss_step = self.training_step(model, inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 3518, in training_step
+    self.accelerator.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/accelerator.py", line 2238, in backward
+    self.deepspeed_engine_wrapped.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/utils/deepspeed.py", line 195, in backward
+    self.engine.step()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 2217, in step
+    self.tput_timer.stop(global_step=self.is_gradient_accumulation_boundary(), report_speed=report_progress)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/utils/timer.py", line 256, in stop
+    get_accelerator().synchronize()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/accelerator/cuda_accelerator.py", line 79, in synchronize
+    return torch.cuda.synchronize(device_index)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/cuda/__init__.py", line 688, in synchronize
+    return torch._C._cuda_synchronize()
+KeyboardInterrupt
diff --git a/wandb/run-20241030_225833-h0mm818w/files/requirements.txt b/wandb/run-20241030_225833-h0mm818w/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_225833-h0mm818w/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_225833-h0mm818w/files/wandb-metadata.json b/wandb/run-20241030_225833-h0mm818w/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..b22e1b48dac5193270d84e4bf375ac77e113b04e
--- /dev/null
+++ b/wandb/run-20241030_225833-h0mm818w/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T02:58:33.435474Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1710970511360"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_225833-h0mm818w/logs/debug-internal.log b/wandb/run-20241030_225833-h0mm818w/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..8cf03c8d9f53eb7eb1fbddb3c4670571c3e992ec
--- /dev/null
+++ b/wandb/run-20241030_225833-h0mm818w/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-30T22:58:33.43741463-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T22:58:33.437437561-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-h0mm818w/logs/debug-core.log"}
+{"time":"2024-10-30T22:58:33.545709195-04:00","level":"INFO","msg":"created new stream","id":"h0mm818w"}
+{"time":"2024-10-30T22:58:33.545745915-04:00","level":"INFO","msg":"stream: started","id":"h0mm818w"}
+{"time":"2024-10-30T22:58:33.545768925-04:00","level":"INFO","msg":"sender: started","stream_id":"h0mm818w"}
+{"time":"2024-10-30T22:58:33.545802915-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"h0mm818w"}}
+{"time":"2024-10-30T22:58:33.545762365-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"h0mm818w"}}
+{"time":"2024-10-30T22:58:33.742833825-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241030_225833-h0mm818w/logs/debug.log b/wandb/run-20241030_225833-h0mm818w/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..199c398ffc9293bcd15c0d06f42559211a3e51a0
--- /dev/null
+++ b/wandb/run-20241030_225833-h0mm818w/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Configure stats pid to 451910
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 22:58:33,433 INFO    MainThread:451910 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 22:58:33,434 INFO    MainThread:451910 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-h0mm818w/logs/debug.log
+2024-10-30 22:58:33,434 INFO    MainThread:451910 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_225833-h0mm818w/logs/debug-internal.log
+2024-10-30 22:58:33,434 INFO    MainThread:451910 [wandb_init.py:init():621] calling init triggers
+2024-10-30 22:58:33,434 INFO    MainThread:451910 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 22:58:33,434 INFO    MainThread:451910 [wandb_init.py:init():671] starting backend
+2024-10-30 22:58:33,434 INFO    MainThread:451910 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 22:58:33,435 INFO    MainThread:451910 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 22:58:33,435 INFO    MainThread:451910 [wandb_init.py:init():688] backend started and connected
+2024-10-30 22:58:33,437 INFO    MainThread:451910 [wandb_init.py:init():783] updated telemetry
+2024-10-30 22:58:33,465 INFO    MainThread:451910 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 22:58:33,739 INFO    MainThread:451910 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 22:58:33,852 INFO    MainThread:451910 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 22:58:33,852 INFO    MainThread:451910 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 22:58:33,852 INFO    MainThread:451910 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 22:58:33,852 INFO    MainThread:451910 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 22:58:33,853 INFO    MainThread:451910 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 22:58:33,853 INFO    MainThread:451910 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
diff --git a/wandb/run-20241030_231835-aqeiow5c/run-aqeiow5c.wandb b/wandb/run-20241030_231835-aqeiow5c/run-aqeiow5c.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..84b6ac70a3d799fe2a71eb83746342cd60f4c120
--- /dev/null
+++ b/wandb/run-20241030_231835-aqeiow5c/run-aqeiow5c.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b876b97d67b9487b44cd4c5e28efb8a5bf360988426b01686c35b0986916a243
+size 655360
diff --git a/wandb/run-20241030_233740-a8ghkt6q/run-a8ghkt6q.wandb b/wandb/run-20241030_233740-a8ghkt6q/run-a8ghkt6q.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..d8495f158c57763aceb7cbb62e3d0fdf90749885
--- /dev/null
+++ b/wandb/run-20241030_233740-a8ghkt6q/run-a8ghkt6q.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ddc4d6b02cbced2fdd39b8df729f1bf87631bf68cfc846a22b3e1599a95dbc73
+size 851968
diff --git a/wandb/run-20241031_122113-f74sq78x/files/config.yaml b/wandb/run-20241031_122113-f74sq78x/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..0fb86648eb79cc0371bf78961ded654ee2490a82
--- /dev/null
+++ b/wandb/run-20241031_122113-f74sq78x/files/config.yaml
@@ -0,0 +1,531 @@
+_name_or_path:
+    value: meta-llama/Llama-3.2-3B
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": train/epoch
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": eval/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/runtime
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/learning_rate
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+epoch:
+    value: 6
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+head_dim:
+    value: 128
+hidden_act:
+    value: silu
+hidden_size:
+    value: 3072
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 8192
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 131072
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mlp_bias:
+    value: false
+model/num_parameters:
+    value: 3212749824
+model_type:
+    value: llama
+mp_parameters:
+    value: ""
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 24
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 28
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 6
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/Llama-3.2-3B/babylm_reverse_full_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: reverse_full
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value:
+        factor: 32
+        high_freq_factor: 4
+        low_freq_factor: 1
+        original_max_position_embeddings: 8192
+        rope_type: llama3
+rope_theta:
+    value: 500000
+run_name:
+    value: ./checkpoints/Llama-3.2-3B/babylm_reverse_full_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 150
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241031_122113-f74sq78x/files/output.log b/wandb/run-20241031_122113-f74sq78x/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..19a3e7b170add370deac4e97362f4d3d106d7ce2
--- /dev/null
+++ b/wandb/run-20241031_122113-f74sq78x/files/output.log
@@ -0,0 +1,3234 @@
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:09<00:00, 64.68s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.64s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 12:23:30,741] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 12:23:39,142] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-10-31 12:23:39,142] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.094341039657593 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                       
+{'loss': 2.7565, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.0}
+{'loss': 2.8049, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.0}
+{'loss': 2.7883, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.01}
+{'loss': 2.7843, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.01}
+{'loss': 2.7828, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.01}
+{'loss': 2.7493, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.01}
+{'loss': 2.7948, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.01}
+{'loss': 2.7614, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.02}
+{'loss': 2.7626, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.02}
+{'loss': 2.7527, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.02}
+                                                                                                                                                                                       
+{'eval_loss': 2.8157458305358887, 'eval_runtime': 12.6738, 'eval_samples_per_second': 47.342, 'eval_steps_per_second': 1.026, 'epoch': 0.02}
+{'loss': 2.7977, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.02}
+{'loss': 2.7658, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.02}
+{'loss': 2.7787, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.03}
+{'loss': 2.7744, 'grad_norm': 0.0, 'learning_rate': 5e-06, 'epoch': 0.03}
+{'loss': 2.7916, 'grad_norm': 6.1797637939453125, 'learning_rate': 4.998288843258043e-06, 'epoch': 0.03}
+{'loss': 2.8027, 'grad_norm': 6.1797637939453125, 'learning_rate': 4.998288843258043e-06, 'epoch': 0.03}
+{'loss': 2.7821, 'grad_norm': 6.1797637939453125, 'learning_rate': 4.998288843258043e-06, 'epoch': 0.03}
+{'loss': 2.739, 'grad_norm': 7.349998474121094, 'learning_rate': 4.996577686516086e-06, 'epoch': 0.04}
+{'loss': 2.6585, 'grad_norm': 5.746973514556885, 'learning_rate': 4.994866529774127e-06, 'epoch': 0.04}
+{'loss': 2.6043, 'grad_norm': 3.0378904342651367, 'learning_rate': 4.99315537303217e-06, 'epoch': 0.04}
+{'eval_loss': 2.6132845878601074, 'eval_runtime': 11.5088, 'eval_samples_per_second': 52.134, 'eval_steps_per_second': 1.13, 'epoch': 0.04}
+{'loss': 2.5261, 'grad_norm': 4.070122241973877, 'learning_rate': 4.991444216290213e-06, 'epoch': 0.04}
+{'loss': 2.5072, 'grad_norm': 2.1965253353118896, 'learning_rate': 4.989733059548255e-06, 'epoch': 0.05}
+{'loss': 2.4862, 'grad_norm': 2.696894884109497, 'learning_rate': 4.988021902806298e-06, 'epoch': 0.05}
+{'loss': 2.4735, 'grad_norm': 1.8886544704437256, 'learning_rate': 4.9863107460643404e-06, 'epoch': 0.05}
+{'loss': 2.4102, 'grad_norm': 2.220975160598755, 'learning_rate': 4.984599589322382e-06, 'epoch': 0.05}
+{'loss': 2.4067, 'grad_norm': 2.9368996620178223, 'learning_rate': 4.982888432580425e-06, 'epoch': 0.05}
+{'loss': 2.3559, 'grad_norm': 1.8966712951660156, 'learning_rate': 4.9811772758384674e-06, 'epoch': 0.06}
+{'loss': 2.3231, 'grad_norm': 1.990808367729187, 'learning_rate': 4.97946611909651e-06, 'epoch': 0.06}
+{'loss': 2.2931, 'grad_norm': 2.2170848846435547, 'learning_rate': 4.977754962354553e-06, 'epoch': 0.06}
+{'loss': 2.3134, 'grad_norm': 2.520646095275879, 'learning_rate': 4.976043805612594e-06, 'epoch': 0.06}
+{'eval_loss': 2.398710012435913, 'eval_runtime': 11.5503, 'eval_samples_per_second': 51.946, 'eval_steps_per_second': 1.126, 'epoch': 0.06}
+{'loss': 2.2634, 'grad_norm': 1.7140121459960938, 'learning_rate': 4.974332648870637e-06, 'epoch': 0.06}
+{'loss': 2.2978, 'grad_norm': 1.955909252166748, 'learning_rate': 4.972621492128679e-06, 'epoch': 0.07}
+{'loss': 2.2054, 'grad_norm': 2.4671943187713623, 'learning_rate': 4.970910335386721e-06, 'epoch': 0.07}
+{'loss': 2.2289, 'grad_norm': 1.5501021146774292, 'learning_rate': 4.969199178644764e-06, 'epoch': 0.07}
+{'loss': 2.2566, 'grad_norm': 2.1273462772369385, 'learning_rate': 4.967488021902807e-06, 'epoch': 0.07}
+{'loss': 2.182, 'grad_norm': 2.0637128353118896, 'learning_rate': 4.965776865160849e-06, 'epoch': 0.07}
+{'loss': 2.2005, 'grad_norm': 1.6372566223144531, 'learning_rate': 4.964065708418892e-06, 'epoch': 0.08}
+{'loss': 2.1818, 'grad_norm': 1.802497148513794, 'learning_rate': 4.962354551676934e-06, 'epoch': 0.08}
+{'loss': 2.1958, 'grad_norm': 1.7275162935256958, 'learning_rate': 4.960643394934976e-06, 'epoch': 0.08}
+{'loss': 2.1539, 'grad_norm': 1.7301557064056396, 'learning_rate': 4.958932238193019e-06, 'epoch': 0.08}
+{'eval_loss': 2.2674221992492676, 'eval_runtime': 11.5691, 'eval_samples_per_second': 51.862, 'eval_steps_per_second': 1.124, 'epoch': 0.08}
+{'loss': 2.1454, 'grad_norm': 1.7176870107650757, 'learning_rate': 4.9572210814510614e-06, 'epoch': 0.08}
+{'loss': 2.1506, 'grad_norm': 1.8917778730392456, 'learning_rate': 4.955509924709104e-06, 'epoch': 0.09}
+{'loss': 2.1342, 'grad_norm': 1.6164155006408691, 'learning_rate': 4.953798767967146e-06, 'epoch': 0.09}
+{'loss': 2.1099, 'grad_norm': 1.8314247131347656, 'learning_rate': 4.952087611225188e-06, 'epoch': 0.09}
+{'loss': 2.0979, 'grad_norm': 1.6038541793823242, 'learning_rate': 4.950376454483231e-06, 'epoch': 0.09}
+{'loss': 2.1005, 'grad_norm': 1.942340612411499, 'learning_rate': 4.948665297741274e-06, 'epoch': 0.09}
+{'loss': 2.0969, 'grad_norm': 1.744787335395813, 'learning_rate': 4.946954140999316e-06, 'epoch': 0.1}
+{'loss': 2.0867, 'grad_norm': 1.816245198249817, 'learning_rate': 4.945242984257359e-06, 'epoch': 0.1}
+{'loss': 2.048, 'grad_norm': 1.5131943225860596, 'learning_rate': 4.943531827515401e-06, 'epoch': 0.1}
+{'loss': 2.0302, 'grad_norm': 1.7348949909210205, 'learning_rate': 4.941820670773443e-06, 'epoch': 0.1}
+{'eval_loss': 2.188340663909912, 'eval_runtime': 11.5697, 'eval_samples_per_second': 51.86, 'eval_steps_per_second': 1.124, 'epoch': 0.1}
+{'loss': 2.0422, 'grad_norm': 1.740047812461853, 'learning_rate': 4.940109514031486e-06, 'epoch': 0.1}
+{'loss': 2.0, 'grad_norm': 1.8282198905944824, 'learning_rate': 4.9383983572895284e-06, 'epoch': 0.11}
+{'loss': 2.0658, 'grad_norm': 2.0179667472839355, 'learning_rate': 4.936687200547571e-06, 'epoch': 0.11}
+{'loss': 2.0614, 'grad_norm': 1.6178672313690186, 'learning_rate': 4.934976043805613e-06, 'epoch': 0.11}
+{'loss': 1.9614, 'grad_norm': 1.882999300956726, 'learning_rate': 4.9332648870636554e-06, 'epoch': 0.11}
+{'loss': 1.9742, 'grad_norm': 1.9189300537109375, 'learning_rate': 4.931553730321697e-06, 'epoch': 0.11}
+{'loss': 1.9855, 'grad_norm': 1.6945178508758545, 'learning_rate': 4.92984257357974e-06, 'epoch': 0.12}
+{'loss': 1.9872, 'grad_norm': 2.0409889221191406, 'learning_rate': 4.928131416837782e-06, 'epoch': 0.12}
+{'loss': 1.9952, 'grad_norm': 1.692897081375122, 'learning_rate': 4.926420260095825e-06, 'epoch': 0.12}
+{'loss': 2.0315, 'grad_norm': 1.7390540838241577, 'learning_rate': 4.924709103353868e-06, 'epoch': 0.12}
+{'eval_loss': 2.1280038356781006, 'eval_runtime': 11.5799, 'eval_samples_per_second': 51.814, 'eval_steps_per_second': 1.123, 'epoch': 0.12}
+{'loss': 1.9844, 'grad_norm': 1.6221888065338135, 'learning_rate': 4.92299794661191e-06, 'epoch': 0.13}
+{'loss': 1.9362, 'grad_norm': 1.817609190940857, 'learning_rate': 4.921286789869952e-06, 'epoch': 0.13}
+{'loss': 1.9422, 'grad_norm': 1.4461158514022827, 'learning_rate': 4.919575633127995e-06, 'epoch': 0.13}
+{'loss': 1.9245, 'grad_norm': 1.4900028705596924, 'learning_rate': 4.917864476386037e-06, 'epoch': 0.13}
+{'loss': 1.9874, 'grad_norm': 1.5964733362197876, 'learning_rate': 4.91615331964408e-06, 'epoch': 0.13}
+{'loss': 1.947, 'grad_norm': 1.695422887802124, 'learning_rate': 4.9144421629021224e-06, 'epoch': 0.14}
+{'loss': 1.9279, 'grad_norm': 1.6739904880523682, 'learning_rate': 4.912731006160164e-06, 'epoch': 0.14}
+{'loss': 1.9485, 'grad_norm': 1.7071584463119507, 'learning_rate': 4.911019849418207e-06, 'epoch': 0.14}
+{'loss': 1.9131, 'grad_norm': 1.728779911994934, 'learning_rate': 4.9093086926762494e-06, 'epoch': 0.14}
+{'loss': 1.9089, 'grad_norm': 1.8715623617172241, 'learning_rate': 4.907597535934292e-06, 'epoch': 0.14}
+{'eval_loss': 2.0877685546875, 'eval_runtime': 11.5871, 'eval_samples_per_second': 51.782, 'eval_steps_per_second': 1.122, 'epoch': 0.14}
+{'loss': 1.8952, 'grad_norm': 1.7421045303344727, 'learning_rate': 4.905886379192335e-06, 'epoch': 0.15}
+{'loss': 1.9526, 'grad_norm': 1.9392446279525757, 'learning_rate': 4.904175222450377e-06, 'epoch': 0.15}
+{'loss': 1.8748, 'grad_norm': 2.0462632179260254, 'learning_rate': 4.902464065708419e-06, 'epoch': 0.15}
+{'loss': 1.8985, 'grad_norm': 1.7146354913711548, 'learning_rate': 4.900752908966462e-06, 'epoch': 0.15}
+{'loss': 1.9515, 'grad_norm': 2.023336172103882, 'learning_rate': 4.899041752224504e-06, 'epoch': 0.15}
+{'loss': 1.8469, 'grad_norm': 1.785950779914856, 'learning_rate': 4.897330595482547e-06, 'epoch': 0.16}
+{'loss': 1.917, 'grad_norm': 1.803122639656067, 'learning_rate': 4.8956194387405895e-06, 'epoch': 0.16}
+{'loss': 1.8436, 'grad_norm': 2.3299639225006104, 'learning_rate': 4.893908281998632e-06, 'epoch': 0.16}
+{'loss': 1.8951, 'grad_norm': 1.7878625392913818, 'learning_rate': 4.892197125256674e-06, 'epoch': 0.16}
+{'loss': 1.8849, 'grad_norm': 1.9630709886550903, 'learning_rate': 4.8904859685147164e-06, 'epoch': 0.16}
+{'eval_loss': 2.058612585067749, 'eval_runtime': 11.587, 'eval_samples_per_second': 51.782, 'eval_steps_per_second': 1.122, 'epoch': 0.16}
+{'loss': 1.8711, 'grad_norm': 1.8981413841247559, 'learning_rate': 4.888774811772759e-06, 'epoch': 0.17}
+{'loss': 1.8542, 'grad_norm': 1.6965813636779785, 'learning_rate': 4.887063655030802e-06, 'epoch': 0.17}
+{'loss': 1.8954, 'grad_norm': 2.1386666297912598, 'learning_rate': 4.8853524982888434e-06, 'epoch': 0.17}
+{'loss': 1.8498, 'grad_norm': 2.091707944869995, 'learning_rate': 4.883641341546886e-06, 'epoch': 0.17}
+{'loss': 1.9093, 'grad_norm': 2.085301399230957, 'learning_rate': 4.881930184804929e-06, 'epoch': 0.17}
+{'loss': 1.8375, 'grad_norm': 2.158982753753662, 'learning_rate': 4.88021902806297e-06, 'epoch': 0.18}
+{'loss': 1.7987, 'grad_norm': 2.0621485710144043, 'learning_rate': 4.878507871321013e-06, 'epoch': 0.18}
+{'loss': 1.899, 'grad_norm': 2.3075549602508545, 'learning_rate': 4.876796714579056e-06, 'epoch': 0.18}
+{'loss': 1.8363, 'grad_norm': 1.8985432386398315, 'learning_rate': 4.875085557837098e-06, 'epoch': 0.18}
+{'loss': 1.8418, 'grad_norm': 2.2414159774780273, 'learning_rate': 4.873374401095141e-06, 'epoch': 0.18}
+{'eval_loss': 2.0287816524505615, 'eval_runtime': 11.592, 'eval_samples_per_second': 51.76, 'eval_steps_per_second': 1.121, 'epoch': 0.18}
+{'loss': 1.8872, 'grad_norm': 1.7065435647964478, 'learning_rate': 4.8716632443531835e-06, 'epoch': 0.19}
+{'loss': 1.8263, 'grad_norm': 2.253103494644165, 'learning_rate': 4.869952087611225e-06, 'epoch': 0.19}
+{'loss': 1.7848, 'grad_norm': 1.8550246953964233, 'learning_rate': 4.868240930869268e-06, 'epoch': 0.19}
+{'loss': 1.8258, 'grad_norm': 2.4311797618865967, 'learning_rate': 4.8665297741273105e-06, 'epoch': 0.19}
+{'loss': 1.8135, 'grad_norm': 2.325821876525879, 'learning_rate': 4.864818617385353e-06, 'epoch': 0.2}
+{'loss': 1.8318, 'grad_norm': 2.1081480979919434, 'learning_rate': 4.863107460643396e-06, 'epoch': 0.2}
+{'loss': 1.8078, 'grad_norm': 2.4070465564727783, 'learning_rate': 4.8613963039014374e-06, 'epoch': 0.2}
+{'loss': 1.7879, 'grad_norm': 1.8898742198944092, 'learning_rate': 4.85968514715948e-06, 'epoch': 0.2}
+{'loss': 1.7726, 'grad_norm': 2.1102867126464844, 'learning_rate': 4.857973990417523e-06, 'epoch': 0.2}
+{'loss': 1.8334, 'grad_norm': 2.220156192779541, 'learning_rate': 4.856262833675565e-06, 'epoch': 0.21}
+{'eval_loss': 2.0092031955718994, 'eval_runtime': 11.5902, 'eval_samples_per_second': 51.768, 'eval_steps_per_second': 1.122, 'epoch': 0.21}
+{'loss': 1.7597, 'grad_norm': 1.8856511116027832, 'learning_rate': 4.854551676933608e-06, 'epoch': 0.21}
+{'loss': 1.7275, 'grad_norm': 1.902366042137146, 'learning_rate': 4.8528405201916505e-06, 'epoch': 0.21}
+{'loss': 1.742, 'grad_norm': 1.9911689758300781, 'learning_rate': 4.851129363449692e-06, 'epoch': 0.21}
+{'loss': 1.746, 'grad_norm': 1.8794270753860474, 'learning_rate': 4.849418206707735e-06, 'epoch': 0.21}
+{'loss': 1.7679, 'grad_norm': 1.9132341146469116, 'learning_rate': 4.8477070499657775e-06, 'epoch': 0.22}
+{'loss': 1.8303, 'grad_norm': 2.2286911010742188, 'learning_rate': 4.84599589322382e-06, 'epoch': 0.22}
+{'loss': 1.8114, 'grad_norm': 1.7782727479934692, 'learning_rate': 4.844284736481863e-06, 'epoch': 0.22}
+{'loss': 1.7559, 'grad_norm': 2.1986234188079834, 'learning_rate': 4.8425735797399045e-06, 'epoch': 0.22}
+{'loss': 1.7739, 'grad_norm': 1.911149263381958, 'learning_rate': 4.840862422997947e-06, 'epoch': 0.22}
+{'loss': 1.787, 'grad_norm': 2.2927563190460205, 'learning_rate': 4.839151266255989e-06, 'epoch': 0.23}
+{'eval_loss': 2.0038411617279053, 'eval_runtime': 11.594, 'eval_samples_per_second': 51.751, 'eval_steps_per_second': 1.121, 'epoch': 0.23}
+{'loss': 1.7635, 'grad_norm': 2.101592540740967, 'learning_rate': 4.8374401095140314e-06, 'epoch': 0.23}
+{'loss': 1.7948, 'grad_norm': 1.9849859476089478, 'learning_rate': 4.835728952772074e-06, 'epoch': 0.23}
+{'loss': 1.7724, 'grad_norm': 1.9666496515274048, 'learning_rate': 4.834017796030117e-06, 'epoch': 0.23}
+{'loss': 1.7874, 'grad_norm': 2.0362050533294678, 'learning_rate': 4.832306639288159e-06, 'epoch': 0.23}
+{'loss': 1.776, 'grad_norm': 1.9718341827392578, 'learning_rate': 4.830595482546202e-06, 'epoch': 0.24}
+{'loss': 1.7473, 'grad_norm': 2.027611255645752, 'learning_rate': 4.828884325804244e-06, 'epoch': 0.24}
+{'loss': 1.7872, 'grad_norm': 1.8258174657821655, 'learning_rate': 4.827173169062286e-06, 'epoch': 0.24}
+{'loss': 1.7955, 'grad_norm': 2.1553938388824463, 'learning_rate': 4.825462012320329e-06, 'epoch': 0.24}
+{'loss': 1.7493, 'grad_norm': 1.999833106994629, 'learning_rate': 4.8237508555783715e-06, 'epoch': 0.24}
+{'loss': 1.7723, 'grad_norm': 1.9336529970169067, 'learning_rate': 4.822039698836414e-06, 'epoch': 0.25}
+{'eval_loss': 1.9936256408691406, 'eval_runtime': 11.5936, 'eval_samples_per_second': 51.753, 'eval_steps_per_second': 1.121, 'epoch': 0.25}
+{'loss': 1.77, 'grad_norm': 2.282093048095703, 'learning_rate': 4.820328542094456e-06, 'epoch': 0.25}
+{'loss': 1.734, 'grad_norm': 2.1386451721191406, 'learning_rate': 4.8186173853524985e-06, 'epoch': 0.25}
+{'loss': 1.7137, 'grad_norm': 2.379204750061035, 'learning_rate': 4.816906228610541e-06, 'epoch': 0.25}
+{'loss': 1.7478, 'grad_norm': 1.9297806024551392, 'learning_rate': 4.815195071868584e-06, 'epoch': 0.25}
+{'loss': 1.7701, 'grad_norm': 2.068457841873169, 'learning_rate': 4.813483915126626e-06, 'epoch': 0.26}
+{'loss': 1.7538, 'grad_norm': 1.9370214939117432, 'learning_rate': 4.811772758384669e-06, 'epoch': 0.26}
+{'loss': 1.7601, 'grad_norm': 2.593642473220825, 'learning_rate': 4.810061601642711e-06, 'epoch': 0.26}
+{'loss': 1.7588, 'grad_norm': 2.0967350006103516, 'learning_rate': 4.808350444900753e-06, 'epoch': 0.26}
+{'loss': 1.7762, 'grad_norm': 2.340059995651245, 'learning_rate': 4.806639288158796e-06, 'epoch': 0.26}
+{'loss': 1.7618, 'grad_norm': 1.997408151626587, 'learning_rate': 4.8049281314168385e-06, 'epoch': 0.27}
+{'eval_loss': 1.9790667295455933, 'eval_runtime': 11.6011, 'eval_samples_per_second': 51.719, 'eval_steps_per_second': 1.121, 'epoch': 0.27}
+{'loss': 1.7312, 'grad_norm': 2.43746018409729, 'learning_rate': 4.803216974674881e-06, 'epoch': 0.27}
+{'loss': 1.7331, 'grad_norm': 2.349290132522583, 'learning_rate': 4.801505817932923e-06, 'epoch': 0.27}
+{'loss': 1.7661, 'grad_norm': 2.0949761867523193, 'learning_rate': 4.7997946611909655e-06, 'epoch': 0.27}
+{'loss': 1.7339, 'grad_norm': 2.346892833709717, 'learning_rate': 4.798083504449008e-06, 'epoch': 0.28}
+{'loss': 1.7347, 'grad_norm': 2.035804033279419, 'learning_rate': 4.796372347707051e-06, 'epoch': 0.28}
+{'loss': 1.7536, 'grad_norm': 2.284269094467163, 'learning_rate': 4.7946611909650925e-06, 'epoch': 0.28}
+{'loss': 1.732, 'grad_norm': 2.164670944213867, 'learning_rate': 4.792950034223135e-06, 'epoch': 0.28}
+{'loss': 1.7121, 'grad_norm': 2.1931941509246826, 'learning_rate': 4.791238877481178e-06, 'epoch': 0.28}
+{'loss': 1.7512, 'grad_norm': 2.35149884223938, 'learning_rate': 4.78952772073922e-06, 'epoch': 0.29}
+{'loss': 1.6909, 'grad_norm': 1.9771078824996948, 'learning_rate': 4.787816563997262e-06, 'epoch': 0.29}
+{'eval_loss': 1.9567476511001587, 'eval_runtime': 11.6, 'eval_samples_per_second': 51.724, 'eval_steps_per_second': 1.121, 'epoch': 0.29}
+{'loss': 1.7639, 'grad_norm': 2.5687310695648193, 'learning_rate': 4.786105407255305e-06, 'epoch': 0.29}
+{'loss': 1.7249, 'grad_norm': 2.0728015899658203, 'learning_rate': 4.784394250513347e-06, 'epoch': 0.29}
+{'loss': 1.7246, 'grad_norm': 2.257802724838257, 'learning_rate': 4.78268309377139e-06, 'epoch': 0.29}
+{'loss': 1.7218, 'grad_norm': 2.057859420776367, 'learning_rate': 4.7809719370294325e-06, 'epoch': 0.3}
+{'loss': 1.7436, 'grad_norm': 2.4979429244995117, 'learning_rate': 4.779260780287474e-06, 'epoch': 0.3}
+{'loss': 1.7277, 'grad_norm': 1.8733747005462646, 'learning_rate': 4.777549623545517e-06, 'epoch': 0.3}
+{'loss': 1.7178, 'grad_norm': 2.531043291091919, 'learning_rate': 4.7758384668035595e-06, 'epoch': 0.3}
+{'loss': 1.7118, 'grad_norm': 2.1382389068603516, 'learning_rate': 4.774127310061602e-06, 'epoch': 0.3}
+{'loss': 1.6705, 'grad_norm': 2.740206003189087, 'learning_rate': 4.772416153319645e-06, 'epoch': 0.31}
+{'loss': 1.694, 'grad_norm': 2.2646656036376953, 'learning_rate': 4.770704996577687e-06, 'epoch': 0.31}
+{'eval_loss': 1.9481005668640137, 'eval_runtime': 11.5977, 'eval_samples_per_second': 51.735, 'eval_steps_per_second': 1.121, 'epoch': 0.31}
+{'loss': 1.734, 'grad_norm': 2.3654253482818604, 'learning_rate': 4.768993839835729e-06, 'epoch': 0.31}
+{'loss': 1.7356, 'grad_norm': 1.9378299713134766, 'learning_rate': 4.767282683093772e-06, 'epoch': 0.31}
+{'loss': 1.7321, 'grad_norm': 2.142505407333374, 'learning_rate': 4.765571526351814e-06, 'epoch': 0.31}
+{'loss': 1.6737, 'grad_norm': 1.9980976581573486, 'learning_rate': 4.763860369609857e-06, 'epoch': 0.32}
+{'loss': 1.6963, 'grad_norm': 2.0711681842803955, 'learning_rate': 4.7621492128678995e-06, 'epoch': 0.32}
+{'loss': 1.6607, 'grad_norm': 2.1291122436523438, 'learning_rate': 4.760438056125941e-06, 'epoch': 0.32}
+{'loss': 1.7122, 'grad_norm': 2.211686611175537, 'learning_rate': 4.758726899383984e-06, 'epoch': 0.32}
+{'loss': 1.7049, 'grad_norm': 2.2772586345672607, 'learning_rate': 4.7570157426420265e-06, 'epoch': 0.32}
+{'loss': 1.6697, 'grad_norm': 2.048295497894287, 'learning_rate': 4.755304585900069e-06, 'epoch': 0.33}
+{'loss': 1.6731, 'grad_norm': 2.0634896755218506, 'learning_rate': 4.753593429158112e-06, 'epoch': 0.33}
+{'eval_loss': 1.937811255455017, 'eval_runtime': 11.5503, 'eval_samples_per_second': 51.947, 'eval_steps_per_second': 1.126, 'epoch': 0.33}
+{'loss': 1.6636, 'grad_norm': 1.9729671478271484, 'learning_rate': 4.751882272416154e-06, 'epoch': 0.33}
+{'loss': 1.6659, 'grad_norm': 2.3622658252716064, 'learning_rate': 4.750171115674196e-06, 'epoch': 0.33}
+{'loss': 1.6752, 'grad_norm': 1.8644583225250244, 'learning_rate': 4.748459958932239e-06, 'epoch': 0.33}
+{'loss': 1.6843, 'grad_norm': 2.1830408573150635, 'learning_rate': 4.7467488021902805e-06, 'epoch': 0.34}
+{'loss': 1.7163, 'grad_norm': 1.9163874387741089, 'learning_rate': 4.745037645448323e-06, 'epoch': 0.34}
+{'loss': 1.6543, 'grad_norm': 2.5842506885528564, 'learning_rate': 4.743326488706366e-06, 'epoch': 0.34}
+{'loss': 1.6779, 'grad_norm': 1.9029850959777832, 'learning_rate': 4.741615331964408e-06, 'epoch': 0.34}
+{'loss': 1.6914, 'grad_norm': 2.257362127304077, 'learning_rate': 4.739904175222451e-06, 'epoch': 0.34}
+{'loss': 1.695, 'grad_norm': 2.100393056869507, 'learning_rate': 4.738193018480493e-06, 'epoch': 0.35}
+{'loss': 1.6481, 'grad_norm': 2.2752492427825928, 'learning_rate': 4.736481861738535e-06, 'epoch': 0.35}
+{'eval_loss': 1.9169648885726929, 'eval_runtime': 11.5862, 'eval_samples_per_second': 51.786, 'eval_steps_per_second': 1.122, 'epoch': 0.35}
+{'loss': 1.6816, 'grad_norm': 2.048069953918457, 'learning_rate': 4.734770704996578e-06, 'epoch': 0.35}
+{'loss': 1.6209, 'grad_norm': 2.1717779636383057, 'learning_rate': 4.7330595482546205e-06, 'epoch': 0.35}
+{'loss': 1.6637, 'grad_norm': 2.0837910175323486, 'learning_rate': 4.731348391512663e-06, 'epoch': 0.36}
+{'loss': 1.6559, 'grad_norm': 2.023740530014038, 'learning_rate': 4.729637234770706e-06, 'epoch': 0.36}
+{'loss': 1.7149, 'grad_norm': 2.1271860599517822, 'learning_rate': 4.7279260780287475e-06, 'epoch': 0.36}
+{'loss': 1.7201, 'grad_norm': 1.8954252004623413, 'learning_rate': 4.72621492128679e-06, 'epoch': 0.36}
+{'loss': 1.6356, 'grad_norm': 2.135453701019287, 'learning_rate': 4.724503764544833e-06, 'epoch': 0.36}
+{'loss': 1.7521, 'grad_norm': 2.320446014404297, 'learning_rate': 4.722792607802875e-06, 'epoch': 0.37}
+{'loss': 1.6694, 'grad_norm': 2.014647960662842, 'learning_rate': 4.721081451060918e-06, 'epoch': 0.37}
+{'loss': 1.6362, 'grad_norm': 2.0742251873016357, 'learning_rate': 4.71937029431896e-06, 'epoch': 0.37}
+{'eval_loss': 1.9112286567687988, 'eval_runtime': 11.5962, 'eval_samples_per_second': 51.741, 'eval_steps_per_second': 1.121, 'epoch': 0.37}
+{'loss': 1.6531, 'grad_norm': 1.942603349685669, 'learning_rate': 4.717659137577002e-06, 'epoch': 0.37}
+{'loss': 1.6444, 'grad_norm': 2.0932443141937256, 'learning_rate': 4.715947980835045e-06, 'epoch': 0.37}
+{'loss': 1.6735, 'grad_norm': 2.068626642227173, 'learning_rate': 4.7142368240930875e-06, 'epoch': 0.38}
+{'loss': 1.6447, 'grad_norm': 2.3118233680725098, 'learning_rate': 4.71252566735113e-06, 'epoch': 0.38}
+{'loss': 1.6983, 'grad_norm': 1.9099875688552856, 'learning_rate': 4.710814510609173e-06, 'epoch': 0.38}
+{'loss': 1.6854, 'grad_norm': 2.2732770442962646, 'learning_rate': 4.7091033538672145e-06, 'epoch': 0.38}
+{'loss': 1.6919, 'grad_norm': 1.92847740650177, 'learning_rate': 4.707392197125257e-06, 'epoch': 0.38}
+{'loss': 1.6517, 'grad_norm': 2.1428403854370117, 'learning_rate': 4.7056810403833e-06, 'epoch': 0.39}
+{'loss': 1.6127, 'grad_norm': 2.0714666843414307, 'learning_rate': 4.7039698836413415e-06, 'epoch': 0.39}
+{'loss': 1.6772, 'grad_norm': 2.236410617828369, 'learning_rate': 4.702258726899384e-06, 'epoch': 0.39}
+{'eval_loss': 1.9080015420913696, 'eval_runtime': 11.5939, 'eval_samples_per_second': 51.751, 'eval_steps_per_second': 1.121, 'epoch': 0.39}
+{'loss': 1.6521, 'grad_norm': 2.0884437561035156, 'learning_rate': 4.700547570157427e-06, 'epoch': 0.39}
+{'loss': 1.6984, 'grad_norm': 2.28645920753479, 'learning_rate': 4.698836413415469e-06, 'epoch': 0.39}
+{'loss': 1.6765, 'grad_norm': 1.9584031105041504, 'learning_rate': 4.697125256673511e-06, 'epoch': 0.4}
+{'loss': 1.6131, 'grad_norm': 2.2002596855163574, 'learning_rate': 4.695414099931554e-06, 'epoch': 0.4}
+{'loss': 1.6592, 'grad_norm': 2.1805460453033447, 'learning_rate': 4.693702943189596e-06, 'epoch': 0.4}
+{'loss': 1.6674, 'grad_norm': 2.2359867095947266, 'learning_rate': 4.691991786447639e-06, 'epoch': 0.4}
+{'loss': 1.6675, 'grad_norm': 2.481781482696533, 'learning_rate': 4.6902806297056815e-06, 'epoch': 0.4}
+{'loss': 1.6435, 'grad_norm': 2.1634998321533203, 'learning_rate': 4.688569472963724e-06, 'epoch': 0.41}
+{'loss': 1.6286, 'grad_norm': 2.1981592178344727, 'learning_rate': 4.686858316221766e-06, 'epoch': 0.41}
+{'loss': 1.6323, 'grad_norm': 2.223055124282837, 'learning_rate': 4.6851471594798085e-06, 'epoch': 0.41}
+{'eval_loss': 1.9094488620758057, 'eval_runtime': 11.5916, 'eval_samples_per_second': 51.762, 'eval_steps_per_second': 1.122, 'epoch': 0.41}
+{'loss': 1.6122, 'grad_norm': 1.9816663265228271, 'learning_rate': 4.683436002737851e-06, 'epoch': 0.41}
+{'loss': 1.6783, 'grad_norm': 2.2743208408355713, 'learning_rate': 4.681724845995894e-06, 'epoch': 0.41}
+{'loss': 1.6414, 'grad_norm': 2.130401372909546, 'learning_rate': 4.680013689253936e-06, 'epoch': 0.42}
+{'loss': 1.6136, 'grad_norm': 2.1934306621551514, 'learning_rate': 4.678302532511979e-06, 'epoch': 0.42}
+{'loss': 1.6722, 'grad_norm': 2.0997612476348877, 'learning_rate': 4.676591375770021e-06, 'epoch': 0.42}
+{'loss': 1.6927, 'grad_norm': 2.1091670989990234, 'learning_rate': 4.674880219028063e-06, 'epoch': 0.42}
+{'loss': 1.5981, 'grad_norm': 2.1966357231140137, 'learning_rate': 4.673169062286106e-06, 'epoch': 0.43}
+{'loss': 1.6629, 'grad_norm': 2.2014431953430176, 'learning_rate': 4.6714579055441485e-06, 'epoch': 0.43}
+{'loss': 1.6355, 'grad_norm': 2.1199259757995605, 'learning_rate': 4.669746748802191e-06, 'epoch': 0.43}
+{'loss': 1.5833, 'grad_norm': 2.253622531890869, 'learning_rate': 4.668035592060233e-06, 'epoch': 0.43}
+{'eval_loss': 1.907263994216919, 'eval_runtime': 11.59, 'eval_samples_per_second': 51.769, 'eval_steps_per_second': 1.122, 'epoch': 0.43}
+{'loss': 1.6324, 'grad_norm': 2.22881817817688, 'learning_rate': 4.6663244353182755e-06, 'epoch': 0.43}
+{'loss': 1.631, 'grad_norm': 2.140558958053589, 'learning_rate': 4.664613278576318e-06, 'epoch': 0.44}
+{'loss': 1.6348, 'grad_norm': 2.261866331100464, 'learning_rate': 4.662902121834361e-06, 'epoch': 0.44}
+{'loss': 1.6356, 'grad_norm': 2.323521375656128, 'learning_rate': 4.661190965092403e-06, 'epoch': 0.44}
+{'loss': 1.673, 'grad_norm': 2.3330495357513428, 'learning_rate': 4.659479808350446e-06, 'epoch': 0.44}
+{'loss': 1.6297, 'grad_norm': 1.982625126838684, 'learning_rate': 4.657768651608488e-06, 'epoch': 0.44}
+{'loss': 1.6205, 'grad_norm': 2.285357713699341, 'learning_rate': 4.65605749486653e-06, 'epoch': 0.45}
+{'loss': 1.5958, 'grad_norm': 2.093169689178467, 'learning_rate': 4.654346338124572e-06, 'epoch': 0.45}
+{'loss': 1.655, 'grad_norm': 2.1527504920959473, 'learning_rate': 4.652635181382615e-06, 'epoch': 0.45}
+{'loss': 1.5776, 'grad_norm': 2.1955361366271973, 'learning_rate': 4.650924024640657e-06, 'epoch': 0.45}
+{'eval_loss': 1.89568030834198, 'eval_runtime': 11.5899, 'eval_samples_per_second': 51.769, 'eval_steps_per_second': 1.122, 'epoch': 0.45}
+{'loss': 1.607, 'grad_norm': 1.886833906173706, 'learning_rate': 4.6492128678987e-06, 'epoch': 0.45}
+{'loss': 1.6502, 'grad_norm': 2.2160756587982178, 'learning_rate': 4.6475017111567425e-06, 'epoch': 0.46}
+{'loss': 1.5846, 'grad_norm': 2.0465965270996094, 'learning_rate': 4.645790554414784e-06, 'epoch': 0.46}
+{'loss': 1.615, 'grad_norm': 2.1978907585144043, 'learning_rate': 4.644079397672827e-06, 'epoch': 0.46}
+{'loss': 1.643, 'grad_norm': 2.27077317237854, 'learning_rate': 4.6423682409308695e-06, 'epoch': 0.46}
+{'loss': 1.6186, 'grad_norm': 2.2582778930664062, 'learning_rate': 4.640657084188912e-06, 'epoch': 0.46}
+{'loss': 1.6298, 'grad_norm': 2.3118982315063477, 'learning_rate': 4.638945927446955e-06, 'epoch': 0.47}
+{'loss': 1.6274, 'grad_norm': 2.0556752681732178, 'learning_rate': 4.637234770704997e-06, 'epoch': 0.47}
+{'loss': 1.6277, 'grad_norm': 2.186459541320801, 'learning_rate': 4.635523613963039e-06, 'epoch': 0.47}
+{'loss': 1.6194, 'grad_norm': 2.0592026710510254, 'learning_rate': 4.633812457221082e-06, 'epoch': 0.47}
+{'eval_loss': 1.8846282958984375, 'eval_runtime': 11.5808, 'eval_samples_per_second': 51.81, 'eval_steps_per_second': 1.123, 'epoch': 0.47}
+{'loss': 1.6074, 'grad_norm': 2.389836549758911, 'learning_rate': 4.632101300479124e-06, 'epoch': 0.47}
+{'loss': 1.6159, 'grad_norm': 2.1629347801208496, 'learning_rate': 4.630390143737167e-06, 'epoch': 0.48}
+{'loss': 1.6596, 'grad_norm': 2.3030025959014893, 'learning_rate': 4.6286789869952095e-06, 'epoch': 0.48}
+{'loss': 1.6311, 'grad_norm': 2.1106321811676025, 'learning_rate': 4.626967830253251e-06, 'epoch': 0.48}
+{'loss': 1.6325, 'grad_norm': 2.2648067474365234, 'learning_rate': 4.625256673511294e-06, 'epoch': 0.48}
+{'loss': 1.5795, 'grad_norm': 2.174206256866455, 'learning_rate': 4.6235455167693365e-06, 'epoch': 0.48}
+{'loss': 1.5995, 'grad_norm': 2.338092803955078, 'learning_rate': 4.621834360027379e-06, 'epoch': 0.49}
+{'loss': 1.6176, 'grad_norm': 2.1876373291015625, 'learning_rate': 4.620123203285422e-06, 'epoch': 0.49}
+{'loss': 1.648, 'grad_norm': 2.1705901622772217, 'learning_rate': 4.618412046543464e-06, 'epoch': 0.49}
+{'loss': 1.6024, 'grad_norm': 2.2413289546966553, 'learning_rate': 4.616700889801506e-06, 'epoch': 0.49}
+{'eval_loss': 1.8823665380477905, 'eval_runtime': 11.5773, 'eval_samples_per_second': 51.826, 'eval_steps_per_second': 1.123, 'epoch': 0.49}
+{'loss': 1.5903, 'grad_norm': 2.132310628890991, 'learning_rate': 4.614989733059549e-06, 'epoch': 0.49}
+{'loss': 1.659, 'grad_norm': 2.290445566177368, 'learning_rate': 4.6132785763175905e-06, 'epoch': 0.5}
+{'loss': 1.6333, 'grad_norm': 2.1263065338134766, 'learning_rate': 4.611567419575633e-06, 'epoch': 0.5}
+{'loss': 1.6174, 'grad_norm': 2.2366111278533936, 'learning_rate': 4.609856262833676e-06, 'epoch': 0.5}
+{'loss': 1.602, 'grad_norm': 1.9423519372940063, 'learning_rate': 4.608145106091718e-06, 'epoch': 0.5}
+{'loss': 1.6376, 'grad_norm': 2.305311679840088, 'learning_rate': 4.606433949349761e-06, 'epoch': 0.51}
+{'loss': 1.5646, 'grad_norm': 2.168361186981201, 'learning_rate': 4.604722792607803e-06, 'epoch': 0.51}
+{'loss': 1.6188, 'grad_norm': 2.121800184249878, 'learning_rate': 4.603011635865845e-06, 'epoch': 0.51}
+{'loss': 1.6175, 'grad_norm': 2.3193447589874268, 'learning_rate': 4.601300479123888e-06, 'epoch': 0.51}
+{'loss': 1.6016, 'grad_norm': 2.194669008255005, 'learning_rate': 4.5995893223819305e-06, 'epoch': 0.51}
+{'eval_loss': 1.888749599456787, 'eval_runtime': 11.5723, 'eval_samples_per_second': 51.848, 'eval_steps_per_second': 1.123, 'epoch': 0.51}
+{'loss': 1.6312, 'grad_norm': 2.3413405418395996, 'learning_rate': 4.597878165639973e-06, 'epoch': 0.52}
+{'loss': 1.6179, 'grad_norm': 2.3359179496765137, 'learning_rate': 4.596167008898016e-06, 'epoch': 0.52}
+{'loss': 1.5628, 'grad_norm': 2.14764666557312, 'learning_rate': 4.5944558521560575e-06, 'epoch': 0.52}
+{'loss': 1.6277, 'grad_norm': 2.3968312740325928, 'learning_rate': 4.5927446954141e-06, 'epoch': 0.52}
+{'loss': 1.5842, 'grad_norm': 2.186018466949463, 'learning_rate': 4.591033538672143e-06, 'epoch': 0.52}
+{'loss': 1.6098, 'grad_norm': 2.6588990688323975, 'learning_rate': 4.589322381930185e-06, 'epoch': 0.53}
+{'loss': 1.6011, 'grad_norm': 2.333754062652588, 'learning_rate': 4.587611225188228e-06, 'epoch': 0.53}
+{'loss': 1.5945, 'grad_norm': 2.1136300563812256, 'learning_rate': 4.58590006844627e-06, 'epoch': 0.53}
+{'loss': 1.641, 'grad_norm': 2.2644121646881104, 'learning_rate': 4.584188911704312e-06, 'epoch': 0.53}
+{'loss': 1.6084, 'grad_norm': 1.9851099252700806, 'learning_rate': 4.582477754962355e-06, 'epoch': 0.53}
+{'eval_loss': 1.8707140684127808, 'eval_runtime': 11.5732, 'eval_samples_per_second': 51.844, 'eval_steps_per_second': 1.123, 'epoch': 0.53}
+{'loss': 1.6208, 'grad_norm': 2.1026110649108887, 'learning_rate': 4.5807665982203976e-06, 'epoch': 0.54}
+{'loss': 1.5899, 'grad_norm': 2.162309169769287, 'learning_rate': 4.57905544147844e-06, 'epoch': 0.54}
+{'loss': 1.5909, 'grad_norm': 2.3938522338867188, 'learning_rate': 4.577344284736483e-06, 'epoch': 0.54}
+{'loss': 1.5408, 'grad_norm': 2.0732927322387695, 'learning_rate': 4.5756331279945245e-06, 'epoch': 0.54}
+{'loss': 1.6242, 'grad_norm': 2.2230186462402344, 'learning_rate': 4.573921971252567e-06, 'epoch': 0.54}
+{'loss': 1.6332, 'grad_norm': 2.2047336101531982, 'learning_rate': 4.57221081451061e-06, 'epoch': 0.55}
+{'loss': 1.5905, 'grad_norm': 2.2124602794647217, 'learning_rate': 4.570499657768652e-06, 'epoch': 0.55}
+{'loss': 1.5629, 'grad_norm': 2.239259958267212, 'learning_rate': 4.568788501026695e-06, 'epoch': 0.55}
+{'loss': 1.6048, 'grad_norm': 2.155102252960205, 'learning_rate': 4.567077344284737e-06, 'epoch': 0.55}
+{'loss': 1.6288, 'grad_norm': 2.1391983032226562, 'learning_rate': 4.565366187542779e-06, 'epoch': 0.55}
+{'eval_loss': 1.8575496673583984, 'eval_runtime': 11.5637, 'eval_samples_per_second': 51.887, 'eval_steps_per_second': 1.124, 'epoch': 0.55}
+{'loss': 1.5704, 'grad_norm': 2.299837827682495, 'learning_rate': 4.563655030800821e-06, 'epoch': 0.56}
+{'loss': 1.593, 'grad_norm': 2.0976486206054688, 'learning_rate': 4.561943874058864e-06, 'epoch': 0.56}
+{'loss': 1.5823, 'grad_norm': 2.144392728805542, 'learning_rate': 4.560232717316906e-06, 'epoch': 0.56}
+{'loss': 1.6145, 'grad_norm': 2.2883191108703613, 'learning_rate': 4.558521560574949e-06, 'epoch': 0.56}
+{'loss': 1.604, 'grad_norm': 2.143690347671509, 'learning_rate': 4.5568104038329916e-06, 'epoch': 0.56}
+{'loss': 1.6117, 'grad_norm': 2.109311580657959, 'learning_rate': 4.555099247091034e-06, 'epoch': 0.57}
+{'loss': 1.5814, 'grad_norm': 2.224668025970459, 'learning_rate': 4.553388090349076e-06, 'epoch': 0.57}
+{'loss': 1.5821, 'grad_norm': 2.1595265865325928, 'learning_rate': 4.5516769336071185e-06, 'epoch': 0.57}
+{'loss': 1.5996, 'grad_norm': 2.135568380355835, 'learning_rate': 4.549965776865161e-06, 'epoch': 0.57}
+{'loss': 1.6313, 'grad_norm': 2.25154972076416, 'learning_rate': 4.548254620123204e-06, 'epoch': 0.57}
+{'eval_loss': 1.8648616075515747, 'eval_runtime': 11.5606, 'eval_samples_per_second': 51.9, 'eval_steps_per_second': 1.125, 'epoch': 0.57}
+{'loss': 1.5951, 'grad_norm': 2.2860844135284424, 'learning_rate': 4.546543463381246e-06, 'epoch': 0.58}
+{'loss': 1.6508, 'grad_norm': 2.1954216957092285, 'learning_rate': 4.544832306639288e-06, 'epoch': 0.58}
+{'loss': 1.5956, 'grad_norm': 2.172947883605957, 'learning_rate': 4.543121149897331e-06, 'epoch': 0.58}
+{'loss': 1.5782, 'grad_norm': 2.1858623027801514, 'learning_rate': 4.541409993155373e-06, 'epoch': 0.58}
+{'loss': 1.5913, 'grad_norm': 2.1381514072418213, 'learning_rate': 4.539698836413416e-06, 'epoch': 0.59}
+{'loss': 1.615, 'grad_norm': 2.125375270843506, 'learning_rate': 4.5379876796714586e-06, 'epoch': 0.59}
+{'loss': 1.6067, 'grad_norm': 2.1350553035736084, 'learning_rate': 4.536276522929501e-06, 'epoch': 0.59}
+{'loss': 1.5741, 'grad_norm': 2.187833309173584, 'learning_rate': 4.534565366187543e-06, 'epoch': 0.59}
+{'loss': 1.5955, 'grad_norm': 2.2569055557250977, 'learning_rate': 4.5328542094455856e-06, 'epoch': 0.59}
+{'loss': 1.5553, 'grad_norm': 2.250401258468628, 'learning_rate': 4.531143052703628e-06, 'epoch': 0.6}
+{'eval_loss': 1.8590197563171387, 'eval_runtime': 11.5617, 'eval_samples_per_second': 51.896, 'eval_steps_per_second': 1.124, 'epoch': 0.6}
+{'loss': 1.6008, 'grad_norm': 2.4110891819000244, 'learning_rate': 4.529431895961671e-06, 'epoch': 0.6}
+{'loss': 1.6451, 'grad_norm': 2.1494052410125732, 'learning_rate': 4.527720739219713e-06, 'epoch': 0.6}
+{'loss': 1.5494, 'grad_norm': 2.090388536453247, 'learning_rate': 4.526009582477755e-06, 'epoch': 0.6}
+{'loss': 1.5794, 'grad_norm': 2.33591365814209, 'learning_rate': 4.524298425735798e-06, 'epoch': 0.6}
+{'loss': 1.6146, 'grad_norm': 2.161010980606079, 'learning_rate': 4.5225872689938395e-06, 'epoch': 0.61}
+{'loss': 1.5619, 'grad_norm': 2.1516449451446533, 'learning_rate': 4.520876112251882e-06, 'epoch': 0.61}
+{'loss': 1.65, 'grad_norm': 2.168191909790039, 'learning_rate': 4.519164955509925e-06, 'epoch': 0.61}
+{'loss': 1.6001, 'grad_norm': 2.1937718391418457, 'learning_rate': 4.517453798767967e-06, 'epoch': 0.61}
+{'loss': 1.5683, 'grad_norm': 2.3381690979003906, 'learning_rate': 4.51574264202601e-06, 'epoch': 0.61}
+{'loss': 1.5682, 'grad_norm': 2.1112866401672363, 'learning_rate': 4.5140314852840526e-06, 'epoch': 0.62}
+{'eval_loss': 1.8574544191360474, 'eval_runtime': 11.5626, 'eval_samples_per_second': 51.891, 'eval_steps_per_second': 1.124, 'epoch': 0.62}
+{'loss': 1.5717, 'grad_norm': 2.3095948696136475, 'learning_rate': 4.512320328542094e-06, 'epoch': 0.62}
+{'loss': 1.591, 'grad_norm': 2.118586301803589, 'learning_rate': 4.510609171800137e-06, 'epoch': 0.62}
+{'loss': 1.5836, 'grad_norm': 2.024643898010254, 'learning_rate': 4.5088980150581796e-06, 'epoch': 0.62}
+{'loss': 1.5751, 'grad_norm': 2.1408774852752686, 'learning_rate': 4.507186858316222e-06, 'epoch': 0.62}
+{'loss': 1.5457, 'grad_norm': 2.2543299198150635, 'learning_rate': 4.505475701574265e-06, 'epoch': 0.63}
+{'loss': 1.5553, 'grad_norm': 2.1930716037750244, 'learning_rate': 4.5037645448323065e-06, 'epoch': 0.63}
+{'loss': 1.6075, 'grad_norm': 2.1916162967681885, 'learning_rate': 4.502053388090349e-06, 'epoch': 0.63}
+{'loss': 1.5705, 'grad_norm': 2.040055990219116, 'learning_rate': 4.500342231348392e-06, 'epoch': 0.63}
+{'loss': 1.6132, 'grad_norm': 2.2263166904449463, 'learning_rate': 4.498631074606434e-06, 'epoch': 0.63}
+{'loss': 1.5352, 'grad_norm': 2.0781891345977783, 'learning_rate': 4.496919917864477e-06, 'epoch': 0.64}
+{'eval_loss': 1.8512003421783447, 'eval_runtime': 11.4956, 'eval_samples_per_second': 52.194, 'eval_steps_per_second': 1.131, 'epoch': 0.64}
+{'loss': 1.5531, 'grad_norm': 2.219233751296997, 'learning_rate': 4.49520876112252e-06, 'epoch': 0.64}
+{'loss': 1.5494, 'grad_norm': 2.149531126022339, 'learning_rate': 4.493497604380561e-06, 'epoch': 0.64}
+{'loss': 1.5467, 'grad_norm': 2.184234619140625, 'learning_rate': 4.491786447638604e-06, 'epoch': 0.64}
+{'loss': 1.5556, 'grad_norm': 2.122285842895508, 'learning_rate': 4.4900752908966466e-06, 'epoch': 0.64}
+{'loss': 1.5778, 'grad_norm': 2.0147857666015625, 'learning_rate': 4.488364134154689e-06, 'epoch': 0.65}
+{'loss': 1.5476, 'grad_norm': 1.9453701972961426, 'learning_rate': 4.486652977412732e-06, 'epoch': 0.65}
+{'loss': 1.588, 'grad_norm': 2.1041600704193115, 'learning_rate': 4.484941820670774e-06, 'epoch': 0.65}
+{'loss': 1.6065, 'grad_norm': 2.0994696617126465, 'learning_rate': 4.483230663928816e-06, 'epoch': 0.65}
+{'loss': 1.5656, 'grad_norm': 2.2650794982910156, 'learning_rate': 4.481519507186859e-06, 'epoch': 0.66}
+{'loss': 1.5627, 'grad_norm': 2.065152645111084, 'learning_rate': 4.479808350444901e-06, 'epoch': 0.66}
+{'eval_loss': 1.8477449417114258, 'eval_runtime': 11.5528, 'eval_samples_per_second': 51.935, 'eval_steps_per_second': 1.125, 'epoch': 0.66}
+{'loss': 1.5631, 'grad_norm': 2.094991683959961, 'learning_rate': 4.478097193702944e-06, 'epoch': 0.66}
+{'loss': 1.5062, 'grad_norm': 2.106140375137329, 'learning_rate': 4.476386036960986e-06, 'epoch': 0.66}
+{'loss': 1.5802, 'grad_norm': 2.0230295658111572, 'learning_rate': 4.474674880219028e-06, 'epoch': 0.66}
+{'loss': 1.578, 'grad_norm': 2.2425856590270996, 'learning_rate': 4.472963723477071e-06, 'epoch': 0.67}
+{'loss': 1.6177, 'grad_norm': 2.070695161819458, 'learning_rate': 4.471252566735113e-06, 'epoch': 0.67}
+{'loss': 1.5874, 'grad_norm': 2.0495591163635254, 'learning_rate': 4.469541409993155e-06, 'epoch': 0.67}
+{'loss': 1.5607, 'grad_norm': 2.0593419075012207, 'learning_rate': 4.467830253251198e-06, 'epoch': 0.67}
+{'loss': 1.5457, 'grad_norm': 2.2073726654052734, 'learning_rate': 4.466119096509241e-06, 'epoch': 0.67}
+{'loss': 1.5649, 'grad_norm': 2.195650577545166, 'learning_rate': 4.464407939767283e-06, 'epoch': 0.68}
+{'loss': 1.5482, 'grad_norm': 2.2869646549224854, 'learning_rate': 4.462696783025326e-06, 'epoch': 0.68}
+{'eval_loss': 1.8485941886901855, 'eval_runtime': 11.5689, 'eval_samples_per_second': 51.863, 'eval_steps_per_second': 1.124, 'epoch': 0.68}
+{'loss': 1.5351, 'grad_norm': 2.109421491622925, 'learning_rate': 4.4609856262833676e-06, 'epoch': 0.68}
+{'loss': 1.5558, 'grad_norm': 2.3203847408294678, 'learning_rate': 4.45927446954141e-06, 'epoch': 0.68}
+{'loss': 1.6259, 'grad_norm': 2.091356039047241, 'learning_rate': 4.457563312799453e-06, 'epoch': 0.68}
+{'loss': 1.5662, 'grad_norm': 2.4723258018493652, 'learning_rate': 4.455852156057495e-06, 'epoch': 0.69}
+{'loss': 1.5713, 'grad_norm': 2.2537455558776855, 'learning_rate': 4.454140999315538e-06, 'epoch': 0.69}
+{'loss': 1.6021, 'grad_norm': 2.6575193405151367, 'learning_rate': 4.45242984257358e-06, 'epoch': 0.69}
+{'loss': 1.5692, 'grad_norm': 2.357717514038086, 'learning_rate': 4.450718685831622e-06, 'epoch': 0.69}
+{'loss': 1.5363, 'grad_norm': 2.2501227855682373, 'learning_rate': 4.449007529089665e-06, 'epoch': 0.69}
+{'loss': 1.5839, 'grad_norm': 2.4919686317443848, 'learning_rate': 4.447296372347708e-06, 'epoch': 0.7}
+{'loss': 1.5827, 'grad_norm': 2.4467103481292725, 'learning_rate': 4.44558521560575e-06, 'epoch': 0.7}
+{'eval_loss': 1.8537439107894897, 'eval_runtime': 11.572, 'eval_samples_per_second': 51.849, 'eval_steps_per_second': 1.123, 'epoch': 0.7}
+{'loss': 1.5536, 'grad_norm': 2.273745536804199, 'learning_rate': 4.443874058863793e-06, 'epoch': 0.7}
+{'loss': 1.5538, 'grad_norm': 2.4005351066589355, 'learning_rate': 4.442162902121835e-06, 'epoch': 0.7}
+{'loss': 1.5582, 'grad_norm': 2.233484983444214, 'learning_rate': 4.440451745379877e-06, 'epoch': 0.7}
+{'loss': 1.529, 'grad_norm': 2.1192753314971924, 'learning_rate': 4.43874058863792e-06, 'epoch': 0.71}
+{'loss': 1.6036, 'grad_norm': 2.442244052886963, 'learning_rate': 4.437029431895962e-06, 'epoch': 0.71}
+{'loss': 1.572, 'grad_norm': 2.055417776107788, 'learning_rate': 4.435318275154005e-06, 'epoch': 0.71}
+{'loss': 1.5211, 'grad_norm': 2.376290798187256, 'learning_rate': 4.433607118412047e-06, 'epoch': 0.71}
+{'loss': 1.5317, 'grad_norm': 2.2826342582702637, 'learning_rate': 4.431895961670089e-06, 'epoch': 0.71}
+{'loss': 1.5054, 'grad_norm': 2.12135648727417, 'learning_rate': 4.430184804928131e-06, 'epoch': 0.72}
+{'loss': 1.5515, 'grad_norm': 2.2635369300842285, 'learning_rate': 4.428473648186174e-06, 'epoch': 0.72}
+{'eval_loss': 1.8454489707946777, 'eval_runtime': 11.5837, 'eval_samples_per_second': 51.797, 'eval_steps_per_second': 1.122, 'epoch': 0.72}
+{'loss': 1.5447, 'grad_norm': 2.070399522781372, 'learning_rate': 4.426762491444216e-06, 'epoch': 0.72}
+{'loss': 1.5521, 'grad_norm': 2.0654993057250977, 'learning_rate': 4.425051334702259e-06, 'epoch': 0.72}
+{'loss': 1.5302, 'grad_norm': 2.2070364952087402, 'learning_rate': 4.423340177960302e-06, 'epoch': 0.72}
+{'loss': 1.56, 'grad_norm': 2.021044969558716, 'learning_rate': 4.421629021218344e-06, 'epoch': 0.73}
+{'loss': 1.5354, 'grad_norm': 2.5070607662200928, 'learning_rate': 4.419917864476386e-06, 'epoch': 0.73}
+{'loss': 1.5801, 'grad_norm': 2.1545939445495605, 'learning_rate': 4.418206707734429e-06, 'epoch': 0.73}
+{'loss': 1.5799, 'grad_norm': 2.4855237007141113, 'learning_rate': 4.416495550992471e-06, 'epoch': 0.73}
+{'loss': 1.4999, 'grad_norm': 2.158825397491455, 'learning_rate': 4.414784394250514e-06, 'epoch': 0.74}
+{'loss': 1.5381, 'grad_norm': 2.3597252368927, 'learning_rate': 4.413073237508556e-06, 'epoch': 0.74}
+{'loss': 1.4842, 'grad_norm': 2.1842973232269287, 'learning_rate': 4.411362080766598e-06, 'epoch': 0.74}
+{'eval_loss': 1.845670223236084, 'eval_runtime': 11.5775, 'eval_samples_per_second': 51.825, 'eval_steps_per_second': 1.123, 'epoch': 0.74}
+{'loss': 1.5425, 'grad_norm': 2.4478800296783447, 'learning_rate': 4.409650924024641e-06, 'epoch': 0.74}
+{'loss': 1.5727, 'grad_norm': 2.273967742919922, 'learning_rate': 4.407939767282683e-06, 'epoch': 0.74}
+{'loss': 1.5078, 'grad_norm': 2.223586082458496, 'learning_rate': 4.406228610540726e-06, 'epoch': 0.75}
+{'loss': 1.5021, 'grad_norm': 2.5696043968200684, 'learning_rate': 4.404517453798769e-06, 'epoch': 0.75}
+{'loss': 1.5609, 'grad_norm': 2.2828562259674072, 'learning_rate': 4.402806297056811e-06, 'epoch': 0.75}
+{'loss': 1.5728, 'grad_norm': 2.305229425430298, 'learning_rate': 4.401095140314853e-06, 'epoch': 0.75}
+{'loss': 1.5306, 'grad_norm': 2.150116443634033, 'learning_rate': 4.399383983572896e-06, 'epoch': 0.75}
+{'loss': 1.5559, 'grad_norm': 2.512603759765625, 'learning_rate': 4.397672826830938e-06, 'epoch': 0.76}
+{'loss': 1.5182, 'grad_norm': 2.219513416290283, 'learning_rate': 4.395961670088981e-06, 'epoch': 0.76}
+{'loss': 1.554, 'grad_norm': 2.298264741897583, 'learning_rate': 4.3942505133470234e-06, 'epoch': 0.76}
+{'eval_loss': 1.8515710830688477, 'eval_runtime': 11.5797, 'eval_samples_per_second': 51.815, 'eval_steps_per_second': 1.123, 'epoch': 0.76}
+{'loss': 1.5614, 'grad_norm': 2.4809224605560303, 'learning_rate': 4.392539356605065e-06, 'epoch': 0.76}
+{'loss': 1.5916, 'grad_norm': 2.057321310043335, 'learning_rate': 4.390828199863108e-06, 'epoch': 0.76}
+{'loss': 1.5534, 'grad_norm': 2.324585199356079, 'learning_rate': 4.38911704312115e-06, 'epoch': 0.77}
+{'loss': 1.5557, 'grad_norm': 2.0261213779449463, 'learning_rate': 4.387405886379193e-06, 'epoch': 0.77}
+{'loss': 1.5242, 'grad_norm': 2.217125654220581, 'learning_rate': 4.385694729637235e-06, 'epoch': 0.77}
+{'loss': 1.5511, 'grad_norm': 2.1654775142669678, 'learning_rate': 4.383983572895277e-06, 'epoch': 0.77}
+{'loss': 1.5109, 'grad_norm': 1.934639811515808, 'learning_rate': 4.38227241615332e-06, 'epoch': 0.77}
+{'loss': 1.5052, 'grad_norm': 2.5997047424316406, 'learning_rate': 4.380561259411363e-06, 'epoch': 0.78}
+{'loss': 1.56, 'grad_norm': 2.2114031314849854, 'learning_rate': 4.378850102669404e-06, 'epoch': 0.78}
+{'loss': 1.5609, 'grad_norm': 2.274519205093384, 'learning_rate': 4.377138945927447e-06, 'epoch': 0.78}
+{'eval_loss': 1.8423333168029785, 'eval_runtime': 11.5829, 'eval_samples_per_second': 51.801, 'eval_steps_per_second': 1.122, 'epoch': 0.78}
+{'loss': 1.5305, 'grad_norm': 2.301647424697876, 'learning_rate': 4.37542778918549e-06, 'epoch': 0.78}
+{'loss': 1.541, 'grad_norm': 2.10052227973938, 'learning_rate': 4.373716632443532e-06, 'epoch': 0.78}
+{'loss': 1.4743, 'grad_norm': 2.117316246032715, 'learning_rate': 4.372005475701575e-06, 'epoch': 0.79}
+{'loss': 1.5519, 'grad_norm': 2.1020517349243164, 'learning_rate': 4.370294318959617e-06, 'epoch': 0.79}
+{'loss': 1.5337, 'grad_norm': 2.0896060466766357, 'learning_rate': 4.368583162217659e-06, 'epoch': 0.79}
+{'loss': 1.5093, 'grad_norm': 2.1142220497131348, 'learning_rate': 4.366872005475702e-06, 'epoch': 0.79}
+{'loss': 1.5062, 'grad_norm': 2.136568069458008, 'learning_rate': 4.365160848733744e-06, 'epoch': 0.79}
+{'loss': 1.5794, 'grad_norm': 2.079819440841675, 'learning_rate': 4.363449691991787e-06, 'epoch': 0.8}
+{'loss': 1.5101, 'grad_norm': 2.0136663913726807, 'learning_rate': 4.36173853524983e-06, 'epoch': 0.8}
+{'loss': 1.5165, 'grad_norm': 2.1161909103393555, 'learning_rate': 4.360027378507871e-06, 'epoch': 0.8}
+{'eval_loss': 1.828205943107605, 'eval_runtime': 11.5823, 'eval_samples_per_second': 51.803, 'eval_steps_per_second': 1.122, 'epoch': 0.8}
+{'loss': 1.5845, 'grad_norm': 2.2295773029327393, 'learning_rate': 4.358316221765914e-06, 'epoch': 0.8}
+{'loss': 1.5557, 'grad_norm': 1.9922910928726196, 'learning_rate': 4.356605065023957e-06, 'epoch': 0.8}
+{'loss': 1.5162, 'grad_norm': 2.004102945327759, 'learning_rate': 4.354893908281999e-06, 'epoch': 0.81}
+{'loss': 1.5104, 'grad_norm': 2.14288330078125, 'learning_rate': 4.353182751540042e-06, 'epoch': 0.81}
+{'loss': 1.5365, 'grad_norm': 2.1349971294403076, 'learning_rate': 4.351471594798084e-06, 'epoch': 0.81}
+{'loss': 1.4819, 'grad_norm': 2.325204372406006, 'learning_rate': 4.349760438056126e-06, 'epoch': 0.81}
+{'loss': 1.5342, 'grad_norm': 2.124302387237549, 'learning_rate': 4.348049281314169e-06, 'epoch': 0.82}
+{'loss': 1.5401, 'grad_norm': 2.046358585357666, 'learning_rate': 4.3463381245722114e-06, 'epoch': 0.82}
+{'loss': 1.5075, 'grad_norm': 2.2069103717803955, 'learning_rate': 4.344626967830254e-06, 'epoch': 0.82}
+{'loss': 1.555, 'grad_norm': 2.1420345306396484, 'learning_rate': 4.342915811088297e-06, 'epoch': 0.82}
+{'eval_loss': 1.8280220031738281, 'eval_runtime': 11.6049, 'eval_samples_per_second': 51.702, 'eval_steps_per_second': 1.12, 'epoch': 0.82}
+{'loss': 1.524, 'grad_norm': 2.192919969558716, 'learning_rate': 4.341204654346338e-06, 'epoch': 0.82}
+{'loss': 1.5162, 'grad_norm': 2.0901198387145996, 'learning_rate': 4.339493497604381e-06, 'epoch': 0.83}
+{'loss': 1.4842, 'grad_norm': 2.1512484550476074, 'learning_rate': 4.337782340862423e-06, 'epoch': 0.83}
+{'loss': 1.5535, 'grad_norm': 2.3517191410064697, 'learning_rate': 4.336071184120465e-06, 'epoch': 0.83}
+{'loss': 1.5188, 'grad_norm': 2.287221908569336, 'learning_rate': 4.334360027378508e-06, 'epoch': 0.83}
+{'loss': 1.5425, 'grad_norm': 2.2977302074432373, 'learning_rate': 4.332648870636551e-06, 'epoch': 0.83}
+{'loss': 1.5595, 'grad_norm': 2.0670459270477295, 'learning_rate': 4.330937713894593e-06, 'epoch': 0.84}
+{'loss': 1.5078, 'grad_norm': 2.3550796508789062, 'learning_rate': 4.329226557152635e-06, 'epoch': 0.84}
+{'loss': 1.4767, 'grad_norm': 2.2550315856933594, 'learning_rate': 4.327515400410678e-06, 'epoch': 0.84}
+{'loss': 1.5043, 'grad_norm': 2.4225239753723145, 'learning_rate': 4.32580424366872e-06, 'epoch': 0.84}
+{'eval_loss': 1.8243790864944458, 'eval_runtime': 11.5941, 'eval_samples_per_second': 51.75, 'eval_steps_per_second': 1.121, 'epoch': 0.84}
+{'loss': 1.5727, 'grad_norm': 2.4985547065734863, 'learning_rate': 4.324093086926763e-06, 'epoch': 0.84}
+{'loss': 1.5125, 'grad_norm': 2.2175772190093994, 'learning_rate': 4.3223819301848054e-06, 'epoch': 0.85}
+{'loss': 1.4759, 'grad_norm': 2.3382248878479004, 'learning_rate': 4.320670773442848e-06, 'epoch': 0.85}
+{'loss': 1.5614, 'grad_norm': 2.415942430496216, 'learning_rate': 4.31895961670089e-06, 'epoch': 0.85}
+{'loss': 1.5242, 'grad_norm': 2.1480042934417725, 'learning_rate': 4.317248459958932e-06, 'epoch': 0.85}
+{'loss': 1.5511, 'grad_norm': 2.3475918769836426, 'learning_rate': 4.315537303216975e-06, 'epoch': 0.85}
+{'loss': 1.5108, 'grad_norm': 2.1982107162475586, 'learning_rate': 4.313826146475018e-06, 'epoch': 0.86}
+{'loss': 1.4764, 'grad_norm': 2.1926512718200684, 'learning_rate': 4.31211498973306e-06, 'epoch': 0.86}
+{'loss': 1.5347, 'grad_norm': 2.494084596633911, 'learning_rate': 4.310403832991102e-06, 'epoch': 0.86}
+{'loss': 1.4859, 'grad_norm': 1.9782280921936035, 'learning_rate': 4.308692676249145e-06, 'epoch': 0.86}
+{'eval_loss': 1.8217257261276245, 'eval_runtime': 11.6157, 'eval_samples_per_second': 51.654, 'eval_steps_per_second': 1.119, 'epoch': 0.86}
+{'loss': 1.5385, 'grad_norm': 2.313124418258667, 'learning_rate': 4.306981519507187e-06, 'epoch': 0.86}
+{'loss': 1.4869, 'grad_norm': 2.246656656265259, 'learning_rate': 4.30527036276523e-06, 'epoch': 0.87}
+{'loss': 1.5138, 'grad_norm': 2.1720964908599854, 'learning_rate': 4.3035592060232725e-06, 'epoch': 0.87}
+{'loss': 1.5155, 'grad_norm': 2.530458450317383, 'learning_rate': 4.301848049281315e-06, 'epoch': 0.87}
+{'loss': 1.4777, 'grad_norm': 2.062053680419922, 'learning_rate': 4.300136892539357e-06, 'epoch': 0.87}
+{'loss': 1.5029, 'grad_norm': 2.2486536502838135, 'learning_rate': 4.2984257357973994e-06, 'epoch': 0.87}
+{'loss': 1.5522, 'grad_norm': 2.4432170391082764, 'learning_rate': 4.296714579055442e-06, 'epoch': 0.88}
+{'loss': 1.5552, 'grad_norm': 2.12068247795105, 'learning_rate': 4.295003422313484e-06, 'epoch': 0.88}
+{'loss': 1.6015, 'grad_norm': 2.7189252376556396, 'learning_rate': 4.293292265571526e-06, 'epoch': 0.88}
+{'loss': 1.5005, 'grad_norm': 2.2508704662323, 'learning_rate': 4.291581108829569e-06, 'epoch': 0.88}
+{'eval_loss': 1.8223721981048584, 'eval_runtime': 11.6061, 'eval_samples_per_second': 51.697, 'eval_steps_per_second': 1.12, 'epoch': 0.88}
+{'loss': 1.5175, 'grad_norm': 2.31233811378479, 'learning_rate': 4.289869952087612e-06, 'epoch': 0.89}
+{'loss': 1.5477, 'grad_norm': 2.4729197025299072, 'learning_rate': 4.288158795345653e-06, 'epoch': 0.89}
+{'loss': 1.5292, 'grad_norm': 2.407069683074951, 'learning_rate': 4.286447638603696e-06, 'epoch': 0.89}
+{'loss': 1.5092, 'grad_norm': 2.6699135303497314, 'learning_rate': 4.284736481861739e-06, 'epoch': 0.89}
+{'loss': 1.4746, 'grad_norm': 2.2775635719299316, 'learning_rate': 4.283025325119781e-06, 'epoch': 0.89}
+{'loss': 1.552, 'grad_norm': 2.193828582763672, 'learning_rate': 4.281314168377824e-06, 'epoch': 0.9}
+{'loss': 1.5034, 'grad_norm': 2.197460174560547, 'learning_rate': 4.2796030116358665e-06, 'epoch': 0.9}
+{'loss': 1.5166, 'grad_norm': 2.370511293411255, 'learning_rate': 4.277891854893908e-06, 'epoch': 0.9}
+{'loss': 1.5484, 'grad_norm': 2.1680080890655518, 'learning_rate': 4.276180698151951e-06, 'epoch': 0.9}
+{'loss': 1.533, 'grad_norm': 2.1380653381347656, 'learning_rate': 4.2744695414099934e-06, 'epoch': 0.9}
+{'eval_loss': 1.8180142641067505, 'eval_runtime': 11.6272, 'eval_samples_per_second': 51.603, 'eval_steps_per_second': 1.118, 'epoch': 0.9}
+{'loss': 1.5376, 'grad_norm': 2.240429401397705, 'learning_rate': 4.272758384668036e-06, 'epoch': 0.91}
+{'loss': 1.5141, 'grad_norm': 2.0271854400634766, 'learning_rate': 4.271047227926079e-06, 'epoch': 0.91}
+{'loss': 1.5394, 'grad_norm': 2.0274198055267334, 'learning_rate': 4.269336071184121e-06, 'epoch': 0.91}
+{'loss': 1.5653, 'grad_norm': 2.1818783283233643, 'learning_rate': 4.267624914442163e-06, 'epoch': 0.91}
+{'loss': 1.5342, 'grad_norm': 2.1767945289611816, 'learning_rate': 4.265913757700206e-06, 'epoch': 0.91}
+{'loss': 1.5334, 'grad_norm': 2.1952598094940186, 'learning_rate': 4.264202600958248e-06, 'epoch': 0.92}
+{'loss': 1.487, 'grad_norm': 2.016746997833252, 'learning_rate': 4.262491444216291e-06, 'epoch': 0.92}
+{'loss': 1.5145, 'grad_norm': 2.2545647621154785, 'learning_rate': 4.2607802874743335e-06, 'epoch': 0.92}
+{'loss': 1.4856, 'grad_norm': 2.0159857273101807, 'learning_rate': 4.259069130732375e-06, 'epoch': 0.92}
+{'loss': 1.4962, 'grad_norm': 2.0553946495056152, 'learning_rate': 4.257357973990418e-06, 'epoch': 0.92}
+{'eval_loss': 1.8106789588928223, 'eval_runtime': 11.6252, 'eval_samples_per_second': 51.612, 'eval_steps_per_second': 1.118, 'epoch': 0.92}
+{'loss': 1.5278, 'grad_norm': 2.0499348640441895, 'learning_rate': 4.2556468172484605e-06, 'epoch': 0.93}
+{'loss': 1.5222, 'grad_norm': 2.2377395629882812, 'learning_rate': 4.253935660506503e-06, 'epoch': 0.93}
+{'loss': 1.5645, 'grad_norm': 2.093831777572632, 'learning_rate': 4.252224503764546e-06, 'epoch': 0.93}
+{'loss': 1.521, 'grad_norm': 2.1527369022369385, 'learning_rate': 4.250513347022588e-06, 'epoch': 0.93}
+{'loss': 1.5243, 'grad_norm': 2.1283693313598633, 'learning_rate': 4.24880219028063e-06, 'epoch': 0.93}
+{'loss': 1.4911, 'grad_norm': 2.4856667518615723, 'learning_rate': 4.247091033538673e-06, 'epoch': 0.94}
+{'loss': 1.4726, 'grad_norm': 2.0306055545806885, 'learning_rate': 4.245379876796714e-06, 'epoch': 0.94}
+{'loss': 1.5853, 'grad_norm': 2.407031536102295, 'learning_rate': 4.243668720054757e-06, 'epoch': 0.94}
+{'loss': 1.5134, 'grad_norm': 2.3459677696228027, 'learning_rate': 4.2419575633128e-06, 'epoch': 0.94}
+{'loss': 1.5133, 'grad_norm': 2.0326547622680664, 'learning_rate': 4.240246406570842e-06, 'epoch': 0.94}
+{'eval_loss': 1.8096301555633545, 'eval_runtime': 11.5079, 'eval_samples_per_second': 52.138, 'eval_steps_per_second': 1.13, 'epoch': 0.94}
+{'loss': 1.4761, 'grad_norm': 2.189831495285034, 'learning_rate': 4.238535249828885e-06, 'epoch': 0.95}
+{'loss': 1.511, 'grad_norm': 2.2712044715881348, 'learning_rate': 4.236824093086927e-06, 'epoch': 0.95}
+{'loss': 1.5235, 'grad_norm': 2.2213313579559326, 'learning_rate': 4.235112936344969e-06, 'epoch': 0.95}
+{'loss': 1.4786, 'grad_norm': 2.199366807937622, 'learning_rate': 4.233401779603012e-06, 'epoch': 0.95}
+{'loss': 1.5552, 'grad_norm': 2.2753114700317383, 'learning_rate': 4.2316906228610545e-06, 'epoch': 0.95}
+{'loss': 1.4802, 'grad_norm': 2.207918167114258, 'learning_rate': 4.229979466119097e-06, 'epoch': 0.96}
+{'loss': 1.5071, 'grad_norm': 2.0953640937805176, 'learning_rate': 4.22826830937714e-06, 'epoch': 0.96}
+{'loss': 1.5111, 'grad_norm': 2.1493358612060547, 'learning_rate': 4.2265571526351814e-06, 'epoch': 0.96}
+{'loss': 1.5284, 'grad_norm': 2.201639413833618, 'learning_rate': 4.224845995893224e-06, 'epoch': 0.96}
+{'loss': 1.5592, 'grad_norm': 2.3584179878234863, 'learning_rate': 4.223134839151267e-06, 'epoch': 0.97}
+{'eval_loss': 1.8023860454559326, 'eval_runtime': 11.5829, 'eval_samples_per_second': 51.8, 'eval_steps_per_second': 1.122, 'epoch': 0.97}
+{'loss': 1.5495, 'grad_norm': 2.257413148880005, 'learning_rate': 4.221423682409309e-06, 'epoch': 0.97}
+{'loss': 1.5192, 'grad_norm': 2.184056520462036, 'learning_rate': 4.219712525667352e-06, 'epoch': 0.97}
+{'loss': 1.4767, 'grad_norm': 2.1493546962738037, 'learning_rate': 4.218001368925394e-06, 'epoch': 0.97}
+{'loss': 1.4619, 'grad_norm': 2.082087516784668, 'learning_rate': 4.216290212183436e-06, 'epoch': 0.97}
+{'loss': 1.4761, 'grad_norm': 2.1839702129364014, 'learning_rate': 4.214579055441479e-06, 'epoch': 0.98}
+{'loss': 1.5336, 'grad_norm': 2.060387372970581, 'learning_rate': 4.2128678986995215e-06, 'epoch': 0.98}
+{'loss': 1.516, 'grad_norm': 2.216749429702759, 'learning_rate': 4.211156741957564e-06, 'epoch': 0.98}
+{'loss': 1.4435, 'grad_norm': 2.276508092880249, 'learning_rate': 4.209445585215607e-06, 'epoch': 0.98}
+{'loss': 1.4935, 'grad_norm': 2.2246484756469727, 'learning_rate': 4.2077344284736485e-06, 'epoch': 0.98}
+{'loss': 1.511, 'grad_norm': 2.2993626594543457, 'learning_rate': 4.206023271731691e-06, 'epoch': 0.99}
+{'eval_loss': 1.8079978227615356, 'eval_runtime': 11.6163, 'eval_samples_per_second': 51.652, 'eval_steps_per_second': 1.119, 'epoch': 0.99}
+{'loss': 1.4738, 'grad_norm': 2.1174020767211914, 'learning_rate': 4.204312114989733e-06, 'epoch': 0.99}
+{'loss': 1.5064, 'grad_norm': 2.3139243125915527, 'learning_rate': 4.2026009582477754e-06, 'epoch': 0.99}
+{'loss': 1.5287, 'grad_norm': 2.2699434757232666, 'learning_rate': 4.200889801505818e-06, 'epoch': 0.99}
+{'loss': 1.5341, 'grad_norm': 2.260697841644287, 'learning_rate': 4.199178644763861e-06, 'epoch': 0.99}
+{'loss': 1.49, 'grad_norm': 2.2356410026550293, 'learning_rate': 4.197467488021903e-06, 'epoch': 1.0}
+{'loss': 1.5152, 'grad_norm': 2.237276792526245, 'learning_rate': 4.195756331279945e-06, 'epoch': 1.0}
+{'loss': 1.5031, 'grad_norm': 2.170280933380127, 'learning_rate': 4.194045174537988e-06, 'epoch': 1.0}
+{'loss': 1.4124, 'grad_norm': 2.3115570545196533, 'learning_rate': 4.19233401779603e-06, 'epoch': 1.0}
+{'loss': 1.5231, 'grad_norm': 2.3886847496032715, 'learning_rate': 4.190622861054073e-06, 'epoch': 1.0}
+{'loss': 1.4637, 'grad_norm': 2.303920030593872, 'learning_rate': 4.1889117043121155e-06, 'epoch': 1.01}
+{'eval_loss': 1.8022117614746094, 'eval_runtime': 11.6059, 'eval_samples_per_second': 51.698, 'eval_steps_per_second': 1.12, 'epoch': 1.01}
+{'loss': 1.4752, 'grad_norm': 2.2495968341827393, 'learning_rate': 4.187200547570158e-06, 'epoch': 1.01}
+{'loss': 1.5214, 'grad_norm': 2.2937674522399902, 'learning_rate': 4.1854893908282e-06, 'epoch': 1.01}
+{'loss': 1.4581, 'grad_norm': 2.231135129928589, 'learning_rate': 4.1837782340862425e-06, 'epoch': 1.01}
+{'loss': 1.468, 'grad_norm': 2.3400588035583496, 'learning_rate': 4.182067077344285e-06, 'epoch': 1.01}
+{'loss': 1.4742, 'grad_norm': 2.0644969940185547, 'learning_rate': 4.180355920602328e-06, 'epoch': 1.02}
+{'loss': 1.5031, 'grad_norm': 2.496469497680664, 'learning_rate': 4.17864476386037e-06, 'epoch': 1.02}
+{'loss': 1.4856, 'grad_norm': 2.3579933643341064, 'learning_rate': 4.176933607118412e-06, 'epoch': 1.02}
+{'loss': 1.4746, 'grad_norm': 2.3807456493377686, 'learning_rate': 4.175222450376455e-06, 'epoch': 1.02}
+{'loss': 1.4672, 'grad_norm': 2.280041217803955, 'learning_rate': 4.173511293634497e-06, 'epoch': 1.02}
+{'loss': 1.5063, 'grad_norm': 2.2690913677215576, 'learning_rate': 4.17180013689254e-06, 'epoch': 1.03}
+{'eval_loss': 1.797112226486206, 'eval_runtime': 11.6381, 'eval_samples_per_second': 51.555, 'eval_steps_per_second': 1.117, 'epoch': 1.03}
+{'loss': 1.4825, 'grad_norm': 2.2247095108032227, 'learning_rate': 4.1700889801505825e-06, 'epoch': 1.03}
+{'loss': 1.4713, 'grad_norm': 2.3935928344726562, 'learning_rate': 4.168377823408625e-06, 'epoch': 1.03}
+{'loss': 1.4979, 'grad_norm': 2.2197623252868652, 'learning_rate': 4.166666666666667e-06, 'epoch': 1.03}
+{'loss': 1.4371, 'grad_norm': 2.152862310409546, 'learning_rate': 4.1649555099247095e-06, 'epoch': 1.03}
+{'loss': 1.5116, 'grad_norm': 2.3376548290252686, 'learning_rate': 4.163244353182752e-06, 'epoch': 1.04}
+{'loss': 1.522, 'grad_norm': 2.2181785106658936, 'learning_rate': 4.161533196440795e-06, 'epoch': 1.04}
+{'loss': 1.4451, 'grad_norm': 2.5697379112243652, 'learning_rate': 4.159822039698837e-06, 'epoch': 1.04}
+{'loss': 1.4749, 'grad_norm': 2.1496047973632812, 'learning_rate': 4.158110882956879e-06, 'epoch': 1.04}
+{'loss': 1.4572, 'grad_norm': 2.1761364936828613, 'learning_rate': 4.156399726214922e-06, 'epoch': 1.05}
+{'loss': 1.4943, 'grad_norm': 2.4883391857147217, 'learning_rate': 4.1546885694729634e-06, 'epoch': 1.05}
+{'eval_loss': 1.8038681745529175, 'eval_runtime': 11.6328, 'eval_samples_per_second': 51.578, 'eval_steps_per_second': 1.118, 'epoch': 1.05}
+{'loss': 1.5058, 'grad_norm': 2.329409122467041, 'learning_rate': 4.152977412731006e-06, 'epoch': 1.05}
+{'loss': 1.472, 'grad_norm': 2.412093162536621, 'learning_rate': 4.151266255989049e-06, 'epoch': 1.05}
+{'loss': 1.4918, 'grad_norm': 2.211366653442383, 'learning_rate': 4.149555099247091e-06, 'epoch': 1.05}
+{'loss': 1.4918, 'grad_norm': 2.338118314743042, 'learning_rate': 4.147843942505134e-06, 'epoch': 1.06}
+{'loss': 1.4505, 'grad_norm': 2.397463083267212, 'learning_rate': 4.1461327857631765e-06, 'epoch': 1.06}
+{'loss': 1.4636, 'grad_norm': 2.237333059310913, 'learning_rate': 4.144421629021218e-06, 'epoch': 1.06}
+{'loss': 1.4805, 'grad_norm': 2.490992546081543, 'learning_rate': 4.142710472279261e-06, 'epoch': 1.06}
+{'loss': 1.433, 'grad_norm': 2.244063377380371, 'learning_rate': 4.1409993155373035e-06, 'epoch': 1.06}
+{'loss': 1.4504, 'grad_norm': 2.177517890930176, 'learning_rate': 4.139288158795346e-06, 'epoch': 1.07}
+{'loss': 1.465, 'grad_norm': 2.3119325637817383, 'learning_rate': 4.137577002053389e-06, 'epoch': 1.07}
+{'eval_loss': 1.7999422550201416, 'eval_runtime': 11.6227, 'eval_samples_per_second': 51.623, 'eval_steps_per_second': 1.119, 'epoch': 1.07}
+{'loss': 1.517, 'grad_norm': 2.1771156787872314, 'learning_rate': 4.1358658453114305e-06, 'epoch': 1.07}
+{'loss': 1.491, 'grad_norm': 2.541407346725464, 'learning_rate': 4.134154688569473e-06, 'epoch': 1.07}
+{'loss': 1.4687, 'grad_norm': 2.512058973312378, 'learning_rate': 4.132443531827516e-06, 'epoch': 1.07}
+{'loss': 1.5058, 'grad_norm': 2.1630475521087646, 'learning_rate': 4.130732375085558e-06, 'epoch': 1.08}
+{'loss': 1.4678, 'grad_norm': 2.3299014568328857, 'learning_rate': 4.129021218343601e-06, 'epoch': 1.08}
+{'loss': 1.4387, 'grad_norm': 2.189622402191162, 'learning_rate': 4.1273100616016435e-06, 'epoch': 1.08}
+{'loss': 1.4774, 'grad_norm': 2.3042070865631104, 'learning_rate': 4.125598904859685e-06, 'epoch': 1.08}
+{'loss': 1.4885, 'grad_norm': 2.267059564590454, 'learning_rate': 4.123887748117728e-06, 'epoch': 1.08}
+{'loss': 1.4822, 'grad_norm': 2.3663806915283203, 'learning_rate': 4.1221765913757705e-06, 'epoch': 1.09}
+{'loss': 1.4717, 'grad_norm': 2.2604362964630127, 'learning_rate': 4.120465434633813e-06, 'epoch': 1.09}
+{'eval_loss': 1.7857729196548462, 'eval_runtime': 11.6364, 'eval_samples_per_second': 51.562, 'eval_steps_per_second': 1.117, 'epoch': 1.09}
+{'loss': 1.4762, 'grad_norm': 2.184239625930786, 'learning_rate': 4.118754277891856e-06, 'epoch': 1.09}
+{'loss': 1.4775, 'grad_norm': 2.1321680545806885, 'learning_rate': 4.117043121149898e-06, 'epoch': 1.09}
+{'loss': 1.5144, 'grad_norm': 2.3731138706207275, 'learning_rate': 4.11533196440794e-06, 'epoch': 1.09}
+{'loss': 1.5114, 'grad_norm': 2.2091386318206787, 'learning_rate': 4.113620807665982e-06, 'epoch': 1.1}
+{'loss': 1.4524, 'grad_norm': 2.051462173461914, 'learning_rate': 4.1119096509240245e-06, 'epoch': 1.1}
+{'loss': 1.4228, 'grad_norm': 2.326145887374878, 'learning_rate': 4.110198494182067e-06, 'epoch': 1.1}
+{'loss': 1.4769, 'grad_norm': 2.2338638305664062, 'learning_rate': 4.10848733744011e-06, 'epoch': 1.1}
+{'loss': 1.4495, 'grad_norm': 2.259030818939209, 'learning_rate': 4.106776180698152e-06, 'epoch': 1.1}
+{'loss': 1.4809, 'grad_norm': 2.452388048171997, 'learning_rate': 4.105065023956195e-06, 'epoch': 1.11}
+{'loss': 1.443, 'grad_norm': 2.242051601409912, 'learning_rate': 4.103353867214237e-06, 'epoch': 1.11}
+{'eval_loss': 1.7881734371185303, 'eval_runtime': 11.622, 'eval_samples_per_second': 51.626, 'eval_steps_per_second': 1.119, 'epoch': 1.11}
+{'loss': 1.447, 'grad_norm': 2.2616119384765625, 'learning_rate': 4.101642710472279e-06, 'epoch': 1.11}
+{'loss': 1.4668, 'grad_norm': 2.114499092102051, 'learning_rate': 4.099931553730322e-06, 'epoch': 1.11}
+{'loss': 1.4466, 'grad_norm': 2.146049976348877, 'learning_rate': 4.0982203969883645e-06, 'epoch': 1.11}
+{'loss': 1.4649, 'grad_norm': 2.3231594562530518, 'learning_rate': 4.096509240246407e-06, 'epoch': 1.12}
+{'loss': 1.4564, 'grad_norm': 2.1661441326141357, 'learning_rate': 4.09479808350445e-06, 'epoch': 1.12}
+{'loss': 1.4621, 'grad_norm': 2.1827023029327393, 'learning_rate': 4.0930869267624915e-06, 'epoch': 1.12}
+{'loss': 1.4589, 'grad_norm': 2.291811227798462, 'learning_rate': 4.091375770020534e-06, 'epoch': 1.12}
+{'loss': 1.4762, 'grad_norm': 2.2354085445404053, 'learning_rate': 4.089664613278577e-06, 'epoch': 1.13}
+{'loss': 1.4537, 'grad_norm': 2.294468402862549, 'learning_rate': 4.087953456536619e-06, 'epoch': 1.13}
+{'loss': 1.4469, 'grad_norm': 2.282951831817627, 'learning_rate': 4.086242299794662e-06, 'epoch': 1.13}
+{'eval_loss': 1.8018583059310913, 'eval_runtime': 11.6244, 'eval_samples_per_second': 51.616, 'eval_steps_per_second': 1.118, 'epoch': 1.13}
+{'loss': 1.4987, 'grad_norm': 2.348527431488037, 'learning_rate': 4.084531143052704e-06, 'epoch': 1.13}
+{'loss': 1.5037, 'grad_norm': 2.1164398193359375, 'learning_rate': 4.082819986310746e-06, 'epoch': 1.13}
+{'loss': 1.4081, 'grad_norm': 2.450958013534546, 'learning_rate': 4.081108829568789e-06, 'epoch': 1.14}
+{'loss': 1.4542, 'grad_norm': 2.3376080989837646, 'learning_rate': 4.0793976728268315e-06, 'epoch': 1.14}
+{'loss': 1.4828, 'grad_norm': 2.33306622505188, 'learning_rate': 4.077686516084874e-06, 'epoch': 1.14}
+{'loss': 1.452, 'grad_norm': 2.498842716217041, 'learning_rate': 4.075975359342917e-06, 'epoch': 1.14}
+{'loss': 1.5125, 'grad_norm': 2.691751003265381, 'learning_rate': 4.0742642026009585e-06, 'epoch': 1.14}
+{'loss': 1.4313, 'grad_norm': 2.4472062587738037, 'learning_rate': 4.072553045859001e-06, 'epoch': 1.15}
+{'loss': 1.4715, 'grad_norm': 2.5029003620147705, 'learning_rate': 4.070841889117044e-06, 'epoch': 1.15}
+{'loss': 1.513, 'grad_norm': 2.3129491806030273, 'learning_rate': 4.069130732375086e-06, 'epoch': 1.15}
+{'eval_loss': 1.8041177988052368, 'eval_runtime': 11.6313, 'eval_samples_per_second': 51.585, 'eval_steps_per_second': 1.118, 'epoch': 1.15}
+{'loss': 1.4843, 'grad_norm': 2.449172258377075, 'learning_rate': 4.067419575633128e-06, 'epoch': 1.15}
+{'loss': 1.5151, 'grad_norm': 2.549506425857544, 'learning_rate': 4.065708418891171e-06, 'epoch': 1.15}
+{'loss': 1.4842, 'grad_norm': 2.3232831954956055, 'learning_rate': 4.063997262149213e-06, 'epoch': 1.16}
+{'loss': 1.4898, 'grad_norm': 2.288731336593628, 'learning_rate': 4.062286105407255e-06, 'epoch': 1.16}
+{'loss': 1.455, 'grad_norm': 2.488922119140625, 'learning_rate': 4.060574948665298e-06, 'epoch': 1.16}
+{'loss': 1.4698, 'grad_norm': 2.3423497676849365, 'learning_rate': 4.05886379192334e-06, 'epoch': 1.16}
+{'loss': 1.4677, 'grad_norm': 2.404627799987793, 'learning_rate': 4.057152635181383e-06, 'epoch': 1.16}
+{'loss': 1.5167, 'grad_norm': 2.325862407684326, 'learning_rate': 4.0554414784394255e-06, 'epoch': 1.17}
+{'loss': 1.497, 'grad_norm': 2.2285938262939453, 'learning_rate': 4.053730321697468e-06, 'epoch': 1.17}
+{'loss': 1.4997, 'grad_norm': 2.4649627208709717, 'learning_rate': 4.05201916495551e-06, 'epoch': 1.17}
+{'eval_loss': 1.7966971397399902, 'eval_runtime': 11.6346, 'eval_samples_per_second': 51.57, 'eval_steps_per_second': 1.117, 'epoch': 1.17}
+{'loss': 1.4843, 'grad_norm': 2.42388653755188, 'learning_rate': 4.0503080082135525e-06, 'epoch': 1.17}
+{'loss': 1.4532, 'grad_norm': 2.258030891418457, 'learning_rate': 4.048596851471595e-06, 'epoch': 1.17}
+{'loss': 1.4462, 'grad_norm': 2.537388324737549, 'learning_rate': 4.046885694729638e-06, 'epoch': 1.18}
+{'loss': 1.4554, 'grad_norm': 2.398280382156372, 'learning_rate': 4.04517453798768e-06, 'epoch': 1.18}
+{'loss': 1.4531, 'grad_norm': 2.283651351928711, 'learning_rate': 4.043463381245722e-06, 'epoch': 1.18}
+{'loss': 1.4418, 'grad_norm': 2.371105432510376, 'learning_rate': 4.041752224503765e-06, 'epoch': 1.18}
+{'loss': 1.4518, 'grad_norm': 2.2475898265838623, 'learning_rate': 4.040041067761807e-06, 'epoch': 1.18}
+{'loss': 1.4746, 'grad_norm': 2.412519931793213, 'learning_rate': 4.03832991101985e-06, 'epoch': 1.19}
+{'loss': 1.4968, 'grad_norm': 2.452873945236206, 'learning_rate': 4.0366187542778925e-06, 'epoch': 1.19}
+{'loss': 1.4615, 'grad_norm': 2.2720108032226562, 'learning_rate': 4.034907597535935e-06, 'epoch': 1.19}
+{'eval_loss': 1.794792652130127, 'eval_runtime': 11.6429, 'eval_samples_per_second': 51.534, 'eval_steps_per_second': 1.117, 'epoch': 1.19}
+{'loss': 1.4617, 'grad_norm': 2.2878503799438477, 'learning_rate': 4.033196440793977e-06, 'epoch': 1.19}
+{'loss': 1.4369, 'grad_norm': 2.192121982574463, 'learning_rate': 4.0314852840520195e-06, 'epoch': 1.2}
+{'loss': 1.4237, 'grad_norm': 2.1985726356506348, 'learning_rate': 4.029774127310062e-06, 'epoch': 1.2}
+{'loss': 1.4589, 'grad_norm': 2.307992935180664, 'learning_rate': 4.028062970568105e-06, 'epoch': 1.2}
+{'loss': 1.4657, 'grad_norm': 2.259535789489746, 'learning_rate': 4.026351813826147e-06, 'epoch': 1.2}
+{'loss': 1.5297, 'grad_norm': 2.3544139862060547, 'learning_rate': 4.024640657084189e-06, 'epoch': 1.2}
+{'loss': 1.444, 'grad_norm': 2.290125608444214, 'learning_rate': 4.022929500342232e-06, 'epoch': 1.21}
+{'loss': 1.4866, 'grad_norm': 2.295489549636841, 'learning_rate': 4.0212183436002735e-06, 'epoch': 1.21}
+{'loss': 1.4273, 'grad_norm': 2.265491247177124, 'learning_rate': 4.019507186858316e-06, 'epoch': 1.21}
+{'loss': 1.4684, 'grad_norm': 2.304130792617798, 'learning_rate': 4.017796030116359e-06, 'epoch': 1.21}
+{'eval_loss': 1.7875409126281738, 'eval_runtime': 11.6312, 'eval_samples_per_second': 51.585, 'eval_steps_per_second': 1.118, 'epoch': 1.21}
+{'loss': 1.4614, 'grad_norm': 2.4147801399230957, 'learning_rate': 4.016084873374401e-06, 'epoch': 1.21}
+{'loss': 1.4818, 'grad_norm': 2.4672107696533203, 'learning_rate': 4.014373716632444e-06, 'epoch': 1.22}
+{'loss': 1.4202, 'grad_norm': 2.2354624271392822, 'learning_rate': 4.0126625598904865e-06, 'epoch': 1.22}
+{'loss': 1.4677, 'grad_norm': 2.397672414779663, 'learning_rate': 4.010951403148528e-06, 'epoch': 1.22}
+{'loss': 1.5057, 'grad_norm': 2.3333590030670166, 'learning_rate': 4.009240246406571e-06, 'epoch': 1.22}
+{'loss': 1.4818, 'grad_norm': 2.2856051921844482, 'learning_rate': 4.0075290896646135e-06, 'epoch': 1.22}
+{'loss': 1.4765, 'grad_norm': 2.3039402961730957, 'learning_rate': 4.005817932922656e-06, 'epoch': 1.23}
+{'loss': 1.4369, 'grad_norm': 2.2758803367614746, 'learning_rate': 4.004106776180699e-06, 'epoch': 1.23}
+{'loss': 1.4667, 'grad_norm': 2.238973617553711, 'learning_rate': 4.0023956194387405e-06, 'epoch': 1.23}
+{'loss': 1.4654, 'grad_norm': 2.2643065452575684, 'learning_rate': 4.000684462696783e-06, 'epoch': 1.23}
+{'eval_loss': 1.7928316593170166, 'eval_runtime': 11.6338, 'eval_samples_per_second': 51.574, 'eval_steps_per_second': 1.117, 'epoch': 1.23}
+{'loss': 1.4547, 'grad_norm': 2.30517578125, 'learning_rate': 3.998973305954826e-06, 'epoch': 1.23}
+{'loss': 1.4156, 'grad_norm': 2.099133253097534, 'learning_rate': 3.997262149212868e-06, 'epoch': 1.24}
+{'loss': 1.4454, 'grad_norm': 2.224909782409668, 'learning_rate': 3.995550992470911e-06, 'epoch': 1.24}
+{'loss': 1.4706, 'grad_norm': 2.159663200378418, 'learning_rate': 3.9938398357289536e-06, 'epoch': 1.24}
+{'loss': 1.4205, 'grad_norm': 2.192927837371826, 'learning_rate': 3.992128678986995e-06, 'epoch': 1.24}
+{'loss': 1.4649, 'grad_norm': 2.5191967487335205, 'learning_rate': 3.990417522245038e-06, 'epoch': 1.24}
+{'loss': 1.4305, 'grad_norm': 2.3674676418304443, 'learning_rate': 3.9887063655030805e-06, 'epoch': 1.25}
+{'loss': 1.4473, 'grad_norm': 2.1366007328033447, 'learning_rate': 3.986995208761123e-06, 'epoch': 1.25}
+{'loss': 1.5003, 'grad_norm': 2.296212911605835, 'learning_rate': 3.985284052019166e-06, 'epoch': 1.25}
+{'loss': 1.4319, 'grad_norm': 2.225543260574341, 'learning_rate': 3.9835728952772075e-06, 'epoch': 1.25}
+{'eval_loss': 1.7896898984909058, 'eval_runtime': 11.5023, 'eval_samples_per_second': 52.163, 'eval_steps_per_second': 1.13, 'epoch': 1.25}
+{'loss': 1.4706, 'grad_norm': 2.184290647506714, 'learning_rate': 3.98186173853525e-06, 'epoch': 1.25}
+{'loss': 1.4248, 'grad_norm': 2.2413089275360107, 'learning_rate': 3.980150581793293e-06, 'epoch': 1.26}
+{'loss': 1.4322, 'grad_norm': 2.307419538497925, 'learning_rate': 3.978439425051335e-06, 'epoch': 1.26}
+{'loss': 1.4757, 'grad_norm': 2.236187219619751, 'learning_rate': 3.976728268309377e-06, 'epoch': 1.26}
+{'loss': 1.4058, 'grad_norm': 2.147883892059326, 'learning_rate': 3.97501711156742e-06, 'epoch': 1.26}
+{'loss': 1.4273, 'grad_norm': 2.268763780593872, 'learning_rate': 3.973305954825462e-06, 'epoch': 1.26}
+{'loss': 1.4904, 'grad_norm': 2.386204242706299, 'learning_rate': 3.971594798083505e-06, 'epoch': 1.27}
+{'loss': 1.4541, 'grad_norm': 2.306020498275757, 'learning_rate': 3.969883641341547e-06, 'epoch': 1.27}
+{'loss': 1.4688, 'grad_norm': 2.250993490219116, 'learning_rate': 3.968172484599589e-06, 'epoch': 1.27}
+{'loss': 1.4276, 'grad_norm': 2.427332878112793, 'learning_rate': 3.966461327857632e-06, 'epoch': 1.27}
+{'eval_loss': 1.7809479236602783, 'eval_runtime': 11.5811, 'eval_samples_per_second': 51.809, 'eval_steps_per_second': 1.123, 'epoch': 1.27}
+{'loss': 1.4715, 'grad_norm': 2.2428152561187744, 'learning_rate': 3.9647501711156745e-06, 'epoch': 1.28}
+{'loss': 1.4607, 'grad_norm': 2.310570001602173, 'learning_rate': 3.963039014373717e-06, 'epoch': 1.28}
+{'loss': 1.4822, 'grad_norm': 2.3568050861358643, 'learning_rate': 3.961327857631759e-06, 'epoch': 1.28}
+{'loss': 1.4723, 'grad_norm': 2.3583247661590576, 'learning_rate': 3.9596167008898015e-06, 'epoch': 1.28}
+{'loss': 1.4353, 'grad_norm': 2.326876401901245, 'learning_rate': 3.957905544147844e-06, 'epoch': 1.28}
+{'loss': 1.4761, 'grad_norm': 2.4385929107666016, 'learning_rate': 3.956194387405887e-06, 'epoch': 1.29}
+{'loss': 1.4602, 'grad_norm': 2.044490098953247, 'learning_rate': 3.954483230663929e-06, 'epoch': 1.29}
+{'loss': 1.491, 'grad_norm': 2.4086570739746094, 'learning_rate': 3.952772073921972e-06, 'epoch': 1.29}
+{'loss': 1.4414, 'grad_norm': 2.4195427894592285, 'learning_rate': 3.951060917180014e-06, 'epoch': 1.29}
+{'loss': 1.4492, 'grad_norm': 2.4038336277008057, 'learning_rate': 3.949349760438056e-06, 'epoch': 1.29}
+{'eval_loss': 1.7935327291488647, 'eval_runtime': 11.614, 'eval_samples_per_second': 51.662, 'eval_steps_per_second': 1.119, 'epoch': 1.29}
+{'loss': 1.4035, 'grad_norm': 2.3915467262268066, 'learning_rate': 3.947638603696099e-06, 'epoch': 1.3}
+{'loss': 1.4582, 'grad_norm': 2.3749921321868896, 'learning_rate': 3.9459274469541416e-06, 'epoch': 1.3}
+{'loss': 1.4533, 'grad_norm': 2.440934419631958, 'learning_rate': 3.944216290212184e-06, 'epoch': 1.3}
+{'loss': 1.4317, 'grad_norm': 2.4876363277435303, 'learning_rate': 3.942505133470226e-06, 'epoch': 1.3}
+{'loss': 1.472, 'grad_norm': 2.4092257022857666, 'learning_rate': 3.9407939767282685e-06, 'epoch': 1.3}
+{'loss': 1.4444, 'grad_norm': 2.4728078842163086, 'learning_rate': 3.939082819986311e-06, 'epoch': 1.31}
+{'loss': 1.4584, 'grad_norm': 2.4591591358184814, 'learning_rate': 3.937371663244354e-06, 'epoch': 1.31}
+{'loss': 1.4674, 'grad_norm': 2.3945302963256836, 'learning_rate': 3.935660506502396e-06, 'epoch': 1.31}
+{'loss': 1.4489, 'grad_norm': 2.323068618774414, 'learning_rate': 3.933949349760439e-06, 'epoch': 1.31}
+{'loss': 1.4272, 'grad_norm': 2.424367666244507, 'learning_rate': 3.932238193018481e-06, 'epoch': 1.31}
+{'eval_loss': 1.8022509813308716, 'eval_runtime': 11.6286, 'eval_samples_per_second': 51.597, 'eval_steps_per_second': 1.118, 'epoch': 1.31}
+{'loss': 1.4644, 'grad_norm': 2.5495870113372803, 'learning_rate': 3.930527036276523e-06, 'epoch': 1.32}
+{'loss': 1.4789, 'grad_norm': 2.513927698135376, 'learning_rate': 3.928815879534565e-06, 'epoch': 1.32}
+{'loss': 1.4536, 'grad_norm': 2.5511012077331543, 'learning_rate': 3.927104722792608e-06, 'epoch': 1.32}
+{'loss': 1.3991, 'grad_norm': 2.4949910640716553, 'learning_rate': 3.92539356605065e-06, 'epoch': 1.32}
+{'loss': 1.4207, 'grad_norm': 2.417689561843872, 'learning_rate': 3.923682409308693e-06, 'epoch': 1.32}
+{'loss': 1.4078, 'grad_norm': 2.5476861000061035, 'learning_rate': 3.9219712525667356e-06, 'epoch': 1.33}
+{'loss': 1.4466, 'grad_norm': 2.1786437034606934, 'learning_rate': 3.920260095824777e-06, 'epoch': 1.33}
+{'loss': 1.4795, 'grad_norm': 2.3339922428131104, 'learning_rate': 3.91854893908282e-06, 'epoch': 1.33}
+{'loss': 1.4691, 'grad_norm': 2.557598829269409, 'learning_rate': 3.9168377823408625e-06, 'epoch': 1.33}
+{'loss': 1.3881, 'grad_norm': 2.2169456481933594, 'learning_rate': 3.915126625598905e-06, 'epoch': 1.33}
+{'eval_loss': 1.7990256547927856, 'eval_runtime': 11.6266, 'eval_samples_per_second': 51.606, 'eval_steps_per_second': 1.118, 'epoch': 1.33}
+{'loss': 1.494, 'grad_norm': 2.5997354984283447, 'learning_rate': 3.913415468856948e-06, 'epoch': 1.34}
+{'loss': 1.4552, 'grad_norm': 2.4025793075561523, 'learning_rate': 3.91170431211499e-06, 'epoch': 1.34}
+{'loss': 1.4924, 'grad_norm': 2.375051498413086, 'learning_rate': 3.909993155373032e-06, 'epoch': 1.34}
+{'loss': 1.4301, 'grad_norm': 2.5247039794921875, 'learning_rate': 3.908281998631075e-06, 'epoch': 1.34}
+{'loss': 1.4736, 'grad_norm': 2.2568604946136475, 'learning_rate': 3.906570841889117e-06, 'epoch': 1.34}
+{'loss': 1.4667, 'grad_norm': 2.1026675701141357, 'learning_rate': 3.90485968514716e-06, 'epoch': 1.35}
+{'loss': 1.4568, 'grad_norm': 2.4659149646759033, 'learning_rate': 3.903148528405203e-06, 'epoch': 1.35}
+{'loss': 1.4731, 'grad_norm': 2.2133100032806396, 'learning_rate': 3.901437371663245e-06, 'epoch': 1.35}
+{'loss': 1.408, 'grad_norm': 2.1931378841400146, 'learning_rate': 3.899726214921287e-06, 'epoch': 1.35}
+{'loss': 1.4422, 'grad_norm': 2.291293144226074, 'learning_rate': 3.8980150581793296e-06, 'epoch': 1.36}
+{'eval_loss': 1.7998665571212769, 'eval_runtime': 11.6257, 'eval_samples_per_second': 51.61, 'eval_steps_per_second': 1.118, 'epoch': 1.36}
+{'loss': 1.4278, 'grad_norm': 2.273456573486328, 'learning_rate': 3.896303901437372e-06, 'epoch': 1.36}
+{'loss': 1.4686, 'grad_norm': 2.1417243480682373, 'learning_rate': 3.894592744695415e-06, 'epoch': 1.36}
+{'loss': 1.467, 'grad_norm': 2.386650323867798, 'learning_rate': 3.892881587953457e-06, 'epoch': 1.36}
+{'loss': 1.4421, 'grad_norm': 2.1412627696990967, 'learning_rate': 3.891170431211499e-06, 'epoch': 1.36}
+{'loss': 1.4715, 'grad_norm': 2.144118547439575, 'learning_rate': 3.889459274469542e-06, 'epoch': 1.37}
+{'loss': 1.4645, 'grad_norm': 2.1645143032073975, 'learning_rate': 3.887748117727584e-06, 'epoch': 1.37}
+{'loss': 1.4639, 'grad_norm': 2.1797287464141846, 'learning_rate': 3.886036960985626e-06, 'epoch': 1.37}
+{'loss': 1.4967, 'grad_norm': 2.2456908226013184, 'learning_rate': 3.884325804243669e-06, 'epoch': 1.37}
+{'loss': 1.4285, 'grad_norm': 2.2614104747772217, 'learning_rate': 3.882614647501711e-06, 'epoch': 1.37}
+{'loss': 1.4567, 'grad_norm': 2.2937211990356445, 'learning_rate': 3.880903490759754e-06, 'epoch': 1.38}
+{'eval_loss': 1.7846572399139404, 'eval_runtime': 11.6421, 'eval_samples_per_second': 51.537, 'eval_steps_per_second': 1.117, 'epoch': 1.38}
+{'loss': 1.4552, 'grad_norm': 2.277038097381592, 'learning_rate': 3.879192334017797e-06, 'epoch': 1.38}
+{'loss': 1.458, 'grad_norm': 2.3617753982543945, 'learning_rate': 3.877481177275838e-06, 'epoch': 1.38}
+{'loss': 1.4341, 'grad_norm': 2.2725162506103516, 'learning_rate': 3.875770020533881e-06, 'epoch': 1.38}
+{'loss': 1.4661, 'grad_norm': 2.2062647342681885, 'learning_rate': 3.8740588637919236e-06, 'epoch': 1.38}
+{'loss': 1.4639, 'grad_norm': 2.2431161403656006, 'learning_rate': 3.872347707049966e-06, 'epoch': 1.39}
+{'loss': 1.4648, 'grad_norm': 2.1966216564178467, 'learning_rate': 3.870636550308009e-06, 'epoch': 1.39}
+{'loss': 1.4154, 'grad_norm': 2.288133144378662, 'learning_rate': 3.8689253935660505e-06, 'epoch': 1.39}
+{'loss': 1.4464, 'grad_norm': 2.126152753829956, 'learning_rate': 3.867214236824093e-06, 'epoch': 1.39}
+{'loss': 1.4634, 'grad_norm': 2.282773494720459, 'learning_rate': 3.865503080082136e-06, 'epoch': 1.39}
+{'loss': 1.4261, 'grad_norm': 2.2086968421936035, 'learning_rate': 3.863791923340178e-06, 'epoch': 1.4}
+{'eval_loss': 1.7849723100662231, 'eval_runtime': 11.6423, 'eval_samples_per_second': 51.536, 'eval_steps_per_second': 1.117, 'epoch': 1.4}
+{'loss': 1.4233, 'grad_norm': 2.20564866065979, 'learning_rate': 3.862080766598221e-06, 'epoch': 1.4}
+{'loss': 1.4383, 'grad_norm': 2.123211145401001, 'learning_rate': 3.860369609856264e-06, 'epoch': 1.4}
+{'loss': 1.4143, 'grad_norm': 2.2235960960388184, 'learning_rate': 3.858658453114305e-06, 'epoch': 1.4}
+{'loss': 1.4231, 'grad_norm': 2.1634268760681152, 'learning_rate': 3.856947296372348e-06, 'epoch': 1.4}
+{'loss': 1.4697, 'grad_norm': 2.4165897369384766, 'learning_rate': 3.855236139630391e-06, 'epoch': 1.41}
+{'loss': 1.4945, 'grad_norm': 2.4506940841674805, 'learning_rate': 3.853524982888433e-06, 'epoch': 1.41}
+{'loss': 1.4538, 'grad_norm': 2.2238540649414062, 'learning_rate': 3.851813826146476e-06, 'epoch': 1.41}
+{'loss': 1.4693, 'grad_norm': 2.422545909881592, 'learning_rate': 3.8501026694045176e-06, 'epoch': 1.41}
+{'loss': 1.4588, 'grad_norm': 2.2988545894622803, 'learning_rate': 3.84839151266256e-06, 'epoch': 1.41}
+{'loss': 1.3767, 'grad_norm': 2.1435840129852295, 'learning_rate': 3.846680355920603e-06, 'epoch': 1.42}
+{'eval_loss': 1.792464017868042, 'eval_runtime': 11.6354, 'eval_samples_per_second': 51.567, 'eval_steps_per_second': 1.117, 'epoch': 1.42}
+{'loss': 1.4822, 'grad_norm': 2.6260831356048584, 'learning_rate': 3.844969199178645e-06, 'epoch': 1.42}
+{'loss': 1.4326, 'grad_norm': 2.39913272857666, 'learning_rate': 3.843258042436688e-06, 'epoch': 1.42}
+{'loss': 1.4937, 'grad_norm': 2.2937047481536865, 'learning_rate': 3.841546885694731e-06, 'epoch': 1.42}
+{'loss': 1.4428, 'grad_norm': 2.4349756240844727, 'learning_rate': 3.839835728952772e-06, 'epoch': 1.43}
+{'loss': 1.4502, 'grad_norm': 2.3445627689361572, 'learning_rate': 3.838124572210815e-06, 'epoch': 1.43}
+{'loss': 1.4001, 'grad_norm': 2.425541877746582, 'learning_rate': 3.836413415468857e-06, 'epoch': 1.43}
+{'loss': 1.4444, 'grad_norm': 2.5592873096466064, 'learning_rate': 3.834702258726899e-06, 'epoch': 1.43}
+{'loss': 1.3983, 'grad_norm': 2.2363924980163574, 'learning_rate': 3.832991101984942e-06, 'epoch': 1.43}
+{'loss': 1.409, 'grad_norm': 2.405182361602783, 'learning_rate': 3.831279945242985e-06, 'epoch': 1.44}
+{'loss': 1.4409, 'grad_norm': 2.3954761028289795, 'learning_rate': 3.829568788501027e-06, 'epoch': 1.44}
+{'eval_loss': 1.7951961755752563, 'eval_runtime': 11.631, 'eval_samples_per_second': 51.586, 'eval_steps_per_second': 1.118, 'epoch': 1.44}
+{'loss': 1.4405, 'grad_norm': 2.2327215671539307, 'learning_rate': 3.827857631759069e-06, 'epoch': 1.44}
+{'loss': 1.4073, 'grad_norm': 2.2128474712371826, 'learning_rate': 3.8261464750171116e-06, 'epoch': 1.44}
+{'loss': 1.4228, 'grad_norm': 2.301210880279541, 'learning_rate': 3.824435318275154e-06, 'epoch': 1.44}
+{'loss': 1.4658, 'grad_norm': 2.4079670906066895, 'learning_rate': 3.822724161533197e-06, 'epoch': 1.45}
+{'loss': 1.4189, 'grad_norm': 2.2228989601135254, 'learning_rate': 3.821013004791239e-06, 'epoch': 1.45}
+{'loss': 1.4241, 'grad_norm': 2.506993532180786, 'learning_rate': 3.819301848049282e-06, 'epoch': 1.45}
+{'loss': 1.4605, 'grad_norm': 2.393152952194214, 'learning_rate': 3.817590691307324e-06, 'epoch': 1.45}
+{'loss': 1.4219, 'grad_norm': 2.1736583709716797, 'learning_rate': 3.815879534565366e-06, 'epoch': 1.45}
+{'loss': 1.4178, 'grad_norm': 2.2882988452911377, 'learning_rate': 3.814168377823409e-06, 'epoch': 1.46}
+{'loss': 1.4145, 'grad_norm': 2.2996528148651123, 'learning_rate': 3.8124572210814516e-06, 'epoch': 1.46}
+{'eval_loss': 1.7928112745285034, 'eval_runtime': 11.6224, 'eval_samples_per_second': 51.624, 'eval_steps_per_second': 1.119, 'epoch': 1.46}
+{'loss': 1.4658, 'grad_norm': 2.2596940994262695, 'learning_rate': 3.8107460643394938e-06, 'epoch': 1.46}
+{'loss': 1.4365, 'grad_norm': 2.252197265625, 'learning_rate': 3.8090349075975364e-06, 'epoch': 1.46}
+{'loss': 1.4471, 'grad_norm': 2.2911133766174316, 'learning_rate': 3.807323750855579e-06, 'epoch': 1.46}
+{'loss': 1.4591, 'grad_norm': 2.229785919189453, 'learning_rate': 3.805612594113621e-06, 'epoch': 1.47}
+{'loss': 1.4584, 'grad_norm': 2.3346376419067383, 'learning_rate': 3.803901437371664e-06, 'epoch': 1.47}
+{'loss': 1.4433, 'grad_norm': 2.4567129611968994, 'learning_rate': 3.802190280629706e-06, 'epoch': 1.47}
+{'loss': 1.4332, 'grad_norm': 2.233333110809326, 'learning_rate': 3.8004791238877486e-06, 'epoch': 1.47}
+{'loss': 1.448, 'grad_norm': 2.4033639430999756, 'learning_rate': 3.798767967145791e-06, 'epoch': 1.47}
+{'loss': 1.4597, 'grad_norm': 2.2891836166381836, 'learning_rate': 3.7970568104038334e-06, 'epoch': 1.48}
+{'loss': 1.4328, 'grad_norm': 2.2639622688293457, 'learning_rate': 3.7953456536618756e-06, 'epoch': 1.48}
+{'eval_loss': 1.8029872179031372, 'eval_runtime': 11.6265, 'eval_samples_per_second': 51.606, 'eval_steps_per_second': 1.118, 'epoch': 1.48}
+{'loss': 1.4482, 'grad_norm': 2.341679811477661, 'learning_rate': 3.7936344969199178e-06, 'epoch': 1.48}
+{'loss': 1.4288, 'grad_norm': 2.26706862449646, 'learning_rate': 3.7919233401779604e-06, 'epoch': 1.48}
+{'loss': 1.4307, 'grad_norm': 2.2691845893859863, 'learning_rate': 3.790212183436003e-06, 'epoch': 1.48}
+{'loss': 1.4237, 'grad_norm': 2.2902183532714844, 'learning_rate': 3.788501026694045e-06, 'epoch': 1.49}
+{'loss': 1.4737, 'grad_norm': 2.2749719619750977, 'learning_rate': 3.7867898699520878e-06, 'epoch': 1.49}
+{'loss': 1.4268, 'grad_norm': 2.3665482997894287, 'learning_rate': 3.7850787132101304e-06, 'epoch': 1.49}
+{'loss': 1.4277, 'grad_norm': 2.3284225463867188, 'learning_rate': 3.7833675564681726e-06, 'epoch': 1.49}
+{'loss': 1.459, 'grad_norm': 2.552835702896118, 'learning_rate': 3.781656399726215e-06, 'epoch': 1.49}
+{'loss': 1.4297, 'grad_norm': 2.2723190784454346, 'learning_rate': 3.7799452429842574e-06, 'epoch': 1.5}
+{'loss': 1.4385, 'grad_norm': 2.239838123321533, 'learning_rate': 3.7782340862423e-06, 'epoch': 1.5}
+{'eval_loss': 1.7893294095993042, 'eval_runtime': 11.6316, 'eval_samples_per_second': 51.584, 'eval_steps_per_second': 1.118, 'epoch': 1.5}
+{'loss': 1.4125, 'grad_norm': 2.295334577560425, 'learning_rate': 3.7765229295003426e-06, 'epoch': 1.5}
+{'loss': 1.4576, 'grad_norm': 2.390994071960449, 'learning_rate': 3.774811772758385e-06, 'epoch': 1.5}
+{'loss': 1.4476, 'grad_norm': 2.218916416168213, 'learning_rate': 3.7731006160164274e-06, 'epoch': 1.51}
+{'loss': 1.4496, 'grad_norm': 2.294605016708374, 'learning_rate': 3.77138945927447e-06, 'epoch': 1.51}
+{'loss': 1.4334, 'grad_norm': 2.2485809326171875, 'learning_rate': 3.769678302532512e-06, 'epoch': 1.51}
+{'loss': 1.4236, 'grad_norm': 2.410853147506714, 'learning_rate': 3.767967145790555e-06, 'epoch': 1.51}
+{'loss': 1.4415, 'grad_norm': 2.2774276733398438, 'learning_rate': 3.7662559890485974e-06, 'epoch': 1.51}
+{'loss': 1.441, 'grad_norm': 2.4457101821899414, 'learning_rate': 3.7645448323066396e-06, 'epoch': 1.52}
+{'loss': 1.448, 'grad_norm': 2.3893930912017822, 'learning_rate': 3.7628336755646822e-06, 'epoch': 1.52}
+{'loss': 1.4035, 'grad_norm': 2.290898323059082, 'learning_rate': 3.7611225188227244e-06, 'epoch': 1.52}
+{'eval_loss': 1.7763334512710571, 'eval_runtime': 11.6359, 'eval_samples_per_second': 51.565, 'eval_steps_per_second': 1.117, 'epoch': 1.52}
+{'loss': 1.4509, 'grad_norm': 2.2972519397735596, 'learning_rate': 3.759411362080767e-06, 'epoch': 1.52}
+{'loss': 1.4781, 'grad_norm': 2.2091867923736572, 'learning_rate': 3.7577002053388096e-06, 'epoch': 1.52}
+{'loss': 1.4324, 'grad_norm': 2.1776022911071777, 'learning_rate': 3.755989048596852e-06, 'epoch': 1.53}
+{'loss': 1.4463, 'grad_norm': 2.3188297748565674, 'learning_rate': 3.7542778918548944e-06, 'epoch': 1.53}
+{'loss': 1.4628, 'grad_norm': 2.3458802700042725, 'learning_rate': 3.752566735112937e-06, 'epoch': 1.53}
+{'loss': 1.4018, 'grad_norm': 2.470649003982544, 'learning_rate': 3.7508555783709792e-06, 'epoch': 1.53}
+{'loss': 1.4436, 'grad_norm': 2.321742534637451, 'learning_rate': 3.7491444216290214e-06, 'epoch': 1.53}
+{'loss': 1.4156, 'grad_norm': 2.261059284210205, 'learning_rate': 3.7474332648870636e-06, 'epoch': 1.54}
+{'loss': 1.4677, 'grad_norm': 2.432616710662842, 'learning_rate': 3.745722108145106e-06, 'epoch': 1.54}
+{'loss': 1.3984, 'grad_norm': 2.2051398754119873, 'learning_rate': 3.744010951403149e-06, 'epoch': 1.54}
+{'eval_loss': 1.771494746208191, 'eval_runtime': 11.606, 'eval_samples_per_second': 51.698, 'eval_steps_per_second': 1.12, 'epoch': 1.54}
+{'loss': 1.4825, 'grad_norm': 2.171435594558716, 'learning_rate': 3.742299794661191e-06, 'epoch': 1.54}
+{'loss': 1.4565, 'grad_norm': 2.4502968788146973, 'learning_rate': 3.7405886379192336e-06, 'epoch': 1.54}
+{'loss': 1.4145, 'grad_norm': 2.4153308868408203, 'learning_rate': 3.7388774811772762e-06, 'epoch': 1.55}
+{'loss': 1.4208, 'grad_norm': 2.3183798789978027, 'learning_rate': 3.7371663244353184e-06, 'epoch': 1.55}
+{'loss': 1.4486, 'grad_norm': 2.475538492202759, 'learning_rate': 3.735455167693361e-06, 'epoch': 1.55}
+{'loss': 1.4242, 'grad_norm': 2.2436676025390625, 'learning_rate': 3.733744010951403e-06, 'epoch': 1.55}
+{'loss': 1.4952, 'grad_norm': 2.447632074356079, 'learning_rate': 3.732032854209446e-06, 'epoch': 1.55}
+{'loss': 1.4324, 'grad_norm': 2.298612117767334, 'learning_rate': 3.7303216974674884e-06, 'epoch': 1.56}
+{'loss': 1.4353, 'grad_norm': 2.3413705825805664, 'learning_rate': 3.7286105407255306e-06, 'epoch': 1.56}
+{'loss': 1.4328, 'grad_norm': 2.347543716430664, 'learning_rate': 3.7268993839835732e-06, 'epoch': 1.56}
+{'eval_loss': 1.769453525543213, 'eval_runtime': 11.5095, 'eval_samples_per_second': 52.131, 'eval_steps_per_second': 1.129, 'epoch': 1.56}
+{'loss': 1.4328, 'grad_norm': 2.388371467590332, 'learning_rate': 3.725188227241616e-06, 'epoch': 1.56}
+{'loss': 1.4379, 'grad_norm': 2.209618091583252, 'learning_rate': 3.723477070499658e-06, 'epoch': 1.56}
+{'loss': 1.4236, 'grad_norm': 2.4354357719421387, 'learning_rate': 3.7217659137577006e-06, 'epoch': 1.57}
+{'loss': 1.4301, 'grad_norm': 2.223067283630371, 'learning_rate': 3.7200547570157432e-06, 'epoch': 1.57}
+{'loss': 1.4638, 'grad_norm': 2.3246212005615234, 'learning_rate': 3.7183436002737854e-06, 'epoch': 1.57}
+{'loss': 1.4474, 'grad_norm': 2.283050775527954, 'learning_rate': 3.716632443531828e-06, 'epoch': 1.57}
+{'loss': 1.442, 'grad_norm': 2.269613742828369, 'learning_rate': 3.7149212867898702e-06, 'epoch': 1.57}
+{'loss': 1.4211, 'grad_norm': 2.4597599506378174, 'learning_rate': 3.713210130047913e-06, 'epoch': 1.58}
+{'loss': 1.3942, 'grad_norm': 2.1419122219085693, 'learning_rate': 3.7114989733059554e-06, 'epoch': 1.58}
+{'loss': 1.4043, 'grad_norm': 2.3386833667755127, 'learning_rate': 3.7097878165639976e-06, 'epoch': 1.58}
+{'eval_loss': 1.7744439840316772, 'eval_runtime': 11.5805, 'eval_samples_per_second': 51.811, 'eval_steps_per_second': 1.123, 'epoch': 1.58}
+{'loss': 1.4154, 'grad_norm': 2.1929562091827393, 'learning_rate': 3.7080766598220402e-06, 'epoch': 1.58}
+{'loss': 1.4367, 'grad_norm': 2.2571499347686768, 'learning_rate': 3.706365503080083e-06, 'epoch': 1.59}
+{'loss': 1.4783, 'grad_norm': 2.36285662651062, 'learning_rate': 3.704654346338125e-06, 'epoch': 1.59}
+{'loss': 1.4365, 'grad_norm': 2.18274188041687, 'learning_rate': 3.7029431895961672e-06, 'epoch': 1.59}
+{'loss': 1.4693, 'grad_norm': 2.2884697914123535, 'learning_rate': 3.7012320328542094e-06, 'epoch': 1.59}
+{'loss': 1.444, 'grad_norm': 2.182384729385376, 'learning_rate': 3.699520876112252e-06, 'epoch': 1.59}
+{'loss': 1.4327, 'grad_norm': 2.2019760608673096, 'learning_rate': 3.6978097193702946e-06, 'epoch': 1.6}
+{'loss': 1.412, 'grad_norm': 2.2266929149627686, 'learning_rate': 3.696098562628337e-06, 'epoch': 1.6}
+{'loss': 1.408, 'grad_norm': 2.1965348720550537, 'learning_rate': 3.6943874058863794e-06, 'epoch': 1.6}
+{'loss': 1.3995, 'grad_norm': 2.2662105560302734, 'learning_rate': 3.6926762491444216e-06, 'epoch': 1.6}
+{'eval_loss': 1.7657490968704224, 'eval_runtime': 11.5955, 'eval_samples_per_second': 51.744, 'eval_steps_per_second': 1.121, 'epoch': 1.6}
+{'loss': 1.4842, 'grad_norm': 2.425295352935791, 'learning_rate': 3.6909650924024642e-06, 'epoch': 1.6}
+{'loss': 1.4228, 'grad_norm': 2.2835381031036377, 'learning_rate': 3.689253935660507e-06, 'epoch': 1.61}
+{'loss': 1.4296, 'grad_norm': 2.3447604179382324, 'learning_rate': 3.687542778918549e-06, 'epoch': 1.61}
+{'loss': 1.4412, 'grad_norm': 2.1681673526763916, 'learning_rate': 3.6858316221765916e-06, 'epoch': 1.61}
+{'loss': 1.4399, 'grad_norm': 2.3445041179656982, 'learning_rate': 3.6841204654346342e-06, 'epoch': 1.61}
+{'loss': 1.4402, 'grad_norm': 2.2734291553497314, 'learning_rate': 3.6824093086926764e-06, 'epoch': 1.61}
+{'loss': 1.4419, 'grad_norm': 2.4146857261657715, 'learning_rate': 3.680698151950719e-06, 'epoch': 1.62}
+{'loss': 1.4345, 'grad_norm': 2.3411002159118652, 'learning_rate': 3.6789869952087616e-06, 'epoch': 1.62}
+{'loss': 1.3935, 'grad_norm': 2.4402942657470703, 'learning_rate': 3.677275838466804e-06, 'epoch': 1.62}
+{'loss': 1.4315, 'grad_norm': 2.2425358295440674, 'learning_rate': 3.6755646817248464e-06, 'epoch': 1.62}
+{'eval_loss': 1.7788785696029663, 'eval_runtime': 11.6343, 'eval_samples_per_second': 51.572, 'eval_steps_per_second': 1.117, 'epoch': 1.62}
+{'loss': 1.4154, 'grad_norm': 2.246022939682007, 'learning_rate': 3.6738535249828886e-06, 'epoch': 1.62}
+{'loss': 1.4298, 'grad_norm': 2.3540756702423096, 'learning_rate': 3.6721423682409312e-06, 'epoch': 1.63}
+{'loss': 1.4337, 'grad_norm': 2.328195810317993, 'learning_rate': 3.670431211498974e-06, 'epoch': 1.63}
+{'loss': 1.4376, 'grad_norm': 2.212062358856201, 'learning_rate': 3.668720054757016e-06, 'epoch': 1.63}
+{'loss': 1.4252, 'grad_norm': 2.271205425262451, 'learning_rate': 3.6670088980150586e-06, 'epoch': 1.63}
+{'loss': 1.4599, 'grad_norm': 2.354555606842041, 'learning_rate': 3.6652977412731013e-06, 'epoch': 1.63}
+{'loss': 1.4353, 'grad_norm': 2.150892496109009, 'learning_rate': 3.6635865845311434e-06, 'epoch': 1.64}
+{'loss': 1.4111, 'grad_norm': 2.2853310108184814, 'learning_rate': 3.661875427789186e-06, 'epoch': 1.64}
+{'loss': 1.4284, 'grad_norm': 2.3999478816986084, 'learning_rate': 3.6601642710472287e-06, 'epoch': 1.64}
+{'loss': 1.4264, 'grad_norm': 2.245823383331299, 'learning_rate': 3.6584531143052704e-06, 'epoch': 1.64}
+{'eval_loss': 1.7620728015899658, 'eval_runtime': 11.6174, 'eval_samples_per_second': 51.647, 'eval_steps_per_second': 1.119, 'epoch': 1.64}
+{'loss': 1.4536, 'grad_norm': 2.2336220741271973, 'learning_rate': 3.656741957563313e-06, 'epoch': 1.64}
+{'loss': 1.4005, 'grad_norm': 2.3290202617645264, 'learning_rate': 3.6550308008213552e-06, 'epoch': 1.65}
+{'loss': 1.4322, 'grad_norm': 2.302954912185669, 'learning_rate': 3.653319644079398e-06, 'epoch': 1.65}
+{'loss': 1.4693, 'grad_norm': 2.4774832725524902, 'learning_rate': 3.65160848733744e-06, 'epoch': 1.65}
+{'loss': 1.461, 'grad_norm': 2.4262447357177734, 'learning_rate': 3.6498973305954826e-06, 'epoch': 1.65}
+{'loss': 1.4672, 'grad_norm': 2.283198833465576, 'learning_rate': 3.6481861738535252e-06, 'epoch': 1.66}
+{'loss': 1.4101, 'grad_norm': 2.3224682807922363, 'learning_rate': 3.6464750171115674e-06, 'epoch': 1.66}
+{'loss': 1.4091, 'grad_norm': 2.2784125804901123, 'learning_rate': 3.64476386036961e-06, 'epoch': 1.66}
+{'loss': 1.3746, 'grad_norm': 2.2328567504882812, 'learning_rate': 3.6430527036276526e-06, 'epoch': 1.66}
+{'loss': 1.3884, 'grad_norm': 2.2231333255767822, 'learning_rate': 3.641341546885695e-06, 'epoch': 1.66}
+{'eval_loss': 1.7734752893447876, 'eval_runtime': 11.6086, 'eval_samples_per_second': 51.686, 'eval_steps_per_second': 1.12, 'epoch': 1.66}
+{'loss': 1.4153, 'grad_norm': 2.4509053230285645, 'learning_rate': 3.6396303901437374e-06, 'epoch': 1.67}
+{'loss': 1.4783, 'grad_norm': 2.496730327606201, 'learning_rate': 3.63791923340178e-06, 'epoch': 1.67}
+{'loss': 1.4003, 'grad_norm': 2.329014539718628, 'learning_rate': 3.6362080766598222e-06, 'epoch': 1.67}
+{'loss': 1.4181, 'grad_norm': 2.3163042068481445, 'learning_rate': 3.634496919917865e-06, 'epoch': 1.67}
+{'loss': 1.4262, 'grad_norm': 2.255218505859375, 'learning_rate': 3.6327857631759075e-06, 'epoch': 1.67}
+{'loss': 1.4419, 'grad_norm': 2.322314977645874, 'learning_rate': 3.6310746064339496e-06, 'epoch': 1.68}
+{'loss': 1.413, 'grad_norm': 2.3110222816467285, 'learning_rate': 3.6293634496919923e-06, 'epoch': 1.68}
+{'loss': 1.4709, 'grad_norm': 2.237548589706421, 'learning_rate': 3.6276522929500344e-06, 'epoch': 1.68}
+{'loss': 1.4424, 'grad_norm': 2.2904534339904785, 'learning_rate': 3.625941136208077e-06, 'epoch': 1.68}
+{'loss': 1.4397, 'grad_norm': 2.1910507678985596, 'learning_rate': 3.6242299794661197e-06, 'epoch': 1.68}
+{'eval_loss': 1.759272813796997, 'eval_runtime': 11.6222, 'eval_samples_per_second': 51.625, 'eval_steps_per_second': 1.119, 'epoch': 1.68}
+{'loss': 1.3927, 'grad_norm': 2.22445011138916, 'learning_rate': 3.622518822724162e-06, 'epoch': 1.69}
+{'loss': 1.4266, 'grad_norm': 2.2279655933380127, 'learning_rate': 3.6208076659822045e-06, 'epoch': 1.69}
+{'loss': 1.394, 'grad_norm': 2.1142079830169678, 'learning_rate': 3.619096509240247e-06, 'epoch': 1.69}
+{'loss': 1.3739, 'grad_norm': 2.155757427215576, 'learning_rate': 3.6173853524982893e-06, 'epoch': 1.69}
+{'loss': 1.3804, 'grad_norm': 2.127319574356079, 'learning_rate': 3.615674195756332e-06, 'epoch': 1.69}
+{'loss': 1.4815, 'grad_norm': 2.373702049255371, 'learning_rate': 3.6139630390143745e-06, 'epoch': 1.7}
+{'loss': 1.4205, 'grad_norm': 2.346998929977417, 'learning_rate': 3.6122518822724162e-06, 'epoch': 1.7}
+{'loss': 1.4278, 'grad_norm': 2.306889057159424, 'learning_rate': 3.610540725530459e-06, 'epoch': 1.7}
+{'loss': 1.4319, 'grad_norm': 2.0900726318359375, 'learning_rate': 3.608829568788501e-06, 'epoch': 1.7}
+{'loss': 1.4345, 'grad_norm': 2.3961634635925293, 'learning_rate': 3.6071184120465436e-06, 'epoch': 1.7}
+{'eval_loss': 1.7605977058410645, 'eval_runtime': 11.6438, 'eval_samples_per_second': 51.529, 'eval_steps_per_second': 1.116, 'epoch': 1.7}
+{'loss': 1.4225, 'grad_norm': 2.1881070137023926, 'learning_rate': 3.605407255304586e-06, 'epoch': 1.71}
+{'loss': 1.3714, 'grad_norm': 2.168985605239868, 'learning_rate': 3.6036960985626284e-06, 'epoch': 1.71}
+{'loss': 1.4247, 'grad_norm': 2.403087615966797, 'learning_rate': 3.601984941820671e-06, 'epoch': 1.71}
+{'loss': 1.3907, 'grad_norm': 2.210871696472168, 'learning_rate': 3.6002737850787132e-06, 'epoch': 1.71}
+{'loss': 1.4131, 'grad_norm': 2.313176393508911, 'learning_rate': 3.598562628336756e-06, 'epoch': 1.71}
+{'loss': 1.44, 'grad_norm': 2.4227709770202637, 'learning_rate': 3.5968514715947985e-06, 'epoch': 1.72}
+{'loss': 1.4225, 'grad_norm': 2.2252135276794434, 'learning_rate': 3.5951403148528406e-06, 'epoch': 1.72}
+{'loss': 1.4167, 'grad_norm': 2.3200221061706543, 'learning_rate': 3.5934291581108833e-06, 'epoch': 1.72}
+{'loss': 1.4077, 'grad_norm': 2.2433669567108154, 'learning_rate': 3.591718001368926e-06, 'epoch': 1.72}
+{'loss': 1.4314, 'grad_norm': 2.3365490436553955, 'learning_rate': 3.590006844626968e-06, 'epoch': 1.72}
+{'eval_loss': 1.7636137008666992, 'eval_runtime': 11.6393, 'eval_samples_per_second': 51.55, 'eval_steps_per_second': 1.117, 'epoch': 1.72}
+{'loss': 1.4211, 'grad_norm': 2.3256187438964844, 'learning_rate': 3.5882956878850107e-06, 'epoch': 1.73}
+{'loss': 1.4391, 'grad_norm': 2.197289228439331, 'learning_rate': 3.586584531143053e-06, 'epoch': 1.73}
+{'loss': 1.4402, 'grad_norm': 2.2479372024536133, 'learning_rate': 3.5848733744010955e-06, 'epoch': 1.73}
+{'loss': 1.4008, 'grad_norm': 2.13162899017334, 'learning_rate': 3.583162217659138e-06, 'epoch': 1.73}
+{'loss': 1.4342, 'grad_norm': 2.414219856262207, 'learning_rate': 3.5814510609171803e-06, 'epoch': 1.74}
+{'loss': 1.4507, 'grad_norm': 2.340445041656494, 'learning_rate': 3.579739904175223e-06, 'epoch': 1.74}
+{'loss': 1.4449, 'grad_norm': 2.1618452072143555, 'learning_rate': 3.5780287474332655e-06, 'epoch': 1.74}
+{'loss': 1.4375, 'grad_norm': 2.3556575775146484, 'learning_rate': 3.5763175906913077e-06, 'epoch': 1.74}
+{'loss': 1.3968, 'grad_norm': 2.388371467590332, 'learning_rate': 3.5746064339493503e-06, 'epoch': 1.74}
+{'loss': 1.4344, 'grad_norm': 2.1740944385528564, 'learning_rate': 3.572895277207393e-06, 'epoch': 1.75}
+{'eval_loss': 1.7608968019485474, 'eval_runtime': 11.6381, 'eval_samples_per_second': 51.555, 'eval_steps_per_second': 1.117, 'epoch': 1.75}
+{'loss': 1.3996, 'grad_norm': 2.2133026123046875, 'learning_rate': 3.571184120465435e-06, 'epoch': 1.75}
+{'loss': 1.4298, 'grad_norm': 2.3938114643096924, 'learning_rate': 3.5694729637234777e-06, 'epoch': 1.75}
+{'loss': 1.4173, 'grad_norm': 2.1989691257476807, 'learning_rate': 3.5677618069815194e-06, 'epoch': 1.75}
+{'loss': 1.4195, 'grad_norm': 2.1931657791137695, 'learning_rate': 3.566050650239562e-06, 'epoch': 1.75}
+{'loss': 1.4274, 'grad_norm': 2.281829357147217, 'learning_rate': 3.5643394934976042e-06, 'epoch': 1.76}
+{'loss': 1.4167, 'grad_norm': 2.2495970726013184, 'learning_rate': 3.562628336755647e-06, 'epoch': 1.76}
+{'loss': 1.4303, 'grad_norm': 2.2168519496917725, 'learning_rate': 3.5609171800136895e-06, 'epoch': 1.76}
+{'loss': 1.46, 'grad_norm': 2.2641611099243164, 'learning_rate': 3.5592060232717316e-06, 'epoch': 1.76}
+{'loss': 1.451, 'grad_norm': 2.232858419418335, 'learning_rate': 3.5574948665297743e-06, 'epoch': 1.76}
+{'loss': 1.4324, 'grad_norm': 2.2511751651763916, 'learning_rate': 3.555783709787817e-06, 'epoch': 1.77}
+{'eval_loss': 1.7566890716552734, 'eval_runtime': 11.6331, 'eval_samples_per_second': 51.577, 'eval_steps_per_second': 1.117, 'epoch': 1.77}
+{'loss': 1.3963, 'grad_norm': 2.0832884311676025, 'learning_rate': 3.554072553045859e-06, 'epoch': 1.77}
+{'loss': 1.432, 'grad_norm': 2.2423951625823975, 'learning_rate': 3.5523613963039017e-06, 'epoch': 1.77}
+{'loss': 1.4193, 'grad_norm': 2.2254621982574463, 'learning_rate': 3.5506502395619443e-06, 'epoch': 1.77}
+{'loss': 1.3827, 'grad_norm': 2.2262911796569824, 'learning_rate': 3.5489390828199865e-06, 'epoch': 1.77}
+{'loss': 1.4373, 'grad_norm': 2.3145642280578613, 'learning_rate': 3.547227926078029e-06, 'epoch': 1.78}
+{'loss': 1.4208, 'grad_norm': 2.2722389698028564, 'learning_rate': 3.5455167693360717e-06, 'epoch': 1.78}
+{'loss': 1.4225, 'grad_norm': 2.2680864334106445, 'learning_rate': 3.543805612594114e-06, 'epoch': 1.78}
+{'loss': 1.4489, 'grad_norm': 2.2728536128997803, 'learning_rate': 3.5420944558521565e-06, 'epoch': 1.78}
+{'loss': 1.4269, 'grad_norm': 2.159151315689087, 'learning_rate': 3.5403832991101987e-06, 'epoch': 1.78}
+{'loss': 1.4343, 'grad_norm': 2.168245792388916, 'learning_rate': 3.5386721423682413e-06, 'epoch': 1.79}
+{'eval_loss': 1.7753039598464966, 'eval_runtime': 11.6442, 'eval_samples_per_second': 51.528, 'eval_steps_per_second': 1.116, 'epoch': 1.79}
+{'loss': 1.4181, 'grad_norm': 2.2494595050811768, 'learning_rate': 3.536960985626284e-06, 'epoch': 1.79}
+{'loss': 1.4522, 'grad_norm': 2.3491709232330322, 'learning_rate': 3.535249828884326e-06, 'epoch': 1.79}
+{'loss': 1.434, 'grad_norm': 2.253563165664673, 'learning_rate': 3.5335386721423687e-06, 'epoch': 1.79}
+{'loss': 1.4069, 'grad_norm': 2.0777978897094727, 'learning_rate': 3.5318275154004113e-06, 'epoch': 1.79}
+{'loss': 1.43, 'grad_norm': 2.3308393955230713, 'learning_rate': 3.5301163586584535e-06, 'epoch': 1.8}
+{'loss': 1.4106, 'grad_norm': 2.1785240173339844, 'learning_rate': 3.528405201916496e-06, 'epoch': 1.8}
+{'loss': 1.3987, 'grad_norm': 2.273529529571533, 'learning_rate': 3.5266940451745387e-06, 'epoch': 1.8}
+{'loss': 1.3629, 'grad_norm': 2.3012027740478516, 'learning_rate': 3.524982888432581e-06, 'epoch': 1.8}
+{'loss': 1.4248, 'grad_norm': 2.4237256050109863, 'learning_rate': 3.5232717316906235e-06, 'epoch': 1.8}
+{'loss': 1.379, 'grad_norm': 2.408766984939575, 'learning_rate': 3.5215605749486653e-06, 'epoch': 1.81}
+{'eval_loss': 1.7806185483932495, 'eval_runtime': 11.6146, 'eval_samples_per_second': 51.659, 'eval_steps_per_second': 1.119, 'epoch': 1.81}
+{'loss': 1.4331, 'grad_norm': 2.1830637454986572, 'learning_rate': 3.519849418206708e-06, 'epoch': 1.81}
+{'loss': 1.4278, 'grad_norm': 2.2539570331573486, 'learning_rate': 3.51813826146475e-06, 'epoch': 1.81}
+{'loss': 1.4435, 'grad_norm': 2.307788848876953, 'learning_rate': 3.5164271047227927e-06, 'epoch': 1.81}
+{'loss': 1.3735, 'grad_norm': 2.3621039390563965, 'learning_rate': 3.5147159479808353e-06, 'epoch': 1.82}
+{'loss': 1.4126, 'grad_norm': 2.336426258087158, 'learning_rate': 3.5130047912388775e-06, 'epoch': 1.82}
+{'loss': 1.4638, 'grad_norm': 2.5300300121307373, 'learning_rate': 3.51129363449692e-06, 'epoch': 1.82}
+{'loss': 1.4004, 'grad_norm': 2.3894259929656982, 'learning_rate': 3.5095824777549627e-06, 'epoch': 1.82}
+{'loss': 1.4216, 'grad_norm': 2.1513054370880127, 'learning_rate': 3.507871321013005e-06, 'epoch': 1.82}
+{'loss': 1.4187, 'grad_norm': 2.346377372741699, 'learning_rate': 3.5061601642710475e-06, 'epoch': 1.83}
+{'loss': 1.4018, 'grad_norm': 2.27793288230896, 'learning_rate': 3.50444900752909e-06, 'epoch': 1.83}
+{'eval_loss': 1.7823604345321655, 'eval_runtime': 11.6284, 'eval_samples_per_second': 51.598, 'eval_steps_per_second': 1.118, 'epoch': 1.83}
+{'loss': 1.3931, 'grad_norm': 2.2438087463378906, 'learning_rate': 3.5027378507871323e-06, 'epoch': 1.83}
+{'loss': 1.4569, 'grad_norm': 2.297549247741699, 'learning_rate': 3.501026694045175e-06, 'epoch': 1.83}
+{'loss': 1.3965, 'grad_norm': 2.331644058227539, 'learning_rate': 3.499315537303217e-06, 'epoch': 1.83}
+{'loss': 1.3916, 'grad_norm': 2.351383924484253, 'learning_rate': 3.4976043805612597e-06, 'epoch': 1.84}
+{'loss': 1.4038, 'grad_norm': 2.1991541385650635, 'learning_rate': 3.4958932238193023e-06, 'epoch': 1.84}
+{'loss': 1.418, 'grad_norm': 2.162966012954712, 'learning_rate': 3.4941820670773445e-06, 'epoch': 1.84}
+{'loss': 1.4164, 'grad_norm': 2.138962745666504, 'learning_rate': 3.492470910335387e-06, 'epoch': 1.84}
+{'loss': 1.4482, 'grad_norm': 2.379678249359131, 'learning_rate': 3.4907597535934297e-06, 'epoch': 1.84}
+{'loss': 1.4121, 'grad_norm': 2.242527723312378, 'learning_rate': 3.489048596851472e-06, 'epoch': 1.85}
+{'loss': 1.4299, 'grad_norm': 2.2632203102111816, 'learning_rate': 3.4873374401095145e-06, 'epoch': 1.85}
+{'eval_loss': 1.7856194972991943, 'eval_runtime': 11.6188, 'eval_samples_per_second': 51.641, 'eval_steps_per_second': 1.119, 'epoch': 1.85}
+{'loss': 1.4096, 'grad_norm': 2.2160699367523193, 'learning_rate': 3.485626283367557e-06, 'epoch': 1.85}
+{'loss': 1.4591, 'grad_norm': 2.161975383758545, 'learning_rate': 3.4839151266255993e-06, 'epoch': 1.85}
+{'loss': 1.4341, 'grad_norm': 2.155620813369751, 'learning_rate': 3.482203969883642e-06, 'epoch': 1.85}
+{'loss': 1.4213, 'grad_norm': 2.2040085792541504, 'learning_rate': 3.480492813141684e-06, 'epoch': 1.86}
+{'loss': 1.4036, 'grad_norm': 2.2272372245788574, 'learning_rate': 3.4787816563997267e-06, 'epoch': 1.86}
+{'loss': 1.4143, 'grad_norm': 2.3942301273345947, 'learning_rate': 3.4770704996577685e-06, 'epoch': 1.86}
+{'loss': 1.4489, 'grad_norm': 2.2935755252838135, 'learning_rate': 3.475359342915811e-06, 'epoch': 1.86}
+{'loss': 1.3725, 'grad_norm': 2.3696696758270264, 'learning_rate': 3.4736481861738537e-06, 'epoch': 1.86}
+{'loss': 1.4216, 'grad_norm': 2.2983901500701904, 'learning_rate': 3.471937029431896e-06, 'epoch': 1.87}
+{'loss': 1.4266, 'grad_norm': 2.195683240890503, 'learning_rate': 3.4702258726899385e-06, 'epoch': 1.87}
+{'eval_loss': 1.7755680084228516, 'eval_runtime': 11.48, 'eval_samples_per_second': 52.265, 'eval_steps_per_second': 1.132, 'epoch': 1.87}
+{'loss': 1.3912, 'grad_norm': 2.205817461013794, 'learning_rate': 3.468514715947981e-06, 'epoch': 1.87}
+{'loss': 1.4111, 'grad_norm': 2.2672228813171387, 'learning_rate': 3.4668035592060233e-06, 'epoch': 1.87}
+{'loss': 1.3851, 'grad_norm': 2.1224617958068848, 'learning_rate': 3.465092402464066e-06, 'epoch': 1.87}
+{'loss': 1.4289, 'grad_norm': 2.232109546661377, 'learning_rate': 3.4633812457221085e-06, 'epoch': 1.88}
+{'loss': 1.4478, 'grad_norm': 2.3824851512908936, 'learning_rate': 3.4616700889801507e-06, 'epoch': 1.88}
+{'loss': 1.4337, 'grad_norm': 2.2278008460998535, 'learning_rate': 3.4599589322381933e-06, 'epoch': 1.88}
+{'loss': 1.4411, 'grad_norm': 2.2200517654418945, 'learning_rate': 3.4582477754962355e-06, 'epoch': 1.88}
+{'loss': 1.4144, 'grad_norm': 2.176501750946045, 'learning_rate': 3.456536618754278e-06, 'epoch': 1.89}
+{'loss': 1.4732, 'grad_norm': 2.353591203689575, 'learning_rate': 3.4548254620123207e-06, 'epoch': 1.89}
+{'loss': 1.4178, 'grad_norm': 2.169912815093994, 'learning_rate': 3.453114305270363e-06, 'epoch': 1.89}
+{'eval_loss': 1.7744022607803345, 'eval_runtime': 11.5666, 'eval_samples_per_second': 51.873, 'eval_steps_per_second': 1.124, 'epoch': 1.89}
+{'loss': 1.4149, 'grad_norm': 2.3472509384155273, 'learning_rate': 3.4514031485284055e-06, 'epoch': 1.89}
+{'loss': 1.4273, 'grad_norm': 2.4318509101867676, 'learning_rate': 3.449691991786448e-06, 'epoch': 1.89}
+{'loss': 1.4265, 'grad_norm': 2.2548117637634277, 'learning_rate': 3.4479808350444903e-06, 'epoch': 1.9}
+{'loss': 1.4386, 'grad_norm': 2.2443957328796387, 'learning_rate': 3.446269678302533e-06, 'epoch': 1.9}
+{'loss': 1.4106, 'grad_norm': 2.282747745513916, 'learning_rate': 3.4445585215605755e-06, 'epoch': 1.9}
+{'loss': 1.3992, 'grad_norm': 2.2702155113220215, 'learning_rate': 3.4428473648186177e-06, 'epoch': 1.9}
+{'loss': 1.4031, 'grad_norm': 2.3145911693573, 'learning_rate': 3.4411362080766603e-06, 'epoch': 1.9}
+{'loss': 1.3843, 'grad_norm': 2.3454477787017822, 'learning_rate': 3.439425051334703e-06, 'epoch': 1.91}
+{'loss': 1.4114, 'grad_norm': 2.453127384185791, 'learning_rate': 3.437713894592745e-06, 'epoch': 1.91}
+{'loss': 1.371, 'grad_norm': 2.264212131500244, 'learning_rate': 3.4360027378507877e-06, 'epoch': 1.91}
+{'eval_loss': 1.775149941444397, 'eval_runtime': 11.5809, 'eval_samples_per_second': 51.81, 'eval_steps_per_second': 1.123, 'epoch': 1.91}
+{'loss': 1.4261, 'grad_norm': 2.4182655811309814, 'learning_rate': 3.43429158110883e-06, 'epoch': 1.91}
+{'loss': 1.405, 'grad_norm': 2.224426746368408, 'learning_rate': 3.4325804243668725e-06, 'epoch': 1.91}
+{'loss': 1.3933, 'grad_norm': 2.250466823577881, 'learning_rate': 3.4308692676249143e-06, 'epoch': 1.92}
+{'loss': 1.4404, 'grad_norm': 2.333447217941284, 'learning_rate': 3.429158110882957e-06, 'epoch': 1.92}
+{'loss': 1.415, 'grad_norm': 2.210472822189331, 'learning_rate': 3.4274469541409995e-06, 'epoch': 1.92}
+{'loss': 1.4072, 'grad_norm': 2.307088851928711, 'learning_rate': 3.4257357973990417e-06, 'epoch': 1.92}
+{'loss': 1.3737, 'grad_norm': 2.2714457511901855, 'learning_rate': 3.4240246406570843e-06, 'epoch': 1.92}
+{'loss': 1.3747, 'grad_norm': 2.2202658653259277, 'learning_rate': 3.422313483915127e-06, 'epoch': 1.93}
+{'loss': 1.3754, 'grad_norm': 2.1620218753814697, 'learning_rate': 3.420602327173169e-06, 'epoch': 1.93}
+{'loss': 1.4035, 'grad_norm': 2.2987194061279297, 'learning_rate': 3.4188911704312117e-06, 'epoch': 1.93}
+{'eval_loss': 1.7711668014526367, 'eval_runtime': 11.6154, 'eval_samples_per_second': 51.655, 'eval_steps_per_second': 1.119, 'epoch': 1.93}
+{'loss': 1.4171, 'grad_norm': 2.2602477073669434, 'learning_rate': 3.4171800136892543e-06, 'epoch': 1.93}
+{'loss': 1.4507, 'grad_norm': 2.2644741535186768, 'learning_rate': 3.4154688569472965e-06, 'epoch': 1.93}
+{'loss': 1.3879, 'grad_norm': 2.349761724472046, 'learning_rate': 3.413757700205339e-06, 'epoch': 1.94}
+{'loss': 1.4046, 'grad_norm': 2.2339792251586914, 'learning_rate': 3.4120465434633813e-06, 'epoch': 1.94}
+{'loss': 1.4173, 'grad_norm': 2.3930277824401855, 'learning_rate': 3.410335386721424e-06, 'epoch': 1.94}
+{'loss': 1.3876, 'grad_norm': 2.2566487789154053, 'learning_rate': 3.4086242299794665e-06, 'epoch': 1.94}
+{'loss': 1.41, 'grad_norm': 2.7102301120758057, 'learning_rate': 3.4069130732375087e-06, 'epoch': 1.94}
+{'loss': 1.4078, 'grad_norm': 2.4712917804718018, 'learning_rate': 3.4052019164955513e-06, 'epoch': 1.95}
+{'loss': 1.3724, 'grad_norm': 2.169640302658081, 'learning_rate': 3.403490759753594e-06, 'epoch': 1.95}
+{'loss': 1.4183, 'grad_norm': 2.3381285667419434, 'learning_rate': 3.401779603011636e-06, 'epoch': 1.95}
+{'eval_loss': 1.7663853168487549, 'eval_runtime': 11.6173, 'eval_samples_per_second': 51.647, 'eval_steps_per_second': 1.119, 'epoch': 1.95}
+{'loss': 1.4016, 'grad_norm': 2.298924684524536, 'learning_rate': 3.4000684462696787e-06, 'epoch': 1.95}
+{'loss': 1.4349, 'grad_norm': 2.1819796562194824, 'learning_rate': 3.3983572895277213e-06, 'epoch': 1.95}
+{'loss': 1.4441, 'grad_norm': 2.3638625144958496, 'learning_rate': 3.3966461327857635e-06, 'epoch': 1.96}
+{'loss': 1.4347, 'grad_norm': 2.5484564304351807, 'learning_rate': 3.394934976043806e-06, 'epoch': 1.96}
+{'loss': 1.3912, 'grad_norm': 2.2919063568115234, 'learning_rate': 3.3932238193018483e-06, 'epoch': 1.96}
+{'loss': 1.4414, 'grad_norm': 2.3968429565429688, 'learning_rate': 3.391512662559891e-06, 'epoch': 1.96}
+{'loss': 1.3939, 'grad_norm': 2.3580057621002197, 'learning_rate': 3.3898015058179335e-06, 'epoch': 1.97}
+{'loss': 1.3957, 'grad_norm': 2.390711784362793, 'learning_rate': 3.3880903490759757e-06, 'epoch': 1.97}
+{'loss': 1.372, 'grad_norm': 2.1078319549560547, 'learning_rate': 3.3863791923340183e-06, 'epoch': 1.97}
+{'loss': 1.3681, 'grad_norm': 2.2493789196014404, 'learning_rate': 3.38466803559206e-06, 'epoch': 1.97}
+{'eval_loss': 1.766924262046814, 'eval_runtime': 11.6225, 'eval_samples_per_second': 51.624, 'eval_steps_per_second': 1.119, 'epoch': 1.97}
+{'loss': 1.399, 'grad_norm': 2.4844768047332764, 'learning_rate': 3.3829568788501027e-06, 'epoch': 1.97}
+{'loss': 1.4331, 'grad_norm': 2.3190155029296875, 'learning_rate': 3.3812457221081453e-06, 'epoch': 1.98}
+{'loss': 1.4425, 'grad_norm': 2.3595163822174072, 'learning_rate': 3.3795345653661875e-06, 'epoch': 1.98}
+{'loss': 1.4069, 'grad_norm': 2.1954243183135986, 'learning_rate': 3.37782340862423e-06, 'epoch': 1.98}
+{'loss': 1.4158, 'grad_norm': 2.216975688934326, 'learning_rate': 3.3761122518822727e-06, 'epoch': 1.98}
+{'loss': 1.4454, 'grad_norm': 2.12713885307312, 'learning_rate': 3.374401095140315e-06, 'epoch': 1.98}
+{'loss': 1.4054, 'grad_norm': 2.163529872894287, 'learning_rate': 3.3726899383983575e-06, 'epoch': 1.99}
+{'loss': 1.4282, 'grad_norm': 2.359210252761841, 'learning_rate': 3.3709787816563997e-06, 'epoch': 1.99}
+{'loss': 1.3841, 'grad_norm': 2.1709883213043213, 'learning_rate': 3.3692676249144423e-06, 'epoch': 1.99}
+{'loss': 1.3902, 'grad_norm': 2.1250338554382324, 'learning_rate': 3.367556468172485e-06, 'epoch': 1.99}
+{'eval_loss': 1.7564582824707031, 'eval_runtime': 11.6267, 'eval_samples_per_second': 51.605, 'eval_steps_per_second': 1.118, 'epoch': 1.99}
+{'loss': 1.3796, 'grad_norm': 2.1165783405303955, 'learning_rate': 3.365845311430527e-06, 'epoch': 1.99}
+{'loss': 1.4138, 'grad_norm': 2.223935842514038, 'learning_rate': 3.3641341546885697e-06, 'epoch': 2.0}
+{'loss': 1.3975, 'grad_norm': 2.376500368118286, 'learning_rate': 3.3624229979466123e-06, 'epoch': 2.0}
+{'loss': 1.3587, 'grad_norm': 2.1331310272216797, 'learning_rate': 3.3607118412046545e-06, 'epoch': 2.0}
+{'loss': 1.3822, 'grad_norm': 2.5851848125457764, 'learning_rate': 3.359000684462697e-06, 'epoch': 2.0}
+{'loss': 1.3819, 'grad_norm': 2.5540764331817627, 'learning_rate': 3.3572895277207397e-06, 'epoch': 2.0}
+{'loss': 1.3783, 'grad_norm': 2.596517324447632, 'learning_rate': 3.355578370978782e-06, 'epoch': 2.01}
+{'loss': 1.3723, 'grad_norm': 2.4809985160827637, 'learning_rate': 3.3538672142368245e-06, 'epoch': 2.01}
+{'loss': 1.3598, 'grad_norm': 2.425917387008667, 'learning_rate': 3.352156057494867e-06, 'epoch': 2.01}
+{'loss': 1.3822, 'grad_norm': 2.701378345489502, 'learning_rate': 3.3504449007529093e-06, 'epoch': 2.01}
+{'eval_loss': 1.7639241218566895, 'eval_runtime': 11.6217, 'eval_samples_per_second': 51.627, 'eval_steps_per_second': 1.119, 'epoch': 2.01}
+{'loss': 1.3677, 'grad_norm': 2.5986168384552, 'learning_rate': 3.348733744010952e-06, 'epoch': 2.01}
+{'loss': 1.3833, 'grad_norm': 2.4069323539733887, 'learning_rate': 3.347022587268994e-06, 'epoch': 2.02}
+{'loss': 1.3658, 'grad_norm': 2.671300172805786, 'learning_rate': 3.3453114305270367e-06, 'epoch': 2.02}
+{'loss': 1.4009, 'grad_norm': 2.583096504211426, 'learning_rate': 3.3436002737850794e-06, 'epoch': 2.02}
+{'loss': 1.3837, 'grad_norm': 2.476691246032715, 'learning_rate': 3.3418891170431215e-06, 'epoch': 2.02}
+{'loss': 1.3637, 'grad_norm': 2.4767274856567383, 'learning_rate': 3.3401779603011637e-06, 'epoch': 2.02}
+{'loss': 1.3639, 'grad_norm': 2.522284746170044, 'learning_rate': 3.338466803559206e-06, 'epoch': 2.03}
+{'loss': 1.3656, 'grad_norm': 2.4341721534729004, 'learning_rate': 3.3367556468172485e-06, 'epoch': 2.03}
+{'loss': 1.3731, 'grad_norm': 2.494818687438965, 'learning_rate': 3.335044490075291e-06, 'epoch': 2.03}
+{'loss': 1.3557, 'grad_norm': 2.664118528366089, 'learning_rate': 3.3333333333333333e-06, 'epoch': 2.03}
+{'eval_loss': 1.7788832187652588, 'eval_runtime': 11.6441, 'eval_samples_per_second': 51.528, 'eval_steps_per_second': 1.116, 'epoch': 2.03}
+{'loss': 1.37, 'grad_norm': 2.5371267795562744, 'learning_rate': 3.331622176591376e-06, 'epoch': 2.03}
+{'loss': 1.3539, 'grad_norm': 2.560492515563965, 'learning_rate': 3.3299110198494185e-06, 'epoch': 2.04}
+{'loss': 1.3759, 'grad_norm': 2.4680635929107666, 'learning_rate': 3.3281998631074607e-06, 'epoch': 2.04}
+{'loss': 1.3631, 'grad_norm': 2.444999933242798, 'learning_rate': 3.3264887063655033e-06, 'epoch': 2.04}
+{'loss': 1.3576, 'grad_norm': 2.4736263751983643, 'learning_rate': 3.3247775496235455e-06, 'epoch': 2.04}
+{'loss': 1.3945, 'grad_norm': 2.488924741744995, 'learning_rate': 3.323066392881588e-06, 'epoch': 2.05}
+{'loss': 1.389, 'grad_norm': 2.4688117504119873, 'learning_rate': 3.3213552361396307e-06, 'epoch': 2.05}
+{'loss': 1.3535, 'grad_norm': 2.569322109222412, 'learning_rate': 3.319644079397673e-06, 'epoch': 2.05}
+{'loss': 1.3539, 'grad_norm': 2.6194541454315186, 'learning_rate': 3.3179329226557155e-06, 'epoch': 2.05}
+{'loss': 1.3693, 'grad_norm': 2.33579683303833, 'learning_rate': 3.316221765913758e-06, 'epoch': 2.05}
+{'eval_loss': 1.7660850286483765, 'eval_runtime': 11.6317, 'eval_samples_per_second': 51.583, 'eval_steps_per_second': 1.118, 'epoch': 2.05}
+{'loss': 1.3962, 'grad_norm': 2.4534831047058105, 'learning_rate': 3.3145106091718003e-06, 'epoch': 2.06}
+{'loss': 1.4022, 'grad_norm': 2.481081008911133, 'learning_rate': 3.312799452429843e-06, 'epoch': 2.06}
+{'loss': 1.3394, 'grad_norm': 2.6201016902923584, 'learning_rate': 3.3110882956878856e-06, 'epoch': 2.06}
+{'loss': 1.3791, 'grad_norm': 2.6058058738708496, 'learning_rate': 3.3093771389459277e-06, 'epoch': 2.06}
+{'loss': 1.3712, 'grad_norm': 2.658604383468628, 'learning_rate': 3.3076659822039704e-06, 'epoch': 2.06}
+{'loss': 1.3763, 'grad_norm': 2.489288091659546, 'learning_rate': 3.3059548254620125e-06, 'epoch': 2.07}
+{'loss': 1.4114, 'grad_norm': 2.5680463314056396, 'learning_rate': 3.304243668720055e-06, 'epoch': 2.07}
+{'loss': 1.3608, 'grad_norm': 2.545762538909912, 'learning_rate': 3.3025325119780978e-06, 'epoch': 2.07}
+{'loss': 1.3625, 'grad_norm': 2.6650915145874023, 'learning_rate': 3.30082135523614e-06, 'epoch': 2.07}
+{'loss': 1.3427, 'grad_norm': 2.523488759994507, 'learning_rate': 3.2991101984941826e-06, 'epoch': 2.07}
+{'eval_loss': 1.771518349647522, 'eval_runtime': 11.6176, 'eval_samples_per_second': 51.646, 'eval_steps_per_second': 1.119, 'epoch': 2.07}
+{'loss': 1.3951, 'grad_norm': 2.7104361057281494, 'learning_rate': 3.297399041752225e-06, 'epoch': 2.08}
+{'loss': 1.3709, 'grad_norm': 2.593031167984009, 'learning_rate': 3.2956878850102674e-06, 'epoch': 2.08}
+{'loss': 1.3555, 'grad_norm': 2.3994829654693604, 'learning_rate': 3.2939767282683095e-06, 'epoch': 2.08}
+{'loss': 1.3711, 'grad_norm': 2.6409661769866943, 'learning_rate': 3.2922655715263517e-06, 'epoch': 2.08}
+{'loss': 1.3791, 'grad_norm': 2.707056999206543, 'learning_rate': 3.2905544147843943e-06, 'epoch': 2.08}
+{'loss': 1.3583, 'grad_norm': 2.401503324508667, 'learning_rate': 3.288843258042437e-06, 'epoch': 2.09}
+{'loss': 1.382, 'grad_norm': 2.7607243061065674, 'learning_rate': 3.287132101300479e-06, 'epoch': 2.09}
+{'loss': 1.3664, 'grad_norm': 2.991008758544922, 'learning_rate': 3.2854209445585218e-06, 'epoch': 2.09}
+{'loss': 1.3542, 'grad_norm': 2.54465651512146, 'learning_rate': 3.283709787816564e-06, 'epoch': 2.09}
+{'loss': 1.383, 'grad_norm': 2.650094985961914, 'learning_rate': 3.2819986310746065e-06, 'epoch': 2.09}
+{'eval_loss': 1.771257758140564, 'eval_runtime': 11.5937, 'eval_samples_per_second': 51.752, 'eval_steps_per_second': 1.121, 'epoch': 2.09}
+{'loss': 1.3766, 'grad_norm': 2.78044056892395, 'learning_rate': 3.280287474332649e-06, 'epoch': 2.1}
+{'loss': 1.352, 'grad_norm': 2.5175299644470215, 'learning_rate': 3.2785763175906913e-06, 'epoch': 2.1}
+{'loss': 1.3684, 'grad_norm': 2.5651333332061768, 'learning_rate': 3.276865160848734e-06, 'epoch': 2.1}
+{'loss': 1.3597, 'grad_norm': 2.840108871459961, 'learning_rate': 3.2751540041067766e-06, 'epoch': 2.1}
+{'loss': 1.3857, 'grad_norm': 2.5889697074890137, 'learning_rate': 3.2734428473648188e-06, 'epoch': 2.1}
+{'loss': 1.3947, 'grad_norm': 2.6268317699432373, 'learning_rate': 3.2717316906228614e-06, 'epoch': 2.11}
+{'loss': 1.3769, 'grad_norm': 2.85054874420166, 'learning_rate': 3.270020533880904e-06, 'epoch': 2.11}
+{'loss': 1.3555, 'grad_norm': 2.394637107849121, 'learning_rate': 3.268309377138946e-06, 'epoch': 2.11}
+{'loss': 1.3645, 'grad_norm': 2.9438743591308594, 'learning_rate': 3.2665982203969888e-06, 'epoch': 2.11}
+{'loss': 1.3581, 'grad_norm': 2.568732738494873, 'learning_rate': 3.264887063655031e-06, 'epoch': 2.11}
+{'eval_loss': 1.7677632570266724, 'eval_runtime': 11.5858, 'eval_samples_per_second': 51.788, 'eval_steps_per_second': 1.122, 'epoch': 2.11}
+{'loss': 1.3799, 'grad_norm': 2.6055338382720947, 'learning_rate': 3.2631759069130736e-06, 'epoch': 2.12}
+{'loss': 1.3604, 'grad_norm': 2.756077766418457, 'learning_rate': 3.261464750171116e-06, 'epoch': 2.12}
+{'loss': 1.3754, 'grad_norm': 2.6617419719696045, 'learning_rate': 3.2597535934291584e-06, 'epoch': 2.12}
+{'loss': 1.3692, 'grad_norm': 2.3735315799713135, 'learning_rate': 3.258042436687201e-06, 'epoch': 2.12}
+{'loss': 1.3542, 'grad_norm': 2.4085192680358887, 'learning_rate': 3.2563312799452436e-06, 'epoch': 2.13}
+{'loss': 1.3439, 'grad_norm': 2.5167019367218018, 'learning_rate': 3.2546201232032858e-06, 'epoch': 2.13}
+{'loss': 1.3533, 'grad_norm': 2.3537752628326416, 'learning_rate': 3.2529089664613284e-06, 'epoch': 2.13}
+{'loss': 1.3587, 'grad_norm': 2.659919500350952, 'learning_rate': 3.251197809719371e-06, 'epoch': 2.13}
+{'loss': 1.3859, 'grad_norm': 2.5232222080230713, 'learning_rate': 3.2494866529774128e-06, 'epoch': 2.13}
+{'loss': 1.3604, 'grad_norm': 2.412668466567993, 'learning_rate': 3.2477754962354554e-06, 'epoch': 2.14}
+{'eval_loss': 1.7613790035247803, 'eval_runtime': 11.5835, 'eval_samples_per_second': 51.798, 'eval_steps_per_second': 1.122, 'epoch': 2.14}
+{'loss': 1.3891, 'grad_norm': 2.4923312664031982, 'learning_rate': 3.2460643394934975e-06, 'epoch': 2.14}
+{'loss': 1.3876, 'grad_norm': 2.523313283920288, 'learning_rate': 3.24435318275154e-06, 'epoch': 2.14}
+{'loss': 1.3838, 'grad_norm': 2.5601744651794434, 'learning_rate': 3.2426420260095823e-06, 'epoch': 2.14}
+{'loss': 1.3825, 'grad_norm': 2.4410595893859863, 'learning_rate': 3.240930869267625e-06, 'epoch': 2.14}
+{'loss': 1.3725, 'grad_norm': 2.406040668487549, 'learning_rate': 3.2392197125256676e-06, 'epoch': 2.15}
+{'loss': 1.3461, 'grad_norm': 2.5733144283294678, 'learning_rate': 3.2375085557837098e-06, 'epoch': 2.15}
+{'loss': 1.3834, 'grad_norm': 2.4870858192443848, 'learning_rate': 3.2357973990417524e-06, 'epoch': 2.15}
+{'loss': 1.3821, 'grad_norm': 2.4907662868499756, 'learning_rate': 3.234086242299795e-06, 'epoch': 2.15}
+{'loss': 1.3608, 'grad_norm': 2.4100842475891113, 'learning_rate': 3.232375085557837e-06, 'epoch': 2.15}
+{'loss': 1.3653, 'grad_norm': 2.5115411281585693, 'learning_rate': 3.2306639288158798e-06, 'epoch': 2.16}
+{'eval_loss': 1.7607775926589966, 'eval_runtime': 11.6048, 'eval_samples_per_second': 51.703, 'eval_steps_per_second': 1.12, 'epoch': 2.16}
+{'loss': 1.3492, 'grad_norm': 2.3163866996765137, 'learning_rate': 3.2289527720739224e-06, 'epoch': 2.16}
+{'loss': 1.3698, 'grad_norm': 2.3921234607696533, 'learning_rate': 3.2272416153319646e-06, 'epoch': 2.16}
+{'loss': 1.3825, 'grad_norm': 2.5423552989959717, 'learning_rate': 3.225530458590007e-06, 'epoch': 2.16}
+{'loss': 1.3513, 'grad_norm': 2.4217324256896973, 'learning_rate': 3.2238193018480498e-06, 'epoch': 2.16}
+{'loss': 1.3395, 'grad_norm': 2.525651693344116, 'learning_rate': 3.222108145106092e-06, 'epoch': 2.17}
+{'loss': 1.3597, 'grad_norm': 2.5479345321655273, 'learning_rate': 3.2203969883641346e-06, 'epoch': 2.17}
+{'loss': 1.3657, 'grad_norm': 2.4857230186462402, 'learning_rate': 3.2186858316221768e-06, 'epoch': 2.17}
+{'loss': 1.332, 'grad_norm': 2.492108106613159, 'learning_rate': 3.2169746748802194e-06, 'epoch': 2.17}
+{'loss': 1.3758, 'grad_norm': 2.4512879848480225, 'learning_rate': 3.215263518138262e-06, 'epoch': 2.17}
+{'loss': 1.3777, 'grad_norm': 2.3508694171905518, 'learning_rate': 3.213552361396304e-06, 'epoch': 2.18}
+{'eval_loss': 1.764711856842041, 'eval_runtime': 11.5092, 'eval_samples_per_second': 52.132, 'eval_steps_per_second': 1.13, 'epoch': 2.18}
+{'loss': 1.3561, 'grad_norm': 2.4136734008789062, 'learning_rate': 3.211841204654347e-06, 'epoch': 2.18}
+{'loss': 1.3777, 'grad_norm': 2.5835776329040527, 'learning_rate': 3.2101300479123894e-06, 'epoch': 2.18}
+{'loss': 1.3768, 'grad_norm': 2.591034173965454, 'learning_rate': 3.2084188911704316e-06, 'epoch': 2.18}
+{'loss': 1.3554, 'grad_norm': 2.5217764377593994, 'learning_rate': 3.206707734428474e-06, 'epoch': 2.18}
+{'loss': 1.3918, 'grad_norm': 2.5629115104675293, 'learning_rate': 3.204996577686517e-06, 'epoch': 2.19}
+{'loss': 1.3402, 'grad_norm': 2.486842632293701, 'learning_rate': 3.2032854209445586e-06, 'epoch': 2.19}
+{'loss': 1.3576, 'grad_norm': 2.4857659339904785, 'learning_rate': 3.201574264202601e-06, 'epoch': 2.19}
+{'loss': 1.3649, 'grad_norm': 2.427645206451416, 'learning_rate': 3.1998631074606434e-06, 'epoch': 2.19}
+{'loss': 1.3777, 'grad_norm': 2.4449872970581055, 'learning_rate': 3.198151950718686e-06, 'epoch': 2.2}
+{'loss': 1.3506, 'grad_norm': 2.3695290088653564, 'learning_rate': 3.196440793976728e-06, 'epoch': 2.2}
+{'eval_loss': 1.77446448802948, 'eval_runtime': 11.5155, 'eval_samples_per_second': 52.104, 'eval_steps_per_second': 1.129, 'epoch': 2.2}
+{'loss': 1.3884, 'grad_norm': 2.4602413177490234, 'learning_rate': 3.1947296372347708e-06, 'epoch': 2.2}
+{'loss': 1.3437, 'grad_norm': 2.2986233234405518, 'learning_rate': 3.1930184804928134e-06, 'epoch': 2.2}
+{'loss': 1.3715, 'grad_norm': 2.443958044052124, 'learning_rate': 3.1913073237508556e-06, 'epoch': 2.2}
+{'loss': 1.3543, 'grad_norm': 2.538703441619873, 'learning_rate': 3.189596167008898e-06, 'epoch': 2.21}
+{'loss': 1.3739, 'grad_norm': 2.4859507083892822, 'learning_rate': 3.187885010266941e-06, 'epoch': 2.21}
+{'loss': 1.3589, 'grad_norm': 2.6958086490631104, 'learning_rate': 3.186173853524983e-06, 'epoch': 2.21}
+{'loss': 1.3699, 'grad_norm': 2.5498857498168945, 'learning_rate': 3.1844626967830256e-06, 'epoch': 2.21}
+{'loss': 1.3756, 'grad_norm': 2.4859492778778076, 'learning_rate': 3.182751540041068e-06, 'epoch': 2.21}
+{'loss': 1.3423, 'grad_norm': 2.3958449363708496, 'learning_rate': 3.1810403832991104e-06, 'epoch': 2.22}
+{'loss': 1.3473, 'grad_norm': 2.5150766372680664, 'learning_rate': 3.179329226557153e-06, 'epoch': 2.22}
+{'eval_loss': 1.7697690725326538, 'eval_runtime': 11.5545, 'eval_samples_per_second': 51.928, 'eval_steps_per_second': 1.125, 'epoch': 2.22}
+{'loss': 1.3317, 'grad_norm': 2.378063440322876, 'learning_rate': 3.177618069815195e-06, 'epoch': 2.22}
+{'loss': 1.3951, 'grad_norm': 2.7232372760772705, 'learning_rate': 3.175906913073238e-06, 'epoch': 2.22}
+{'loss': 1.3447, 'grad_norm': 2.3973283767700195, 'learning_rate': 3.1741957563312804e-06, 'epoch': 2.22}
+{'loss': 1.3868, 'grad_norm': 2.650191307067871, 'learning_rate': 3.1724845995893226e-06, 'epoch': 2.23}
+{'loss': 1.391, 'grad_norm': 2.4490692615509033, 'learning_rate': 3.170773442847365e-06, 'epoch': 2.23}
+{'loss': 1.3698, 'grad_norm': 2.365626096725464, 'learning_rate': 3.169062286105408e-06, 'epoch': 2.23}
+{'loss': 1.3595, 'grad_norm': 2.474990129470825, 'learning_rate': 3.16735112936345e-06, 'epoch': 2.23}
+{'loss': 1.3574, 'grad_norm': 2.528156042098999, 'learning_rate': 3.1656399726214926e-06, 'epoch': 2.23}
+{'loss': 1.3698, 'grad_norm': 2.6544370651245117, 'learning_rate': 3.1639288158795352e-06, 'epoch': 2.24}
+{'loss': 1.3618, 'grad_norm': 2.6498849391937256, 'learning_rate': 3.1622176591375774e-06, 'epoch': 2.24}
+{'eval_loss': 1.7696349620819092, 'eval_runtime': 11.5728, 'eval_samples_per_second': 51.846, 'eval_steps_per_second': 1.123, 'epoch': 2.24}
+{'loss': 1.3806, 'grad_norm': 2.7174041271209717, 'learning_rate': 3.16050650239562e-06, 'epoch': 2.24}
+{'loss': 1.3812, 'grad_norm': 2.582704782485962, 'learning_rate': 3.1587953456536618e-06, 'epoch': 2.24}
+{'loss': 1.3367, 'grad_norm': 2.4857017993927, 'learning_rate': 3.1570841889117044e-06, 'epoch': 2.24}
+{'loss': 1.4029, 'grad_norm': 2.5170724391937256, 'learning_rate': 3.1553730321697466e-06, 'epoch': 2.25}
+{'loss': 1.3499, 'grad_norm': 2.431898593902588, 'learning_rate': 3.153661875427789e-06, 'epoch': 2.25}
+{'loss': 1.3429, 'grad_norm': 2.39713191986084, 'learning_rate': 3.151950718685832e-06, 'epoch': 2.25}
+{'loss': 1.3374, 'grad_norm': 2.4699180126190186, 'learning_rate': 3.150239561943874e-06, 'epoch': 2.25}
+{'loss': 1.3651, 'grad_norm': 2.5061511993408203, 'learning_rate': 3.1485284052019166e-06, 'epoch': 2.25}
+{'loss': 1.3746, 'grad_norm': 2.474813222885132, 'learning_rate': 3.146817248459959e-06, 'epoch': 2.26}
+{'loss': 1.3444, 'grad_norm': 2.533522844314575, 'learning_rate': 3.1451060917180014e-06, 'epoch': 2.26}
+{'eval_loss': 1.7638779878616333, 'eval_runtime': 11.5667, 'eval_samples_per_second': 51.873, 'eval_steps_per_second': 1.124, 'epoch': 2.26}
+{'loss': 1.3671, 'grad_norm': 2.530449151992798, 'learning_rate': 3.143394934976044e-06, 'epoch': 2.26}
+{'loss': 1.4085, 'grad_norm': 2.576878070831299, 'learning_rate': 3.1416837782340866e-06, 'epoch': 2.26}
+{'loss': 1.3499, 'grad_norm': 2.518306016921997, 'learning_rate': 3.139972621492129e-06, 'epoch': 2.26}
+{'loss': 1.3101, 'grad_norm': 2.508570432662964, 'learning_rate': 3.1382614647501714e-06, 'epoch': 2.27}
+{'loss': 1.381, 'grad_norm': 2.6416032314300537, 'learning_rate': 3.136550308008214e-06, 'epoch': 2.27}
+{'loss': 1.3705, 'grad_norm': 2.6227378845214844, 'learning_rate': 3.134839151266256e-06, 'epoch': 2.27}
+{'loss': 1.3816, 'grad_norm': 2.497049331665039, 'learning_rate': 3.133127994524299e-06, 'epoch': 2.27}
+{'loss': 1.3842, 'grad_norm': 2.494351863861084, 'learning_rate': 3.131416837782341e-06, 'epoch': 2.28}
+{'loss': 1.3354, 'grad_norm': 2.542330741882324, 'learning_rate': 3.1297056810403836e-06, 'epoch': 2.28}
+{'loss': 1.3884, 'grad_norm': 2.524447202682495, 'learning_rate': 3.1279945242984262e-06, 'epoch': 2.28}
+{'eval_loss': 1.7683203220367432, 'eval_runtime': 11.5706, 'eval_samples_per_second': 51.856, 'eval_steps_per_second': 1.124, 'epoch': 2.28}
+{'loss': 1.3517, 'grad_norm': 2.4291059970855713, 'learning_rate': 3.1262833675564684e-06, 'epoch': 2.28}
+{'loss': 1.3603, 'grad_norm': 2.59139347076416, 'learning_rate': 3.124572210814511e-06, 'epoch': 2.28}
+{'loss': 1.3911, 'grad_norm': 2.7964229583740234, 'learning_rate': 3.1228610540725536e-06, 'epoch': 2.29}
+{'loss': 1.3533, 'grad_norm': 2.54752516746521, 'learning_rate': 3.121149897330596e-06, 'epoch': 2.29}
+{'loss': 1.3579, 'grad_norm': 2.5532259941101074, 'learning_rate': 3.1194387405886384e-06, 'epoch': 2.29}
+{'loss': 1.3571, 'grad_norm': 2.4800283908843994, 'learning_rate': 3.117727583846681e-06, 'epoch': 2.29}
+{'loss': 1.3659, 'grad_norm': 2.541215658187866, 'learning_rate': 3.1160164271047232e-06, 'epoch': 2.29}
+{'loss': 1.3326, 'grad_norm': 2.400205373764038, 'learning_rate': 3.114305270362766e-06, 'epoch': 2.3}
+{'loss': 1.3833, 'grad_norm': 2.5882489681243896, 'learning_rate': 3.1125941136208076e-06, 'epoch': 2.3}
+{'loss': 1.3606, 'grad_norm': 2.54121470451355, 'learning_rate': 3.11088295687885e-06, 'epoch': 2.3}
+{'eval_loss': 1.7706258296966553, 'eval_runtime': 11.5631, 'eval_samples_per_second': 51.889, 'eval_steps_per_second': 1.124, 'epoch': 2.3}
+{'loss': 1.3387, 'grad_norm': 2.5311193466186523, 'learning_rate': 3.1091718001368924e-06, 'epoch': 2.3}
+{'loss': 1.3693, 'grad_norm': 2.707451343536377, 'learning_rate': 3.107460643394935e-06, 'epoch': 2.3}
+{'loss': 1.3772, 'grad_norm': 2.5633256435394287, 'learning_rate': 3.1057494866529776e-06, 'epoch': 2.31}
+{'loss': 1.3775, 'grad_norm': 2.569614887237549, 'learning_rate': 3.10403832991102e-06, 'epoch': 2.31}
+{'loss': 1.3546, 'grad_norm': 2.447829246520996, 'learning_rate': 3.1023271731690624e-06, 'epoch': 2.31}
+{'loss': 1.3381, 'grad_norm': 2.3799853324890137, 'learning_rate': 3.100616016427105e-06, 'epoch': 2.31}
+{'loss': 1.3499, 'grad_norm': 2.5856964588165283, 'learning_rate': 3.098904859685147e-06, 'epoch': 2.31}
+{'loss': 1.3917, 'grad_norm': 2.533864974975586, 'learning_rate': 3.09719370294319e-06, 'epoch': 2.32}
+{'loss': 1.3593, 'grad_norm': 2.4991631507873535, 'learning_rate': 3.0954825462012324e-06, 'epoch': 2.32}
+{'loss': 1.3487, 'grad_norm': 2.476003885269165, 'learning_rate': 3.0937713894592746e-06, 'epoch': 2.32}
+{'eval_loss': 1.782209038734436, 'eval_runtime': 11.5794, 'eval_samples_per_second': 51.816, 'eval_steps_per_second': 1.123, 'epoch': 2.32}
+{'loss': 1.361, 'grad_norm': 2.558267116546631, 'learning_rate': 3.0920602327173172e-06, 'epoch': 2.32}
+{'loss': 1.3731, 'grad_norm': 2.551238775253296, 'learning_rate': 3.0903490759753594e-06, 'epoch': 2.32}
+{'loss': 1.3777, 'grad_norm': 2.7182583808898926, 'learning_rate': 3.088637919233402e-06, 'epoch': 2.33}
+{'loss': 1.3449, 'grad_norm': 2.537245035171509, 'learning_rate': 3.0869267624914446e-06, 'epoch': 2.33}
+{'loss': 1.4197, 'grad_norm': 2.4837543964385986, 'learning_rate': 3.085215605749487e-06, 'epoch': 2.33}
+{'loss': 1.3762, 'grad_norm': 2.4230663776397705, 'learning_rate': 3.0835044490075294e-06, 'epoch': 2.33}
+{'loss': 1.358, 'grad_norm': 2.4376471042633057, 'learning_rate': 3.081793292265572e-06, 'epoch': 2.33}
+{'loss': 1.3855, 'grad_norm': 2.4776015281677246, 'learning_rate': 3.0800821355236142e-06, 'epoch': 2.34}
+{'loss': 1.4087, 'grad_norm': 2.4904944896698, 'learning_rate': 3.078370978781657e-06, 'epoch': 2.34}
+{'loss': 1.3699, 'grad_norm': 2.425251007080078, 'learning_rate': 3.0766598220396994e-06, 'epoch': 2.34}
+{'eval_loss': 1.7803804874420166, 'eval_runtime': 11.586, 'eval_samples_per_second': 51.787, 'eval_steps_per_second': 1.122, 'epoch': 2.34}
+{'loss': 1.4266, 'grad_norm': 2.582742214202881, 'learning_rate': 3.0749486652977416e-06, 'epoch': 2.34}
+{'loss': 1.3466, 'grad_norm': 2.446924924850464, 'learning_rate': 3.0732375085557842e-06, 'epoch': 2.34}
+{'loss': 1.3583, 'grad_norm': 2.517502546310425, 'learning_rate': 3.0715263518138264e-06, 'epoch': 2.35}
+{'loss': 1.3553, 'grad_norm': 2.352147102355957, 'learning_rate': 3.069815195071869e-06, 'epoch': 2.35}
+{'loss': 1.4181, 'grad_norm': 2.5360968112945557, 'learning_rate': 3.068104038329911e-06, 'epoch': 2.35}
+{'loss': 1.3477, 'grad_norm': 2.4210917949676514, 'learning_rate': 3.0663928815879534e-06, 'epoch': 2.35}
+{'loss': 1.3764, 'grad_norm': 2.515312910079956, 'learning_rate': 3.064681724845996e-06, 'epoch': 2.36}
+{'loss': 1.3643, 'grad_norm': 2.4714739322662354, 'learning_rate': 3.062970568104038e-06, 'epoch': 2.36}
+{'loss': 1.3838, 'grad_norm': 2.49517560005188, 'learning_rate': 3.061259411362081e-06, 'epoch': 2.36}
+{'loss': 1.3526, 'grad_norm': 2.444845199584961, 'learning_rate': 3.0595482546201234e-06, 'epoch': 2.36}
+{'eval_loss': 1.7706964015960693, 'eval_runtime': 11.5767, 'eval_samples_per_second': 51.828, 'eval_steps_per_second': 1.123, 'epoch': 2.36}
+{'loss': 1.3737, 'grad_norm': 2.5554521083831787, 'learning_rate': 3.0578370978781656e-06, 'epoch': 2.36}
+{'loss': 1.345, 'grad_norm': 2.5351386070251465, 'learning_rate': 3.0561259411362082e-06, 'epoch': 2.37}
+{'loss': 1.3343, 'grad_norm': 2.3879199028015137, 'learning_rate': 3.054414784394251e-06, 'epoch': 2.37}
+{'loss': 1.362, 'grad_norm': 2.5838403701782227, 'learning_rate': 3.052703627652293e-06, 'epoch': 2.37}
+{'loss': 1.3597, 'grad_norm': 2.5252437591552734, 'learning_rate': 3.0509924709103356e-06, 'epoch': 2.37}
+{'loss': 1.3612, 'grad_norm': 2.433387517929077, 'learning_rate': 3.049281314168378e-06, 'epoch': 2.37}
+{'loss': 1.3613, 'grad_norm': 2.4507880210876465, 'learning_rate': 3.0475701574264204e-06, 'epoch': 2.38}
+{'loss': 1.3473, 'grad_norm': 2.38696026802063, 'learning_rate': 3.045859000684463e-06, 'epoch': 2.38}
+{'loss': 1.3961, 'grad_norm': 2.531379461288452, 'learning_rate': 3.0441478439425052e-06, 'epoch': 2.38}
+{'loss': 1.3771, 'grad_norm': 2.397679567337036, 'learning_rate': 3.042436687200548e-06, 'epoch': 2.38}
+{'eval_loss': 1.7630212306976318, 'eval_runtime': 11.5923, 'eval_samples_per_second': 51.758, 'eval_steps_per_second': 1.121, 'epoch': 2.38}
+{'loss': 1.3652, 'grad_norm': 2.488981008529663, 'learning_rate': 3.0407255304585904e-06, 'epoch': 2.38}
+{'loss': 1.3501, 'grad_norm': 2.4620237350463867, 'learning_rate': 3.0390143737166326e-06, 'epoch': 2.39}
+{'loss': 1.3234, 'grad_norm': 2.4995696544647217, 'learning_rate': 3.0373032169746752e-06, 'epoch': 2.39}
+{'loss': 1.3975, 'grad_norm': 2.4508750438690186, 'learning_rate': 3.035592060232718e-06, 'epoch': 2.39}
+{'loss': 1.3684, 'grad_norm': 2.4398415088653564, 'learning_rate': 3.03388090349076e-06, 'epoch': 2.39}
+{'loss': 1.361, 'grad_norm': 2.4777400493621826, 'learning_rate': 3.0321697467488026e-06, 'epoch': 2.39}
+{'loss': 1.3406, 'grad_norm': 2.4078941345214844, 'learning_rate': 3.0304585900068453e-06, 'epoch': 2.4}
+{'loss': 1.3739, 'grad_norm': 2.410304307937622, 'learning_rate': 3.0287474332648874e-06, 'epoch': 2.4}
+{'loss': 1.3365, 'grad_norm': 2.4340133666992188, 'learning_rate': 3.02703627652293e-06, 'epoch': 2.4}
+{'loss': 1.3564, 'grad_norm': 2.5257551670074463, 'learning_rate': 3.0253251197809722e-06, 'epoch': 2.4}
+{'eval_loss': 1.7736289501190186, 'eval_runtime': 11.5883, 'eval_samples_per_second': 51.777, 'eval_steps_per_second': 1.122, 'epoch': 2.4}
+{'loss': 1.3482, 'grad_norm': 2.5906808376312256, 'learning_rate': 3.023613963039015e-06, 'epoch': 2.4}
+{'loss': 1.3766, 'grad_norm': 2.467195987701416, 'learning_rate': 3.0219028062970566e-06, 'epoch': 2.41}
+{'loss': 1.3662, 'grad_norm': 2.43856143951416, 'learning_rate': 3.0201916495550992e-06, 'epoch': 2.41}
+{'loss': 1.3831, 'grad_norm': 2.50258207321167, 'learning_rate': 3.018480492813142e-06, 'epoch': 2.41}
+{'loss': 1.3751, 'grad_norm': 2.5258066654205322, 'learning_rate': 3.016769336071184e-06, 'epoch': 2.41}
+{'loss': 1.3725, 'grad_norm': 2.530317544937134, 'learning_rate': 3.0150581793292266e-06, 'epoch': 2.41}
+{'loss': 1.3793, 'grad_norm': 2.503936767578125, 'learning_rate': 3.0133470225872692e-06, 'epoch': 2.42}
+{'loss': 1.331, 'grad_norm': 2.3533389568328857, 'learning_rate': 3.0116358658453114e-06, 'epoch': 2.42}
+{'loss': 1.3609, 'grad_norm': 2.5927581787109375, 'learning_rate': 3.009924709103354e-06, 'epoch': 2.42}
+{'loss': 1.3568, 'grad_norm': 2.429166793823242, 'learning_rate': 3.0082135523613966e-06, 'epoch': 2.42}
+{'eval_loss': 1.7795743942260742, 'eval_runtime': 11.5762, 'eval_samples_per_second': 51.831, 'eval_steps_per_second': 1.123, 'epoch': 2.42}
+{'loss': 1.3724, 'grad_norm': 2.4736409187316895, 'learning_rate': 3.006502395619439e-06, 'epoch': 2.43}
+{'loss': 1.3525, 'grad_norm': 2.6504437923431396, 'learning_rate': 3.0047912388774814e-06, 'epoch': 2.43}
+{'loss': 1.3495, 'grad_norm': 2.498298168182373, 'learning_rate': 3.0030800821355236e-06, 'epoch': 2.43}
+{'loss': 1.3518, 'grad_norm': 2.4629669189453125, 'learning_rate': 3.0013689253935662e-06, 'epoch': 2.43}
+{'loss': 1.3618, 'grad_norm': 2.525869607925415, 'learning_rate': 2.999657768651609e-06, 'epoch': 2.43}
+{'loss': 1.3515, 'grad_norm': 2.5070793628692627, 'learning_rate': 2.997946611909651e-06, 'epoch': 2.44}
+{'loss': 1.3533, 'grad_norm': 2.468106508255005, 'learning_rate': 2.9962354551676936e-06, 'epoch': 2.44}
+{'loss': 1.3583, 'grad_norm': 2.4970357418060303, 'learning_rate': 2.9945242984257363e-06, 'epoch': 2.44}
+{'loss': 1.3378, 'grad_norm': 2.364290475845337, 'learning_rate': 2.9928131416837784e-06, 'epoch': 2.44}
+{'loss': 1.3398, 'grad_norm': 2.427975654602051, 'learning_rate': 2.991101984941821e-06, 'epoch': 2.44}
+{'eval_loss': 1.7651312351226807, 'eval_runtime': 11.5709, 'eval_samples_per_second': 51.854, 'eval_steps_per_second': 1.124, 'epoch': 2.44}
+{'loss': 1.3296, 'grad_norm': 2.468817710876465, 'learning_rate': 2.9893908281998637e-06, 'epoch': 2.45}
+{'loss': 1.3513, 'grad_norm': 2.4174444675445557, 'learning_rate': 2.987679671457906e-06, 'epoch': 2.45}
+{'loss': 1.3419, 'grad_norm': 2.404268264770508, 'learning_rate': 2.9859685147159485e-06, 'epoch': 2.45}
+{'loss': 1.3685, 'grad_norm': 2.3805155754089355, 'learning_rate': 2.9842573579739906e-06, 'epoch': 2.45}
+{'loss': 1.3307, 'grad_norm': 2.3822426795959473, 'learning_rate': 2.9825462012320333e-06, 'epoch': 2.45}
+{'loss': 1.3782, 'grad_norm': 2.4539153575897217, 'learning_rate': 2.980835044490076e-06, 'epoch': 2.46}
+{'loss': 1.3477, 'grad_norm': 2.451490640640259, 'learning_rate': 2.979123887748118e-06, 'epoch': 2.46}
+{'loss': 1.3601, 'grad_norm': 2.567737102508545, 'learning_rate': 2.9774127310061607e-06, 'epoch': 2.46}
+{'loss': 1.3785, 'grad_norm': 2.6112890243530273, 'learning_rate': 2.9757015742642024e-06, 'epoch': 2.46}
+{'loss': 1.3087, 'grad_norm': 2.403359889984131, 'learning_rate': 2.973990417522245e-06, 'epoch': 2.46}
+{'eval_loss': 1.7702205181121826, 'eval_runtime': 11.5757, 'eval_samples_per_second': 51.833, 'eval_steps_per_second': 1.123, 'epoch': 2.46}
+{'loss': 1.3465, 'grad_norm': 2.5709097385406494, 'learning_rate': 2.9722792607802877e-06, 'epoch': 2.47}
+{'loss': 1.3402, 'grad_norm': 2.524007797241211, 'learning_rate': 2.97056810403833e-06, 'epoch': 2.47}
+{'loss': 1.3349, 'grad_norm': 2.461461067199707, 'learning_rate': 2.9688569472963724e-06, 'epoch': 2.47}
+{'loss': 1.376, 'grad_norm': 2.5013253688812256, 'learning_rate': 2.967145790554415e-06, 'epoch': 2.47}
+{'loss': 1.3614, 'grad_norm': 2.433253765106201, 'learning_rate': 2.9654346338124572e-06, 'epoch': 2.47}
+{'loss': 1.321, 'grad_norm': 2.520378351211548, 'learning_rate': 2.9637234770705e-06, 'epoch': 2.48}
+{'loss': 1.3239, 'grad_norm': 2.440293788909912, 'learning_rate': 2.962012320328542e-06, 'epoch': 2.48}
+{'loss': 1.3273, 'grad_norm': 2.6078052520751953, 'learning_rate': 2.9603011635865847e-06, 'epoch': 2.48}
+{'loss': 1.3615, 'grad_norm': 2.6393306255340576, 'learning_rate': 2.9585900068446273e-06, 'epoch': 2.48}
+{'loss': 1.3358, 'grad_norm': 2.3906314373016357, 'learning_rate': 2.9568788501026694e-06, 'epoch': 2.48}
+{'eval_loss': 1.764006495475769, 'eval_runtime': 11.4816, 'eval_samples_per_second': 52.257, 'eval_steps_per_second': 1.132, 'epoch': 2.48}
+{'loss': 1.3625, 'grad_norm': 2.6917002201080322, 'learning_rate': 2.955167693360712e-06, 'epoch': 2.49}
+{'loss': 1.3516, 'grad_norm': 2.7923688888549805, 'learning_rate': 2.9534565366187547e-06, 'epoch': 2.49}
+{'loss': 1.3674, 'grad_norm': 2.5583112239837646, 'learning_rate': 2.951745379876797e-06, 'epoch': 2.49}
+{'loss': 1.3926, 'grad_norm': 2.6741864681243896, 'learning_rate': 2.9500342231348395e-06, 'epoch': 2.49}
+{'loss': 1.3436, 'grad_norm': 2.5043632984161377, 'learning_rate': 2.948323066392882e-06, 'epoch': 2.49}
+{'loss': 1.3487, 'grad_norm': 2.4952385425567627, 'learning_rate': 2.9466119096509243e-06, 'epoch': 2.5}
+{'loss': 1.3438, 'grad_norm': 2.5862720012664795, 'learning_rate': 2.944900752908967e-06, 'epoch': 2.5}
+{'loss': 1.3526, 'grad_norm': 2.600130558013916, 'learning_rate': 2.9431895961670095e-06, 'epoch': 2.5}
+{'loss': 1.3655, 'grad_norm': 2.4855525493621826, 'learning_rate': 2.9414784394250517e-06, 'epoch': 2.5}
+{'loss': 1.3414, 'grad_norm': 2.544677972793579, 'learning_rate': 2.9397672826830943e-06, 'epoch': 2.51}
+{'eval_loss': 1.7695235013961792, 'eval_runtime': 11.5071, 'eval_samples_per_second': 52.142, 'eval_steps_per_second': 1.13, 'epoch': 2.51}
+{'loss': 1.3446, 'grad_norm': 2.4430129528045654, 'learning_rate': 2.9380561259411365e-06, 'epoch': 2.51}
+{'loss': 1.3353, 'grad_norm': 2.45611572265625, 'learning_rate': 2.936344969199179e-06, 'epoch': 2.51}
+{'loss': 1.3312, 'grad_norm': 2.524766206741333, 'learning_rate': 2.9346338124572217e-06, 'epoch': 2.51}
+{'loss': 1.3347, 'grad_norm': 2.45723295211792, 'learning_rate': 2.932922655715264e-06, 'epoch': 2.51}
+{'loss': 1.3766, 'grad_norm': 2.419518232345581, 'learning_rate': 2.931211498973306e-06, 'epoch': 2.52}
+{'loss': 1.3787, 'grad_norm': 2.4788265228271484, 'learning_rate': 2.9295003422313482e-06, 'epoch': 2.52}
+{'loss': 1.3871, 'grad_norm': 2.563088893890381, 'learning_rate': 2.927789185489391e-06, 'epoch': 2.52}
+{'loss': 1.3587, 'grad_norm': 2.3741495609283447, 'learning_rate': 2.9260780287474335e-06, 'epoch': 2.52}
+{'loss': 1.3616, 'grad_norm': 2.4398691654205322, 'learning_rate': 2.9243668720054757e-06, 'epoch': 2.52}
+{'loss': 1.3492, 'grad_norm': 2.4300167560577393, 'learning_rate': 2.9226557152635183e-06, 'epoch': 2.53}
+{'eval_loss': 1.7734012603759766, 'eval_runtime': 11.5437, 'eval_samples_per_second': 51.976, 'eval_steps_per_second': 1.126, 'epoch': 2.53}
+{'loss': 1.3589, 'grad_norm': 2.564903497695923, 'learning_rate': 2.920944558521561e-06, 'epoch': 2.53}
+{'loss': 1.3565, 'grad_norm': 2.497406482696533, 'learning_rate': 2.919233401779603e-06, 'epoch': 2.53}
+{'loss': 1.3813, 'grad_norm': 2.520266532897949, 'learning_rate': 2.9175222450376457e-06, 'epoch': 2.53}
+{'loss': 1.353, 'grad_norm': 2.4078140258789062, 'learning_rate': 2.915811088295688e-06, 'epoch': 2.53}
+{'loss': 1.3424, 'grad_norm': 2.5639328956604004, 'learning_rate': 2.9140999315537305e-06, 'epoch': 2.54}
+{'loss': 1.3365, 'grad_norm': 2.469717502593994, 'learning_rate': 2.912388774811773e-06, 'epoch': 2.54}
+{'loss': 1.3489, 'grad_norm': 2.4738714694976807, 'learning_rate': 2.9106776180698153e-06, 'epoch': 2.54}
+{'loss': 1.3304, 'grad_norm': 2.4395029544830322, 'learning_rate': 2.908966461327858e-06, 'epoch': 2.54}
+{'loss': 1.3572, 'grad_norm': 2.3725266456604004, 'learning_rate': 2.9072553045859005e-06, 'epoch': 2.54}
+{'loss': 1.3717, 'grad_norm': 2.457792043685913, 'learning_rate': 2.9055441478439427e-06, 'epoch': 2.55}
+{'eval_loss': 1.776686191558838, 'eval_runtime': 11.5604, 'eval_samples_per_second': 51.901, 'eval_steps_per_second': 1.125, 'epoch': 2.55}
+{'loss': 1.3272, 'grad_norm': 2.5266151428222656, 'learning_rate': 2.9038329911019853e-06, 'epoch': 2.55}
+{'loss': 1.3481, 'grad_norm': 2.3777103424072266, 'learning_rate': 2.902121834360028e-06, 'epoch': 2.55}
+{'loss': 1.3641, 'grad_norm': 2.417597532272339, 'learning_rate': 2.90041067761807e-06, 'epoch': 2.55}
+{'loss': 1.3419, 'grad_norm': 2.4576525688171387, 'learning_rate': 2.8986995208761127e-06, 'epoch': 2.55}
+{'loss': 1.3656, 'grad_norm': 2.4429781436920166, 'learning_rate': 2.896988364134155e-06, 'epoch': 2.56}
+{'loss': 1.3404, 'grad_norm': 2.456735134124756, 'learning_rate': 2.8952772073921975e-06, 'epoch': 2.56}
+{'loss': 1.3333, 'grad_norm': 2.4309635162353516, 'learning_rate': 2.89356605065024e-06, 'epoch': 2.56}
+{'loss': 1.3553, 'grad_norm': 2.519827127456665, 'learning_rate': 2.8918548939082823e-06, 'epoch': 2.56}
+{'loss': 1.3409, 'grad_norm': 2.4232304096221924, 'learning_rate': 2.890143737166325e-06, 'epoch': 2.56}
+{'loss': 1.3562, 'grad_norm': 2.4753518104553223, 'learning_rate': 2.8884325804243675e-06, 'epoch': 2.57}
+{'eval_loss': 1.7862448692321777, 'eval_runtime': 11.5755, 'eval_samples_per_second': 51.833, 'eval_steps_per_second': 1.123, 'epoch': 2.57}
+{'loss': 1.3926, 'grad_norm': 2.5833754539489746, 'learning_rate': 2.8867214236824097e-06, 'epoch': 2.57}
+{'loss': 1.3674, 'grad_norm': 2.3768651485443115, 'learning_rate': 2.885010266940452e-06, 'epoch': 2.57}
+{'loss': 1.3778, 'grad_norm': 2.6163227558135986, 'learning_rate': 2.883299110198494e-06, 'epoch': 2.57}
+{'loss': 1.3441, 'grad_norm': 2.5384573936462402, 'learning_rate': 2.8815879534565367e-06, 'epoch': 2.57}
+{'loss': 1.3483, 'grad_norm': 2.488598108291626, 'learning_rate': 2.8798767967145793e-06, 'epoch': 2.58}
+{'loss': 1.3628, 'grad_norm': 2.4155826568603516, 'learning_rate': 2.8781656399726215e-06, 'epoch': 2.58}
+{'loss': 1.357, 'grad_norm': 2.5575811862945557, 'learning_rate': 2.876454483230664e-06, 'epoch': 2.58}
+{'loss': 1.3278, 'grad_norm': 2.5386602878570557, 'learning_rate': 2.8747433264887063e-06, 'epoch': 2.58}
+{'loss': 1.372, 'grad_norm': 2.46720814704895, 'learning_rate': 2.873032169746749e-06, 'epoch': 2.59}
+{'loss': 1.332, 'grad_norm': 2.451092481613159, 'learning_rate': 2.8713210130047915e-06, 'epoch': 2.59}
+{'eval_loss': 1.7714736461639404, 'eval_runtime': 11.5768, 'eval_samples_per_second': 51.828, 'eval_steps_per_second': 1.123, 'epoch': 2.59}
+{'loss': 1.3468, 'grad_norm': 2.4053218364715576, 'learning_rate': 2.8696098562628337e-06, 'epoch': 2.59}
+{'loss': 1.3742, 'grad_norm': 2.4119253158569336, 'learning_rate': 2.8678986995208763e-06, 'epoch': 2.59}
+{'loss': 1.3503, 'grad_norm': 2.4926650524139404, 'learning_rate': 2.866187542778919e-06, 'epoch': 2.59}
+{'loss': 1.3585, 'grad_norm': 2.659442901611328, 'learning_rate': 2.864476386036961e-06, 'epoch': 2.6}
+{'loss': 1.3779, 'grad_norm': 2.42366361618042, 'learning_rate': 2.8627652292950037e-06, 'epoch': 2.6}
+{'loss': 1.3663, 'grad_norm': 2.522613525390625, 'learning_rate': 2.8610540725530463e-06, 'epoch': 2.6}
+{'loss': 1.3567, 'grad_norm': 2.4513511657714844, 'learning_rate': 2.8593429158110885e-06, 'epoch': 2.6}
+{'loss': 1.3805, 'grad_norm': 2.5798959732055664, 'learning_rate': 2.857631759069131e-06, 'epoch': 2.6}
+{'loss': 1.3011, 'grad_norm': 2.400723457336426, 'learning_rate': 2.8559206023271737e-06, 'epoch': 2.61}
+{'loss': 1.3372, 'grad_norm': 2.5293729305267334, 'learning_rate': 2.854209445585216e-06, 'epoch': 2.61}
+{'eval_loss': 1.7720164060592651, 'eval_runtime': 11.5725, 'eval_samples_per_second': 51.847, 'eval_steps_per_second': 1.123, 'epoch': 2.61}
+{'loss': 1.3435, 'grad_norm': 2.591106414794922, 'learning_rate': 2.8524982888432585e-06, 'epoch': 2.61}
+{'loss': 1.3557, 'grad_norm': 2.4446425437927246, 'learning_rate': 2.8507871321013007e-06, 'epoch': 2.61}
+{'loss': 1.3418, 'grad_norm': 2.343417167663574, 'learning_rate': 2.8490759753593433e-06, 'epoch': 2.61}
+{'loss': 1.3679, 'grad_norm': 2.6073060035705566, 'learning_rate': 2.847364818617386e-06, 'epoch': 2.62}
+{'loss': 1.3058, 'grad_norm': 2.324256658554077, 'learning_rate': 2.845653661875428e-06, 'epoch': 2.62}
+{'loss': 1.3444, 'grad_norm': 2.4736104011535645, 'learning_rate': 2.8439425051334707e-06, 'epoch': 2.62}
+{'loss': 1.3167, 'grad_norm': 2.488222122192383, 'learning_rate': 2.8422313483915133e-06, 'epoch': 2.62}
+{'loss': 1.3382, 'grad_norm': 2.4371774196624756, 'learning_rate': 2.840520191649555e-06, 'epoch': 2.62}
+{'loss': 1.3451, 'grad_norm': 2.4595742225646973, 'learning_rate': 2.8388090349075977e-06, 'epoch': 2.63}
+{'loss': 1.3925, 'grad_norm': 2.4658052921295166, 'learning_rate': 2.83709787816564e-06, 'epoch': 2.63}
+{'eval_loss': 1.7720963954925537, 'eval_runtime': 11.582, 'eval_samples_per_second': 51.805, 'eval_steps_per_second': 1.122, 'epoch': 2.63}
+{'loss': 1.3801, 'grad_norm': 2.5075082778930664, 'learning_rate': 2.8353867214236825e-06, 'epoch': 2.63}
+{'loss': 1.3367, 'grad_norm': 2.5808510780334473, 'learning_rate': 2.833675564681725e-06, 'epoch': 2.63}
+{'loss': 1.3235, 'grad_norm': 2.545173406600952, 'learning_rate': 2.8319644079397673e-06, 'epoch': 2.63}
+{'loss': 1.3264, 'grad_norm': 2.414867639541626, 'learning_rate': 2.83025325119781e-06, 'epoch': 2.64}
+{'loss': 1.3811, 'grad_norm': 2.628617286682129, 'learning_rate': 2.828542094455852e-06, 'epoch': 2.64}
+{'loss': 1.3773, 'grad_norm': 2.666376829147339, 'learning_rate': 2.8268309377138947e-06, 'epoch': 2.64}
+{'loss': 1.3728, 'grad_norm': 2.5792555809020996, 'learning_rate': 2.8251197809719373e-06, 'epoch': 2.64}
+{'loss': 1.3524, 'grad_norm': 2.6896486282348633, 'learning_rate': 2.8234086242299795e-06, 'epoch': 2.64}
+{'loss': 1.3655, 'grad_norm': 2.5426502227783203, 'learning_rate': 2.821697467488022e-06, 'epoch': 2.65}
+{'loss': 1.3644, 'grad_norm': 2.4390616416931152, 'learning_rate': 2.8199863107460647e-06, 'epoch': 2.65}
+{'eval_loss': 1.7696728706359863, 'eval_runtime': 11.5936, 'eval_samples_per_second': 51.753, 'eval_steps_per_second': 1.121, 'epoch': 2.65}
+{'loss': 1.3602, 'grad_norm': 2.650113582611084, 'learning_rate': 2.818275154004107e-06, 'epoch': 2.65}
+{'loss': 1.3706, 'grad_norm': 2.5571365356445312, 'learning_rate': 2.8165639972621495e-06, 'epoch': 2.65}
+{'loss': 1.3429, 'grad_norm': 2.5281333923339844, 'learning_rate': 2.814852840520192e-06, 'epoch': 2.66}
+{'loss': 1.3828, 'grad_norm': 2.5410375595092773, 'learning_rate': 2.8131416837782343e-06, 'epoch': 2.66}
+{'loss': 1.3584, 'grad_norm': 2.418409824371338, 'learning_rate': 2.811430527036277e-06, 'epoch': 2.66}
+{'loss': 1.3171, 'grad_norm': 2.406165838241577, 'learning_rate': 2.809719370294319e-06, 'epoch': 2.66}
+{'loss': 1.372, 'grad_norm': 2.426327705383301, 'learning_rate': 2.8080082135523617e-06, 'epoch': 2.66}
+{'loss': 1.353, 'grad_norm': 2.445141553878784, 'learning_rate': 2.8062970568104043e-06, 'epoch': 2.67}
+{'loss': 1.3724, 'grad_norm': 2.3591837882995605, 'learning_rate': 2.8045859000684465e-06, 'epoch': 2.67}
+{'loss': 1.3514, 'grad_norm': 2.5397684574127197, 'learning_rate': 2.802874743326489e-06, 'epoch': 2.67}
+{'eval_loss': 1.7846118211746216, 'eval_runtime': 11.6065, 'eval_samples_per_second': 51.695, 'eval_steps_per_second': 1.12, 'epoch': 2.67}
+{'loss': 1.3479, 'grad_norm': 2.5374526977539062, 'learning_rate': 2.8011635865845317e-06, 'epoch': 2.67}
+{'loss': 1.3739, 'grad_norm': 2.450378179550171, 'learning_rate': 2.799452429842574e-06, 'epoch': 2.67}
+{'loss': 1.3376, 'grad_norm': 2.617231845855713, 'learning_rate': 2.7977412731006165e-06, 'epoch': 2.68}
+{'loss': 1.4075, 'grad_norm': 2.6405324935913086, 'learning_rate': 2.796030116358659e-06, 'epoch': 2.68}
+{'loss': 1.3548, 'grad_norm': 2.4596590995788574, 'learning_rate': 2.794318959616701e-06, 'epoch': 2.68}
+{'loss': 1.3215, 'grad_norm': 2.3692774772644043, 'learning_rate': 2.7926078028747435e-06, 'epoch': 2.68}
+{'loss': 1.3916, 'grad_norm': 2.588099956512451, 'learning_rate': 2.7908966461327857e-06, 'epoch': 2.68}
+{'loss': 1.3514, 'grad_norm': 2.517725944519043, 'learning_rate': 2.7891854893908283e-06, 'epoch': 2.69}
+{'loss': 1.3633, 'grad_norm': 2.561737298965454, 'learning_rate': 2.7874743326488705e-06, 'epoch': 2.69}
+{'loss': 1.4019, 'grad_norm': 2.6385135650634766, 'learning_rate': 2.785763175906913e-06, 'epoch': 2.69}
+{'eval_loss': 1.7877445220947266, 'eval_runtime': 11.5873, 'eval_samples_per_second': 51.781, 'eval_steps_per_second': 1.122, 'epoch': 2.69}
+{'loss': 1.3424, 'grad_norm': 2.560776948928833, 'learning_rate': 2.7840520191649557e-06, 'epoch': 2.69}
+{'loss': 1.3389, 'grad_norm': 2.512800455093384, 'learning_rate': 2.782340862422998e-06, 'epoch': 2.69}
+{'loss': 1.3551, 'grad_norm': 2.5367136001586914, 'learning_rate': 2.7806297056810405e-06, 'epoch': 2.7}
+{'loss': 1.3462, 'grad_norm': 2.449399709701538, 'learning_rate': 2.778918548939083e-06, 'epoch': 2.7}
+{'loss': 1.3898, 'grad_norm': 2.5860249996185303, 'learning_rate': 2.7772073921971253e-06, 'epoch': 2.7}
+{'loss': 1.3484, 'grad_norm': 2.4533541202545166, 'learning_rate': 2.775496235455168e-06, 'epoch': 2.7}
+{'loss': 1.3091, 'grad_norm': 2.4059829711914062, 'learning_rate': 2.7737850787132105e-06, 'epoch': 2.7}
+{'loss': 1.3705, 'grad_norm': 2.568514108657837, 'learning_rate': 2.7720739219712527e-06, 'epoch': 2.71}
+{'loss': 1.3863, 'grad_norm': 2.7473063468933105, 'learning_rate': 2.7703627652292953e-06, 'epoch': 2.71}
+{'loss': 1.3416, 'grad_norm': 2.548785448074341, 'learning_rate': 2.7686516084873375e-06, 'epoch': 2.71}
+{'eval_loss': 1.7691737413406372, 'eval_runtime': 11.5811, 'eval_samples_per_second': 51.808, 'eval_steps_per_second': 1.123, 'epoch': 2.71}
+{'loss': 1.3383, 'grad_norm': 2.5113394260406494, 'learning_rate': 2.76694045174538e-06, 'epoch': 2.71}
+{'loss': 1.3479, 'grad_norm': 2.578303575515747, 'learning_rate': 2.7652292950034227e-06, 'epoch': 2.71}
+{'loss': 1.3633, 'grad_norm': 2.473694324493408, 'learning_rate': 2.763518138261465e-06, 'epoch': 2.72}
+{'loss': 1.3473, 'grad_norm': 2.4937918186187744, 'learning_rate': 2.7618069815195075e-06, 'epoch': 2.72}
+{'loss': 1.3961, 'grad_norm': 2.6346096992492676, 'learning_rate': 2.76009582477755e-06, 'epoch': 2.72}
+{'loss': 1.3505, 'grad_norm': 2.478278160095215, 'learning_rate': 2.7583846680355923e-06, 'epoch': 2.72}
+{'loss': 1.3901, 'grad_norm': 2.5455563068389893, 'learning_rate': 2.756673511293635e-06, 'epoch': 2.72}
+{'loss': 1.3704, 'grad_norm': 2.666929244995117, 'learning_rate': 2.7549623545516775e-06, 'epoch': 2.73}
+{'loss': 1.3439, 'grad_norm': 2.5228431224823, 'learning_rate': 2.7532511978097197e-06, 'epoch': 2.73}
+{'loss': 1.3674, 'grad_norm': 2.5560154914855957, 'learning_rate': 2.7515400410677623e-06, 'epoch': 2.73}
+{'eval_loss': 1.7685123682022095, 'eval_runtime': 11.5859, 'eval_samples_per_second': 51.787, 'eval_steps_per_second': 1.122, 'epoch': 2.73}
+{'loss': 1.3482, 'grad_norm': 2.4861652851104736, 'learning_rate': 2.749828884325804e-06, 'epoch': 2.73}
+{'loss': 1.3256, 'grad_norm': 2.466407299041748, 'learning_rate': 2.7481177275838467e-06, 'epoch': 2.74}
+{'loss': 1.3613, 'grad_norm': 2.498523473739624, 'learning_rate': 2.746406570841889e-06, 'epoch': 2.74}
+{'loss': 1.3602, 'grad_norm': 2.5910348892211914, 'learning_rate': 2.7446954140999315e-06, 'epoch': 2.74}
+{'loss': 1.3249, 'grad_norm': 2.4873130321502686, 'learning_rate': 2.742984257357974e-06, 'epoch': 2.74}
+{'loss': 1.3529, 'grad_norm': 2.456397294998169, 'learning_rate': 2.7412731006160163e-06, 'epoch': 2.74}
+{'loss': 1.3697, 'grad_norm': 2.491553783416748, 'learning_rate': 2.739561943874059e-06, 'epoch': 2.75}
+{'loss': 1.369, 'grad_norm': 2.453763484954834, 'learning_rate': 2.7378507871321015e-06, 'epoch': 2.75}
+{'loss': 1.3902, 'grad_norm': 2.4803314208984375, 'learning_rate': 2.7361396303901437e-06, 'epoch': 2.75}
+{'loss': 1.343, 'grad_norm': 2.4581663608551025, 'learning_rate': 2.7344284736481863e-06, 'epoch': 2.75}
+{'eval_loss': 1.7545937299728394, 'eval_runtime': 11.5934, 'eval_samples_per_second': 51.754, 'eval_steps_per_second': 1.121, 'epoch': 2.75}
+{'loss': 1.3417, 'grad_norm': 2.4518890380859375, 'learning_rate': 2.732717316906229e-06, 'epoch': 2.75}
+{'loss': 1.338, 'grad_norm': 2.4030187129974365, 'learning_rate': 2.731006160164271e-06, 'epoch': 2.76}
+{'loss': 1.3555, 'grad_norm': 2.621434211730957, 'learning_rate': 2.7292950034223137e-06, 'epoch': 2.76}
+{'loss': 1.3711, 'grad_norm': 2.4962897300720215, 'learning_rate': 2.7275838466803563e-06, 'epoch': 2.76}
+{'loss': 1.3866, 'grad_norm': 2.6131949424743652, 'learning_rate': 2.7258726899383985e-06, 'epoch': 2.76}
+{'loss': 1.3448, 'grad_norm': 2.401686668395996, 'learning_rate': 2.724161533196441e-06, 'epoch': 2.76}
+{'loss': 1.3593, 'grad_norm': 2.6484341621398926, 'learning_rate': 2.7224503764544833e-06, 'epoch': 2.77}
+{'loss': 1.3428, 'grad_norm': 2.634842872619629, 'learning_rate': 2.720739219712526e-06, 'epoch': 2.77}
+{'loss': 1.3569, 'grad_norm': 2.4449527263641357, 'learning_rate': 2.7190280629705685e-06, 'epoch': 2.77}
+{'loss': 1.3315, 'grad_norm': 2.4294729232788086, 'learning_rate': 2.7173169062286107e-06, 'epoch': 2.77}
+{'eval_loss': 1.7584389448165894, 'eval_runtime': 11.5814, 'eval_samples_per_second': 51.807, 'eval_steps_per_second': 1.122, 'epoch': 2.77}
+{'loss': 1.3085, 'grad_norm': 2.3815202713012695, 'learning_rate': 2.7156057494866533e-06, 'epoch': 2.77}
+{'loss': 1.3146, 'grad_norm': 2.4663071632385254, 'learning_rate': 2.713894592744696e-06, 'epoch': 2.78}
+{'loss': 1.3465, 'grad_norm': 2.591113328933716, 'learning_rate': 2.712183436002738e-06, 'epoch': 2.78}
+{'loss': 1.3552, 'grad_norm': 2.511857748031616, 'learning_rate': 2.7104722792607808e-06, 'epoch': 2.78}
+{'loss': 1.3622, 'grad_norm': 2.593553304672241, 'learning_rate': 2.7087611225188234e-06, 'epoch': 2.78}
+{'loss': 1.3473, 'grad_norm': 2.537252187728882, 'learning_rate': 2.7070499657768655e-06, 'epoch': 2.78}
+{'loss': 1.3368, 'grad_norm': 2.3924174308776855, 'learning_rate': 2.705338809034908e-06, 'epoch': 2.79}
+{'loss': 1.3833, 'grad_norm': 2.440505027770996, 'learning_rate': 2.70362765229295e-06, 'epoch': 2.79}
+{'loss': 1.3055, 'grad_norm': 2.474229097366333, 'learning_rate': 2.7019164955509925e-06, 'epoch': 2.79}
+{'loss': 1.3848, 'grad_norm': 2.567596197128296, 'learning_rate': 2.7002053388090347e-06, 'epoch': 2.79}
+{'eval_loss': 1.7611942291259766, 'eval_runtime': 11.5518, 'eval_samples_per_second': 51.94, 'eval_steps_per_second': 1.125, 'epoch': 2.79}
+{'loss': 1.3331, 'grad_norm': 2.4711906909942627, 'learning_rate': 2.6984941820670773e-06, 'epoch': 2.79}
+{'loss': 1.3783, 'grad_norm': 2.5060935020446777, 'learning_rate': 2.69678302532512e-06, 'epoch': 2.8}
+{'loss': 1.3149, 'grad_norm': 2.5991580486297607, 'learning_rate': 2.695071868583162e-06, 'epoch': 2.8}
+{'loss': 1.3426, 'grad_norm': 2.483109474182129, 'learning_rate': 2.6933607118412047e-06, 'epoch': 2.8}
+{'loss': 1.348, 'grad_norm': 2.5043959617614746, 'learning_rate': 2.6916495550992473e-06, 'epoch': 2.8}
+{'loss': 1.3571, 'grad_norm': 2.631566047668457, 'learning_rate': 2.6899383983572895e-06, 'epoch': 2.8}
+{'loss': 1.3504, 'grad_norm': 2.462193489074707, 'learning_rate': 2.688227241615332e-06, 'epoch': 2.81}
+{'loss': 1.3238, 'grad_norm': 2.424408197402954, 'learning_rate': 2.6865160848733748e-06, 'epoch': 2.81}
+{'loss': 1.3729, 'grad_norm': 2.6673622131347656, 'learning_rate': 2.684804928131417e-06, 'epoch': 2.81}
+{'loss': 1.3797, 'grad_norm': 2.7389345169067383, 'learning_rate': 2.6830937713894595e-06, 'epoch': 2.81}
+{'eval_loss': 1.7584017515182495, 'eval_runtime': 11.5122, 'eval_samples_per_second': 52.119, 'eval_steps_per_second': 1.129, 'epoch': 2.81}
+{'loss': 1.3395, 'grad_norm': 2.5097603797912598, 'learning_rate': 2.6813826146475017e-06, 'epoch': 2.82}
+{'loss': 1.3826, 'grad_norm': 2.4244987964630127, 'learning_rate': 2.6796714579055443e-06, 'epoch': 2.82}
+{'loss': 1.3372, 'grad_norm': 2.499650239944458, 'learning_rate': 2.677960301163587e-06, 'epoch': 2.82}
+{'loss': 1.3464, 'grad_norm': 2.5304038524627686, 'learning_rate': 2.676249144421629e-06, 'epoch': 2.82}
+{'loss': 1.3132, 'grad_norm': 2.4155499935150146, 'learning_rate': 2.6745379876796718e-06, 'epoch': 2.82}
+{'loss': 1.3652, 'grad_norm': 2.6685116291046143, 'learning_rate': 2.6728268309377144e-06, 'epoch': 2.83}
+{'loss': 1.3347, 'grad_norm': 2.489431619644165, 'learning_rate': 2.6711156741957566e-06, 'epoch': 2.83}
+{'loss': 1.3742, 'grad_norm': 2.6040151119232178, 'learning_rate': 2.669404517453799e-06, 'epoch': 2.83}
+{'loss': 1.4214, 'grad_norm': 2.5913455486297607, 'learning_rate': 2.6676933607118418e-06, 'epoch': 2.83}
+{'loss': 1.3264, 'grad_norm': 2.4734480381011963, 'learning_rate': 2.665982203969884e-06, 'epoch': 2.83}
+{'eval_loss': 1.7626866102218628, 'eval_runtime': 11.5483, 'eval_samples_per_second': 51.956, 'eval_steps_per_second': 1.126, 'epoch': 2.83}
+{'loss': 1.3046, 'grad_norm': 2.5797111988067627, 'learning_rate': 2.6642710472279266e-06, 'epoch': 2.84}
+{'loss': 1.3524, 'grad_norm': 2.5538299083709717, 'learning_rate': 2.662559890485969e-06, 'epoch': 2.84}
+{'loss': 1.3835, 'grad_norm': 2.592665910720825, 'learning_rate': 2.6608487337440114e-06, 'epoch': 2.84}
+{'loss': 1.3627, 'grad_norm': 2.5321695804595947, 'learning_rate': 2.659137577002054e-06, 'epoch': 2.84}
+{'loss': 1.3557, 'grad_norm': 2.638741970062256, 'learning_rate': 2.6574264202600957e-06, 'epoch': 2.84}
+{'loss': 1.3518, 'grad_norm': 2.511908769607544, 'learning_rate': 2.6557152635181383e-06, 'epoch': 2.85}
+{'loss': 1.3891, 'grad_norm': 2.601409435272217, 'learning_rate': 2.6540041067761805e-06, 'epoch': 2.85}
+{'loss': 1.3623, 'grad_norm': 2.573490858078003, 'learning_rate': 2.652292950034223e-06, 'epoch': 2.85}
+{'loss': 1.3325, 'grad_norm': 2.4417710304260254, 'learning_rate': 2.6505817932922658e-06, 'epoch': 2.85}
+{'loss': 1.3182, 'grad_norm': 2.4635517597198486, 'learning_rate': 2.648870636550308e-06, 'epoch': 2.85}
+{'eval_loss': 1.7693127393722534, 'eval_runtime': 11.5647, 'eval_samples_per_second': 51.882, 'eval_steps_per_second': 1.124, 'epoch': 2.85}
+{'loss': 1.3195, 'grad_norm': 2.494274377822876, 'learning_rate': 2.6471594798083506e-06, 'epoch': 2.86}
+{'loss': 1.3302, 'grad_norm': 2.4844632148742676, 'learning_rate': 2.645448323066393e-06, 'epoch': 2.86}
+{'loss': 1.3237, 'grad_norm': 2.598179817199707, 'learning_rate': 2.6437371663244353e-06, 'epoch': 2.86}
+{'loss': 1.3543, 'grad_norm': 2.5373752117156982, 'learning_rate': 2.642026009582478e-06, 'epoch': 2.86}
+{'loss': 1.3679, 'grad_norm': 2.6081581115722656, 'learning_rate': 2.6403148528405206e-06, 'epoch': 2.86}
+{'loss': 1.3259, 'grad_norm': 2.3201937675476074, 'learning_rate': 2.6386036960985628e-06, 'epoch': 2.87}
+{'loss': 1.3567, 'grad_norm': 2.552932024002075, 'learning_rate': 2.6368925393566054e-06, 'epoch': 2.87}
+{'loss': 1.3386, 'grad_norm': 2.4975039958953857, 'learning_rate': 2.6351813826146476e-06, 'epoch': 2.87}
+{'loss': 1.3559, 'grad_norm': 2.4068939685821533, 'learning_rate': 2.63347022587269e-06, 'epoch': 2.87}
+{'loss': 1.3057, 'grad_norm': 2.4628612995147705, 'learning_rate': 2.6317590691307328e-06, 'epoch': 2.87}
+{'eval_loss': 1.771753191947937, 'eval_runtime': 11.5821, 'eval_samples_per_second': 51.804, 'eval_steps_per_second': 1.122, 'epoch': 2.87}
+{'loss': 1.3187, 'grad_norm': 2.590221881866455, 'learning_rate': 2.630047912388775e-06, 'epoch': 2.88}
+{'loss': 1.3331, 'grad_norm': 2.4741358757019043, 'learning_rate': 2.6283367556468176e-06, 'epoch': 2.88}
+{'loss': 1.3583, 'grad_norm': 2.4850473403930664, 'learning_rate': 2.62662559890486e-06, 'epoch': 2.88}
+{'loss': 1.3386, 'grad_norm': 2.474641799926758, 'learning_rate': 2.6249144421629024e-06, 'epoch': 2.88}
+{'loss': 1.3918, 'grad_norm': 2.6726372241973877, 'learning_rate': 2.623203285420945e-06, 'epoch': 2.89}
+{'loss': 1.3668, 'grad_norm': 2.4833297729492188, 'learning_rate': 2.6214921286789876e-06, 'epoch': 2.89}
+{'loss': 1.3453, 'grad_norm': 2.5170626640319824, 'learning_rate': 2.6197809719370298e-06, 'epoch': 2.89}
+{'loss': 1.3286, 'grad_norm': 2.5948116779327393, 'learning_rate': 2.6180698151950724e-06, 'epoch': 2.89}
+{'loss': 1.3261, 'grad_norm': 2.4625484943389893, 'learning_rate': 2.6163586584531146e-06, 'epoch': 2.89}
+{'loss': 1.3425, 'grad_norm': 2.47978138923645, 'learning_rate': 2.614647501711157e-06, 'epoch': 2.9}
+{'eval_loss': 1.7719812393188477, 'eval_runtime': 11.5857, 'eval_samples_per_second': 51.788, 'eval_steps_per_second': 1.122, 'epoch': 2.9}
+{'loss': 1.3348, 'grad_norm': 2.6354851722717285, 'learning_rate': 2.612936344969199e-06, 'epoch': 2.9}
+{'loss': 1.3823, 'grad_norm': 2.5257651805877686, 'learning_rate': 2.6112251882272416e-06, 'epoch': 2.9}
+{'loss': 1.3753, 'grad_norm': 2.4530246257781982, 'learning_rate': 2.609514031485284e-06, 'epoch': 2.9}
+{'loss': 1.326, 'grad_norm': 2.4754605293273926, 'learning_rate': 2.6078028747433264e-06, 'epoch': 2.9}
+{'loss': 1.3755, 'grad_norm': 2.491417169570923, 'learning_rate': 2.606091718001369e-06, 'epoch': 2.91}
+{'loss': 1.3558, 'grad_norm': 2.439333915710449, 'learning_rate': 2.6043805612594116e-06, 'epoch': 2.91}
+{'loss': 1.355, 'grad_norm': 2.494811773300171, 'learning_rate': 2.6026694045174538e-06, 'epoch': 2.91}
+{'loss': 1.3515, 'grad_norm': 2.4131572246551514, 'learning_rate': 2.6009582477754964e-06, 'epoch': 2.91}
+{'loss': 1.3219, 'grad_norm': 2.4309096336364746, 'learning_rate': 2.599247091033539e-06, 'epoch': 2.91}
+{'loss': 1.3669, 'grad_norm': 2.5525219440460205, 'learning_rate': 2.597535934291581e-06, 'epoch': 2.92}
+{'eval_loss': 1.7614668607711792, 'eval_runtime': 11.5738, 'eval_samples_per_second': 51.841, 'eval_steps_per_second': 1.123, 'epoch': 2.92}
+{'loss': 1.3344, 'grad_norm': 2.544313669204712, 'learning_rate': 2.5958247775496238e-06, 'epoch': 2.92}
+{'loss': 1.3454, 'grad_norm': 2.435633420944214, 'learning_rate': 2.594113620807666e-06, 'epoch': 2.92}
+{'loss': 1.3361, 'grad_norm': 2.394998073577881, 'learning_rate': 2.5924024640657086e-06, 'epoch': 2.92}
+{'loss': 1.3371, 'grad_norm': 2.44490647315979, 'learning_rate': 2.590691307323751e-06, 'epoch': 2.92}
+{'loss': 1.3685, 'grad_norm': 2.388641119003296, 'learning_rate': 2.5889801505817934e-06, 'epoch': 2.93}
+{'loss': 1.3413, 'grad_norm': 2.386674165725708, 'learning_rate': 2.587268993839836e-06, 'epoch': 2.93}
+{'loss': 1.3443, 'grad_norm': 2.4738502502441406, 'learning_rate': 2.5855578370978786e-06, 'epoch': 2.93}
+{'loss': 1.3421, 'grad_norm': 2.4171054363250732, 'learning_rate': 2.5838466803559208e-06, 'epoch': 2.93}
+{'loss': 1.3705, 'grad_norm': 2.4912807941436768, 'learning_rate': 2.5821355236139634e-06, 'epoch': 2.93}
+{'loss': 1.3418, 'grad_norm': 2.506174087524414, 'learning_rate': 2.580424366872006e-06, 'epoch': 2.94}
+{'eval_loss': 1.7645968198776245, 'eval_runtime': 11.5674, 'eval_samples_per_second': 51.87, 'eval_steps_per_second': 1.124, 'epoch': 2.94}
+{'loss': 1.3573, 'grad_norm': 2.5253429412841797, 'learning_rate': 2.578713210130048e-06, 'epoch': 2.94}
+{'loss': 1.317, 'grad_norm': 2.4458673000335693, 'learning_rate': 2.577002053388091e-06, 'epoch': 2.94}
+{'loss': 1.334, 'grad_norm': 2.595393657684326, 'learning_rate': 2.575290896646133e-06, 'epoch': 2.94}
+{'loss': 1.3426, 'grad_norm': 2.411562204360962, 'learning_rate': 2.5735797399041756e-06, 'epoch': 2.94}
+{'loss': 1.322, 'grad_norm': 2.3995792865753174, 'learning_rate': 2.571868583162218e-06, 'epoch': 2.95}
+{'loss': 1.3824, 'grad_norm': 2.4545376300811768, 'learning_rate': 2.5701574264202604e-06, 'epoch': 2.95}
+{'loss': 1.3623, 'grad_norm': 2.565565347671509, 'learning_rate': 2.568446269678303e-06, 'epoch': 2.95}
+{'loss': 1.3225, 'grad_norm': 2.35943865776062, 'learning_rate': 2.5667351129363448e-06, 'epoch': 2.95}
+{'loss': 1.3622, 'grad_norm': 2.446883201599121, 'learning_rate': 2.5650239561943874e-06, 'epoch': 2.95}
+{'loss': 1.3367, 'grad_norm': 2.4429702758789062, 'learning_rate': 2.56331279945243e-06, 'epoch': 2.96}
+{'eval_loss': 1.763545274734497, 'eval_runtime': 11.5811, 'eval_samples_per_second': 51.809, 'eval_steps_per_second': 1.123, 'epoch': 2.96}
+{'loss': 1.3607, 'grad_norm': 2.4182066917419434, 'learning_rate': 2.561601642710472e-06, 'epoch': 2.96}
+{'loss': 1.3398, 'grad_norm': 2.43624210357666, 'learning_rate': 2.5598904859685148e-06, 'epoch': 2.96}
+{'loss': 1.3406, 'grad_norm': 2.520111560821533, 'learning_rate': 2.5581793292265574e-06, 'epoch': 2.96}
+{'loss': 1.3253, 'grad_norm': 2.5234389305114746, 'learning_rate': 2.5564681724845996e-06, 'epoch': 2.97}
+{'loss': 1.3477, 'grad_norm': 2.491715431213379, 'learning_rate': 2.554757015742642e-06, 'epoch': 2.97}
+{'loss': 1.3376, 'grad_norm': 2.4871160984039307, 'learning_rate': 2.5530458590006844e-06, 'epoch': 2.97}
+{'loss': 1.3275, 'grad_norm': 2.4988350868225098, 'learning_rate': 2.551334702258727e-06, 'epoch': 2.97}
+{'loss': 1.3594, 'grad_norm': 2.531453847885132, 'learning_rate': 2.5496235455167696e-06, 'epoch': 2.97}
+{'loss': 1.379, 'grad_norm': 2.5226283073425293, 'learning_rate': 2.5479123887748118e-06, 'epoch': 2.98}
+{'loss': 1.3335, 'grad_norm': 2.4467194080352783, 'learning_rate': 2.5462012320328544e-06, 'epoch': 2.98}
+{'eval_loss': 1.7654262781143188, 'eval_runtime': 11.6013, 'eval_samples_per_second': 51.718, 'eval_steps_per_second': 1.121, 'epoch': 2.98}
+{'loss': 1.3213, 'grad_norm': 2.4810738563537598, 'learning_rate': 2.544490075290897e-06, 'epoch': 2.98}
+{'loss': 1.3863, 'grad_norm': 2.548462152481079, 'learning_rate': 2.542778918548939e-06, 'epoch': 2.98}
+{'loss': 1.3308, 'grad_norm': 2.4643187522888184, 'learning_rate': 2.541067761806982e-06, 'epoch': 2.98}
+{'loss': 1.3236, 'grad_norm': 2.4403083324432373, 'learning_rate': 2.5393566050650244e-06, 'epoch': 2.99}
+{'loss': 1.2934, 'grad_norm': 2.5406148433685303, 'learning_rate': 2.5376454483230666e-06, 'epoch': 2.99}
+{'loss': 1.3448, 'grad_norm': 2.543272018432617, 'learning_rate': 2.535934291581109e-06, 'epoch': 2.99}
+{'loss': 1.3677, 'grad_norm': 2.4836585521698, 'learning_rate': 2.534223134839152e-06, 'epoch': 2.99}
+{'loss': 1.3487, 'grad_norm': 2.523481845855713, 'learning_rate': 2.532511978097194e-06, 'epoch': 2.99}
+{'loss': 1.3581, 'grad_norm': 2.4971485137939453, 'learning_rate': 2.5308008213552366e-06, 'epoch': 3.0}
+{'loss': 1.3254, 'grad_norm': 2.4221858978271484, 'learning_rate': 2.529089664613279e-06, 'epoch': 3.0}
+{'eval_loss': 1.7647745609283447, 'eval_runtime': 11.5887, 'eval_samples_per_second': 51.774, 'eval_steps_per_second': 1.122, 'epoch': 3.0}
+{'loss': 1.2999, 'grad_norm': 2.4846954345703125, 'learning_rate': 2.5273785078713214e-06, 'epoch': 3.0}
+{'loss': 1.293, 'grad_norm': 2.750237226486206, 'learning_rate': 2.525667351129364e-06, 'epoch': 3.0}
+{'loss': 1.3057, 'grad_norm': 2.6724729537963867, 'learning_rate': 2.523956194387406e-06, 'epoch': 3.0}
+{'loss': 1.2952, 'grad_norm': 2.7375142574310303, 'learning_rate': 2.5222450376454484e-06, 'epoch': 3.01}
+{'loss': 1.2725, 'grad_norm': 3.0786778926849365, 'learning_rate': 2.5205338809034906e-06, 'epoch': 3.01}
+{'loss': 1.2664, 'grad_norm': 2.878187894821167, 'learning_rate': 2.518822724161533e-06, 'epoch': 3.01}
+{'loss': 1.263, 'grad_norm': 2.75722074508667, 'learning_rate': 2.517111567419576e-06, 'epoch': 3.01}
+{'loss': 1.2723, 'grad_norm': 2.7378695011138916, 'learning_rate': 2.515400410677618e-06, 'epoch': 3.01}
+{'loss': 1.2912, 'grad_norm': 2.9286444187164307, 'learning_rate': 2.5136892539356606e-06, 'epoch': 3.02}
+{'loss': 1.3086, 'grad_norm': 2.7950456142425537, 'learning_rate': 2.511978097193703e-06, 'epoch': 3.02}
+{'eval_loss': 1.7770304679870605, 'eval_runtime': 11.5736, 'eval_samples_per_second': 51.842, 'eval_steps_per_second': 1.123, 'epoch': 3.02}
+{'loss': 1.288, 'grad_norm': 2.7381646633148193, 'learning_rate': 2.5102669404517454e-06, 'epoch': 3.02}
+{'loss': 1.2975, 'grad_norm': 2.8859169483184814, 'learning_rate': 2.508555783709788e-06, 'epoch': 3.02}
+{'loss': 1.2958, 'grad_norm': 2.9554760456085205, 'learning_rate': 2.50684462696783e-06, 'epoch': 3.02}
+{'loss': 1.2749, 'grad_norm': 2.7042932510375977, 'learning_rate': 2.505133470225873e-06, 'epoch': 3.03}
+{'loss': 1.3283, 'grad_norm': 2.78659725189209, 'learning_rate': 2.5034223134839154e-06, 'epoch': 3.03}
+{'loss': 1.3251, 'grad_norm': 2.7316648960113525, 'learning_rate': 2.5017111567419576e-06, 'epoch': 3.03}
+{'loss': 1.305, 'grad_norm': 2.6730709075927734, 'learning_rate': 2.5e-06, 'epoch': 3.03}
+{'loss': 1.2948, 'grad_norm': 2.6070375442504883, 'learning_rate': 2.498288843258043e-06, 'epoch': 3.03}
+{'loss': 1.2864, 'grad_norm': 2.624314069747925, 'learning_rate': 2.496577686516085e-06, 'epoch': 3.04}
+{'loss': 1.2819, 'grad_norm': 2.897019624710083, 'learning_rate': 2.4948665297741276e-06, 'epoch': 3.04}
+{'eval_loss': 1.7849547863006592, 'eval_runtime': 11.5886, 'eval_samples_per_second': 51.775, 'eval_steps_per_second': 1.122, 'epoch': 3.04}
+{'loss': 1.3013, 'grad_norm': 2.7147486209869385, 'learning_rate': 2.4931553730321702e-06, 'epoch': 3.04}
+{'loss': 1.3012, 'grad_norm': 2.747605085372925, 'learning_rate': 2.4914442162902124e-06, 'epoch': 3.04}
+{'loss': 1.3203, 'grad_norm': 2.8729007244110107, 'learning_rate': 2.489733059548255e-06, 'epoch': 3.05}
+{'loss': 1.2891, 'grad_norm': 2.811263084411621, 'learning_rate': 2.488021902806297e-06, 'epoch': 3.05}
+{'loss': 1.2803, 'grad_norm': 2.9063665866851807, 'learning_rate': 2.4863107460643394e-06, 'epoch': 3.05}
+{'loss': 1.2948, 'grad_norm': 2.804241418838501, 'learning_rate': 2.484599589322382e-06, 'epoch': 3.05}
+{'loss': 1.2657, 'grad_norm': 2.6728596687316895, 'learning_rate': 2.4828884325804246e-06, 'epoch': 3.05}
+{'loss': 1.3168, 'grad_norm': 2.7319304943084717, 'learning_rate': 2.481177275838467e-06, 'epoch': 3.06}
+{'loss': 1.2809, 'grad_norm': 2.7286131381988525, 'learning_rate': 2.4794661190965094e-06, 'epoch': 3.06}
+{'loss': 1.301, 'grad_norm': 2.7772934436798096, 'learning_rate': 2.477754962354552e-06, 'epoch': 3.06}
+{'eval_loss': 1.7795835733413696, 'eval_runtime': 11.5868, 'eval_samples_per_second': 51.783, 'eval_steps_per_second': 1.122, 'epoch': 3.06}
+{'loss': 1.314, 'grad_norm': 2.8675339221954346, 'learning_rate': 2.476043805612594e-06, 'epoch': 3.06}
+{'loss': 1.3158, 'grad_norm': 2.874311685562134, 'learning_rate': 2.474332648870637e-06, 'epoch': 3.06}
+{'loss': 1.3181, 'grad_norm': 2.7988054752349854, 'learning_rate': 2.4726214921286794e-06, 'epoch': 3.07}
+{'loss': 1.2837, 'grad_norm': 2.7405407428741455, 'learning_rate': 2.4709103353867216e-06, 'epoch': 3.07}
+{'loss': 1.2987, 'grad_norm': 2.714520215988159, 'learning_rate': 2.4691991786447642e-06, 'epoch': 3.07}
+{'loss': 1.3293, 'grad_norm': 2.9411561489105225, 'learning_rate': 2.4674880219028064e-06, 'epoch': 3.07}
+{'loss': 1.3346, 'grad_norm': 2.8102850914001465, 'learning_rate': 2.4657768651608486e-06, 'epoch': 3.07}
+{'loss': 1.2699, 'grad_norm': 2.7239723205566406, 'learning_rate': 2.464065708418891e-06, 'epoch': 3.08}
+{'loss': 1.3128, 'grad_norm': 2.8304221630096436, 'learning_rate': 2.462354551676934e-06, 'epoch': 3.08}
+{'loss': 1.3176, 'grad_norm': 2.8354604244232178, 'learning_rate': 2.460643394934976e-06, 'epoch': 3.08}
+{'eval_loss': 1.7754207849502563, 'eval_runtime': 11.5926, 'eval_samples_per_second': 51.757, 'eval_steps_per_second': 1.121, 'epoch': 3.08}
+{'loss': 1.3134, 'grad_norm': 2.8818416595458984, 'learning_rate': 2.4589322381930186e-06, 'epoch': 3.08}
+{'loss': 1.3251, 'grad_norm': 2.8592782020568848, 'learning_rate': 2.4572210814510612e-06, 'epoch': 3.08}
+{'loss': 1.283, 'grad_norm': 2.7759573459625244, 'learning_rate': 2.4555099247091034e-06, 'epoch': 3.09}
+{'loss': 1.272, 'grad_norm': 2.7813193798065186, 'learning_rate': 2.453798767967146e-06, 'epoch': 3.09}
+{'loss': 1.2852, 'grad_norm': 2.8077943325042725, 'learning_rate': 2.4520876112251886e-06, 'epoch': 3.09}
+{'loss': 1.3187, 'grad_norm': 2.8813908100128174, 'learning_rate': 2.450376454483231e-06, 'epoch': 3.09}
+{'loss': 1.3037, 'grad_norm': 2.8744640350341797, 'learning_rate': 2.4486652977412734e-06, 'epoch': 3.09}
+{'loss': 1.285, 'grad_norm': 2.7804031372070312, 'learning_rate': 2.446954140999316e-06, 'epoch': 3.1}
+{'loss': 1.2906, 'grad_norm': 2.721040725708008, 'learning_rate': 2.4452429842573582e-06, 'epoch': 3.1}
+{'loss': 1.2917, 'grad_norm': 2.930039405822754, 'learning_rate': 2.443531827515401e-06, 'epoch': 3.1}
+{'eval_loss': 1.7793636322021484, 'eval_runtime': 11.4877, 'eval_samples_per_second': 52.23, 'eval_steps_per_second': 1.132, 'epoch': 3.1}
+{'loss': 1.3133, 'grad_norm': 2.82987904548645, 'learning_rate': 2.441820670773443e-06, 'epoch': 3.1}
+{'loss': 1.2755, 'grad_norm': 2.926349401473999, 'learning_rate': 2.440109514031485e-06, 'epoch': 3.1}
+{'loss': 1.2937, 'grad_norm': 2.8554232120513916, 'learning_rate': 2.438398357289528e-06, 'epoch': 3.11}
+{'loss': 1.2755, 'grad_norm': 2.739713668823242, 'learning_rate': 2.4366872005475704e-06, 'epoch': 3.11}
+{'loss': 1.3453, 'grad_norm': 2.8089873790740967, 'learning_rate': 2.4349760438056126e-06, 'epoch': 3.11}
+{'loss': 1.2837, 'grad_norm': 2.7550501823425293, 'learning_rate': 2.4332648870636552e-06, 'epoch': 3.11}
+{'loss': 1.28, 'grad_norm': 2.8547754287719727, 'learning_rate': 2.431553730321698e-06, 'epoch': 3.11}
+{'loss': 1.2981, 'grad_norm': 2.716582775115967, 'learning_rate': 2.42984257357974e-06, 'epoch': 3.12}
+{'loss': 1.2794, 'grad_norm': 2.881943464279175, 'learning_rate': 2.4281314168377826e-06, 'epoch': 3.12}
+{'loss': 1.2956, 'grad_norm': 2.9336328506469727, 'learning_rate': 2.4264202600958252e-06, 'epoch': 3.12}
+{'eval_loss': 1.7871447801589966, 'eval_runtime': 11.5602, 'eval_samples_per_second': 51.902, 'eval_steps_per_second': 1.125, 'epoch': 3.12}
+{'loss': 1.3503, 'grad_norm': 2.9507408142089844, 'learning_rate': 2.4247091033538674e-06, 'epoch': 3.12}
+{'loss': 1.3031, 'grad_norm': 2.8871028423309326, 'learning_rate': 2.42299794661191e-06, 'epoch': 3.13}
+{'loss': 1.3191, 'grad_norm': 3.123448371887207, 'learning_rate': 2.4212867898699522e-06, 'epoch': 3.13}
+{'loss': 1.2685, 'grad_norm': 2.765719413757324, 'learning_rate': 2.4195756331279944e-06, 'epoch': 3.13}
+{'loss': 1.3254, 'grad_norm': 2.794459581375122, 'learning_rate': 2.417864476386037e-06, 'epoch': 3.13}
+{'loss': 1.313, 'grad_norm': 2.8811111450195312, 'learning_rate': 2.4161533196440796e-06, 'epoch': 3.13}
+{'loss': 1.3191, 'grad_norm': 2.845780611038208, 'learning_rate': 2.414442162902122e-06, 'epoch': 3.14}
+{'loss': 1.274, 'grad_norm': 2.8814899921417236, 'learning_rate': 2.4127310061601644e-06, 'epoch': 3.14}
+{'loss': 1.3147, 'grad_norm': 2.836303234100342, 'learning_rate': 2.411019849418207e-06, 'epoch': 3.14}
+{'loss': 1.2958, 'grad_norm': 2.8345932960510254, 'learning_rate': 2.4093086926762492e-06, 'epoch': 3.14}
+{'eval_loss': 1.7869675159454346, 'eval_runtime': 11.571, 'eval_samples_per_second': 51.854, 'eval_steps_per_second': 1.123, 'epoch': 3.14}
+{'loss': 1.2758, 'grad_norm': 2.731217861175537, 'learning_rate': 2.407597535934292e-06, 'epoch': 3.14}
+{'loss': 1.2959, 'grad_norm': 2.750394105911255, 'learning_rate': 2.4058863791923344e-06, 'epoch': 3.15}
+{'loss': 1.3108, 'grad_norm': 2.8990495204925537, 'learning_rate': 2.4041752224503766e-06, 'epoch': 3.15}
+{'loss': 1.2838, 'grad_norm': 2.773202657699585, 'learning_rate': 2.4024640657084192e-06, 'epoch': 3.15}
+{'loss': 1.3071, 'grad_norm': 2.809663772583008, 'learning_rate': 2.4007529089664614e-06, 'epoch': 3.15}
+{'loss': 1.3229, 'grad_norm': 2.8076467514038086, 'learning_rate': 2.399041752224504e-06, 'epoch': 3.15}
+{'loss': 1.2858, 'grad_norm': 2.8424460887908936, 'learning_rate': 2.3973305954825462e-06, 'epoch': 3.16}
+{'loss': 1.2973, 'grad_norm': 2.8726603984832764, 'learning_rate': 2.395619438740589e-06, 'epoch': 3.16}
+{'loss': 1.2788, 'grad_norm': 2.9221127033233643, 'learning_rate': 2.393908281998631e-06, 'epoch': 3.16}
+{'loss': 1.3129, 'grad_norm': 2.8095450401306152, 'learning_rate': 2.3921971252566736e-06, 'epoch': 3.16}
+{'eval_loss': 1.7726731300354004, 'eval_runtime': 11.5796, 'eval_samples_per_second': 51.815, 'eval_steps_per_second': 1.123, 'epoch': 3.16}
+{'loss': 1.3169, 'grad_norm': 2.803934097290039, 'learning_rate': 2.3904859685147162e-06, 'epoch': 3.16}
+{'loss': 1.2924, 'grad_norm': 2.760136842727661, 'learning_rate': 2.3887748117727584e-06, 'epoch': 3.17}
+{'loss': 1.3066, 'grad_norm': 2.746975898742676, 'learning_rate': 2.387063655030801e-06, 'epoch': 3.17}
+{'loss': 1.2931, 'grad_norm': 2.7579286098480225, 'learning_rate': 2.3853524982888437e-06, 'epoch': 3.17}
+{'loss': 1.3216, 'grad_norm': 2.8525662422180176, 'learning_rate': 2.383641341546886e-06, 'epoch': 3.17}
+{'loss': 1.2918, 'grad_norm': 2.870997190475464, 'learning_rate': 2.3819301848049284e-06, 'epoch': 3.17}
+{'loss': 1.2853, 'grad_norm': 2.938532829284668, 'learning_rate': 2.3802190280629706e-06, 'epoch': 3.18}
+{'loss': 1.2778, 'grad_norm': 2.9826879501342773, 'learning_rate': 2.3785078713210132e-06, 'epoch': 3.18}
+{'loss': 1.3139, 'grad_norm': 2.9430925846099854, 'learning_rate': 2.376796714579056e-06, 'epoch': 3.18}
+{'loss': 1.3102, 'grad_norm': 2.768280029296875, 'learning_rate': 2.375085557837098e-06, 'epoch': 3.18}
+{'eval_loss': 1.771958589553833, 'eval_runtime': 11.5977, 'eval_samples_per_second': 51.734, 'eval_steps_per_second': 1.121, 'epoch': 3.18}
+{'loss': 1.3091, 'grad_norm': 2.85555100440979, 'learning_rate': 2.3733744010951402e-06, 'epoch': 3.18}
+{'loss': 1.3443, 'grad_norm': 2.8456623554229736, 'learning_rate': 2.371663244353183e-06, 'epoch': 3.19}
+{'loss': 1.3043, 'grad_norm': 2.7916371822357178, 'learning_rate': 2.3699520876112254e-06, 'epoch': 3.19}
+{'loss': 1.3073, 'grad_norm': 2.764734983444214, 'learning_rate': 2.3682409308692676e-06, 'epoch': 3.19}
+{'loss': 1.2557, 'grad_norm': 2.8917226791381836, 'learning_rate': 2.3665297741273102e-06, 'epoch': 3.19}
+{'loss': 1.2805, 'grad_norm': 2.973236083984375, 'learning_rate': 2.364818617385353e-06, 'epoch': 3.2}
+{'loss': 1.3174, 'grad_norm': 2.8644402027130127, 'learning_rate': 2.363107460643395e-06, 'epoch': 3.2}
+{'loss': 1.2896, 'grad_norm': 2.7762184143066406, 'learning_rate': 2.3613963039014377e-06, 'epoch': 3.2}
+{'loss': 1.2775, 'grad_norm': 2.757232427597046, 'learning_rate': 2.35968514715948e-06, 'epoch': 3.2}
+{'loss': 1.2877, 'grad_norm': 2.7778451442718506, 'learning_rate': 2.3579739904175225e-06, 'epoch': 3.2}
+{'eval_loss': 1.788841962814331, 'eval_runtime': 11.6048, 'eval_samples_per_second': 51.703, 'eval_steps_per_second': 1.12, 'epoch': 3.2}
+{'loss': 1.3127, 'grad_norm': 2.7950961589813232, 'learning_rate': 2.356262833675565e-06, 'epoch': 3.21}
+{'loss': 1.2973, 'grad_norm': 2.734349489212036, 'learning_rate': 2.3545516769336072e-06, 'epoch': 3.21}
+{'loss': 1.3274, 'grad_norm': 2.857675313949585, 'learning_rate': 2.35284052019165e-06, 'epoch': 3.21}
+{'loss': 1.2876, 'grad_norm': 2.793565511703491, 'learning_rate': 2.351129363449692e-06, 'epoch': 3.21}
+{'loss': 1.2817, 'grad_norm': 2.8406221866607666, 'learning_rate': 2.3494182067077347e-06, 'epoch': 3.21}
+{'loss': 1.2702, 'grad_norm': 2.845731258392334, 'learning_rate': 2.347707049965777e-06, 'epoch': 3.22}
+{'loss': 1.3061, 'grad_norm': 2.814265727996826, 'learning_rate': 2.3459958932238195e-06, 'epoch': 3.22}
+{'loss': 1.2848, 'grad_norm': 2.830043315887451, 'learning_rate': 2.344284736481862e-06, 'epoch': 3.22}
+{'loss': 1.3111, 'grad_norm': 2.812086582183838, 'learning_rate': 2.3425735797399042e-06, 'epoch': 3.22}
+{'loss': 1.3248, 'grad_norm': 2.8428361415863037, 'learning_rate': 2.340862422997947e-06, 'epoch': 3.22}
+{'eval_loss': 1.7796696424484253, 'eval_runtime': 11.5996, 'eval_samples_per_second': 51.726, 'eval_steps_per_second': 1.121, 'epoch': 3.22}
+{'loss': 1.3122, 'grad_norm': 2.859220504760742, 'learning_rate': 2.3391512662559895e-06, 'epoch': 3.23}
+{'loss': 1.3152, 'grad_norm': 2.873516082763672, 'learning_rate': 2.3374401095140317e-06, 'epoch': 3.23}
+{'loss': 1.2638, 'grad_norm': 2.9601383209228516, 'learning_rate': 2.3357289527720743e-06, 'epoch': 3.23}
+{'loss': 1.2775, 'grad_norm': 2.777203321456909, 'learning_rate': 2.3340177960301165e-06, 'epoch': 3.23}
+{'loss': 1.3097, 'grad_norm': 2.928959608078003, 'learning_rate': 2.332306639288159e-06, 'epoch': 3.23}
+{'loss': 1.2844, 'grad_norm': 2.961595296859741, 'learning_rate': 2.3305954825462017e-06, 'epoch': 3.24}
+{'loss': 1.3066, 'grad_norm': 3.0108284950256348, 'learning_rate': 2.328884325804244e-06, 'epoch': 3.24}
+{'loss': 1.3113, 'grad_norm': 2.706169366836548, 'learning_rate': 2.327173169062286e-06, 'epoch': 3.24}
+{'loss': 1.3085, 'grad_norm': 2.875450849533081, 'learning_rate': 2.3254620123203287e-06, 'epoch': 3.24}
+{'loss': 1.2997, 'grad_norm': 2.7920398712158203, 'learning_rate': 2.3237508555783713e-06, 'epoch': 3.24}
+{'eval_loss': 1.783443570137024, 'eval_runtime': 11.5838, 'eval_samples_per_second': 51.796, 'eval_steps_per_second': 1.122, 'epoch': 3.24}
+{'loss': 1.2779, 'grad_norm': 2.924060583114624, 'learning_rate': 2.3220396988364135e-06, 'epoch': 3.25}
+{'loss': 1.2998, 'grad_norm': 2.877758264541626, 'learning_rate': 2.320328542094456e-06, 'epoch': 3.25}
+{'loss': 1.2879, 'grad_norm': 2.9101035594940186, 'learning_rate': 2.3186173853524987e-06, 'epoch': 3.25}
+{'loss': 1.2748, 'grad_norm': 2.795880079269409, 'learning_rate': 2.316906228610541e-06, 'epoch': 3.25}
+{'loss': 1.3038, 'grad_norm': 2.914259433746338, 'learning_rate': 2.3151950718685835e-06, 'epoch': 3.25}
+{'loss': 1.2937, 'grad_norm': 2.877958297729492, 'learning_rate': 2.3134839151266257e-06, 'epoch': 3.26}
+{'loss': 1.311, 'grad_norm': 2.8234031200408936, 'learning_rate': 2.3117727583846683e-06, 'epoch': 3.26}
+{'loss': 1.3099, 'grad_norm': 2.7714974880218506, 'learning_rate': 2.310061601642711e-06, 'epoch': 3.26}
+{'loss': 1.2978, 'grad_norm': 2.839366912841797, 'learning_rate': 2.308350444900753e-06, 'epoch': 3.26}
+{'loss': 1.2482, 'grad_norm': 2.84549880027771, 'learning_rate': 2.3066392881587953e-06, 'epoch': 3.26}
+{'eval_loss': 1.7843127250671387, 'eval_runtime': 11.5987, 'eval_samples_per_second': 51.73, 'eval_steps_per_second': 1.121, 'epoch': 3.26}
+{'loss': 1.2862, 'grad_norm': 2.899665594100952, 'learning_rate': 2.304928131416838e-06, 'epoch': 3.27}
+{'loss': 1.2765, 'grad_norm': 2.8133552074432373, 'learning_rate': 2.3032169746748805e-06, 'epoch': 3.27}
+{'loss': 1.2925, 'grad_norm': 2.795680284500122, 'learning_rate': 2.3015058179329227e-06, 'epoch': 3.27}
+{'loss': 1.2789, 'grad_norm': 2.8910489082336426, 'learning_rate': 2.2997946611909653e-06, 'epoch': 3.27}
+{'loss': 1.2971, 'grad_norm': 2.973848819732666, 'learning_rate': 2.298083504449008e-06, 'epoch': 3.28}
+{'loss': 1.3081, 'grad_norm': 2.8591670989990234, 'learning_rate': 2.29637234770705e-06, 'epoch': 3.28}
+{'loss': 1.3128, 'grad_norm': 2.9699466228485107, 'learning_rate': 2.2946611909650927e-06, 'epoch': 3.28}
+{'loss': 1.3069, 'grad_norm': 3.0674989223480225, 'learning_rate': 2.292950034223135e-06, 'epoch': 3.28}
+{'loss': 1.289, 'grad_norm': 2.8034512996673584, 'learning_rate': 2.2912388774811775e-06, 'epoch': 3.28}
+{'loss': 1.3037, 'grad_norm': 2.805086374282837, 'learning_rate': 2.28952772073922e-06, 'epoch': 3.29}
+{'eval_loss': 1.7790122032165527, 'eval_runtime': 11.5939, 'eval_samples_per_second': 51.751, 'eval_steps_per_second': 1.121, 'epoch': 3.29}
+{'loss': 1.2866, 'grad_norm': 2.7921180725097656, 'learning_rate': 2.2878165639972623e-06, 'epoch': 3.29}
+{'loss': 1.2854, 'grad_norm': 2.788834571838379, 'learning_rate': 2.286105407255305e-06, 'epoch': 3.29}
+{'loss': 1.3163, 'grad_norm': 2.810922622680664, 'learning_rate': 2.2843942505133475e-06, 'epoch': 3.29}
+{'loss': 1.3211, 'grad_norm': 2.9580395221710205, 'learning_rate': 2.2826830937713897e-06, 'epoch': 3.29}
+{'loss': 1.3077, 'grad_norm': 2.8506898880004883, 'learning_rate': 2.280971937029432e-06, 'epoch': 3.3}
+{'loss': 1.2896, 'grad_norm': 2.868771553039551, 'learning_rate': 2.2792607802874745e-06, 'epoch': 3.3}
+{'loss': 1.273, 'grad_norm': 2.9050519466400146, 'learning_rate': 2.277549623545517e-06, 'epoch': 3.3}
+{'loss': 1.3635, 'grad_norm': 2.931406021118164, 'learning_rate': 2.2758384668035593e-06, 'epoch': 3.3}
+{'loss': 1.2824, 'grad_norm': 2.918361186981201, 'learning_rate': 2.274127310061602e-06, 'epoch': 3.3}
+{'loss': 1.3072, 'grad_norm': 2.7839276790618896, 'learning_rate': 2.272416153319644e-06, 'epoch': 3.31}
+{'eval_loss': 1.7729777097702026, 'eval_runtime': 11.5924, 'eval_samples_per_second': 51.758, 'eval_steps_per_second': 1.121, 'epoch': 3.31}
+{'loss': 1.3436, 'grad_norm': 3.1328766345977783, 'learning_rate': 2.2707049965776867e-06, 'epoch': 3.31}
+{'loss': 1.2915, 'grad_norm': 2.9117023944854736, 'learning_rate': 2.2689938398357293e-06, 'epoch': 3.31}
+{'loss': 1.3265, 'grad_norm': 3.011211633682251, 'learning_rate': 2.2672826830937715e-06, 'epoch': 3.31}
+{'loss': 1.3013, 'grad_norm': 2.872183084487915, 'learning_rate': 2.265571526351814e-06, 'epoch': 3.31}
+{'loss': 1.2921, 'grad_norm': 2.7279727458953857, 'learning_rate': 2.2638603696098567e-06, 'epoch': 3.32}
+{'loss': 1.2781, 'grad_norm': 2.7849512100219727, 'learning_rate': 2.262149212867899e-06, 'epoch': 3.32}
+{'loss': 1.2955, 'grad_norm': 2.860490083694458, 'learning_rate': 2.260438056125941e-06, 'epoch': 3.32}
+{'loss': 1.2937, 'grad_norm': 2.8521711826324463, 'learning_rate': 2.2587268993839837e-06, 'epoch': 3.32}
+{'loss': 1.3124, 'grad_norm': 2.9717259407043457, 'learning_rate': 2.2570157426420263e-06, 'epoch': 3.32}
+{'loss': 1.3376, 'grad_norm': 2.8843884468078613, 'learning_rate': 2.2553045859000685e-06, 'epoch': 3.33}
+{'eval_loss': 1.7769193649291992, 'eval_runtime': 11.5936, 'eval_samples_per_second': 51.753, 'eval_steps_per_second': 1.121, 'epoch': 3.33}
+{'loss': 1.3341, 'grad_norm': 2.9556124210357666, 'learning_rate': 2.253593429158111e-06, 'epoch': 3.33}
+{'loss': 1.2886, 'grad_norm': 2.797114372253418, 'learning_rate': 2.2518822724161533e-06, 'epoch': 3.33}
+{'loss': 1.2565, 'grad_norm': 2.7694106101989746, 'learning_rate': 2.250171115674196e-06, 'epoch': 3.33}
+{'loss': 1.2897, 'grad_norm': 2.974776029586792, 'learning_rate': 2.2484599589322385e-06, 'epoch': 3.33}
+{'loss': 1.2961, 'grad_norm': 2.8889527320861816, 'learning_rate': 2.2467488021902807e-06, 'epoch': 3.34}
+{'loss': 1.2836, 'grad_norm': 2.7790465354919434, 'learning_rate': 2.2450376454483233e-06, 'epoch': 3.34}
+{'loss': 1.2872, 'grad_norm': 2.8355417251586914, 'learning_rate': 2.243326488706366e-06, 'epoch': 3.34}
+{'loss': 1.3275, 'grad_norm': 3.0461411476135254, 'learning_rate': 2.241615331964408e-06, 'epoch': 3.34}
+{'loss': 1.2731, 'grad_norm': 2.7751920223236084, 'learning_rate': 2.2399041752224507e-06, 'epoch': 3.34}
+{'loss': 1.2728, 'grad_norm': 2.789236068725586, 'learning_rate': 2.238193018480493e-06, 'epoch': 3.35}
+{'eval_loss': 1.7767754793167114, 'eval_runtime': 11.5934, 'eval_samples_per_second': 51.754, 'eval_steps_per_second': 1.121, 'epoch': 3.35}
+{'loss': 1.2744, 'grad_norm': 2.7765095233917236, 'learning_rate': 2.2364818617385355e-06, 'epoch': 3.35}
+{'loss': 1.2833, 'grad_norm': 2.8570895195007324, 'learning_rate': 2.2347707049965777e-06, 'epoch': 3.35}
+{'loss': 1.3086, 'grad_norm': 2.699983596801758, 'learning_rate': 2.2330595482546203e-06, 'epoch': 3.35}
+{'loss': 1.2923, 'grad_norm': 2.825737714767456, 'learning_rate': 2.231348391512663e-06, 'epoch': 3.36}
+{'loss': 1.249, 'grad_norm': 2.737255573272705, 'learning_rate': 2.229637234770705e-06, 'epoch': 3.36}
+{'loss': 1.2996, 'grad_norm': 2.8684215545654297, 'learning_rate': 2.2279260780287477e-06, 'epoch': 3.36}
+{'loss': 1.3125, 'grad_norm': 2.871941328048706, 'learning_rate': 2.22621492128679e-06, 'epoch': 3.36}
+{'loss': 1.2983, 'grad_norm': 2.85457444190979, 'learning_rate': 2.2245037645448325e-06, 'epoch': 3.36}
+{'loss': 1.298, 'grad_norm': 2.8419482707977295, 'learning_rate': 2.222792607802875e-06, 'epoch': 3.37}
+{'loss': 1.2892, 'grad_norm': 2.9273407459259033, 'learning_rate': 2.2210814510609173e-06, 'epoch': 3.37}
+{'eval_loss': 1.7774945497512817, 'eval_runtime': 11.6021, 'eval_samples_per_second': 51.715, 'eval_steps_per_second': 1.12, 'epoch': 3.37}
+{'loss': 1.2994, 'grad_norm': 2.750544309616089, 'learning_rate': 2.21937029431896e-06, 'epoch': 3.37}
+{'loss': 1.3041, 'grad_norm': 2.847794532775879, 'learning_rate': 2.2176591375770025e-06, 'epoch': 3.37}
+{'loss': 1.3132, 'grad_norm': 2.807814359664917, 'learning_rate': 2.2159479808350447e-06, 'epoch': 3.37}
+{'loss': 1.3028, 'grad_norm': 2.855278491973877, 'learning_rate': 2.214236824093087e-06, 'epoch': 3.38}
+{'loss': 1.3222, 'grad_norm': 2.8480613231658936, 'learning_rate': 2.2125256673511295e-06, 'epoch': 3.38}
+{'loss': 1.3307, 'grad_norm': 2.924748659133911, 'learning_rate': 2.210814510609172e-06, 'epoch': 3.38}
+{'loss': 1.3084, 'grad_norm': 2.827988624572754, 'learning_rate': 2.2091033538672143e-06, 'epoch': 3.38}
+{'loss': 1.3238, 'grad_norm': 2.8395817279815674, 'learning_rate': 2.207392197125257e-06, 'epoch': 3.38}
+{'loss': 1.2925, 'grad_norm': 2.770697832107544, 'learning_rate': 2.205681040383299e-06, 'epoch': 3.39}
+{'loss': 1.301, 'grad_norm': 2.7641286849975586, 'learning_rate': 2.2039698836413417e-06, 'epoch': 3.39}
+{'eval_loss': 1.7713159322738647, 'eval_runtime': 11.6118, 'eval_samples_per_second': 51.672, 'eval_steps_per_second': 1.12, 'epoch': 3.39}
+{'loss': 1.2788, 'grad_norm': 2.7524542808532715, 'learning_rate': 2.2022587268993843e-06, 'epoch': 3.39}
+{'loss': 1.2704, 'grad_norm': 2.819404363632202, 'learning_rate': 2.2005475701574265e-06, 'epoch': 3.39}
+{'loss': 1.3044, 'grad_norm': 2.874063491821289, 'learning_rate': 2.198836413415469e-06, 'epoch': 3.39}
+{'loss': 1.3159, 'grad_norm': 2.8239991664886475, 'learning_rate': 2.1971252566735117e-06, 'epoch': 3.4}
+{'loss': 1.3163, 'grad_norm': 2.931736946105957, 'learning_rate': 2.195414099931554e-06, 'epoch': 3.4}
+{'loss': 1.2792, 'grad_norm': 2.8099846839904785, 'learning_rate': 2.1937029431895965e-06, 'epoch': 3.4}
+{'loss': 1.2906, 'grad_norm': 2.673253297805786, 'learning_rate': 2.1919917864476387e-06, 'epoch': 3.4}
+{'loss': 1.2892, 'grad_norm': 2.803358793258667, 'learning_rate': 2.1902806297056813e-06, 'epoch': 3.4}
+{'loss': 1.3013, 'grad_norm': 2.797807216644287, 'learning_rate': 2.1885694729637235e-06, 'epoch': 3.41}
+{'loss': 1.3041, 'grad_norm': 2.80846905708313, 'learning_rate': 2.186858316221766e-06, 'epoch': 3.41}
+{'eval_loss': 1.777235507965088, 'eval_runtime': 11.4708, 'eval_samples_per_second': 52.307, 'eval_steps_per_second': 1.133, 'epoch': 3.41}
+{'loss': 1.3094, 'grad_norm': 2.862283706665039, 'learning_rate': 2.1851471594798083e-06, 'epoch': 3.41}
+{'loss': 1.3109, 'grad_norm': 2.9141440391540527, 'learning_rate': 2.183436002737851e-06, 'epoch': 3.41}
+{'loss': 1.2955, 'grad_norm': 2.9738399982452393, 'learning_rate': 2.1817248459958935e-06, 'epoch': 3.41}
+{'loss': 1.318, 'grad_norm': 2.866077184677124, 'learning_rate': 2.1800136892539357e-06, 'epoch': 3.42}
+{'loss': 1.2733, 'grad_norm': 2.8215746879577637, 'learning_rate': 2.1783025325119783e-06, 'epoch': 3.42}
+{'loss': 1.2931, 'grad_norm': 2.7725768089294434, 'learning_rate': 2.176591375770021e-06, 'epoch': 3.42}
+{'loss': 1.3272, 'grad_norm': 2.9861509799957275, 'learning_rate': 2.174880219028063e-06, 'epoch': 3.42}
+{'loss': 1.2788, 'grad_norm': 2.8252086639404297, 'learning_rate': 2.1731690622861057e-06, 'epoch': 3.43}
+{'loss': 1.2717, 'grad_norm': 2.939622163772583, 'learning_rate': 2.1714579055441483e-06, 'epoch': 3.43}
+{'loss': 1.2985, 'grad_norm': 2.902996063232422, 'learning_rate': 2.1697467488021905e-06, 'epoch': 3.43}
+{'eval_loss': 1.7743507623672485, 'eval_runtime': 11.5183, 'eval_samples_per_second': 52.091, 'eval_steps_per_second': 1.129, 'epoch': 3.43}
+{'loss': 1.2923, 'grad_norm': 2.842536449432373, 'learning_rate': 2.1680355920602327e-06, 'epoch': 3.43}
+{'loss': 1.3145, 'grad_norm': 2.879729747772217, 'learning_rate': 2.1663244353182753e-06, 'epoch': 3.43}
+{'loss': 1.2765, 'grad_norm': 2.80020809173584, 'learning_rate': 2.1646132785763175e-06, 'epoch': 3.44}
+{'loss': 1.2945, 'grad_norm': 2.926529884338379, 'learning_rate': 2.16290212183436e-06, 'epoch': 3.44}
+{'loss': 1.3031, 'grad_norm': 2.891460657119751, 'learning_rate': 2.1611909650924027e-06, 'epoch': 3.44}
+{'loss': 1.2989, 'grad_norm': 2.8393044471740723, 'learning_rate': 2.159479808350445e-06, 'epoch': 3.44}
+{'loss': 1.2831, 'grad_norm': 3.013965129852295, 'learning_rate': 2.1577686516084875e-06, 'epoch': 3.44}
+{'loss': 1.2876, 'grad_norm': 2.878211736679077, 'learning_rate': 2.15605749486653e-06, 'epoch': 3.45}
+{'loss': 1.2878, 'grad_norm': 2.8011972904205322, 'learning_rate': 2.1543463381245723e-06, 'epoch': 3.45}
+{'loss': 1.3095, 'grad_norm': 2.9205644130706787, 'learning_rate': 2.152635181382615e-06, 'epoch': 3.45}
+{'eval_loss': 1.7653889656066895, 'eval_runtime': 11.5596, 'eval_samples_per_second': 51.905, 'eval_steps_per_second': 1.125, 'epoch': 3.45}
+{'loss': 1.2921, 'grad_norm': 2.8852524757385254, 'learning_rate': 2.1509240246406575e-06, 'epoch': 3.45}
+{'loss': 1.3124, 'grad_norm': 2.915015935897827, 'learning_rate': 2.1492128678986997e-06, 'epoch': 3.45}
+{'loss': 1.2895, 'grad_norm': 2.8043317794799805, 'learning_rate': 2.147501711156742e-06, 'epoch': 3.46}
+{'loss': 1.2932, 'grad_norm': 2.896851062774658, 'learning_rate': 2.1457905544147845e-06, 'epoch': 3.46}
+{'loss': 1.3026, 'grad_norm': 2.8040966987609863, 'learning_rate': 2.1440793976728267e-06, 'epoch': 3.46}
+{'loss': 1.2967, 'grad_norm': 2.7496166229248047, 'learning_rate': 2.1423682409308693e-06, 'epoch': 3.46}
+{'loss': 1.29, 'grad_norm': 2.830599784851074, 'learning_rate': 2.140657084188912e-06, 'epoch': 3.46}
+{'loss': 1.3272, 'grad_norm': 2.8314592838287354, 'learning_rate': 2.138945927446954e-06, 'epoch': 3.47}
+{'loss': 1.3059, 'grad_norm': 2.885010242462158, 'learning_rate': 2.1372347707049967e-06, 'epoch': 3.47}
+{'loss': 1.3264, 'grad_norm': 2.9340317249298096, 'learning_rate': 2.1355236139630393e-06, 'epoch': 3.47}
+{'eval_loss': 1.7573120594024658, 'eval_runtime': 11.5772, 'eval_samples_per_second': 51.826, 'eval_steps_per_second': 1.123, 'epoch': 3.47}
+{'loss': 1.2947, 'grad_norm': 2.9186019897460938, 'learning_rate': 2.1338124572210815e-06, 'epoch': 3.47}
+{'loss': 1.277, 'grad_norm': 2.9317915439605713, 'learning_rate': 2.132101300479124e-06, 'epoch': 3.47}
+{'loss': 1.2778, 'grad_norm': 2.7629191875457764, 'learning_rate': 2.1303901437371667e-06, 'epoch': 3.48}
+{'loss': 1.2767, 'grad_norm': 2.7858521938323975, 'learning_rate': 2.128678986995209e-06, 'epoch': 3.48}
+{'loss': 1.2873, 'grad_norm': 2.87961745262146, 'learning_rate': 2.1269678302532515e-06, 'epoch': 3.48}
+{'loss': 1.2973, 'grad_norm': 2.998530149459839, 'learning_rate': 2.125256673511294e-06, 'epoch': 3.48}
+{'loss': 1.2802, 'grad_norm': 2.862255811691284, 'learning_rate': 2.1235455167693363e-06, 'epoch': 3.48}
+{'loss': 1.3084, 'grad_norm': 2.895319938659668, 'learning_rate': 2.1218343600273785e-06, 'epoch': 3.49}
+{'loss': 1.2939, 'grad_norm': 2.894699811935425, 'learning_rate': 2.120123203285421e-06, 'epoch': 3.49}
+{'loss': 1.2767, 'grad_norm': 2.830399990081787, 'learning_rate': 2.1184120465434633e-06, 'epoch': 3.49}
+{'eval_loss': 1.7568607330322266, 'eval_runtime': 11.5915, 'eval_samples_per_second': 51.762, 'eval_steps_per_second': 1.122, 'epoch': 3.49}
+{'loss': 1.3195, 'grad_norm': 2.980226755142212, 'learning_rate': 2.116700889801506e-06, 'epoch': 3.49}
+{'loss': 1.2947, 'grad_norm': 2.8033318519592285, 'learning_rate': 2.1149897330595485e-06, 'epoch': 3.49}
+{'loss': 1.2995, 'grad_norm': 2.8352177143096924, 'learning_rate': 2.1132785763175907e-06, 'epoch': 3.5}
+{'loss': 1.2966, 'grad_norm': 2.837869644165039, 'learning_rate': 2.1115674195756333e-06, 'epoch': 3.5}
+{'loss': 1.2778, 'grad_norm': 2.8337905406951904, 'learning_rate': 2.109856262833676e-06, 'epoch': 3.5}
+{'loss': 1.3107, 'grad_norm': 2.901505470275879, 'learning_rate': 2.108145106091718e-06, 'epoch': 3.5}
+{'loss': 1.2736, 'grad_norm': 2.719740152359009, 'learning_rate': 2.1064339493497607e-06, 'epoch': 3.51}
+{'loss': 1.2586, 'grad_norm': 2.8012847900390625, 'learning_rate': 2.1047227926078033e-06, 'epoch': 3.51}
+{'loss': 1.2661, 'grad_norm': 2.8672282695770264, 'learning_rate': 2.1030116358658455e-06, 'epoch': 3.51}
+{'loss': 1.3113, 'grad_norm': 2.9295177459716797, 'learning_rate': 2.1013004791238877e-06, 'epoch': 3.51}
+{'eval_loss': 1.7497241497039795, 'eval_runtime': 11.5985, 'eval_samples_per_second': 51.731, 'eval_steps_per_second': 1.121, 'epoch': 3.51}
+{'loss': 1.3379, 'grad_norm': 2.885298728942871, 'learning_rate': 2.0995893223819303e-06, 'epoch': 3.51}
+{'loss': 1.3088, 'grad_norm': 2.798335313796997, 'learning_rate': 2.0978781656399725e-06, 'epoch': 3.52}
+{'loss': 1.3084, 'grad_norm': 2.849759340286255, 'learning_rate': 2.096167008898015e-06, 'epoch': 3.52}
+{'loss': 1.3287, 'grad_norm': 2.8141121864318848, 'learning_rate': 2.0944558521560577e-06, 'epoch': 3.52}
+{'loss': 1.295, 'grad_norm': 2.796487808227539, 'learning_rate': 2.0927446954141e-06, 'epoch': 3.52}
+{'loss': 1.3215, 'grad_norm': 2.858718156814575, 'learning_rate': 2.0910335386721425e-06, 'epoch': 3.52}
+{'loss': 1.3202, 'grad_norm': 2.864051103591919, 'learning_rate': 2.089322381930185e-06, 'epoch': 3.53}
+{'loss': 1.3078, 'grad_norm': 2.934175491333008, 'learning_rate': 2.0876112251882273e-06, 'epoch': 3.53}
+{'loss': 1.2527, 'grad_norm': 2.8213813304901123, 'learning_rate': 2.08590006844627e-06, 'epoch': 3.53}
+{'loss': 1.2942, 'grad_norm': 2.711437463760376, 'learning_rate': 2.0841889117043126e-06, 'epoch': 3.53}
+{'eval_loss': 1.761736273765564, 'eval_runtime': 11.5975, 'eval_samples_per_second': 51.735, 'eval_steps_per_second': 1.121, 'epoch': 3.53}
+{'loss': 1.28, 'grad_norm': 2.765211820602417, 'learning_rate': 2.0824777549623547e-06, 'epoch': 3.53}
+{'loss': 1.3182, 'grad_norm': 2.8873963356018066, 'learning_rate': 2.0807665982203973e-06, 'epoch': 3.54}
+{'loss': 1.3109, 'grad_norm': 2.8418567180633545, 'learning_rate': 2.0790554414784395e-06, 'epoch': 3.54}
+{'loss': 1.305, 'grad_norm': 2.850449562072754, 'learning_rate': 2.0773442847364817e-06, 'epoch': 3.54}
+{'loss': 1.3029, 'grad_norm': 2.8143367767333984, 'learning_rate': 2.0756331279945243e-06, 'epoch': 3.54}
+{'loss': 1.3106, 'grad_norm': 2.7484288215637207, 'learning_rate': 2.073921971252567e-06, 'epoch': 3.54}
+{'loss': 1.3353, 'grad_norm': 2.9917609691619873, 'learning_rate': 2.072210814510609e-06, 'epoch': 3.55}
+{'loss': 1.2851, 'grad_norm': 2.784900426864624, 'learning_rate': 2.0704996577686517e-06, 'epoch': 3.55}
+{'loss': 1.2855, 'grad_norm': 2.868020534515381, 'learning_rate': 2.0687885010266943e-06, 'epoch': 3.55}
+{'loss': 1.2721, 'grad_norm': 2.801177501678467, 'learning_rate': 2.0670773442847365e-06, 'epoch': 3.55}
+{'eval_loss': 1.7678580284118652, 'eval_runtime': 11.5994, 'eval_samples_per_second': 51.727, 'eval_steps_per_second': 1.121, 'epoch': 3.55}
+{'loss': 1.2724, 'grad_norm': 2.656176805496216, 'learning_rate': 2.065366187542779e-06, 'epoch': 3.55}
+{'loss': 1.2835, 'grad_norm': 2.7669763565063477, 'learning_rate': 2.0636550308008218e-06, 'epoch': 3.56}
+{'loss': 1.3238, 'grad_norm': 2.8377685546875, 'learning_rate': 2.061943874058864e-06, 'epoch': 3.56}
+{'loss': 1.2885, 'grad_norm': 2.8421013355255127, 'learning_rate': 2.0602327173169066e-06, 'epoch': 3.56}
+{'loss': 1.3057, 'grad_norm': 2.735291004180908, 'learning_rate': 2.058521560574949e-06, 'epoch': 3.56}
+{'loss': 1.3524, 'grad_norm': 2.9448769092559814, 'learning_rate': 2.056810403832991e-06, 'epoch': 3.56}
+{'loss': 1.2612, 'grad_norm': 2.8654892444610596, 'learning_rate': 2.0550992470910335e-06, 'epoch': 3.57}
+{'loss': 1.2905, 'grad_norm': 2.778698205947876, 'learning_rate': 2.053388090349076e-06, 'epoch': 3.57}
+{'loss': 1.288, 'grad_norm': 2.765939712524414, 'learning_rate': 2.0516769336071183e-06, 'epoch': 3.57}
+{'loss': 1.3277, 'grad_norm': 2.947141170501709, 'learning_rate': 2.049965776865161e-06, 'epoch': 3.57}
+{'eval_loss': 1.773155927658081, 'eval_runtime': 11.6102, 'eval_samples_per_second': 51.679, 'eval_steps_per_second': 1.12, 'epoch': 3.57}
+{'loss': 1.3228, 'grad_norm': 2.796424150466919, 'learning_rate': 2.0482546201232036e-06, 'epoch': 3.57}
+{'loss': 1.2951, 'grad_norm': 2.7610270977020264, 'learning_rate': 2.0465434633812457e-06, 'epoch': 3.58}
+{'loss': 1.2845, 'grad_norm': 2.8010830879211426, 'learning_rate': 2.0448323066392884e-06, 'epoch': 3.58}
+{'loss': 1.2816, 'grad_norm': 2.927400588989258, 'learning_rate': 2.043121149897331e-06, 'epoch': 3.58}
+{'loss': 1.2706, 'grad_norm': 2.90016508102417, 'learning_rate': 2.041409993155373e-06, 'epoch': 3.58}
+{'loss': 1.2918, 'grad_norm': 2.8028459548950195, 'learning_rate': 2.0396988364134158e-06, 'epoch': 3.59}
+{'loss': 1.2862, 'grad_norm': 2.8408925533294678, 'learning_rate': 2.0379876796714584e-06, 'epoch': 3.59}
+{'loss': 1.3178, 'grad_norm': 2.937683343887329, 'learning_rate': 2.0362765229295006e-06, 'epoch': 3.59}
+{'loss': 1.3119, 'grad_norm': 2.8592569828033447, 'learning_rate': 2.034565366187543e-06, 'epoch': 3.59}
+{'loss': 1.304, 'grad_norm': 2.900660514831543, 'learning_rate': 2.0328542094455854e-06, 'epoch': 3.59}
+{'eval_loss': 1.7667769193649292, 'eval_runtime': 11.5972, 'eval_samples_per_second': 51.737, 'eval_steps_per_second': 1.121, 'epoch': 3.59}
+{'loss': 1.2893, 'grad_norm': 2.728803873062134, 'learning_rate': 2.0311430527036275e-06, 'epoch': 3.6}
+{'loss': 1.2773, 'grad_norm': 2.832531690597534, 'learning_rate': 2.02943189596167e-06, 'epoch': 3.6}
+{'loss': 1.3067, 'grad_norm': 2.779320240020752, 'learning_rate': 2.0277207392197128e-06, 'epoch': 3.6}
+{'loss': 1.2884, 'grad_norm': 2.72800612449646, 'learning_rate': 2.026009582477755e-06, 'epoch': 3.6}
+{'loss': 1.291, 'grad_norm': 2.8254001140594482, 'learning_rate': 2.0242984257357976e-06, 'epoch': 3.6}
+{'loss': 1.2749, 'grad_norm': 2.7832515239715576, 'learning_rate': 2.02258726899384e-06, 'epoch': 3.61}
+{'loss': 1.2997, 'grad_norm': 2.8441834449768066, 'learning_rate': 2.0208761122518824e-06, 'epoch': 3.61}
+{'loss': 1.2913, 'grad_norm': 2.7252182960510254, 'learning_rate': 2.019164955509925e-06, 'epoch': 3.61}
+{'loss': 1.2586, 'grad_norm': 2.7744650840759277, 'learning_rate': 2.0174537987679676e-06, 'epoch': 3.61}
+{'loss': 1.2821, 'grad_norm': 2.9042513370513916, 'learning_rate': 2.0157426420260098e-06, 'epoch': 3.61}
+{'eval_loss': 1.7703505754470825, 'eval_runtime': 11.5864, 'eval_samples_per_second': 51.785, 'eval_steps_per_second': 1.122, 'epoch': 3.61}
+{'loss': 1.2884, 'grad_norm': 2.9367501735687256, 'learning_rate': 2.0140314852840524e-06, 'epoch': 3.62}
+{'loss': 1.2717, 'grad_norm': 2.9553723335266113, 'learning_rate': 2.0123203285420946e-06, 'epoch': 3.62}
+{'loss': 1.3047, 'grad_norm': 2.909963369369507, 'learning_rate': 2.0106091718001367e-06, 'epoch': 3.62}
+{'loss': 1.2761, 'grad_norm': 2.7695696353912354, 'learning_rate': 2.0088980150581794e-06, 'epoch': 3.62}
+{'loss': 1.2693, 'grad_norm': 2.7348873615264893, 'learning_rate': 2.007186858316222e-06, 'epoch': 3.62}
+{'loss': 1.2769, 'grad_norm': 2.7284722328186035, 'learning_rate': 2.005475701574264e-06, 'epoch': 3.63}
+{'loss': 1.2731, 'grad_norm': 2.795679807662964, 'learning_rate': 2.0037645448323068e-06, 'epoch': 3.63}
+{'loss': 1.2935, 'grad_norm': 2.8320913314819336, 'learning_rate': 2.0020533880903494e-06, 'epoch': 3.63}
+{'loss': 1.3126, 'grad_norm': 2.9217019081115723, 'learning_rate': 2.0003422313483916e-06, 'epoch': 3.63}
+{'loss': 1.2987, 'grad_norm': 2.8739097118377686, 'learning_rate': 1.998631074606434e-06, 'epoch': 3.63}
+{'eval_loss': 1.7716341018676758, 'eval_runtime': 11.6127, 'eval_samples_per_second': 51.668, 'eval_steps_per_second': 1.119, 'epoch': 3.63}
+{'loss': 1.2912, 'grad_norm': 2.894521951675415, 'learning_rate': 1.9969199178644768e-06, 'epoch': 3.64}
+{'loss': 1.3156, 'grad_norm': 2.7943098545074463, 'learning_rate': 1.995208761122519e-06, 'epoch': 3.64}
+{'loss': 1.2947, 'grad_norm': 2.919156789779663, 'learning_rate': 1.9934976043805616e-06, 'epoch': 3.64}
+{'loss': 1.3138, 'grad_norm': 2.9160022735595703, 'learning_rate': 1.9917864476386038e-06, 'epoch': 3.64}
+{'loss': 1.3, 'grad_norm': 2.8546862602233887, 'learning_rate': 1.9900752908966464e-06, 'epoch': 3.64}
+{'loss': 1.2799, 'grad_norm': 2.8297488689422607, 'learning_rate': 1.9883641341546886e-06, 'epoch': 3.65}
+{'loss': 1.3023, 'grad_norm': 2.790648937225342, 'learning_rate': 1.986652977412731e-06, 'epoch': 3.65}
+{'loss': 1.295, 'grad_norm': 2.8595190048217773, 'learning_rate': 1.9849418206707734e-06, 'epoch': 3.65}
+{'loss': 1.2761, 'grad_norm': 2.8942935466766357, 'learning_rate': 1.983230663928816e-06, 'epoch': 3.65}
+{'loss': 1.3239, 'grad_norm': 2.961118698120117, 'learning_rate': 1.9815195071868586e-06, 'epoch': 3.66}
+{'eval_loss': 1.7747820615768433, 'eval_runtime': 11.6115, 'eval_samples_per_second': 51.673, 'eval_steps_per_second': 1.12, 'epoch': 3.66}
+{'loss': 1.3183, 'grad_norm': 2.808384418487549, 'learning_rate': 1.9798083504449008e-06, 'epoch': 3.66}
+{'loss': 1.3154, 'grad_norm': 2.7655162811279297, 'learning_rate': 1.9780971937029434e-06, 'epoch': 3.66}
+{'loss': 1.298, 'grad_norm': 2.8609092235565186, 'learning_rate': 1.976386036960986e-06, 'epoch': 3.66}
+{'loss': 1.3304, 'grad_norm': 2.833897113800049, 'learning_rate': 1.974674880219028e-06, 'epoch': 3.66}
+{'loss': 1.3386, 'grad_norm': 2.9366061687469482, 'learning_rate': 1.9729637234770708e-06, 'epoch': 3.67}
+{'loss': 1.2986, 'grad_norm': 2.739574670791626, 'learning_rate': 1.971252566735113e-06, 'epoch': 3.67}
+{'loss': 1.2825, 'grad_norm': 2.930359363555908, 'learning_rate': 1.9695414099931556e-06, 'epoch': 3.67}
+{'loss': 1.2889, 'grad_norm': 2.8586337566375732, 'learning_rate': 1.967830253251198e-06, 'epoch': 3.67}
+{'loss': 1.3199, 'grad_norm': 3.1141600608825684, 'learning_rate': 1.9661190965092404e-06, 'epoch': 3.67}
+{'loss': 1.3092, 'grad_norm': 2.9693520069122314, 'learning_rate': 1.9644079397672826e-06, 'epoch': 3.68}
+{'eval_loss': 1.7795389890670776, 'eval_runtime': 11.59, 'eval_samples_per_second': 51.769, 'eval_steps_per_second': 1.122, 'epoch': 3.68}
+{'loss': 1.2866, 'grad_norm': 2.917578935623169, 'learning_rate': 1.962696783025325e-06, 'epoch': 3.68}
+{'loss': 1.3011, 'grad_norm': 2.852799415588379, 'learning_rate': 1.9609856262833678e-06, 'epoch': 3.68}
+{'loss': 1.2908, 'grad_norm': 2.892319679260254, 'learning_rate': 1.95927446954141e-06, 'epoch': 3.68}
+{'loss': 1.2795, 'grad_norm': 2.779222011566162, 'learning_rate': 1.9575633127994526e-06, 'epoch': 3.68}
+{'loss': 1.2885, 'grad_norm': 2.8553922176361084, 'learning_rate': 1.955852156057495e-06, 'epoch': 3.69}
+{'loss': 1.2823, 'grad_norm': 3.030707597732544, 'learning_rate': 1.9541409993155374e-06, 'epoch': 3.69}
+{'loss': 1.2913, 'grad_norm': 2.779057264328003, 'learning_rate': 1.95242984257358e-06, 'epoch': 3.69}
+{'loss': 1.3018, 'grad_norm': 2.8940742015838623, 'learning_rate': 1.9507186858316226e-06, 'epoch': 3.69}
+{'loss': 1.2931, 'grad_norm': 2.8412764072418213, 'learning_rate': 1.9490075290896648e-06, 'epoch': 3.69}
+{'loss': 1.3092, 'grad_norm': 2.8905534744262695, 'learning_rate': 1.9472963723477074e-06, 'epoch': 3.7}
+{'eval_loss': 1.781345009803772, 'eval_runtime': 11.6081, 'eval_samples_per_second': 51.688, 'eval_steps_per_second': 1.12, 'epoch': 3.7}
+{'loss': 1.3129, 'grad_norm': 2.862009048461914, 'learning_rate': 1.9455852156057496e-06, 'epoch': 3.7}
+{'loss': 1.3045, 'grad_norm': 2.8519887924194336, 'learning_rate': 1.943874058863792e-06, 'epoch': 3.7}
+{'loss': 1.2938, 'grad_norm': 2.75915265083313, 'learning_rate': 1.9421629021218344e-06, 'epoch': 3.7}
+{'loss': 1.3021, 'grad_norm': 2.815253734588623, 'learning_rate': 1.940451745379877e-06, 'epoch': 3.7}
+{'loss': 1.2967, 'grad_norm': 2.7637009620666504, 'learning_rate': 1.938740588637919e-06, 'epoch': 3.71}
+{'loss': 1.3033, 'grad_norm': 2.879436731338501, 'learning_rate': 1.9370294318959618e-06, 'epoch': 3.71}
+{'loss': 1.296, 'grad_norm': 2.8556177616119385, 'learning_rate': 1.9353182751540044e-06, 'epoch': 3.71}
+{'loss': 1.2618, 'grad_norm': 2.799499988555908, 'learning_rate': 1.9336071184120466e-06, 'epoch': 3.71}
+{'loss': 1.3352, 'grad_norm': 2.8923730850219727, 'learning_rate': 1.931895961670089e-06, 'epoch': 3.71}
+{'loss': 1.2752, 'grad_norm': 2.818166971206665, 'learning_rate': 1.930184804928132e-06, 'epoch': 3.72}
+{'eval_loss': 1.7736315727233887, 'eval_runtime': 11.4809, 'eval_samples_per_second': 52.261, 'eval_steps_per_second': 1.132, 'epoch': 3.72}
+{'loss': 1.2997, 'grad_norm': 2.8132879734039307, 'learning_rate': 1.928473648186174e-06, 'epoch': 3.72}
+{'loss': 1.2903, 'grad_norm': 2.7978732585906982, 'learning_rate': 1.9267624914442166e-06, 'epoch': 3.72}
+{'loss': 1.3101, 'grad_norm': 2.830815315246582, 'learning_rate': 1.9250513347022588e-06, 'epoch': 3.72}
+{'loss': 1.2523, 'grad_norm': 2.735752582550049, 'learning_rate': 1.9233401779603014e-06, 'epoch': 3.72}
+{'loss': 1.2753, 'grad_norm': 2.81518816947937, 'learning_rate': 1.921629021218344e-06, 'epoch': 3.73}
+{'loss': 1.2911, 'grad_norm': 2.7568607330322266, 'learning_rate': 1.919917864476386e-06, 'epoch': 3.73}
+{'loss': 1.2619, 'grad_norm': 2.8229267597198486, 'learning_rate': 1.9182067077344284e-06, 'epoch': 3.73}
+{'loss': 1.3154, 'grad_norm': 2.7811925411224365, 'learning_rate': 1.916495550992471e-06, 'epoch': 3.73}
+{'loss': 1.3018, 'grad_norm': 2.8963725566864014, 'learning_rate': 1.9147843942505136e-06, 'epoch': 3.74}
+{'loss': 1.2881, 'grad_norm': 2.8515822887420654, 'learning_rate': 1.9130732375085558e-06, 'epoch': 3.74}
+{'eval_loss': 1.7703371047973633, 'eval_runtime': 11.5386, 'eval_samples_per_second': 51.999, 'eval_steps_per_second': 1.127, 'epoch': 3.74}
+{'loss': 1.2902, 'grad_norm': 2.813835620880127, 'learning_rate': 1.9113620807665984e-06, 'epoch': 3.74}
+{'loss': 1.3159, 'grad_norm': 2.949173927307129, 'learning_rate': 1.909650924024641e-06, 'epoch': 3.74}
+{'loss': 1.2889, 'grad_norm': 2.9097959995269775, 'learning_rate': 1.907939767282683e-06, 'epoch': 3.74}
+{'loss': 1.286, 'grad_norm': 2.8679726123809814, 'learning_rate': 1.9062286105407258e-06, 'epoch': 3.75}
+{'loss': 1.2853, 'grad_norm': 2.8253931999206543, 'learning_rate': 1.9045174537987682e-06, 'epoch': 3.75}
+{'loss': 1.2646, 'grad_norm': 2.867643356323242, 'learning_rate': 1.9028062970568106e-06, 'epoch': 3.75}
+{'loss': 1.2779, 'grad_norm': 2.813891887664795, 'learning_rate': 1.901095140314853e-06, 'epoch': 3.75}
+{'loss': 1.3268, 'grad_norm': 2.870448350906372, 'learning_rate': 1.8993839835728956e-06, 'epoch': 3.75}
+{'loss': 1.2945, 'grad_norm': 2.85396409034729, 'learning_rate': 1.8976728268309378e-06, 'epoch': 3.76}
+{'loss': 1.298, 'grad_norm': 2.764672040939331, 'learning_rate': 1.8959616700889802e-06, 'epoch': 3.76}
+{'eval_loss': 1.7619646787643433, 'eval_runtime': 11.5653, 'eval_samples_per_second': 51.879, 'eval_steps_per_second': 1.124, 'epoch': 3.76}
+{'loss': 1.3199, 'grad_norm': 2.891669273376465, 'learning_rate': 1.8942505133470226e-06, 'epoch': 3.76}
+{'loss': 1.2786, 'grad_norm': 2.718203067779541, 'learning_rate': 1.8925393566050652e-06, 'epoch': 3.76}
+{'loss': 1.2985, 'grad_norm': 2.7968332767486572, 'learning_rate': 1.8908281998631076e-06, 'epoch': 3.76}
+{'loss': 1.2742, 'grad_norm': 2.8651678562164307, 'learning_rate': 1.88911704312115e-06, 'epoch': 3.77}
+{'loss': 1.2924, 'grad_norm': 2.8495404720306396, 'learning_rate': 1.8874058863791924e-06, 'epoch': 3.77}
+{'loss': 1.309, 'grad_norm': 2.9014275074005127, 'learning_rate': 1.885694729637235e-06, 'epoch': 3.77}
+{'loss': 1.3203, 'grad_norm': 2.9987576007843018, 'learning_rate': 1.8839835728952774e-06, 'epoch': 3.77}
+{'loss': 1.2752, 'grad_norm': 2.769698143005371, 'learning_rate': 1.8822724161533198e-06, 'epoch': 3.77}
+{'loss': 1.3071, 'grad_norm': 2.9165008068084717, 'learning_rate': 1.8805612594113622e-06, 'epoch': 3.78}
+{'loss': 1.2586, 'grad_norm': 2.785334348678589, 'learning_rate': 1.8788501026694048e-06, 'epoch': 3.78}
+{'eval_loss': 1.7679978609085083, 'eval_runtime': 11.5601, 'eval_samples_per_second': 51.902, 'eval_steps_per_second': 1.125, 'epoch': 3.78}
+{'loss': 1.3128, 'grad_norm': 2.8410494327545166, 'learning_rate': 1.8771389459274472e-06, 'epoch': 3.78}
+{'loss': 1.2738, 'grad_norm': 2.8110692501068115, 'learning_rate': 1.8754277891854896e-06, 'epoch': 3.78}
+{'loss': 1.303, 'grad_norm': 2.929473638534546, 'learning_rate': 1.8737166324435318e-06, 'epoch': 3.78}
+{'loss': 1.2891, 'grad_norm': 2.8837106227874756, 'learning_rate': 1.8720054757015744e-06, 'epoch': 3.79}
+{'loss': 1.2771, 'grad_norm': 2.8316996097564697, 'learning_rate': 1.8702943189596168e-06, 'epoch': 3.79}
+{'loss': 1.3026, 'grad_norm': 2.746748924255371, 'learning_rate': 1.8685831622176592e-06, 'epoch': 3.79}
+{'loss': 1.2764, 'grad_norm': 2.8064324855804443, 'learning_rate': 1.8668720054757016e-06, 'epoch': 3.79}
+{'loss': 1.3049, 'grad_norm': 2.884190082550049, 'learning_rate': 1.8651608487337442e-06, 'epoch': 3.79}
+{'loss': 1.3022, 'grad_norm': 2.944267511367798, 'learning_rate': 1.8634496919917866e-06, 'epoch': 3.8}
+{'loss': 1.2497, 'grad_norm': 2.7244904041290283, 'learning_rate': 1.861738535249829e-06, 'epoch': 3.8}
+{'eval_loss': 1.7683643102645874, 'eval_runtime': 11.5858, 'eval_samples_per_second': 51.788, 'eval_steps_per_second': 1.122, 'epoch': 3.8}
+{'loss': 1.3147, 'grad_norm': 2.880486488342285, 'learning_rate': 1.8600273785078716e-06, 'epoch': 3.8}
+{'loss': 1.2825, 'grad_norm': 2.8285598754882812, 'learning_rate': 1.858316221765914e-06, 'epoch': 3.8}
+{'loss': 1.2873, 'grad_norm': 2.8890647888183594, 'learning_rate': 1.8566050650239564e-06, 'epoch': 3.8}
+{'loss': 1.2752, 'grad_norm': 2.827009439468384, 'learning_rate': 1.8548939082819988e-06, 'epoch': 3.81}
+{'loss': 1.2736, 'grad_norm': 2.8110108375549316, 'learning_rate': 1.8531827515400414e-06, 'epoch': 3.81}
+{'loss': 1.2876, 'grad_norm': 2.769895553588867, 'learning_rate': 1.8514715947980836e-06, 'epoch': 3.81}
+{'loss': 1.3028, 'grad_norm': 2.870314836502075, 'learning_rate': 1.849760438056126e-06, 'epoch': 3.81}
+{'loss': 1.2856, 'grad_norm': 2.8169052600860596, 'learning_rate': 1.8480492813141684e-06, 'epoch': 3.82}
+{'loss': 1.329, 'grad_norm': 2.8483810424804688, 'learning_rate': 1.8463381245722108e-06, 'epoch': 3.82}
+{'loss': 1.2977, 'grad_norm': 2.7808549404144287, 'learning_rate': 1.8446269678302534e-06, 'epoch': 3.82}
+{'eval_loss': 1.773695468902588, 'eval_runtime': 11.5842, 'eval_samples_per_second': 51.795, 'eval_steps_per_second': 1.122, 'epoch': 3.82}
+{'loss': 1.3068, 'grad_norm': 2.7255442142486572, 'learning_rate': 1.8429158110882958e-06, 'epoch': 3.82}
+{'loss': 1.2898, 'grad_norm': 2.9192967414855957, 'learning_rate': 1.8412046543463382e-06, 'epoch': 3.82}
+{'loss': 1.287, 'grad_norm': 2.902703046798706, 'learning_rate': 1.8394934976043808e-06, 'epoch': 3.83}
+{'loss': 1.3219, 'grad_norm': 2.9862372875213623, 'learning_rate': 1.8377823408624232e-06, 'epoch': 3.83}
+{'loss': 1.3103, 'grad_norm': 2.993055820465088, 'learning_rate': 1.8360711841204656e-06, 'epoch': 3.83}
+{'loss': 1.2734, 'grad_norm': 2.7125978469848633, 'learning_rate': 1.834360027378508e-06, 'epoch': 3.83}
+{'loss': 1.2776, 'grad_norm': 2.8334197998046875, 'learning_rate': 1.8326488706365506e-06, 'epoch': 3.83}
+{'loss': 1.2874, 'grad_norm': 2.784036874771118, 'learning_rate': 1.830937713894593e-06, 'epoch': 3.84}
+{'loss': 1.2937, 'grad_norm': 2.86276912689209, 'learning_rate': 1.8292265571526352e-06, 'epoch': 3.84}
+{'loss': 1.31, 'grad_norm': 2.8209753036499023, 'learning_rate': 1.8275154004106776e-06, 'epoch': 3.84}
+{'eval_loss': 1.7695218324661255, 'eval_runtime': 11.589, 'eval_samples_per_second': 51.773, 'eval_steps_per_second': 1.122, 'epoch': 3.84}
+{'loss': 1.2614, 'grad_norm': 2.746575355529785, 'learning_rate': 1.82580424366872e-06, 'epoch': 3.84}
+{'loss': 1.2794, 'grad_norm': 2.8901607990264893, 'learning_rate': 1.8240930869267626e-06, 'epoch': 3.84}
+{'loss': 1.3021, 'grad_norm': 2.734670877456665, 'learning_rate': 1.822381930184805e-06, 'epoch': 3.85}
+{'loss': 1.3071, 'grad_norm': 2.8038551807403564, 'learning_rate': 1.8206707734428474e-06, 'epoch': 3.85}
+{'loss': 1.2925, 'grad_norm': 2.773101568222046, 'learning_rate': 1.81895961670089e-06, 'epoch': 3.85}
+{'loss': 1.3127, 'grad_norm': 2.814366340637207, 'learning_rate': 1.8172484599589324e-06, 'epoch': 3.85}
+{'loss': 1.2837, 'grad_norm': 2.836236000061035, 'learning_rate': 1.8155373032169748e-06, 'epoch': 3.85}
+{'loss': 1.2677, 'grad_norm': 2.7420966625213623, 'learning_rate': 1.8138261464750172e-06, 'epoch': 3.86}
+{'loss': 1.2892, 'grad_norm': 2.7380778789520264, 'learning_rate': 1.8121149897330598e-06, 'epoch': 3.86}
+{'loss': 1.2326, 'grad_norm': 2.650481700897217, 'learning_rate': 1.8104038329911022e-06, 'epoch': 3.86}
+{'eval_loss': 1.7728484869003296, 'eval_runtime': 11.567, 'eval_samples_per_second': 51.872, 'eval_steps_per_second': 1.124, 'epoch': 3.86}
+{'loss': 1.324, 'grad_norm': 2.8791987895965576, 'learning_rate': 1.8086926762491446e-06, 'epoch': 3.86}
+{'loss': 1.2804, 'grad_norm': 2.851116418838501, 'learning_rate': 1.8069815195071872e-06, 'epoch': 3.86}
+{'loss': 1.2989, 'grad_norm': 2.774409294128418, 'learning_rate': 1.8052703627652294e-06, 'epoch': 3.87}
+{'loss': 1.2703, 'grad_norm': 2.8731608390808105, 'learning_rate': 1.8035592060232718e-06, 'epoch': 3.87}
+{'loss': 1.2802, 'grad_norm': 2.7298409938812256, 'learning_rate': 1.8018480492813142e-06, 'epoch': 3.87}
+{'loss': 1.3365, 'grad_norm': 2.8025245666503906, 'learning_rate': 1.8001368925393566e-06, 'epoch': 3.87}
+{'loss': 1.2931, 'grad_norm': 2.7654266357421875, 'learning_rate': 1.7984257357973992e-06, 'epoch': 3.87}
+{'loss': 1.2975, 'grad_norm': 2.8445584774017334, 'learning_rate': 1.7967145790554416e-06, 'epoch': 3.88}
+{'loss': 1.2822, 'grad_norm': 2.9217703342437744, 'learning_rate': 1.795003422313484e-06, 'epoch': 3.88}
+{'loss': 1.2682, 'grad_norm': 2.7656211853027344, 'learning_rate': 1.7932922655715264e-06, 'epoch': 3.88}
+{'eval_loss': 1.770223617553711, 'eval_runtime': 11.5697, 'eval_samples_per_second': 51.86, 'eval_steps_per_second': 1.124, 'epoch': 3.88}
+{'loss': 1.2936, 'grad_norm': 2.7883806228637695, 'learning_rate': 1.791581108829569e-06, 'epoch': 3.88}
+{'loss': 1.3379, 'grad_norm': 2.928189992904663, 'learning_rate': 1.7898699520876114e-06, 'epoch': 3.89}
+{'loss': 1.2896, 'grad_norm': 2.886448383331299, 'learning_rate': 1.7881587953456538e-06, 'epoch': 3.89}
+{'loss': 1.3001, 'grad_norm': 2.938138008117676, 'learning_rate': 1.7864476386036964e-06, 'epoch': 3.89}
+{'loss': 1.2997, 'grad_norm': 2.868704319000244, 'learning_rate': 1.7847364818617388e-06, 'epoch': 3.89}
+{'loss': 1.2724, 'grad_norm': 2.7516722679138184, 'learning_rate': 1.783025325119781e-06, 'epoch': 3.89}
+{'loss': 1.2485, 'grad_norm': 2.6352627277374268, 'learning_rate': 1.7813141683778234e-06, 'epoch': 3.9}
+{'loss': 1.2987, 'grad_norm': 2.721400499343872, 'learning_rate': 1.7796030116358658e-06, 'epoch': 3.9}
+{'loss': 1.2781, 'grad_norm': 2.743802309036255, 'learning_rate': 1.7778918548939084e-06, 'epoch': 3.9}
+{'loss': 1.2643, 'grad_norm': 2.835470199584961, 'learning_rate': 1.7761806981519508e-06, 'epoch': 3.9}
+{'eval_loss': 1.7715831995010376, 'eval_runtime': 11.5988, 'eval_samples_per_second': 51.729, 'eval_steps_per_second': 1.121, 'epoch': 3.9}
+{'loss': 1.311, 'grad_norm': 2.9835314750671387, 'learning_rate': 1.7744695414099932e-06, 'epoch': 3.9}
+{'loss': 1.2763, 'grad_norm': 2.810588836669922, 'learning_rate': 1.7727583846680358e-06, 'epoch': 3.91}
+{'loss': 1.3012, 'grad_norm': 2.8861358165740967, 'learning_rate': 1.7710472279260782e-06, 'epoch': 3.91}
+{'loss': 1.286, 'grad_norm': 2.8474063873291016, 'learning_rate': 1.7693360711841206e-06, 'epoch': 3.91}
+{'loss': 1.2778, 'grad_norm': 2.892857551574707, 'learning_rate': 1.767624914442163e-06, 'epoch': 3.91}
+{'loss': 1.307, 'grad_norm': 2.8593697547912598, 'learning_rate': 1.7659137577002056e-06, 'epoch': 3.91}
+{'loss': 1.2729, 'grad_norm': 2.7292745113372803, 'learning_rate': 1.764202600958248e-06, 'epoch': 3.92}
+{'loss': 1.3363, 'grad_norm': 2.848497152328491, 'learning_rate': 1.7624914442162904e-06, 'epoch': 3.92}
+{'loss': 1.3221, 'grad_norm': 2.9194369316101074, 'learning_rate': 1.7607802874743326e-06, 'epoch': 3.92}
+{'loss': 1.2608, 'grad_norm': 2.77677583694458, 'learning_rate': 1.759069130732375e-06, 'epoch': 3.92}
+{'eval_loss': 1.7643725872039795, 'eval_runtime': 11.5529, 'eval_samples_per_second': 51.935, 'eval_steps_per_second': 1.125, 'epoch': 3.92}
+{'loss': 1.278, 'grad_norm': 2.819550037384033, 'learning_rate': 1.7573579739904176e-06, 'epoch': 3.92}
+{'loss': 1.3161, 'grad_norm': 2.990163803100586, 'learning_rate': 1.75564681724846e-06, 'epoch': 3.93}
+{'loss': 1.25, 'grad_norm': 2.752354145050049, 'learning_rate': 1.7539356605065024e-06, 'epoch': 3.93}
+{'loss': 1.303, 'grad_norm': 2.7442100048065186, 'learning_rate': 1.752224503764545e-06, 'epoch': 3.93}
+{'loss': 1.3285, 'grad_norm': 2.8516530990600586, 'learning_rate': 1.7505133470225874e-06, 'epoch': 3.93}
+{'loss': 1.2831, 'grad_norm': 2.751560926437378, 'learning_rate': 1.7488021902806298e-06, 'epoch': 3.93}
+{'loss': 1.3275, 'grad_norm': 2.9088001251220703, 'learning_rate': 1.7470910335386722e-06, 'epoch': 3.94}
+{'loss': 1.2595, 'grad_norm': 2.7224090099334717, 'learning_rate': 1.7453798767967149e-06, 'epoch': 3.94}
+{'loss': 1.2569, 'grad_norm': 2.7975947856903076, 'learning_rate': 1.7436687200547573e-06, 'epoch': 3.94}
+{'loss': 1.2849, 'grad_norm': 2.8842687606811523, 'learning_rate': 1.7419575633127996e-06, 'epoch': 3.94}
+{'eval_loss': 1.7620360851287842, 'eval_runtime': 11.57, 'eval_samples_per_second': 51.858, 'eval_steps_per_second': 1.124, 'epoch': 3.94}
+{'loss': 1.2421, 'grad_norm': 2.7982707023620605, 'learning_rate': 1.740246406570842e-06, 'epoch': 3.94}
+{'loss': 1.2907, 'grad_norm': 2.9884557723999023, 'learning_rate': 1.7385352498288842e-06, 'epoch': 3.95}
+{'loss': 1.2882, 'grad_norm': 2.7523462772369385, 'learning_rate': 1.7368240930869268e-06, 'epoch': 3.95}
+{'loss': 1.3069, 'grad_norm': 2.876875877380371, 'learning_rate': 1.7351129363449692e-06, 'epoch': 3.95}
+{'loss': 1.2798, 'grad_norm': 2.896684169769287, 'learning_rate': 1.7334017796030116e-06, 'epoch': 3.95}
+{'loss': 1.3072, 'grad_norm': 2.8783154487609863, 'learning_rate': 1.7316906228610543e-06, 'epoch': 3.95}
+{'loss': 1.3006, 'grad_norm': 2.906017541885376, 'learning_rate': 1.7299794661190966e-06, 'epoch': 3.96}
+{'loss': 1.3028, 'grad_norm': 2.704070568084717, 'learning_rate': 1.728268309377139e-06, 'epoch': 3.96}
+{'loss': 1.2637, 'grad_norm': 2.700155019760132, 'learning_rate': 1.7265571526351814e-06, 'epoch': 3.96}
+{'loss': 1.2748, 'grad_norm': 2.762586832046509, 'learning_rate': 1.724845995893224e-06, 'epoch': 3.96}
+{'eval_loss': 1.7637256383895874, 'eval_runtime': 11.5965, 'eval_samples_per_second': 51.74, 'eval_steps_per_second': 1.121, 'epoch': 3.96}
+{'loss': 1.2756, 'grad_norm': 2.861118793487549, 'learning_rate': 1.7231348391512665e-06, 'epoch': 3.97}
+{'loss': 1.2872, 'grad_norm': 3.009727954864502, 'learning_rate': 1.7214236824093089e-06, 'epoch': 3.97}
+{'loss': 1.2643, 'grad_norm': 2.779409408569336, 'learning_rate': 1.7197125256673515e-06, 'epoch': 3.97}
+{'loss': 1.31, 'grad_norm': 2.7975335121154785, 'learning_rate': 1.7180013689253939e-06, 'epoch': 3.97}
+{'loss': 1.2917, 'grad_norm': 2.770677328109741, 'learning_rate': 1.7162902121834363e-06, 'epoch': 3.97}
+{'loss': 1.2798, 'grad_norm': 2.9405717849731445, 'learning_rate': 1.7145790554414784e-06, 'epoch': 3.98}
+{'loss': 1.2779, 'grad_norm': 2.8695268630981445, 'learning_rate': 1.7128678986995208e-06, 'epoch': 3.98}
+{'loss': 1.2964, 'grad_norm': 2.7460782527923584, 'learning_rate': 1.7111567419575635e-06, 'epoch': 3.98}
+{'loss': 1.2627, 'grad_norm': 2.778907299041748, 'learning_rate': 1.7094455852156059e-06, 'epoch': 3.98}
+{'loss': 1.3068, 'grad_norm': 2.8625376224517822, 'learning_rate': 1.7077344284736483e-06, 'epoch': 3.98}
+{'eval_loss': 1.7652921676635742, 'eval_runtime': 11.5649, 'eval_samples_per_second': 51.881, 'eval_steps_per_second': 1.124, 'epoch': 3.98}
+{'loss': 1.2262, 'grad_norm': 2.7561638355255127, 'learning_rate': 1.7060232717316907e-06, 'epoch': 3.99}
+{'loss': 1.3186, 'grad_norm': 2.9019014835357666, 'learning_rate': 1.7043121149897333e-06, 'epoch': 3.99}
+{'loss': 1.3103, 'grad_norm': 2.937455177307129, 'learning_rate': 1.7026009582477757e-06, 'epoch': 3.99}
+{'loss': 1.2861, 'grad_norm': 2.853130340576172, 'learning_rate': 1.700889801505818e-06, 'epoch': 3.99}
+{'loss': 1.2771, 'grad_norm': 2.7601866722106934, 'learning_rate': 1.6991786447638607e-06, 'epoch': 3.99}
+{'loss': 1.2745, 'grad_norm': 2.852267026901245, 'learning_rate': 1.697467488021903e-06, 'epoch': 4.0}
+{'loss': 1.2735, 'grad_norm': 2.8534865379333496, 'learning_rate': 1.6957563312799455e-06, 'epoch': 4.0}
+{'loss': 1.2485, 'grad_norm': 2.8008830547332764, 'learning_rate': 1.6940451745379879e-06, 'epoch': 4.0}
+{'loss': 1.2331, 'grad_norm': 3.1221487522125244, 'learning_rate': 1.69233401779603e-06, 'epoch': 4.0}
+{'loss': 1.2372, 'grad_norm': 3.077021837234497, 'learning_rate': 1.6906228610540727e-06, 'epoch': 4.0}
+{'eval_loss': 1.7775150537490845, 'eval_runtime': 11.5547, 'eval_samples_per_second': 51.927, 'eval_steps_per_second': 1.125, 'epoch': 4.0}
+{'loss': 1.2385, 'grad_norm': 3.0625975131988525, 'learning_rate': 1.688911704312115e-06, 'epoch': 4.01}
+{'loss': 1.2372, 'grad_norm': 3.466207265853882, 'learning_rate': 1.6872005475701575e-06, 'epoch': 4.01}
+{'loss': 1.2448, 'grad_norm': 3.4007434844970703, 'learning_rate': 1.6854893908281999e-06, 'epoch': 4.01}
+{'loss': 1.1994, 'grad_norm': 3.478257179260254, 'learning_rate': 1.6837782340862425e-06, 'epoch': 4.01}
+{'loss': 1.2419, 'grad_norm': 3.2431888580322266, 'learning_rate': 1.6820670773442849e-06, 'epoch': 4.01}
+{'loss': 1.2271, 'grad_norm': 3.129070520401001, 'learning_rate': 1.6803559206023273e-06, 'epoch': 4.02}
+{'loss': 1.2568, 'grad_norm': 3.2585902214050293, 'learning_rate': 1.6786447638603699e-06, 'epoch': 4.02}
+{'loss': 1.2135, 'grad_norm': 3.0343384742736816, 'learning_rate': 1.6769336071184123e-06, 'epoch': 4.02}
+{'loss': 1.2156, 'grad_norm': 3.1365556716918945, 'learning_rate': 1.6752224503764547e-06, 'epoch': 4.02}
+{'loss': 1.2106, 'grad_norm': 3.1392548084259033, 'learning_rate': 1.673511293634497e-06, 'epoch': 4.02}
+{'eval_loss': 1.7867299318313599, 'eval_runtime': 11.4722, 'eval_samples_per_second': 52.3, 'eval_steps_per_second': 1.133, 'epoch': 4.02}
+{'loss': 1.1969, 'grad_norm': 3.194319486618042, 'learning_rate': 1.6718001368925397e-06, 'epoch': 4.03}
+{'loss': 1.2214, 'grad_norm': 3.3016018867492676, 'learning_rate': 1.6700889801505819e-06, 'epoch': 4.03}
+{'loss': 1.2472, 'grad_norm': 3.3013830184936523, 'learning_rate': 1.6683778234086243e-06, 'epoch': 4.03}
+{'loss': 1.2174, 'grad_norm': 3.0076992511749268, 'learning_rate': 1.6666666666666667e-06, 'epoch': 4.03}
+{'loss': 1.2337, 'grad_norm': 3.3095521926879883, 'learning_rate': 1.6649555099247093e-06, 'epoch': 4.03}
+{'loss': 1.235, 'grad_norm': 3.1956167221069336, 'learning_rate': 1.6632443531827517e-06, 'epoch': 4.04}
+{'loss': 1.2469, 'grad_norm': 3.1290268898010254, 'learning_rate': 1.661533196440794e-06, 'epoch': 4.04}
+{'loss': 1.2305, 'grad_norm': 3.0762991905212402, 'learning_rate': 1.6598220396988365e-06, 'epoch': 4.04}
+{'loss': 1.2444, 'grad_norm': 3.165701389312744, 'learning_rate': 1.658110882956879e-06, 'epoch': 4.04}
+{'loss': 1.2449, 'grad_norm': 3.180490255355835, 'learning_rate': 1.6563997262149215e-06, 'epoch': 4.05}
+{'eval_loss': 1.783023715019226, 'eval_runtime': 11.5022, 'eval_samples_per_second': 52.164, 'eval_steps_per_second': 1.13, 'epoch': 4.05}
+{'loss': 1.2395, 'grad_norm': 3.183675765991211, 'learning_rate': 1.6546885694729639e-06, 'epoch': 4.05}
+{'loss': 1.2777, 'grad_norm': 3.3155019283294678, 'learning_rate': 1.6529774127310063e-06, 'epoch': 4.05}
+{'loss': 1.2107, 'grad_norm': 3.1788923740386963, 'learning_rate': 1.6512662559890489e-06, 'epoch': 4.05}
+{'loss': 1.2364, 'grad_norm': 3.3175063133239746, 'learning_rate': 1.6495550992470913e-06, 'epoch': 4.05}
+{'loss': 1.2155, 'grad_norm': 3.081120491027832, 'learning_rate': 1.6478439425051337e-06, 'epoch': 4.06}
+{'loss': 1.2106, 'grad_norm': 3.1451873779296875, 'learning_rate': 1.6461327857631759e-06, 'epoch': 4.06}
+{'loss': 1.2499, 'grad_norm': 3.1425862312316895, 'learning_rate': 1.6444216290212185e-06, 'epoch': 4.06}
+{'loss': 1.265, 'grad_norm': 3.3294100761413574, 'learning_rate': 1.6427104722792609e-06, 'epoch': 4.06}
+{'loss': 1.2252, 'grad_norm': 3.145905017852783, 'learning_rate': 1.6409993155373033e-06, 'epoch': 4.06}
+{'loss': 1.2127, 'grad_norm': 3.1744000911712646, 'learning_rate': 1.6392881587953457e-06, 'epoch': 4.07}
+{'eval_loss': 1.7809995412826538, 'eval_runtime': 11.5432, 'eval_samples_per_second': 51.979, 'eval_steps_per_second': 1.126, 'epoch': 4.07}
+{'loss': 1.2453, 'grad_norm': 3.1824262142181396, 'learning_rate': 1.6375770020533883e-06, 'epoch': 4.07}
+{'loss': 1.238, 'grad_norm': 3.1001393795013428, 'learning_rate': 1.6358658453114307e-06, 'epoch': 4.07}
+{'loss': 1.2058, 'grad_norm': 3.1319634914398193, 'learning_rate': 1.634154688569473e-06, 'epoch': 4.07}
+{'loss': 1.2517, 'grad_norm': 3.2065627574920654, 'learning_rate': 1.6324435318275155e-06, 'epoch': 4.07}
+{'loss': 1.2266, 'grad_norm': 3.2370688915252686, 'learning_rate': 1.630732375085558e-06, 'epoch': 4.08}
+{'loss': 1.2473, 'grad_norm': 3.39772629737854, 'learning_rate': 1.6290212183436005e-06, 'epoch': 4.08}
+{'loss': 1.2377, 'grad_norm': 3.2113919258117676, 'learning_rate': 1.6273100616016429e-06, 'epoch': 4.08}
+{'loss': 1.2495, 'grad_norm': 3.3341331481933594, 'learning_rate': 1.6255989048596855e-06, 'epoch': 4.08}
+{'loss': 1.2503, 'grad_norm': 3.1140940189361572, 'learning_rate': 1.6238877481177277e-06, 'epoch': 4.08}
+{'loss': 1.2635, 'grad_norm': 3.1296026706695557, 'learning_rate': 1.62217659137577e-06, 'epoch': 4.09}
+{'eval_loss': 1.78070068359375, 'eval_runtime': 11.5585, 'eval_samples_per_second': 51.91, 'eval_steps_per_second': 1.125, 'epoch': 4.09}
+{'loss': 1.268, 'grad_norm': 3.291809320449829, 'learning_rate': 1.6204654346338125e-06, 'epoch': 4.09}
+{'loss': 1.2534, 'grad_norm': 3.1446292400360107, 'learning_rate': 1.6187542778918549e-06, 'epoch': 4.09}
+{'loss': 1.23, 'grad_norm': 3.1162407398223877, 'learning_rate': 1.6170431211498975e-06, 'epoch': 4.09}
+{'loss': 1.2583, 'grad_norm': 3.2579104900360107, 'learning_rate': 1.6153319644079399e-06, 'epoch': 4.09}
+{'loss': 1.2504, 'grad_norm': 3.2772746086120605, 'learning_rate': 1.6136208076659823e-06, 'epoch': 4.1}
+{'loss': 1.247, 'grad_norm': 3.2255747318267822, 'learning_rate': 1.6119096509240249e-06, 'epoch': 4.1}
+{'loss': 1.2353, 'grad_norm': 3.1608729362487793, 'learning_rate': 1.6101984941820673e-06, 'epoch': 4.1}
+{'loss': 1.2433, 'grad_norm': 3.2232742309570312, 'learning_rate': 1.6084873374401097e-06, 'epoch': 4.1}
+{'loss': 1.2474, 'grad_norm': 3.1726772785186768, 'learning_rate': 1.606776180698152e-06, 'epoch': 4.1}
+{'loss': 1.2244, 'grad_norm': 3.0668585300445557, 'learning_rate': 1.6050650239561947e-06, 'epoch': 4.11}
+{'eval_loss': 1.7829190492630005, 'eval_runtime': 11.564, 'eval_samples_per_second': 51.885, 'eval_steps_per_second': 1.124, 'epoch': 4.11}
+{'loss': 1.2249, 'grad_norm': 3.257124900817871, 'learning_rate': 1.603353867214237e-06, 'epoch': 4.11}
+{'loss': 1.2488, 'grad_norm': 3.2933411598205566, 'learning_rate': 1.6016427104722793e-06, 'epoch': 4.11}
+{'loss': 1.2011, 'grad_norm': 3.0921895503997803, 'learning_rate': 1.5999315537303217e-06, 'epoch': 4.11}
+{'loss': 1.259, 'grad_norm': 3.201709032058716, 'learning_rate': 1.598220396988364e-06, 'epoch': 4.11}
+{'loss': 1.233, 'grad_norm': 3.1681132316589355, 'learning_rate': 1.5965092402464067e-06, 'epoch': 4.12}
+{'loss': 1.2549, 'grad_norm': 3.199655532836914, 'learning_rate': 1.594798083504449e-06, 'epoch': 4.12}
+{'loss': 1.2455, 'grad_norm': 3.3857295513153076, 'learning_rate': 1.5930869267624915e-06, 'epoch': 4.12}
+{'loss': 1.2111, 'grad_norm': 3.4245195388793945, 'learning_rate': 1.591375770020534e-06, 'epoch': 4.12}
+{'loss': 1.2405, 'grad_norm': 3.1536383628845215, 'learning_rate': 1.5896646132785765e-06, 'epoch': 4.13}
+{'loss': 1.2373, 'grad_norm': 3.2001991271972656, 'learning_rate': 1.587953456536619e-06, 'epoch': 4.13}
+{'eval_loss': 1.7819737195968628, 'eval_runtime': 11.5718, 'eval_samples_per_second': 51.85, 'eval_steps_per_second': 1.123, 'epoch': 4.13}
+{'loss': 1.2713, 'grad_norm': 3.2353854179382324, 'learning_rate': 1.5862422997946613e-06, 'epoch': 4.13}
+{'loss': 1.2292, 'grad_norm': 3.1619350910186768, 'learning_rate': 1.584531143052704e-06, 'epoch': 4.13}
+{'loss': 1.2508, 'grad_norm': 3.280198335647583, 'learning_rate': 1.5828199863107463e-06, 'epoch': 4.13}
+{'loss': 1.2339, 'grad_norm': 3.206932306289673, 'learning_rate': 1.5811088295687887e-06, 'epoch': 4.14}
+{'loss': 1.2424, 'grad_norm': 3.2199554443359375, 'learning_rate': 1.5793976728268309e-06, 'epoch': 4.14}
+{'loss': 1.2518, 'grad_norm': 3.1548469066619873, 'learning_rate': 1.5776865160848733e-06, 'epoch': 4.14}
+{'loss': 1.2794, 'grad_norm': 3.179290294647217, 'learning_rate': 1.575975359342916e-06, 'epoch': 4.14}
+{'loss': 1.2029, 'grad_norm': 3.179290294647217, 'learning_rate': 1.575975359342916e-06, 'epoch': 4.14}
+{'loss': 1.2425, 'grad_norm': 3.2424516677856445, 'learning_rate': 1.5742642026009583e-06, 'epoch': 4.15}
+{'loss': 1.2509, 'grad_norm': 3.211517810821533, 'learning_rate': 1.5725530458590007e-06, 'epoch': 4.15}
+{'eval_loss': 1.7837576866149902, 'eval_runtime': 11.5832, 'eval_samples_per_second': 51.799, 'eval_steps_per_second': 1.122, 'epoch': 4.15}
+{'loss': 1.2494, 'grad_norm': 3.191180467605591, 'learning_rate': 1.5708418891170433e-06, 'epoch': 4.15}
+{'loss': 1.2431, 'grad_norm': 3.2639949321746826, 'learning_rate': 1.5691307323750857e-06, 'epoch': 4.15}
+{'loss': 1.1974, 'grad_norm': 3.174790382385254, 'learning_rate': 1.567419575633128e-06, 'epoch': 4.15}
+{'loss': 1.1833, 'grad_norm': 3.0861501693725586, 'learning_rate': 1.5657084188911705e-06, 'epoch': 4.16}
+{'loss': 1.2265, 'grad_norm': 3.139293670654297, 'learning_rate': 1.5639972621492131e-06, 'epoch': 4.16}
+{'loss': 1.2197, 'grad_norm': 3.3244595527648926, 'learning_rate': 1.5622861054072555e-06, 'epoch': 4.16}
+{'loss': 1.2343, 'grad_norm': 3.14216947555542, 'learning_rate': 1.560574948665298e-06, 'epoch': 4.16}
+{'loss': 1.2391, 'grad_norm': 3.2150652408599854, 'learning_rate': 1.5588637919233405e-06, 'epoch': 4.16}
+{'loss': 1.2555, 'grad_norm': 3.1865828037261963, 'learning_rate': 1.557152635181383e-06, 'epoch': 4.17}
+{'loss': 1.2075, 'grad_norm': 3.264765739440918, 'learning_rate': 1.555441478439425e-06, 'epoch': 4.17}
+{'eval_loss': 1.788177490234375, 'eval_runtime': 11.5767, 'eval_samples_per_second': 51.828, 'eval_steps_per_second': 1.123, 'epoch': 4.17}
+{'loss': 1.2516, 'grad_norm': 3.2717320919036865, 'learning_rate': 1.5537303216974675e-06, 'epoch': 4.17}
+{'loss': 1.2139, 'grad_norm': 3.1099750995635986, 'learning_rate': 1.55201916495551e-06, 'epoch': 4.17}
+{'loss': 1.2235, 'grad_norm': 3.1655173301696777, 'learning_rate': 1.5503080082135525e-06, 'epoch': 4.17}
+{'loss': 1.205, 'grad_norm': 3.1592776775360107, 'learning_rate': 1.548596851471595e-06, 'epoch': 4.18}
+{'loss': 1.2402, 'grad_norm': 3.0607340335845947, 'learning_rate': 1.5468856947296373e-06, 'epoch': 4.18}
+{'loss': 1.2418, 'grad_norm': 3.182649850845337, 'learning_rate': 1.5451745379876797e-06, 'epoch': 4.18}
+{'loss': 1.2615, 'grad_norm': 3.1291446685791016, 'learning_rate': 1.5434633812457223e-06, 'epoch': 4.18}
+{'loss': 1.2369, 'grad_norm': 3.1955831050872803, 'learning_rate': 1.5417522245037647e-06, 'epoch': 4.18}
+{'loss': 1.2699, 'grad_norm': 3.268455743789673, 'learning_rate': 1.5400410677618071e-06, 'epoch': 4.19}
+{'loss': 1.2564, 'grad_norm': 3.242694854736328, 'learning_rate': 1.5383299110198497e-06, 'epoch': 4.19}
+{'eval_loss': 1.7893152236938477, 'eval_runtime': 11.5693, 'eval_samples_per_second': 51.862, 'eval_steps_per_second': 1.124, 'epoch': 4.19}
+{'loss': 1.2783, 'grad_norm': 3.3107588291168213, 'learning_rate': 1.5366187542778921e-06, 'epoch': 4.19}
+{'loss': 1.2152, 'grad_norm': 3.184354305267334, 'learning_rate': 1.5349075975359345e-06, 'epoch': 4.19}
+{'loss': 1.2347, 'grad_norm': 3.2714245319366455, 'learning_rate': 1.5331964407939767e-06, 'epoch': 4.2}
+{'loss': 1.2434, 'grad_norm': 3.165703058242798, 'learning_rate': 1.531485284052019e-06, 'epoch': 4.2}
+{'loss': 1.2358, 'grad_norm': 3.093477725982666, 'learning_rate': 1.5297741273100617e-06, 'epoch': 4.2}
+{'loss': 1.242, 'grad_norm': 3.333779811859131, 'learning_rate': 1.5280629705681041e-06, 'epoch': 4.2}
+{'loss': 1.2452, 'grad_norm': 3.199589252471924, 'learning_rate': 1.5263518138261465e-06, 'epoch': 4.2}
+{'loss': 1.2563, 'grad_norm': 3.4244022369384766, 'learning_rate': 1.524640657084189e-06, 'epoch': 4.21}
+{'loss': 1.2431, 'grad_norm': 3.2281341552734375, 'learning_rate': 1.5229295003422315e-06, 'epoch': 4.21}
+{'loss': 1.2386, 'grad_norm': 3.2481868267059326, 'learning_rate': 1.521218343600274e-06, 'epoch': 4.21}
+{'eval_loss': 1.794697642326355, 'eval_runtime': 11.5719, 'eval_samples_per_second': 51.85, 'eval_steps_per_second': 1.123, 'epoch': 4.21}
+{'loss': 1.2293, 'grad_norm': 3.206951856613159, 'learning_rate': 1.5195071868583163e-06, 'epoch': 4.21}
+{'loss': 1.2333, 'grad_norm': 3.18501615524292, 'learning_rate': 1.517796030116359e-06, 'epoch': 4.21}
+{'loss': 1.2308, 'grad_norm': 3.2005207538604736, 'learning_rate': 1.5160848733744013e-06, 'epoch': 4.22}
+{'loss': 1.2525, 'grad_norm': 3.1361465454101562, 'learning_rate': 1.5143737166324437e-06, 'epoch': 4.22}
+{'loss': 1.2195, 'grad_norm': 3.252446174621582, 'learning_rate': 1.5126625598904861e-06, 'epoch': 4.22}
+{'loss': 1.208, 'grad_norm': 3.095816135406494, 'learning_rate': 1.5109514031485283e-06, 'epoch': 4.22}
+{'loss': 1.2568, 'grad_norm': 3.290442705154419, 'learning_rate': 1.509240246406571e-06, 'epoch': 4.22}
+{'loss': 1.2581, 'grad_norm': 3.249382734298706, 'learning_rate': 1.5075290896646133e-06, 'epoch': 4.23}
+{'loss': 1.2489, 'grad_norm': 3.4274234771728516, 'learning_rate': 1.5058179329226557e-06, 'epoch': 4.23}
+{'loss': 1.2342, 'grad_norm': 3.306583881378174, 'learning_rate': 1.5041067761806983e-06, 'epoch': 4.23}
+{'eval_loss': 1.795407772064209, 'eval_runtime': 11.5834, 'eval_samples_per_second': 51.798, 'eval_steps_per_second': 1.122, 'epoch': 4.23}
+{'loss': 1.2257, 'grad_norm': 3.1165804862976074, 'learning_rate': 1.5023956194387407e-06, 'epoch': 4.23}
+{'loss': 1.2219, 'grad_norm': 3.1902973651885986, 'learning_rate': 1.5006844626967831e-06, 'epoch': 4.23}
+{'loss': 1.2681, 'grad_norm': 3.3610830307006836, 'learning_rate': 1.4989733059548255e-06, 'epoch': 4.24}
+{'loss': 1.2257, 'grad_norm': 3.2136733531951904, 'learning_rate': 1.4972621492128681e-06, 'epoch': 4.24}
+{'loss': 1.2211, 'grad_norm': 3.225229024887085, 'learning_rate': 1.4955509924709105e-06, 'epoch': 4.24}
+{'loss': 1.2384, 'grad_norm': 3.251479148864746, 'learning_rate': 1.493839835728953e-06, 'epoch': 4.24}
+{'loss': 1.2557, 'grad_norm': 3.3741531372070312, 'learning_rate': 1.4921286789869953e-06, 'epoch': 4.24}
+{'loss': 1.2521, 'grad_norm': 3.265573501586914, 'learning_rate': 1.490417522245038e-06, 'epoch': 4.25}
+{'loss': 1.2318, 'grad_norm': 3.436032295227051, 'learning_rate': 1.4887063655030803e-06, 'epoch': 4.25}
+{'loss': 1.2357, 'grad_norm': 3.1006646156311035, 'learning_rate': 1.4869952087611225e-06, 'epoch': 4.25}
+{'eval_loss': 1.7839387655258179, 'eval_runtime': 11.574, 'eval_samples_per_second': 51.84, 'eval_steps_per_second': 1.123, 'epoch': 4.25}
+{'loss': 1.2221, 'grad_norm': 3.1160380840301514, 'learning_rate': 1.485284052019165e-06, 'epoch': 4.25}
+{'loss': 1.2227, 'grad_norm': 3.2090795040130615, 'learning_rate': 1.4835728952772075e-06, 'epoch': 4.25}
+{'loss': 1.2463, 'grad_norm': 3.272205114364624, 'learning_rate': 1.48186173853525e-06, 'epoch': 4.26}
+{'loss': 1.2587, 'grad_norm': 3.1839632987976074, 'learning_rate': 1.4801505817932923e-06, 'epoch': 4.26}
+{'loss': 1.2533, 'grad_norm': 3.239328384399414, 'learning_rate': 1.4784394250513347e-06, 'epoch': 4.26}
+{'loss': 1.2637, 'grad_norm': 3.3465116024017334, 'learning_rate': 1.4767282683093773e-06, 'epoch': 4.26}
+{'loss': 1.2258, 'grad_norm': 3.2118518352508545, 'learning_rate': 1.4750171115674197e-06, 'epoch': 4.26}
+{'loss': 1.2246, 'grad_norm': 3.161102533340454, 'learning_rate': 1.4733059548254621e-06, 'epoch': 4.27}
+{'loss': 1.2354, 'grad_norm': 3.315739870071411, 'learning_rate': 1.4715947980835047e-06, 'epoch': 4.27}
+{'loss': 1.2269, 'grad_norm': 3.27669095993042, 'learning_rate': 1.4698836413415471e-06, 'epoch': 4.27}
+{'eval_loss': 1.783190131187439, 'eval_runtime': 11.5875, 'eval_samples_per_second': 51.78, 'eval_steps_per_second': 1.122, 'epoch': 4.27}
+{'loss': 1.2134, 'grad_norm': 3.155632495880127, 'learning_rate': 1.4681724845995895e-06, 'epoch': 4.27}
+{'loss': 1.2483, 'grad_norm': 3.128479480743408, 'learning_rate': 1.466461327857632e-06, 'epoch': 4.28}
+{'loss': 1.269, 'grad_norm': 3.246668577194214, 'learning_rate': 1.4647501711156741e-06, 'epoch': 4.28}
+{'loss': 1.2624, 'grad_norm': 3.3188846111297607, 'learning_rate': 1.4630390143737167e-06, 'epoch': 4.28}
+{'loss': 1.264, 'grad_norm': 3.3023629188537598, 'learning_rate': 1.4613278576317591e-06, 'epoch': 4.28}
+{'loss': 1.2386, 'grad_norm': 3.3085122108459473, 'learning_rate': 1.4596167008898015e-06, 'epoch': 4.28}
+{'loss': 1.1894, 'grad_norm': 3.1063308715820312, 'learning_rate': 1.457905544147844e-06, 'epoch': 4.29}
+{'loss': 1.2472, 'grad_norm': 3.2734968662261963, 'learning_rate': 1.4561943874058865e-06, 'epoch': 4.29}
+{'loss': 1.2442, 'grad_norm': 3.3154938220977783, 'learning_rate': 1.454483230663929e-06, 'epoch': 4.29}
+{'loss': 1.251, 'grad_norm': 3.374656915664673, 'learning_rate': 1.4527720739219713e-06, 'epoch': 4.29}
+{'eval_loss': 1.7893978357315063, 'eval_runtime': 11.5894, 'eval_samples_per_second': 51.771, 'eval_steps_per_second': 1.122, 'epoch': 4.29}
+{'loss': 1.2248, 'grad_norm': 3.256467580795288, 'learning_rate': 1.451060917180014e-06, 'epoch': 4.29}
+{'loss': 1.2101, 'grad_norm': 3.2717349529266357, 'learning_rate': 1.4493497604380563e-06, 'epoch': 4.3}
+{'loss': 1.2836, 'grad_norm': 3.3155980110168457, 'learning_rate': 1.4476386036960987e-06, 'epoch': 4.3}
+{'loss': 1.2602, 'grad_norm': 3.2874772548675537, 'learning_rate': 1.4459274469541411e-06, 'epoch': 4.3}
+{'loss': 1.2737, 'grad_norm': 3.260599136352539, 'learning_rate': 1.4442162902121838e-06, 'epoch': 4.3}
+{'loss': 1.237, 'grad_norm': 3.151749610900879, 'learning_rate': 1.442505133470226e-06, 'epoch': 4.3}
+{'loss': 1.2612, 'grad_norm': 3.294217586517334, 'learning_rate': 1.4407939767282683e-06, 'epoch': 4.31}
+{'loss': 1.2447, 'grad_norm': 3.173983335494995, 'learning_rate': 1.4390828199863107e-06, 'epoch': 4.31}
+{'loss': 1.2323, 'grad_norm': 3.248413324356079, 'learning_rate': 1.4373716632443531e-06, 'epoch': 4.31}
+{'loss': 1.2645, 'grad_norm': 3.3321902751922607, 'learning_rate': 1.4356605065023957e-06, 'epoch': 4.31}
+{'eval_loss': 1.7983568906784058, 'eval_runtime': 11.5949, 'eval_samples_per_second': 51.747, 'eval_steps_per_second': 1.121, 'epoch': 4.31}
+{'loss': 1.256, 'grad_norm': 3.279411554336548, 'learning_rate': 1.4339493497604381e-06, 'epoch': 4.31}
+{'loss': 1.2205, 'grad_norm': 3.25197172164917, 'learning_rate': 1.4322381930184805e-06, 'epoch': 4.32}
+{'loss': 1.231, 'grad_norm': 3.3871123790740967, 'learning_rate': 1.4305270362765232e-06, 'epoch': 4.32}
+{'loss': 1.2319, 'grad_norm': 3.3067121505737305, 'learning_rate': 1.4288158795345655e-06, 'epoch': 4.32}
+{'loss': 1.2435, 'grad_norm': 3.260220766067505, 'learning_rate': 1.427104722792608e-06, 'epoch': 4.32}
+{'loss': 1.2504, 'grad_norm': 3.1742241382598877, 'learning_rate': 1.4253935660506503e-06, 'epoch': 4.32}
+{'loss': 1.2329, 'grad_norm': 3.2426881790161133, 'learning_rate': 1.423682409308693e-06, 'epoch': 4.33}
+{'loss': 1.2476, 'grad_norm': 3.3442745208740234, 'learning_rate': 1.4219712525667354e-06, 'epoch': 4.33}
+{'loss': 1.2359, 'grad_norm': 3.3083584308624268, 'learning_rate': 1.4202600958247775e-06, 'epoch': 4.33}
+{'loss': 1.2301, 'grad_norm': 3.273406505584717, 'learning_rate': 1.41854893908282e-06, 'epoch': 4.33}
+{'eval_loss': 1.7991178035736084, 'eval_runtime': 11.4744, 'eval_samples_per_second': 52.29, 'eval_steps_per_second': 1.133, 'epoch': 4.33}
+{'loss': 1.2305, 'grad_norm': 3.307248830795288, 'learning_rate': 1.4168377823408625e-06, 'epoch': 4.33}
+{'loss': 1.2538, 'grad_norm': 3.293987989425659, 'learning_rate': 1.415126625598905e-06, 'epoch': 4.34}
+{'loss': 1.2291, 'grad_norm': 3.349738121032715, 'learning_rate': 1.4134154688569473e-06, 'epoch': 4.34}
+{'loss': 1.2254, 'grad_norm': 3.274869680404663, 'learning_rate': 1.4117043121149897e-06, 'epoch': 4.34}
+{'loss': 1.2427, 'grad_norm': 3.237518548965454, 'learning_rate': 1.4099931553730324e-06, 'epoch': 4.34}
+{'loss': 1.2693, 'grad_norm': 3.246717691421509, 'learning_rate': 1.4082819986310748e-06, 'epoch': 4.34}
+{'loss': 1.273, 'grad_norm': 3.365220308303833, 'learning_rate': 1.4065708418891172e-06, 'epoch': 4.35}
+{'loss': 1.2265, 'grad_norm': 3.2149667739868164, 'learning_rate': 1.4048596851471596e-06, 'epoch': 4.35}
+{'loss': 1.2529, 'grad_norm': 3.244997978210449, 'learning_rate': 1.4031485284052022e-06, 'epoch': 4.35}
+{'loss': 1.2147, 'grad_norm': 3.1950321197509766, 'learning_rate': 1.4014373716632446e-06, 'epoch': 4.35}
+{'eval_loss': 1.7895066738128662, 'eval_runtime': 11.5383, 'eval_samples_per_second': 52.001, 'eval_steps_per_second': 1.127, 'epoch': 4.35}
+{'loss': 1.2197, 'grad_norm': 3.1533477306365967, 'learning_rate': 1.399726214921287e-06, 'epoch': 4.36}
+{'loss': 1.2662, 'grad_norm': 3.278449773788452, 'learning_rate': 1.3980150581793296e-06, 'epoch': 4.36}
+{'loss': 1.2706, 'grad_norm': 3.3142154216766357, 'learning_rate': 1.3963039014373718e-06, 'epoch': 4.36}
+{'loss': 1.2998, 'grad_norm': 3.365104913711548, 'learning_rate': 1.3945927446954142e-06, 'epoch': 4.36}
+{'loss': 1.2904, 'grad_norm': 3.372878313064575, 'learning_rate': 1.3928815879534566e-06, 'epoch': 4.36}
+{'loss': 1.2163, 'grad_norm': 3.1830766201019287, 'learning_rate': 1.391170431211499e-06, 'epoch': 4.37}
+{'loss': 1.211, 'grad_norm': 3.1002607345581055, 'learning_rate': 1.3894592744695416e-06, 'epoch': 4.37}
+{'loss': 1.2508, 'grad_norm': 3.1443166732788086, 'learning_rate': 1.387748117727584e-06, 'epoch': 4.37}
+{'loss': 1.2381, 'grad_norm': 3.1691110134124756, 'learning_rate': 1.3860369609856264e-06, 'epoch': 4.37}
+{'loss': 1.2482, 'grad_norm': 3.276630401611328, 'learning_rate': 1.3843258042436688e-06, 'epoch': 4.37}
+{'eval_loss': 1.7887864112854004, 'eval_runtime': 11.5515, 'eval_samples_per_second': 51.941, 'eval_steps_per_second': 1.125, 'epoch': 4.37}
+{'loss': 1.2499, 'grad_norm': 3.2049062252044678, 'learning_rate': 1.3826146475017114e-06, 'epoch': 4.38}
+{'loss': 1.2578, 'grad_norm': 3.2184321880340576, 'learning_rate': 1.3809034907597538e-06, 'epoch': 4.38}
+{'loss': 1.2052, 'grad_norm': 3.2511725425720215, 'learning_rate': 1.3791923340177962e-06, 'epoch': 4.38}
+{'loss': 1.2546, 'grad_norm': 3.2211227416992188, 'learning_rate': 1.3774811772758388e-06, 'epoch': 4.38}
+{'loss': 1.2237, 'grad_norm': 3.1567413806915283, 'learning_rate': 1.3757700205338812e-06, 'epoch': 4.38}
+{'loss': 1.2416, 'grad_norm': 3.197636604309082, 'learning_rate': 1.3740588637919234e-06, 'epoch': 4.39}
+{'loss': 1.2209, 'grad_norm': 3.2357866764068604, 'learning_rate': 1.3723477070499658e-06, 'epoch': 4.39}
+{'loss': 1.2547, 'grad_norm': 3.3040544986724854, 'learning_rate': 1.3706365503080082e-06, 'epoch': 4.39}
+{'loss': 1.2616, 'grad_norm': 3.2781124114990234, 'learning_rate': 1.3689253935660508e-06, 'epoch': 4.39}
+{'loss': 1.2306, 'grad_norm': 3.3077478408813477, 'learning_rate': 1.3672142368240932e-06, 'epoch': 4.39}
+{'eval_loss': 1.783365249633789, 'eval_runtime': 11.5645, 'eval_samples_per_second': 51.883, 'eval_steps_per_second': 1.124, 'epoch': 4.39}
+{'loss': 1.2332, 'grad_norm': 3.2392404079437256, 'learning_rate': 1.3655030800821356e-06, 'epoch': 4.4}
+{'loss': 1.2397, 'grad_norm': 3.145251512527466, 'learning_rate': 1.3637919233401782e-06, 'epoch': 4.4}
+{'loss': 1.2595, 'grad_norm': 3.2335691452026367, 'learning_rate': 1.3620807665982206e-06, 'epoch': 4.4}
+{'loss': 1.276, 'grad_norm': 3.145282030105591, 'learning_rate': 1.360369609856263e-06, 'epoch': 4.4}
+{'loss': 1.233, 'grad_norm': 3.172175407409668, 'learning_rate': 1.3586584531143054e-06, 'epoch': 4.4}
+{'loss': 1.2547, 'grad_norm': 3.210663080215454, 'learning_rate': 1.356947296372348e-06, 'epoch': 4.41}
+{'loss': 1.2357, 'grad_norm': 3.1155381202697754, 'learning_rate': 1.3552361396303904e-06, 'epoch': 4.41}
+{'loss': 1.2396, 'grad_norm': 3.279658079147339, 'learning_rate': 1.3535249828884328e-06, 'epoch': 4.41}
+{'loss': 1.2934, 'grad_norm': 3.5039920806884766, 'learning_rate': 1.351813826146475e-06, 'epoch': 4.41}
+{'loss': 1.2448, 'grad_norm': 3.2596826553344727, 'learning_rate': 1.3501026694045174e-06, 'epoch': 4.41}
+{'eval_loss': 1.792880654335022, 'eval_runtime': 11.5791, 'eval_samples_per_second': 51.817, 'eval_steps_per_second': 1.123, 'epoch': 4.41}
+{'loss': 1.2528, 'grad_norm': 3.4295618534088135, 'learning_rate': 1.34839151266256e-06, 'epoch': 4.42}
+{'loss': 1.2531, 'grad_norm': 3.319061756134033, 'learning_rate': 1.3466803559206024e-06, 'epoch': 4.42}
+{'loss': 1.2354, 'grad_norm': 3.3136496543884277, 'learning_rate': 1.3449691991786448e-06, 'epoch': 4.42}
+{'loss': 1.2465, 'grad_norm': 3.3246359825134277, 'learning_rate': 1.3432580424366874e-06, 'epoch': 4.42}
+{'loss': 1.2354, 'grad_norm': 3.1677823066711426, 'learning_rate': 1.3415468856947298e-06, 'epoch': 4.43}
+{'loss': 1.2005, 'grad_norm': 3.198638916015625, 'learning_rate': 1.3398357289527722e-06, 'epoch': 4.43}
+{'loss': 1.2444, 'grad_norm': 3.190213203430176, 'learning_rate': 1.3381245722108146e-06, 'epoch': 4.43}
+{'loss': 1.2441, 'grad_norm': 3.273498296737671, 'learning_rate': 1.3364134154688572e-06, 'epoch': 4.43}
+{'loss': 1.2286, 'grad_norm': 3.2354979515075684, 'learning_rate': 1.3347022587268996e-06, 'epoch': 4.43}
+{'loss': 1.2191, 'grad_norm': 3.3094794750213623, 'learning_rate': 1.332991101984942e-06, 'epoch': 4.44}
+{'eval_loss': 1.7922403812408447, 'eval_runtime': 11.5662, 'eval_samples_per_second': 51.875, 'eval_steps_per_second': 1.124, 'epoch': 4.44}
+{'loss': 1.1901, 'grad_norm': 3.255676507949829, 'learning_rate': 1.3312799452429846e-06, 'epoch': 4.44}
+{'loss': 1.2493, 'grad_norm': 3.1694278717041016, 'learning_rate': 1.329568788501027e-06, 'epoch': 4.44}
+{'loss': 1.2468, 'grad_norm': 3.322039842605591, 'learning_rate': 1.3278576317590692e-06, 'epoch': 4.44}
+{'loss': 1.2732, 'grad_norm': 3.3572657108306885, 'learning_rate': 1.3261464750171116e-06, 'epoch': 4.44}
+{'loss': 1.2533, 'grad_norm': 3.254525661468506, 'learning_rate': 1.324435318275154e-06, 'epoch': 4.45}
+{'loss': 1.1914, 'grad_norm': 3.170593023300171, 'learning_rate': 1.3227241615331966e-06, 'epoch': 4.45}
+{'loss': 1.2183, 'grad_norm': 3.180283308029175, 'learning_rate': 1.321013004791239e-06, 'epoch': 4.45}
+{'loss': 1.234, 'grad_norm': 3.2382142543792725, 'learning_rate': 1.3193018480492814e-06, 'epoch': 4.45}
+{'loss': 1.2329, 'grad_norm': 3.0944042205810547, 'learning_rate': 1.3175906913073238e-06, 'epoch': 4.45}
+{'loss': 1.2717, 'grad_norm': 3.225968599319458, 'learning_rate': 1.3158795345653664e-06, 'epoch': 4.46}
+{'eval_loss': 1.7891839742660522, 'eval_runtime': 11.5542, 'eval_samples_per_second': 51.929, 'eval_steps_per_second': 1.125, 'epoch': 4.46}
+{'loss': 1.2425, 'grad_norm': 3.096353769302368, 'learning_rate': 1.3141683778234088e-06, 'epoch': 4.46}
+{'loss': 1.2576, 'grad_norm': 3.2828216552734375, 'learning_rate': 1.3124572210814512e-06, 'epoch': 4.46}
+{'loss': 1.2115, 'grad_norm': 3.2420928478240967, 'learning_rate': 1.3107460643394938e-06, 'epoch': 4.46}
+{'loss': 1.2123, 'grad_norm': 3.249053716659546, 'learning_rate': 1.3090349075975362e-06, 'epoch': 4.46}
+{'loss': 1.2415, 'grad_norm': 3.2603671550750732, 'learning_rate': 1.3073237508555786e-06, 'epoch': 4.47}
+{'loss': 1.2225, 'grad_norm': 3.1672680377960205, 'learning_rate': 1.3056125941136208e-06, 'epoch': 4.47}
+{'loss': 1.2593, 'grad_norm': 3.3182904720306396, 'learning_rate': 1.3039014373716632e-06, 'epoch': 4.47}
+{'loss': 1.2332, 'grad_norm': 3.1714510917663574, 'learning_rate': 1.3021902806297058e-06, 'epoch': 4.47}
+{'loss': 1.2446, 'grad_norm': 3.1379265785217285, 'learning_rate': 1.3004791238877482e-06, 'epoch': 4.47}
+{'loss': 1.2133, 'grad_norm': 3.11228346824646, 'learning_rate': 1.2987679671457906e-06, 'epoch': 4.48}
+{'eval_loss': 1.7897796630859375, 'eval_runtime': 11.5575, 'eval_samples_per_second': 51.914, 'eval_steps_per_second': 1.125, 'epoch': 4.48}
+{'loss': 1.2295, 'grad_norm': 3.233469009399414, 'learning_rate': 1.297056810403833e-06, 'epoch': 4.48}
+{'loss': 1.2283, 'grad_norm': 3.194810152053833, 'learning_rate': 1.2953456536618756e-06, 'epoch': 4.48}
+{'loss': 1.2426, 'grad_norm': 3.3261184692382812, 'learning_rate': 1.293634496919918e-06, 'epoch': 4.48}
+{'loss': 1.2647, 'grad_norm': 3.289828062057495, 'learning_rate': 1.2919233401779604e-06, 'epoch': 4.48}
+{'loss': 1.2392, 'grad_norm': 3.2228143215179443, 'learning_rate': 1.290212183436003e-06, 'epoch': 4.49}
+{'loss': 1.2272, 'grad_norm': 3.242952823638916, 'learning_rate': 1.2885010266940454e-06, 'epoch': 4.49}
+{'loss': 1.2699, 'grad_norm': 3.1797120571136475, 'learning_rate': 1.2867898699520878e-06, 'epoch': 4.49}
+{'loss': 1.2546, 'grad_norm': 3.29459547996521, 'learning_rate': 1.2850787132101302e-06, 'epoch': 4.49}
+{'loss': 1.246, 'grad_norm': 3.2177131175994873, 'learning_rate': 1.2833675564681724e-06, 'epoch': 4.49}
+{'loss': 1.2235, 'grad_norm': 3.1727967262268066, 'learning_rate': 1.281656399726215e-06, 'epoch': 4.5}
+{'eval_loss': 1.7908587455749512, 'eval_runtime': 11.5565, 'eval_samples_per_second': 51.919, 'eval_steps_per_second': 1.125, 'epoch': 4.5}
+{'loss': 1.2434, 'grad_norm': 3.380117177963257, 'learning_rate': 1.2799452429842574e-06, 'epoch': 4.5}
+{'loss': 1.2262, 'grad_norm': 3.2274529933929443, 'learning_rate': 1.2782340862422998e-06, 'epoch': 4.5}
+{'loss': 1.2262, 'grad_norm': 3.416872024536133, 'learning_rate': 1.2765229295003422e-06, 'epoch': 4.5}
+{'loss': 1.2595, 'grad_norm': 3.271327257156372, 'learning_rate': 1.2748117727583848e-06, 'epoch': 4.51}
+{'loss': 1.2467, 'grad_norm': 3.226706027984619, 'learning_rate': 1.2731006160164272e-06, 'epoch': 4.51}
+{'loss': 1.2349, 'grad_norm': 3.1796605587005615, 'learning_rate': 1.2713894592744696e-06, 'epoch': 4.51}
+{'loss': 1.2277, 'grad_norm': 3.1813035011291504, 'learning_rate': 1.2696783025325122e-06, 'epoch': 4.51}
+{'loss': 1.2164, 'grad_norm': 3.2755086421966553, 'learning_rate': 1.2679671457905546e-06, 'epoch': 4.51}
+{'loss': 1.199, 'grad_norm': 3.1956498622894287, 'learning_rate': 1.266255989048597e-06, 'epoch': 4.52}
+{'loss': 1.2268, 'grad_norm': 3.2840559482574463, 'learning_rate': 1.2645448323066394e-06, 'epoch': 4.52}
+{'eval_loss': 1.7855995893478394, 'eval_runtime': 11.557, 'eval_samples_per_second': 51.916, 'eval_steps_per_second': 1.125, 'epoch': 4.52}
+{'loss': 1.2285, 'grad_norm': 3.281322717666626, 'learning_rate': 1.262833675564682e-06, 'epoch': 4.52}
+{'loss': 1.2298, 'grad_norm': 3.2456424236297607, 'learning_rate': 1.2611225188227242e-06, 'epoch': 4.52}
+{'loss': 1.2514, 'grad_norm': 3.272343397140503, 'learning_rate': 1.2594113620807666e-06, 'epoch': 4.52}
+{'loss': 1.2682, 'grad_norm': 3.494035243988037, 'learning_rate': 1.257700205338809e-06, 'epoch': 4.53}
+{'loss': 1.2363, 'grad_norm': 3.2215335369110107, 'learning_rate': 1.2559890485968516e-06, 'epoch': 4.53}
+{'loss': 1.2608, 'grad_norm': 3.314852237701416, 'learning_rate': 1.254277891854894e-06, 'epoch': 4.53}
+{'loss': 1.2382, 'grad_norm': 3.265357255935669, 'learning_rate': 1.2525667351129364e-06, 'epoch': 4.53}
+{'loss': 1.2495, 'grad_norm': 3.3078250885009766, 'learning_rate': 1.2508555783709788e-06, 'epoch': 4.53}
+{'loss': 1.2566, 'grad_norm': 3.2917792797088623, 'learning_rate': 1.2491444216290214e-06, 'epoch': 4.54}
+{'loss': 1.2211, 'grad_norm': 3.1520087718963623, 'learning_rate': 1.2474332648870638e-06, 'epoch': 4.54}
+{'eval_loss': 1.787532091140747, 'eval_runtime': 11.5539, 'eval_samples_per_second': 51.93, 'eval_steps_per_second': 1.125, 'epoch': 4.54}
+{'loss': 1.2439, 'grad_norm': 3.2725517749786377, 'learning_rate': 1.2457221081451062e-06, 'epoch': 4.54}
+{'loss': 1.1925, 'grad_norm': 3.0817067623138428, 'learning_rate': 1.2440109514031486e-06, 'epoch': 4.54}
+{'loss': 1.2403, 'grad_norm': 3.323518991470337, 'learning_rate': 1.242299794661191e-06, 'epoch': 4.54}
+{'loss': 1.2485, 'grad_norm': 3.3245933055877686, 'learning_rate': 1.2405886379192334e-06, 'epoch': 4.55}
+{'loss': 1.2345, 'grad_norm': 3.329570770263672, 'learning_rate': 1.238877481177276e-06, 'epoch': 4.55}
+{'loss': 1.2274, 'grad_norm': 3.1183550357818604, 'learning_rate': 1.2371663244353184e-06, 'epoch': 4.55}
+{'loss': 1.2735, 'grad_norm': 3.3416836261749268, 'learning_rate': 1.2354551676933608e-06, 'epoch': 4.55}
+{'loss': 1.2172, 'grad_norm': 3.1780989170074463, 'learning_rate': 1.2337440109514032e-06, 'epoch': 4.55}
+{'loss': 1.2252, 'grad_norm': 3.2135238647460938, 'learning_rate': 1.2320328542094456e-06, 'epoch': 4.56}
+{'loss': 1.2619, 'grad_norm': 3.2103688716888428, 'learning_rate': 1.230321697467488e-06, 'epoch': 4.56}
+{'eval_loss': 1.7907397747039795, 'eval_runtime': 11.5626, 'eval_samples_per_second': 51.891, 'eval_steps_per_second': 1.124, 'epoch': 4.56}
+{'loss': 1.2511, 'grad_norm': 3.1691927909851074, 'learning_rate': 1.2286105407255306e-06, 'epoch': 4.56}
+{'loss': 1.2373, 'grad_norm': 3.200554132461548, 'learning_rate': 1.226899383983573e-06, 'epoch': 4.56}
+{'loss': 1.2228, 'grad_norm': 3.1789824962615967, 'learning_rate': 1.2251882272416154e-06, 'epoch': 4.56}
+{'loss': 1.2048, 'grad_norm': 3.242276668548584, 'learning_rate': 1.223477070499658e-06, 'epoch': 4.57}
+{'loss': 1.2072, 'grad_norm': 3.2700881958007812, 'learning_rate': 1.2217659137577004e-06, 'epoch': 4.57}
+{'loss': 1.2572, 'grad_norm': 3.3198676109313965, 'learning_rate': 1.2200547570157426e-06, 'epoch': 4.57}
+{'loss': 1.2271, 'grad_norm': 3.239431142807007, 'learning_rate': 1.2183436002737852e-06, 'epoch': 4.57}
+{'loss': 1.2353, 'grad_norm': 3.1278457641601562, 'learning_rate': 1.2166324435318276e-06, 'epoch': 4.57}
+{'loss': 1.222, 'grad_norm': 3.2249069213867188, 'learning_rate': 1.21492128678987e-06, 'epoch': 4.58}
+{'loss': 1.2568, 'grad_norm': 3.289123296737671, 'learning_rate': 1.2132101300479126e-06, 'epoch': 4.58}
+{'eval_loss': 1.790540337562561, 'eval_runtime': 11.5786, 'eval_samples_per_second': 51.82, 'eval_steps_per_second': 1.123, 'epoch': 4.58}
+{'loss': 1.2061, 'grad_norm': 3.0921576023101807, 'learning_rate': 1.211498973305955e-06, 'epoch': 4.58}
+{'loss': 1.2555, 'grad_norm': 3.153740406036377, 'learning_rate': 1.2097878165639972e-06, 'epoch': 4.58}
+{'loss': 1.2264, 'grad_norm': 3.2149665355682373, 'learning_rate': 1.2080766598220398e-06, 'epoch': 4.59}
+{'loss': 1.2301, 'grad_norm': 3.1545867919921875, 'learning_rate': 1.2063655030800822e-06, 'epoch': 4.59}
+{'loss': 1.2339, 'grad_norm': 3.239459991455078, 'learning_rate': 1.2046543463381246e-06, 'epoch': 4.59}
+{'loss': 1.2451, 'grad_norm': 3.3155360221862793, 'learning_rate': 1.2029431895961672e-06, 'epoch': 4.59}
+{'loss': 1.2305, 'grad_norm': 3.22147536277771, 'learning_rate': 1.2012320328542096e-06, 'epoch': 4.59}
+{'loss': 1.2201, 'grad_norm': 3.150181770324707, 'learning_rate': 1.199520876112252e-06, 'epoch': 4.6}
+{'loss': 1.2323, 'grad_norm': 3.206352472305298, 'learning_rate': 1.1978097193702944e-06, 'epoch': 4.6}
+{'loss': 1.2473, 'grad_norm': 3.2672641277313232, 'learning_rate': 1.1960985626283368e-06, 'epoch': 4.6}
+{'eval_loss': 1.7981834411621094, 'eval_runtime': 11.5749, 'eval_samples_per_second': 51.836, 'eval_steps_per_second': 1.123, 'epoch': 4.6}
+{'loss': 1.2249, 'grad_norm': 3.118870258331299, 'learning_rate': 1.1943874058863792e-06, 'epoch': 4.6}
+{'loss': 1.237, 'grad_norm': 3.2045538425445557, 'learning_rate': 1.1926762491444218e-06, 'epoch': 4.6}
+{'loss': 1.2505, 'grad_norm': 3.2461109161376953, 'learning_rate': 1.1909650924024642e-06, 'epoch': 4.61}
+{'loss': 1.2624, 'grad_norm': 3.3283708095550537, 'learning_rate': 1.1892539356605066e-06, 'epoch': 4.61}
+{'loss': 1.2392, 'grad_norm': 3.1665868759155273, 'learning_rate': 1.187542778918549e-06, 'epoch': 4.61}
+{'loss': 1.2317, 'grad_norm': 3.2861764430999756, 'learning_rate': 1.1858316221765914e-06, 'epoch': 4.61}
+{'loss': 1.2533, 'grad_norm': 3.2122786045074463, 'learning_rate': 1.1841204654346338e-06, 'epoch': 4.61}
+{'loss': 1.2062, 'grad_norm': 3.2674522399902344, 'learning_rate': 1.1824093086926764e-06, 'epoch': 4.62}
+{'loss': 1.2363, 'grad_norm': 3.3131520748138428, 'learning_rate': 1.1806981519507188e-06, 'epoch': 4.62}
+{'loss': 1.2455, 'grad_norm': 3.3765933513641357, 'learning_rate': 1.1789869952087612e-06, 'epoch': 4.62}
+{'eval_loss': 1.805206537246704, 'eval_runtime': 11.563, 'eval_samples_per_second': 51.89, 'eval_steps_per_second': 1.124, 'epoch': 4.62}
+{'loss': 1.2288, 'grad_norm': 3.28656268119812, 'learning_rate': 1.1772758384668036e-06, 'epoch': 4.62}
+{'loss': 1.2509, 'grad_norm': 3.227583169937134, 'learning_rate': 1.175564681724846e-06, 'epoch': 4.62}
+{'loss': 1.2635, 'grad_norm': 3.2777645587921143, 'learning_rate': 1.1738535249828884e-06, 'epoch': 4.63}
+{'loss': 1.2522, 'grad_norm': 3.374310255050659, 'learning_rate': 1.172142368240931e-06, 'epoch': 4.63}
+{'loss': 1.2202, 'grad_norm': 3.1199936866760254, 'learning_rate': 1.1704312114989734e-06, 'epoch': 4.63}
+{'loss': 1.2177, 'grad_norm': 3.2453136444091797, 'learning_rate': 1.1687200547570158e-06, 'epoch': 4.63}
+{'loss': 1.2342, 'grad_norm': 3.2014331817626953, 'learning_rate': 1.1670088980150582e-06, 'epoch': 4.63}
+{'loss': 1.2239, 'grad_norm': 3.241772413253784, 'learning_rate': 1.1652977412731008e-06, 'epoch': 4.64}
+{'loss': 1.2223, 'grad_norm': 3.360539674758911, 'learning_rate': 1.163586584531143e-06, 'epoch': 4.64}
+{'loss': 1.2469, 'grad_norm': 3.368699073791504, 'learning_rate': 1.1618754277891856e-06, 'epoch': 4.64}
+{'eval_loss': 1.795819878578186, 'eval_runtime': 11.4816, 'eval_samples_per_second': 52.257, 'eval_steps_per_second': 1.132, 'epoch': 4.64}
+{'loss': 1.2319, 'grad_norm': 3.2624926567077637, 'learning_rate': 1.160164271047228e-06, 'epoch': 4.64}
+{'loss': 1.2571, 'grad_norm': 3.5247385501861572, 'learning_rate': 1.1584531143052704e-06, 'epoch': 4.64}
+{'loss': 1.2057, 'grad_norm': 3.3141767978668213, 'learning_rate': 1.1567419575633128e-06, 'epoch': 4.65}
+{'loss': 1.2202, 'grad_norm': 3.248523235321045, 'learning_rate': 1.1550308008213554e-06, 'epoch': 4.65}
+{'loss': 1.2114, 'grad_norm': 3.2501718997955322, 'learning_rate': 1.1533196440793976e-06, 'epoch': 4.65}
+{'loss': 1.2364, 'grad_norm': 3.2761709690093994, 'learning_rate': 1.1516084873374402e-06, 'epoch': 4.65}
+{'loss': 1.236, 'grad_norm': 3.4797024726867676, 'learning_rate': 1.1498973305954826e-06, 'epoch': 4.66}
+{'loss': 1.2382, 'grad_norm': 3.3265771865844727, 'learning_rate': 1.148186173853525e-06, 'epoch': 4.66}
+{'loss': 1.2357, 'grad_norm': 3.247624397277832, 'learning_rate': 1.1464750171115674e-06, 'epoch': 4.66}
+{'loss': 1.2499, 'grad_norm': 3.257026195526123, 'learning_rate': 1.14476386036961e-06, 'epoch': 4.66}
+{'eval_loss': 1.795268177986145, 'eval_runtime': 11.5218, 'eval_samples_per_second': 52.075, 'eval_steps_per_second': 1.128, 'epoch': 4.66}
+{'loss': 1.2439, 'grad_norm': 3.241529941558838, 'learning_rate': 1.1430527036276524e-06, 'epoch': 4.66}
+{'loss': 1.2311, 'grad_norm': 3.313194513320923, 'learning_rate': 1.1413415468856948e-06, 'epoch': 4.67}
+{'loss': 1.2332, 'grad_norm': 3.293041229248047, 'learning_rate': 1.1396303901437372e-06, 'epoch': 4.67}
+{'loss': 1.2166, 'grad_norm': 3.181551933288574, 'learning_rate': 1.1379192334017796e-06, 'epoch': 4.67}
+{'loss': 1.2039, 'grad_norm': 3.1278138160705566, 'learning_rate': 1.136208076659822e-06, 'epoch': 4.67}
+{'loss': 1.2522, 'grad_norm': 3.1150364875793457, 'learning_rate': 1.1344969199178646e-06, 'epoch': 4.67}
+{'loss': 1.2622, 'grad_norm': 3.374249219894409, 'learning_rate': 1.132785763175907e-06, 'epoch': 4.68}
+{'loss': 1.2484, 'grad_norm': 3.380124568939209, 'learning_rate': 1.1310746064339494e-06, 'epoch': 4.68}
+{'loss': 1.2439, 'grad_norm': 3.300771713256836, 'learning_rate': 1.1293634496919918e-06, 'epoch': 4.68}
+{'loss': 1.244, 'grad_norm': 3.187162160873413, 'learning_rate': 1.1276522929500342e-06, 'epoch': 4.68}
+{'eval_loss': 1.794244408607483, 'eval_runtime': 11.5553, 'eval_samples_per_second': 51.924, 'eval_steps_per_second': 1.125, 'epoch': 4.68}
+{'loss': 1.2262, 'grad_norm': 3.188145637512207, 'learning_rate': 1.1259411362080766e-06, 'epoch': 4.68}
+{'loss': 1.1789, 'grad_norm': 3.133702516555786, 'learning_rate': 1.1242299794661192e-06, 'epoch': 4.69}
+{'loss': 1.2533, 'grad_norm': 3.2762739658355713, 'learning_rate': 1.1225188227241616e-06, 'epoch': 4.69}
+{'loss': 1.2675, 'grad_norm': 3.3120882511138916, 'learning_rate': 1.120807665982204e-06, 'epoch': 4.69}
+{'loss': 1.2543, 'grad_norm': 3.1851203441619873, 'learning_rate': 1.1190965092402464e-06, 'epoch': 4.69}
+{'loss': 1.2519, 'grad_norm': 3.2322041988372803, 'learning_rate': 1.1173853524982888e-06, 'epoch': 4.69}
+{'loss': 1.2354, 'grad_norm': 3.222140073776245, 'learning_rate': 1.1156741957563314e-06, 'epoch': 4.7}
+{'loss': 1.2299, 'grad_norm': 3.221292734146118, 'learning_rate': 1.1139630390143738e-06, 'epoch': 4.7}
+{'loss': 1.2162, 'grad_norm': 3.1848742961883545, 'learning_rate': 1.1122518822724162e-06, 'epoch': 4.7}
+{'loss': 1.2567, 'grad_norm': 3.206106662750244, 'learning_rate': 1.1105407255304586e-06, 'epoch': 4.7}
+{'eval_loss': 1.7881046533584595, 'eval_runtime': 11.5699, 'eval_samples_per_second': 51.859, 'eval_steps_per_second': 1.124, 'epoch': 4.7}
+{'loss': 1.2265, 'grad_norm': 3.310992479324341, 'learning_rate': 1.1088295687885013e-06, 'epoch': 4.7}
+{'loss': 1.2464, 'grad_norm': 3.3980793952941895, 'learning_rate': 1.1071184120465434e-06, 'epoch': 4.71}
+{'loss': 1.2529, 'grad_norm': 3.360344648361206, 'learning_rate': 1.105407255304586e-06, 'epoch': 4.71}
+{'loss': 1.2372, 'grad_norm': 3.3697285652160645, 'learning_rate': 1.1036960985626285e-06, 'epoch': 4.71}
+{'loss': 1.2395, 'grad_norm': 3.1996805667877197, 'learning_rate': 1.1019849418206708e-06, 'epoch': 4.71}
+{'loss': 1.2519, 'grad_norm': 3.3062422275543213, 'learning_rate': 1.1002737850787132e-06, 'epoch': 4.71}
+{'loss': 1.2351, 'grad_norm': 3.2578320503234863, 'learning_rate': 1.0985626283367559e-06, 'epoch': 4.72}
+{'loss': 1.2097, 'grad_norm': 3.2588939666748047, 'learning_rate': 1.0968514715947983e-06, 'epoch': 4.72}
+{'loss': 1.2436, 'grad_norm': 3.3015220165252686, 'learning_rate': 1.0951403148528407e-06, 'epoch': 4.72}
+{'loss': 1.2253, 'grad_norm': 3.202197551727295, 'learning_rate': 1.093429158110883e-06, 'epoch': 4.72}
+{'eval_loss': 1.7851330041885376, 'eval_runtime': 11.5723, 'eval_samples_per_second': 51.848, 'eval_steps_per_second': 1.123, 'epoch': 4.72}
+{'loss': 1.2133, 'grad_norm': 3.199476480484009, 'learning_rate': 1.0917180013689255e-06, 'epoch': 4.72}
+{'loss': 1.239, 'grad_norm': 3.2841591835021973, 'learning_rate': 1.0900068446269678e-06, 'epoch': 4.73}
+{'loss': 1.2475, 'grad_norm': 3.3005483150482178, 'learning_rate': 1.0882956878850105e-06, 'epoch': 4.73}
+{'loss': 1.2458, 'grad_norm': 3.2424123287200928, 'learning_rate': 1.0865845311430529e-06, 'epoch': 4.73}
+{'loss': 1.2156, 'grad_norm': 3.2721095085144043, 'learning_rate': 1.0848733744010953e-06, 'epoch': 4.73}
+{'loss': 1.2599, 'grad_norm': 3.297036647796631, 'learning_rate': 1.0831622176591377e-06, 'epoch': 4.74}
+{'loss': 1.2063, 'grad_norm': 3.2322261333465576, 'learning_rate': 1.08145106091718e-06, 'epoch': 4.74}
+{'loss': 1.2648, 'grad_norm': 3.2758684158325195, 'learning_rate': 1.0797399041752225e-06, 'epoch': 4.74}
+{'loss': 1.2673, 'grad_norm': 3.400202751159668, 'learning_rate': 1.078028747433265e-06, 'epoch': 4.74}
+{'loss': 1.2501, 'grad_norm': 3.2486329078674316, 'learning_rate': 1.0763175906913075e-06, 'epoch': 4.74}
+{'eval_loss': 1.789079189300537, 'eval_runtime': 11.5672, 'eval_samples_per_second': 51.871, 'eval_steps_per_second': 1.124, 'epoch': 4.74}
+{'loss': 1.2569, 'grad_norm': 3.39057993888855, 'learning_rate': 1.0746064339493499e-06, 'epoch': 4.75}
+{'loss': 1.2436, 'grad_norm': 3.208773612976074, 'learning_rate': 1.0728952772073923e-06, 'epoch': 4.75}
+{'loss': 1.2238, 'grad_norm': 3.1940195560455322, 'learning_rate': 1.0711841204654347e-06, 'epoch': 4.75}
+{'loss': 1.2519, 'grad_norm': 3.165055513381958, 'learning_rate': 1.069472963723477e-06, 'epoch': 4.75}
+{'loss': 1.2543, 'grad_norm': 3.214439630508423, 'learning_rate': 1.0677618069815197e-06, 'epoch': 4.75}
+{'loss': 1.2508, 'grad_norm': 3.286933660507202, 'learning_rate': 1.066050650239562e-06, 'epoch': 4.76}
+{'loss': 1.2224, 'grad_norm': 3.3809683322906494, 'learning_rate': 1.0643394934976045e-06, 'epoch': 4.76}
+{'loss': 1.22, 'grad_norm': 3.25632905960083, 'learning_rate': 1.062628336755647e-06, 'epoch': 4.76}
+{'loss': 1.2608, 'grad_norm': 3.163832426071167, 'learning_rate': 1.0609171800136893e-06, 'epoch': 4.76}
+{'loss': 1.2446, 'grad_norm': 3.209290027618408, 'learning_rate': 1.0592060232717317e-06, 'epoch': 4.76}
+{'eval_loss': 1.7884808778762817, 'eval_runtime': 11.571, 'eval_samples_per_second': 51.854, 'eval_steps_per_second': 1.123, 'epoch': 4.76}
+{'loss': 1.2455, 'grad_norm': 3.2450239658355713, 'learning_rate': 1.0574948665297743e-06, 'epoch': 4.77}
+{'loss': 1.2267, 'grad_norm': 3.204361915588379, 'learning_rate': 1.0557837097878167e-06, 'epoch': 4.77}
+{'loss': 1.2206, 'grad_norm': 3.219414472579956, 'learning_rate': 1.054072553045859e-06, 'epoch': 4.77}
+{'loss': 1.222, 'grad_norm': 3.263279676437378, 'learning_rate': 1.0523613963039017e-06, 'epoch': 4.77}
+{'loss': 1.2306, 'grad_norm': 3.2165567874908447, 'learning_rate': 1.0506502395619439e-06, 'epoch': 4.77}
+{'loss': 1.2527, 'grad_norm': 3.4012861251831055, 'learning_rate': 1.0489390828199863e-06, 'epoch': 4.78}
+{'loss': 1.2355, 'grad_norm': 3.320035934448242, 'learning_rate': 1.0472279260780289e-06, 'epoch': 4.78}
+{'loss': 1.2858, 'grad_norm': 3.3690013885498047, 'learning_rate': 1.0455167693360713e-06, 'epoch': 4.78}
+{'loss': 1.2439, 'grad_norm': 3.2606022357940674, 'learning_rate': 1.0438056125941137e-06, 'epoch': 4.78}
+{'loss': 1.2126, 'grad_norm': 3.247687339782715, 'learning_rate': 1.0420944558521563e-06, 'epoch': 4.78}
+{'eval_loss': 1.793184757232666, 'eval_runtime': 11.5679, 'eval_samples_per_second': 51.868, 'eval_steps_per_second': 1.124, 'epoch': 4.78}
+{'loss': 1.2278, 'grad_norm': 3.231184959411621, 'learning_rate': 1.0403832991101987e-06, 'epoch': 4.79}
+{'loss': 1.2248, 'grad_norm': 3.2207818031311035, 'learning_rate': 1.0386721423682409e-06, 'epoch': 4.79}
+{'loss': 1.2759, 'grad_norm': 3.2985193729400635, 'learning_rate': 1.0369609856262835e-06, 'epoch': 4.79}
+{'loss': 1.2582, 'grad_norm': 3.2385151386260986, 'learning_rate': 1.0352498288843259e-06, 'epoch': 4.79}
+{'loss': 1.2406, 'grad_norm': 3.362633466720581, 'learning_rate': 1.0335386721423683e-06, 'epoch': 4.79}
+{'loss': 1.2711, 'grad_norm': 3.3979291915893555, 'learning_rate': 1.0318275154004109e-06, 'epoch': 4.8}
+{'loss': 1.2214, 'grad_norm': 3.204369306564331, 'learning_rate': 1.0301163586584533e-06, 'epoch': 4.8}
+{'loss': 1.2509, 'grad_norm': 3.2861361503601074, 'learning_rate': 1.0284052019164955e-06, 'epoch': 4.8}
+{'loss': 1.2277, 'grad_norm': 3.160712718963623, 'learning_rate': 1.026694045174538e-06, 'epoch': 4.8}
+{'loss': 1.2737, 'grad_norm': 3.338773488998413, 'learning_rate': 1.0249828884325805e-06, 'epoch': 4.8}
+{'eval_loss': 1.7908648252487183, 'eval_runtime': 11.571, 'eval_samples_per_second': 51.854, 'eval_steps_per_second': 1.123, 'epoch': 4.8}
+{'loss': 1.222, 'grad_norm': 3.2258970737457275, 'learning_rate': 1.0232717316906229e-06, 'epoch': 4.81}
+{'loss': 1.2187, 'grad_norm': 3.2987427711486816, 'learning_rate': 1.0215605749486655e-06, 'epoch': 4.81}
+{'loss': 1.2475, 'grad_norm': 3.237076759338379, 'learning_rate': 1.0198494182067079e-06, 'epoch': 4.81}
+{'loss': 1.2272, 'grad_norm': 3.2079389095306396, 'learning_rate': 1.0181382614647503e-06, 'epoch': 4.81}
+{'loss': 1.2554, 'grad_norm': 3.3127167224884033, 'learning_rate': 1.0164271047227927e-06, 'epoch': 4.82}
+{'loss': 1.2662, 'grad_norm': 3.3127105236053467, 'learning_rate': 1.014715947980835e-06, 'epoch': 4.82}
+{'loss': 1.2324, 'grad_norm': 3.3518192768096924, 'learning_rate': 1.0130047912388775e-06, 'epoch': 4.82}
+{'loss': 1.2586, 'grad_norm': 3.312373399734497, 'learning_rate': 1.01129363449692e-06, 'epoch': 4.82}
+{'loss': 1.2276, 'grad_norm': 3.242799758911133, 'learning_rate': 1.0095824777549625e-06, 'epoch': 4.82}
+{'loss': 1.2492, 'grad_norm': 3.337378978729248, 'learning_rate': 1.0078713210130049e-06, 'epoch': 4.83}
+{'eval_loss': 1.7922587394714355, 'eval_runtime': 11.5773, 'eval_samples_per_second': 51.825, 'eval_steps_per_second': 1.123, 'epoch': 4.83}
+{'loss': 1.2387, 'grad_norm': 3.2402985095977783, 'learning_rate': 1.0061601642710473e-06, 'epoch': 4.83}
+{'loss': 1.2244, 'grad_norm': 3.271576404571533, 'learning_rate': 1.0044490075290897e-06, 'epoch': 4.83}
+{'loss': 1.226, 'grad_norm': 3.1674821376800537, 'learning_rate': 1.002737850787132e-06, 'epoch': 4.83}
+{'loss': 1.2459, 'grad_norm': 3.2224254608154297, 'learning_rate': 1.0010266940451747e-06, 'epoch': 4.83}
+{'loss': 1.2308, 'grad_norm': 3.113908529281616, 'learning_rate': 9.99315537303217e-07, 'epoch': 4.84}
+{'loss': 1.2228, 'grad_norm': 3.1601173877716064, 'learning_rate': 9.976043805612595e-07, 'epoch': 4.84}
+{'loss': 1.22, 'grad_norm': 3.09564471244812, 'learning_rate': 9.958932238193019e-07, 'epoch': 4.84}
+{'loss': 1.266, 'grad_norm': 3.3671247959136963, 'learning_rate': 9.941820670773443e-07, 'epoch': 4.84}
+{'loss': 1.2425, 'grad_norm': 3.192176580429077, 'learning_rate': 9.924709103353867e-07, 'epoch': 4.84}
+{'loss': 1.2422, 'grad_norm': 3.3325178623199463, 'learning_rate': 9.907597535934293e-07, 'epoch': 4.85}
+{'eval_loss': 1.795130968093872, 'eval_runtime': 11.5639, 'eval_samples_per_second': 51.886, 'eval_steps_per_second': 1.124, 'epoch': 4.85}
+{'loss': 1.2312, 'grad_norm': 3.256381034851074, 'learning_rate': 9.890485968514717e-07, 'epoch': 4.85}
+{'loss': 1.2242, 'grad_norm': 3.218862295150757, 'learning_rate': 9.87337440109514e-07, 'epoch': 4.85}
+{'loss': 1.2326, 'grad_norm': 3.269873857498169, 'learning_rate': 9.856262833675565e-07, 'epoch': 4.85}
+{'loss': 1.2593, 'grad_norm': 3.3872859477996826, 'learning_rate': 9.83915126625599e-07, 'epoch': 4.85}
+{'loss': 1.2136, 'grad_norm': 3.187856912612915, 'learning_rate': 9.822039698836413e-07, 'epoch': 4.86}
+{'loss': 1.2343, 'grad_norm': 3.3302414417266846, 'learning_rate': 9.804928131416839e-07, 'epoch': 4.86}
+{'loss': 1.2381, 'grad_norm': 3.3666329383850098, 'learning_rate': 9.787816563997263e-07, 'epoch': 4.86}
+{'loss': 1.2389, 'grad_norm': 3.2352986335754395, 'learning_rate': 9.770704996577687e-07, 'epoch': 4.86}
+{'loss': 1.2223, 'grad_norm': 3.3622641563415527, 'learning_rate': 9.753593429158113e-07, 'epoch': 4.86}
+{'loss': 1.2469, 'grad_norm': 3.2629072666168213, 'learning_rate': 9.736481861738537e-07, 'epoch': 4.87}
+{'eval_loss': 1.7920209169387817, 'eval_runtime': 11.5658, 'eval_samples_per_second': 51.877, 'eval_steps_per_second': 1.124, 'epoch': 4.87}
+{'loss': 1.2403, 'grad_norm': 3.2100777626037598, 'learning_rate': 9.71937029431896e-07, 'epoch': 4.87}
+{'loss': 1.2647, 'grad_norm': 3.2657206058502197, 'learning_rate': 9.702258726899385e-07, 'epoch': 4.87}
+{'loss': 1.2526, 'grad_norm': 3.2304255962371826, 'learning_rate': 9.685147159479809e-07, 'epoch': 4.87}
+{'loss': 1.2593, 'grad_norm': 3.2622644901275635, 'learning_rate': 9.668035592060233e-07, 'epoch': 4.87}
+{'loss': 1.2306, 'grad_norm': 3.1981184482574463, 'learning_rate': 9.65092402464066e-07, 'epoch': 4.88}
+{'loss': 1.2598, 'grad_norm': 3.3249058723449707, 'learning_rate': 9.633812457221083e-07, 'epoch': 4.88}
+{'loss': 1.2337, 'grad_norm': 3.248260021209717, 'learning_rate': 9.616700889801507e-07, 'epoch': 4.88}
+{'loss': 1.2336, 'grad_norm': 3.1313886642456055, 'learning_rate': 9.59958932238193e-07, 'epoch': 4.88}
+{'loss': 1.2104, 'grad_norm': 3.1456003189086914, 'learning_rate': 9.582477754962355e-07, 'epoch': 4.89}
+{'loss': 1.2473, 'grad_norm': 3.1580188274383545, 'learning_rate': 9.565366187542779e-07, 'epoch': 4.89}
+{'eval_loss': 1.7920653820037842, 'eval_runtime': 11.5653, 'eval_samples_per_second': 51.88, 'eval_steps_per_second': 1.124, 'epoch': 4.89}
+{'loss': 1.2645, 'grad_norm': 3.295530319213867, 'learning_rate': 9.548254620123205e-07, 'epoch': 4.89}
+{'loss': 1.2042, 'grad_norm': 3.2426328659057617, 'learning_rate': 9.531143052703629e-07, 'epoch': 4.89}
+{'loss': 1.2122, 'grad_norm': 3.2429232597351074, 'learning_rate': 9.514031485284053e-07, 'epoch': 4.89}
+{'loss': 1.2326, 'grad_norm': 3.366312026977539, 'learning_rate': 9.496919917864478e-07, 'epoch': 4.9}
+{'loss': 1.2301, 'grad_norm': 3.2070674896240234, 'learning_rate': 9.479808350444901e-07, 'epoch': 4.9}
+{'loss': 1.2393, 'grad_norm': 3.257997751235962, 'learning_rate': 9.462696783025326e-07, 'epoch': 4.9}
+{'loss': 1.2359, 'grad_norm': 3.2890713214874268, 'learning_rate': 9.44558521560575e-07, 'epoch': 4.9}
+{'loss': 1.2523, 'grad_norm': 3.299349069595337, 'learning_rate': 9.428473648186175e-07, 'epoch': 4.9}
+{'loss': 1.2427, 'grad_norm': 3.2594637870788574, 'learning_rate': 9.411362080766599e-07, 'epoch': 4.91}
+{'loss': 1.2402, 'grad_norm': 3.28460431098938, 'learning_rate': 9.394250513347024e-07, 'epoch': 4.91}
+{'eval_loss': 1.7891100645065308, 'eval_runtime': 11.5708, 'eval_samples_per_second': 51.854, 'eval_steps_per_second': 1.124, 'epoch': 4.91}
+{'loss': 1.2651, 'grad_norm': 3.2518560886383057, 'learning_rate': 9.377138945927448e-07, 'epoch': 4.91}
+{'loss': 1.2301, 'grad_norm': 3.2637147903442383, 'learning_rate': 9.360027378507872e-07, 'epoch': 4.91}
+{'loss': 1.2607, 'grad_norm': 3.254629373550415, 'learning_rate': 9.342915811088296e-07, 'epoch': 4.91}
+{'loss': 1.2357, 'grad_norm': 3.1457021236419678, 'learning_rate': 9.325804243668721e-07, 'epoch': 4.92}
+{'loss': 1.1995, 'grad_norm': 3.1052792072296143, 'learning_rate': 9.308692676249145e-07, 'epoch': 4.92}
+{'loss': 1.2211, 'grad_norm': 3.22534441947937, 'learning_rate': 9.29158110882957e-07, 'epoch': 4.92}
+{'loss': 1.2444, 'grad_norm': 3.2568230628967285, 'learning_rate': 9.274469541409994e-07, 'epoch': 4.92}
+{'loss': 1.215, 'grad_norm': 3.2037100791931152, 'learning_rate': 9.257357973990418e-07, 'epoch': 4.92}
+{'loss': 1.2549, 'grad_norm': 3.2470476627349854, 'learning_rate': 9.240246406570842e-07, 'epoch': 4.93}
+{'loss': 1.2196, 'grad_norm': 3.2781383991241455, 'learning_rate': 9.223134839151267e-07, 'epoch': 4.93}
+{'eval_loss': 1.790490746498108, 'eval_runtime': 11.5807, 'eval_samples_per_second': 51.81, 'eval_steps_per_second': 1.123, 'epoch': 4.93}
+{'loss': 1.2203, 'grad_norm': 3.124514579772949, 'learning_rate': 9.206023271731691e-07, 'epoch': 4.93}
+{'loss': 1.247, 'grad_norm': 3.4013893604278564, 'learning_rate': 9.188911704312116e-07, 'epoch': 4.93}
+{'loss': 1.2663, 'grad_norm': 3.2721853256225586, 'learning_rate': 9.17180013689254e-07, 'epoch': 4.93}
+{'loss': 1.2183, 'grad_norm': 3.2900006771087646, 'learning_rate': 9.154688569472965e-07, 'epoch': 4.94}
+{'loss': 1.2383, 'grad_norm': 3.32586669921875, 'learning_rate': 9.137577002053388e-07, 'epoch': 4.94}
+{'loss': 1.2606, 'grad_norm': 3.3292782306671143, 'learning_rate': 9.120465434633813e-07, 'epoch': 4.94}
+{'loss': 1.2121, 'grad_norm': 3.2937543392181396, 'learning_rate': 9.103353867214237e-07, 'epoch': 4.94}
+{'loss': 1.2279, 'grad_norm': 3.2442619800567627, 'learning_rate': 9.086242299794662e-07, 'epoch': 4.94}
+{'loss': 1.2475, 'grad_norm': 3.4777493476867676, 'learning_rate': 9.069130732375086e-07, 'epoch': 4.95}
+{'loss': 1.2379, 'grad_norm': 3.2469263076782227, 'learning_rate': 9.052019164955511e-07, 'epoch': 4.95}
+{'eval_loss': 1.7926442623138428, 'eval_runtime': 11.4769, 'eval_samples_per_second': 52.279, 'eval_steps_per_second': 1.133, 'epoch': 4.95}
+{'loss': 1.1701, 'grad_norm': 3.129697322845459, 'learning_rate': 9.034907597535936e-07, 'epoch': 4.95}
+{'loss': 1.2531, 'grad_norm': 3.210245370864868, 'learning_rate': 9.017796030116359e-07, 'epoch': 4.95}
+{'loss': 1.2196, 'grad_norm': 3.106905698776245, 'learning_rate': 9.000684462696783e-07, 'epoch': 4.95}
+{'loss': 1.2561, 'grad_norm': 3.376383066177368, 'learning_rate': 8.983572895277208e-07, 'epoch': 4.96}
+{'loss': 1.2333, 'grad_norm': 3.257359266281128, 'learning_rate': 8.966461327857632e-07, 'epoch': 4.96}
+{'loss': 1.2667, 'grad_norm': 3.3375000953674316, 'learning_rate': 8.949349760438057e-07, 'epoch': 4.96}
+{'loss': 1.2493, 'grad_norm': 3.3025524616241455, 'learning_rate': 8.932238193018482e-07, 'epoch': 4.96}
+{'loss': 1.2304, 'grad_norm': 3.146764039993286, 'learning_rate': 8.915126625598905e-07, 'epoch': 4.97}
+{'loss': 1.2168, 'grad_norm': 3.2457032203674316, 'learning_rate': 8.898015058179329e-07, 'epoch': 4.97}
+{'loss': 1.2374, 'grad_norm': 3.117147922515869, 'learning_rate': 8.880903490759754e-07, 'epoch': 4.97}
+{'eval_loss': 1.7900663614273071, 'eval_runtime': 11.5354, 'eval_samples_per_second': 52.014, 'eval_steps_per_second': 1.127, 'epoch': 4.97}
+{'loss': 1.2447, 'grad_norm': 3.3952534198760986, 'learning_rate': 8.863791923340179e-07, 'epoch': 4.97}
+{'loss': 1.2942, 'grad_norm': 3.490004777908325, 'learning_rate': 8.846680355920603e-07, 'epoch': 4.97}
+{'loss': 1.2248, 'grad_norm': 3.2106270790100098, 'learning_rate': 8.829568788501028e-07, 'epoch': 4.98}
+{'loss': 1.2189, 'grad_norm': 3.2288122177124023, 'learning_rate': 8.812457221081452e-07, 'epoch': 4.98}
+{'loss': 1.2351, 'grad_norm': 3.185370445251465, 'learning_rate': 8.795345653661875e-07, 'epoch': 4.98}
+{'loss': 1.2424, 'grad_norm': 3.322122573852539, 'learning_rate': 8.7782340862423e-07, 'epoch': 4.98}
+{'loss': 1.2462, 'grad_norm': 3.27181077003479, 'learning_rate': 8.761122518822725e-07, 'epoch': 4.98}
+{'loss': 1.2606, 'grad_norm': 3.2010135650634766, 'learning_rate': 8.744010951403149e-07, 'epoch': 4.99}
+{'loss': 1.2651, 'grad_norm': 3.2472124099731445, 'learning_rate': 8.726899383983574e-07, 'epoch': 4.99}
+{'loss': 1.2492, 'grad_norm': 3.3345963954925537, 'learning_rate': 8.709787816563998e-07, 'epoch': 4.99}
+{'eval_loss': 1.7939485311508179, 'eval_runtime': 11.5567, 'eval_samples_per_second': 51.918, 'eval_steps_per_second': 1.125, 'epoch': 4.99}
+{'loss': 1.2514, 'grad_norm': 3.477703809738159, 'learning_rate': 8.692676249144421e-07, 'epoch': 4.99}
+{'loss': 1.2552, 'grad_norm': 3.3042643070220947, 'learning_rate': 8.675564681724846e-07, 'epoch': 4.99}
+{'loss': 1.2111, 'grad_norm': 3.1860415935516357, 'learning_rate': 8.658453114305271e-07, 'epoch': 5.0}
+{'loss': 1.238, 'grad_norm': 3.231628656387329, 'learning_rate': 8.641341546885695e-07, 'epoch': 5.0}
+{'loss': 1.1861, 'grad_norm': 3.171396493911743, 'learning_rate': 8.62422997946612e-07, 'epoch': 5.0}
+{'loss': 1.1897, 'grad_norm': 3.6354565620422363, 'learning_rate': 8.607118412046544e-07, 'epoch': 5.0}
+{'loss': 1.1826, 'grad_norm': 3.401404857635498, 'learning_rate': 8.590006844626969e-07, 'epoch': 5.0}
+{'loss': 1.2105, 'grad_norm': 3.401404857635498, 'learning_rate': 8.590006844626969e-07, 'epoch': 5.01}
+{'loss': 1.2131, 'grad_norm': 3.4257259368896484, 'learning_rate': 8.572895277207392e-07, 'epoch': 5.01}
+{'loss': 1.1872, 'grad_norm': 3.3053202629089355, 'learning_rate': 8.555783709787817e-07, 'epoch': 5.01}
+{'eval_loss': 1.8168593645095825, 'eval_runtime': 11.5761, 'eval_samples_per_second': 51.831, 'eval_steps_per_second': 1.123, 'epoch': 5.01}
+{'loss': 1.1746, 'grad_norm': 3.5106799602508545, 'learning_rate': 8.538672142368241e-07, 'epoch': 5.01}
+{'loss': 1.1862, 'grad_norm': 3.6364197731018066, 'learning_rate': 8.521560574948666e-07, 'epoch': 5.01}
+{'loss': 1.1867, 'grad_norm': 3.7691242694854736, 'learning_rate': 8.50444900752909e-07, 'epoch': 5.02}
+{'loss': 1.1686, 'grad_norm': 3.7429518699645996, 'learning_rate': 8.487337440109515e-07, 'epoch': 5.02}
+{'loss': 1.1642, 'grad_norm': 3.4282472133636475, 'learning_rate': 8.470225872689939e-07, 'epoch': 5.02}
+{'loss': 1.1855, 'grad_norm': 3.4286181926727295, 'learning_rate': 8.453114305270363e-07, 'epoch': 5.02}
+{'loss': 1.1841, 'grad_norm': 3.544494152069092, 'learning_rate': 8.436002737850787e-07, 'epoch': 5.02}
+{'loss': 1.2152, 'grad_norm': 3.581653118133545, 'learning_rate': 8.418891170431212e-07, 'epoch': 5.03}
+{'loss': 1.1918, 'grad_norm': 3.47871732711792, 'learning_rate': 8.401779603011636e-07, 'epoch': 5.03}
+{'loss': 1.1926, 'grad_norm': 3.5366878509521484, 'learning_rate': 8.384668035592061e-07, 'epoch': 5.03}
+{'eval_loss': 1.8091217279434204, 'eval_runtime': 11.5702, 'eval_samples_per_second': 51.857, 'eval_steps_per_second': 1.124, 'epoch': 5.03}
+{'loss': 1.1551, 'grad_norm': 3.4085259437561035, 'learning_rate': 8.367556468172485e-07, 'epoch': 5.03}
+{'loss': 1.1792, 'grad_norm': 3.532120704650879, 'learning_rate': 8.350444900752909e-07, 'epoch': 5.03}
+{'loss': 1.1878, 'grad_norm': 3.740344762802124, 'learning_rate': 8.333333333333333e-07, 'epoch': 5.04}
+{'loss': 1.2022, 'grad_norm': 3.6420888900756836, 'learning_rate': 8.316221765913758e-07, 'epoch': 5.04}
+{'loss': 1.1567, 'grad_norm': 3.4762988090515137, 'learning_rate': 8.299110198494182e-07, 'epoch': 5.04}
+{'loss': 1.1878, 'grad_norm': 3.4469194412231445, 'learning_rate': 8.281998631074607e-07, 'epoch': 5.04}
+{'loss': 1.1617, 'grad_norm': 3.6364169120788574, 'learning_rate': 8.264887063655031e-07, 'epoch': 5.05}
+{'loss': 1.2004, 'grad_norm': 3.6269848346710205, 'learning_rate': 8.247775496235456e-07, 'epoch': 5.05}
+{'loss': 1.2103, 'grad_norm': 3.5645501613616943, 'learning_rate': 8.230663928815879e-07, 'epoch': 5.05}
+{'loss': 1.1919, 'grad_norm': 3.4509341716766357, 'learning_rate': 8.213552361396304e-07, 'epoch': 5.05}
+{'eval_loss': 1.8104504346847534, 'eval_runtime': 11.5653, 'eval_samples_per_second': 51.879, 'eval_steps_per_second': 1.124, 'epoch': 5.05}
+{'loss': 1.1732, 'grad_norm': 3.458848476409912, 'learning_rate': 8.196440793976728e-07, 'epoch': 5.05}
+{'loss': 1.1965, 'grad_norm': 3.615398645401001, 'learning_rate': 8.179329226557153e-07, 'epoch': 5.06}
+{'loss': 1.2174, 'grad_norm': 3.608044385910034, 'learning_rate': 8.162217659137577e-07, 'epoch': 5.06}
+{'loss': 1.2283, 'grad_norm': 3.609870672225952, 'learning_rate': 8.145106091718002e-07, 'epoch': 5.06}
+{'loss': 1.1927, 'grad_norm': 3.6088385581970215, 'learning_rate': 8.127994524298427e-07, 'epoch': 5.06}
+{'loss': 1.2052, 'grad_norm': 3.5605785846710205, 'learning_rate': 8.11088295687885e-07, 'epoch': 5.06}
+{'loss': 1.1651, 'grad_norm': 3.451169013977051, 'learning_rate': 8.093771389459274e-07, 'epoch': 5.07}
+{'loss': 1.2259, 'grad_norm': 3.466350555419922, 'learning_rate': 8.076659822039699e-07, 'epoch': 5.07}
+{'loss': 1.2235, 'grad_norm': 3.5952963829040527, 'learning_rate': 8.059548254620124e-07, 'epoch': 5.07}
+{'loss': 1.1803, 'grad_norm': 3.574307918548584, 'learning_rate': 8.042436687200548e-07, 'epoch': 5.07}
+{'eval_loss': 1.8115535974502563, 'eval_runtime': 11.5424, 'eval_samples_per_second': 51.982, 'eval_steps_per_second': 1.126, 'epoch': 5.07}
+{'loss': 1.1695, 'grad_norm': 3.4938931465148926, 'learning_rate': 8.025325119780973e-07, 'epoch': 5.07}
+{'loss': 1.1811, 'grad_norm': 3.5579516887664795, 'learning_rate': 8.008213552361396e-07, 'epoch': 5.08}
+{'loss': 1.1502, 'grad_norm': 3.499117374420166, 'learning_rate': 7.99110198494182e-07, 'epoch': 5.08}
+{'loss': 1.1649, 'grad_norm': 3.5010886192321777, 'learning_rate': 7.973990417522245e-07, 'epoch': 5.08}
+{'loss': 1.1982, 'grad_norm': 3.514554738998413, 'learning_rate': 7.95687885010267e-07, 'epoch': 5.08}
+{'loss': 1.1584, 'grad_norm': 3.546804189682007, 'learning_rate': 7.939767282683094e-07, 'epoch': 5.08}
+{'loss': 1.2028, 'grad_norm': 3.5432634353637695, 'learning_rate': 7.92265571526352e-07, 'epoch': 5.09}
+{'loss': 1.1736, 'grad_norm': 3.4416041374206543, 'learning_rate': 7.905544147843944e-07, 'epoch': 5.09}
+{'loss': 1.1604, 'grad_norm': 3.522064685821533, 'learning_rate': 7.888432580424366e-07, 'epoch': 5.09}
+{'loss': 1.1875, 'grad_norm': 3.5353689193725586, 'learning_rate': 7.871321013004791e-07, 'epoch': 5.09}
+{'eval_loss': 1.8134808540344238, 'eval_runtime': 11.5738, 'eval_samples_per_second': 51.841, 'eval_steps_per_second': 1.123, 'epoch': 5.09}
+{'loss': 1.1753, 'grad_norm': 3.561945915222168, 'learning_rate': 7.854209445585217e-07, 'epoch': 5.09}
+{'loss': 1.1956, 'grad_norm': 3.5306968688964844, 'learning_rate': 7.83709787816564e-07, 'epoch': 5.1}
+{'loss': 1.21, 'grad_norm': 3.6375463008880615, 'learning_rate': 7.819986310746066e-07, 'epoch': 5.1}
+{'loss': 1.1913, 'grad_norm': 3.5624172687530518, 'learning_rate': 7.80287474332649e-07, 'epoch': 5.1}
+{'loss': 1.1554, 'grad_norm': 3.523465156555176, 'learning_rate': 7.785763175906915e-07, 'epoch': 5.1}
+{'loss': 1.2067, 'grad_norm': 3.6309444904327393, 'learning_rate': 7.768651608487337e-07, 'epoch': 5.1}
+{'loss': 1.2167, 'grad_norm': 3.5954716205596924, 'learning_rate': 7.751540041067763e-07, 'epoch': 5.11}
+{'loss': 1.1391, 'grad_norm': 3.4257900714874268, 'learning_rate': 7.734428473648187e-07, 'epoch': 5.11}
+{'loss': 1.1536, 'grad_norm': 3.570399761199951, 'learning_rate': 7.717316906228612e-07, 'epoch': 5.11}
+{'loss': 1.1805, 'grad_norm': 3.6111669540405273, 'learning_rate': 7.700205338809036e-07, 'epoch': 5.11}
+{'eval_loss': 1.8110941648483276, 'eval_runtime': 11.5516, 'eval_samples_per_second': 51.941, 'eval_steps_per_second': 1.125, 'epoch': 5.11}
+{'loss': 1.1711, 'grad_norm': 3.443114757537842, 'learning_rate': 7.683093771389461e-07, 'epoch': 5.11}
+{'loss': 1.2038, 'grad_norm': 3.6812422275543213, 'learning_rate': 7.665982203969884e-07, 'epoch': 5.12}
+{'loss': 1.2175, 'grad_norm': 3.706441879272461, 'learning_rate': 7.648870636550309e-07, 'epoch': 5.12}
+{'loss': 1.1857, 'grad_norm': 3.6541714668273926, 'learning_rate': 7.631759069130733e-07, 'epoch': 5.12}
+{'loss': 1.175, 'grad_norm': 3.595745801925659, 'learning_rate': 7.614647501711158e-07, 'epoch': 5.12}
+{'loss': 1.2073, 'grad_norm': 3.5955722332000732, 'learning_rate': 7.597535934291582e-07, 'epoch': 5.13}
+{'loss': 1.1749, 'grad_norm': 3.458867073059082, 'learning_rate': 7.580424366872007e-07, 'epoch': 5.13}
+{'loss': 1.1928, 'grad_norm': 3.5550026893615723, 'learning_rate': 7.563312799452431e-07, 'epoch': 5.13}
+{'loss': 1.1801, 'grad_norm': 3.5690855979919434, 'learning_rate': 7.546201232032855e-07, 'epoch': 5.13}
+{'loss': 1.1903, 'grad_norm': 3.481093406677246, 'learning_rate': 7.529089664613279e-07, 'epoch': 5.13}
+{'eval_loss': 1.8082047700881958, 'eval_runtime': 11.5545, 'eval_samples_per_second': 51.928, 'eval_steps_per_second': 1.125, 'epoch': 5.13}
+{'loss': 1.1677, 'grad_norm': 3.5466082096099854, 'learning_rate': 7.511978097193704e-07, 'epoch': 5.14}
+{'loss': 1.1797, 'grad_norm': 3.4884724617004395, 'learning_rate': 7.494866529774128e-07, 'epoch': 5.14}
+{'loss': 1.2032, 'grad_norm': 3.565617084503174, 'learning_rate': 7.477754962354553e-07, 'epoch': 5.14}
+{'loss': 1.1952, 'grad_norm': 3.607727527618408, 'learning_rate': 7.460643394934977e-07, 'epoch': 5.14}
+{'loss': 1.1753, 'grad_norm': 3.4933340549468994, 'learning_rate': 7.443531827515402e-07, 'epoch': 5.14}
+{'loss': 1.2043, 'grad_norm': 3.60050630569458, 'learning_rate': 7.426420260095825e-07, 'epoch': 5.15}
+{'loss': 1.1627, 'grad_norm': 3.4999804496765137, 'learning_rate': 7.40930869267625e-07, 'epoch': 5.15}
+{'loss': 1.2243, 'grad_norm': 3.7979109287261963, 'learning_rate': 7.392197125256674e-07, 'epoch': 5.15}
+{'loss': 1.1995, 'grad_norm': 3.6909937858581543, 'learning_rate': 7.375085557837099e-07, 'epoch': 5.15}
+{'loss': 1.1782, 'grad_norm': 3.627617120742798, 'learning_rate': 7.357973990417524e-07, 'epoch': 5.15}
+{'eval_loss': 1.8117822408676147, 'eval_runtime': 11.548, 'eval_samples_per_second': 51.957, 'eval_steps_per_second': 1.126, 'epoch': 5.15}
+{'loss': 1.1749, 'grad_norm': 3.5969607830047607, 'learning_rate': 7.340862422997948e-07, 'epoch': 5.16}
+{'loss': 1.2072, 'grad_norm': 3.7405600547790527, 'learning_rate': 7.323750855578371e-07, 'epoch': 5.16}
+{'loss': 1.2182, 'grad_norm': 3.7769811153411865, 'learning_rate': 7.306639288158796e-07, 'epoch': 5.16}
+{'loss': 1.1569, 'grad_norm': 3.4675240516662598, 'learning_rate': 7.28952772073922e-07, 'epoch': 5.16}
+{'loss': 1.1806, 'grad_norm': 3.530017852783203, 'learning_rate': 7.272416153319645e-07, 'epoch': 5.16}
+{'loss': 1.1775, 'grad_norm': 3.5496068000793457, 'learning_rate': 7.25530458590007e-07, 'epoch': 5.17}
+{'loss': 1.2046, 'grad_norm': 3.6341137886047363, 'learning_rate': 7.238193018480494e-07, 'epoch': 5.17}
+{'loss': 1.1715, 'grad_norm': 3.618687391281128, 'learning_rate': 7.221081451060919e-07, 'epoch': 5.17}
+{'loss': 1.2074, 'grad_norm': 3.582064628601074, 'learning_rate': 7.203969883641342e-07, 'epoch': 5.17}
+{'loss': 1.1914, 'grad_norm': 3.6656925678253174, 'learning_rate': 7.186858316221766e-07, 'epoch': 5.17}
+{'eval_loss': 1.8124715089797974, 'eval_runtime': 11.5424, 'eval_samples_per_second': 51.982, 'eval_steps_per_second': 1.126, 'epoch': 5.17}
+{'loss': 1.1929, 'grad_norm': 3.5184764862060547, 'learning_rate': 7.169746748802191e-07, 'epoch': 5.18}
+{'loss': 1.1949, 'grad_norm': 3.4923458099365234, 'learning_rate': 7.152635181382616e-07, 'epoch': 5.18}
+{'loss': 1.2176, 'grad_norm': 3.5868067741394043, 'learning_rate': 7.13552361396304e-07, 'epoch': 5.18}
+{'loss': 1.1731, 'grad_norm': 3.5035898685455322, 'learning_rate': 7.118412046543465e-07, 'epoch': 5.18}
+{'loss': 1.1464, 'grad_norm': 3.3548026084899902, 'learning_rate': 7.101300479123888e-07, 'epoch': 5.18}
+{'loss': 1.1853, 'grad_norm': 3.506319046020508, 'learning_rate': 7.084188911704313e-07, 'epoch': 5.19}
+{'loss': 1.1688, 'grad_norm': 3.4716243743896484, 'learning_rate': 7.067077344284737e-07, 'epoch': 5.19}
+{'loss': 1.199, 'grad_norm': 3.5905988216400146, 'learning_rate': 7.049965776865162e-07, 'epoch': 5.19}
+{'loss': 1.1591, 'grad_norm': 3.608638286590576, 'learning_rate': 7.032854209445586e-07, 'epoch': 5.19}
+{'loss': 1.1827, 'grad_norm': 3.6048314571380615, 'learning_rate': 7.015742642026011e-07, 'epoch': 5.2}
+{'eval_loss': 1.815959095954895, 'eval_runtime': 11.5751, 'eval_samples_per_second': 51.836, 'eval_steps_per_second': 1.123, 'epoch': 5.2}
+{'loss': 1.178, 'grad_norm': 3.777156114578247, 'learning_rate': 6.998631074606435e-07, 'epoch': 5.2}
+{'loss': 1.1651, 'grad_norm': 3.557015895843506, 'learning_rate': 6.981519507186859e-07, 'epoch': 5.2}
+{'loss': 1.1824, 'grad_norm': 3.6972925662994385, 'learning_rate': 6.964407939767283e-07, 'epoch': 5.2}
+{'loss': 1.1927, 'grad_norm': 3.633713960647583, 'learning_rate': 6.947296372347708e-07, 'epoch': 5.2}
+{'loss': 1.1802, 'grad_norm': 3.7261877059936523, 'learning_rate': 6.930184804928132e-07, 'epoch': 5.21}
+{'loss': 1.2022, 'grad_norm': 3.7090725898742676, 'learning_rate': 6.913073237508557e-07, 'epoch': 5.21}
+{'loss': 1.1779, 'grad_norm': 3.700678825378418, 'learning_rate': 6.895961670088981e-07, 'epoch': 5.21}
+{'loss': 1.1804, 'grad_norm': 3.491257667541504, 'learning_rate': 6.878850102669406e-07, 'epoch': 5.21}
+{'loss': 1.2202, 'grad_norm': 3.6431643962860107, 'learning_rate': 6.861738535249829e-07, 'epoch': 5.21}
+{'loss': 1.195, 'grad_norm': 3.614000082015991, 'learning_rate': 6.844626967830254e-07, 'epoch': 5.22}
+{'eval_loss': 1.811418890953064, 'eval_runtime': 11.5634, 'eval_samples_per_second': 51.888, 'eval_steps_per_second': 1.124, 'epoch': 5.22}
+{'loss': 1.191, 'grad_norm': 3.503748893737793, 'learning_rate': 6.827515400410678e-07, 'epoch': 5.22}
+{'loss': 1.1918, 'grad_norm': 3.524639368057251, 'learning_rate': 6.810403832991103e-07, 'epoch': 5.22}
+{'loss': 1.1897, 'grad_norm': 3.535470485687256, 'learning_rate': 6.793292265571527e-07, 'epoch': 5.22}
+{'loss': 1.177, 'grad_norm': 3.675384998321533, 'learning_rate': 6.776180698151952e-07, 'epoch': 5.22}
+{'loss': 1.1736, 'grad_norm': 3.5961384773254395, 'learning_rate': 6.759069130732375e-07, 'epoch': 5.23}
+{'loss': 1.1994, 'grad_norm': 3.535161256790161, 'learning_rate': 6.7419575633128e-07, 'epoch': 5.23}
+{'loss': 1.2045, 'grad_norm': 3.627660036087036, 'learning_rate': 6.724845995893224e-07, 'epoch': 5.23}
+{'loss': 1.179, 'grad_norm': 3.721216917037964, 'learning_rate': 6.707734428473649e-07, 'epoch': 5.23}
+{'loss': 1.1944, 'grad_norm': 3.568133592605591, 'learning_rate': 6.690622861054073e-07, 'epoch': 5.23}
+{'loss': 1.1562, 'grad_norm': 3.4893581867218018, 'learning_rate': 6.673511293634498e-07, 'epoch': 5.24}
+{'eval_loss': 1.8140264749526978, 'eval_runtime': 12.5015, 'eval_samples_per_second': 47.994, 'eval_steps_per_second': 1.04, 'epoch': 5.24}
+{'loss': 1.2095, 'grad_norm': 3.605684995651245, 'learning_rate': 6.656399726214923e-07, 'epoch': 5.24}
+{'loss': 1.2065, 'grad_norm': 3.6407759189605713, 'learning_rate': 6.639288158795346e-07, 'epoch': 5.24}
+{'loss': 1.1965, 'grad_norm': 3.636317729949951, 'learning_rate': 6.62217659137577e-07, 'epoch': 5.24}
+{'loss': 1.1608, 'grad_norm': 3.5884885787963867, 'learning_rate': 6.605065023956195e-07, 'epoch': 5.24}
+{'loss': 1.2153, 'grad_norm': 3.679663896560669, 'learning_rate': 6.587953456536619e-07, 'epoch': 5.25}
+{'loss': 1.1648, 'grad_norm': 3.577503204345703, 'learning_rate': 6.570841889117044e-07, 'epoch': 5.25}
+{'loss': 1.1881, 'grad_norm': 3.6500301361083984, 'learning_rate': 6.553730321697469e-07, 'epoch': 5.25}
+{'loss': 1.1732, 'grad_norm': 3.5946156978607178, 'learning_rate': 6.536618754277893e-07, 'epoch': 5.25}
+{'loss': 1.1865, 'grad_norm': 3.5450055599212646, 'learning_rate': 6.519507186858316e-07, 'epoch': 5.25}
+{'loss': 1.1916, 'grad_norm': 3.6847493648529053, 'learning_rate': 6.502395619438741e-07, 'epoch': 5.26}
+{'eval_loss': 1.8142590522766113, 'eval_runtime': 11.4779, 'eval_samples_per_second': 52.275, 'eval_steps_per_second': 1.133, 'epoch': 5.26}
+{'loss': 1.1973, 'grad_norm': 3.5645105838775635, 'learning_rate': 6.485284052019165e-07, 'epoch': 5.26}
+{'loss': 1.1614, 'grad_norm': 3.545637607574463, 'learning_rate': 6.46817248459959e-07, 'epoch': 5.26}
+{'loss': 1.1787, 'grad_norm': 3.5325756072998047, 'learning_rate': 6.451060917180015e-07, 'epoch': 5.26}
+{'loss': 1.1806, 'grad_norm': 3.6232166290283203, 'learning_rate': 6.433949349760439e-07, 'epoch': 5.26}
+{'loss': 1.198, 'grad_norm': 3.5908687114715576, 'learning_rate': 6.416837782340862e-07, 'epoch': 5.27}
+{'loss': 1.1834, 'grad_norm': 3.740201473236084, 'learning_rate': 6.399726214921287e-07, 'epoch': 5.27}
+{'loss': 1.2006, 'grad_norm': 3.811335325241089, 'learning_rate': 6.382614647501711e-07, 'epoch': 5.27}
+{'loss': 1.1994, 'grad_norm': 3.7362725734710693, 'learning_rate': 6.365503080082136e-07, 'epoch': 5.27}
+{'loss': 1.1795, 'grad_norm': 3.545459508895874, 'learning_rate': 6.348391512662561e-07, 'epoch': 5.28}
+{'loss': 1.185, 'grad_norm': 3.6554765701293945, 'learning_rate': 6.331279945242985e-07, 'epoch': 5.28}
+{'eval_loss': 1.811336636543274, 'eval_runtime': 11.5244, 'eval_samples_per_second': 52.063, 'eval_steps_per_second': 1.128, 'epoch': 5.28}
+{'loss': 1.1686, 'grad_norm': 3.482313871383667, 'learning_rate': 6.31416837782341e-07, 'epoch': 5.28}
+{'loss': 1.205, 'grad_norm': 3.680746078491211, 'learning_rate': 6.297056810403833e-07, 'epoch': 5.28}
+{'loss': 1.1713, 'grad_norm': 3.547696113586426, 'learning_rate': 6.279945242984258e-07, 'epoch': 5.28}
+{'loss': 1.196, 'grad_norm': 3.6032445430755615, 'learning_rate': 6.262833675564682e-07, 'epoch': 5.29}
+{'loss': 1.1861, 'grad_norm': 3.518357753753662, 'learning_rate': 6.245722108145107e-07, 'epoch': 5.29}
+{'loss': 1.171, 'grad_norm': 3.539605140686035, 'learning_rate': 6.228610540725531e-07, 'epoch': 5.29}
+{'loss': 1.1876, 'grad_norm': 3.615841865539551, 'learning_rate': 6.211498973305955e-07, 'epoch': 5.29}
+{'loss': 1.182, 'grad_norm': 3.513653516769409, 'learning_rate': 6.19438740588638e-07, 'epoch': 5.29}
+{'loss': 1.1842, 'grad_norm': 3.632979154586792, 'learning_rate': 6.177275838466804e-07, 'epoch': 5.3}
+{'loss': 1.1816, 'grad_norm': 3.662383556365967, 'learning_rate': 6.160164271047228e-07, 'epoch': 5.3}
+{'eval_loss': 1.814604640007019, 'eval_runtime': 11.5601, 'eval_samples_per_second': 51.903, 'eval_steps_per_second': 1.125, 'epoch': 5.3}
+{'loss': 1.1965, 'grad_norm': 3.564650297164917, 'learning_rate': 6.143052703627653e-07, 'epoch': 5.3}
+{'loss': 1.1908, 'grad_norm': 3.6292836666107178, 'learning_rate': 6.125941136208077e-07, 'epoch': 5.3}
+{'loss': 1.159, 'grad_norm': 3.5406486988067627, 'learning_rate': 6.108829568788502e-07, 'epoch': 5.3}
+{'loss': 1.2006, 'grad_norm': 3.592510223388672, 'learning_rate': 6.091718001368926e-07, 'epoch': 5.31}
+{'loss': 1.1773, 'grad_norm': 3.5806725025177, 'learning_rate': 6.07460643394935e-07, 'epoch': 5.31}
+{'loss': 1.1545, 'grad_norm': 3.326810598373413, 'learning_rate': 6.057494866529775e-07, 'epoch': 5.31}
+{'loss': 1.173, 'grad_norm': 3.534618377685547, 'learning_rate': 6.040383299110199e-07, 'epoch': 5.31}
+{'loss': 1.1691, 'grad_norm': 3.649097442626953, 'learning_rate': 6.023271731690623e-07, 'epoch': 5.31}
+{'loss': 1.17, 'grad_norm': 3.6011643409729004, 'learning_rate': 6.006160164271048e-07, 'epoch': 5.32}
+{'loss': 1.1969, 'grad_norm': 3.7302565574645996, 'learning_rate': 5.989048596851472e-07, 'epoch': 5.32}
+{'eval_loss': 1.8133260011672974, 'eval_runtime': 11.558, 'eval_samples_per_second': 51.912, 'eval_steps_per_second': 1.125, 'epoch': 5.32}
+{'loss': 1.1918, 'grad_norm': 3.6313135623931885, 'learning_rate': 5.971937029431896e-07, 'epoch': 5.32}
+{'loss': 1.1718, 'grad_norm': 3.68105149269104, 'learning_rate': 5.954825462012321e-07, 'epoch': 5.32}
+{'loss': 1.2425, 'grad_norm': 3.602184295654297, 'learning_rate': 5.937713894592745e-07, 'epoch': 5.32}
+{'loss': 1.1805, 'grad_norm': 3.720693826675415, 'learning_rate': 5.920602327173169e-07, 'epoch': 5.33}
+{'loss': 1.165, 'grad_norm': 3.656273603439331, 'learning_rate': 5.903490759753594e-07, 'epoch': 5.33}
+{'loss': 1.149, 'grad_norm': 3.4859046936035156, 'learning_rate': 5.886379192334018e-07, 'epoch': 5.33}
+{'loss': 1.1962, 'grad_norm': 3.6744112968444824, 'learning_rate': 5.869267624914442e-07, 'epoch': 5.33}
+{'loss': 1.191, 'grad_norm': 3.5093493461608887, 'learning_rate': 5.852156057494867e-07, 'epoch': 5.33}
+{'loss': 1.1581, 'grad_norm': 3.514503002166748, 'learning_rate': 5.835044490075291e-07, 'epoch': 5.34}
+{'loss': 1.2194, 'grad_norm': 3.5540366172790527, 'learning_rate': 5.817932922655715e-07, 'epoch': 5.34}
+{'eval_loss': 1.8115689754486084, 'eval_runtime': 11.5892, 'eval_samples_per_second': 51.772, 'eval_steps_per_second': 1.122, 'epoch': 5.34}
+{'loss': 1.1845, 'grad_norm': 3.6163666248321533, 'learning_rate': 5.80082135523614e-07, 'epoch': 5.34}
+{'loss': 1.2124, 'grad_norm': 3.702939987182617, 'learning_rate': 5.783709787816564e-07, 'epoch': 5.34}
+{'loss': 1.2233, 'grad_norm': 3.8034558296203613, 'learning_rate': 5.766598220396988e-07, 'epoch': 5.34}
+{'loss': 1.164, 'grad_norm': 3.6599645614624023, 'learning_rate': 5.749486652977413e-07, 'epoch': 5.35}
+{'loss': 1.2055, 'grad_norm': 3.843005657196045, 'learning_rate': 5.732375085557837e-07, 'epoch': 5.35}
+{'loss': 1.1714, 'grad_norm': 3.5079190731048584, 'learning_rate': 5.715263518138262e-07, 'epoch': 5.35}
+{'loss': 1.1937, 'grad_norm': 3.641367197036743, 'learning_rate': 5.698151950718686e-07, 'epoch': 5.35}
+{'loss': 1.1833, 'grad_norm': 3.4685707092285156, 'learning_rate': 5.68104038329911e-07, 'epoch': 5.36}
+{'loss': 1.1786, 'grad_norm': 3.5915956497192383, 'learning_rate': 5.663928815879535e-07, 'epoch': 5.36}
+{'loss': 1.1754, 'grad_norm': 3.531846761703491, 'learning_rate': 5.646817248459959e-07, 'epoch': 5.36}
+{'eval_loss': 1.804673671722412, 'eval_runtime': 11.5794, 'eval_samples_per_second': 51.816, 'eval_steps_per_second': 1.123, 'epoch': 5.36}
+{'loss': 1.2069, 'grad_norm': 3.579416275024414, 'learning_rate': 5.629705681040383e-07, 'epoch': 5.36}
+{'loss': 1.1948, 'grad_norm': 3.5693883895874023, 'learning_rate': 5.612594113620808e-07, 'epoch': 5.36}
+{'loss': 1.1898, 'grad_norm': 3.457963466644287, 'learning_rate': 5.595482546201232e-07, 'epoch': 5.37}
+{'loss': 1.1833, 'grad_norm': 3.6271259784698486, 'learning_rate': 5.578370978781657e-07, 'epoch': 5.37}
+{'loss': 1.1975, 'grad_norm': 3.5237245559692383, 'learning_rate': 5.561259411362081e-07, 'epoch': 5.37}
+{'loss': 1.192, 'grad_norm': 3.710427761077881, 'learning_rate': 5.544147843942506e-07, 'epoch': 5.37}
+{'loss': 1.182, 'grad_norm': 3.6262855529785156, 'learning_rate': 5.52703627652293e-07, 'epoch': 5.37}
+{'loss': 1.1846, 'grad_norm': 3.479630947113037, 'learning_rate': 5.509924709103354e-07, 'epoch': 5.38}
+{'loss': 1.2248, 'grad_norm': 3.6774380207061768, 'learning_rate': 5.492813141683779e-07, 'epoch': 5.38}
+{'loss': 1.1918, 'grad_norm': 3.6402297019958496, 'learning_rate': 5.475701574264203e-07, 'epoch': 5.38}
+{'eval_loss': 1.8078159093856812, 'eval_runtime': 11.592, 'eval_samples_per_second': 51.76, 'eval_steps_per_second': 1.121, 'epoch': 5.38}
+{'loss': 1.1863, 'grad_norm': 3.5412402153015137, 'learning_rate': 5.458590006844627e-07, 'epoch': 5.38}
+{'loss': 1.2008, 'grad_norm': 3.544025182723999, 'learning_rate': 5.441478439425052e-07, 'epoch': 5.38}
+{'loss': 1.1831, 'grad_norm': 3.600189208984375, 'learning_rate': 5.424366872005476e-07, 'epoch': 5.39}
+{'loss': 1.1966, 'grad_norm': 3.540308952331543, 'learning_rate': 5.4072553045859e-07, 'epoch': 5.39}
+{'loss': 1.1882, 'grad_norm': 3.6430389881134033, 'learning_rate': 5.390143737166325e-07, 'epoch': 5.39}
+{'loss': 1.219, 'grad_norm': 3.607252836227417, 'learning_rate': 5.373032169746749e-07, 'epoch': 5.39}
+{'loss': 1.1762, 'grad_norm': 3.452277421951294, 'learning_rate': 5.355920602327173e-07, 'epoch': 5.39}
+{'loss': 1.1856, 'grad_norm': 3.6862356662750244, 'learning_rate': 5.338809034907598e-07, 'epoch': 5.4}
+{'loss': 1.1468, 'grad_norm': 3.412310838699341, 'learning_rate': 5.321697467488022e-07, 'epoch': 5.4}
+{'loss': 1.192, 'grad_norm': 3.602940320968628, 'learning_rate': 5.304585900068446e-07, 'epoch': 5.4}
+{'eval_loss': 1.8085274696350098, 'eval_runtime': 11.5642, 'eval_samples_per_second': 51.884, 'eval_steps_per_second': 1.124, 'epoch': 5.4}
+{'loss': 1.1582, 'grad_norm': 3.4384970664978027, 'learning_rate': 5.287474332648871e-07, 'epoch': 5.4}
+{'loss': 1.1752, 'grad_norm': 3.528341293334961, 'learning_rate': 5.270362765229295e-07, 'epoch': 5.4}
+{'loss': 1.1954, 'grad_norm': 3.6537227630615234, 'learning_rate': 5.253251197809719e-07, 'epoch': 5.41}
+{'loss': 1.2157, 'grad_norm': 3.6889028549194336, 'learning_rate': 5.236139630390144e-07, 'epoch': 5.41}
+{'loss': 1.172, 'grad_norm': 3.5950253009796143, 'learning_rate': 5.219028062970568e-07, 'epoch': 5.41}
+{'loss': 1.1897, 'grad_norm': 3.636655330657959, 'learning_rate': 5.201916495550993e-07, 'epoch': 5.41}
+{'loss': 1.1801, 'grad_norm': 3.4631855487823486, 'learning_rate': 5.184804928131417e-07, 'epoch': 5.41}
+{'loss': 1.1744, 'grad_norm': 3.5449750423431396, 'learning_rate': 5.167693360711841e-07, 'epoch': 5.42}
+{'loss': 1.2499, 'grad_norm': 3.611984968185425, 'learning_rate': 5.150581793292266e-07, 'epoch': 5.42}
+{'loss': 1.1626, 'grad_norm': 3.504328727722168, 'learning_rate': 5.13347022587269e-07, 'epoch': 5.42}
+{'eval_loss': 1.8098849058151245, 'eval_runtime': 11.5993, 'eval_samples_per_second': 51.727, 'eval_steps_per_second': 1.121, 'epoch': 5.42}
+{'loss': 1.1834, 'grad_norm': 3.652620315551758, 'learning_rate': 5.116358658453114e-07, 'epoch': 5.42}
+{'loss': 1.2085, 'grad_norm': 3.664177894592285, 'learning_rate': 5.099247091033539e-07, 'epoch': 5.43}
+{'loss': 1.2012, 'grad_norm': 3.5272462368011475, 'learning_rate': 5.082135523613963e-07, 'epoch': 5.43}
+{'loss': 1.2068, 'grad_norm': 3.5334866046905518, 'learning_rate': 5.065023956194387e-07, 'epoch': 5.43}
+{'loss': 1.2152, 'grad_norm': 3.4789927005767822, 'learning_rate': 5.047912388774812e-07, 'epoch': 5.43}
+{'loss': 1.1762, 'grad_norm': 3.491881847381592, 'learning_rate': 5.030800821355236e-07, 'epoch': 5.43}
+{'loss': 1.1952, 'grad_norm': 3.550736665725708, 'learning_rate': 5.01368925393566e-07, 'epoch': 5.44}
+{'loss': 1.1959, 'grad_norm': 3.5496346950531006, 'learning_rate': 4.996577686516085e-07, 'epoch': 5.44}
+{'loss': 1.2239, 'grad_norm': 3.720766305923462, 'learning_rate': 4.979466119096509e-07, 'epoch': 5.44}
+{'loss': 1.1823, 'grad_norm': 3.587026834487915, 'learning_rate': 4.962354551676933e-07, 'epoch': 5.44}
+{'eval_loss': 1.8128020763397217, 'eval_runtime': 11.5783, 'eval_samples_per_second': 51.821, 'eval_steps_per_second': 1.123, 'epoch': 5.44}
+{'loss': 1.2165, 'grad_norm': 3.685441732406616, 'learning_rate': 4.945242984257358e-07, 'epoch': 5.44}
+{'loss': 1.1944, 'grad_norm': 3.4710896015167236, 'learning_rate': 4.928131416837782e-07, 'epoch': 5.45}
+{'loss': 1.1995, 'grad_norm': 3.6771161556243896, 'learning_rate': 4.911019849418206e-07, 'epoch': 5.45}
+{'loss': 1.1833, 'grad_norm': 3.5308730602264404, 'learning_rate': 4.893908281998631e-07, 'epoch': 5.45}
+{'loss': 1.1754, 'grad_norm': 3.519998788833618, 'learning_rate': 4.876796714579056e-07, 'epoch': 5.45}
+{'loss': 1.2028, 'grad_norm': 3.660383939743042, 'learning_rate': 4.85968514715948e-07, 'epoch': 5.45}
+{'loss': 1.1716, 'grad_norm': 3.567281723022461, 'learning_rate': 4.842573579739904e-07, 'epoch': 5.46}
+{'loss': 1.2203, 'grad_norm': 3.636385917663574, 'learning_rate': 4.82546201232033e-07, 'epoch': 5.46}
+{'loss': 1.1682, 'grad_norm': 3.53243088722229, 'learning_rate': 4.808350444900753e-07, 'epoch': 5.46}
+{'loss': 1.168, 'grad_norm': 3.6166179180145264, 'learning_rate': 4.791238877481177e-07, 'epoch': 5.46}
+{'eval_loss': 1.8148189783096313, 'eval_runtime': 11.5879, 'eval_samples_per_second': 51.778, 'eval_steps_per_second': 1.122, 'epoch': 5.46}
+{'loss': 1.2131, 'grad_norm': 3.5764663219451904, 'learning_rate': 4.774127310061603e-07, 'epoch': 5.46}
+{'loss': 1.1976, 'grad_norm': 3.672623872756958, 'learning_rate': 4.7570157426420265e-07, 'epoch': 5.47}
+{'loss': 1.18, 'grad_norm': 3.664522409439087, 'learning_rate': 4.7399041752224505e-07, 'epoch': 5.47}
+{'loss': 1.2288, 'grad_norm': 3.628406286239624, 'learning_rate': 4.722792607802875e-07, 'epoch': 5.47}
+{'loss': 1.1987, 'grad_norm': 3.7208433151245117, 'learning_rate': 4.7056810403832995e-07, 'epoch': 5.47}
+{'loss': 1.2018, 'grad_norm': 3.68381929397583, 'learning_rate': 4.688569472963724e-07, 'epoch': 5.47}
+{'loss': 1.182, 'grad_norm': 3.5831191539764404, 'learning_rate': 4.671457905544148e-07, 'epoch': 5.48}
+{'loss': 1.1809, 'grad_norm': 3.5860097408294678, 'learning_rate': 4.6543463381245725e-07, 'epoch': 5.48}
+{'loss': 1.2192, 'grad_norm': 3.6204848289489746, 'learning_rate': 4.637234770704997e-07, 'epoch': 5.48}
+{'loss': 1.1698, 'grad_norm': 3.556483268737793, 'learning_rate': 4.620123203285421e-07, 'epoch': 5.48}
+{'eval_loss': 1.8158715963363647, 'eval_runtime': 11.5854, 'eval_samples_per_second': 51.789, 'eval_steps_per_second': 1.122, 'epoch': 5.48}
+{'loss': 1.1826, 'grad_norm': 3.5146610736846924, 'learning_rate': 4.6030116358658455e-07, 'epoch': 5.48}
+{'loss': 1.1762, 'grad_norm': 3.504246473312378, 'learning_rate': 4.58590006844627e-07, 'epoch': 5.49}
+{'loss': 1.1621, 'grad_norm': 3.5098886489868164, 'learning_rate': 4.568788501026694e-07, 'epoch': 5.49}
+{'loss': 1.1642, 'grad_norm': 3.6293351650238037, 'learning_rate': 4.5516769336071185e-07, 'epoch': 5.49}
+{'loss': 1.2281, 'grad_norm': 3.7461469173431396, 'learning_rate': 4.534565366187543e-07, 'epoch': 5.49}
+{'loss': 1.1935, 'grad_norm': 3.5658836364746094, 'learning_rate': 4.517453798767968e-07, 'epoch': 5.49}
+{'loss': 1.2084, 'grad_norm': 3.6083483695983887, 'learning_rate': 4.5003422313483915e-07, 'epoch': 5.5}
+{'loss': 1.2352, 'grad_norm': 3.5907273292541504, 'learning_rate': 4.483230663928816e-07, 'epoch': 5.5}
+{'loss': 1.184, 'grad_norm': 3.4604344367980957, 'learning_rate': 4.466119096509241e-07, 'epoch': 5.5}
+{'loss': 1.2014, 'grad_norm': 3.7075002193450928, 'learning_rate': 4.4490075290896646e-07, 'epoch': 5.5}
+{'eval_loss': 1.8173807859420776, 'eval_runtime': 11.5845, 'eval_samples_per_second': 51.793, 'eval_steps_per_second': 1.122, 'epoch': 5.5}
+{'loss': 1.1566, 'grad_norm': 3.5890512466430664, 'learning_rate': 4.4318959616700896e-07, 'epoch': 5.51}
+{'loss': 1.2214, 'grad_norm': 3.626849889755249, 'learning_rate': 4.414784394250514e-07, 'epoch': 5.51}
+{'loss': 1.1864, 'grad_norm': 3.470280647277832, 'learning_rate': 4.3976728268309376e-07, 'epoch': 5.51}
+{'loss': 1.1801, 'grad_norm': 3.4755749702453613, 'learning_rate': 4.3805612594113626e-07, 'epoch': 5.51}
+{'loss': 1.172, 'grad_norm': 3.602267265319824, 'learning_rate': 4.363449691991787e-07, 'epoch': 5.51}
+{'loss': 1.2026, 'grad_norm': 3.630166530609131, 'learning_rate': 4.3463381245722106e-07, 'epoch': 5.52}
+{'loss': 1.1944, 'grad_norm': 3.6753499507904053, 'learning_rate': 4.3292265571526356e-07, 'epoch': 5.52}
+{'loss': 1.1642, 'grad_norm': 3.549053907394409, 'learning_rate': 4.31211498973306e-07, 'epoch': 5.52}
+{'loss': 1.1849, 'grad_norm': 3.705146551132202, 'learning_rate': 4.2950034223134847e-07, 'epoch': 5.52}
+{'loss': 1.1921, 'grad_norm': 3.6114323139190674, 'learning_rate': 4.2778918548939086e-07, 'epoch': 5.52}
+{'eval_loss': 1.8188122510910034, 'eval_runtime': 11.5842, 'eval_samples_per_second': 51.795, 'eval_steps_per_second': 1.122, 'epoch': 5.52}
+{'loss': 1.2111, 'grad_norm': 3.560582160949707, 'learning_rate': 4.260780287474333e-07, 'epoch': 5.53}
+{'loss': 1.1808, 'grad_norm': 3.4625210762023926, 'learning_rate': 4.2436687200547577e-07, 'epoch': 5.53}
+{'loss': 1.2002, 'grad_norm': 3.5923311710357666, 'learning_rate': 4.2265571526351817e-07, 'epoch': 5.53}
+{'loss': 1.2118, 'grad_norm': 3.7078399658203125, 'learning_rate': 4.209445585215606e-07, 'epoch': 5.53}
+{'loss': 1.1732, 'grad_norm': 3.50131893157959, 'learning_rate': 4.1923340177960307e-07, 'epoch': 5.53}
+{'loss': 1.1928, 'grad_norm': 3.6220805644989014, 'learning_rate': 4.1752224503764547e-07, 'epoch': 5.54}
+{'loss': 1.1855, 'grad_norm': 3.576915979385376, 'learning_rate': 4.158110882956879e-07, 'epoch': 5.54}
+{'loss': 1.1723, 'grad_norm': 3.5799684524536133, 'learning_rate': 4.1409993155373037e-07, 'epoch': 5.54}
+{'loss': 1.1865, 'grad_norm': 3.687065362930298, 'learning_rate': 4.123887748117728e-07, 'epoch': 5.54}
+{'loss': 1.179, 'grad_norm': 3.594008445739746, 'learning_rate': 4.106776180698152e-07, 'epoch': 5.54}
+{'eval_loss': 1.818593978881836, 'eval_runtime': 11.5974, 'eval_samples_per_second': 51.736, 'eval_steps_per_second': 1.121, 'epoch': 5.54}
+{'loss': 1.1976, 'grad_norm': 3.494384527206421, 'learning_rate': 4.0896646132785767e-07, 'epoch': 5.55}
+{'loss': 1.1966, 'grad_norm': 3.6450002193450928, 'learning_rate': 4.072553045859001e-07, 'epoch': 5.55}
+{'loss': 1.1834, 'grad_norm': 3.738065242767334, 'learning_rate': 4.055441478439425e-07, 'epoch': 5.55}
+{'loss': 1.1888, 'grad_norm': 3.573939800262451, 'learning_rate': 4.0383299110198497e-07, 'epoch': 5.55}
+{'loss': 1.1566, 'grad_norm': 3.5048725605010986, 'learning_rate': 4.021218343600274e-07, 'epoch': 5.55}
+{'loss': 1.1949, 'grad_norm': 3.5767784118652344, 'learning_rate': 4.004106776180698e-07, 'epoch': 5.56}
+{'loss': 1.1677, 'grad_norm': 3.59869647026062, 'learning_rate': 3.9869952087611227e-07, 'epoch': 5.56}
+{'loss': 1.2041, 'grad_norm': 3.60741925239563, 'learning_rate': 3.969883641341547e-07, 'epoch': 5.56}
+{'loss': 1.1961, 'grad_norm': 3.541796922683716, 'learning_rate': 3.952772073921972e-07, 'epoch': 5.56}
+{'loss': 1.1923, 'grad_norm': 3.6367104053497314, 'learning_rate': 3.935660506502396e-07, 'epoch': 5.56}
+{'eval_loss': 1.8183314800262451, 'eval_runtime': 11.4663, 'eval_samples_per_second': 52.327, 'eval_steps_per_second': 1.134, 'epoch': 5.56}
+{'loss': 1.179, 'grad_norm': 3.6018216609954834, 'learning_rate': 3.91854893908282e-07, 'epoch': 5.57}
+{'loss': 1.1971, 'grad_norm': 3.6314871311187744, 'learning_rate': 3.901437371663245e-07, 'epoch': 5.57}
+{'loss': 1.1854, 'grad_norm': 3.546063184738159, 'learning_rate': 3.884325804243669e-07, 'epoch': 5.57}
+{'loss': 1.1725, 'grad_norm': 3.449982166290283, 'learning_rate': 3.867214236824093e-07, 'epoch': 5.57}
+{'loss': 1.1824, 'grad_norm': 3.5771536827087402, 'learning_rate': 3.850102669404518e-07, 'epoch': 5.57}
+{'loss': 1.1674, 'grad_norm': 3.5825891494750977, 'learning_rate': 3.832991101984942e-07, 'epoch': 5.58}
+{'loss': 1.2007, 'grad_norm': 3.607748508453369, 'learning_rate': 3.8158795345653663e-07, 'epoch': 5.58}
+{'loss': 1.1609, 'grad_norm': 3.5263009071350098, 'learning_rate': 3.798767967145791e-07, 'epoch': 5.58}
+{'loss': 1.2135, 'grad_norm': 3.582561492919922, 'learning_rate': 3.7816563997262153e-07, 'epoch': 5.58}
+{'loss': 1.215, 'grad_norm': 3.6164016723632812, 'learning_rate': 3.7645448323066393e-07, 'epoch': 5.59}
+{'eval_loss': 1.8171764612197876, 'eval_runtime': 11.5193, 'eval_samples_per_second': 52.086, 'eval_steps_per_second': 1.129, 'epoch': 5.59}
+{'loss': 1.2602, 'grad_norm': 3.7445547580718994, 'learning_rate': 3.747433264887064e-07, 'epoch': 5.59}
+{'loss': 1.2017, 'grad_norm': 3.5649123191833496, 'learning_rate': 3.7303216974674883e-07, 'epoch': 5.59}
+{'loss': 1.1826, 'grad_norm': 3.6804070472717285, 'learning_rate': 3.7132101300479123e-07, 'epoch': 5.59}
+{'loss': 1.1948, 'grad_norm': 3.596219062805176, 'learning_rate': 3.696098562628337e-07, 'epoch': 5.59}
+{'loss': 1.1878, 'grad_norm': 3.6433515548706055, 'learning_rate': 3.678986995208762e-07, 'epoch': 5.6}
+{'loss': 1.173, 'grad_norm': 3.4814541339874268, 'learning_rate': 3.6618754277891853e-07, 'epoch': 5.6}
+{'loss': 1.1578, 'grad_norm': 3.414246082305908, 'learning_rate': 3.64476386036961e-07, 'epoch': 5.6}
+{'loss': 1.1982, 'grad_norm': 3.501457929611206, 'learning_rate': 3.627652292950035e-07, 'epoch': 5.6}
+{'loss': 1.1547, 'grad_norm': 3.4594738483428955, 'learning_rate': 3.6105407255304594e-07, 'epoch': 5.6}
+{'loss': 1.2231, 'grad_norm': 3.713261127471924, 'learning_rate': 3.593429158110883e-07, 'epoch': 5.61}
+{'eval_loss': 1.8160532712936401, 'eval_runtime': 11.5299, 'eval_samples_per_second': 52.039, 'eval_steps_per_second': 1.128, 'epoch': 5.61}
+{'loss': 1.2068, 'grad_norm': 3.7256522178649902, 'learning_rate': 3.576317590691308e-07, 'epoch': 5.61}
+{'loss': 1.1719, 'grad_norm': 3.5165722370147705, 'learning_rate': 3.5592060232717324e-07, 'epoch': 5.61}
+{'loss': 1.1956, 'grad_norm': 3.507256269454956, 'learning_rate': 3.5420944558521564e-07, 'epoch': 5.61}
+{'loss': 1.169, 'grad_norm': 3.6061816215515137, 'learning_rate': 3.524982888432581e-07, 'epoch': 5.61}
+{'loss': 1.2199, 'grad_norm': 3.6096441745758057, 'learning_rate': 3.5078713210130054e-07, 'epoch': 5.62}
+{'loss': 1.2069, 'grad_norm': 3.5982985496520996, 'learning_rate': 3.4907597535934294e-07, 'epoch': 5.62}
+{'loss': 1.1967, 'grad_norm': 3.5532939434051514, 'learning_rate': 3.473648186173854e-07, 'epoch': 5.62}
+{'loss': 1.1659, 'grad_norm': 3.558976888656616, 'learning_rate': 3.4565366187542784e-07, 'epoch': 5.62}
+{'loss': 1.2047, 'grad_norm': 3.5671989917755127, 'learning_rate': 3.439425051334703e-07, 'epoch': 5.62}
+{'loss': 1.2336, 'grad_norm': 3.6403048038482666, 'learning_rate': 3.422313483915127e-07, 'epoch': 5.63}
+{'eval_loss': 1.8175323009490967, 'eval_runtime': 11.5562, 'eval_samples_per_second': 51.92, 'eval_steps_per_second': 1.125, 'epoch': 5.63}
+{'loss': 1.1831, 'grad_norm': 3.5760061740875244, 'learning_rate': 3.4052019164955514e-07, 'epoch': 5.63}
+{'loss': 1.2088, 'grad_norm': 3.672907829284668, 'learning_rate': 3.388090349075976e-07, 'epoch': 5.63}
+{'loss': 1.1989, 'grad_norm': 3.6584832668304443, 'learning_rate': 3.3709787816564e-07, 'epoch': 5.63}
+{'loss': 1.1957, 'grad_norm': 3.595073938369751, 'learning_rate': 3.3538672142368244e-07, 'epoch': 5.63}
+{'loss': 1.1457, 'grad_norm': 3.5072898864746094, 'learning_rate': 3.336755646817249e-07, 'epoch': 5.64}
+{'loss': 1.1773, 'grad_norm': 3.5560545921325684, 'learning_rate': 3.319644079397673e-07, 'epoch': 5.64}
+{'loss': 1.1923, 'grad_norm': 3.644624948501587, 'learning_rate': 3.3025325119780974e-07, 'epoch': 5.64}
+{'loss': 1.1719, 'grad_norm': 3.5704665184020996, 'learning_rate': 3.285420944558522e-07, 'epoch': 5.64}
+{'loss': 1.1924, 'grad_norm': 3.573429584503174, 'learning_rate': 3.2683093771389465e-07, 'epoch': 5.64}
+{'loss': 1.1773, 'grad_norm': 3.6324667930603027, 'learning_rate': 3.2511978097193705e-07, 'epoch': 5.65}
+{'eval_loss': 1.8170477151870728, 'eval_runtime': 11.5629, 'eval_samples_per_second': 51.89, 'eval_steps_per_second': 1.124, 'epoch': 5.65}
+{'loss': 1.1713, 'grad_norm': 3.5021917819976807, 'learning_rate': 3.234086242299795e-07, 'epoch': 5.65}
+{'loss': 1.1582, 'grad_norm': 3.5009043216705322, 'learning_rate': 3.2169746748802195e-07, 'epoch': 5.65}
+{'loss': 1.1753, 'grad_norm': 3.598498821258545, 'learning_rate': 3.1998631074606435e-07, 'epoch': 5.65}
+{'loss': 1.1954, 'grad_norm': 3.541297674179077, 'learning_rate': 3.182751540041068e-07, 'epoch': 5.66}
+{'loss': 1.2161, 'grad_norm': 3.6142468452453613, 'learning_rate': 3.1656399726214925e-07, 'epoch': 5.66}
+{'loss': 1.1844, 'grad_norm': 3.58697509765625, 'learning_rate': 3.1485284052019165e-07, 'epoch': 5.66}
+{'loss': 1.1772, 'grad_norm': 3.5657360553741455, 'learning_rate': 3.131416837782341e-07, 'epoch': 5.66}
+{'loss': 1.2017, 'grad_norm': 3.671198844909668, 'learning_rate': 3.1143052703627655e-07, 'epoch': 5.66}
+{'loss': 1.1983, 'grad_norm': 3.5323877334594727, 'learning_rate': 3.09719370294319e-07, 'epoch': 5.67}
+{'loss': 1.2001, 'grad_norm': 3.57218861579895, 'learning_rate': 3.080082135523614e-07, 'epoch': 5.67}
+{'eval_loss': 1.8158215284347534, 'eval_runtime': 11.5855, 'eval_samples_per_second': 51.789, 'eval_steps_per_second': 1.122, 'epoch': 5.67}
+{'loss': 1.2223, 'grad_norm': 3.5938329696655273, 'learning_rate': 3.0629705681040385e-07, 'epoch': 5.67}
+{'loss': 1.1975, 'grad_norm': 3.5895540714263916, 'learning_rate': 3.045859000684463e-07, 'epoch': 5.67}
+{'loss': 1.2167, 'grad_norm': 3.6230597496032715, 'learning_rate': 3.0287474332648875e-07, 'epoch': 5.67}
+{'loss': 1.1825, 'grad_norm': 3.7440009117126465, 'learning_rate': 3.0116358658453115e-07, 'epoch': 5.68}
+{'loss': 1.1862, 'grad_norm': 3.5545949935913086, 'learning_rate': 2.994524298425736e-07, 'epoch': 5.68}
+{'loss': 1.1932, 'grad_norm': 3.5609798431396484, 'learning_rate': 2.9774127310061606e-07, 'epoch': 5.68}
+{'loss': 1.1781, 'grad_norm': 3.4992294311523438, 'learning_rate': 2.9603011635865845e-07, 'epoch': 5.68}
+{'loss': 1.1496, 'grad_norm': 3.445951461791992, 'learning_rate': 2.943189596167009e-07, 'epoch': 5.68}
+{'loss': 1.1605, 'grad_norm': 3.441323757171631, 'learning_rate': 2.9260780287474336e-07, 'epoch': 5.69}
+{'loss': 1.1852, 'grad_norm': 3.6418027877807617, 'learning_rate': 2.9089664613278576e-07, 'epoch': 5.69}
+{'eval_loss': 1.816522240638733, 'eval_runtime': 11.562, 'eval_samples_per_second': 51.894, 'eval_steps_per_second': 1.124, 'epoch': 5.69}
+{'loss': 1.1699, 'grad_norm': 3.6396470069885254, 'learning_rate': 2.891854893908282e-07, 'epoch': 5.69}
+{'loss': 1.1769, 'grad_norm': 3.6673007011413574, 'learning_rate': 2.8747433264887066e-07, 'epoch': 5.69}
+{'loss': 1.2101, 'grad_norm': 3.6920571327209473, 'learning_rate': 2.857631759069131e-07, 'epoch': 5.69}
+{'loss': 1.2176, 'grad_norm': 3.7318968772888184, 'learning_rate': 2.840520191649555e-07, 'epoch': 5.7}
+{'loss': 1.1725, 'grad_norm': 3.6057968139648438, 'learning_rate': 2.8234086242299796e-07, 'epoch': 5.7}
+{'loss': 1.1741, 'grad_norm': 3.536217212677002, 'learning_rate': 2.806297056810404e-07, 'epoch': 5.7}
+{'loss': 1.1883, 'grad_norm': 3.5941054821014404, 'learning_rate': 2.7891854893908286e-07, 'epoch': 5.7}
+{'loss': 1.1814, 'grad_norm': 3.6508548259735107, 'learning_rate': 2.772073921971253e-07, 'epoch': 5.7}
+{'loss': 1.1932, 'grad_norm': 3.5868003368377686, 'learning_rate': 2.754962354551677e-07, 'epoch': 5.71}
+{'loss': 1.2023, 'grad_norm': 3.6489739418029785, 'learning_rate': 2.7378507871321016e-07, 'epoch': 5.71}
+{'eval_loss': 1.8147599697113037, 'eval_runtime': 11.5672, 'eval_samples_per_second': 51.871, 'eval_steps_per_second': 1.124, 'epoch': 5.71}
+{'loss': 1.1898, 'grad_norm': 3.4858291149139404, 'learning_rate': 2.720739219712526e-07, 'epoch': 5.71}
+{'loss': 1.2105, 'grad_norm': 3.6471376419067383, 'learning_rate': 2.70362765229295e-07, 'epoch': 5.71}
+{'loss': 1.1617, 'grad_norm': 3.550477981567383, 'learning_rate': 2.6865160848733746e-07, 'epoch': 5.71}
+{'loss': 1.1856, 'grad_norm': 3.5253779888153076, 'learning_rate': 2.669404517453799e-07, 'epoch': 5.72}
+{'loss': 1.1798, 'grad_norm': 3.5987846851348877, 'learning_rate': 2.652292950034223e-07, 'epoch': 5.72}
+{'loss': 1.1836, 'grad_norm': 3.586934804916382, 'learning_rate': 2.6351813826146477e-07, 'epoch': 5.72}
+{'loss': 1.1683, 'grad_norm': 3.566580295562744, 'learning_rate': 2.618069815195072e-07, 'epoch': 5.72}
+{'loss': 1.1988, 'grad_norm': 3.6993744373321533, 'learning_rate': 2.6009582477754967e-07, 'epoch': 5.72}
+{'loss': 1.1888, 'grad_norm': 3.720057487487793, 'learning_rate': 2.5838466803559207e-07, 'epoch': 5.73}
+{'loss': 1.1929, 'grad_norm': 3.5735321044921875, 'learning_rate': 2.566735112936345e-07, 'epoch': 5.73}
+{'eval_loss': 1.814801812171936, 'eval_runtime': 11.5677, 'eval_samples_per_second': 51.869, 'eval_steps_per_second': 1.124, 'epoch': 5.73}
+{'loss': 1.1964, 'grad_norm': 3.6877248287200928, 'learning_rate': 2.5496235455167697e-07, 'epoch': 5.73}
+{'loss': 1.1619, 'grad_norm': 3.5815742015838623, 'learning_rate': 2.5325119780971937e-07, 'epoch': 5.73}
+{'loss': 1.165, 'grad_norm': 3.5695877075195312, 'learning_rate': 2.515400410677618e-07, 'epoch': 5.74}
+{'loss': 1.2073, 'grad_norm': 3.5690276622772217, 'learning_rate': 2.4982888432580427e-07, 'epoch': 5.74}
+{'loss': 1.2044, 'grad_norm': 3.7086503505706787, 'learning_rate': 2.4811772758384667e-07, 'epoch': 5.74}
+{'loss': 1.1905, 'grad_norm': 3.6034703254699707, 'learning_rate': 2.464065708418891e-07, 'epoch': 5.74}
+{'loss': 1.1823, 'grad_norm': 3.5496411323547363, 'learning_rate': 2.4469541409993157e-07, 'epoch': 5.74}
+{'loss': 1.193, 'grad_norm': 3.793152093887329, 'learning_rate': 2.42984257357974e-07, 'epoch': 5.75}
+{'loss': 1.1635, 'grad_norm': 3.590346574783325, 'learning_rate': 2.412731006160165e-07, 'epoch': 5.75}
+{'loss': 1.1934, 'grad_norm': 3.5874440670013428, 'learning_rate': 2.3956194387405887e-07, 'epoch': 5.75}
+{'eval_loss': 1.815758228302002, 'eval_runtime': 11.5616, 'eval_samples_per_second': 51.896, 'eval_steps_per_second': 1.124, 'epoch': 5.75}
+{'loss': 1.193, 'grad_norm': 3.604099750518799, 'learning_rate': 2.3785078713210132e-07, 'epoch': 5.75}
+{'loss': 1.1824, 'grad_norm': 3.597423553466797, 'learning_rate': 2.3613963039014375e-07, 'epoch': 5.75}
+{'loss': 1.2096, 'grad_norm': 3.8024492263793945, 'learning_rate': 2.344284736481862e-07, 'epoch': 5.76}
+{'loss': 1.1892, 'grad_norm': 3.5478665828704834, 'learning_rate': 2.3271731690622863e-07, 'epoch': 5.76}
+{'loss': 1.227, 'grad_norm': 3.6799187660217285, 'learning_rate': 2.3100616016427105e-07, 'epoch': 5.76}
+{'loss': 1.1591, 'grad_norm': 3.471452474594116, 'learning_rate': 2.292950034223135e-07, 'epoch': 5.76}
+{'loss': 1.1935, 'grad_norm': 3.6389076709747314, 'learning_rate': 2.2758384668035593e-07, 'epoch': 5.76}
+{'loss': 1.2167, 'grad_norm': 3.5252702236175537, 'learning_rate': 2.258726899383984e-07, 'epoch': 5.77}
+{'loss': 1.194, 'grad_norm': 3.6228585243225098, 'learning_rate': 2.241615331964408e-07, 'epoch': 5.77}
+{'loss': 1.1859, 'grad_norm': 3.481100082397461, 'learning_rate': 2.2245037645448323e-07, 'epoch': 5.77}
+{'eval_loss': 1.8143373727798462, 'eval_runtime': 11.5623, 'eval_samples_per_second': 51.893, 'eval_steps_per_second': 1.124, 'epoch': 5.77}
+{'loss': 1.2038, 'grad_norm': 3.642688035964966, 'learning_rate': 2.207392197125257e-07, 'epoch': 5.77}
+{'loss': 1.197, 'grad_norm': 3.574895143508911, 'learning_rate': 2.1902806297056813e-07, 'epoch': 5.77}
+{'loss': 1.1803, 'grad_norm': 3.4878697395324707, 'learning_rate': 2.1731690622861053e-07, 'epoch': 5.78}
+{'loss': 1.1798, 'grad_norm': 3.541012763977051, 'learning_rate': 2.15605749486653e-07, 'epoch': 5.78}
+{'loss': 1.2059, 'grad_norm': 3.5335986614227295, 'learning_rate': 2.1389459274469543e-07, 'epoch': 5.78}
+{'loss': 1.1938, 'grad_norm': 3.6459128856658936, 'learning_rate': 2.1218343600273788e-07, 'epoch': 5.78}
+{'loss': 1.1831, 'grad_norm': 3.696995735168457, 'learning_rate': 2.104722792607803e-07, 'epoch': 5.78}
+{'loss': 1.1906, 'grad_norm': 3.5224051475524902, 'learning_rate': 2.0876112251882273e-07, 'epoch': 5.79}
+{'loss': 1.1914, 'grad_norm': 3.5746238231658936, 'learning_rate': 2.0704996577686518e-07, 'epoch': 5.79}
+{'loss': 1.197, 'grad_norm': 3.5594935417175293, 'learning_rate': 2.053388090349076e-07, 'epoch': 5.79}
+{'eval_loss': 1.8161137104034424, 'eval_runtime': 11.5746, 'eval_samples_per_second': 51.838, 'eval_steps_per_second': 1.123, 'epoch': 5.79}
+{'loss': 1.1837, 'grad_norm': 3.599679470062256, 'learning_rate': 2.0362765229295006e-07, 'epoch': 5.79}
+{'loss': 1.1767, 'grad_norm': 3.6529288291931152, 'learning_rate': 2.0191649555099249e-07, 'epoch': 5.79}
+{'loss': 1.1789, 'grad_norm': 3.676618814468384, 'learning_rate': 2.002053388090349e-07, 'epoch': 5.8}
+{'loss': 1.1732, 'grad_norm': 3.5223636627197266, 'learning_rate': 1.9849418206707736e-07, 'epoch': 5.8}
+{'loss': 1.1555, 'grad_norm': 3.6109564304351807, 'learning_rate': 1.967830253251198e-07, 'epoch': 5.8}
+{'loss': 1.1757, 'grad_norm': 3.6577341556549072, 'learning_rate': 1.9507186858316224e-07, 'epoch': 5.8}
+{'loss': 1.2004, 'grad_norm': 3.5992424488067627, 'learning_rate': 1.9336071184120466e-07, 'epoch': 5.8}
+{'loss': 1.1968, 'grad_norm': 3.5994322299957275, 'learning_rate': 1.916495550992471e-07, 'epoch': 5.81}
+{'loss': 1.1787, 'grad_norm': 3.7191503047943115, 'learning_rate': 1.8993839835728954e-07, 'epoch': 5.81}
+{'loss': 1.203, 'grad_norm': 3.6160197257995605, 'learning_rate': 1.8822724161533196e-07, 'epoch': 5.81}
+{'eval_loss': 1.8159104585647583, 'eval_runtime': 11.5646, 'eval_samples_per_second': 51.883, 'eval_steps_per_second': 1.124, 'epoch': 5.81}
+{'loss': 1.2017, 'grad_norm': 3.6887946128845215, 'learning_rate': 1.8651608487337442e-07, 'epoch': 5.81}
+{'loss': 1.1829, 'grad_norm': 3.597503423690796, 'learning_rate': 1.8480492813141684e-07, 'epoch': 5.82}
+{'loss': 1.1865, 'grad_norm': 3.642014980316162, 'learning_rate': 1.8309377138945927e-07, 'epoch': 5.82}
+{'loss': 1.1785, 'grad_norm': 3.6674997806549072, 'learning_rate': 1.8138261464750174e-07, 'epoch': 5.82}
+{'loss': 1.1862, 'grad_norm': 3.6292836666107178, 'learning_rate': 1.7967145790554414e-07, 'epoch': 5.82}
+{'loss': 1.1699, 'grad_norm': 3.5200161933898926, 'learning_rate': 1.7796030116358662e-07, 'epoch': 5.82}
+{'loss': 1.2076, 'grad_norm': 3.459066867828369, 'learning_rate': 1.7624914442162904e-07, 'epoch': 5.83}
+{'loss': 1.1981, 'grad_norm': 3.7348008155822754, 'learning_rate': 1.7453798767967147e-07, 'epoch': 5.83}
+{'loss': 1.1922, 'grad_norm': 3.4547181129455566, 'learning_rate': 1.7282683093771392e-07, 'epoch': 5.83}
+{'loss': 1.2212, 'grad_norm': 3.792215585708618, 'learning_rate': 1.7111567419575635e-07, 'epoch': 5.83}
+{'eval_loss': 1.815638780593872, 'eval_runtime': 11.5824, 'eval_samples_per_second': 51.803, 'eval_steps_per_second': 1.122, 'epoch': 5.83}
+{'loss': 1.1801, 'grad_norm': 3.661612033843994, 'learning_rate': 1.694045174537988e-07, 'epoch': 5.83}
+{'loss': 1.1815, 'grad_norm': 3.594217300415039, 'learning_rate': 1.6769336071184122e-07, 'epoch': 5.84}
+{'loss': 1.1827, 'grad_norm': 3.6603987216949463, 'learning_rate': 1.6598220396988365e-07, 'epoch': 5.84}
+{'loss': 1.2103, 'grad_norm': 3.560157060623169, 'learning_rate': 1.642710472279261e-07, 'epoch': 5.84}
+{'loss': 1.1823, 'grad_norm': 3.5098419189453125, 'learning_rate': 1.6255989048596852e-07, 'epoch': 5.84}
+{'loss': 1.1822, 'grad_norm': 3.7637217044830322, 'learning_rate': 1.6084873374401097e-07, 'epoch': 5.84}
+{'loss': 1.187, 'grad_norm': 3.5489184856414795, 'learning_rate': 1.591375770020534e-07, 'epoch': 5.85}
+{'loss': 1.2056, 'grad_norm': 3.623746156692505, 'learning_rate': 1.5742642026009582e-07, 'epoch': 5.85}
+{'loss': 1.2093, 'grad_norm': 3.679647207260132, 'learning_rate': 1.5571526351813828e-07, 'epoch': 5.85}
+{'loss': 1.2218, 'grad_norm': 3.5738842487335205, 'learning_rate': 1.540041067761807e-07, 'epoch': 5.85}
+{'eval_loss': 1.8158077001571655, 'eval_runtime': 11.5803, 'eval_samples_per_second': 51.812, 'eval_steps_per_second': 1.123, 'epoch': 5.85}
+{'loss': 1.2185, 'grad_norm': 3.7286133766174316, 'learning_rate': 1.5229295003422315e-07, 'epoch': 5.85}
+{'loss': 1.1428, 'grad_norm': 3.593844413757324, 'learning_rate': 1.5058179329226558e-07, 'epoch': 5.86}
+{'loss': 1.1818, 'grad_norm': 3.5992095470428467, 'learning_rate': 1.4887063655030803e-07, 'epoch': 5.86}
+{'loss': 1.165, 'grad_norm': 3.583674907684326, 'learning_rate': 1.4715947980835045e-07, 'epoch': 5.86}
+{'loss': 1.2027, 'grad_norm': 3.6193668842315674, 'learning_rate': 1.4544832306639288e-07, 'epoch': 5.86}
+{'loss': 1.178, 'grad_norm': 3.6497249603271484, 'learning_rate': 1.4373716632443533e-07, 'epoch': 5.86}
+{'loss': 1.1956, 'grad_norm': 3.5801737308502197, 'learning_rate': 1.4202600958247775e-07, 'epoch': 5.87}
+{'loss': 1.1926, 'grad_norm': 3.5618813037872314, 'learning_rate': 1.403148528405202e-07, 'epoch': 5.87}
+{'loss': 1.1715, 'grad_norm': 3.437058448791504, 'learning_rate': 1.3860369609856266e-07, 'epoch': 5.87}
+{'loss': 1.1716, 'grad_norm': 3.6135966777801514, 'learning_rate': 1.3689253935660508e-07, 'epoch': 5.87}
+{'eval_loss': 1.8145354986190796, 'eval_runtime': 11.4671, 'eval_samples_per_second': 52.324, 'eval_steps_per_second': 1.134, 'epoch': 5.87}
+{'loss': 1.1808, 'grad_norm': 3.6397669315338135, 'learning_rate': 1.351813826146475e-07, 'epoch': 5.87}
+{'loss': 1.1808, 'grad_norm': 3.5376625061035156, 'learning_rate': 1.3347022587268996e-07, 'epoch': 5.88}
+{'loss': 1.1949, 'grad_norm': 3.555671453475952, 'learning_rate': 1.3175906913073238e-07, 'epoch': 5.88}
+{'loss': 1.1978, 'grad_norm': 3.751471519470215, 'learning_rate': 1.3004791238877483e-07, 'epoch': 5.88}
+{'loss': 1.2125, 'grad_norm': 3.7089924812316895, 'learning_rate': 1.2833675564681726e-07, 'epoch': 5.88}
+{'loss': 1.176, 'grad_norm': 3.7215137481689453, 'learning_rate': 1.2662559890485968e-07, 'epoch': 5.89}
+{'loss': 1.1488, 'grad_norm': 3.474790573120117, 'learning_rate': 1.2491444216290214e-07, 'epoch': 5.89}
+{'loss': 1.1645, 'grad_norm': 3.5712287425994873, 'learning_rate': 1.2320328542094456e-07, 'epoch': 5.89}
+{'loss': 1.1755, 'grad_norm': 3.6186363697052, 'learning_rate': 1.21492128678987e-07, 'epoch': 5.89}
+{'loss': 1.2013, 'grad_norm': 3.707437038421631, 'learning_rate': 1.1978097193702944e-07, 'epoch': 5.89}
+{'eval_loss': 1.8138582706451416, 'eval_runtime': 11.5509, 'eval_samples_per_second': 51.944, 'eval_steps_per_second': 1.125, 'epoch': 5.89}
+{'loss': 1.229, 'grad_norm': 3.5862112045288086, 'learning_rate': 1.1806981519507187e-07, 'epoch': 5.9}
+{'loss': 1.2031, 'grad_norm': 3.5678110122680664, 'learning_rate': 1.1635865845311431e-07, 'epoch': 5.9}
+{'loss': 1.1714, 'grad_norm': 3.4798901081085205, 'learning_rate': 1.1464750171115675e-07, 'epoch': 5.9}
+{'loss': 1.1884, 'grad_norm': 3.510694742202759, 'learning_rate': 1.129363449691992e-07, 'epoch': 5.9}
+{'loss': 1.1729, 'grad_norm': 3.5766286849975586, 'learning_rate': 1.1122518822724161e-07, 'epoch': 5.9}
+{'loss': 1.1722, 'grad_norm': 3.580080032348633, 'learning_rate': 1.0951403148528407e-07, 'epoch': 5.91}
+{'loss': 1.1793, 'grad_norm': 3.603851556777954, 'learning_rate': 1.078028747433265e-07, 'epoch': 5.91}
+{'loss': 1.1764, 'grad_norm': 3.4572103023529053, 'learning_rate': 1.0609171800136894e-07, 'epoch': 5.91}
+{'loss': 1.152, 'grad_norm': 3.5597422122955322, 'learning_rate': 1.0438056125941137e-07, 'epoch': 5.91}
+{'loss': 1.1953, 'grad_norm': 3.473764657974243, 'learning_rate': 1.026694045174538e-07, 'epoch': 5.91}
+{'eval_loss': 1.814839243888855, 'eval_runtime': 11.5509, 'eval_samples_per_second': 51.944, 'eval_steps_per_second': 1.125, 'epoch': 5.91}
+{'loss': 1.2118, 'grad_norm': 3.6844565868377686, 'learning_rate': 1.0095824777549624e-07, 'epoch': 5.92}
+{'loss': 1.1952, 'grad_norm': 3.6124284267425537, 'learning_rate': 9.924709103353868e-08, 'epoch': 5.92}
+{'loss': 1.2324, 'grad_norm': 3.718385934829712, 'learning_rate': 9.753593429158112e-08, 'epoch': 5.92}
+{'loss': 1.192, 'grad_norm': 3.7371573448181152, 'learning_rate': 9.582477754962354e-08, 'epoch': 5.92}
+{'loss': 1.2046, 'grad_norm': 3.6368629932403564, 'learning_rate': 9.411362080766598e-08, 'epoch': 5.92}
+{'loss': 1.191, 'grad_norm': 3.640287160873413, 'learning_rate': 9.240246406570842e-08, 'epoch': 5.93}
+{'loss': 1.1984, 'grad_norm': 3.6717662811279297, 'learning_rate': 9.069130732375087e-08, 'epoch': 5.93}
+{'loss': 1.2167, 'grad_norm': 3.6226420402526855, 'learning_rate': 8.898015058179331e-08, 'epoch': 5.93}
+{'loss': 1.1681, 'grad_norm': 3.6155455112457275, 'learning_rate': 8.726899383983573e-08, 'epoch': 5.93}
+{'loss': 1.1813, 'grad_norm': 3.471679449081421, 'learning_rate': 8.555783709787817e-08, 'epoch': 5.93}
+{'eval_loss': 1.8143736124038696, 'eval_runtime': 11.5665, 'eval_samples_per_second': 51.874, 'eval_steps_per_second': 1.124, 'epoch': 5.93}
+{'loss': 1.1777, 'grad_norm': 3.5365664958953857, 'learning_rate': 8.384668035592061e-08, 'epoch': 5.94}
+{'loss': 1.1943, 'grad_norm': 3.6000354290008545, 'learning_rate': 8.213552361396305e-08, 'epoch': 5.94}
+{'loss': 1.2224, 'grad_norm': 3.7691516876220703, 'learning_rate': 8.042436687200549e-08, 'epoch': 5.94}
+{'loss': 1.178, 'grad_norm': 3.569495677947998, 'learning_rate': 7.871321013004791e-08, 'epoch': 5.94}
+{'loss': 1.209, 'grad_norm': 3.625105142593384, 'learning_rate': 7.700205338809035e-08, 'epoch': 5.94}
+{'loss': 1.183, 'grad_norm': 3.4936513900756836, 'learning_rate': 7.529089664613279e-08, 'epoch': 5.95}
+{'loss': 1.1938, 'grad_norm': 3.6825947761535645, 'learning_rate': 7.357973990417523e-08, 'epoch': 5.95}
+{'loss': 1.1919, 'grad_norm': 3.8035075664520264, 'learning_rate': 7.186858316221766e-08, 'epoch': 5.95}
+{'loss': 1.1874, 'grad_norm': 3.5357158184051514, 'learning_rate': 7.01574264202601e-08, 'epoch': 5.95}
+{'loss': 1.2094, 'grad_norm': 3.5665643215179443, 'learning_rate': 6.844626967830254e-08, 'epoch': 5.95}
+{'eval_loss': 1.813725233078003, 'eval_runtime': 11.5749, 'eval_samples_per_second': 51.836, 'eval_steps_per_second': 1.123, 'epoch': 5.95}
+{'loss': 1.1655, 'grad_norm': 3.544229507446289, 'learning_rate': 6.673511293634498e-08, 'epoch': 5.96}
+{'loss': 1.1877, 'grad_norm': 3.5614774227142334, 'learning_rate': 6.502395619438742e-08, 'epoch': 5.96}
+{'loss': 1.2132, 'grad_norm': 3.57245135307312, 'learning_rate': 6.331279945242984e-08, 'epoch': 5.96}
+{'loss': 1.1767, 'grad_norm': 3.6320366859436035, 'learning_rate': 6.160164271047228e-08, 'epoch': 5.96}
+{'loss': 1.2279, 'grad_norm': 3.6320643424987793, 'learning_rate': 5.989048596851472e-08, 'epoch': 5.97}
+{'loss': 1.1982, 'grad_norm': 3.614192008972168, 'learning_rate': 5.8179329226557156e-08, 'epoch': 5.97}
+{'loss': 1.2028, 'grad_norm': 3.5994560718536377, 'learning_rate': 5.64681724845996e-08, 'epoch': 5.97}
+{'loss': 1.1913, 'grad_norm': 3.578317403793335, 'learning_rate': 5.475701574264203e-08, 'epoch': 5.97}
+{'loss': 1.1995, 'grad_norm': 3.5330700874328613, 'learning_rate': 5.304585900068447e-08, 'epoch': 5.97}
+{'loss': 1.1869, 'grad_norm': 3.5993521213531494, 'learning_rate': 5.13347022587269e-08, 'epoch': 5.98}
+{'eval_loss': 1.8133732080459595, 'eval_runtime': 11.564, 'eval_samples_per_second': 51.885, 'eval_steps_per_second': 1.124, 'epoch': 5.98}
+{'loss': 1.2216, 'grad_norm': 3.5592241287231445, 'learning_rate': 4.962354551676934e-08, 'epoch': 5.98}
+{'loss': 1.2005, 'grad_norm': 3.478955030441284, 'learning_rate': 4.791238877481177e-08, 'epoch': 5.98}
+{'loss': 1.1905, 'grad_norm': 3.6688003540039062, 'learning_rate': 4.620123203285421e-08, 'epoch': 5.98}
+{'loss': 1.1815, 'grad_norm': 3.628120183944702, 'learning_rate': 4.4490075290896655e-08, 'epoch': 5.98}
+{'loss': 1.1739, 'grad_norm': 3.5683541297912598, 'learning_rate': 4.2778918548939086e-08, 'epoch': 5.99}
+{'loss': 1.211, 'grad_norm': 3.5718541145324707, 'learning_rate': 4.1067761806981525e-08, 'epoch': 5.99}
+{'loss': 1.1967, 'grad_norm': 3.581214427947998, 'learning_rate': 3.9356605065023956e-08, 'epoch': 5.99}
+{'loss': 1.1939, 'grad_norm': 3.589975595474243, 'learning_rate': 3.7645448323066394e-08, 'epoch': 5.99}
+{'loss': 1.1737, 'grad_norm': 3.5253195762634277, 'learning_rate': 3.593429158110883e-08, 'epoch': 5.99}
+{'loss': 1.1855, 'grad_norm': 3.611929416656494, 'learning_rate': 3.422313483915127e-08, 'epoch': 6.0}
+{'eval_loss': 1.8133738040924072, 'eval_runtime': 11.6069, 'eval_samples_per_second': 51.693, 'eval_steps_per_second': 1.12, 'epoch': 6.0}
+{'loss': 1.2006, 'grad_norm': 3.702923536300659, 'learning_rate': 3.251197809719371e-08, 'epoch': 6.0}
+{'loss': 1.1762, 'grad_norm': 3.5276362895965576, 'learning_rate': 3.080082135523614e-08, 'epoch': 6.0}
+{'train_runtime': 31844.4073, 'train_samples_per_second': 3.301, 'train_steps_per_second': 0.092, 'train_loss': 1.3733420533158043, 'epoch': 6.0}
diff --git a/wandb/run-20241031_122113-f74sq78x/files/wandb-metadata.json b/wandb/run-20241031_122113-f74sq78x/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..40e76e734f6a02bf0d9187096eb244e413fc52c6
--- /dev/null
+++ b/wandb/run-20241031_122113-f74sq78x/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T16:21:13.916582Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753159962624"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_122113-f74sq78x/files/wandb-summary.json b/wandb/run-20241031_122113-f74sq78x/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..21b4ba826af75fbcc148e964cf2413286131194b
--- /dev/null
+++ b/wandb/run-20241031_122113-f74sq78x/files/wandb-summary.json
@@ -0,0 +1 @@
+{"eval/runtime":11.6069,"_runtime":32015.260425775,"train/loss":1.1762,"train/grad_norm":3.5276362895965576,"eval/loss":1.8133738040924072,"train_loss":1.3733420533158043,"_timestamp":1.7304236891768625e+09,"train_samples_per_second":3.301,"train/learning_rate":3.080082135523614e-08,"train_steps_per_second":0.092,"eval/steps_per_second":1.12,"eval/samples_per_second":51.693,"total_flos":1.821755618831106e+18,"_wandb":{"runtime":32015},"train/epoch":6,"train_runtime":31844.4073,"_step":3214,"train/global_step":2922}
\ No newline at end of file
diff --git a/wandb/run-20241031_122113-f74sq78x/logs/debug-internal.log b/wandb/run-20241031_122113-f74sq78x/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..3dda79e0dba9351179112135393052c5798142c4
--- /dev/null
+++ b/wandb/run-20241031_122113-f74sq78x/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-10-31T12:21:13.919461979-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T12:21:13.919481669-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_122113-f74sq78x/logs/debug-core.log"}
+{"time":"2024-10-31T12:21:14.028278673-04:00","level":"INFO","msg":"created new stream","id":"f74sq78x"}
+{"time":"2024-10-31T12:21:14.028319283-04:00","level":"INFO","msg":"stream: started","id":"f74sq78x"}
+{"time":"2024-10-31T12:21:14.028368513-04:00","level":"INFO","msg":"sender: started","stream_id":"f74sq78x"}
+{"time":"2024-10-31T12:21:14.028354123-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"f74sq78x"}}
+{"time":"2024-10-31T12:21:14.028408043-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"f74sq78x"}}
+{"time":"2024-10-31T12:21:14.316281133-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-31T21:14:49.439293898-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-31T21:14:49.510534489-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-31T21:14:50.197747935-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-31T21:14:50.329551846-04:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2024-10-31T21:14:51.422197422-04:00","level":"INFO","msg":"stream: closing","id":"f74sq78x"}
+{"time":"2024-10-31T21:14:51.422215052-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"f74sq78x"}}
+{"time":"2024-10-31T21:14:51.422230202-04:00","level":"INFO","msg":"sender: closed","stream_id":"f74sq78x"}
+{"time":"2024-10-31T21:14:51.422225522-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"f74sq78x"}}
+{"time":"2024-10-31T21:14:51.422273323-04:00","level":"INFO","msg":"stream: closed","id":"f74sq78x"}
diff --git a/wandb/run-20241031_122113-f74sq78x/logs/debug.log b/wandb/run-20241031_122113-f74sq78x/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..2a093e31b5a50e10c7360523845a669c2153b1d5
--- /dev/null
+++ b/wandb/run-20241031_122113-f74sq78x/logs/debug.log
@@ -0,0 +1,36 @@
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Configure stats pid to 558430
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_122113-f74sq78x/logs/debug.log
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_122113-f74sq78x/logs/debug-internal.log
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_init.py:init():621] calling init triggers
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 12:21:13,914 INFO    MainThread:558430 [wandb_init.py:init():671] starting backend
+2024-10-31 12:21:13,915 INFO    MainThread:558430 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 12:21:13,915 INFO    MainThread:558430 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 12:21:13,916 INFO    MainThread:558430 [wandb_init.py:init():688] backend started and connected
+2024-10-31 12:21:13,919 INFO    MainThread:558430 [wandb_init.py:init():783] updated telemetry
+2024-10-31 12:21:13,952 INFO    MainThread:558430 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 12:21:14,313 INFO    MainThread:558430 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 12:21:14,398 INFO    MainThread:558430 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 12:21:14,398 INFO    MainThread:558430 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 12:21:14,398 INFO    MainThread:558430 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 12:21:14,398 INFO    MainThread:558430 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 12:21:14,401 INFO    MainThread:558430 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 12:21:14,401 INFO    MainThread:558430 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 5e-06}
+2024-10-31 12:24:04,771 INFO    MainThread:558430 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B/babylm_reverse_full_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 6, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 150, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B/babylm_reverse_full_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-10-31 12:24:04,773 INFO    MainThread:558430 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7f57bac78d60>>
+2024-10-31 12:24:04,773 INFO    MainThread:558430 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-10-31 21:14:49,288 INFO    MainThread:558430 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/impossible_llm_reverse/f74sq78x
+2024-10-31 21:14:49,399 INFO    MainThread:558430 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-10-31 21:14:49,400 INFO    MainThread:558430 [wandb_run.py:_restore():2408] restore
+2024-10-31 21:14:49,400 INFO    MainThread:558430 [wandb_run.py:_restore():2414] restore done
+2024-10-31 21:14:51,336 INFO    MainThread:558430 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-10-31 21:14:51,337 INFO    MainThread:558430 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-10-31 21:14:51,421 INFO    MainThread:558430 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241101_093116-hq0hplpe/files/config.yaml b/wandb/run-20241101_093116-hq0hplpe/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e63fa156e124fc339fdb1ecf2b1d70540c283aa2
--- /dev/null
+++ b/wandb/run-20241101_093116-hq0hplpe/files/config.yaml
@@ -0,0 +1,481 @@
+_name_or_path:
+    value: meta-llama/Llama-3.2-3B
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+epoch:
+    value: 7
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+head_dim:
+    value: 128
+hidden_act:
+    value: silu
+hidden_size:
+    value: 3072
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 8192
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 131072
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mlp_bias:
+    value: false
+model/num_parameters:
+    value: 3212749824
+model_type:
+    value: llama
+mp_parameters:
+    value: ""
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 24
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 28
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 7
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/Llama-3.2-3B/babylm_reverse_control_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: reverse_control
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value:
+        factor: 32
+        high_freq_factor: 4
+        low_freq_factor: 1
+        original_max_position_embeddings: 8192
+        rope_type: llama3
+rope_theta:
+    value: 500000
+run_name:
+    value: ./checkpoints/Llama-3.2-3B/babylm_reverse_control_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 150
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241101_093116-hq0hplpe/files/output.log b/wandb/run-20241101_093116-hq0hplpe/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..cf01eebbf9dc0d2196abce2f95f74fed2d094081
--- /dev/null
+++ b/wandb/run-20241101_093116-hq0hplpe/files/output.log
@@ -0,0 +1,52 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.04s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-01 09:31:37,005] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-01 09:31:45,762] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-01 09:31:45,762] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.8145647048950195 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+  0%|                                                                                                                                         | 0/3409 [00:00<?, ?it/s]Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 220, in <module>
+    trainer.train()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2052, in train
+    return inner_training_loop(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2388, in _inner_training_loop
+    tr_loss_step = self.training_step(model, inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 3485, in training_step
+    loss = self.compute_loss(model, inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 3532, in compute_loss
+    outputs = model(**inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
+    return forward_call(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/utils/nvtx.py", line 18, in wrapped_fn
+    ret_val = func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 1899, in forward
+    loss = self.module(*inputs, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
+    return forward_call(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/llama/modeling_llama.py", line 1189, in forward
+    outputs = self.model(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
+    return forward_call(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/llama/modeling_llama.py", line 1000, in forward
+    layer_outputs = decoder_layer(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
+    return forward_call(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/llama/modeling_llama.py", line 729, in forward
+    hidden_states, self_attn_weights, present_key_value = self.self_attn(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
+    return forward_call(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/llama/modeling_llama.py", line 426, in forward
+    attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/nn/functional.py", line 1845, in softmax
+    ret = input.softmax(dim, dtype=dtype)
+torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 288.00 MiB (GPU 0; 47.54 GiB total capacity; 11.61 GiB already allocated; 236.56 MiB free; 11.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
diff --git a/wandb/run-20241101_093116-hq0hplpe/files/wandb-metadata.json b/wandb/run-20241101_093116-hq0hplpe/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..84cdfb13516e0e5e15cab3a37e417458989b631c
--- /dev/null
+++ b/wandb/run-20241101_093116-hq0hplpe/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-01T13:31:16.509911Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "7",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754716262400"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_093116-hq0hplpe/files/wandb-summary.json b/wandb/run-20241101_093116-hq0hplpe/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..2c137454958814e13fe81e28c68f016eff5178f7
--- /dev/null
+++ b/wandb/run-20241101_093116-hq0hplpe/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":66}}
\ No newline at end of file
diff --git a/wandb/run-20241101_093116-hq0hplpe/logs/debug-internal.log b/wandb/run-20241101_093116-hq0hplpe/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..d6df5da8802b31a0a75a87ec0aba2951857005b3
--- /dev/null
+++ b/wandb/run-20241101_093116-hq0hplpe/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-01T09:31:16.512440398-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T09:31:16.512456718-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_093116-hq0hplpe/logs/debug-core.log"}
+{"time":"2024-11-01T09:31:16.620796284-04:00","level":"INFO","msg":"created new stream","id":"hq0hplpe"}
+{"time":"2024-11-01T09:31:16.620829364-04:00","level":"INFO","msg":"stream: started","id":"hq0hplpe"}
+{"time":"2024-11-01T09:31:16.620890365-04:00","level":"INFO","msg":"sender: started","stream_id":"hq0hplpe"}
+{"time":"2024-11-01T09:31:16.620848285-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"hq0hplpe"}}
+{"time":"2024-11-01T09:31:16.620867935-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"hq0hplpe"}}
+{"time":"2024-11-01T09:31:16.815911104-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-01T09:32:23.327932773-04:00","level":"INFO","msg":"stream: closing","id":"hq0hplpe"}
+{"time":"2024-11-01T09:32:23.327979063-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-01T09:32:23.32897053-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-01T09:32:23.707909885-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-01T09:32:23.839808194-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"hq0hplpe"}}
+{"time":"2024-11-01T09:32:23.839873144-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"hq0hplpe"}}
+{"time":"2024-11-01T09:32:23.839896164-04:00","level":"INFO","msg":"sender: closed","stream_id":"hq0hplpe"}
+{"time":"2024-11-01T09:32:23.839956275-04:00","level":"INFO","msg":"stream: closed","id":"hq0hplpe"}
diff --git a/wandb/run-20241101_093116-hq0hplpe/logs/debug.log b/wandb/run-20241101_093116-hq0hplpe/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..69b3305d372eea78980146b37e5d43efb04e6e0b
--- /dev/null
+++ b/wandb/run-20241101_093116-hq0hplpe/logs/debug.log
@@ -0,0 +1,30 @@
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Configure stats pid to 781945
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_093116-hq0hplpe/logs/debug.log
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_093116-hq0hplpe/logs/debug-internal.log
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_init.py:init():621] calling init triggers
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_init.py:init():671] starting backend
+2024-11-01 09:31:16,508 INFO    MainThread:781945 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 09:31:16,509 INFO    MainThread:781945 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 09:31:16,509 INFO    MainThread:781945 [wandb_init.py:init():688] backend started and connected
+2024-11-01 09:31:16,512 INFO    MainThread:781945 [wandb_init.py:init():783] updated telemetry
+2024-11-01 09:31:16,545 INFO    MainThread:781945 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 09:31:16,812 INFO    MainThread:781945 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 09:31:16,944 INFO    MainThread:781945 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 09:31:16,944 INFO    MainThread:781945 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 09:31:16,944 INFO    MainThread:781945 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 09:31:16,944 INFO    MainThread:781945 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 09:31:16,946 INFO    MainThread:781945 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 09:31:16,946 INFO    MainThread:781945 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0, 'lr': 5e-06}
+2024-11-01 09:32:20,281 INFO    MainThread:781945 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B/babylm_reverse_control_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 7, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 150, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B/babylm_reverse_control_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-01 09:32:20,287 INFO    MainThread:781945 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7fd6d4899d90>>
+2024-11-01 09:32:20,287 INFO    MainThread:781945 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-11-01 09:32:23,328 WARNING MsgRouterThr:781945 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241101_093116-hq0hplpe/run-hq0hplpe.wandb b/wandb/run-20241101_093116-hq0hplpe/run-hq0hplpe.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..c3a78c5c302c7b493b1c4deeaca62f151b8847e0
Binary files /dev/null and b/wandb/run-20241101_093116-hq0hplpe/run-hq0hplpe.wandb differ
diff --git a/wandb/run-20241101_200535-k9brpado/run-k9brpado.wandb b/wandb/run-20241101_200535-k9brpado/run-k9brpado.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..f0936cb8dfc2df12d6f61b053f4360eb22fb0af7
--- /dev/null
+++ b/wandb/run-20241101_200535-k9brpado/run-k9brpado.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e20145dca2740f037eb66fb9a8d9baff6bfca31133f1a084bd6cd7114c4048a
+size 131273
diff --git a/wandb/run-20241101_200535-lnp8ii96/run-lnp8ii96.wandb b/wandb/run-20241101_200535-lnp8ii96/run-lnp8ii96.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..8f429303e5c6181870e27be88ed8c60036373c04
--- /dev/null
+++ b/wandb/run-20241101_200535-lnp8ii96/run-lnp8ii96.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f46e28d2b91058be18522431c03400139d8a1d74afa9ab1353a8ed260417dd19
+size 425984
diff --git a/wandb/run-20241105_155954-baeezzpr/files/config.yaml b/wandb/run-20241105_155954-baeezzpr/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ba0e0eb5aa81d7186d91b3c8f342ad5574a4c100
--- /dev/null
+++ b/wandb/run-20241105_155954-baeezzpr/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic21
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241105_155954-baeezzpr/files/output.log b/wandb/run-20241105_155954-baeezzpr/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..4889313e9210ddc0bf0e53a0b8deb84b34f76597
--- /dev/null
+++ b/wandb/run-20241105_155954-baeezzpr/files/output.log
@@ -0,0 +1,19 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/pathlib.py", line 1323, in mkdir
+    self._accessor.mkdir(self, mode)
+FileNotFoundError: [Errno 2] No such file or directory: '/home/chunhui/.cache/huggingface/datasets/babylm_dataset_test/babylm_shuffle_deterministic21_10M_seed0/0.0.0'
+
+During handling of the above exception, another exception occurred:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 165, in <module>
+    dataset = load_dataset('babylm_dataset_test.py', name=dataset_name, trust_remote_code=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 2096, in load_dataset
+    builder_instance.download_and_prepare(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 855, in download_and_prepare
+    Path(self._output_dir).parent.mkdir(parents=True, exist_ok=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/pathlib.py", line 1327, in mkdir
+    self.parent.mkdir(parents=True, exist_ok=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/pathlib.py", line 1323, in mkdir
+    self._accessor.mkdir(self, mode)
+OSError: [Errno 28] No space left on device: '/home/chunhui/.cache/huggingface/datasets/babylm_dataset_test/babylm_shuffle_deterministic21_10M_seed0'
diff --git a/wandb/run-20241105_155954-baeezzpr/files/requirements.txt b/wandb/run-20241105_155954-baeezzpr/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241105_155954-baeezzpr/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241105_155954-baeezzpr/files/wandb-metadata.json b/wandb/run-20241105_155954-baeezzpr/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..3736549664a4cc5a7d93ca840769234d100cfc43
--- /dev/null
+++ b/wandb/run-20241105_155954-baeezzpr/files/wandb-metadata.json
@@ -0,0 +1,44 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T20:59:54.274726Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic21",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1792550322176"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  }
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_155954-baeezzpr/files/wandb-summary.json b/wandb/run-20241105_155954-baeezzpr/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..a59211b910c7b68e6827eb6c887d30d98244727c
--- /dev/null
+++ b/wandb/run-20241105_155954-baeezzpr/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":5}}
\ No newline at end of file
diff --git a/wandb/run-20241105_155954-baeezzpr/logs/debug-internal.log b/wandb/run-20241105_155954-baeezzpr/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..2c87b35ecaaf9c2f6e269f3bc2d40f7d30053fd1
--- /dev/null
+++ b/wandb/run-20241105_155954-baeezzpr/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-05T15:59:54.276983395-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T15:59:54.276994555-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_155954-baeezzpr/logs/debug-core.log"}
+{"time":"2024-11-05T15:59:59.30189816-05:00","level":"INFO","msg":"created new stream","id":"baeezzpr"}
+{"time":"2024-11-05T15:59:59.30193775-05:00","level":"INFO","msg":"stream: started","id":"baeezzpr"}
+{"time":"2024-11-05T15:59:59.30200871-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"baeezzpr"}}
+{"time":"2024-11-05T15:59:59.30205932-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"baeezzpr"}}
+{"time":"2024-11-05T15:59:59.30206516-05:00","level":"INFO","msg":"sender: started","stream_id":"baeezzpr"}
+{"time":"2024-11-05T15:59:59.498122433-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-05T15:59:59.604097578-05:00","level":"INFO","msg":"stream: closing","id":"baeezzpr"}
+{"time":"2024-11-05T15:59:59.604120108-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-05T15:59:59.604168778-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-05T15:59:59.779215414-05:00","level":"ERROR","msg":"sender: sendDefer: failed to build job artifact","error":"failed to write data to file: write /tmp/tmpfile-915389451: no space left on device"}
+{"time":"2024-11-05T16:00:00.039118999-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-05T16:00:00.178684337-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"baeezzpr"}}
+{"time":"2024-11-05T16:00:00.178749977-05:00","level":"INFO","msg":"sender: closed","stream_id":"baeezzpr"}
+{"time":"2024-11-05T16:00:00.178740807-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"baeezzpr"}}
+{"time":"2024-11-05T16:00:00.178845027-05:00","level":"INFO","msg":"stream: closed","id":"baeezzpr"}
diff --git a/wandb/run-20241105_155954-baeezzpr/logs/debug.log b/wandb/run-20241105_155954-baeezzpr/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..1357a0aa1e28e27584136b43ef6c7233e4d9174f
--- /dev/null
+++ b/wandb/run-20241105_155954-baeezzpr/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-05 15:59:54,271 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Configure stats pid to 1769192
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_155954-baeezzpr/logs/debug.log
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_155954-baeezzpr/logs/debug-internal.log
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_init.py:init():621] calling init triggers
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_init.py:init():671] starting backend
+2024-11-05 15:59:54,272 INFO    MainThread:1769192 [wandb_init.py:init():675] sending inform_init request
+2024-11-05 15:59:54,274 INFO    MainThread:1769192 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-05 15:59:54,274 INFO    MainThread:1769192 [wandb_init.py:init():688] backend started and connected
+2024-11-05 15:59:54,278 INFO    MainThread:1769192 [wandb_init.py:init():783] updated telemetry
+2024-11-05 15:59:54,310 INFO    MainThread:1769192 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-05 15:59:59,495 INFO    MainThread:1769192 [wandb_init.py:init():867] starting run threads in backend
+2024-11-05 15:59:59,579 INFO    MainThread:1769192 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-05 15:59:59,579 INFO    MainThread:1769192 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-05 15:59:59,579 INFO    MainThread:1769192 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-05 15:59:59,580 INFO    MainThread:1769192 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-05 15:59:59,581 INFO    MainThread:1769192 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-05 15:59:59,581 INFO    MainThread:1769192 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic21', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-05 15:59:59,604 WARNING MsgRouterThr:1769192 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241105_155954-baeezzpr/run-baeezzpr.wandb b/wandb/run-20241105_155954-baeezzpr/run-baeezzpr.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..f35e63610a5236213aae89047f89eb9d388093f6
Binary files /dev/null and b/wandb/run-20241105_155954-baeezzpr/run-baeezzpr.wandb differ
diff --git a/wandb/run-20241106_224518-az8kcj8i/files/config.yaml b/wandb/run-20241106_224518-az8kcj8i/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..507bc548a43d1c7afb495d052831f04f348b9c17
--- /dev/null
+++ b/wandb/run-20241106_224518-az8kcj8i/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic84
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_224518-az8kcj8i/files/output.log b/wandb/run-20241106_224518-az8kcj8i/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..3952050bf6a8eaefbd7e7a3a3798cd26258d07ce
--- /dev/null
+++ b/wandb/run-20241106_224518-az8kcj8i/files/output.log
@@ -0,0 +1,57 @@
+Downloading shards:   0%|                                                                                                                                                                                                                                                                           | 0/2 [00:00<?, ?it/s]Exception ignored in: <generator object tqdm.__iter__ at 0x7f8ad8067cf0>
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1196, in __iter__
+    self.close()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1302, in close
+    self.display(pos=0)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1495, in display
+    self.sp(self.__str__() if msg is None else msg)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 459, in print_status
+    fp_write('\r' + s + (' ' * max(last_len[0] - len_s, 0)))
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 452, in fp_write
+    fp.write(str(s))
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/utils.py", line 196, in inner
+    return func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/redirect.py", line 648, in write
+    cb(data)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 2386, in <lambda>
+    lambda data: self._console_raw_callback("stderr", data),
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 403, in wrapper_fn
+    return func(self, *args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/wandb_run.py", line 1547, in _console_raw_callback
+    self._backend.interface.publish_output_raw(name, data)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/interface/interface.py", line 721, in publish_output_raw
+    self._publish_output_raw(o)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/interface/interface_shared.py", line 79, in _publish_output_raw
+    self._publish(rec)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/interface/interface_sock.py", line 51, in _publish
+    self._sock_client.send_record_publish(record)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/sock_client.py", line 224, in send_record_publish
+    server_req.record_publish.CopyFrom(record)
+KeyboardInterrupt:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1380, in _hf_hub_download_to_cache_dir
+    with WeakFileLock(lock_path):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/contextlib.py", line 119, in __enter__
+    return next(self.gen)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_fixes.py", line 98, in WeakFileLock
+    lock.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241106_224518-az8kcj8i/files/wandb-metadata.json b/wandb/run-20241106_224518-az8kcj8i/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..db52d73c921e8c39a805fb34f47e27b467dfd9c0
--- /dev/null
+++ b/wandb/run-20241106_224518-az8kcj8i/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T03:45:18.943895Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic84",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1774852702208"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_224518-az8kcj8i/files/wandb-summary.json b/wandb/run-20241106_224518-az8kcj8i/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..9f61df7d54e464e8f8f30d59b5674f8ef6e7a4a9
--- /dev/null
+++ b/wandb/run-20241106_224518-az8kcj8i/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":11}}
\ No newline at end of file
diff --git a/wandb/run-20241106_224518-az8kcj8i/logs/debug-internal.log b/wandb/run-20241106_224518-az8kcj8i/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..e3ea759fada1ad547f0c74f195c01c5bafbf81db
--- /dev/null
+++ b/wandb/run-20241106_224518-az8kcj8i/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T22:45:18.945770007-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T22:45:18.945781737-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224518-az8kcj8i/logs/debug-core.log"}
+{"time":"2024-11-06T22:45:19.053571616-05:00","level":"INFO","msg":"created new stream","id":"az8kcj8i"}
+{"time":"2024-11-06T22:45:19.053631907-05:00","level":"INFO","msg":"stream: started","id":"az8kcj8i"}
+{"time":"2024-11-06T22:45:19.053738127-05:00","level":"INFO","msg":"sender: started","stream_id":"az8kcj8i"}
+{"time":"2024-11-06T22:45:19.053685487-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"az8kcj8i"}}
+{"time":"2024-11-06T22:45:19.053654937-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"az8kcj8i"}}
+{"time":"2024-11-06T22:45:19.214166646-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T22:45:30.55948124-05:00","level":"INFO","msg":"stream: closing","id":"az8kcj8i"}
+{"time":"2024-11-06T22:45:30.55952735-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T22:45:30.560064464-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T22:45:30.951268783-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T22:45:31.066261822-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"az8kcj8i"}}
+{"time":"2024-11-06T22:45:31.066309642-05:00","level":"INFO","msg":"sender: closed","stream_id":"az8kcj8i"}
+{"time":"2024-11-06T22:45:31.066301022-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"az8kcj8i"}}
+{"time":"2024-11-06T22:45:31.066383533-05:00","level":"INFO","msg":"stream: closed","id":"az8kcj8i"}
diff --git a/wandb/run-20241106_224518-az8kcj8i/logs/debug.log b/wandb/run-20241106_224518-az8kcj8i/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..66dacc53e06be14dc972276aea4cdb16786c5d50
--- /dev/null
+++ b/wandb/run-20241106_224518-az8kcj8i/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Configure stats pid to 1983451
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224518-az8kcj8i/logs/debug.log
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_224518-az8kcj8i/logs/debug-internal.log
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_init.py:init():621] calling init triggers
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_init.py:init():671] starting backend
+2024-11-06 22:45:18,942 INFO    MainThread:1983451 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 22:45:18,943 INFO    MainThread:1983451 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 22:45:18,943 INFO    MainThread:1983451 [wandb_init.py:init():688] backend started and connected
+2024-11-06 22:45:18,946 INFO    MainThread:1983451 [wandb_init.py:init():783] updated telemetry
+2024-11-06 22:45:18,972 INFO    MainThread:1983451 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 22:45:19,211 INFO    MainThread:1983451 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 22:45:19,297 INFO    MainThread:1983451 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 22:45:19,297 INFO    MainThread:1983451 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 22:45:19,297 INFO    MainThread:1983451 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 22:45:19,298 INFO    MainThread:1983451 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 22:45:19,299 INFO    MainThread:1983451 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 22:45:19,299 INFO    MainThread:1983451 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic84', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 22:45:30,559 WARNING MsgRouterThr:1983451 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_224518-az8kcj8i/run-az8kcj8i.wandb b/wandb/run-20241106_224518-az8kcj8i/run-az8kcj8i.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..1b2a65e7ff8e105804173f0377bb9a1d55dadfbb
Binary files /dev/null and b/wandb/run-20241106_224518-az8kcj8i/run-az8kcj8i.wandb differ
diff --git a/wandb/run-20241106_233142-96djp7lb/files/config.yaml b/wandb/run-20241106_233142-96djp7lb/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..45c9885a80c6c6551af0939982b4765da8541cf4
--- /dev/null
+++ b/wandb/run-20241106_233142-96djp7lb/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_233142-96djp7lb/files/output.log b/wandb/run-20241106_233142-96djp7lb/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..c02f29b6727eaa2753408294d4f56349e46e2723
--- /dev/null
+++ b/wandb/run-20241106_233142-96djp7lb/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c42b0-79031e5c2bba4218246dc029;02123ba4-9be3-4cad-89fb-b106f1158d07)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c42b0-79031e5c2bba4218246dc029;02123ba4-9be3-4cad-89fb-b106f1158d07)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_233142-96djp7lb/files/wandb-metadata.json b/wandb/run-20241106_233142-96djp7lb/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..7ee2aaee93c667e60de1eedb19c2f0aa46db7b8a
--- /dev/null
+++ b/wandb/run-20241106_233142-96djp7lb/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T04:31:42.028883Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1775601938432"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_233142-96djp7lb/files/wandb-summary.json b/wandb/run-20241106_233142-96djp7lb/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..1d52051e315a7a21a9d9e5a40a517408bb086162
--- /dev/null
+++ b/wandb/run-20241106_233142-96djp7lb/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":2}}
\ No newline at end of file
diff --git a/wandb/run-20241106_233142-96djp7lb/logs/debug-internal.log b/wandb/run-20241106_233142-96djp7lb/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..dea3fcc161e16cde7dcdb3812dc52844508e5f01
--- /dev/null
+++ b/wandb/run-20241106_233142-96djp7lb/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T23:31:42.030899122-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T23:31:42.030914532-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233142-96djp7lb/logs/debug-core.log"}
+{"time":"2024-11-06T23:31:42.138037279-05:00","level":"INFO","msg":"created new stream","id":"96djp7lb"}
+{"time":"2024-11-06T23:31:42.138068689-05:00","level":"INFO","msg":"stream: started","id":"96djp7lb"}
+{"time":"2024-11-06T23:31:42.13814307-05:00","level":"INFO","msg":"sender: started","stream_id":"96djp7lb"}
+{"time":"2024-11-06T23:31:42.13813409-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"96djp7lb"}}
+{"time":"2024-11-06T23:31:42.138104519-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"96djp7lb"}}
+{"time":"2024-11-06T23:31:42.35079888-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T23:31:44.889272289-05:00","level":"INFO","msg":"stream: closing","id":"96djp7lb"}
+{"time":"2024-11-06T23:31:44.88932971-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T23:31:44.890434529-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T23:31:45.222383448-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T23:31:45.344242149-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"96djp7lb"}}
+{"time":"2024-11-06T23:31:45.34431087-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"96djp7lb"}}
+{"time":"2024-11-06T23:31:45.34434752-05:00","level":"INFO","msg":"sender: closed","stream_id":"96djp7lb"}
+{"time":"2024-11-06T23:31:45.344439941-05:00","level":"INFO","msg":"stream: closed","id":"96djp7lb"}
diff --git a/wandb/run-20241106_233142-96djp7lb/logs/debug.log b/wandb/run-20241106_233142-96djp7lb/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..f066e1a730142afeea4b53be03c3942396ae127a
--- /dev/null
+++ b/wandb/run-20241106_233142-96djp7lb/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Configure stats pid to 1994609
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 23:31:42,026 INFO    MainThread:1994609 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 23:31:42,027 INFO    MainThread:1994609 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233142-96djp7lb/logs/debug.log
+2024-11-06 23:31:42,027 INFO    MainThread:1994609 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233142-96djp7lb/logs/debug-internal.log
+2024-11-06 23:31:42,027 INFO    MainThread:1994609 [wandb_init.py:init():621] calling init triggers
+2024-11-06 23:31:42,027 INFO    MainThread:1994609 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 23:31:42,027 INFO    MainThread:1994609 [wandb_init.py:init():671] starting backend
+2024-11-06 23:31:42,027 INFO    MainThread:1994609 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 23:31:42,028 INFO    MainThread:1994609 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 23:31:42,028 INFO    MainThread:1994609 [wandb_init.py:init():688] backend started and connected
+2024-11-06 23:31:42,032 INFO    MainThread:1994609 [wandb_init.py:init():783] updated telemetry
+2024-11-06 23:31:42,060 INFO    MainThread:1994609 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 23:31:42,347 INFO    MainThread:1994609 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 23:31:44,083 INFO    MainThread:1994609 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 23:31:44,083 INFO    MainThread:1994609 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 23:31:44,083 INFO    MainThread:1994609 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 23:31:44,083 INFO    MainThread:1994609 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 23:31:44,099 INFO    MainThread:1994609 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 23:31:44,099 INFO    MainThread:1994609 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 23:31:44,889 WARNING MsgRouterThr:1994609 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_233142-96djp7lb/run-96djp7lb.wandb b/wandb/run-20241106_233142-96djp7lb/run-96djp7lb.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..bc453c9add48634356cebbeff265dcd5d7c71a5e
Binary files /dev/null and b/wandb/run-20241106_233142-96djp7lb/run-96djp7lb.wandb differ
diff --git a/wandb/run-20241106_233142-qg2rxkjn/files/config.yaml b/wandb/run-20241106_233142-qg2rxkjn/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..45c9885a80c6c6551af0939982b4765da8541cf4
--- /dev/null
+++ b/wandb/run-20241106_233142-qg2rxkjn/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_233142-qg2rxkjn/files/output.log b/wandb/run-20241106_233142-qg2rxkjn/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..8f1f067a1750152493de3bf4fe4485ded08dbde1
--- /dev/null
+++ b/wandb/run-20241106_233142-qg2rxkjn/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c42b0-1191ca470c06a5833aed4b52;034ff0c4-2ab9-4ae4-a16c-17ed9f172060)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c42b0-1191ca470c06a5833aed4b52;034ff0c4-2ab9-4ae4-a16c-17ed9f172060)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_233142-qg2rxkjn/files/wandb-metadata.json b/wandb/run-20241106_233142-qg2rxkjn/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..3b1f4ce087879131e7f0d6a5df5b772ba218670c
--- /dev/null
+++ b/wandb/run-20241106_233142-qg2rxkjn/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T04:31:42.030948Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1775601938432"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_233142-qg2rxkjn/files/wandb-summary.json b/wandb/run-20241106_233142-qg2rxkjn/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..1d52051e315a7a21a9d9e5a40a517408bb086162
--- /dev/null
+++ b/wandb/run-20241106_233142-qg2rxkjn/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":2}}
\ No newline at end of file
diff --git a/wandb/run-20241106_233142-qg2rxkjn/logs/debug-internal.log b/wandb/run-20241106_233142-qg2rxkjn/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..d163a8e590ba49e6aab9470cc34e6534e56f4384
--- /dev/null
+++ b/wandb/run-20241106_233142-qg2rxkjn/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T23:31:42.031715098-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T23:31:42.031724808-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233142-qg2rxkjn/logs/debug-core.log"}
+{"time":"2024-11-06T23:31:42.138037259-05:00","level":"INFO","msg":"created new stream","id":"qg2rxkjn"}
+{"time":"2024-11-06T23:31:42.138068309-05:00","level":"INFO","msg":"stream: started","id":"qg2rxkjn"}
+{"time":"2024-11-06T23:31:42.138107499-05:00","level":"INFO","msg":"sender: started","stream_id":"qg2rxkjn"}
+{"time":"2024-11-06T23:31:42.138106249-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"qg2rxkjn"}}
+{"time":"2024-11-06T23:31:42.138118929-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"qg2rxkjn"}}
+{"time":"2024-11-06T23:31:42.32830389-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T23:31:44.889160038-05:00","level":"INFO","msg":"stream: closing","id":"qg2rxkjn"}
+{"time":"2024-11-06T23:31:44.889235149-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T23:31:44.890936673-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T23:31:45.236070004-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T23:31:45.359260336-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"qg2rxkjn"}}
+{"time":"2024-11-06T23:31:45.359300006-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"qg2rxkjn"}}
+{"time":"2024-11-06T23:31:45.359337737-05:00","level":"INFO","msg":"sender: closed","stream_id":"qg2rxkjn"}
+{"time":"2024-11-06T23:31:45.359387697-05:00","level":"INFO","msg":"stream: closed","id":"qg2rxkjn"}
diff --git a/wandb/run-20241106_233142-qg2rxkjn/logs/debug.log b/wandb/run-20241106_233142-qg2rxkjn/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..c278d406dec5b012858dad95f99ea0afd602ff85
--- /dev/null
+++ b/wandb/run-20241106_233142-qg2rxkjn/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 23:31:42,028 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Configure stats pid to 1994611
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233142-qg2rxkjn/logs/debug.log
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233142-qg2rxkjn/logs/debug-internal.log
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_init.py:init():621] calling init triggers
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_init.py:init():671] starting backend
+2024-11-06 23:31:42,029 INFO    MainThread:1994611 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 23:31:42,030 INFO    MainThread:1994611 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 23:31:42,030 INFO    MainThread:1994611 [wandb_init.py:init():688] backend started and connected
+2024-11-06 23:31:42,034 INFO    MainThread:1994611 [wandb_init.py:init():783] updated telemetry
+2024-11-06 23:31:42,061 INFO    MainThread:1994611 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 23:31:42,324 INFO    MainThread:1994611 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 23:31:44,082 INFO    MainThread:1994611 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 23:31:44,083 INFO    MainThread:1994611 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 23:31:44,083 INFO    MainThread:1994611 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 23:31:44,083 INFO    MainThread:1994611 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 23:31:44,099 INFO    MainThread:1994611 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 23:31:44,099 INFO    MainThread:1994611 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 23:31:44,889 WARNING MsgRouterThr:1994611 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_233142-qg2rxkjn/run-qg2rxkjn.wandb b/wandb/run-20241106_233142-qg2rxkjn/run-qg2rxkjn.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..975764b12018307fd8404f373751ccf765a08a18
Binary files /dev/null and b/wandb/run-20241106_233142-qg2rxkjn/run-qg2rxkjn.wandb differ
diff --git a/wandb/run-20241113_180154-hcvkmgna/files/output.log b/wandb/run-20241113_180154-hcvkmgna/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..1650730ab6910fd3e643c7e9323372d663962e8f
--- /dev/null
+++ b/wandb/run-20241113_180154-hcvkmgna/files/output.log
@@ -0,0 +1,23 @@
+model.safetensors.index.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20.9k/20.9k [00:00<00:00, 6.22MB/s]
+model-00001-of-00002.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.97G/4.97G [01:57<00:00, 42.2MB/s]
+model-00002-of-00002.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1.46G/1.46G [00:34<00:00, 42.3MB/s]
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:32<00:00, 76.13s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.92s/it]
+generation_config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [00:00<00:00, 39.9kB/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17519/17519 [00:47<00:00, 366.05 examples/s]
+Map: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:49<00:00, 369.83 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-13 18:06:35,493] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-13 18:06:44,259] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Emitting ninja build file /home/chunhui/.cache/torch_extensions/py39_cu117/cpu_adam/build.ninja...
+Building extension module cpu_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 11.405324220657349 seconds
diff --git a/wandb/run-20241113_180154-hcvkmgna/files/requirements.txt b/wandb/run-20241113_180154-hcvkmgna/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241113_180154-hcvkmgna/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241113_180154-hcvkmgna/files/wandb-metadata.json b/wandb/run-20241113_180154-hcvkmgna/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..f773a7bcd5bce2466f1c1f0dc4ac7fb4516b6e6d
--- /dev/null
+++ b/wandb/run-20241113_180154-hcvkmgna/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-13T23:01:54.131187Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py",
+  "codePath":  "train/train_ftp.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_ftp.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1744802353152"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241113_180154-hcvkmgna/logs/debug-internal.log b/wandb/run-20241113_180154-hcvkmgna/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..18b1fd7988ee5e18eda76c9deb3317a1e45ef7f2
--- /dev/null
+++ b/wandb/run-20241113_180154-hcvkmgna/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-13T18:01:54.139282832-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-13T18:01:54.139295162-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241113_180154-hcvkmgna/logs/debug-core.log"}
+{"time":"2024-11-13T18:01:54.250311824-05:00","level":"INFO","msg":"created new stream","id":"hcvkmgna"}
+{"time":"2024-11-13T18:01:54.250356464-05:00","level":"INFO","msg":"stream: started","id":"hcvkmgna"}
+{"time":"2024-11-13T18:01:54.250460855-05:00","level":"INFO","msg":"sender: started","stream_id":"hcvkmgna"}
+{"time":"2024-11-13T18:01:54.250435275-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"hcvkmgna"}}
+{"time":"2024-11-13T18:01:54.250417044-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"hcvkmgna"}}
+{"time":"2024-11-13T18:01:54.495145732-05:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241113_180154-hcvkmgna/logs/debug.log b/wandb/run-20241113_180154-hcvkmgna/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..9f2a6979a94222d4700eeeb035fc8a70cf0afc86
--- /dev/null
+++ b/wandb/run-20241113_180154-hcvkmgna/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-13 18:01:54,128 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Configure stats pid to 2553106
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_ftp.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py'}
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241113_180154-hcvkmgna/logs/debug.log
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241113_180154-hcvkmgna/logs/debug-internal.log
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_init.py:init():621] calling init triggers
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_init.py:init():671] starting backend
+2024-11-13 18:01:54,129 INFO    MainThread:2553106 [wandb_init.py:init():675] sending inform_init request
+2024-11-13 18:01:54,130 INFO    MainThread:2553106 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-13 18:01:54,131 INFO    MainThread:2553106 [wandb_init.py:init():688] backend started and connected
+2024-11-13 18:01:54,134 INFO    MainThread:2553106 [wandb_init.py:init():783] updated telemetry
+2024-11-13 18:01:54,156 INFO    MainThread:2553106 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-13 18:01:54,492 INFO    MainThread:2553106 [wandb_init.py:init():867] starting run threads in backend
+2024-11-13 18:01:54,603 INFO    MainThread:2553106 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-13 18:01:54,603 INFO    MainThread:2553106 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-13 18:01:54,603 INFO    MainThread:2553106 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-13 18:01:54,603 INFO    MainThread:2553106 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-13 18:01:54,604 INFO    MainThread:2553106 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-13 18:01:54,604 INFO    MainThread:2553106 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241129_235322-uoj0g6xp/files/output.log b/wandb/run-20241129_235322-uoj0g6xp/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..c2b0fbffee40694d69ac1bcd39abee37a02b3851
--- /dev/null
+++ b/wandb/run-20241129_235322-uoj0g6xp/files/output.log
@@ -0,0 +1,381 @@
+generation_config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [00:00<00:00, 37.6kB/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17519/17519 [00:32<00:00, 533.31 examples/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:35<00:00, 512.12 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-29 23:55:00,008] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-29 23:55:03,183] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-29 23:55:03,184] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 2.5688135623931885 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                                                                                                                                                   
+{'loss': 4.8965, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.8874, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9421, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9245, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 4.9212, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9089, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.8587, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9277, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9186, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9121, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                                                                                                                                                   
+{'eval_loss': 4.67578125, 'eval_runtime': 4.0975, 'eval_samples_per_second': 244.053, 'eval_steps_per_second': 10.25, 'epoch': 0.01}
+{'loss': 4.931, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.8971, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9733, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9108, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 4.9486, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8685, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8717, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.9141, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8379, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 4.8984, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'eval_loss': 4.67578125, 'eval_runtime': 4.1128, 'eval_samples_per_second': 243.143, 'eval_steps_per_second': 10.212, 'epoch': 0.02}
+{'loss': 4.9427, 'grad_norm': 30.16912269592285, 'learning_rate': 1.7123287671232876e-08, 'epoch': 0.02}
+{'loss': 4.9284, 'grad_norm': 28.59295654296875, 'learning_rate': 3.424657534246575e-08, 'epoch': 0.02}
+{'loss': 4.8685, 'grad_norm': 29.37101173400879, 'learning_rate': 5.136986301369863e-08, 'epoch': 0.02}
+{'loss': 4.8926, 'grad_norm': 28.423633575439453, 'learning_rate': 6.84931506849315e-08, 'epoch': 0.02}
+{'loss': 4.901, 'grad_norm': 29.825456619262695, 'learning_rate': 8.561643835616439e-08, 'epoch': 0.03}
+{'loss': 4.8965, 'grad_norm': 29.393815994262695, 'learning_rate': 1.0273972602739726e-07, 'epoch': 0.03}
+{'loss': 4.8802, 'grad_norm': 29.393815994262695, 'learning_rate': 1.0273972602739726e-07, 'epoch': 0.03}
+{'loss': 4.9043, 'grad_norm': 28.9859676361084, 'learning_rate': 1.1986301369863014e-07, 'epoch': 0.03}
+{'loss': 4.9277, 'grad_norm': 29.083433151245117, 'learning_rate': 1.36986301369863e-07, 'epoch': 0.03}
+{'loss': 4.9186, 'grad_norm': 28.765758514404297, 'learning_rate': 1.541095890410959e-07, 'epoch': 0.03}
+{'eval_loss': 4.67578125, 'eval_runtime': 4.0984, 'eval_samples_per_second': 243.995, 'eval_steps_per_second': 10.248, 'epoch': 0.03}
+{'loss': 4.8822, 'grad_norm': 29.022106170654297, 'learning_rate': 1.7123287671232878e-07, 'epoch': 0.03}
+{'loss': 4.918, 'grad_norm': 29.408340454101562, 'learning_rate': 1.8835616438356165e-07, 'epoch': 0.03}
+{'loss': 4.931, 'grad_norm': 29.43667221069336, 'learning_rate': 2.0547945205479452e-07, 'epoch': 0.03}
+{'loss': 4.8984, 'grad_norm': 29.85565948486328, 'learning_rate': 2.226027397260274e-07, 'epoch': 0.03}
+{'loss': 4.9043, 'grad_norm': 28.932682037353516, 'learning_rate': 2.397260273972603e-07, 'epoch': 0.04}
+{'loss': 4.8138, 'grad_norm': 29.196674346923828, 'learning_rate': 2.568493150684932e-07, 'epoch': 0.04}
+{'loss': 4.9414, 'grad_norm': 28.26259422302246, 'learning_rate': 2.73972602739726e-07, 'epoch': 0.04}
+{'loss': 4.8978, 'grad_norm': 29.001834869384766, 'learning_rate': 2.910958904109589e-07, 'epoch': 0.04}
+{'loss': 4.901, 'grad_norm': 28.73653221130371, 'learning_rate': 3.082191780821918e-07, 'epoch': 0.04}
+{'loss': 4.9173, 'grad_norm': 29.217676162719727, 'learning_rate': 3.2534246575342466e-07, 'epoch': 0.04}
+{'eval_loss': 4.67578125, 'eval_runtime': 4.1177, 'eval_samples_per_second': 242.855, 'eval_steps_per_second': 10.2, 'epoch': 0.04}
+{'loss': 4.8854, 'grad_norm': 28.081037521362305, 'learning_rate': 3.4246575342465755e-07, 'epoch': 0.04}
+{'loss': 4.8613, 'grad_norm': 29.70398712158203, 'learning_rate': 3.595890410958904e-07, 'epoch': 0.04}
+{'loss': 4.9368, 'grad_norm': 28.858152389526367, 'learning_rate': 3.767123287671233e-07, 'epoch': 0.04}
+{'loss': 4.877, 'grad_norm': 28.6164608001709, 'learning_rate': 3.938356164383562e-07, 'epoch': 0.05}
+{'loss': 4.8535, 'grad_norm': 29.167837142944336, 'learning_rate': 4.1095890410958903e-07, 'epoch': 0.05}
+{'loss': 4.8574, 'grad_norm': 28.699222564697266, 'learning_rate': 4.2808219178082193e-07, 'epoch': 0.05}
+{'loss': 4.8841, 'grad_norm': 28.24156379699707, 'learning_rate': 4.452054794520548e-07, 'epoch': 0.05}
+{'loss': 4.9108, 'grad_norm': 28.590009689331055, 'learning_rate': 4.6232876712328767e-07, 'epoch': 0.05}
+{'loss': 4.8763, 'grad_norm': 28.80278778076172, 'learning_rate': 4.794520547945206e-07, 'epoch': 0.05}
+{'loss': 4.8568, 'grad_norm': 28.784629821777344, 'learning_rate': 4.965753424657534e-07, 'epoch': 0.05}
+{'eval_loss': 4.671875, 'eval_runtime': 4.1162, 'eval_samples_per_second': 242.941, 'eval_steps_per_second': 10.204, 'epoch': 0.05}
+{'loss': 4.8763, 'grad_norm': 29.524450302124023, 'learning_rate': 5.136986301369864e-07, 'epoch': 0.05}
+{'loss': 4.9173, 'grad_norm': 27.7666072845459, 'learning_rate': 5.308219178082192e-07, 'epoch': 0.05}
+{'loss': 4.8197, 'grad_norm': 27.628225326538086, 'learning_rate': 5.47945205479452e-07, 'epoch': 0.05}
+{'loss': 4.86, 'grad_norm': 27.49188232421875, 'learning_rate': 5.65068493150685e-07, 'epoch': 0.06}
+{'loss': 4.8574, 'grad_norm': 27.39209747314453, 'learning_rate': 5.821917808219178e-07, 'epoch': 0.06}
+{'loss': 4.8398, 'grad_norm': 27.31622886657715, 'learning_rate': 5.993150684931507e-07, 'epoch': 0.06}
+{'loss': 4.8418, 'grad_norm': 27.913440704345703, 'learning_rate': 6.164383561643836e-07, 'epoch': 0.06}
+{'loss': 4.8099, 'grad_norm': 27.46649742126465, 'learning_rate': 6.335616438356165e-07, 'epoch': 0.06}
+{'loss': 4.8926, 'grad_norm': 27.192646026611328, 'learning_rate': 6.506849315068493e-07, 'epoch': 0.06}
+{'loss': 4.8646, 'grad_norm': 27.239757537841797, 'learning_rate': 6.678082191780823e-07, 'epoch': 0.06}
+{'eval_loss': 4.66796875, 'eval_runtime': 4.1084, 'eval_samples_per_second': 243.402, 'eval_steps_per_second': 10.223, 'epoch': 0.06}
+{'loss': 4.8301, 'grad_norm': 27.21328353881836, 'learning_rate': 6.849315068493151e-07, 'epoch': 0.06}
+{'loss': 4.8197, 'grad_norm': 28.09337615966797, 'learning_rate': 7.020547945205481e-07, 'epoch': 0.06}
+{'loss': 4.8633, 'grad_norm': 27.461557388305664, 'learning_rate': 7.191780821917808e-07, 'epoch': 0.06}
+{'loss': 4.8757, 'grad_norm': 27.043638229370117, 'learning_rate': 7.363013698630137e-07, 'epoch': 0.07}
+{'loss': 4.7565, 'grad_norm': 27.188438415527344, 'learning_rate': 7.534246575342466e-07, 'epoch': 0.07}
+{'loss': 4.7207, 'grad_norm': 25.18043327331543, 'learning_rate': 7.705479452054795e-07, 'epoch': 0.07}
+{'loss': 4.7637, 'grad_norm': 24.167320251464844, 'learning_rate': 7.876712328767124e-07, 'epoch': 0.07}
+{'loss': 4.7428, 'grad_norm': 24.536035537719727, 'learning_rate': 8.047945205479453e-07, 'epoch': 0.07}
+{'loss': 4.7598, 'grad_norm': 23.992860794067383, 'learning_rate': 8.219178082191781e-07, 'epoch': 0.07}
+{'loss': 4.7891, 'grad_norm': 23.296764373779297, 'learning_rate': 8.39041095890411e-07, 'epoch': 0.07}
+{'eval_loss': 4.65625, 'eval_runtime': 4.1351, 'eval_samples_per_second': 241.831, 'eval_steps_per_second': 10.157, 'epoch': 0.07}
+{'loss': 4.7474, 'grad_norm': 23.912097930908203, 'learning_rate': 8.561643835616439e-07, 'epoch': 0.07}
+{'loss': 4.6842, 'grad_norm': 24.323015213012695, 'learning_rate': 8.732876712328768e-07, 'epoch': 0.07}
+{'loss': 4.7669, 'grad_norm': 23.89862060546875, 'learning_rate': 8.904109589041097e-07, 'epoch': 0.07}
+{'loss': 4.7826, 'grad_norm': 23.863611221313477, 'learning_rate': 9.075342465753426e-07, 'epoch': 0.08}
+{'loss': 4.7161, 'grad_norm': 24.182933807373047, 'learning_rate': 9.246575342465753e-07, 'epoch': 0.08}
+{'loss': 4.7409, 'grad_norm': 23.879119873046875, 'learning_rate': 9.417808219178083e-07, 'epoch': 0.08}
+{'loss': 4.7077, 'grad_norm': 23.962772369384766, 'learning_rate': 9.589041095890411e-07, 'epoch': 0.08}
+{'loss': 4.7871, 'grad_norm': 22.323827743530273, 'learning_rate': 9.76027397260274e-07, 'epoch': 0.08}
+{'loss': 4.6829, 'grad_norm': 23.46446418762207, 'learning_rate': 9.931506849315068e-07, 'epoch': 0.08}
+{'loss': 4.737, 'grad_norm': 22.89508056640625, 'learning_rate': 1.0102739726027399e-06, 'epoch': 0.08}
+{'eval_loss': 4.63671875, 'eval_runtime': 4.1162, 'eval_samples_per_second': 242.941, 'eval_steps_per_second': 10.204, 'epoch': 0.08}
+{'loss': 4.6602, 'grad_norm': 23.175701141357422, 'learning_rate': 1.0273972602739727e-06, 'epoch': 0.08}
+{'loss': 4.6445, 'grad_norm': 23.081178665161133, 'learning_rate': 1.0445205479452056e-06, 'epoch': 0.08}
+{'loss': 4.7116, 'grad_norm': 22.23419761657715, 'learning_rate': 1.0616438356164384e-06, 'epoch': 0.09}
+{'loss': 4.6745, 'grad_norm': 22.100217819213867, 'learning_rate': 1.0787671232876712e-06, 'epoch': 0.09}
+{'loss': 4.6504, 'grad_norm': 22.163944244384766, 'learning_rate': 1.095890410958904e-06, 'epoch': 0.09}
+{'loss': 4.6751, 'grad_norm': 21.48394012451172, 'learning_rate': 1.1130136986301371e-06, 'epoch': 0.09}
+{'loss': 4.5964, 'grad_norm': 19.960100173950195, 'learning_rate': 1.13013698630137e-06, 'epoch': 0.09}
+{'loss': 4.6074, 'grad_norm': 19.83652687072754, 'learning_rate': 1.1472602739726028e-06, 'epoch': 0.09}
+{'loss': 4.5833, 'grad_norm': 18.64439582824707, 'learning_rate': 1.1643835616438357e-06, 'epoch': 0.09}
+{'loss': 4.6048, 'grad_norm': 19.08234214782715, 'learning_rate': 1.1815068493150685e-06, 'epoch': 0.09}
+{'eval_loss': 4.58984375, 'eval_runtime': 4.1107, 'eval_samples_per_second': 243.267, 'eval_steps_per_second': 10.217, 'epoch': 0.09}
+{'loss': 4.5762, 'grad_norm': 18.67677116394043, 'learning_rate': 1.1986301369863014e-06, 'epoch': 0.09}
+{'loss': 4.5859, 'grad_norm': 18.444488525390625, 'learning_rate': 1.2157534246575344e-06, 'epoch': 0.09}
+{'loss': 4.5723, 'grad_norm': 18.354753494262695, 'learning_rate': 1.2328767123287673e-06, 'epoch': 0.1}
+{'loss': 4.6055, 'grad_norm': 19.007854461669922, 'learning_rate': 1.25e-06, 'epoch': 0.1}
+{'loss': 4.5801, 'grad_norm': 18.63313865661621, 'learning_rate': 1.267123287671233e-06, 'epoch': 0.1}
+{'loss': 4.5417, 'grad_norm': 18.622264862060547, 'learning_rate': 1.284246575342466e-06, 'epoch': 0.1}
+{'loss': 4.6042, 'grad_norm': 18.35482406616211, 'learning_rate': 1.3013698630136986e-06, 'epoch': 0.1}
+{'loss': 4.4889, 'grad_norm': 18.58621597290039, 'learning_rate': 1.3184931506849317e-06, 'epoch': 0.1}
+{'loss': 4.5443, 'grad_norm': 18.111108779907227, 'learning_rate': 1.3356164383561645e-06, 'epoch': 0.1}
+{'loss': 4.5371, 'grad_norm': 18.246448516845703, 'learning_rate': 1.3527397260273976e-06, 'epoch': 0.1}
+{'eval_loss': 4.546875, 'eval_runtime': 4.1401, 'eval_samples_per_second': 241.539, 'eval_steps_per_second': 10.145, 'epoch': 0.1}
+{'loss': 4.5612, 'grad_norm': 18.038116455078125, 'learning_rate': 1.3698630136986302e-06, 'epoch': 0.1}
+{'loss': 4.5462, 'grad_norm': 17.7731990814209, 'learning_rate': 1.386986301369863e-06, 'epoch': 0.1}
+{'loss': 4.4674, 'grad_norm': 18.295631408691406, 'learning_rate': 1.4041095890410961e-06, 'epoch': 0.11}
+{'loss': 4.5436, 'grad_norm': 18.19074249267578, 'learning_rate': 1.421232876712329e-06, 'epoch': 0.11}
+{'loss': 4.5195, 'grad_norm': 17.699708938598633, 'learning_rate': 1.4383561643835616e-06, 'epoch': 0.11}
+{'loss': 4.5273, 'grad_norm': 17.902395248413086, 'learning_rate': 1.4554794520547946e-06, 'epoch': 0.11}
+{'loss': 4.5345, 'grad_norm': 17.683364868164062, 'learning_rate': 1.4726027397260275e-06, 'epoch': 0.11}
+{'loss': 4.5521, 'grad_norm': 17.549537658691406, 'learning_rate': 1.4897260273972605e-06, 'epoch': 0.11}
+{'loss': 4.4323, 'grad_norm': 17.091402053833008, 'learning_rate': 1.5068493150684932e-06, 'epoch': 0.11}
+{'loss': 4.5397, 'grad_norm': 16.12431526184082, 'learning_rate': 1.5239726027397262e-06, 'epoch': 0.11}
+{'eval_loss': 4.46875, 'eval_runtime': 4.1178, 'eval_samples_per_second': 242.847, 'eval_steps_per_second': 10.2, 'epoch': 0.11}
+{'loss': 4.4382, 'grad_norm': 17.101848602294922, 'learning_rate': 1.541095890410959e-06, 'epoch': 0.11}
+{'loss': 4.5143, 'grad_norm': 16.901782989501953, 'learning_rate': 1.5582191780821921e-06, 'epoch': 0.12}
+{'loss': 4.4128, 'grad_norm': 17.06763458251953, 'learning_rate': 1.5753424657534248e-06, 'epoch': 0.12}
+{'loss': 4.4766, 'grad_norm': 16.444059371948242, 'learning_rate': 1.5924657534246576e-06, 'epoch': 0.12}
+{'loss': 4.3926, 'grad_norm': 16.35099983215332, 'learning_rate': 1.6095890410958907e-06, 'epoch': 0.12}
+{'loss': 4.526, 'grad_norm': 15.998469352722168, 'learning_rate': 1.6267123287671235e-06, 'epoch': 0.12}
+{'loss': 4.4622, 'grad_norm': 15.560609817504883, 'learning_rate': 1.6438356164383561e-06, 'epoch': 0.12}
+{'loss': 4.4121, 'grad_norm': 15.555099487304688, 'learning_rate': 1.6609589041095892e-06, 'epoch': 0.12}
+{'loss': 4.4264, 'grad_norm': 15.503929138183594, 'learning_rate': 1.678082191780822e-06, 'epoch': 0.12}
+{'loss': 4.474, 'grad_norm': 15.720124244689941, 'learning_rate': 1.695205479452055e-06, 'epoch': 0.12}
+{'eval_loss': 4.41796875, 'eval_runtime': 4.1212, 'eval_samples_per_second': 242.647, 'eval_steps_per_second': 10.191, 'epoch': 0.12}
+{'loss': 4.4785, 'grad_norm': 14.989177703857422, 'learning_rate': 1.7123287671232877e-06, 'epoch': 0.12}
+{'loss': 4.4102, 'grad_norm': 14.74954891204834, 'learning_rate': 1.7294520547945206e-06, 'epoch': 0.13}
+{'loss': 4.36, 'grad_norm': 14.84698486328125, 'learning_rate': 1.7465753424657536e-06, 'epoch': 0.13}
+{'loss': 4.3535, 'grad_norm': 14.358044624328613, 'learning_rate': 1.7636986301369865e-06, 'epoch': 0.13}
+{'loss': 4.3861, 'grad_norm': 14.444458961486816, 'learning_rate': 1.7808219178082193e-06, 'epoch': 0.13}
+{'loss': 4.4173, 'grad_norm': 13.993863105773926, 'learning_rate': 1.7979452054794521e-06, 'epoch': 0.13}
+{'loss': 4.3783, 'grad_norm': 14.15036392211914, 'learning_rate': 1.8150684931506852e-06, 'epoch': 0.13}
+{'loss': 4.3978, 'grad_norm': 14.485227584838867, 'learning_rate': 1.832191780821918e-06, 'epoch': 0.13}
+{'loss': 4.3763, 'grad_norm': 13.377803802490234, 'learning_rate': 1.8493150684931507e-06, 'epoch': 0.13}
+{'loss': 4.4049, 'grad_norm': 14.080109596252441, 'learning_rate': 1.8664383561643837e-06, 'epoch': 0.13}
+{'eval_loss': 4.3828125, 'eval_runtime': 4.1325, 'eval_samples_per_second': 241.985, 'eval_steps_per_second': 10.163, 'epoch': 0.13}
+{'loss': 4.3698, 'grad_norm': 13.884775161743164, 'learning_rate': 1.8835616438356166e-06, 'epoch': 0.13}
+{'loss': 4.4336, 'grad_norm': 13.835641860961914, 'learning_rate': 1.9006849315068496e-06, 'epoch': 0.14}
+{'loss': 4.4238, 'grad_norm': 13.117879867553711, 'learning_rate': 1.9178082191780823e-06, 'epoch': 0.14}
+{'loss': 4.3418, 'grad_norm': 13.131446838378906, 'learning_rate': 1.9349315068493153e-06, 'epoch': 0.14}
+{'loss': 4.3926, 'grad_norm': 14.01999282836914, 'learning_rate': 1.952054794520548e-06, 'epoch': 0.14}
+{'loss': 4.3438, 'grad_norm': 13.264242172241211, 'learning_rate': 1.969178082191781e-06, 'epoch': 0.14}
+{'loss': 4.2721, 'grad_norm': 13.304494857788086, 'learning_rate': 1.9863013698630136e-06, 'epoch': 0.14}
+{'loss': 4.4447, 'grad_norm': 13.446965217590332, 'learning_rate': 2.0034246575342467e-06, 'epoch': 0.14}
+{'loss': 4.306, 'grad_norm': 13.120650291442871, 'learning_rate': 2.0205479452054797e-06, 'epoch': 0.14}
+{'loss': 4.3548, 'grad_norm': 13.046858787536621, 'learning_rate': 2.037671232876713e-06, 'epoch': 0.14}
+{'eval_loss': 4.3515625, 'eval_runtime': 4.1205, 'eval_samples_per_second': 242.691, 'eval_steps_per_second': 10.193, 'epoch': 0.14}
+{'loss': 4.276, 'grad_norm': 13.194605827331543, 'learning_rate': 2.0547945205479454e-06, 'epoch': 0.14}
+{'loss': 4.2962, 'grad_norm': 12.112948417663574, 'learning_rate': 2.071917808219178e-06, 'epoch': 0.15}
+{'loss': 4.4173, 'grad_norm': 13.06917953491211, 'learning_rate': 2.089041095890411e-06, 'epoch': 0.15}
+{'loss': 4.3086, 'grad_norm': 12.025338172912598, 'learning_rate': 2.106164383561644e-06, 'epoch': 0.15}
+{'loss': 4.2656, 'grad_norm': 12.244928359985352, 'learning_rate': 2.123287671232877e-06, 'epoch': 0.15}
+{'loss': 4.2917, 'grad_norm': 12.087234497070312, 'learning_rate': 2.14041095890411e-06, 'epoch': 0.15}
+{'loss': 4.2806, 'grad_norm': 11.852676391601562, 'learning_rate': 2.1575342465753425e-06, 'epoch': 0.15}
+{'loss': 4.3053, 'grad_norm': 12.458406448364258, 'learning_rate': 2.1746575342465755e-06, 'epoch': 0.15}
+{'loss': 4.3659, 'grad_norm': 12.383668899536133, 'learning_rate': 2.191780821917808e-06, 'epoch': 0.15}
+{'loss': 4.2845, 'grad_norm': 11.715237617492676, 'learning_rate': 2.2089041095890412e-06, 'epoch': 0.15}
+{'eval_loss': 4.3125, 'eval_runtime': 4.1261, 'eval_samples_per_second': 242.36, 'eval_steps_per_second': 10.179, 'epoch': 0.15}
+{'loss': 4.1797, 'grad_norm': 11.133694648742676, 'learning_rate': 2.2260273972602743e-06, 'epoch': 0.16}
+{'loss': 4.2832, 'grad_norm': 11.584345817565918, 'learning_rate': 2.243150684931507e-06, 'epoch': 0.16}
+{'loss': 4.3151, 'grad_norm': 11.65048885345459, 'learning_rate': 2.26027397260274e-06, 'epoch': 0.16}
+{'loss': 4.2728, 'grad_norm': 11.939409255981445, 'learning_rate': 2.2773972602739726e-06, 'epoch': 0.16}
+{'loss': 4.2559, 'grad_norm': 11.664063453674316, 'learning_rate': 2.2945205479452057e-06, 'epoch': 0.16}
+{'loss': 4.1807, 'grad_norm': 11.734474182128906, 'learning_rate': 2.3116438356164387e-06, 'epoch': 0.16}
+{'loss': 4.3444, 'grad_norm': 11.6502685546875, 'learning_rate': 2.3287671232876713e-06, 'epoch': 0.16}
+{'loss': 4.3223, 'grad_norm': 11.856484413146973, 'learning_rate': 2.3458904109589044e-06, 'epoch': 0.16}
+{'loss': 4.2689, 'grad_norm': 11.322278022766113, 'learning_rate': 2.363013698630137e-06, 'epoch': 0.16}
+{'loss': 4.2793, 'grad_norm': 11.690977096557617, 'learning_rate': 2.38013698630137e-06, 'epoch': 0.16}
+{'eval_loss': 4.27734375, 'eval_runtime': 4.1449, 'eval_samples_per_second': 241.263, 'eval_steps_per_second': 10.133, 'epoch': 0.16}
+{'loss': 4.2318, 'grad_norm': 11.293115615844727, 'learning_rate': 2.3972602739726027e-06, 'epoch': 0.17}
+{'loss': 4.2624, 'grad_norm': 10.597649574279785, 'learning_rate': 2.4143835616438358e-06, 'epoch': 0.17}
+{'loss': 4.2363, 'grad_norm': 11.04495906829834, 'learning_rate': 2.431506849315069e-06, 'epoch': 0.17}
+{'loss': 4.2357, 'grad_norm': 10.39896011352539, 'learning_rate': 2.4486301369863015e-06, 'epoch': 0.17}
+{'loss': 4.2324, 'grad_norm': 9.928808212280273, 'learning_rate': 2.4657534246575345e-06, 'epoch': 0.17}
+{'loss': 4.2741, 'grad_norm': 10.755949020385742, 'learning_rate': 2.482876712328767e-06, 'epoch': 0.17}
+{'loss': 4.1751, 'grad_norm': 9.508179664611816, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 4.2415, 'grad_norm': 10.022868156433105, 'learning_rate': 2.5171232876712333e-06, 'epoch': 0.17}
+{'loss': 4.2923, 'grad_norm': 10.105929374694824, 'learning_rate': 2.534246575342466e-06, 'epoch': 0.17}
+{'loss': 4.2878, 'grad_norm': 10.555767059326172, 'learning_rate': 2.551369863013699e-06, 'epoch': 0.17}
+{'eval_loss': 4.24609375, 'eval_runtime': 4.1237, 'eval_samples_per_second': 242.502, 'eval_steps_per_second': 10.185, 'epoch': 0.17}
+{'loss': 4.2161, 'grad_norm': 9.456923484802246, 'learning_rate': 2.568493150684932e-06, 'epoch': 0.18}
+{'loss': 4.1628, 'grad_norm': 10.50710391998291, 'learning_rate': 2.585616438356164e-06, 'epoch': 0.18}
+{'loss': 4.2279, 'grad_norm': 9.807251930236816, 'learning_rate': 2.6027397260273973e-06, 'epoch': 0.18}
+{'loss': 4.1471, 'grad_norm': 9.74703311920166, 'learning_rate': 2.6198630136986303e-06, 'epoch': 0.18}
+{'loss': 4.2676, 'grad_norm': 9.387231826782227, 'learning_rate': 2.6369863013698634e-06, 'epoch': 0.18}
+{'loss': 4.2383, 'grad_norm': 9.643336296081543, 'learning_rate': 2.654109589041096e-06, 'epoch': 0.18}
+{'loss': 4.1602, 'grad_norm': 10.263619422912598, 'learning_rate': 2.671232876712329e-06, 'epoch': 0.18}
+{'loss': 4.2721, 'grad_norm': 10.200366973876953, 'learning_rate': 2.688356164383562e-06, 'epoch': 0.18}
+{'loss': 4.1172, 'grad_norm': 9.883759498596191, 'learning_rate': 2.705479452054795e-06, 'epoch': 0.18}
+{'loss': 4.2988, 'grad_norm': 9.842406272888184, 'learning_rate': 2.7226027397260274e-06, 'epoch': 0.18}
+{'eval_loss': 4.21484375, 'eval_runtime': 4.1431, 'eval_samples_per_second': 241.363, 'eval_steps_per_second': 10.137, 'epoch': 0.18}
+{'loss': 4.2363, 'grad_norm': 9.587005615234375, 'learning_rate': 2.7397260273972604e-06, 'epoch': 0.19}
+{'loss': 4.2376, 'grad_norm': 9.50483226776123, 'learning_rate': 2.7568493150684935e-06, 'epoch': 0.19}
+{'loss': 4.2454, 'grad_norm': 10.415629386901855, 'learning_rate': 2.773972602739726e-06, 'epoch': 0.19}
+{'loss': 4.1289, 'grad_norm': 9.242981910705566, 'learning_rate': 2.791095890410959e-06, 'epoch': 0.19}
+{'loss': 4.1387, 'grad_norm': 9.645852088928223, 'learning_rate': 2.8082191780821922e-06, 'epoch': 0.19}
+{'loss': 4.1403, 'grad_norm': 8.961231231689453, 'learning_rate': 2.8253424657534253e-06, 'epoch': 0.19}
+{'loss': 4.1514, 'grad_norm': 9.79644775390625, 'learning_rate': 2.842465753424658e-06, 'epoch': 0.19}
+{'loss': 4.1641, 'grad_norm': 9.369246482849121, 'learning_rate': 2.8595890410958905e-06, 'epoch': 0.19}
+{'loss': 4.1868, 'grad_norm': 9.61331558227539, 'learning_rate': 2.876712328767123e-06, 'epoch': 0.19}
+{'loss': 4.1432, 'grad_norm': 9.08060073852539, 'learning_rate': 2.8938356164383562e-06, 'epoch': 0.2}
+{'eval_loss': 4.19140625, 'eval_runtime': 4.1473, 'eval_samples_per_second': 241.12, 'eval_steps_per_second': 10.127, 'epoch': 0.2}
+{'loss': 4.1917, 'grad_norm': 8.620512962341309, 'learning_rate': 2.9109589041095893e-06, 'epoch': 0.2}
+{'loss': 4.1595, 'grad_norm': 8.493586540222168, 'learning_rate': 2.9280821917808223e-06, 'epoch': 0.2}
+{'loss': 4.1393, 'grad_norm': 8.612478256225586, 'learning_rate': 2.945205479452055e-06, 'epoch': 0.2}
+{'loss': 4.1283, 'grad_norm': 8.767659187316895, 'learning_rate': 2.962328767123288e-06, 'epoch': 0.2}
+{'loss': 4.1117, 'grad_norm': 8.23145580291748, 'learning_rate': 2.979452054794521e-06, 'epoch': 0.2}
+{'loss': 4.11, 'grad_norm': 8.652944564819336, 'learning_rate': 2.9965753424657533e-06, 'epoch': 0.2}
+{'loss': 4.1292, 'grad_norm': 8.409905433654785, 'learning_rate': 3.0136986301369864e-06, 'epoch': 0.2}
+{'loss': 4.1211, 'grad_norm': 8.760334968566895, 'learning_rate': 3.0308219178082194e-06, 'epoch': 0.2}
+{'loss': 4.1849, 'grad_norm': 8.793366432189941, 'learning_rate': 3.0479452054794525e-06, 'epoch': 0.2}
+{'loss': 4.0592, 'grad_norm': 8.562535285949707, 'learning_rate': 3.065068493150685e-06, 'epoch': 0.21}
+{'eval_loss': 4.16796875, 'eval_runtime': 4.1328, 'eval_samples_per_second': 241.965, 'eval_steps_per_second': 10.163, 'epoch': 0.21}
+{'loss': 4.0423, 'grad_norm': 8.196942329406738, 'learning_rate': 3.082191780821918e-06, 'epoch': 0.21}
+{'loss': 4.0371, 'grad_norm': 7.889317512512207, 'learning_rate': 3.099315068493151e-06, 'epoch': 0.21}
+{'loss': 4.0589, 'grad_norm': 8.561248779296875, 'learning_rate': 3.1164383561643843e-06, 'epoch': 0.21}
+{'loss': 4.0426, 'grad_norm': 8.337886810302734, 'learning_rate': 3.1335616438356165e-06, 'epoch': 0.21}
+{'loss': 3.9941, 'grad_norm': 7.96150541305542, 'learning_rate': 3.1506849315068495e-06, 'epoch': 0.21}
+{'loss': 4.0778, 'grad_norm': 8.447320938110352, 'learning_rate': 3.167808219178082e-06, 'epoch': 0.21}
+{'loss': 4.1016, 'grad_norm': 7.828139781951904, 'learning_rate': 3.184931506849315e-06, 'epoch': 0.21}
+{'loss': 4.0576, 'grad_norm': 7.91950798034668, 'learning_rate': 3.2020547945205483e-06, 'epoch': 0.21}
+{'loss': 4.0739, 'grad_norm': 8.642852783203125, 'learning_rate': 3.2191780821917813e-06, 'epoch': 0.21}
+{'loss': 4.0944, 'grad_norm': 8.33453369140625, 'learning_rate': 3.236301369863014e-06, 'epoch': 0.22}
+{'eval_loss': 4.14453125, 'eval_runtime': 4.1399, 'eval_samples_per_second': 241.551, 'eval_steps_per_second': 10.145, 'epoch': 0.22}
+{'loss': 4.1445, 'grad_norm': 7.90278434753418, 'learning_rate': 3.253424657534247e-06, 'epoch': 0.22}
+{'loss': 4.152, 'grad_norm': 8.006811141967773, 'learning_rate': 3.2705479452054796e-06, 'epoch': 0.22}
+{'loss': 4.0918, 'grad_norm': 8.486872673034668, 'learning_rate': 3.2876712328767123e-06, 'epoch': 0.22}
+{'loss': 4.1602, 'grad_norm': 7.889510154724121, 'learning_rate': 3.3047945205479453e-06, 'epoch': 0.22}
+{'loss': 4.016, 'grad_norm': 8.157393455505371, 'learning_rate': 3.3219178082191784e-06, 'epoch': 0.22}
+{'loss': 4.0866, 'grad_norm': 7.8345842361450195, 'learning_rate': 3.3390410958904114e-06, 'epoch': 0.22}
+{'loss': 4.0824, 'grad_norm': 7.384395599365234, 'learning_rate': 3.356164383561644e-06, 'epoch': 0.22}
+{'loss': 4.0801, 'grad_norm': 7.450700759887695, 'learning_rate': 3.373287671232877e-06, 'epoch': 0.22}
+{'loss': 4.0785, 'grad_norm': 7.184561252593994, 'learning_rate': 3.39041095890411e-06, 'epoch': 0.22}
+{'loss': 4.0983, 'grad_norm': 7.710848808288574, 'learning_rate': 3.4075342465753424e-06, 'epoch': 0.23}
+{'eval_loss': 4.12109375, 'eval_runtime': 4.1436, 'eval_samples_per_second': 241.336, 'eval_steps_per_second': 10.136, 'epoch': 0.23}
+{'loss': 4.0498, 'grad_norm': 7.679266929626465, 'learning_rate': 3.4246575342465754e-06, 'epoch': 0.23}
+{'loss': 4.0798, 'grad_norm': 7.396859645843506, 'learning_rate': 3.4417808219178085e-06, 'epoch': 0.23}
+{'loss': 4.0371, 'grad_norm': 8.06267261505127, 'learning_rate': 3.458904109589041e-06, 'epoch': 0.23}
+{'loss': 4.111, 'grad_norm': 7.807827472686768, 'learning_rate': 3.476027397260274e-06, 'epoch': 0.23}
+{'loss': 4.098, 'grad_norm': 7.338776111602783, 'learning_rate': 3.4931506849315072e-06, 'epoch': 0.23}
+{'loss': 4.0368, 'grad_norm': 7.337118148803711, 'learning_rate': 3.5102739726027403e-06, 'epoch': 0.23}
+{'loss': 4.0775, 'grad_norm': 7.35460901260376, 'learning_rate': 3.527397260273973e-06, 'epoch': 0.23}
+{'loss': 4.0628, 'grad_norm': 7.588443756103516, 'learning_rate': 3.5445205479452056e-06, 'epoch': 0.23}
+{'loss': 4.0921, 'grad_norm': 7.283291339874268, 'learning_rate': 3.5616438356164386e-06, 'epoch': 0.24}
+{'loss': 4.0169, 'grad_norm': 7.951315879821777, 'learning_rate': 3.5787671232876712e-06, 'epoch': 0.24}
+{'eval_loss': 4.09765625, 'eval_runtime': 4.1316, 'eval_samples_per_second': 242.038, 'eval_steps_per_second': 10.166, 'epoch': 0.24}
+{'loss': 4.0885, 'grad_norm': 6.982937335968018, 'learning_rate': 3.5958904109589043e-06, 'epoch': 0.24}
+{'loss': 4.001, 'grad_norm': 7.253655433654785, 'learning_rate': 3.6130136986301373e-06, 'epoch': 0.24}
+{'loss': 4.098, 'grad_norm': 6.960956573486328, 'learning_rate': 3.6301369863013704e-06, 'epoch': 0.24}
+{'loss': 4.0202, 'grad_norm': 6.784556865692139, 'learning_rate': 3.647260273972603e-06, 'epoch': 0.24}
+{'loss': 4.0824, 'grad_norm': 6.773897647857666, 'learning_rate': 3.664383561643836e-06, 'epoch': 0.24}
+{'loss': 4.0902, 'grad_norm': 7.073527812957764, 'learning_rate': 3.6815068493150687e-06, 'epoch': 0.24}
+{'loss': 3.9954, 'grad_norm': 7.669946670532227, 'learning_rate': 3.6986301369863014e-06, 'epoch': 0.24}
+{'loss': 4.0456, 'grad_norm': 6.824738502502441, 'learning_rate': 3.7157534246575344e-06, 'epoch': 0.24}
+{'loss': 3.9782, 'grad_norm': 7.616833686828613, 'learning_rate': 3.7328767123287675e-06, 'epoch': 0.25}
+{'loss': 4.0078, 'grad_norm': 7.397879600524902, 'learning_rate': 3.7500000000000005e-06, 'epoch': 0.25}
+{'eval_loss': 4.07421875, 'eval_runtime': 4.1454, 'eval_samples_per_second': 241.233, 'eval_steps_per_second': 10.132, 'epoch': 0.25}
+{'loss': 4.0352, 'grad_norm': 7.591618537902832, 'learning_rate': 3.767123287671233e-06, 'epoch': 0.25}
+{'loss': 4.0137, 'grad_norm': 6.374880790710449, 'learning_rate': 3.784246575342466e-06, 'epoch': 0.25}
+{'loss': 4.0296, 'grad_norm': 6.960234642028809, 'learning_rate': 3.8013698630136993e-06, 'epoch': 0.25}
+{'loss': 3.9935, 'grad_norm': 6.779566764831543, 'learning_rate': 3.818493150684932e-06, 'epoch': 0.25}
+{'loss': 3.974, 'grad_norm': 6.612168788909912, 'learning_rate': 3.8356164383561645e-06, 'epoch': 0.25}
+{'loss': 3.9964, 'grad_norm': 6.657203197479248, 'learning_rate': 3.852739726027397e-06, 'epoch': 0.25}
+{'loss': 4.0439, 'grad_norm': 6.276165008544922, 'learning_rate': 3.869863013698631e-06, 'epoch': 0.25}
+{'loss': 3.9782, 'grad_norm': 5.882382392883301, 'learning_rate': 3.886986301369863e-06, 'epoch': 0.25}
+{'loss': 4.0316, 'grad_norm': 6.11745023727417, 'learning_rate': 3.904109589041096e-06, 'epoch': 0.26}
+{'loss': 3.9915, 'grad_norm': 6.5392656326293945, 'learning_rate': 3.921232876712329e-06, 'epoch': 0.26}
+{'eval_loss': 4.05078125, 'eval_runtime': 4.1476, 'eval_samples_per_second': 241.103, 'eval_steps_per_second': 10.126, 'epoch': 0.26}
+{'loss': 3.9385, 'grad_norm': 6.206476211547852, 'learning_rate': 3.938356164383562e-06, 'epoch': 0.26}
+{'loss': 3.9785, 'grad_norm': 6.090269565582275, 'learning_rate': 3.9554794520547955e-06, 'epoch': 0.26}
+{'loss': 4.0117, 'grad_norm': 7.20045280456543, 'learning_rate': 3.972602739726027e-06, 'epoch': 0.26}
+{'loss': 4.0501, 'grad_norm': 6.169981956481934, 'learning_rate': 3.989726027397261e-06, 'epoch': 0.26}
+{'loss': 3.9398, 'grad_norm': 6.894737243652344, 'learning_rate': 4.006849315068493e-06, 'epoch': 0.26}
+{'loss': 4.0169, 'grad_norm': 5.912604331970215, 'learning_rate': 4.023972602739726e-06, 'epoch': 0.26}
+{'loss': 4.0094, 'grad_norm': 5.764235973358154, 'learning_rate': 4.0410958904109595e-06, 'epoch': 0.26}
+{'loss': 4.0335, 'grad_norm': 6.38284158706665, 'learning_rate': 4.058219178082192e-06, 'epoch': 0.27}
+{'loss': 4.0091, 'grad_norm': 6.09063720703125, 'learning_rate': 4.075342465753426e-06, 'epoch': 0.27}
+{'loss': 3.9352, 'grad_norm': 6.499085426330566, 'learning_rate': 4.092465753424658e-06, 'epoch': 0.27}
+{'eval_loss': 4.03515625, 'eval_runtime': 4.1349, 'eval_samples_per_second': 241.845, 'eval_steps_per_second': 10.157, 'epoch': 0.27}
+{'loss': 3.9456, 'grad_norm': 6.140304088592529, 'learning_rate': 4.109589041095891e-06, 'epoch': 0.27}
+{'loss': 3.9626, 'grad_norm': 6.659559726715088, 'learning_rate': 4.1267123287671235e-06, 'epoch': 0.27}
+{'loss': 3.9723, 'grad_norm': 6.473063945770264, 'learning_rate': 4.143835616438356e-06, 'epoch': 0.27}
+{'loss': 3.973, 'grad_norm': 6.217690944671631, 'learning_rate': 4.16095890410959e-06, 'epoch': 0.27}
+{'loss': 3.9128, 'grad_norm': 6.568310260772705, 'learning_rate': 4.178082191780822e-06, 'epoch': 0.27}
+{'loss': 4.0433, 'grad_norm': 6.157414436340332, 'learning_rate': 4.195205479452055e-06, 'epoch': 0.27}
+{'loss': 3.9294, 'grad_norm': 6.064939498901367, 'learning_rate': 4.212328767123288e-06, 'epoch': 0.27}
+{'loss': 3.9893, 'grad_norm': 5.4238104820251465, 'learning_rate': 4.229452054794521e-06, 'epoch': 0.28}
+{'loss': 3.9515, 'grad_norm': 5.336057186126709, 'learning_rate': 4.246575342465754e-06, 'epoch': 0.28}
+{'loss': 3.9352, 'grad_norm': 5.595287799835205, 'learning_rate': 4.263698630136986e-06, 'epoch': 0.28}
+{'eval_loss': 4.015625, 'eval_runtime': 4.1398, 'eval_samples_per_second': 241.558, 'eval_steps_per_second': 10.145, 'epoch': 0.28}
+{'loss': 3.9567, 'grad_norm': 5.319255352020264, 'learning_rate': 4.28082191780822e-06, 'epoch': 0.28}
+{'loss': 3.9753, 'grad_norm': 5.77924108505249, 'learning_rate': 4.297945205479452e-06, 'epoch': 0.28}
+{'loss': 3.973, 'grad_norm': 5.911022663116455, 'learning_rate': 4.315068493150685e-06, 'epoch': 0.28}
+{'loss': 3.9219, 'grad_norm': 5.734246730804443, 'learning_rate': 4.3321917808219185e-06, 'epoch': 0.28}
+{'loss': 3.9294, 'grad_norm': 6.58404541015625, 'learning_rate': 4.349315068493151e-06, 'epoch': 0.28}
+{'loss': 3.9378, 'grad_norm': 6.353537082672119, 'learning_rate': 4.3664383561643846e-06, 'epoch': 0.28}
+{'loss': 3.9857, 'grad_norm': 6.257997989654541, 'learning_rate': 4.383561643835616e-06, 'epoch': 0.28}
+{'loss': 3.9609, 'grad_norm': 6.178806304931641, 'learning_rate': 4.40068493150685e-06, 'epoch': 0.29}
+{'loss': 3.8581, 'grad_norm': 5.626409530639648, 'learning_rate': 4.4178082191780825e-06, 'epoch': 0.29}
+{'loss': 3.9225, 'grad_norm': 5.974967002868652, 'learning_rate': 4.434931506849315e-06, 'epoch': 0.29}
+{'eval_loss': 3.99609375, 'eval_runtime': 4.1437, 'eval_samples_per_second': 241.329, 'eval_steps_per_second': 10.136, 'epoch': 0.29}
+{'loss': 3.9502, 'grad_norm': 5.211088180541992, 'learning_rate': 4.4520547945205486e-06, 'epoch': 0.29}
+{'loss': 3.9626, 'grad_norm': 5.593132495880127, 'learning_rate': 4.469178082191781e-06, 'epoch': 0.29}
+{'loss': 3.9583, 'grad_norm': 5.038020133972168, 'learning_rate': 4.486301369863014e-06, 'epoch': 0.29}
+{'loss': 3.8626, 'grad_norm': 5.281350612640381, 'learning_rate': 4.503424657534247e-06, 'epoch': 0.29}
+{'loss': 3.8838, 'grad_norm': 5.458635330200195, 'learning_rate': 4.52054794520548e-06, 'epoch': 0.29}
+{'loss': 3.9342, 'grad_norm': 5.40903377532959, 'learning_rate': 4.537671232876713e-06, 'epoch': 0.29}
+{'loss': 3.9329, 'grad_norm': 4.869696617126465, 'learning_rate': 4.554794520547945e-06, 'epoch': 0.29}
+{'loss': 3.9251, 'grad_norm': 5.256195545196533, 'learning_rate': 4.571917808219179e-06, 'epoch': 0.3}
+{'loss': 3.8743, 'grad_norm': 5.779631614685059, 'learning_rate': 4.589041095890411e-06, 'epoch': 0.3}
+{'loss': 3.9079, 'grad_norm': 5.470967769622803, 'learning_rate': 4.606164383561644e-06, 'epoch': 0.3}
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py", line 114, in <module>                                                                                                                                                                                                                
+{'eval_loss': 3.98046875, 'eval_runtime': 4.1346, 'eval_samples_per_second': 241.859, 'eval_steps_per_second': 10.158, 'epoch': 0.3}
+{'loss': 3.9183, 'grad_norm': 5.507876396179199, 'learning_rate': 4.6232876712328774e-06, 'epoch': 0.3}
+{'loss': 3.9297, 'grad_norm': 4.4915032386779785, 'learning_rate': 4.64041095890411e-06, 'epoch': 0.3}
+{'loss': 3.9336, 'grad_norm': 4.973710536956787, 'learning_rate': 4.657534246575343e-06, 'epoch': 0.3}
+{'loss': 3.8913, 'grad_norm': 5.517408847808838, 'learning_rate': 4.674657534246575e-06, 'epoch': 0.3}
+{'loss': 3.8451, 'grad_norm': 5.916828155517578, 'learning_rate': 4.691780821917809e-06, 'epoch': 0.3}
+{'loss': 3.8763, 'grad_norm': 5.783418655395508, 'learning_rate': 4.7089041095890414e-06, 'epoch': 0.3}
+{'loss': 3.8428, 'grad_norm': 5.192783832550049, 'learning_rate': 4.726027397260274e-06, 'epoch': 0.31}
+{'loss': 3.8893, 'grad_norm': 5.042906761169434, 'learning_rate': 4.7431506849315075e-06, 'epoch': 0.31}
+{'loss': 3.8789, 'grad_norm': 5.250149726867676, 'learning_rate': 4.76027397260274e-06, 'epoch': 0.31}
+{'loss': 3.82, 'grad_norm': 5.194881916046143, 'learning_rate': 4.777397260273973e-06, 'epoch': 0.31}
+{'eval_loss': 3.966796875, 'eval_runtime': 4.141, 'eval_samples_per_second': 241.485, 'eval_steps_per_second': 10.142, 'epoch': 0.31}
+{'loss': 3.862, 'grad_norm': 4.694105625152588, 'learning_rate': 4.7945205479452054e-06, 'epoch': 0.31}
+{'loss': 3.9043, 'grad_norm': 4.866695880889893, 'learning_rate': 4.811643835616439e-06, 'epoch': 0.31}
+{'loss': 3.903, 'grad_norm': 4.576431751251221, 'learning_rate': 4.8287671232876716e-06, 'epoch': 0.31}
+{'loss': 3.903, 'grad_norm': 4.538954257965088, 'learning_rate': 4.845890410958904e-06, 'epoch': 0.31}
+    trainer.train()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2052, in train
+    return inner_training_loop(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2388, in _inner_training_loop
+    tr_loss_step = self.training_step(model, inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 3518, in training_step
+    self.accelerator.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/accelerator.py", line 2238, in backward
+    self.deepspeed_engine_wrapped.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/utils/deepspeed.py", line 195, in backward
+    self.engine.step()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 2213, in step
+    self._take_model_step(lr_kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 2119, in _take_model_step
+    self.optimizer.step()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1867, in step
+    self._optimizer_step(i)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1816, in _optimizer_step
+    self.optimizer.step()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/optim/optimizer.py", line 280, in wrapper
+    out = func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context
+    return func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/ops/adam/cpu_adam.py", line 163, in step
+    self.ds_opt_adam.adam_update(self.opt_id, state['step'], group['lr'], beta1, beta2, group['eps'],
+KeyboardInterrupt
diff --git a/wandb/run-20241129_235322-uoj0g6xp/files/requirements.txt b/wandb/run-20241129_235322-uoj0g6xp/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241129_235322-uoj0g6xp/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241129_235322-uoj0g6xp/files/wandb-metadata.json b/wandb/run-20241129_235322-uoj0g6xp/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..6b2b86629f0c01684fcde1e5034797e9e4017a5a
--- /dev/null
+++ b/wandb/run-20241129_235322-uoj0g6xp/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-30T04:53:22.885618Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py",
+  "codePath":  "train/train_gpt2.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_gpt2.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1719454408704"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241130_000210-r9oa6v8c/run-r9oa6v8c.wandb b/wandb/run-20241130_000210-r9oa6v8c/run-r9oa6v8c.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e018808ab4790da27fa9f39b98d4770fb44aee7c
--- /dev/null
+++ b/wandb/run-20241130_000210-r9oa6v8c/run-r9oa6v8c.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f2d9402c2c33a6981643d2d8f3ba33be0a017c27164ad0d1a3ffac9fb3046d0b
+size 3643711
diff --git a/wandb/run-20241130_011200-7p4fy9o8/logs/debug-core.log b/wandb/run-20241130_011200-7p4fy9o8/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..738e8af1cca5abe41f8bbf9ead565302e291e45c
--- /dev/null
+++ b/wandb/run-20241130_011200-7p4fy9o8/logs/debug-core.log
@@ -0,0 +1,48 @@
+{"time":"2024-11-30T01:12:00.162005684-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpb34ol8dc/port-3204333.txt","pid":3204333,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.162049534-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.16291377-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204333}
+{"time":"2024-11-30T01:12:00.16290603-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":37433,"Zone":""}}
+{"time":"2024-11-30T01:12:00.166227065-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp53qvk928/port-3204334.txt","pid":3204334,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.166271575-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.166726058-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204334}
+{"time":"2024-11-30T01:12:00.166715568-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":40203,"Zone":""}}
+{"time":"2024-11-30T01:12:00.230336599-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp7lhtji1g/port-3204336.txt","pid":3204336,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.230357609-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.230726862-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204336}
+{"time":"2024-11-30T01:12:00.230715472-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":34717,"Zone":""}}
+{"time":"2024-11-30T01:12:00.35352094-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.358395016-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.424759467-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T01:12:00.502745953-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.51032144-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.584269066-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T01:12:00.60908783-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.616752516-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.690624993-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.88657551-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:12.886750821-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:12.958414645-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.958716137-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.982695672-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:12.982924494-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.237672124-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237707104-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237714024-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.237754485-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237906136-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237917056-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237922186-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T02:11:13.305017976-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305076186-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305084906-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.305148637-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305372228-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305438609-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305460069-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T02:11:13.392657396-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392695406-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392704986-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.392740907-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392863557-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392918348-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392940408-05:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20241130_011200-7wusu3nn/files/config.yaml b/wandb/run-20241130_011200-7wusu3nn/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..164653596defa3a070943f5b9f7cd18e7f2d95cc
--- /dev/null
+++ b/wandb/run-20241130_011200-7wusu3nn/files/config.yaml
@@ -0,0 +1,50 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: reverse_partial
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241130_011200-7wusu3nn/files/output.log b/wandb/run-20241130_011200-7wusu3nn/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..0f0609165ad3d55736f46b8bf4d84b146f66d131
--- /dev/null
+++ b/wandb/run-20241130_011200-7wusu3nn/files/output.log
@@ -0,0 +1,27 @@
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1098360/1098360 [00:04<00:00, 251352.29it/s]
+100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1098360/1098360 [00:00<00:00, 3368404.55it/s]
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17520/17520 [00:00<00:00, 33726.67it/s]
+Generating train split: 17519 examples [00:08, 2141.33 examples/s]████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 13283/17520 [00:00<00:00, 33428.30it/s]
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1086121/1086121 [00:04<00:00, 240333.64it/s]
+100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1086121/1086121 [00:00<00:00, 3241796.56it/s]
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18141/18141 [00:00<00:00, 35523.16it/s]
+Generating validation split: 18140 examples [00:08, 2149.78 examples/s]█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 14696/18141 [00:00<00:00, 36259.85it/s]
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1031323/1031323 [00:03<00:00, 276133.77it/s]
+100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1031323/1031323 [00:00<00:00, 2965129.53it/s]
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16483/16483 [00:00<00:00, 35990.44it/s]
+Generating test split: 16482 examples [00:07, 2240.86 examples/s]███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 10848/16483 [00:00<00:00, 33813.94it/s]
+config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 665/665 [00:00<00:00, 676kB/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17519/17519 [00:33<00:00, 524.26 examples/s]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:36<00:00, 503.66 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-30 01:13:38,073] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-30 01:13:41,179] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 2.6310431957244873 seconds
diff --git a/wandb/run-20241130_011200-7wusu3nn/files/wandb-metadata.json b/wandb/run-20241130_011200-7wusu3nn/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..b5ceb6e3fac1efd793c8c31900a1ec11411705b1
--- /dev/null
+++ b/wandb/run-20241130_011200-7wusu3nn/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-30T06:12:00.508660Z",
+  "args":  [
+    "--perturbation",
+    "reverse_partial",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py",
+  "codePath":  "train/train_gpt2.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_gpt2.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1720385073152"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241130_011200-7wusu3nn/files/wandb-summary.json b/wandb/run-20241130_011200-7wusu3nn/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..26d44b8ab182e0f622a823169a56c1ed3ca76166
--- /dev/null
+++ b/wandb/run-20241130_011200-7wusu3nn/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":3550}}
\ No newline at end of file
diff --git a/wandb/run-20241130_011200-7wusu3nn/logs/debug-core.log b/wandb/run-20241130_011200-7wusu3nn/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..738e8af1cca5abe41f8bbf9ead565302e291e45c
--- /dev/null
+++ b/wandb/run-20241130_011200-7wusu3nn/logs/debug-core.log
@@ -0,0 +1,48 @@
+{"time":"2024-11-30T01:12:00.162005684-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpb34ol8dc/port-3204333.txt","pid":3204333,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.162049534-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.16291377-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204333}
+{"time":"2024-11-30T01:12:00.16290603-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":37433,"Zone":""}}
+{"time":"2024-11-30T01:12:00.166227065-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp53qvk928/port-3204334.txt","pid":3204334,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.166271575-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.166726058-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204334}
+{"time":"2024-11-30T01:12:00.166715568-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":40203,"Zone":""}}
+{"time":"2024-11-30T01:12:00.230336599-05:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp7lhtji1g/port-3204336.txt","pid":3204336,"debug":false,"disable-analytics":false}
+{"time":"2024-11-30T01:12:00.230357609-05:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-11-30T01:12:00.230726862-05:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3204336}
+{"time":"2024-11-30T01:12:00.230715472-05:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":34717,"Zone":""}}
+{"time":"2024-11-30T01:12:00.35352094-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.358395016-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.424759467-05:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T01:12:00.502745953-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.51032144-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.584269066-05:00","level":"INFO","msg":"handleInformInit: received","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T01:12:00.60908783-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T01:12:00.616752516-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T01:12:00.690624993-05:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.88657551-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:12.886750821-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"7wusu3nn","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:12.958414645-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.958716137-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"7p4fy9o8","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:12.982695672-05:00","level":"INFO","msg":"handleInformFinish: finish message received","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:12.982924494-05:00","level":"INFO","msg":"handleInformFinish: stream closed","streamId":"3b6iqyk8","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.237672124-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237707104-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237714024-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.237754485-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237906136-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237917056-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:57900"}
+{"time":"2024-11-30T02:11:13.237922186-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T02:11:13.305017976-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305076186-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305084906-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.305148637-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305372228-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305438609-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:34762"}
+{"time":"2024-11-30T02:11:13.305460069-05:00","level":"INFO","msg":"server is closed"}
+{"time":"2024-11-30T02:11:13.392657396-05:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392695406-05:00","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392704986-05:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2024-11-30T02:11:13.392740907-05:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392863557-05:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392918348-05:00","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:36264"}
+{"time":"2024-11-30T02:11:13.392940408-05:00","level":"INFO","msg":"server is closed"}
diff --git a/wandb/run-20241130_011200-7wusu3nn/logs/debug-internal.log b/wandb/run-20241130_011200-7wusu3nn/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..1f357e61d593e0ebc6ce886cc87e26ef4e199c6f
--- /dev/null
+++ b/wandb/run-20241130_011200-7wusu3nn/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-30T01:12:00.51043092-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-30T01:12:00.5104412-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_011200-7wusu3nn/logs/debug-core.log"}
+{"time":"2024-11-30T01:12:00.616713516-05:00","level":"INFO","msg":"created new stream","id":"7wusu3nn"}
+{"time":"2024-11-30T01:12:00.616746936-05:00","level":"INFO","msg":"stream: started","id":"7wusu3nn"}
+{"time":"2024-11-30T01:12:00.616813227-05:00","level":"INFO","msg":"sender: started","stream_id":"7wusu3nn"}
+{"time":"2024-11-30T01:12:00.616776207-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"7wusu3nn"}}
+{"time":"2024-11-30T01:12:00.616797457-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"7wusu3nn"}}
+{"time":"2024-11-30T01:12:00.780583178-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-30T02:11:11.339766264-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-30T02:11:11.340412848-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-30T02:11:11.745239025-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-30T02:11:11.874716711-05:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2024-11-30T02:11:12.886632811-05:00","level":"INFO","msg":"stream: closing","id":"7wusu3nn"}
+{"time":"2024-11-30T02:11:12.886650671-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"7wusu3nn"}}
+{"time":"2024-11-30T02:11:12.886667191-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"7wusu3nn"}}
+{"time":"2024-11-30T02:11:12.886693421-05:00","level":"INFO","msg":"sender: closed","stream_id":"7wusu3nn"}
+{"time":"2024-11-30T02:11:12.886743201-05:00","level":"INFO","msg":"stream: closed","id":"7wusu3nn"}
diff --git a/wandb/run-20241130_011200-7wusu3nn/logs/debug.log b/wandb/run-20241130_011200-7wusu3nn/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..a9c0a4e73e670f47176c3eb8fa746d0cdac8cf76
--- /dev/null
+++ b/wandb/run-20241130_011200-7wusu3nn/logs/debug.log
@@ -0,0 +1,33 @@
+2024-11-30 01:12:00,506 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Configure stats pid to 3204334
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_gpt2.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_gpt2.py'}
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_011200-7wusu3nn/logs/debug.log
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241130_011200-7wusu3nn/logs/debug-internal.log
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_init.py:init():621] calling init triggers
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_init.py:init():671] starting backend
+2024-11-30 01:12:00,507 INFO    MainThread:3204334 [wandb_init.py:init():675] sending inform_init request
+2024-11-30 01:12:00,508 INFO    MainThread:3204334 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-30 01:12:00,508 INFO    MainThread:3204334 [wandb_init.py:init():688] backend started and connected
+2024-11-30 01:12:00,511 INFO    MainThread:3204334 [wandb_init.py:init():783] updated telemetry
+2024-11-30 01:12:00,527 INFO    MainThread:3204334 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-30 01:12:00,777 INFO    MainThread:3204334 [wandb_init.py:init():867] starting run threads in backend
+2024-11-30 01:12:00,866 INFO    MainThread:3204334 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-30 01:12:00,867 INFO    MainThread:3204334 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-30 01:12:00,867 INFO    MainThread:3204334 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-30 01:12:00,867 INFO    MainThread:3204334 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-30 01:12:00,868 INFO    MainThread:3204334 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-30 01:12:00,868 INFO    MainThread:3204334 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_partial', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-30 02:11:11,338 INFO    MainThread:3204334 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-reverse/7wusu3nn
+2024-11-30 02:11:11,339 INFO    MainThread:3204334 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-30 02:11:11,339 INFO    MainThread:3204334 [wandb_run.py:_restore():2408] restore
+2024-11-30 02:11:11,339 INFO    MainThread:3204334 [wandb_run.py:_restore():2414] restore done
+2024-11-30 02:11:12,877 INFO    MainThread:3204334 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-30 02:11:12,878 INFO    MainThread:3204334 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-30 02:11:12,886 INFO    MainThread:3204334 [wandb_run.py:_footer_sync_info():3934] logging synced files