diff --git a/.gitattributes b/.gitattributes
index 2f6e62a1dfb4c16f902b3d6731d0c4840cae000b..8acd7138da184907625abbac1b4d70c401327156 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -138,3 +138,6 @@ wandb/run-20241031_122113-8ldget07/run-8ldget07.wandb filter=lfs diff=lfs merge=
 wandb/run-20241129_235241-3vsgtb8n/run-3vsgtb8n.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241106_234111-gz9chn3b/run-gz9chn3b.wandb filter=lfs diff=lfs merge=lfs -text
 wandb/run-20241119_135256-3ybits7j/run-3ybits7j.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241030_222932-48sfxfqm/run-48sfxfqm.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241130_000215-17dv9j80/run-17dv9j80.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20241030_222932-9ywqkbmn/run-9ywqkbmn.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/wandb/run-20241030_011013-ld7lpsap/files/config.yaml b/wandb/run-20241030_011013-ld7lpsap/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f8546482f67cbb9041af9d756594322c485d67a9
--- /dev/null
+++ b/wandb/run-20241030_011013-ld7lpsap/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 7
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_011013-ld7lpsap/files/output.log b/wandb/run-20241030_011013-ld7lpsap/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..b5fe28d6cd97d8e4b051a7648e260c2aeeb1fa31
--- /dev/null
+++ b/wandb/run-20241030_011013-ld7lpsap/files/output.log
@@ -0,0 +1,6 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 165, in <module>
+    valid_dataset = dataset['validation']
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/dataset_dict.py", line 72, in __getitem__
+    return super().__getitem__(k)
+KeyError: 'validation'
diff --git a/wandb/run-20241030_011013-ld7lpsap/files/wandb-metadata.json b/wandb/run-20241030_011013-ld7lpsap/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..105af26ebbc8fa32bb4c9496eaafd6eb7a492e45
--- /dev/null
+++ b/wandb/run-20241030_011013-ld7lpsap/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-30T05:10:13.907061Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "7",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1719200362496"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_011013-ld7lpsap/files/wandb-summary.json b/wandb/run-20241030_011013-ld7lpsap/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..779a0b5a17ed7980591fb713a2a4db505a51ed4b
--- /dev/null
+++ b/wandb/run-20241030_011013-ld7lpsap/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":8}}
\ No newline at end of file
diff --git a/wandb/run-20241030_011013-ld7lpsap/logs/debug-internal.log b/wandb/run-20241030_011013-ld7lpsap/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..ddafdb975a857237c2f43326a8965b93f3e590a5
--- /dev/null
+++ b/wandb/run-20241030_011013-ld7lpsap/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-10-30T01:10:13.909710076-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T01:10:13.909728756-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011013-ld7lpsap/logs/debug-core.log"}
+{"time":"2024-10-30T01:10:14.017126155-04:00","level":"INFO","msg":"created new stream","id":"ld7lpsap"}
+{"time":"2024-10-30T01:10:14.017157555-04:00","level":"INFO","msg":"stream: started","id":"ld7lpsap"}
+{"time":"2024-10-30T01:10:14.017223805-04:00","level":"INFO","msg":"sender: started","stream_id":"ld7lpsap"}
+{"time":"2024-10-30T01:10:14.017175915-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"ld7lpsap"}}
+{"time":"2024-10-30T01:10:14.017224175-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"ld7lpsap"}}
+{"time":"2024-10-30T01:10:14.553170914-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T01:10:21.993916943-04:00","level":"INFO","msg":"stream: closing","id":"ld7lpsap"}
+{"time":"2024-10-30T01:10:21.993954173-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T01:10:21.994592637-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-30T01:10:22.338001398-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-30T01:10:22.489878259-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"ld7lpsap"}}
+{"time":"2024-10-30T01:10:22.489938679-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"ld7lpsap"}}
+{"time":"2024-10-30T01:10:22.48995727-04:00","level":"INFO","msg":"sender: closed","stream_id":"ld7lpsap"}
+{"time":"2024-10-30T01:10:22.49000288-04:00","level":"INFO","msg":"stream: closed","id":"ld7lpsap"}
diff --git a/wandb/run-20241030_011013-ld7lpsap/logs/debug.log b/wandb/run-20241030_011013-ld7lpsap/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..e8d555f029bed25629c4bd27d3e9df18a536011e
--- /dev/null
+++ b/wandb/run-20241030_011013-ld7lpsap/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Configure stats pid to 323569
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011013-ld7lpsap/logs/debug.log
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_011013-ld7lpsap/logs/debug-internal.log
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_init.py:init():621] calling init triggers
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_init.py:init():671] starting backend
+2024-10-30 01:10:13,905 INFO    MainThread:323569 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 01:10:13,906 INFO    MainThread:323569 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 01:10:13,906 INFO    MainThread:323569 [wandb_init.py:init():688] backend started and connected
+2024-10-30 01:10:13,909 INFO    MainThread:323569 [wandb_init.py:init():783] updated telemetry
+2024-10-30 01:10:13,937 INFO    MainThread:323569 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 01:10:14,550 INFO    MainThread:323569 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 01:10:14,643 INFO    MainThread:323569 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 01:10:14,644 INFO    MainThread:323569 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 01:10:14,644 INFO    MainThread:323569 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 01:10:14,644 INFO    MainThread:323569 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 01:10:14,645 INFO    MainThread:323569 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 01:10:14,645 INFO    MainThread:323569 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 7, 'seed': 0}
+2024-10-30 01:10:21,994 WARNING MsgRouterThr:323569 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241030_011013-ld7lpsap/run-ld7lpsap.wandb b/wandb/run-20241030_011013-ld7lpsap/run-ld7lpsap.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..1c1fb4f50dfca6b1cf3cb3a986a228f6d51395b6
Binary files /dev/null and b/wandb/run-20241030_011013-ld7lpsap/run-ld7lpsap.wandb differ
diff --git a/wandb/run-20241030_112700-xnog0orl/files/config.yaml b/wandb/run-20241030_112700-xnog0orl/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..9eb308beefafe67d93cdcbb581ca11ae60246ed2
--- /dev/null
+++ b/wandb/run-20241030_112700-xnog0orl/files/config.yaml
@@ -0,0 +1,47 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_112700-xnog0orl/files/output.log b/wandb/run-20241030_112700-xnog0orl/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..ff7c27c1e482b44a9a283121f1e6022de92f1588
--- /dev/null
+++ b/wandb/run-20241030_112700-xnog0orl/files/output.log
@@ -0,0 +1,34 @@
+Downloading shards:   0%|                                                                                                                                        | 0/2 [01:32<?, ?it/s]
+Error in sys.excepthook:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/exit_hooks.py", line 41, in exc_handler
+    def exc_handler(
+KeyboardInterrupt
+
+Original exception was:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 172, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1380, in _hf_hub_download_to_cache_dir
+    with WeakFileLock(lock_path):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/contextlib.py", line 119, in __enter__
+    return next(self.gen)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_fixes.py", line 98, in WeakFileLock
+    lock.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241030_112700-xnog0orl/files/requirements.txt b/wandb/run-20241030_112700-xnog0orl/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241030_112700-xnog0orl/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241030_112700-xnog0orl/files/wandb-metadata.json b/wandb/run-20241030_112700-xnog0orl/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..8280093fc2f0fa6cf3f18135966d70deff1e78e3
--- /dev/null
+++ b/wandb/run-20241030_112700-xnog0orl/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-30T15:27:00.647598Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1710831083520"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_112700-xnog0orl/files/wandb-summary.json b/wandb/run-20241030_112700-xnog0orl/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..04b2e8f6eb4447e0a30c904e74100cacb4dc8a48
--- /dev/null
+++ b/wandb/run-20241030_112700-xnog0orl/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":93}}
\ No newline at end of file
diff --git a/wandb/run-20241030_112700-xnog0orl/logs/debug-internal.log b/wandb/run-20241030_112700-xnog0orl/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..f6d839c50352dbb258c8de090625533f64a1b689
--- /dev/null
+++ b/wandb/run-20241030_112700-xnog0orl/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2024-10-30T11:27:00.649532418-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T11:27:00.649542808-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_112700-xnog0orl/logs/debug-core.log"}
+{"time":"2024-10-30T11:27:00.755411418-04:00","level":"INFO","msg":"created new stream","id":"xnog0orl"}
+{"time":"2024-10-30T11:27:00.755457309-04:00","level":"INFO","msg":"stream: started","id":"xnog0orl"}
+{"time":"2024-10-30T11:27:00.755490549-04:00","level":"INFO","msg":"sender: started","stream_id":"xnog0orl"}
+{"time":"2024-10-30T11:27:00.755467139-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"xnog0orl"}}
+{"time":"2024-10-30T11:27:00.755504459-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"xnog0orl"}}
+{"time":"2024-10-30T11:27:00.992711028-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T11:28:34.162212159-04:00","level":"INFO","msg":"stream: closing","id":"xnog0orl"}
+{"time":"2024-10-30T11:28:34.162280479-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T11:28:34.163422756-04:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20241030_112700-xnog0orl/logs/debug.log b/wandb/run-20241030_112700-xnog0orl/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..90d2d78122f86dc117df296f33570b98124e5e41
--- /dev/null
+++ b/wandb/run-20241030_112700-xnog0orl/logs/debug.log
@@ -0,0 +1,27 @@
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Configure stats pid to 366802
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 11:27:00,644 INFO    MainThread:366802 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_112700-xnog0orl/logs/debug.log
+2024-10-30 11:27:00,645 INFO    MainThread:366802 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_112700-xnog0orl/logs/debug-internal.log
+2024-10-30 11:27:00,645 INFO    MainThread:366802 [wandb_init.py:init():621] calling init triggers
+2024-10-30 11:27:00,645 INFO    MainThread:366802 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 11:27:00,645 INFO    MainThread:366802 [wandb_init.py:init():671] starting backend
+2024-10-30 11:27:00,645 INFO    MainThread:366802 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 11:27:00,646 INFO    MainThread:366802 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 11:27:00,647 INFO    MainThread:366802 [wandb_init.py:init():688] backend started and connected
+2024-10-30 11:27:00,651 INFO    MainThread:366802 [wandb_init.py:init():783] updated telemetry
+2024-10-30 11:27:00,679 INFO    MainThread:366802 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 11:27:00,989 INFO    MainThread:366802 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 11:27:01,086 INFO    MainThread:366802 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 11:27:01,086 INFO    MainThread:366802 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 11:27:01,086 INFO    MainThread:366802 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 11:27:01,086 INFO    MainThread:366802 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 11:27:01,087 INFO    MainThread:366802 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 11:27:01,088 INFO    MainThread:366802 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
+2024-10-30 11:28:34,162 WARNING MsgRouterThr:366802 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241030_112700-xnog0orl/run-xnog0orl.wandb b/wandb/run-20241030_112700-xnog0orl/run-xnog0orl.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..9f0fb70a67bf1ae1b190d3af276d6918dcdf23d5
Binary files /dev/null and b/wandb/run-20241030_112700-xnog0orl/run-xnog0orl.wandb differ
diff --git a/wandb/run-20241030_112852-cp23l3oa/files/config.yaml b/wandb/run-20241030_112852-cp23l3oa/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f639ffb58b2b21d07229ba50bd66c486bf92404a
--- /dev/null
+++ b/wandb/run-20241030_112852-cp23l3oa/files/config.yaml
@@ -0,0 +1,48 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+perturbation:
+    value: reverse_control
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241030_112852-cp23l3oa/files/output.log b/wandb/run-20241030_112852-cp23l3oa/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..aa525c944c4eab704266cdcb64a8133c7f571f41
--- /dev/null
+++ b/wandb/run-20241030_112852-cp23l3oa/files/output.log
@@ -0,0 +1,16 @@
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:08<00:00, 64.28s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.42s/it]
+Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18140/18140 [00:48<00:00, 371.75 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-30 11:31:56,978] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-30 11:32:05,091] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.609123945236206 seconds
+[34m[1mwandb[0m: [33mWARNING[0m Fatal error while uploading data. Some run data will not be synced, but it will still be written to disk. Use `wandb sync` at the end of the run to try uploading.
diff --git a/wandb/run-20241030_112852-cp23l3oa/files/wandb-metadata.json b/wandb/run-20241030_112852-cp23l3oa/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..db96c288ebf7640410726509ae035af6686be24f
--- /dev/null
+++ b/wandb/run-20241030_112852-cp23l3oa/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-30T15:28:52.883976Z",
+  "args":  [
+    "--perturbation",
+    "reverse_control",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1710831611904"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241030_112852-cp23l3oa/files/wandb-summary.json b/wandb/run-20241030_112852-cp23l3oa/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..d3aab1510450119f0c2bf41f933600948398d3c4
--- /dev/null
+++ b/wandb/run-20241030_112852-cp23l3oa/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":23503}}
\ No newline at end of file
diff --git a/wandb/run-20241030_112852-cp23l3oa/logs/debug-internal.log b/wandb/run-20241030_112852-cp23l3oa/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..e4abe44e882781509322bc96216f10eccd30d705
--- /dev/null
+++ b/wandb/run-20241030_112852-cp23l3oa/logs/debug-internal.log
@@ -0,0 +1,107 @@
+{"time":"2024-10-30T11:28:52.88580441-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-30T11:28:52.88581319-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_112852-cp23l3oa/logs/debug-core.log"}
+{"time":"2024-10-30T11:28:52.993658057-04:00","level":"INFO","msg":"created new stream","id":"cp23l3oa"}
+{"time":"2024-10-30T11:28:52.993692028-04:00","level":"INFO","msg":"stream: started","id":"cp23l3oa"}
+{"time":"2024-10-30T11:28:52.993781998-04:00","level":"INFO","msg":"sender: started","stream_id":"cp23l3oa"}
+{"time":"2024-10-30T11:28:52.993731128-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"cp23l3oa"}}
+{"time":"2024-10-30T11:28:52.993706028-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"cp23l3oa"}}
+{"time":"2024-10-30T11:28:53.16703486-04:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-10-30T14:02:23.543373941-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/impossible_llm_reverse/cp23l3oa/file_stream"}
+{"time":"2024-10-30T14:02:23.565073383-04:00","level":"ERROR+4","msg":"filestream: fatal error: filestream: failed to upload: 404 Not Found path=files/yaning1001-dartmouth-college/impossible_llm_reverse/cp23l3oa/file_stream: {\"error\":\"run impossible_llm_reverse/cp23l3oa not found while streaming file\"}"}
+{"time":"2024-10-30T18:00:35.968504841-04:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-10-30T18:00:35.984868772-04:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-10-30T18:00:36.013498887-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:00:36.969538511-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":1.013950589,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:00:38.431464078-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:00:43.189717534-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:00:51.966998431-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:01:08.849337914-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:01:37.005565536-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":61.049971284,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:01:45.472856396-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:02:37.041356072-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":121.08576184,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:02:45.537799395-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:03:37.073019281-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":181.117427829,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:03:45.590739659-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:04:37.102650293-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":241.147059841,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:04:45.648082485-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:05:37.137756332-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":301.18216699,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:05:45.699632187-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:06:37.17149653-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":361.215906838,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:06:45.752175493-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:07:37.200836759-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":421.245234496,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:07:45.815704415-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:08:37.229671186-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":481.274064684,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:08:45.867841546-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:09:37.256775848-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":541.301185775,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:09:45.924328987-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:10:35.956262381-04:00","level":"WARN","msg":"sender: taking a long time","seconds":600.000829089,"work":"WorkRecord(*service_go_proto.Record_Telemetry); Control(connection_id:\"127.0.0.1:57934\")"}
+{"time":"2024-10-30T18:10:37.324610842-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":601.36902034,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:10:45.976036902-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:11:37.358268141-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":661.402675099,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:11:46.027883819-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:12:37.383323034-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":721.427729082,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:12:46.085687295-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:13:37.411060554-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":781.455473042,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:13:46.14107903-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:14:37.446207127-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":841.490615995,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:14:46.19326246-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:15:37.493459811-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":901.537871459,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:15:46.254699294-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:37.525025652-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":961.56943723,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:16:46.307408014-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:46.307537546-04:00","level":"ERROR","msg":"sender: sendConfig:","error":"api: failed sending: POST https://api.wandb.ai/graphql giving up after 21 attempt(s)"}
+{"time":"2024-10-30T18:16:46.307710978-04:00","level":"INFO","msg":"sender: succeeded after taking longer than expected","seconds":970.352293417,"work":"WorkRecord(*service_go_proto.Record_Telemetry); Control(connection_id:\"127.0.0.1:57934\")"}
+{"time":"2024-10-30T18:16:46.359243514-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:46.405726898-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:46.405802219-04:00","level":"ERROR","msg":"runfiles: CreateRunFiles returned error: returned error 404 Not Found: {\"errors\":[{\"message\":\"run impossible_llm_reverse/cp23l3oa not found during createRunFiles\",\"path\":[\"createRunFiles\"]}],\"data\":{\"createRunFiles\":null}}"}
+{"time":"2024-10-30T18:16:48.418321169-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:16:52.683080142-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:17:01.370220939-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:17:20.929252144-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:17:37.556090851-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":51.248040839,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:17:57.913995222-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:18:37.58506308-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":111.277011238,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:18:57.965536752-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:19:37.615430907-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":171.307376935,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:19:58.02218647-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:20:37.642271153-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":231.334215151,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:20:58.082766166-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:21:37.682829283-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":291.374779371,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:21:58.135877334-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:22:37.715388906-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":351.407338644,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:22:58.186847711-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:23:37.748771047-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":411.440719605,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:23:58.237713765-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:24:37.79000021-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":471.481948668,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:24:58.290976542-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:25:37.8258568-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":531.517805047,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:25:58.341705244-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:26:37.858027821-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":591.549972369,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:26:46.308589432-04:00","level":"WARN","msg":"sender: taking a long time","seconds":600.000283177,"work":"WorkRecord(*service_go_proto.Request_Defer); Control(local:true  always_send:true)"}
+{"time":"2024-10-30T18:26:58.398135513-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:27:37.890644202-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":651.5825837,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:27:58.455840564-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:28:37.93601962-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":711.627964587,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:28:58.516600202-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:29:37.968972324-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":771.660914392,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:29:58.589788172-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:30:38.001449018-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":831.693397826,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:30:58.645871422-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:31:38.032170509-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":891.724113647,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:31:58.747420252-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:38.062887757-04:00","level":"INFO","msg":"handler: operation stats","stats":{"operations":[{"desc":"updating run config","runtime_seconds":951.754833635,"error_status":"retrying HTTP 409 Conflict"}],"total_operations":1}}
+{"time":"2024-10-30T18:32:58.797262765-04:00","level":"INFO","msg":"api: retrying HTTP error","status":409,"url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:58.797362996-04:00","level":"ERROR","msg":"sender: sendConfig:","error":"api: failed sending: POST https://api.wandb.ai/graphql giving up after 21 attempt(s)"}
+{"time":"2024-10-30T18:32:58.79775819-04:00","level":"INFO","msg":"sender: succeeded after taking longer than expected","seconds":972.489508325,"work":"WorkRecord(*service_go_proto.Request_Defer); Control(local:true  always_send:true)"}
+{"time":"2024-10-30T18:32:58.894853784-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:58.894958475-04:00","level":"ERROR","msg":"runfiles: CreateRunFiles returned error: returned error 404 Not Found: {\"errors\":[{\"message\":\"run impossible_llm_reverse/cp23l3oa not found during createRunFiles\",\"path\":[\"createRunFiles\"]}],\"data\":{\"createRunFiles\":null}}"}
+{"time":"2024-10-30T18:32:59.007072623-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:59.007367715-04:00","level":"ERROR","msg":"sender: failed to save job artifact: ArtifactSaver.createManifest: returned error 404 Not Found: {\"errors\":[{\"message\":\"failed to find run impossible_llm_reverse/cp23l3oa\",\"path\":[\"createArtifactManifest\"]}],\"data\":{\"createArtifactManifest\":null}}"}
+{"time":"2024-10-30T18:32:59.058985355-04:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-10-30T18:32:59.109609116-04:00","level":"ERROR","msg":"HTTP error","status":404,"method":"POST","url":"https://api.wandb.ai/graphql"}
+{"time":"2024-10-30T18:32:59.109673806-04:00","level":"ERROR","msg":"runfiles: CreateRunFiles returned error: returned error 404 Not Found: {\"errors\":[{\"message\":\"run impossible_llm_reverse/cp23l3oa not found during createRunFiles\",\"path\":[\"createRunFiles\"]}],\"data\":{\"createRunFiles\":null}}"}
+{"time":"2024-10-30T18:33:00.072305595-04:00","level":"INFO","msg":"stream: closing","id":"cp23l3oa"}
+{"time":"2024-10-30T18:33:00.072351545-04:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"cp23l3oa"}}
+{"time":"2024-10-30T18:33:00.072374975-04:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"cp23l3oa"}}
+{"time":"2024-10-30T18:33:00.072417396-04:00","level":"INFO","msg":"sender: closed","stream_id":"cp23l3oa"}
+{"time":"2024-10-30T18:33:00.072540587-04:00","level":"INFO","msg":"stream: closed","id":"cp23l3oa"}
diff --git a/wandb/run-20241030_112852-cp23l3oa/logs/debug.log b/wandb/run-20241030_112852-cp23l3oa/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d3ed7e1928a98e3ba7941b54136d531fe7a22361
--- /dev/null
+++ b/wandb/run-20241030_112852-cp23l3oa/logs/debug.log
@@ -0,0 +1,33 @@
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Configure stats pid to 367768
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-30 11:28:52,880 INFO    MainThread:367768 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-30 11:28:52,881 INFO    MainThread:367768 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_112852-cp23l3oa/logs/debug.log
+2024-10-30 11:28:52,881 INFO    MainThread:367768 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241030_112852-cp23l3oa/logs/debug-internal.log
+2024-10-30 11:28:52,881 INFO    MainThread:367768 [wandb_init.py:init():621] calling init triggers
+2024-10-30 11:28:52,881 INFO    MainThread:367768 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-30 11:28:52,881 INFO    MainThread:367768 [wandb_init.py:init():671] starting backend
+2024-10-30 11:28:52,881 INFO    MainThread:367768 [wandb_init.py:init():675] sending inform_init request
+2024-10-30 11:28:52,883 INFO    MainThread:367768 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-30 11:28:52,883 INFO    MainThread:367768 [wandb_init.py:init():688] backend started and connected
+2024-10-30 11:28:52,886 INFO    MainThread:367768 [wandb_init.py:init():783] updated telemetry
+2024-10-30 11:28:52,903 INFO    MainThread:367768 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-30 11:28:53,164 INFO    MainThread:367768 [wandb_init.py:init():867] starting run threads in backend
+2024-10-30 11:28:53,261 INFO    MainThread:367768 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-30 11:28:53,261 INFO    MainThread:367768 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-30 11:28:53,261 INFO    MainThread:367768 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-30 11:28:53,261 INFO    MainThread:367768 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-30 11:28:53,263 INFO    MainThread:367768 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-30 11:28:53,263 INFO    MainThread:367768 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_control', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0}
+2024-10-30 18:00:35,945 INFO    MainThread:367768 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/impossible_llm_reverse/cp23l3oa
+2024-10-30 18:00:35,955 INFO    MainThread:367768 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-10-30 18:00:35,956 INFO    MainThread:367768 [wandb_run.py:_restore():2408] restore
+2024-10-30 18:00:35,956 INFO    MainThread:367768 [wandb_run.py:_restore():2414] restore done
+2024-10-30 18:33:00,063 INFO    MainThread:367768 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-10-30 18:33:00,063 INFO    MainThread:367768 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-10-30 18:33:00,071 INFO    MainThread:367768 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241030_222932-48sfxfqm/run-48sfxfqm.wandb b/wandb/run-20241030_222932-48sfxfqm/run-48sfxfqm.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..df39eb52a25b40050055beb7950bd8c3ad6b1779
--- /dev/null
+++ b/wandb/run-20241030_222932-48sfxfqm/run-48sfxfqm.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd185388f0883faff5073a5f7e058491253bbef5001577d57dbe9b503f098ca9
+size 1015808
diff --git a/wandb/run-20241030_222932-9ywqkbmn/run-9ywqkbmn.wandb b/wandb/run-20241030_222932-9ywqkbmn/run-9ywqkbmn.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..4fced650c579cf1b544c91b7875604b0a8968eb0
--- /dev/null
+++ b/wandb/run-20241030_222932-9ywqkbmn/run-9ywqkbmn.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9d675e24883dca5f9a554545967630053685dd16ec65eedb0e3a3a04b581aad
+size 1048576
diff --git a/wandb/run-20241031_001055-5lnonlg3/files/output.log b/wandb/run-20241031_001055-5lnonlg3/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..f472c2cfbd2bb35dc2277a6c80a04a3f4725f851
--- /dev/null
+++ b/wandb/run-20241031_001055-5lnonlg3/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.90s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 00:11:03,904] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 00:11:12,792] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 5.37715482711792 seconds
diff --git a/wandb/run-20241031_001055-5lnonlg3/files/requirements.txt b/wandb/run-20241031_001055-5lnonlg3/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241031_001055-5lnonlg3/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241031_001055-5lnonlg3/files/wandb-metadata.json b/wandb/run-20241031_001055-5lnonlg3/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..10983b625fba3fbee7c27aca95768e3adcbafdd7
--- /dev/null
+++ b/wandb/run-20241031_001055-5lnonlg3/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T04:10:55.992950Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1728856920064"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_001055-5lnonlg3/logs/debug-internal.log b/wandb/run-20241031_001055-5lnonlg3/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..0eec3d25efd060a672bfd675ab4d31956cbb87a7
--- /dev/null
+++ b/wandb/run-20241031_001055-5lnonlg3/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-31T00:10:55.995246959-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T00:10:55.995268499-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_001055-5lnonlg3/logs/debug-core.log"}
+{"time":"2024-10-31T00:10:56.102481822-04:00","level":"INFO","msg":"created new stream","id":"5lnonlg3"}
+{"time":"2024-10-31T00:10:56.102510232-04:00","level":"INFO","msg":"stream: started","id":"5lnonlg3"}
+{"time":"2024-10-31T00:10:56.102564502-04:00","level":"INFO","msg":"sender: started","stream_id":"5lnonlg3"}
+{"time":"2024-10-31T00:10:56.102549732-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"5lnonlg3"}}
+{"time":"2024-10-31T00:10:56.102573972-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"5lnonlg3"}}
+{"time":"2024-10-31T00:10:56.319490029-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_001055-5lnonlg3/logs/debug.log b/wandb/run-20241031_001055-5lnonlg3/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..ce08225829154cf55e0ac4e41ff4355da8450c5d
--- /dev/null
+++ b/wandb/run-20241031_001055-5lnonlg3/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Configure stats pid to 479387
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_001055-5lnonlg3/logs/debug.log
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_001055-5lnonlg3/logs/debug-internal.log
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_init.py:init():621] calling init triggers
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_init.py:init():671] starting backend
+2024-10-31 00:10:55,990 INFO    MainThread:479387 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 00:10:55,992 INFO    MainThread:479387 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 00:10:55,992 INFO    MainThread:479387 [wandb_init.py:init():688] backend started and connected
+2024-10-31 00:10:55,995 INFO    MainThread:479387 [wandb_init.py:init():783] updated telemetry
+2024-10-31 00:10:56,025 INFO    MainThread:479387 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 00:10:56,315 INFO    MainThread:479387 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 00:10:56,418 INFO    MainThread:479387 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 00:10:56,418 INFO    MainThread:479387 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 00:10:56,418 INFO    MainThread:479387 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 00:10:56,418 INFO    MainThread:479387 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 00:10:56,419 INFO    MainThread:479387 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 00:10:56,420 INFO    MainThread:479387 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 1e-05}
diff --git a/wandb/run-20241031_114700-xnsmnnpa/files/output.log b/wandb/run-20241031_114700-xnsmnnpa/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..a7858643e961ee6cb6048c80f9662d1a18643da9
--- /dev/null
+++ b/wandb/run-20241031_114700-xnsmnnpa/files/output.log
@@ -0,0 +1,41 @@
+Downloading shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:32<00:00, 76.41s/it]
+Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.40s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-10-31 11:49:40,285] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-10-31 11:49:48,756] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.9282543659210205 seconds
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 220, in <module>
+    trainer.train()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2052, in train
+    return inner_training_loop(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 2388, in _inner_training_loop
+    tr_loss_step = self.training_step(model, inputs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/trainer.py", line 3518, in training_step
+    self.accelerator.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/accelerator.py", line 2238, in backward
+    self.deepspeed_engine_wrapped.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/accelerate/utils/deepspeed.py", line 186, in backward
+    self.engine.backward(loss, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/utils/nvtx.py", line 18, in wrapped_fn
+    ret_val = func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 2020, in backward
+    self.optimizer.backward(loss, retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 2063, in backward
+    self.loss_scaler.backward(loss.float(), retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/deepspeed/runtime/fp16/loss_scaler.py", line 63, in backward
+    scaled_loss.backward(retain_graph=retain_graph)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/_tensor.py", line 487, in backward
+    torch.autograd.backward(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/torch/autograd/__init__.py", line 200, in backward
+    Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+KeyboardInterrupt
+Error in atexit._run_exitfuncs:
diff --git a/wandb/run-20241031_114700-xnsmnnpa/files/requirements.txt b/wandb/run-20241031_114700-xnsmnnpa/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241031_114700-xnsmnnpa/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241031_114700-xnsmnnpa/files/wandb-metadata.json b/wandb/run-20241031_114700-xnsmnnpa/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..8b5a747b267f16a71699c023f7a3a7cf94911932
--- /dev/null
+++ b/wandb/run-20241031_114700-xnsmnnpa/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-10-31T15:47:00.194426Z",
+  "args":  [
+    "--perturbation",
+    "reverse_full",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "6",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1753158594560"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241031_114700-xnsmnnpa/logs/debug-internal.log b/wandb/run-20241031_114700-xnsmnnpa/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..37df8783b05fd7a70a1e62917271ed5db2d66616
--- /dev/null
+++ b/wandb/run-20241031_114700-xnsmnnpa/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-10-31T11:47:00.198821275-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-10-31T11:47:00.198840765-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_114700-xnsmnnpa/logs/debug-core.log"}
+{"time":"2024-10-31T11:47:00.310215718-04:00","level":"INFO","msg":"created new stream","id":"xnsmnnpa"}
+{"time":"2024-10-31T11:47:00.310244338-04:00","level":"INFO","msg":"stream: started","id":"xnsmnnpa"}
+{"time":"2024-10-31T11:47:00.310292438-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"xnsmnnpa"}}
+{"time":"2024-10-31T11:47:00.3105868-04:00","level":"INFO","msg":"sender: started","stream_id":"xnsmnnpa"}
+{"time":"2024-10-31T11:47:00.31060146-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"xnsmnnpa"}}
+{"time":"2024-10-31T11:47:00.515719225-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241031_114700-xnsmnnpa/logs/debug.log b/wandb/run-20241031_114700-xnsmnnpa/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..d0cb6559d440fc4c25815517217640a2fcf7c904
--- /dev/null
+++ b/wandb/run-20241031_114700-xnsmnnpa/logs/debug.log
@@ -0,0 +1,26 @@
+2024-10-31 11:47:00,191 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Configure stats pid to 554146
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_114700-xnsmnnpa/logs/debug.log
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241031_114700-xnsmnnpa/logs/debug-internal.log
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_init.py:init():621] calling init triggers
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_init.py:init():671] starting backend
+2024-10-31 11:47:00,192 INFO    MainThread:554146 [wandb_init.py:init():675] sending inform_init request
+2024-10-31 11:47:00,193 INFO    MainThread:554146 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-10-31 11:47:00,194 INFO    MainThread:554146 [wandb_init.py:init():688] backend started and connected
+2024-10-31 11:47:00,197 INFO    MainThread:554146 [wandb_init.py:init():783] updated telemetry
+2024-10-31 11:47:00,223 INFO    MainThread:554146 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-10-31 11:47:00,511 INFO    MainThread:554146 [wandb_init.py:init():867] starting run threads in backend
+2024-10-31 11:47:00,638 INFO    MainThread:554146 [wandb_run.py:_console_start():2463] atexit reg
+2024-10-31 11:47:00,638 INFO    MainThread:554146 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-10-31 11:47:00,638 INFO    MainThread:554146 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-10-31 11:47:00,638 INFO    MainThread:554146 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-10-31 11:47:00,640 INFO    MainThread:554146 [wandb_init.py:init():911] run started, returning control to user process
+2024-10-31 11:47:00,640 INFO    MainThread:554146 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'reverse_full', 'train_set': '10M', 'batch_size': 3, 'epoch': 6, 'seed': 0, 'lr': 0.0001}
diff --git a/wandb/run-20241101_201707-39c9svl8/files/output.log b/wandb/run-20241101_201707-39c9svl8/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5b782e2e7409e7e548548e75ac6ef7d9097805ae
--- /dev/null
+++ b/wandb/run-20241101_201707-39c9svl8/files/output.log
@@ -0,0 +1,13 @@
+Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.44s/it]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 600
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-01 20:17:16,614] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-01 20:17:25,868] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 4.978870391845703 seconds
diff --git a/wandb/run-20241101_201707-39c9svl8/files/requirements.txt b/wandb/run-20241101_201707-39c9svl8/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_201707-39c9svl8/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_201707-39c9svl8/files/wandb-metadata.json b/wandb/run-20241101_201707-39c9svl8/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..f319eb914214409b5d870fa6e4499781ff262e30
--- /dev/null
+++ b/wandb/run-20241101_201707-39c9svl8/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:17:07.965008Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754802659328"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_201707-39c9svl8/logs/debug-internal.log b/wandb/run-20241101_201707-39c9svl8/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..bcb306d93f893803bc523e2250a83fab70daa9cd
--- /dev/null
+++ b/wandb/run-20241101_201707-39c9svl8/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2024-11-01T20:17:07.966195773-04:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-01T20:17:07.966207283-04:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201707-39c9svl8/logs/debug-core.log"}
+{"time":"2024-11-01T20:17:08.072934618-04:00","level":"INFO","msg":"created new stream","id":"39c9svl8"}
+{"time":"2024-11-01T20:17:08.072999428-04:00","level":"INFO","msg":"stream: started","id":"39c9svl8"}
+{"time":"2024-11-01T20:17:08.073061239-04:00","level":"INFO","msg":"sender: started","stream_id":"39c9svl8"}
+{"time":"2024-11-01T20:17:08.073039518-04:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"39c9svl8"}}
+{"time":"2024-11-01T20:17:08.073058889-04:00","level":"INFO","msg":"handler: started","stream_id":{"value":"39c9svl8"}}
+{"time":"2024-11-01T20:17:09.97487612-04:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/wandb/run-20241101_201707-39c9svl8/logs/debug.log b/wandb/run-20241101_201707-39c9svl8/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..a28b5d33f76023d316f760cb67e8129d8734a4da
--- /dev/null
+++ b/wandb/run-20241101_201707-39c9svl8/logs/debug.log
@@ -0,0 +1,26 @@
+2024-11-01 20:17:07,962 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-01 20:17:07,962 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Configure stats pid to 875619
+2024-11-01 20:17:07,962 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201707-39c9svl8/logs/debug.log
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241101_201707-39c9svl8/logs/debug-internal.log
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_init.py:init():621] calling init triggers
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_init.py:init():671] starting backend
+2024-11-01 20:17:07,963 INFO    MainThread:875619 [wandb_init.py:init():675] sending inform_init request
+2024-11-01 20:17:07,964 INFO    MainThread:875619 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-01 20:17:07,964 INFO    MainThread:875619 [wandb_init.py:init():688] backend started and connected
+2024-11-01 20:17:07,967 INFO    MainThread:875619 [wandb_init.py:init():783] updated telemetry
+2024-11-01 20:17:07,988 INFO    MainThread:875619 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-01 20:17:09,971 INFO    MainThread:875619 [wandb_init.py:init():867] starting run threads in backend
+2024-11-01 20:17:10,063 INFO    MainThread:875619 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-01 20:17:10,063 INFO    MainThread:875619 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-01 20:17:10,063 INFO    MainThread:875619 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-01 20:17:10,063 INFO    MainThread:875619 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-01 20:17:10,065 INFO    MainThread:875619 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-01 20:17:10,065 INFO    MainThread:875619 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_nondeterministic', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
diff --git a/wandb/run-20241101_201707-39c9svl8/run-39c9svl8.wandb b/wandb/run-20241101_201707-39c9svl8/run-39c9svl8.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..c5154cd1e1bef39fcaf20ce86df2e6e890d51001
Binary files /dev/null and b/wandb/run-20241101_201707-39c9svl8/run-39c9svl8.wandb differ
diff --git a/wandb/run-20241101_201910-b6bwhpyd/files/requirements.txt b/wandb/run-20241101_201910-b6bwhpyd/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241101_201910-b6bwhpyd/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241101_201910-b6bwhpyd/files/wandb-metadata.json b/wandb/run-20241101_201910-b6bwhpyd/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..7bfd51200e92000d267adc6c505ed6935e415e35
--- /dev/null
+++ b/wandb/run-20241101_201910-b6bwhpyd/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-02T00:19:10.248432Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_nondeterministic",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1754803580928"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241101_201910-b6bwhpyd/run-b6bwhpyd.wandb b/wandb/run-20241101_201910-b6bwhpyd/run-b6bwhpyd.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/wandb/run-20241105_160059-7almhy5u/files/config.yaml b/wandb/run-20241105_160059-7almhy5u/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ba0e0eb5aa81d7186d91b3c8f342ad5574a4c100
--- /dev/null
+++ b/wandb/run-20241105_160059-7almhy5u/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_deterministic21
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241105_160059-7almhy5u/files/output.log b/wandb/run-20241105_160059-7almhy5u/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..4889313e9210ddc0bf0e53a0b8deb84b34f76597
--- /dev/null
+++ b/wandb/run-20241105_160059-7almhy5u/files/output.log
@@ -0,0 +1,19 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/pathlib.py", line 1323, in mkdir
+    self._accessor.mkdir(self, mode)
+FileNotFoundError: [Errno 2] No such file or directory: '/home/chunhui/.cache/huggingface/datasets/babylm_dataset_test/babylm_shuffle_deterministic21_10M_seed0/0.0.0'
+
+During handling of the above exception, another exception occurred:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 165, in <module>
+    dataset = load_dataset('babylm_dataset_test.py', name=dataset_name, trust_remote_code=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/load.py", line 2096, in load_dataset
+    builder_instance.download_and_prepare(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/datasets/builder.py", line 855, in download_and_prepare
+    Path(self._output_dir).parent.mkdir(parents=True, exist_ok=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/pathlib.py", line 1327, in mkdir
+    self.parent.mkdir(parents=True, exist_ok=True)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/pathlib.py", line 1323, in mkdir
+    self._accessor.mkdir(self, mode)
+OSError: [Errno 28] No space left on device: '/home/chunhui/.cache/huggingface/datasets/babylm_dataset_test/babylm_shuffle_deterministic21_10M_seed0'
diff --git a/wandb/run-20241105_160059-7almhy5u/files/requirements.txt b/wandb/run-20241105_160059-7almhy5u/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241105_160059-7almhy5u/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241105_160059-7almhy5u/files/wandb-metadata.json b/wandb/run-20241105_160059-7almhy5u/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..64e882e90e79970e2691eb8491396b02d1c01899
--- /dev/null
+++ b/wandb/run-20241105_160059-7almhy5u/files/wandb-metadata.json
@@ -0,0 +1,44 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-05T21:00:59.303394Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_deterministic21",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1792550322176"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  }
+}
\ No newline at end of file
diff --git a/wandb/run-20241105_160059-7almhy5u/files/wandb-summary.json b/wandb/run-20241105_160059-7almhy5u/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..a59211b910c7b68e6827eb6c887d30d98244727c
--- /dev/null
+++ b/wandb/run-20241105_160059-7almhy5u/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":5}}
\ No newline at end of file
diff --git a/wandb/run-20241105_160059-7almhy5u/logs/debug-internal.log b/wandb/run-20241105_160059-7almhy5u/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..6ac92ac7d0ef2e736a87870f20cd7a46f8c929e3
--- /dev/null
+++ b/wandb/run-20241105_160059-7almhy5u/logs/debug-internal.log
@@ -0,0 +1,17 @@
+{"time":"2024-11-05T16:00:59.306000637-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-05T16:00:59.306017137-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_160059-7almhy5u/logs/debug-core.log"}
+{"time":"2024-11-05T16:01:04.333616785-05:00","level":"INFO","msg":"created new stream","id":"7almhy5u"}
+{"time":"2024-11-05T16:01:04.333748536-05:00","level":"INFO","msg":"stream: started","id":"7almhy5u"}
+{"time":"2024-11-05T16:01:04.333787076-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"7almhy5u"}}
+{"time":"2024-11-05T16:01:04.333875716-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"7almhy5u"}}
+{"time":"2024-11-05T16:01:04.334271108-05:00","level":"INFO","msg":"sender: started","stream_id":"7almhy5u"}
+{"time":"2024-11-05T16:01:04.548552727-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-05T16:01:04.655616801-05:00","level":"INFO","msg":"stream: closing","id":"7almhy5u"}
+{"time":"2024-11-05T16:01:04.655650041-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-05T16:01:04.655684151-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-05T16:01:04.922819935-05:00","level":"ERROR","msg":"sender: sendDefer: failed to build job artifact","error":"failed to write data to file: write /tmp/tmpfile-2450422308: no space left on device"}
+{"time":"2024-11-05T16:01:05.17053313-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-05T16:01:05.515906204-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"7almhy5u"}}
+{"time":"2024-11-05T16:01:05.515951064-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"7almhy5u"}}
+{"time":"2024-11-05T16:01:05.515969004-05:00","level":"INFO","msg":"sender: closed","stream_id":"7almhy5u"}
+{"time":"2024-11-05T16:01:05.516029494-05:00","level":"INFO","msg":"stream: closed","id":"7almhy5u"}
diff --git a/wandb/run-20241105_160059-7almhy5u/logs/debug.log b/wandb/run-20241105_160059-7almhy5u/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..785d326bba8bdbe2324549a5b7421960f1f13442
--- /dev/null
+++ b/wandb/run-20241105_160059-7almhy5u/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Configure stats pid to 1769881
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_160059-7almhy5u/logs/debug.log
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241105_160059-7almhy5u/logs/debug-internal.log
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_init.py:init():621] calling init triggers
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_init.py:init():671] starting backend
+2024-11-05 16:00:59,301 INFO    MainThread:1769881 [wandb_init.py:init():675] sending inform_init request
+2024-11-05 16:00:59,302 INFO    MainThread:1769881 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-05 16:00:59,303 INFO    MainThread:1769881 [wandb_init.py:init():688] backend started and connected
+2024-11-05 16:00:59,306 INFO    MainThread:1769881 [wandb_init.py:init():783] updated telemetry
+2024-11-05 16:00:59,334 INFO    MainThread:1769881 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-05 16:01:04,545 INFO    MainThread:1769881 [wandb_init.py:init():867] starting run threads in backend
+2024-11-05 16:01:04,631 INFO    MainThread:1769881 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-05 16:01:04,631 INFO    MainThread:1769881 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-05 16:01:04,632 INFO    MainThread:1769881 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-05 16:01:04,632 INFO    MainThread:1769881 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-05 16:01:04,633 INFO    MainThread:1769881 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-05 16:01:04,633 INFO    MainThread:1769881 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_deterministic21', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-05 16:01:04,655 WARNING MsgRouterThr:1769881 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241105_160059-7almhy5u/run-7almhy5u.wandb b/wandb/run-20241105_160059-7almhy5u/run-7almhy5u.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..b58764d7e2c7ce60133008d1bf2059526d90d03a
Binary files /dev/null and b/wandb/run-20241105_160059-7almhy5u/run-7almhy5u.wandb differ
diff --git a/wandb/run-20241106_233338-ywv3za8y/files/config.yaml b/wandb/run-20241106_233338-ywv3za8y/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..45c9885a80c6c6551af0939982b4765da8541cf4
--- /dev/null
+++ b/wandb/run-20241106_233338-ywv3za8y/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_233338-ywv3za8y/files/output.log b/wandb/run-20241106_233338-ywv3za8y/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..4a18b463e0ea82a59b213cd6d4d164b4bf10fc32
--- /dev/null
+++ b/wandb/run-20241106_233338-ywv3za8y/files/output.log
@@ -0,0 +1,60 @@
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 406, in hf_raise_for_status
+    response.raise_for_status()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/requests/models.py", line 1024, in raise_for_status
+    raise HTTPError(http_error_msg, response=self)
+requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url: https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1339, in _hf_hub_download_to_cache_dir
+    _raise_on_head_call_error(head_call_error, force_download, local_files_only)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1854, in _raise_on_head_call_error
+    raise head_call_error
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1746, in _get_metadata_or_catch_error
+    metadata = get_hf_file_metadata(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1666, in get_hf_file_metadata
+    r = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 364, in _request_wrapper
+    response = _request_wrapper(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 388, in _request_wrapper
+    hf_raise_for_status(response)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_http.py", line 423, in hf_raise_for_status
+    raise _format(GatedRepoError, message, response) from e
+huggingface_hub.errors.GatedRepoError: 401 Client Error. (Request ID: Root=1-672c4325-5d31d187010cccf579748ac5;7e11ffe4-560c-47e3-87d5-15753e2ebba7)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
+    config, kwargs = AutoConfig.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/configuration_auto.py", line 1006, in from_pretrained
+    config_dict, unused_kwargs = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 567, in get_config_dict
+    config_dict, kwargs = cls._get_config_dict(pretrained_model_name_or_path, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/configuration_utils.py", line 626, in _get_config_dict
+    resolved_config_file = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 421, in cached_file
+    raise EnvironmentError(
+OSError: You are trying to access a gated repo.
+Make sure to have access to it at https://huggingface.co/meta-llama/Llama-3.2-3B.
+401 Client Error. (Request ID: Root=1-672c4325-5d31d187010cccf579748ac5;7e11ffe4-560c-47e3-87d5-15753e2ebba7)
+
+Cannot access gated repo for url https://huggingface.co/meta-llama/Llama-3.2-3B/resolve/main/config.json.
+Access to model meta-llama/Llama-3.2-3B is restricted. You must have access to it and be authenticated to access it. Please log in.
diff --git a/wandb/run-20241106_233338-ywv3za8y/files/wandb-metadata.json b/wandb/run-20241106_233338-ywv3za8y/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..dc2ce2b12cd5f640616a8067654b380f7acbd444
--- /dev/null
+++ b/wandb/run-20241106_233338-ywv3za8y/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T04:33:38.761993Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1775601975296"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_233338-ywv3za8y/files/wandb-summary.json b/wandb/run-20241106_233338-ywv3za8y/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..1d52051e315a7a21a9d9e5a40a517408bb086162
--- /dev/null
+++ b/wandb/run-20241106_233338-ywv3za8y/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":2}}
\ No newline at end of file
diff --git a/wandb/run-20241106_233338-ywv3za8y/logs/debug-internal.log b/wandb/run-20241106_233338-ywv3za8y/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..4f761ff52a53e0569ccea33be4149e548e5dfa09
--- /dev/null
+++ b/wandb/run-20241106_233338-ywv3za8y/logs/debug-internal.log
@@ -0,0 +1,16 @@
+{"time":"2024-11-06T23:33:38.764086123-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T23:33:38.764101854-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-ywv3za8y/logs/debug-core.log"}
+{"time":"2024-11-06T23:33:38.872777949-05:00","level":"INFO","msg":"created new stream","id":"ywv3za8y"}
+{"time":"2024-11-06T23:33:38.87284902-05:00","level":"INFO","msg":"stream: started","id":"ywv3za8y"}
+{"time":"2024-11-06T23:33:38.873123632-05:00","level":"INFO","msg":"sender: started","stream_id":"ywv3za8y"}
+{"time":"2024-11-06T23:33:38.87288606-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"ywv3za8y"}}
+{"time":"2024-11-06T23:33:38.87288975-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"ywv3za8y"}}
+{"time":"2024-11-06T23:33:39.140251234-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T23:33:41.560965288-05:00","level":"INFO","msg":"stream: closing","id":"ywv3za8y"}
+{"time":"2024-11-06T23:33:41.561000478-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T23:33:41.561556363-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-06T23:33:41.933328765-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-06T23:33:42.087530335-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"ywv3za8y"}}
+{"time":"2024-11-06T23:33:42.087674866-05:00","level":"INFO","msg":"sender: closed","stream_id":"ywv3za8y"}
+{"time":"2024-11-06T23:33:42.087674896-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"ywv3za8y"}}
+{"time":"2024-11-06T23:33:42.088008119-05:00","level":"INFO","msg":"stream: closed","id":"ywv3za8y"}
diff --git a/wandb/run-20241106_233338-ywv3za8y/logs/debug.log b/wandb/run-20241106_233338-ywv3za8y/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..25d0e41b90cf3971e79861ea35d60a0704b5cc46
--- /dev/null
+++ b/wandb/run-20241106_233338-ywv3za8y/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Configure stats pid to 1995338
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 23:33:38,759 INFO    MainThread:1995338 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-ywv3za8y/logs/debug.log
+2024-11-06 23:33:38,760 INFO    MainThread:1995338 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_233338-ywv3za8y/logs/debug-internal.log
+2024-11-06 23:33:38,760 INFO    MainThread:1995338 [wandb_init.py:init():621] calling init triggers
+2024-11-06 23:33:38,760 INFO    MainThread:1995338 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 23:33:38,760 INFO    MainThread:1995338 [wandb_init.py:init():671] starting backend
+2024-11-06 23:33:38,760 INFO    MainThread:1995338 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 23:33:38,761 INFO    MainThread:1995338 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 23:33:38,761 INFO    MainThread:1995338 [wandb_init.py:init():688] backend started and connected
+2024-11-06 23:33:38,764 INFO    MainThread:1995338 [wandb_init.py:init():783] updated telemetry
+2024-11-06 23:33:38,785 INFO    MainThread:1995338 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 23:33:39,135 INFO    MainThread:1995338 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 23:33:40,560 INFO    MainThread:1995338 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 23:33:40,561 INFO    MainThread:1995338 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 23:33:40,561 INFO    MainThread:1995338 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 23:33:40,561 INFO    MainThread:1995338 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 23:33:40,600 INFO    MainThread:1995338 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 23:33:40,601 INFO    MainThread:1995338 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 23:33:41,561 WARNING MsgRouterThr:1995338 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_233338-ywv3za8y/run-ywv3za8y.wandb b/wandb/run-20241106_233338-ywv3za8y/run-ywv3za8y.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..c2b3cf3477ec520755a0bba2ff016e07f8d38a5e
Binary files /dev/null and b/wandb/run-20241106_233338-ywv3za8y/run-ywv3za8y.wandb differ
diff --git a/wandb/run-20241106_234111-o0wvtr5a/files/config.yaml b/wandb/run-20241106_234111-o0wvtr5a/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..45c9885a80c6c6551af0939982b4765da8541cf4
--- /dev/null
+++ b/wandb/run-20241106_234111-o0wvtr5a/files/config.yaml
@@ -0,0 +1,49 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241106_234111-o0wvtr5a/files/output.log b/wandb/run-20241106_234111-o0wvtr5a/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..d540393b804d6769b35e81ed7f7282dbc0cdb2b6
--- /dev/null
+++ b/wandb/run-20241106_234111-o0wvtr5a/files/output.log
@@ -0,0 +1,43 @@
+Downloading shards:   0%|                                                                                                                                                                                                                                                                           | 0/2 [00:00<?, ?it/s]Exception ignored in: <generator object tqdm.__iter__ at 0x7f9a485d0cf0>
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1196, in __iter__
+    self.close()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1302, in close
+    self.display(pos=0)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 1495, in display
+    self.sp(self.__str__() if msg is None else msg)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 459, in print_status
+    fp_write('\r' + s + (' ' * max(last_len[0] - len_s, 0)))
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/std.py", line 452, in fp_write
+    fp.write(str(s))
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/tqdm/utils.py", line 196, in inner
+    return func(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/wandb/sdk/lib/redirect.py", line 645, in write
+    self._old_write(data)
+KeyboardInterrupt:
+Traceback (most recent call last):
+  File "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py", line 174, in <module>
+    model = AutoModelForCausalLM.from_pretrained(model_name,
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 564, in from_pretrained
+    return model_class.from_pretrained(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3769, in from_pretrained
+    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 1098, in get_checkpoint_shard_files
+    cached_filename = cached_file(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/utils/hub.py", line 403, in cached_file
+    resolved_file = hf_hub_download(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
+    return f(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
+    return fn(*args, **kwargs)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1232, in hf_hub_download
+    return _hf_hub_download_to_cache_dir(
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/file_download.py", line 1380, in _hf_hub_download_to_cache_dir
+    with WeakFileLock(lock_path):
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/contextlib.py", line 119, in __enter__
+    return next(self.gen)
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/huggingface_hub/utils/_fixes.py", line 98, in WeakFileLock
+    lock.acquire()
+  File "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/filelock/_api.py", line 225, in acquire
+    time.sleep(poll_interval)
+KeyboardInterrupt
diff --git a/wandb/run-20241106_234111-o0wvtr5a/files/requirements.txt b/wandb/run-20241106_234111-o0wvtr5a/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..95a931302e269cc9e4fa5b719b6511f176ee2416
--- /dev/null
+++ b/wandb/run-20241106_234111-o0wvtr5a/files/requirements.txt
@@ -0,0 +1,147 @@
+funcsigs==1.0.2
+sentry-sdk==2.17.0
+multiprocess==0.70.16
+numpy==1.26.2
+pluralizer==1.2.0
+debugpy==1.6.7
+nvidia-cudnn-cu11==8.5.0.96
+deepspeed==0.15.2
+data==0.4
+pandas==2.1.3
+tomli==2.0.1
+charset-normalizer==3.3.2
+attrs==24.2.0
+aiosignal==1.3.1
+fsspec==2023.10.0
+nvidia-cusparse-cu11==11.7.4.91
+zipp==3.12.0
+mypy-extensions==1.0.0
+datasets==3.0.1
+joblib==1.3.2
+hjson==3.1.0
+traitlets==5.7.1
+stack-data==0.6.0
+transformers==4.45.1
+sympy==1.11.1
+Pygments==2.15.0
+docker-pycreds==0.4.0
+dill==0.3.8
+wheel==0.44.0
+prompt-toolkit==3.0.30
+parso==0.8.3
+ipykernel==6.23.1
+pyarrow==17.0.0
+certifi==2023.11.17
+nvidia-cufft-cu11==10.9.0.58
+six==1.16.0
+pydantic==2.9.2
+click==8.1.7
+nest-asyncio==1.5.6
+gmpy2==2.1.0
+matplotlib==3.8.2
+scipy==1.11.4
+typing_extensions==4.12.2
+statsmodels==0.14.0
+huggingface-hub==0.25.0
+frozenlist==1.4.1
+gpustat==1.1.1
+nvidia-nvtx-cu11==11.7.91
+safetensors==0.4.5
+stanza==1.9.2
+decorator==5.1.1
+seaborn==0.13.0
+sentencepiece==0.2.0
+PyYAML==6.0.1
+black==24.8.0
+protobuf==4.25.1
+pickleshare==0.7.5
+peft==0.13.0
+triton==2.0.0
+nvidia-cuda-runtime-cu11==11.7.99
+Jinja2==3.1.2
+nvidia-cusolver-cu11==11.4.0.1
+executing==1.2.0
+jupyter_client==8.1.0
+pluggy==1.3.0
+cmake==3.30.3
+pytz==2023.3.post1
+aiohappyeyeballs==2.4.2
+kiwisolver==1.4.5
+py-cpuinfo==9.0.0
+Pillow==10.1.0
+ptyprocess==0.7.0
+importlib_resources==6.4.5
+GitPython==3.1.43
+importlib-metadata==6.0.0
+iniconfig==2.0.0
+scikit-learn==1.3.2
+exceptiongroup==1.1.0
+networkx==2.8.6
+accelerate==1.0.0
+nltk==3.8.1
+shutilwhich==1.1.0
+fonttools==4.45.1
+future==0.18.3
+aiohttp==3.10.6
+wcwidth==0.2.5
+idna==3.6
+filelock==3.12.2
+pathspec==0.12.1
+jupyter_core==5.1.0
+lit==18.1.8
+nvidia-curand-cu11==10.2.10.91
+nvidia-cublas-cu11==11.10.3.66
+nvidia-ml-py==12.560.30
+msgpack==1.1.0
+python-dateutil==2.8.2
+blessed==1.20.0
+packaging==23.0
+gitdb==4.0.11
+yarl==1.13.0
+emoji==2.8.0
+tzdata==2023.3
+cycler==0.12.1
+tornado==6.2
+backcall==0.2.0
+plotnine==0.12.4
+ninja==1.11.1.1
+latex==0.7.0
+wandb==0.18.5
+setproctitle==1.3.3
+threadpoolctl==3.2.0
+requests==2.32.3
+pyparsing==3.1.1
+smmap==5.0.1
+pyzmq==23.0.0
+async-timeout==4.0.3
+annotated-types==0.7.0
+matplotlib-inline==0.1.6
+latexcodec==1.0.0
+ipython==8.0.0
+patsy==0.5.3
+contourpy==1.2.0
+multidict==6.1.0
+mizani==0.9.3
+urllib3==2.1.0
+tokenizers==0.20.0
+MarkupSafe==2.1.2
+pip==24.2
+pexpect==4.8.0
+tqdm==4.66.5
+jedi==0.18.2
+pydantic_core==2.23.4
+tempdir==0.7.1
+mpmath==1.2.1
+setuptools==72.1.0
+pytest==7.4.3
+pure-eval==0.2.2
+psutil==5.9.1
+comm==0.1.2
+nvidia-cuda-cupti-cu11==11.7.101
+nvidia-cuda-nvrtc-cu11==11.7.99
+regex==2023.10.3
+platformdirs==2.5.2
+asttokens==2.2.1
+torch==2.0.0
+nvidia-nccl-cu11==2.14.3
+xxhash==3.5.0
diff --git a/wandb/run-20241106_234111-o0wvtr5a/files/wandb-metadata.json b/wandb/run-20241106_234111-o0wvtr5a/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..60e554ebbe0278a51c87831813727f0f1bd468ec
--- /dev/null
+++ b/wandb/run-20241106_234111-o0wvtr5a/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T04:41:11.315804Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1775602077696"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241106_234111-o0wvtr5a/files/wandb-summary.json b/wandb/run-20241106_234111-o0wvtr5a/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..e5843a4f191f9b0878242def41d39fc91864159c
--- /dev/null
+++ b/wandb/run-20241106_234111-o0wvtr5a/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":110}}
\ No newline at end of file
diff --git a/wandb/run-20241106_234111-o0wvtr5a/logs/debug-internal.log b/wandb/run-20241106_234111-o0wvtr5a/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..66a2cedba64ea70d27da782fc1a7b37be8dca876
--- /dev/null
+++ b/wandb/run-20241106_234111-o0wvtr5a/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2024-11-06T23:41:11.317526861-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-06T23:41:11.317536581-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_234111-o0wvtr5a/logs/debug-core.log"}
+{"time":"2024-11-06T23:41:11.424775849-05:00","level":"INFO","msg":"created new stream","id":"o0wvtr5a"}
+{"time":"2024-11-06T23:41:11.42485565-05:00","level":"INFO","msg":"stream: started","id":"o0wvtr5a"}
+{"time":"2024-11-06T23:41:11.424929421-05:00","level":"INFO","msg":"sender: started","stream_id":"o0wvtr5a"}
+{"time":"2024-11-06T23:41:11.42488122-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"o0wvtr5a"}}
+{"time":"2024-11-06T23:41:11.424985471-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"o0wvtr5a"}}
+{"time":"2024-11-06T23:41:11.585926494-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-06T23:43:02.304878807-05:00","level":"INFO","msg":"stream: closing","id":"o0wvtr5a"}
+{"time":"2024-11-06T23:43:02.304906878-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-06T23:43:02.30522712-05:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/wandb/run-20241106_234111-o0wvtr5a/logs/debug.log b/wandb/run-20241106_234111-o0wvtr5a/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..60ea25cc7082561f9357cf32a52a83cd3348a734
--- /dev/null
+++ b/wandb/run-20241106_234111-o0wvtr5a/logs/debug.log
@@ -0,0 +1,27 @@
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Configure stats pid to 1997393
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_234111-o0wvtr5a/logs/debug.log
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241106_234111-o0wvtr5a/logs/debug-internal.log
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_init.py:init():621] calling init triggers
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_init.py:init():671] starting backend
+2024-11-06 23:41:11,314 INFO    MainThread:1997393 [wandb_init.py:init():675] sending inform_init request
+2024-11-06 23:41:11,315 INFO    MainThread:1997393 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-06 23:41:11,315 INFO    MainThread:1997393 [wandb_init.py:init():688] backend started and connected
+2024-11-06 23:41:11,318 INFO    MainThread:1997393 [wandb_init.py:init():783] updated telemetry
+2024-11-06 23:41:11,337 INFO    MainThread:1997393 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-06 23:41:11,582 INFO    MainThread:1997393 [wandb_init.py:init():867] starting run threads in backend
+2024-11-06 23:41:11,672 INFO    MainThread:1997393 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-06 23:41:11,672 INFO    MainThread:1997393 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-06 23:41:11,672 INFO    MainThread:1997393 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-06 23:41:11,672 INFO    MainThread:1997393 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-06 23:41:11,673 INFO    MainThread:1997393 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-06 23:41:11,673 INFO    MainThread:1997393 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-06 23:43:02,304 WARNING MsgRouterThr:1997393 [router.py:message_loop():77] message_loop has been closed
diff --git a/wandb/run-20241106_234111-o0wvtr5a/run-o0wvtr5a.wandb b/wandb/run-20241106_234111-o0wvtr5a/run-o0wvtr5a.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..661cc66003bc588dba1e8bf3b1813346069bfa6c
Binary files /dev/null and b/wandb/run-20241106_234111-o0wvtr5a/run-o0wvtr5a.wandb differ
diff --git a/wandb/run-20241107_160909-mb6fm06y/files/config.yaml b/wandb/run-20241107_160909-mb6fm06y/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..96b12b207e28eaec5c0b633b6174448a8532a549
--- /dev/null
+++ b/wandb/run-20241107_160909-mb6fm06y/files/config.yaml
@@ -0,0 +1,50 @@
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m: []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 13
+                - 23
+                - 55
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "12": 0.18.5
+            "13": linux-x86_64
+batch_size:
+    value: 3
+epoch:
+    value: 3
+lr:
+    value: 5e-06
+perturbation:
+    value: shuffle_even_odd
+seed:
+    value: 0
+train_set:
+    value: 10M
diff --git a/wandb/run-20241107_160909-mb6fm06y/files/output.log b/wandb/run-20241107_160909-mb6fm06y/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..5be01914192ac4a2f8958b01f74ca475a76b59b9
--- /dev/null
+++ b/wandb/run-20241107_160909-mb6fm06y/files/output.log
@@ -0,0 +1,16 @@
+Downloading shards: 100%|████████████████████████████████████████| 2/2 [02:32<00:00, 76.14s/it]
+Loading checkpoint shards: 100%|█████████████████████████████████| 2/2 [00:05<00:00,  2.72s/it]
+generation_config.json: 100%|█████████████████████████████████| 185/185 [00:00<00:00, 35.6kB/s]
+Map: 100%|███████████████████████████████████████| 17013/17013 [00:51<00:00, 330.70 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-07 16:12:41,902] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-07 16:12:52,774] [INFO] [comm.py:652:init_distributed] cdb=None
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 6.346115827560425 seconds
diff --git a/wandb/run-20241107_160909-mb6fm06y/files/wandb-metadata.json b/wandb/run-20241107_160909-mb6fm06y/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..30df5854e562d363d3531fa1bd35eade66cbf693
--- /dev/null
+++ b/wandb/run-20241107_160909-mb6fm06y/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-07T21:09:09.984695Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py",
+  "codePath":  "train/train_deep_wandb.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_deep_wandb.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1742796308480"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241107_160909-mb6fm06y/files/wandb-summary.json b/wandb/run-20241107_160909-mb6fm06y/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..eeb691803bee7cfbd9d8e2adf93c92d5d5f5718b
--- /dev/null
+++ b/wandb/run-20241107_160909-mb6fm06y/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":34215}}
\ No newline at end of file
diff --git a/wandb/run-20241107_160909-mb6fm06y/logs/debug-internal.log b/wandb/run-20241107_160909-mb6fm06y/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..6e8c9165925b842574325034ceea95f34138fd12
--- /dev/null
+++ b/wandb/run-20241107_160909-mb6fm06y/logs/debug-internal.log
@@ -0,0 +1,20 @@
+{"time":"2024-11-07T16:09:09.987083307-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-07T16:09:09.987098027-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160909-mb6fm06y/logs/debug-core.log"}
+{"time":"2024-11-07T16:09:10.096504767-05:00","level":"INFO","msg":"created new stream","id":"mb6fm06y"}
+{"time":"2024-11-07T16:09:10.096557207-05:00","level":"INFO","msg":"stream: started","id":"mb6fm06y"}
+{"time":"2024-11-07T16:09:10.096615618-05:00","level":"INFO","msg":"sender: started","stream_id":"mb6fm06y"}
+{"time":"2024-11-07T16:09:10.096600977-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"mb6fm06y"}}
+{"time":"2024-11-07T16:09:10.096601197-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"mb6fm06y"}}
+{"time":"2024-11-07T16:09:10.302832388-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-07T19:33:25.657931223-05:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/mb6fm06y/file_stream"}
+{"time":"2024-11-07T19:42:30.38306912-05:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/mb6fm06y/file_stream"}
+{"time":"2024-11-07T20:31:40.376976524-05:00","level":"INFO","msg":"api: retrying HTTP error","status":502,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/mb6fm06y/file_stream"}
+{"time":"2024-11-08T01:39:25.457922616-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-08T01:39:25.528094041-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-08T01:39:26.148874873-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-08T01:39:26.34288014-05:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2024-11-08T01:39:27.354908065-05:00","level":"INFO","msg":"stream: closing","id":"mb6fm06y"}
+{"time":"2024-11-08T01:39:27.354943005-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"mb6fm06y"}}
+{"time":"2024-11-08T01:39:27.354962835-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"mb6fm06y"}}
+{"time":"2024-11-08T01:39:27.355043595-05:00","level":"INFO","msg":"sender: closed","stream_id":"mb6fm06y"}
+{"time":"2024-11-08T01:39:27.355122756-05:00","level":"INFO","msg":"stream: closed","id":"mb6fm06y"}
diff --git a/wandb/run-20241107_160909-mb6fm06y/logs/debug.log b/wandb/run-20241107_160909-mb6fm06y/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..dad8f9b0257a3fe47dc6db4b24a9aa83ae1560b0
--- /dev/null
+++ b/wandb/run-20241107_160909-mb6fm06y/logs/debug.log
@@ -0,0 +1,33 @@
+2024-11-07 16:09:09,981 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-07 16:09:09,981 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Configure stats pid to 2097822
+2024-11-07 16:09:09,981 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-07 16:09:09,981 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-07 16:09:09,981 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-07 16:09:09,981 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_deep_wandb.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_deep_wandb.py'}
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160909-mb6fm06y/logs/debug.log
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241107_160909-mb6fm06y/logs/debug-internal.log
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_init.py:init():621] calling init triggers
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_init.py:init():671] starting backend
+2024-11-07 16:09:09,982 INFO    MainThread:2097822 [wandb_init.py:init():675] sending inform_init request
+2024-11-07 16:09:09,983 INFO    MainThread:2097822 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-07 16:09:09,984 INFO    MainThread:2097822 [wandb_init.py:init():688] backend started and connected
+2024-11-07 16:09:09,989 INFO    MainThread:2097822 [wandb_init.py:init():783] updated telemetry
+2024-11-07 16:09:10,020 INFO    MainThread:2097822 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-07 16:09:10,299 INFO    MainThread:2097822 [wandb_init.py:init():867] starting run threads in backend
+2024-11-07 16:09:10,392 INFO    MainThread:2097822 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-07 16:09:10,392 INFO    MainThread:2097822 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-07 16:09:10,392 INFO    MainThread:2097822 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-07 16:09:10,392 INFO    MainThread:2097822 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-07 16:09:10,394 INFO    MainThread:2097822 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-07 16:09:10,394 INFO    MainThread:2097822 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-08 01:39:25,352 INFO    MainThread:2097822 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-shuffle/mb6fm06y
+2024-11-08 01:39:25,379 INFO    MainThread:2097822 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-08 01:39:25,379 INFO    MainThread:2097822 [wandb_run.py:_restore():2408] restore
+2024-11-08 01:39:25,379 INFO    MainThread:2097822 [wandb_run.py:_restore():2414] restore done
+2024-11-08 01:39:27,346 INFO    MainThread:2097822 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-08 01:39:27,346 INFO    MainThread:2097822 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-08 01:39:27,354 INFO    MainThread:2097822 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241118_234414-lnbdfbec/files/config.yaml b/wandb/run-20241118_234414-lnbdfbec/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..17dba7ac504139a9056f5e0080fb930d25639f63
--- /dev/null
+++ b/wandb/run-20241118_234414-lnbdfbec/files/config.yaml
@@ -0,0 +1,531 @@
+_name_or_path:
+    value: meta-llama/Llama-3.2-3B
+_wandb:
+    value:
+        cli_version: 0.18.5
+        m:
+            - "1": eval/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/global_step
+              "6":
+                - 3
+              "7": []
+            - "1": eval/steps_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/runtime
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": eval/samples_per_second
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/grad_norm
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/learning_rate
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/epoch
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+            - "1": train/loss
+              "5": 2
+              "6":
+                - 1
+                - 3
+              "7": []
+        python_version: 3.9.19
+        t:
+            "1":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "2":
+                - 1
+                - 5
+                - 11
+                - 49
+                - 51
+                - 53
+                - 55
+                - 71
+                - 98
+            "3":
+                - 2
+                - 7
+                - 13
+                - 19
+                - 23
+                - 55
+                - 62
+                - 66
+            "4": 3.9.19
+            "5": 0.18.5
+            "6": 4.45.1
+            "8":
+                - 5
+            "9":
+                "1": transformers_trainer
+            "12": 0.18.5
+            "13": linux-x86_64
+accelerator_config:
+    value:
+        dispatch_batches: null
+        even_batches: true
+        gradient_accumulation_kwargs: null
+        non_blocking: false
+        split_batches: false
+        use_seedable_sampler: true
+adafactor:
+    value: false
+adam_beta1:
+    value: 0.9
+adam_beta2:
+    value: 0.999
+adam_epsilon:
+    value: 1e-08
+add_cross_attention:
+    value: false
+architectures:
+    value:
+        - LlamaForCausalLM
+attention_bias:
+    value: false
+attention_dropout:
+    value: 0
+auto_find_batch_size:
+    value: false
+bad_words_ids:
+    value: null
+batch_eval_metrics:
+    value: false
+batch_size:
+    value: 3
+begin_suppress_tokens:
+    value: null
+bf16:
+    value: false
+bf16_full_eval:
+    value: false
+bos_token_id:
+    value: 128000
+chunk_size_feed_forward:
+    value: 0
+cross_attention_hidden_size:
+    value: null
+data_seed:
+    value: null
+dataloader_drop_last:
+    value: false
+dataloader_num_workers:
+    value: 0
+dataloader_persistent_workers:
+    value: false
+dataloader_pin_memory:
+    value: true
+dataloader_prefetch_factor:
+    value: null
+ddp_backend:
+    value: null
+ddp_broadcast_buffers:
+    value: null
+ddp_bucket_cap_mb:
+    value: null
+ddp_find_unused_parameters:
+    value: null
+ddp_timeout:
+    value: 1800
+debug:
+    value: []
+decoder_start_token_id:
+    value: null
+deepspeed:
+    value: deepspeed_config/train_dp_config.json
+disable_tqdm:
+    value: false
+dispatch_batches:
+    value: null
+diversity_penalty:
+    value: 0
+do_eval:
+    value: true
+do_predict:
+    value: false
+do_sample:
+    value: false
+do_train:
+    value: false
+early_stopping:
+    value: false
+encoder_no_repeat_ngram_size:
+    value: 0
+eos_token_id:
+    value: 128001
+epoch:
+    value: 3
+eval_accumulation_steps:
+    value: null
+eval_delay:
+    value: 0
+eval_do_concat_batches:
+    value: true
+eval_on_start:
+    value: false
+eval_steps:
+    value: 10
+eval_strategy:
+    value: steps
+eval_use_gather_object:
+    value: false
+evaluation_strategy:
+    value: steps
+exponential_decay_length_penalty:
+    value: null
+finetuning_task:
+    value: null
+forced_bos_token_id:
+    value: null
+forced_eos_token_id:
+    value: null
+fp16:
+    value: true
+fp16_backend:
+    value: auto
+fp16_full_eval:
+    value: false
+fp16_opt_level:
+    value: O1
+fsdp:
+    value: []
+fsdp_config:
+    value:
+        min_num_params: 0
+        xla: false
+        xla_fsdp_grad_ckpt: false
+        xla_fsdp_v2: false
+fsdp_min_num_params:
+    value: 0
+fsdp_transformer_layer_cls_to_wrap:
+    value: null
+full_determinism:
+    value: false
+gradient_accumulation_steps:
+    value: 2
+gradient_checkpointing:
+    value: false
+gradient_checkpointing_kwargs:
+    value: null
+greater_is_better:
+    value: null
+group_by_length:
+    value: false
+half_precision_backend:
+    value: auto
+head_dim:
+    value: 128
+hidden_act:
+    value: silu
+hidden_size:
+    value: 3072
+hub_always_push:
+    value: false
+hub_model_id:
+    value: null
+hub_private_repo:
+    value: false
+hub_strategy:
+    value: every_save
+hub_token:
+    value: <HUB_TOKEN>
+id2label:
+    value:
+        "0": LABEL_0
+        "1": LABEL_1
+ignore_data_skip:
+    value: false
+include_inputs_for_metrics:
+    value: false
+include_num_input_tokens_seen:
+    value: false
+include_tokens_per_second:
+    value: false
+initializer_range:
+    value: 0.02
+intermediate_size:
+    value: 8192
+is_decoder:
+    value: false
+is_encoder_decoder:
+    value: false
+jit_mode_eval:
+    value: false
+label_names:
+    value: null
+label_smoothing_factor:
+    value: 0
+label2id:
+    value:
+        LABEL_0: 0
+        LABEL_1: 1
+learning_rate:
+    value: 5e-06
+length_column_name:
+    value: length
+length_penalty:
+    value: 1
+load_best_model_at_end:
+    value: false
+local_rank:
+    value: 0
+log_level:
+    value: passive
+log_level_replica:
+    value: warning
+log_on_each_node:
+    value: true
+logging_dir:
+    value: ./logs
+logging_first_step:
+    value: false
+logging_nan_inf_filter:
+    value: true
+logging_steps:
+    value: 1
+logging_strategy:
+    value: steps
+lr:
+    value: 5e-06
+lr_scheduler_type:
+    value: linear
+max_grad_norm:
+    value: 1
+max_length:
+    value: 20
+max_position_embeddings:
+    value: 131072
+max_steps:
+    value: -1
+metric_for_best_model:
+    value: null
+min_length:
+    value: 0
+mlp_bias:
+    value: false
+model/num_parameters:
+    value: 3212749824
+model_type:
+    value: llama
+mp_parameters:
+    value: ""
+neftune_noise_alpha:
+    value: null
+no_cuda:
+    value: false
+no_repeat_ngram_size:
+    value: 0
+num_attention_heads:
+    value: 24
+num_beam_groups:
+    value: 1
+num_beams:
+    value: 1
+num_hidden_layers:
+    value: 28
+num_key_value_heads:
+    value: 8
+num_return_sequences:
+    value: 1
+num_train_epochs:
+    value: 3
+optim:
+    value: adamw_torch
+optim_args:
+    value: null
+optim_target_modules:
+    value: null
+output_attentions:
+    value: false
+output_dir:
+    value: ./checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_even_odd_10M_seed0/runs
+output_hidden_states:
+    value: false
+output_scores:
+    value: false
+overwrite_output_dir:
+    value: false
+pad_token_id:
+    value: null
+past_index:
+    value: -1
+per_device_eval_batch_size:
+    value: 8
+per_device_train_batch_size:
+    value: 3
+per_gpu_eval_batch_size:
+    value: null
+per_gpu_train_batch_size:
+    value: null
+perturbation:
+    value: shuffle_even_odd
+prediction_loss_only:
+    value: false
+prefix:
+    value: null
+pretraining_tp:
+    value: 1
+problem_type:
+    value: null
+push_to_hub:
+    value: false
+push_to_hub_model_id:
+    value: null
+push_to_hub_organization:
+    value: null
+push_to_hub_token:
+    value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+    value: last
+remove_invalid_values:
+    value: false
+remove_unused_columns:
+    value: true
+repetition_penalty:
+    value: 1
+report_to:
+    value:
+        - wandb
+restore_callback_states_from_checkpoint:
+    value: false
+resume_from_checkpoint:
+    value: null
+return_dict:
+    value: true
+return_dict_in_generate:
+    value: false
+rms_norm_eps:
+    value: 1e-05
+rope_scaling:
+    value:
+        factor: 32
+        high_freq_factor: 4
+        low_freq_factor: 1
+        original_max_position_embeddings: 8192
+        rope_type: llama3
+rope_theta:
+    value: 500000
+run_name:
+    value: ./checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_even_odd_10M_seed0/runs
+save_on_each_node:
+    value: false
+save_only_model:
+    value: false
+save_safetensors:
+    value: true
+save_steps:
+    value: 100
+save_strategy:
+    value: steps
+save_total_limit:
+    value: null
+seed:
+    value: 0
+sep_token_id:
+    value: null
+skip_memory_metrics:
+    value: true
+split_batches:
+    value: null
+suppress_tokens:
+    value: null
+task_specific_params:
+    value: null
+temperature:
+    value: 1
+tf_legacy_loss:
+    value: false
+tf32:
+    value: null
+tie_encoder_decoder:
+    value: false
+tie_word_embeddings:
+    value: true
+tokenizer_class:
+    value: null
+top_k:
+    value: 50
+top_p:
+    value: 1
+torch_compile:
+    value: false
+torch_compile_backend:
+    value: null
+torch_compile_mode:
+    value: null
+torch_dtype:
+    value: bfloat16
+torch_empty_cache_steps:
+    value: null
+torchdynamo:
+    value: null
+torchscript:
+    value: false
+tpu_metrics_debug:
+    value: false
+tpu_num_cores:
+    value: null
+train_set:
+    value: 10M
+transformers_version:
+    value: 4.45.1
+typical_p:
+    value: 1
+use_bfloat16:
+    value: false
+use_cache:
+    value: true
+use_cpu:
+    value: false
+use_ipex:
+    value: false
+use_legacy_prediction_loop:
+    value: false
+use_liger_kernel:
+    value: false
+use_mps_device:
+    value: false
+vocab_size:
+    value: 128256
+warmup_ratio:
+    value: 0.1
+warmup_steps:
+    value: 0
+weight_decay:
+    value: 0
diff --git a/wandb/run-20241118_234414-lnbdfbec/files/output.log b/wandb/run-20241118_234414-lnbdfbec/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..270c569608189a6ef79b1ee0f693a94574524318
--- /dev/null
+++ b/wandb/run-20241118_234414-lnbdfbec/files/output.log
@@ -0,0 +1,3032 @@
+config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 844/844 [00:00<00:00, 276kB/s]
+Downloading shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [02:32<00:00, 76.46s/it]
+Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.07s/it]
+Map: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16425/16425 [00:43<00:00, 374.77 examples/s]
+Map: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17013/17013 [00:45<00:00, 373.48 examples/s]
+tokenized_valid: Dataset({
+    features: ['input_ids', 'attention_mask'],
+    num_rows: 1000
+})
+/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/lib/python3.9/site-packages/transformers/training_args.py:1545: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+[2024-11-18 23:48:22,699] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2024-11-18 23:48:29,190] [INFO] [comm.py:652:init_distributed] cdb=None
+[2024-11-18 23:48:29,190] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+Installed CUDA version 11.8 does not match the version torch was compiled with 11.7 but since the APIs are compatible, accepting this combination
+Using /home/chunhui/.cache/torch_extensions/py39_cu117 as PyTorch extensions root...
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 6.24773383140564 seconds
+[34m[1mwandb[0m: [33mWARNING[0m The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+                                                                                                                                                                                 
+{'loss': 2.9228, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.913, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.8792, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.9058, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.0}
+{'loss': 2.8737, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 3.0114, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9157, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9441, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9234, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9776, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+                                                                                                                                                                                 
+{'eval_loss': 2.9583139419555664, 'eval_runtime': 38.1786, 'eval_samples_per_second': 26.193, 'eval_steps_per_second': 1.1, 'epoch': 0.01}
+{'loss': 2.9516, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.8598, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9358, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.01}
+{'loss': 2.9103, 'grad_norm': 0.0, 'learning_rate': 0.0, 'epoch': 0.02}
+{'loss': 2.9657, 'grad_norm': 4.499549865722656, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 2.8495, 'grad_norm': 4.499549865722656, 'learning_rate': 1.8248175182481753e-08, 'epoch': 0.02}
+{'loss': 2.8581, 'grad_norm': 7.780152320861816, 'learning_rate': 3.6496350364963505e-08, 'epoch': 0.02}
+{'loss': 2.8801, 'grad_norm': 4.6423187255859375, 'learning_rate': 5.4744525547445264e-08, 'epoch': 0.02}
+{'loss': 2.7925, 'grad_norm': 4.137431621551514, 'learning_rate': 7.299270072992701e-08, 'epoch': 0.02}
+{'loss': 2.8247, 'grad_norm': 3.9007363319396973, 'learning_rate': 9.124087591240876e-08, 'epoch': 0.02}
+{'eval_loss': 2.7621357440948486, 'eval_runtime': 38.0475, 'eval_samples_per_second': 26.283, 'eval_steps_per_second': 1.104, 'epoch': 0.02}
+{'loss': 2.7218, 'grad_norm': 2.332426071166992, 'learning_rate': 1.0948905109489053e-07, 'epoch': 0.02}
+{'loss': 2.6279, 'grad_norm': 2.9798812866210938, 'learning_rate': 1.2773722627737227e-07, 'epoch': 0.02}
+{'loss': 2.6552, 'grad_norm': 3.6657767295837402, 'learning_rate': 1.4598540145985402e-07, 'epoch': 0.03}
+{'loss': 2.6612, 'grad_norm': 2.4909911155700684, 'learning_rate': 1.642335766423358e-07, 'epoch': 0.03}
+{'loss': 2.6532, 'grad_norm': 2.5456271171569824, 'learning_rate': 1.8248175182481753e-07, 'epoch': 0.03}
+{'loss': 2.6153, 'grad_norm': 2.0342469215393066, 'learning_rate': 2.0072992700729928e-07, 'epoch': 0.03}
+{'loss': 2.6164, 'grad_norm': 2.4481937885284424, 'learning_rate': 2.1897810218978106e-07, 'epoch': 0.03}
+{'loss': 2.5487, 'grad_norm': 2.265392303466797, 'learning_rate': 2.3722627737226278e-07, 'epoch': 0.03}
+{'loss': 2.5166, 'grad_norm': 1.7170498371124268, 'learning_rate': 2.5547445255474454e-07, 'epoch': 0.03}
+{'loss': 2.4582, 'grad_norm': 2.0729944705963135, 'learning_rate': 2.737226277372263e-07, 'epoch': 0.03}
+{'eval_loss': 2.572082042694092, 'eval_runtime': 37.6177, 'eval_samples_per_second': 26.583, 'eval_steps_per_second': 1.116, 'epoch': 0.03}
+{'loss': 2.4852, 'grad_norm': 2.143294095993042, 'learning_rate': 2.9197080291970804e-07, 'epoch': 0.03}
+{'loss': 2.4577, 'grad_norm': 2.2206764221191406, 'learning_rate': 3.102189781021898e-07, 'epoch': 0.04}
+{'loss': 2.415, 'grad_norm': 2.764601469039917, 'learning_rate': 3.284671532846716e-07, 'epoch': 0.04}
+{'loss': 2.3902, 'grad_norm': 2.428981065750122, 'learning_rate': 3.467153284671533e-07, 'epoch': 0.04}
+{'loss': 2.4101, 'grad_norm': 2.2908780574798584, 'learning_rate': 3.6496350364963505e-07, 'epoch': 0.04}
+{'loss': 2.4213, 'grad_norm': 3.4523422718048096, 'learning_rate': 3.8321167883211686e-07, 'epoch': 0.04}
+{'loss': 2.3635, 'grad_norm': 2.7564196586608887, 'learning_rate': 4.0145985401459856e-07, 'epoch': 0.04}
+{'loss': 2.3101, 'grad_norm': 3.215703010559082, 'learning_rate': 4.197080291970803e-07, 'epoch': 0.04}
+{'loss': 2.4073, 'grad_norm': 2.1096959114074707, 'learning_rate': 4.379562043795621e-07, 'epoch': 0.04}
+{'loss': 2.3022, 'grad_norm': 2.595573902130127, 'learning_rate': 4.562043795620438e-07, 'epoch': 0.04}
+{'eval_loss': 2.420332431793213, 'eval_runtime': 37.63, 'eval_samples_per_second': 26.575, 'eval_steps_per_second': 1.116, 'epoch': 0.04}
+{'loss': 2.3138, 'grad_norm': 2.061192750930786, 'learning_rate': 4.7445255474452557e-07, 'epoch': 0.04}
+{'loss': 2.3603, 'grad_norm': 2.400603771209717, 'learning_rate': 4.927007299270073e-07, 'epoch': 0.05}
+{'loss': 2.3229, 'grad_norm': 1.9394432306289673, 'learning_rate': 5.109489051094891e-07, 'epoch': 0.05}
+{'loss': 2.3337, 'grad_norm': 1.967854380607605, 'learning_rate': 5.291970802919708e-07, 'epoch': 0.05}
+{'loss': 2.3195, 'grad_norm': 2.459697723388672, 'learning_rate': 5.474452554744526e-07, 'epoch': 0.05}
+{'loss': 2.2649, 'grad_norm': 2.140850782394409, 'learning_rate': 5.656934306569343e-07, 'epoch': 0.05}
+{'loss': 2.2551, 'grad_norm': 1.987175464630127, 'learning_rate': 5.839416058394161e-07, 'epoch': 0.05}
+{'loss': 2.2826, 'grad_norm': 2.2014951705932617, 'learning_rate': 6.021897810218979e-07, 'epoch': 0.05}
+{'loss': 2.1942, 'grad_norm': 1.7179075479507446, 'learning_rate': 6.204379562043796e-07, 'epoch': 0.05}
+{'loss': 2.3538, 'grad_norm': 2.3869340419769287, 'learning_rate': 6.386861313868614e-07, 'epoch': 0.05}
+{'eval_loss': 2.3399100303649902, 'eval_runtime': 37.6473, 'eval_samples_per_second': 26.562, 'eval_steps_per_second': 1.116, 'epoch': 0.05}
+{'loss': 2.2118, 'grad_norm': 2.093095302581787, 'learning_rate': 6.569343065693432e-07, 'epoch': 0.06}
+{'loss': 2.2473, 'grad_norm': 1.7252192497253418, 'learning_rate': 6.751824817518248e-07, 'epoch': 0.06}
+{'loss': 2.1773, 'grad_norm': 2.3917527198791504, 'learning_rate': 6.934306569343066e-07, 'epoch': 0.06}
+{'loss': 2.198, 'grad_norm': 1.75076162815094, 'learning_rate': 7.116788321167883e-07, 'epoch': 0.06}
+{'loss': 2.2094, 'grad_norm': 2.4780147075653076, 'learning_rate': 7.299270072992701e-07, 'epoch': 0.06}
+{'loss': 2.2284, 'grad_norm': 2.06660532951355, 'learning_rate': 7.48175182481752e-07, 'epoch': 0.06}
+{'loss': 2.232, 'grad_norm': 2.306546688079834, 'learning_rate': 7.664233576642337e-07, 'epoch': 0.06}
+{'loss': 2.2088, 'grad_norm': 2.4533116817474365, 'learning_rate': 7.846715328467154e-07, 'epoch': 0.06}
+{'loss': 2.1565, 'grad_norm': 2.047197103500366, 'learning_rate': 8.029197080291971e-07, 'epoch': 0.06}
+{'loss': 2.1469, 'grad_norm': 2.255661725997925, 'learning_rate': 8.211678832116789e-07, 'epoch': 0.07}
+{'eval_loss': 2.297056198120117, 'eval_runtime': 37.6344, 'eval_samples_per_second': 26.571, 'eval_steps_per_second': 1.116, 'epoch': 0.07}
+{'loss': 2.1672, 'grad_norm': 2.606323003768921, 'learning_rate': 8.394160583941606e-07, 'epoch': 0.07}
+{'loss': 2.1657, 'grad_norm': 2.5012619495391846, 'learning_rate': 8.576642335766425e-07, 'epoch': 0.07}
+{'loss': 2.1787, 'grad_norm': 2.208552360534668, 'learning_rate': 8.759124087591242e-07, 'epoch': 0.07}
+{'loss': 2.1919, 'grad_norm': 1.9656486511230469, 'learning_rate': 8.94160583941606e-07, 'epoch': 0.07}
+{'loss': 2.1545, 'grad_norm': 2.294618844985962, 'learning_rate': 9.124087591240876e-07, 'epoch': 0.07}
+{'loss': 2.1811, 'grad_norm': 1.9905474185943604, 'learning_rate': 9.306569343065694e-07, 'epoch': 0.07}
+{'loss': 2.1581, 'grad_norm': 2.112562894821167, 'learning_rate': 9.489051094890511e-07, 'epoch': 0.07}
+{'loss': 2.1965, 'grad_norm': 1.8196194171905518, 'learning_rate': 9.67153284671533e-07, 'epoch': 0.07}
+{'loss': 2.1395, 'grad_norm': 2.0470683574676514, 'learning_rate': 9.854014598540146e-07, 'epoch': 0.08}
+{'loss': 2.11, 'grad_norm': 1.9735078811645508, 'learning_rate': 1.0036496350364965e-06, 'epoch': 0.08}
+{'eval_loss': 2.2562201023101807, 'eval_runtime': 37.6496, 'eval_samples_per_second': 26.561, 'eval_steps_per_second': 1.116, 'epoch': 0.08}
+{'loss': 2.1924, 'grad_norm': 2.1114373207092285, 'learning_rate': 1.0218978102189781e-06, 'epoch': 0.08}
+{'loss': 2.0682, 'grad_norm': 2.195981502532959, 'learning_rate': 1.04014598540146e-06, 'epoch': 0.08}
+{'loss': 2.0763, 'grad_norm': 1.800487995147705, 'learning_rate': 1.0583941605839416e-06, 'epoch': 0.08}
+{'loss': 2.0851, 'grad_norm': 2.1848061084747314, 'learning_rate': 1.0766423357664233e-06, 'epoch': 0.08}
+{'loss': 2.1362, 'grad_norm': 1.7973257303237915, 'learning_rate': 1.0948905109489052e-06, 'epoch': 0.08}
+{'loss': 2.1484, 'grad_norm': 1.8565518856048584, 'learning_rate': 1.113138686131387e-06, 'epoch': 0.08}
+{'loss': 2.0666, 'grad_norm': 2.0394575595855713, 'learning_rate': 1.1313868613138687e-06, 'epoch': 0.08}
+{'loss': 2.0626, 'grad_norm': 1.746974229812622, 'learning_rate': 1.1496350364963505e-06, 'epoch': 0.09}
+{'loss': 2.0888, 'grad_norm': 2.1587088108062744, 'learning_rate': 1.1678832116788322e-06, 'epoch': 0.09}
+{'loss': 2.0826, 'grad_norm': 1.9731370210647583, 'learning_rate': 1.1861313868613138e-06, 'epoch': 0.09}
+{'eval_loss': 2.226562261581421, 'eval_runtime': 37.6145, 'eval_samples_per_second': 26.585, 'eval_steps_per_second': 1.117, 'epoch': 0.09}
+{'loss': 2.0891, 'grad_norm': 1.863676905632019, 'learning_rate': 1.2043795620437959e-06, 'epoch': 0.09}
+{'loss': 2.1414, 'grad_norm': 1.9370180368423462, 'learning_rate': 1.2226277372262775e-06, 'epoch': 0.09}
+{'loss': 2.0973, 'grad_norm': 1.8781696557998657, 'learning_rate': 1.2408759124087592e-06, 'epoch': 0.09}
+{'loss': 2.1115, 'grad_norm': 2.14567232131958, 'learning_rate': 1.259124087591241e-06, 'epoch': 0.09}
+{'loss': 2.098, 'grad_norm': 1.9068560600280762, 'learning_rate': 1.2773722627737229e-06, 'epoch': 0.09}
+{'loss': 2.0434, 'grad_norm': 2.144674301147461, 'learning_rate': 1.2956204379562045e-06, 'epoch': 0.09}
+{'loss': 2.0925, 'grad_norm': 1.9705979824066162, 'learning_rate': 1.3138686131386864e-06, 'epoch': 0.1}
+{'loss': 2.006, 'grad_norm': 2.0803840160369873, 'learning_rate': 1.332116788321168e-06, 'epoch': 0.1}
+{'loss': 2.0598, 'grad_norm': 2.2086894512176514, 'learning_rate': 1.3503649635036497e-06, 'epoch': 0.1}
+{'loss': 1.9746, 'grad_norm': 2.04538631439209, 'learning_rate': 1.3686131386861315e-06, 'epoch': 0.1}
+{'eval_loss': 2.2026026248931885, 'eval_runtime': 37.6374, 'eval_samples_per_second': 26.569, 'eval_steps_per_second': 1.116, 'epoch': 0.1}
+{'loss': 2.1206, 'grad_norm': 2.1910741329193115, 'learning_rate': 1.3868613138686132e-06, 'epoch': 0.1}
+{'loss': 2.0624, 'grad_norm': 2.0915367603302, 'learning_rate': 1.405109489051095e-06, 'epoch': 0.1}
+{'loss': 2.0958, 'grad_norm': 2.1541218757629395, 'learning_rate': 1.4233576642335767e-06, 'epoch': 0.1}
+{'loss': 2.0669, 'grad_norm': 2.2933292388916016, 'learning_rate': 1.4416058394160583e-06, 'epoch': 0.1}
+{'loss': 2.0394, 'grad_norm': 2.142955780029297, 'learning_rate': 1.4598540145985402e-06, 'epoch': 0.1}
+{'loss': 2.1147, 'grad_norm': 2.0919415950775146, 'learning_rate': 1.478102189781022e-06, 'epoch': 0.11}
+{'loss': 2.0887, 'grad_norm': 2.105909824371338, 'learning_rate': 1.496350364963504e-06, 'epoch': 0.11}
+{'loss': 2.1125, 'grad_norm': 2.2072527408599854, 'learning_rate': 1.5145985401459856e-06, 'epoch': 0.11}
+{'loss': 2.06, 'grad_norm': 1.9947102069854736, 'learning_rate': 1.5328467153284674e-06, 'epoch': 0.11}
+{'loss': 2.0193, 'grad_norm': 1.9543453454971313, 'learning_rate': 1.551094890510949e-06, 'epoch': 0.11}
+{'eval_loss': 2.188448429107666, 'eval_runtime': 37.6359, 'eval_samples_per_second': 26.57, 'eval_steps_per_second': 1.116, 'epoch': 0.11}
+{'loss': 2.0085, 'grad_norm': 2.1855170726776123, 'learning_rate': 1.5693430656934307e-06, 'epoch': 0.11}
+{'loss': 2.0897, 'grad_norm': 1.873908519744873, 'learning_rate': 1.5875912408759126e-06, 'epoch': 0.11}
+{'loss': 2.1412, 'grad_norm': 2.088444471359253, 'learning_rate': 1.6058394160583942e-06, 'epoch': 0.11}
+{'loss': 2.0483, 'grad_norm': 2.1331546306610107, 'learning_rate': 1.624087591240876e-06, 'epoch': 0.11}
+{'loss': 2.0002, 'grad_norm': 2.162205696105957, 'learning_rate': 1.6423357664233577e-06, 'epoch': 0.12}
+{'loss': 2.0117, 'grad_norm': 2.1728575229644775, 'learning_rate': 1.6605839416058394e-06, 'epoch': 0.12}
+{'loss': 2.0613, 'grad_norm': 2.2510266304016113, 'learning_rate': 1.6788321167883212e-06, 'epoch': 0.12}
+{'loss': 1.9685, 'grad_norm': 2.3087573051452637, 'learning_rate': 1.6970802919708029e-06, 'epoch': 0.12}
+{'loss': 2.0393, 'grad_norm': 2.2735331058502197, 'learning_rate': 1.715328467153285e-06, 'epoch': 0.12}
+{'loss': 2.0459, 'grad_norm': 2.4191529750823975, 'learning_rate': 1.7335766423357666e-06, 'epoch': 0.12}
+{'eval_loss': 2.1799964904785156, 'eval_runtime': 37.1979, 'eval_samples_per_second': 26.883, 'eval_steps_per_second': 1.129, 'epoch': 0.12}
+{'loss': 2.0778, 'grad_norm': 1.962585687637329, 'learning_rate': 1.7518248175182485e-06, 'epoch': 0.12}
+{'loss': 2.0824, 'grad_norm': 2.3954553604125977, 'learning_rate': 1.77007299270073e-06, 'epoch': 0.12}
+{'loss': 2.1153, 'grad_norm': 2.06846284866333, 'learning_rate': 1.788321167883212e-06, 'epoch': 0.12}
+{'loss': 2.0472, 'grad_norm': 2.2199130058288574, 'learning_rate': 1.8065693430656936e-06, 'epoch': 0.12}
+{'loss': 1.989, 'grad_norm': 2.5504422187805176, 'learning_rate': 1.8248175182481753e-06, 'epoch': 0.13}
+{'loss': 2.0327, 'grad_norm': 3.1599738597869873, 'learning_rate': 1.8430656934306571e-06, 'epoch': 0.13}
+{'loss': 2.0269, 'grad_norm': 2.299233913421631, 'learning_rate': 1.8613138686131388e-06, 'epoch': 0.13}
+{'loss': 2.0225, 'grad_norm': 2.3014957904815674, 'learning_rate': 1.8795620437956206e-06, 'epoch': 0.13}
+{'loss': 2.0348, 'grad_norm': 2.354130744934082, 'learning_rate': 1.8978102189781023e-06, 'epoch': 0.13}
+{'loss': 2.0491, 'grad_norm': 2.4250943660736084, 'learning_rate': 1.916058394160584e-06, 'epoch': 0.13}
+{'eval_loss': 2.1661040782928467, 'eval_runtime': 37.4111, 'eval_samples_per_second': 26.73, 'eval_steps_per_second': 1.123, 'epoch': 0.13}
+{'loss': 1.9404, 'grad_norm': 2.212096929550171, 'learning_rate': 1.934306569343066e-06, 'epoch': 0.13}
+{'loss': 2.0125, 'grad_norm': 2.1125783920288086, 'learning_rate': 1.952554744525548e-06, 'epoch': 0.13}
+{'loss': 1.9884, 'grad_norm': 2.0133235454559326, 'learning_rate': 1.9708029197080293e-06, 'epoch': 0.13}
+{'loss': 1.9966, 'grad_norm': 2.119838237762451, 'learning_rate': 1.989051094890511e-06, 'epoch': 0.14}
+{'loss': 2.0583, 'grad_norm': 2.1973812580108643, 'learning_rate': 2.007299270072993e-06, 'epoch': 0.14}
+{'loss': 1.9907, 'grad_norm': 2.1221187114715576, 'learning_rate': 2.025547445255475e-06, 'epoch': 0.14}
+{'loss': 2.0135, 'grad_norm': 2.159651279449463, 'learning_rate': 2.0437956204379563e-06, 'epoch': 0.14}
+{'loss': 2.0018, 'grad_norm': 2.322615146636963, 'learning_rate': 2.062043795620438e-06, 'epoch': 0.14}
+{'loss': 2.0634, 'grad_norm': 2.182854413986206, 'learning_rate': 2.08029197080292e-06, 'epoch': 0.14}
+{'loss': 1.9461, 'grad_norm': 2.1303610801696777, 'learning_rate': 2.0985401459854014e-06, 'epoch': 0.14}
+{'eval_loss': 2.143841028213501, 'eval_runtime': 37.5232, 'eval_samples_per_second': 26.65, 'eval_steps_per_second': 1.119, 'epoch': 0.14}
+{'loss': 2.0265, 'grad_norm': 2.225095510482788, 'learning_rate': 2.1167883211678833e-06, 'epoch': 0.14}
+{'loss': 2.0522, 'grad_norm': 2.305358409881592, 'learning_rate': 2.135036496350365e-06, 'epoch': 0.14}
+{'loss': 1.9536, 'grad_norm': 2.1451406478881836, 'learning_rate': 2.1532846715328466e-06, 'epoch': 0.15}
+{'loss': 1.9813, 'grad_norm': 2.109513759613037, 'learning_rate': 2.171532846715329e-06, 'epoch': 0.15}
+{'loss': 2.0182, 'grad_norm': 2.1760311126708984, 'learning_rate': 2.1897810218978103e-06, 'epoch': 0.15}
+{'loss': 1.9915, 'grad_norm': 2.1636593341827393, 'learning_rate': 2.208029197080292e-06, 'epoch': 0.15}
+{'loss': 1.9671, 'grad_norm': 2.265512704849243, 'learning_rate': 2.226277372262774e-06, 'epoch': 0.15}
+{'loss': 2.0397, 'grad_norm': 2.422865152359009, 'learning_rate': 2.244525547445256e-06, 'epoch': 0.15}
+{'loss': 2.0224, 'grad_norm': 2.006016492843628, 'learning_rate': 2.2627737226277373e-06, 'epoch': 0.15}
+{'loss': 1.9819, 'grad_norm': 2.368051290512085, 'learning_rate': 2.281021897810219e-06, 'epoch': 0.15}
+{'eval_loss': 2.1297667026519775, 'eval_runtime': 37.5435, 'eval_samples_per_second': 26.636, 'eval_steps_per_second': 1.119, 'epoch': 0.15}
+{'loss': 1.966, 'grad_norm': 2.421584129333496, 'learning_rate': 2.299270072992701e-06, 'epoch': 0.15}
+{'loss': 1.9788, 'grad_norm': 2.0443336963653564, 'learning_rate': 2.3175182481751825e-06, 'epoch': 0.16}
+{'loss': 1.9503, 'grad_norm': 2.031562566757202, 'learning_rate': 2.3357664233576643e-06, 'epoch': 0.16}
+{'loss': 1.9806, 'grad_norm': 2.3509881496429443, 'learning_rate': 2.354014598540146e-06, 'epoch': 0.16}
+{'loss': 2.0079, 'grad_norm': 1.986568570137024, 'learning_rate': 2.3722627737226276e-06, 'epoch': 0.16}
+{'loss': 1.9319, 'grad_norm': 2.2753543853759766, 'learning_rate': 2.39051094890511e-06, 'epoch': 0.16}
+{'loss': 1.9432, 'grad_norm': 2.113518238067627, 'learning_rate': 2.4087591240875918e-06, 'epoch': 0.16}
+{'loss': 1.949, 'grad_norm': 2.2105770111083984, 'learning_rate': 2.427007299270073e-06, 'epoch': 0.16}
+{'loss': 2.0226, 'grad_norm': 2.1179006099700928, 'learning_rate': 2.445255474452555e-06, 'epoch': 0.16}
+{'loss': 1.9207, 'grad_norm': 2.2908928394317627, 'learning_rate': 2.463503649635037e-06, 'epoch': 0.16}
+{'eval_loss': 2.1147656440734863, 'eval_runtime': 37.531, 'eval_samples_per_second': 26.645, 'eval_steps_per_second': 1.119, 'epoch': 0.16}
+{'loss': 1.8926, 'grad_norm': 2.157834529876709, 'learning_rate': 2.4817518248175183e-06, 'epoch': 0.17}
+{'loss': 2.0209, 'grad_norm': 2.203526735305786, 'learning_rate': 2.5e-06, 'epoch': 0.17}
+{'loss': 1.9129, 'grad_norm': 2.221884250640869, 'learning_rate': 2.518248175182482e-06, 'epoch': 0.17}
+{'loss': 1.9116, 'grad_norm': 2.2236645221710205, 'learning_rate': 2.5364963503649635e-06, 'epoch': 0.17}
+{'loss': 1.974, 'grad_norm': 2.3106257915496826, 'learning_rate': 2.5547445255474458e-06, 'epoch': 0.17}
+{'loss': 1.955, 'grad_norm': 2.4209330081939697, 'learning_rate': 2.5729927007299272e-06, 'epoch': 0.17}
+{'loss': 1.9502, 'grad_norm': 2.358449697494507, 'learning_rate': 2.591240875912409e-06, 'epoch': 0.17}
+{'loss': 1.9587, 'grad_norm': 2.501981496810913, 'learning_rate': 2.6094890510948905e-06, 'epoch': 0.17}
+{'loss': 1.9925, 'grad_norm': 2.2641825675964355, 'learning_rate': 2.627737226277373e-06, 'epoch': 0.17}
+{'loss': 1.9556, 'grad_norm': 2.56207537651062, 'learning_rate': 2.6459854014598542e-06, 'epoch': 0.18}
+{'eval_loss': 2.10406494140625, 'eval_runtime': 37.5292, 'eval_samples_per_second': 26.646, 'eval_steps_per_second': 1.119, 'epoch': 0.18}
+{'loss': 1.9143, 'grad_norm': 2.248075246810913, 'learning_rate': 2.664233576642336e-06, 'epoch': 0.18}
+{'loss': 1.9685, 'grad_norm': 2.4391627311706543, 'learning_rate': 2.6824817518248175e-06, 'epoch': 0.18}
+{'loss': 1.9331, 'grad_norm': 2.310236930847168, 'learning_rate': 2.7007299270072994e-06, 'epoch': 0.18}
+{'loss': 2.0018, 'grad_norm': 2.14863920211792, 'learning_rate': 2.718978102189781e-06, 'epoch': 0.18}
+{'loss': 1.9796, 'grad_norm': 2.469825029373169, 'learning_rate': 2.737226277372263e-06, 'epoch': 0.18}
+{'loss': 1.9193, 'grad_norm': 2.3568389415740967, 'learning_rate': 2.755474452554745e-06, 'epoch': 0.18}
+{'loss': 2.0378, 'grad_norm': 2.207573890686035, 'learning_rate': 2.7737226277372264e-06, 'epoch': 0.18}
+{'loss': 1.973, 'grad_norm': 2.324575662612915, 'learning_rate': 2.7919708029197082e-06, 'epoch': 0.18}
+{'loss': 1.9176, 'grad_norm': 2.2125649452209473, 'learning_rate': 2.81021897810219e-06, 'epoch': 0.19}
+{'loss': 1.9675, 'grad_norm': 2.1800765991210938, 'learning_rate': 2.828467153284672e-06, 'epoch': 0.19}
+{'eval_loss': 2.1006786823272705, 'eval_runtime': 37.5109, 'eval_samples_per_second': 26.659, 'eval_steps_per_second': 1.12, 'epoch': 0.19}
+{'loss': 1.8793, 'grad_norm': 2.252784490585327, 'learning_rate': 2.8467153284671534e-06, 'epoch': 0.19}
+{'loss': 1.9142, 'grad_norm': 2.3199191093444824, 'learning_rate': 2.8649635036496353e-06, 'epoch': 0.19}
+{'loss': 1.8741, 'grad_norm': 2.0385899543762207, 'learning_rate': 2.8832116788321167e-06, 'epoch': 0.19}
+{'loss': 1.987, 'grad_norm': 2.200861930847168, 'learning_rate': 2.901459854014599e-06, 'epoch': 0.19}
+{'loss': 1.951, 'grad_norm': 2.233673572540283, 'learning_rate': 2.9197080291970804e-06, 'epoch': 0.19}
+{'loss': 1.9487, 'grad_norm': 2.1238765716552734, 'learning_rate': 2.9379562043795623e-06, 'epoch': 0.19}
+{'loss': 1.9837, 'grad_norm': 2.143113374710083, 'learning_rate': 2.956204379562044e-06, 'epoch': 0.19}
+{'loss': 1.9536, 'grad_norm': 2.155001640319824, 'learning_rate': 2.9744525547445256e-06, 'epoch': 0.2}
+{'loss': 1.9052, 'grad_norm': 2.1244912147521973, 'learning_rate': 2.992700729927008e-06, 'epoch': 0.2}
+{'loss': 1.8787, 'grad_norm': 2.0239603519439697, 'learning_rate': 3.0109489051094893e-06, 'epoch': 0.2}
+{'eval_loss': 2.0867221355438232, 'eval_runtime': 37.5463, 'eval_samples_per_second': 26.634, 'eval_steps_per_second': 1.119, 'epoch': 0.2}
+{'loss': 1.9829, 'grad_norm': 2.1353626251220703, 'learning_rate': 3.029197080291971e-06, 'epoch': 0.2}
+{'loss': 1.9476, 'grad_norm': 2.121814250946045, 'learning_rate': 3.0474452554744526e-06, 'epoch': 0.2}
+{'loss': 1.9472, 'grad_norm': 2.151813507080078, 'learning_rate': 3.065693430656935e-06, 'epoch': 0.2}
+{'loss': 1.971, 'grad_norm': 2.0869016647338867, 'learning_rate': 3.0839416058394163e-06, 'epoch': 0.2}
+{'loss': 1.9457, 'grad_norm': 2.2785749435424805, 'learning_rate': 3.102189781021898e-06, 'epoch': 0.2}
+{'loss': 1.8844, 'grad_norm': 2.1051018238067627, 'learning_rate': 3.1204379562043796e-06, 'epoch': 0.2}
+{'loss': 1.8706, 'grad_norm': 2.105147123336792, 'learning_rate': 3.1386861313868614e-06, 'epoch': 0.2}
+{'loss': 1.9991, 'grad_norm': 2.2324814796447754, 'learning_rate': 3.156934306569343e-06, 'epoch': 0.21}
+{'loss': 1.9453, 'grad_norm': 2.16664457321167, 'learning_rate': 3.175182481751825e-06, 'epoch': 0.21}
+{'loss': 1.897, 'grad_norm': 2.167127847671509, 'learning_rate': 3.193430656934307e-06, 'epoch': 0.21}
+{'eval_loss': 2.0718705654144287, 'eval_runtime': 37.5163, 'eval_samples_per_second': 26.655, 'eval_steps_per_second': 1.12, 'epoch': 0.21}
+{'loss': 1.92, 'grad_norm': 2.159900188446045, 'learning_rate': 3.2116788321167884e-06, 'epoch': 0.21}
+{'loss': 1.898, 'grad_norm': 2.189061164855957, 'learning_rate': 3.2299270072992707e-06, 'epoch': 0.21}
+{'loss': 1.8446, 'grad_norm': 2.449385166168213, 'learning_rate': 3.248175182481752e-06, 'epoch': 0.21}
+{'loss': 1.9369, 'grad_norm': 2.120814561843872, 'learning_rate': 3.266423357664234e-06, 'epoch': 0.21}
+{'loss': 1.9131, 'grad_norm': 2.2202200889587402, 'learning_rate': 3.2846715328467155e-06, 'epoch': 0.21}
+{'loss': 1.9463, 'grad_norm': 2.3335041999816895, 'learning_rate': 3.3029197080291973e-06, 'epoch': 0.21}
+{'loss': 1.9163, 'grad_norm': 2.213168144226074, 'learning_rate': 3.3211678832116788e-06, 'epoch': 0.22}
+{'loss': 1.9116, 'grad_norm': 2.232455015182495, 'learning_rate': 3.339416058394161e-06, 'epoch': 0.22}
+{'loss': 1.9232, 'grad_norm': 2.473616600036621, 'learning_rate': 3.3576642335766425e-06, 'epoch': 0.22}
+{'loss': 1.9153, 'grad_norm': 2.2508745193481445, 'learning_rate': 3.3759124087591243e-06, 'epoch': 0.22}
+{'eval_loss': 2.0638813972473145, 'eval_runtime': 37.5447, 'eval_samples_per_second': 26.635, 'eval_steps_per_second': 1.119, 'epoch': 0.22}
+{'loss': 1.9039, 'grad_norm': 2.433098316192627, 'learning_rate': 3.3941605839416058e-06, 'epoch': 0.22}
+{'loss': 1.9365, 'grad_norm': 2.379815101623535, 'learning_rate': 3.412408759124088e-06, 'epoch': 0.22}
+{'loss': 1.8417, 'grad_norm': 2.3265531063079834, 'learning_rate': 3.43065693430657e-06, 'epoch': 0.22}
+{'loss': 1.9135, 'grad_norm': 2.430326223373413, 'learning_rate': 3.4489051094890513e-06, 'epoch': 0.22}
+{'loss': 1.8709, 'grad_norm': 2.2470345497131348, 'learning_rate': 3.467153284671533e-06, 'epoch': 0.22}
+{'loss': 1.9038, 'grad_norm': 2.347630739212036, 'learning_rate': 3.4854014598540146e-06, 'epoch': 0.23}
+{'loss': 1.9011, 'grad_norm': 2.3952152729034424, 'learning_rate': 3.503649635036497e-06, 'epoch': 0.23}
+{'loss': 1.9173, 'grad_norm': 2.5916554927825928, 'learning_rate': 3.5218978102189783e-06, 'epoch': 0.23}
+{'loss': 1.9437, 'grad_norm': 2.4153850078582764, 'learning_rate': 3.54014598540146e-06, 'epoch': 0.23}
+{'loss': 1.9833, 'grad_norm': 2.4178760051727295, 'learning_rate': 3.5583941605839416e-06, 'epoch': 0.23}
+{'eval_loss': 2.061569929122925, 'eval_runtime': 37.2077, 'eval_samples_per_second': 26.876, 'eval_steps_per_second': 1.129, 'epoch': 0.23}
+{'loss': 1.982, 'grad_norm': 2.48872971534729, 'learning_rate': 3.576642335766424e-06, 'epoch': 0.23}
+{'loss': 1.8114, 'grad_norm': 2.2173993587493896, 'learning_rate': 3.5948905109489054e-06, 'epoch': 0.23}
+{'loss': 1.8182, 'grad_norm': 2.4113574028015137, 'learning_rate': 3.6131386861313872e-06, 'epoch': 0.23}
+{'loss': 1.8604, 'grad_norm': 2.5224015712738037, 'learning_rate': 3.6313868613138687e-06, 'epoch': 0.23}
+{'loss': 1.8799, 'grad_norm': 2.0962235927581787, 'learning_rate': 3.6496350364963505e-06, 'epoch': 0.24}
+{'loss': 1.8526, 'grad_norm': 2.5095643997192383, 'learning_rate': 3.667883211678833e-06, 'epoch': 0.24}
+{'loss': 1.8512, 'grad_norm': 2.455467700958252, 'learning_rate': 3.6861313868613142e-06, 'epoch': 0.24}
+{'loss': 1.9619, 'grad_norm': 2.3887252807617188, 'learning_rate': 3.704379562043796e-06, 'epoch': 0.24}
+{'loss': 1.9, 'grad_norm': 2.453220844268799, 'learning_rate': 3.7226277372262775e-06, 'epoch': 0.24}
+{'loss': 1.8535, 'grad_norm': 2.243103265762329, 'learning_rate': 3.7408759124087594e-06, 'epoch': 0.24}
+{'eval_loss': 2.055907726287842, 'eval_runtime': 37.4545, 'eval_samples_per_second': 26.699, 'eval_steps_per_second': 1.121, 'epoch': 0.24}
+{'loss': 1.8881, 'grad_norm': 2.460416078567505, 'learning_rate': 3.7591240875912412e-06, 'epoch': 0.24}
+{'loss': 1.8704, 'grad_norm': 2.2320916652679443, 'learning_rate': 3.777372262773723e-06, 'epoch': 0.24}
+{'loss': 1.8717, 'grad_norm': 2.2627718448638916, 'learning_rate': 3.7956204379562045e-06, 'epoch': 0.24}
+{'loss': 1.9072, 'grad_norm': 2.353184223175049, 'learning_rate': 3.8138686131386864e-06, 'epoch': 0.25}
+{'loss': 1.8475, 'grad_norm': 2.29836106300354, 'learning_rate': 3.832116788321168e-06, 'epoch': 0.25}
+{'loss': 1.8437, 'grad_norm': 2.205392837524414, 'learning_rate': 3.85036496350365e-06, 'epoch': 0.25}
+{'loss': 1.863, 'grad_norm': 2.350942611694336, 'learning_rate': 3.868613138686132e-06, 'epoch': 0.25}
+{'loss': 1.892, 'grad_norm': 2.2922635078430176, 'learning_rate': 3.886861313868613e-06, 'epoch': 0.25}
+{'loss': 1.9265, 'grad_norm': 2.330737590789795, 'learning_rate': 3.905109489051096e-06, 'epoch': 0.25}
+{'loss': 1.8544, 'grad_norm': 2.254694938659668, 'learning_rate': 3.923357664233577e-06, 'epoch': 0.25}
+{'eval_loss': 2.038520097732544, 'eval_runtime': 37.5921, 'eval_samples_per_second': 26.601, 'eval_steps_per_second': 1.117, 'epoch': 0.25}
+{'loss': 1.9437, 'grad_norm': 2.3351492881774902, 'learning_rate': 3.9416058394160585e-06, 'epoch': 0.25}
+{'loss': 1.9545, 'grad_norm': 2.367091178894043, 'learning_rate': 3.95985401459854e-06, 'epoch': 0.25}
+{'loss': 1.8116, 'grad_norm': 2.206648826599121, 'learning_rate': 3.978102189781022e-06, 'epoch': 0.26}
+{'loss': 1.9004, 'grad_norm': 2.3464770317077637, 'learning_rate': 3.996350364963504e-06, 'epoch': 0.26}
+{'loss': 1.8075, 'grad_norm': 2.1556813716888428, 'learning_rate': 4.014598540145986e-06, 'epoch': 0.26}
+{'loss': 1.8675, 'grad_norm': 2.3212883472442627, 'learning_rate': 4.032846715328467e-06, 'epoch': 0.26}
+{'loss': 1.8809, 'grad_norm': 2.3315610885620117, 'learning_rate': 4.05109489051095e-06, 'epoch': 0.26}
+{'loss': 1.8335, 'grad_norm': 2.1262927055358887, 'learning_rate': 4.069343065693431e-06, 'epoch': 0.26}
+{'loss': 1.8652, 'grad_norm': 2.2258758544921875, 'learning_rate': 4.0875912408759126e-06, 'epoch': 0.26}
+{'loss': 1.9362, 'grad_norm': 2.473371982574463, 'learning_rate': 4.105839416058395e-06, 'epoch': 0.26}
+{'eval_loss': 2.029909610748291, 'eval_runtime': 37.603, 'eval_samples_per_second': 26.594, 'eval_steps_per_second': 1.117, 'epoch': 0.26}
+{'loss': 1.8588, 'grad_norm': 2.2899465560913086, 'learning_rate': 4.124087591240876e-06, 'epoch': 0.26}
+{'loss': 1.8579, 'grad_norm': 2.341202974319458, 'learning_rate': 4.1423357664233586e-06, 'epoch': 0.27}
+{'loss': 1.9329, 'grad_norm': 2.250565528869629, 'learning_rate': 4.16058394160584e-06, 'epoch': 0.27}
+{'loss': 1.7981, 'grad_norm': 2.315851926803589, 'learning_rate': 4.1788321167883214e-06, 'epoch': 0.27}
+{'loss': 1.873, 'grad_norm': 2.127587080001831, 'learning_rate': 4.197080291970803e-06, 'epoch': 0.27}
+{'loss': 1.8388, 'grad_norm': 2.3217296600341797, 'learning_rate': 4.215328467153285e-06, 'epoch': 0.27}
+{'loss': 1.8393, 'grad_norm': 2.3156185150146484, 'learning_rate': 4.233576642335767e-06, 'epoch': 0.27}
+{'loss': 1.8608, 'grad_norm': 2.355689764022827, 'learning_rate': 4.251824817518249e-06, 'epoch': 0.27}
+{'loss': 1.8226, 'grad_norm': 2.6184194087982178, 'learning_rate': 4.27007299270073e-06, 'epoch': 0.27}
+{'loss': 1.8276, 'grad_norm': 2.220353364944458, 'learning_rate': 4.288321167883212e-06, 'epoch': 0.27}
+{'eval_loss': 2.0265400409698486, 'eval_runtime': 37.6205, 'eval_samples_per_second': 26.581, 'eval_steps_per_second': 1.116, 'epoch': 0.27}
+{'loss': 1.8073, 'grad_norm': 2.1850104331970215, 'learning_rate': 4.306569343065693e-06, 'epoch': 0.28}
+{'loss': 1.8583, 'grad_norm': 2.6084048748016357, 'learning_rate': 4.3248175182481755e-06, 'epoch': 0.28}
+{'loss': 1.8585, 'grad_norm': 2.160498857498169, 'learning_rate': 4.343065693430658e-06, 'epoch': 0.28}
+{'loss': 1.8349, 'grad_norm': 2.2622146606445312, 'learning_rate': 4.361313868613139e-06, 'epoch': 0.28}
+{'loss': 1.8929, 'grad_norm': 2.4656877517700195, 'learning_rate': 4.379562043795621e-06, 'epoch': 0.28}
+{'loss': 1.8653, 'grad_norm': 2.3826241493225098, 'learning_rate': 4.397810218978102e-06, 'epoch': 0.28}
+{'loss': 1.85, 'grad_norm': 2.237438201904297, 'learning_rate': 4.416058394160584e-06, 'epoch': 0.28}
+{'loss': 1.8254, 'grad_norm': 2.3295555114746094, 'learning_rate': 4.434306569343066e-06, 'epoch': 0.28}
+{'loss': 1.8817, 'grad_norm': 2.3017091751098633, 'learning_rate': 4.452554744525548e-06, 'epoch': 0.28}
+{'loss': 1.8779, 'grad_norm': 2.3207852840423584, 'learning_rate': 4.4708029197080295e-06, 'epoch': 0.28}
+{'eval_loss': 2.0230515003204346, 'eval_runtime': 37.6214, 'eval_samples_per_second': 26.581, 'eval_steps_per_second': 1.116, 'epoch': 0.28}
+{'loss': 1.9095, 'grad_norm': 2.4378299713134766, 'learning_rate': 4.489051094890512e-06, 'epoch': 0.29}
+{'loss': 1.8711, 'grad_norm': 2.4173672199249268, 'learning_rate': 4.507299270072993e-06, 'epoch': 0.29}
+{'loss': 1.8438, 'grad_norm': 2.271635055541992, 'learning_rate': 4.525547445255475e-06, 'epoch': 0.29}
+{'loss': 1.8045, 'grad_norm': 2.3858346939086914, 'learning_rate': 4.543795620437956e-06, 'epoch': 0.29}
+{'loss': 1.9045, 'grad_norm': 2.441725492477417, 'learning_rate': 4.562043795620438e-06, 'epoch': 0.29}
+{'loss': 1.9013, 'grad_norm': 2.4232261180877686, 'learning_rate': 4.580291970802921e-06, 'epoch': 0.29}
+{'loss': 1.8693, 'grad_norm': 2.119018316268921, 'learning_rate': 4.598540145985402e-06, 'epoch': 0.29}
+{'loss': 1.8341, 'grad_norm': 2.166229248046875, 'learning_rate': 4.6167883211678835e-06, 'epoch': 0.29}
+{'loss': 1.845, 'grad_norm': 2.368216037750244, 'learning_rate': 4.635036496350365e-06, 'epoch': 0.29}
+{'loss': 1.8766, 'grad_norm': 2.308919906616211, 'learning_rate': 4.653284671532847e-06, 'epoch': 0.3}
+{'eval_loss': 2.017495632171631, 'eval_runtime': 37.6239, 'eval_samples_per_second': 26.579, 'eval_steps_per_second': 1.116, 'epoch': 0.3}
+{'loss': 1.8674, 'grad_norm': 2.3905389308929443, 'learning_rate': 4.671532846715329e-06, 'epoch': 0.3}
+{'loss': 1.841, 'grad_norm': 2.302680253982544, 'learning_rate': 4.689781021897811e-06, 'epoch': 0.3}
+{'loss': 1.9067, 'grad_norm': 2.2319424152374268, 'learning_rate': 4.708029197080292e-06, 'epoch': 0.3}
+{'loss': 1.8732, 'grad_norm': 2.4524872303009033, 'learning_rate': 4.726277372262774e-06, 'epoch': 0.3}
+{'loss': 1.8079, 'grad_norm': 2.1817257404327393, 'learning_rate': 4.744525547445255e-06, 'epoch': 0.3}
+{'loss': 1.8586, 'grad_norm': 2.3250961303710938, 'learning_rate': 4.7627737226277375e-06, 'epoch': 0.3}
+{'loss': 1.8698, 'grad_norm': 2.182236433029175, 'learning_rate': 4.78102189781022e-06, 'epoch': 0.3}
+{'loss': 1.8226, 'grad_norm': 2.2242977619171143, 'learning_rate': 4.799270072992701e-06, 'epoch': 0.3}
+{'loss': 1.8584, 'grad_norm': 2.2160160541534424, 'learning_rate': 4.8175182481751835e-06, 'epoch': 0.31}
+{'loss': 1.8662, 'grad_norm': 2.193024158477783, 'learning_rate': 4.835766423357665e-06, 'epoch': 0.31}
+{'eval_loss': 2.0126590728759766, 'eval_runtime': 37.6092, 'eval_samples_per_second': 26.589, 'eval_steps_per_second': 1.117, 'epoch': 0.31}
+{'loss': 1.7882, 'grad_norm': 2.1310014724731445, 'learning_rate': 4.854014598540146e-06, 'epoch': 0.31}
+{'loss': 1.8191, 'grad_norm': 2.2161967754364014, 'learning_rate': 4.872262773722628e-06, 'epoch': 0.31}
+{'loss': 1.8012, 'grad_norm': 2.1727819442749023, 'learning_rate': 4.89051094890511e-06, 'epoch': 0.31}
+{'loss': 1.8362, 'grad_norm': 2.1052205562591553, 'learning_rate': 4.9087591240875915e-06, 'epoch': 0.31}
+{'loss': 1.8531, 'grad_norm': 2.0694937705993652, 'learning_rate': 4.927007299270074e-06, 'epoch': 0.31}
+{'loss': 1.8137, 'grad_norm': 2.153886556625366, 'learning_rate': 4.945255474452555e-06, 'epoch': 0.31}
+{'loss': 1.9031, 'grad_norm': 2.268479824066162, 'learning_rate': 4.963503649635037e-06, 'epoch': 0.31}
+{'loss': 1.8859, 'grad_norm': 2.3675668239593506, 'learning_rate': 4.981751824817518e-06, 'epoch': 0.32}
+{'loss': 1.8457, 'grad_norm': 2.4860525131225586, 'learning_rate': 5e-06, 'epoch': 0.32}
+{'loss': 1.8595, 'grad_norm': 2.222447395324707, 'learning_rate': 4.997969130787978e-06, 'epoch': 0.32}
+{'eval_loss': 2.0030221939086914, 'eval_runtime': 37.6304, 'eval_samples_per_second': 26.574, 'eval_steps_per_second': 1.116, 'epoch': 0.32}
+{'loss': 1.7858, 'grad_norm': 2.1687753200531006, 'learning_rate': 4.995938261575955e-06, 'epoch': 0.32}
+{'loss': 1.8703, 'grad_norm': 2.243180990219116, 'learning_rate': 4.993907392363932e-06, 'epoch': 0.32}
+{'loss': 1.7994, 'grad_norm': 2.2789454460144043, 'learning_rate': 4.9918765231519095e-06, 'epoch': 0.32}
+{'loss': 1.8151, 'grad_norm': 2.266880989074707, 'learning_rate': 4.989845653939887e-06, 'epoch': 0.32}
+{'loss': 1.8278, 'grad_norm': 2.3537352085113525, 'learning_rate': 4.987814784727864e-06, 'epoch': 0.32}
+{'loss': 1.8122, 'grad_norm': 2.4825775623321533, 'learning_rate': 4.985783915515841e-06, 'epoch': 0.32}
+{'loss': 1.8203, 'grad_norm': 2.3374974727630615, 'learning_rate': 4.983753046303819e-06, 'epoch': 0.33}
+{'loss': 1.8011, 'grad_norm': 2.241361141204834, 'learning_rate': 4.981722177091796e-06, 'epoch': 0.33}
+{'loss': 1.8266, 'grad_norm': 2.2587170600891113, 'learning_rate': 4.979691307879773e-06, 'epoch': 0.33}
+{'loss': 1.8407, 'grad_norm': 2.2033231258392334, 'learning_rate': 4.9776604386677504e-06, 'epoch': 0.33}
+{'eval_loss': 1.9976376295089722, 'eval_runtime': 37.6339, 'eval_samples_per_second': 26.572, 'eval_steps_per_second': 1.116, 'epoch': 0.33}
+{'loss': 1.878, 'grad_norm': 2.2353317737579346, 'learning_rate': 4.975629569455728e-06, 'epoch': 0.33}
+{'loss': 1.7856, 'grad_norm': 2.4276442527770996, 'learning_rate': 4.973598700243705e-06, 'epoch': 0.33}
+{'loss': 1.8122, 'grad_norm': 2.2194998264312744, 'learning_rate': 4.971567831031681e-06, 'epoch': 0.33}
+{'loss': 1.6926, 'grad_norm': 2.2246201038360596, 'learning_rate': 4.9695369618196595e-06, 'epoch': 0.33}
+{'loss': 1.7718, 'grad_norm': 2.3185276985168457, 'learning_rate': 4.967506092607636e-06, 'epoch': 0.33}
+{'loss': 1.7972, 'grad_norm': 2.2563421726226807, 'learning_rate': 4.965475223395614e-06, 'epoch': 0.34}
+{'loss': 1.7788, 'grad_norm': 2.2831625938415527, 'learning_rate': 4.9634443541835905e-06, 'epoch': 0.34}
+{'loss': 1.829, 'grad_norm': 2.290727376937866, 'learning_rate': 4.961413484971569e-06, 'epoch': 0.34}
+{'loss': 1.8066, 'grad_norm': 2.3587822914123535, 'learning_rate': 4.959382615759545e-06, 'epoch': 0.34}
+{'loss': 1.798, 'grad_norm': 2.0313491821289062, 'learning_rate': 4.957351746547523e-06, 'epoch': 0.34}
+{'eval_loss': 2.0013062953948975, 'eval_runtime': 37.2229, 'eval_samples_per_second': 26.865, 'eval_steps_per_second': 1.128, 'epoch': 0.34}
+{'loss': 1.9312, 'grad_norm': 2.2451865673065186, 'learning_rate': 4.9553208773355e-06, 'epoch': 0.34}
+{'loss': 1.811, 'grad_norm': 2.4106061458587646, 'learning_rate': 4.953290008123478e-06, 'epoch': 0.34}
+{'loss': 1.7764, 'grad_norm': 2.26955509185791, 'learning_rate': 4.951259138911454e-06, 'epoch': 0.34}
+{'loss': 1.8887, 'grad_norm': 2.410154104232788, 'learning_rate': 4.9492282696994315e-06, 'epoch': 0.34}
+{'loss': 1.814, 'grad_norm': 2.425799608230591, 'learning_rate': 4.947197400487409e-06, 'epoch': 0.35}
+{'loss': 1.7916, 'grad_norm': 2.2039833068847656, 'learning_rate': 4.945166531275386e-06, 'epoch': 0.35}
+{'loss': 1.8173, 'grad_norm': 2.317683458328247, 'learning_rate': 4.943135662063363e-06, 'epoch': 0.35}
+{'loss': 1.8673, 'grad_norm': 2.3427894115448, 'learning_rate': 4.9411047928513406e-06, 'epoch': 0.35}
+{'loss': 1.8634, 'grad_norm': 2.241769552230835, 'learning_rate': 4.939073923639318e-06, 'epoch': 0.35}
+{'loss': 1.7919, 'grad_norm': 2.241523027420044, 'learning_rate': 4.937043054427295e-06, 'epoch': 0.35}
+{'eval_loss': 1.9934608936309814, 'eval_runtime': 37.5131, 'eval_samples_per_second': 26.657, 'eval_steps_per_second': 1.12, 'epoch': 0.35}
+{'loss': 1.7709, 'grad_norm': 2.409064531326294, 'learning_rate': 4.935012185215272e-06, 'epoch': 0.35}
+{'loss': 1.8445, 'grad_norm': 2.310605525970459, 'learning_rate': 4.93298131600325e-06, 'epoch': 0.35}
+{'loss': 1.8206, 'grad_norm': 2.2025630474090576, 'learning_rate': 4.930950446791227e-06, 'epoch': 0.35}
+{'loss': 1.8361, 'grad_norm': 2.479771137237549, 'learning_rate': 4.928919577579204e-06, 'epoch': 0.36}
+{'loss': 1.8175, 'grad_norm': 2.3156471252441406, 'learning_rate': 4.9268887083671815e-06, 'epoch': 0.36}
+{'loss': 1.8012, 'grad_norm': 2.357529640197754, 'learning_rate': 4.924857839155159e-06, 'epoch': 0.36}
+{'loss': 1.8245, 'grad_norm': 2.210376739501953, 'learning_rate': 4.922826969943136e-06, 'epoch': 0.36}
+{'loss': 1.7489, 'grad_norm': 2.3341422080993652, 'learning_rate': 4.920796100731113e-06, 'epoch': 0.36}
+{'loss': 1.8118, 'grad_norm': 2.250788927078247, 'learning_rate': 4.918765231519091e-06, 'epoch': 0.36}
+{'loss': 1.7772, 'grad_norm': 2.459629774093628, 'learning_rate': 4.916734362307068e-06, 'epoch': 0.36}
+{'eval_loss': 1.9929448366165161, 'eval_runtime': 37.6201, 'eval_samples_per_second': 26.582, 'eval_steps_per_second': 1.116, 'epoch': 0.36}
+{'loss': 1.7765, 'grad_norm': 2.298661470413208, 'learning_rate': 4.914703493095045e-06, 'epoch': 0.36}
+{'loss': 1.7739, 'grad_norm': 2.4840409755706787, 'learning_rate': 4.912672623883022e-06, 'epoch': 0.36}
+{'loss': 1.8113, 'grad_norm': 2.226468324661255, 'learning_rate': 4.910641754671e-06, 'epoch': 0.36}
+{'loss': 1.7878, 'grad_norm': 2.323258876800537, 'learning_rate': 4.908610885458977e-06, 'epoch': 0.37}
+{'loss': 1.836, 'grad_norm': 2.261918067932129, 'learning_rate': 4.906580016246954e-06, 'epoch': 0.37}
+{'loss': 1.8205, 'grad_norm': 2.323974132537842, 'learning_rate': 4.9045491470349315e-06, 'epoch': 0.37}
+{'loss': 1.8201, 'grad_norm': 2.369145154953003, 'learning_rate': 4.902518277822909e-06, 'epoch': 0.37}
+{'loss': 1.8245, 'grad_norm': 2.239563465118408, 'learning_rate': 4.900487408610886e-06, 'epoch': 0.37}
+{'loss': 1.843, 'grad_norm': 2.352982521057129, 'learning_rate': 4.898456539398863e-06, 'epoch': 0.37}
+{'loss': 1.901, 'grad_norm': 2.407438278198242, 'learning_rate': 4.89642567018684e-06, 'epoch': 0.37}
+{'eval_loss': 1.9842272996902466, 'eval_runtime': 37.6262, 'eval_samples_per_second': 26.577, 'eval_steps_per_second': 1.116, 'epoch': 0.37}
+{'loss': 1.768, 'grad_norm': 2.183852195739746, 'learning_rate': 4.894394800974818e-06, 'epoch': 0.37}
+{'loss': 1.8543, 'grad_norm': 2.4076640605926514, 'learning_rate': 4.892363931762794e-06, 'epoch': 0.37}
+{'loss': 1.7796, 'grad_norm': 2.2705819606781006, 'learning_rate': 4.8903330625507725e-06, 'epoch': 0.38}
+{'loss': 1.7455, 'grad_norm': 2.203378915786743, 'learning_rate': 4.888302193338749e-06, 'epoch': 0.38}
+{'loss': 1.8647, 'grad_norm': 2.3128445148468018, 'learning_rate': 4.886271324126727e-06, 'epoch': 0.38}
+{'loss': 1.8458, 'grad_norm': 2.130441188812256, 'learning_rate': 4.8842404549147034e-06, 'epoch': 0.38}
+{'loss': 1.7976, 'grad_norm': 2.254701614379883, 'learning_rate': 4.8822095857026816e-06, 'epoch': 0.38}
+{'loss': 1.7679, 'grad_norm': 2.2944090366363525, 'learning_rate': 4.880178716490658e-06, 'epoch': 0.38}
+{'loss': 1.7671, 'grad_norm': 2.1437971591949463, 'learning_rate': 4.878147847278636e-06, 'epoch': 0.38}
+{'loss': 1.7374, 'grad_norm': 2.2312979698181152, 'learning_rate': 4.8761169780666125e-06, 'epoch': 0.38}
+{'eval_loss': 1.9770691394805908, 'eval_runtime': 37.6539, 'eval_samples_per_second': 26.558, 'eval_steps_per_second': 1.115, 'epoch': 0.38}
+{'loss': 1.7727, 'grad_norm': 2.3444907665252686, 'learning_rate': 4.874086108854591e-06, 'epoch': 0.38}
+{'loss': 1.727, 'grad_norm': 2.2770562171936035, 'learning_rate': 4.872055239642567e-06, 'epoch': 0.39}
+{'loss': 1.7929, 'grad_norm': 2.1222782135009766, 'learning_rate': 4.870024370430544e-06, 'epoch': 0.39}
+{'loss': 1.8146, 'grad_norm': 2.2620954513549805, 'learning_rate': 4.867993501218522e-06, 'epoch': 0.39}
+{'loss': 1.75, 'grad_norm': 2.3549208641052246, 'learning_rate': 4.865962632006499e-06, 'epoch': 0.39}
+{'loss': 1.8041, 'grad_norm': 2.327918767929077, 'learning_rate': 4.863931762794476e-06, 'epoch': 0.39}
+{'loss': 1.8247, 'grad_norm': 2.223874807357788, 'learning_rate': 4.8619008935824535e-06, 'epoch': 0.39}
+{'loss': 1.8307, 'grad_norm': 2.5356645584106445, 'learning_rate': 4.859870024370431e-06, 'epoch': 0.39}
+{'loss': 1.8509, 'grad_norm': 2.29278302192688, 'learning_rate': 4.857839155158408e-06, 'epoch': 0.39}
+{'loss': 1.7967, 'grad_norm': 2.3437745571136475, 'learning_rate': 4.855808285946385e-06, 'epoch': 0.39}
+{'eval_loss': 1.971816897392273, 'eval_runtime': 37.6794, 'eval_samples_per_second': 26.54, 'eval_steps_per_second': 1.115, 'epoch': 0.39}
+{'loss': 1.7852, 'grad_norm': 2.1245334148406982, 'learning_rate': 4.8537774167343626e-06, 'epoch': 0.4}
+{'loss': 1.8045, 'grad_norm': 2.31704044342041, 'learning_rate': 4.85174654752234e-06, 'epoch': 0.4}
+{'loss': 1.8076, 'grad_norm': 2.216369867324829, 'learning_rate': 4.849715678310317e-06, 'epoch': 0.4}
+{'loss': 1.7784, 'grad_norm': 2.2713348865509033, 'learning_rate': 4.847684809098294e-06, 'epoch': 0.4}
+{'loss': 1.7971, 'grad_norm': 2.3308873176574707, 'learning_rate': 4.845653939886272e-06, 'epoch': 0.4}
+{'loss': 1.7853, 'grad_norm': 2.262284994125366, 'learning_rate': 4.843623070674249e-06, 'epoch': 0.4}
+{'loss': 1.8287, 'grad_norm': 2.1993296146392822, 'learning_rate': 4.841592201462226e-06, 'epoch': 0.4}
+{'loss': 1.7476, 'grad_norm': 2.191413640975952, 'learning_rate': 4.8395613322502035e-06, 'epoch': 0.4}
+{'loss': 1.7675, 'grad_norm': 2.2965543270111084, 'learning_rate': 4.837530463038181e-06, 'epoch': 0.4}
+{'loss': 1.8201, 'grad_norm': 2.212617874145508, 'learning_rate': 4.835499593826158e-06, 'epoch': 0.41}
+{'eval_loss': 1.9680278301239014, 'eval_runtime': 37.6468, 'eval_samples_per_second': 26.563, 'eval_steps_per_second': 1.116, 'epoch': 0.41}
+{'loss': 1.7875, 'grad_norm': 2.1487793922424316, 'learning_rate': 4.833468724614135e-06, 'epoch': 0.41}
+{'loss': 1.692, 'grad_norm': 2.293311834335327, 'learning_rate': 4.831437855402113e-06, 'epoch': 0.41}
+{'loss': 1.7768, 'grad_norm': 2.267871141433716, 'learning_rate': 4.82940698619009e-06, 'epoch': 0.41}
+{'loss': 1.8114, 'grad_norm': 2.371081590652466, 'learning_rate': 4.827376116978067e-06, 'epoch': 0.41}
+{'loss': 1.811, 'grad_norm': 2.2148337364196777, 'learning_rate': 4.8253452477660444e-06, 'epoch': 0.41}
+{'loss': 1.8215, 'grad_norm': 2.142409324645996, 'learning_rate': 4.823314378554022e-06, 'epoch': 0.41}
+{'loss': 1.7777, 'grad_norm': 2.2456514835357666, 'learning_rate': 4.821283509341998e-06, 'epoch': 0.41}
+{'loss': 1.778, 'grad_norm': 2.238079071044922, 'learning_rate': 4.819252640129976e-06, 'epoch': 0.41}
+{'loss': 1.7449, 'grad_norm': 2.301211357116699, 'learning_rate': 4.817221770917953e-06, 'epoch': 0.42}
+{'loss': 1.7975, 'grad_norm': 2.276768922805786, 'learning_rate': 4.815190901705931e-06, 'epoch': 0.42}
+{'eval_loss': 1.9645977020263672, 'eval_runtime': 37.6293, 'eval_samples_per_second': 26.575, 'eval_steps_per_second': 1.116, 'epoch': 0.42}
+{'loss': 1.7545, 'grad_norm': 2.276768922805786, 'learning_rate': 4.815190901705931e-06, 'epoch': 0.42}
+{'loss': 1.8166, 'grad_norm': 2.4056992530822754, 'learning_rate': 4.813160032493907e-06, 'epoch': 0.42}
+{'loss': 1.7938, 'grad_norm': 2.26495099067688, 'learning_rate': 4.811129163281885e-06, 'epoch': 0.42}
+{'loss': 1.8449, 'grad_norm': 2.435746192932129, 'learning_rate': 4.809098294069862e-06, 'epoch': 0.42}
+{'loss': 1.7644, 'grad_norm': 2.379126787185669, 'learning_rate': 4.80706742485784e-06, 'epoch': 0.42}
+{'loss': 1.8361, 'grad_norm': 2.4255118370056152, 'learning_rate': 4.805036555645816e-06, 'epoch': 0.42}
+{'loss': 1.7773, 'grad_norm': 2.4617624282836914, 'learning_rate': 4.8030056864337945e-06, 'epoch': 0.42}
+{'loss': 1.7905, 'grad_norm': 2.2151389122009277, 'learning_rate': 4.800974817221771e-06, 'epoch': 0.43}
+{'loss': 1.7989, 'grad_norm': 2.309539556503296, 'learning_rate': 4.798943948009749e-06, 'epoch': 0.43}
+{'loss': 1.8203, 'grad_norm': 2.2209279537200928, 'learning_rate': 4.7969130787977254e-06, 'epoch': 0.43}
+{'eval_loss': 1.9600040912628174, 'eval_runtime': 37.6268, 'eval_samples_per_second': 26.577, 'eval_steps_per_second': 1.116, 'epoch': 0.43}
+{'loss': 1.7575, 'grad_norm': 2.1693506240844727, 'learning_rate': 4.794882209585703e-06, 'epoch': 0.43}
+{'loss': 1.7697, 'grad_norm': 2.1591408252716064, 'learning_rate': 4.79285134037368e-06, 'epoch': 0.43}
+{'loss': 1.762, 'grad_norm': 2.127176523208618, 'learning_rate': 4.790820471161657e-06, 'epoch': 0.43}
+{'loss': 1.8131, 'grad_norm': 2.4599215984344482, 'learning_rate': 4.7887896019496345e-06, 'epoch': 0.43}
+{'loss': 1.7238, 'grad_norm': 2.1447947025299072, 'learning_rate': 4.786758732737612e-06, 'epoch': 0.43}
+{'loss': 1.79, 'grad_norm': 2.384659767150879, 'learning_rate': 4.784727863525589e-06, 'epoch': 0.43}
+{'loss': 1.7271, 'grad_norm': 2.279340982437134, 'learning_rate': 4.782696994313566e-06, 'epoch': 0.44}
+{'loss': 1.7521, 'grad_norm': 2.1930062770843506, 'learning_rate': 4.780666125101544e-06, 'epoch': 0.44}
+{'loss': 1.7671, 'grad_norm': 2.1886017322540283, 'learning_rate': 4.778635255889521e-06, 'epoch': 0.44}
+{'loss': 1.8292, 'grad_norm': 2.3806073665618896, 'learning_rate': 4.776604386677498e-06, 'epoch': 0.44}
+{'eval_loss': 1.9550666809082031, 'eval_runtime': 37.5852, 'eval_samples_per_second': 26.606, 'eval_steps_per_second': 1.117, 'epoch': 0.44}
+{'loss': 1.8091, 'grad_norm': 2.252230405807495, 'learning_rate': 4.7745735174654755e-06, 'epoch': 0.44}
+{'loss': 1.7377, 'grad_norm': 2.281161069869995, 'learning_rate': 4.772542648253453e-06, 'epoch': 0.44}
+{'loss': 1.7906, 'grad_norm': 2.2656748294830322, 'learning_rate': 4.77051177904143e-06, 'epoch': 0.44}
+{'loss': 1.7732, 'grad_norm': 2.304748058319092, 'learning_rate': 4.768480909829407e-06, 'epoch': 0.44}
+{'loss': 1.8287, 'grad_norm': 2.467017650604248, 'learning_rate': 4.766450040617385e-06, 'epoch': 0.44}
+{'loss': 1.7898, 'grad_norm': 2.4142565727233887, 'learning_rate': 4.764419171405362e-06, 'epoch': 0.44}
+{'loss': 1.7771, 'grad_norm': 2.1503560543060303, 'learning_rate': 4.762388302193339e-06, 'epoch': 0.45}
+{'loss': 1.7837, 'grad_norm': 2.2801599502563477, 'learning_rate': 4.760357432981316e-06, 'epoch': 0.45}
+{'loss': 1.7898, 'grad_norm': 2.2997000217437744, 'learning_rate': 4.758326563769294e-06, 'epoch': 0.45}
+{'loss': 1.7331, 'grad_norm': 2.290274143218994, 'learning_rate': 4.756295694557271e-06, 'epoch': 0.45}
+{'eval_loss': 1.9568477869033813, 'eval_runtime': 37.1259, 'eval_samples_per_second': 26.935, 'eval_steps_per_second': 1.131, 'epoch': 0.45}
+{'loss': 1.7482, 'grad_norm': 2.285478115081787, 'learning_rate': 4.754264825345248e-06, 'epoch': 0.45}
+{'loss': 1.693, 'grad_norm': 2.34566330909729, 'learning_rate': 4.7522339561332255e-06, 'epoch': 0.45}
+{'loss': 1.8183, 'grad_norm': 2.38169527053833, 'learning_rate': 4.750203086921203e-06, 'epoch': 0.45}
+{'loss': 1.8213, 'grad_norm': 2.3977997303009033, 'learning_rate': 4.74817221770918e-06, 'epoch': 0.45}
+{'loss': 1.7088, 'grad_norm': 2.2181525230407715, 'learning_rate': 4.7461413484971565e-06, 'epoch': 0.45}
+{'loss': 1.7329, 'grad_norm': 2.1965830326080322, 'learning_rate': 4.744110479285135e-06, 'epoch': 0.46}
+{'loss': 1.7742, 'grad_norm': 2.2552757263183594, 'learning_rate': 4.742079610073111e-06, 'epoch': 0.46}
+{'loss': 1.777, 'grad_norm': 2.291799783706665, 'learning_rate': 4.740048740861089e-06, 'epoch': 0.46}
+{'loss': 1.8132, 'grad_norm': 2.256223440170288, 'learning_rate': 4.738017871649066e-06, 'epoch': 0.46}
+{'loss': 1.8393, 'grad_norm': 2.294621467590332, 'learning_rate': 4.735987002437044e-06, 'epoch': 0.46}
+{'eval_loss': 1.9577080011367798, 'eval_runtime': 37.4227, 'eval_samples_per_second': 26.722, 'eval_steps_per_second': 1.122, 'epoch': 0.46}
+{'loss': 1.8154, 'grad_norm': 2.511763095855713, 'learning_rate': 4.73395613322502e-06, 'epoch': 0.46}
+{'loss': 1.7333, 'grad_norm': 2.4275739192962646, 'learning_rate': 4.731925264012998e-06, 'epoch': 0.46}
+{'loss': 1.6996, 'grad_norm': 2.226107120513916, 'learning_rate': 4.729894394800975e-06, 'epoch': 0.46}
+{'loss': 1.736, 'grad_norm': 2.367131233215332, 'learning_rate': 4.727863525588953e-06, 'epoch': 0.46}
+{'loss': 1.7987, 'grad_norm': 2.5839929580688477, 'learning_rate': 4.725832656376929e-06, 'epoch': 0.47}
+{'loss': 1.7348, 'grad_norm': 2.184453248977661, 'learning_rate': 4.723801787164907e-06, 'epoch': 0.47}
+{'loss': 1.7648, 'grad_norm': 2.3267712593078613, 'learning_rate': 4.721770917952885e-06, 'epoch': 0.47}
+{'loss': 1.7944, 'grad_norm': 2.2406187057495117, 'learning_rate': 4.719740048740861e-06, 'epoch': 0.47}
+{'loss': 1.7705, 'grad_norm': 2.3503947257995605, 'learning_rate': 4.717709179528839e-06, 'epoch': 0.47}
+{'loss': 1.729, 'grad_norm': 2.4356467723846436, 'learning_rate': 4.715678310316816e-06, 'epoch': 0.47}
+{'eval_loss': 1.9486063718795776, 'eval_runtime': 37.5484, 'eval_samples_per_second': 26.632, 'eval_steps_per_second': 1.119, 'epoch': 0.47}
+{'loss': 1.7325, 'grad_norm': 2.365154266357422, 'learning_rate': 4.713647441104794e-06, 'epoch': 0.47}
+{'loss': 1.8025, 'grad_norm': 2.2638988494873047, 'learning_rate': 4.71161657189277e-06, 'epoch': 0.47}
+{'loss': 1.8577, 'grad_norm': 2.3216440677642822, 'learning_rate': 4.709585702680748e-06, 'epoch': 0.47}
+{'loss': 1.7375, 'grad_norm': 2.3836398124694824, 'learning_rate': 4.707554833468725e-06, 'epoch': 0.48}
+{'loss': 1.7528, 'grad_norm': 2.3046388626098633, 'learning_rate': 4.705523964256703e-06, 'epoch': 0.48}
+{'loss': 1.6941, 'grad_norm': 2.2025866508483887, 'learning_rate': 4.703493095044679e-06, 'epoch': 0.48}
+{'loss': 1.8415, 'grad_norm': 2.4064974784851074, 'learning_rate': 4.701462225832657e-06, 'epoch': 0.48}
+{'loss': 1.7874, 'grad_norm': 2.164308547973633, 'learning_rate': 4.699431356620634e-06, 'epoch': 0.48}
+{'loss': 1.7698, 'grad_norm': 2.1913399696350098, 'learning_rate': 4.697400487408612e-06, 'epoch': 0.48}
+{'loss': 1.7433, 'grad_norm': 2.3655929565429688, 'learning_rate': 4.695369618196588e-06, 'epoch': 0.48}
+{'eval_loss': 1.942324161529541, 'eval_runtime': 37.5745, 'eval_samples_per_second': 26.614, 'eval_steps_per_second': 1.118, 'epoch': 0.48}
+{'loss': 1.718, 'grad_norm': 2.2510900497436523, 'learning_rate': 4.693338748984566e-06, 'epoch': 0.48}
+{'loss': 1.8025, 'grad_norm': 2.5419816970825195, 'learning_rate': 4.691307879772543e-06, 'epoch': 0.48}
+{'loss': 1.7738, 'grad_norm': 2.32732892036438, 'learning_rate': 4.68927701056052e-06, 'epoch': 0.49}
+{'loss': 1.7701, 'grad_norm': 2.212078809738159, 'learning_rate': 4.6872461413484975e-06, 'epoch': 0.49}
+{'loss': 1.7615, 'grad_norm': 2.3165087699890137, 'learning_rate': 4.685215272136475e-06, 'epoch': 0.49}
+{'loss': 1.8394, 'grad_norm': 2.4747626781463623, 'learning_rate': 4.683184402924452e-06, 'epoch': 0.49}
+{'loss': 1.7432, 'grad_norm': 2.184939384460449, 'learning_rate': 4.681153533712429e-06, 'epoch': 0.49}
+{'loss': 1.6988, 'grad_norm': 2.2136385440826416, 'learning_rate': 4.679122664500407e-06, 'epoch': 0.49}
+{'loss': 1.8134, 'grad_norm': 2.430095672607422, 'learning_rate': 4.677091795288384e-06, 'epoch': 0.49}
+{'loss': 1.7005, 'grad_norm': 2.265124797821045, 'learning_rate': 4.675060926076361e-06, 'epoch': 0.49}
+{'eval_loss': 1.9437041282653809, 'eval_runtime': 37.5784, 'eval_samples_per_second': 26.611, 'eval_steps_per_second': 1.118, 'epoch': 0.49}
+{'loss': 1.7264, 'grad_norm': 2.3407957553863525, 'learning_rate': 4.673030056864338e-06, 'epoch': 0.49}
+{'loss': 1.7093, 'grad_norm': 2.1982221603393555, 'learning_rate': 4.670999187652316e-06, 'epoch': 0.5}
+{'loss': 1.7925, 'grad_norm': 2.3709726333618164, 'learning_rate': 4.668968318440293e-06, 'epoch': 0.5}
+{'loss': 1.6995, 'grad_norm': 2.309514284133911, 'learning_rate': 4.66693744922827e-06, 'epoch': 0.5}
+{'loss': 1.7619, 'grad_norm': 2.28287935256958, 'learning_rate': 4.6649065800162475e-06, 'epoch': 0.5}
+{'loss': 1.6902, 'grad_norm': 2.1693286895751953, 'learning_rate': 4.662875710804225e-06, 'epoch': 0.5}
+{'loss': 1.8021, 'grad_norm': 2.401550769805908, 'learning_rate': 4.660844841592202e-06, 'epoch': 0.5}
+{'loss': 1.6809, 'grad_norm': 2.253094434738159, 'learning_rate': 4.658813972380179e-06, 'epoch': 0.5}
+{'loss': 1.7632, 'grad_norm': 2.331613063812256, 'learning_rate': 4.656783103168157e-06, 'epoch': 0.5}
+{'loss': 1.7487, 'grad_norm': 2.4381940364837646, 'learning_rate': 4.654752233956134e-06, 'epoch': 0.5}
+{'eval_loss': 1.9451417922973633, 'eval_runtime': 37.5849, 'eval_samples_per_second': 26.606, 'eval_steps_per_second': 1.117, 'epoch': 0.5}
+{'loss': 1.8016, 'grad_norm': 2.336751937866211, 'learning_rate': 4.652721364744111e-06, 'epoch': 0.51}
+{'loss': 1.7853, 'grad_norm': 2.410050392150879, 'learning_rate': 4.6506904955320885e-06, 'epoch': 0.51}
+{'loss': 1.7428, 'grad_norm': 2.243668794631958, 'learning_rate': 4.648659626320066e-06, 'epoch': 0.51}
+{'loss': 1.7103, 'grad_norm': 2.2722959518432617, 'learning_rate': 4.646628757108043e-06, 'epoch': 0.51}
+{'loss': 1.7483, 'grad_norm': 2.4366557598114014, 'learning_rate': 4.6445978878960194e-06, 'epoch': 0.51}
+{'loss': 1.7847, 'grad_norm': 2.4731271266937256, 'learning_rate': 4.6425670186839976e-06, 'epoch': 0.51}
+{'loss': 1.7945, 'grad_norm': 2.552546501159668, 'learning_rate': 4.640536149471974e-06, 'epoch': 0.51}
+{'loss': 1.7548, 'grad_norm': 2.3188161849975586, 'learning_rate': 4.638505280259952e-06, 'epoch': 0.51}
+{'loss': 1.7799, 'grad_norm': 2.2541725635528564, 'learning_rate': 4.6364744110479285e-06, 'epoch': 0.51}
+{'loss': 1.7517, 'grad_norm': 2.3723161220550537, 'learning_rate': 4.634443541835907e-06, 'epoch': 0.52}
+{'eval_loss': 1.936221718788147, 'eval_runtime': 37.6066, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 0.52}
+{'loss': 1.6355, 'grad_norm': 2.2280094623565674, 'learning_rate': 4.632412672623883e-06, 'epoch': 0.52}
+{'loss': 1.7394, 'grad_norm': 2.3383259773254395, 'learning_rate': 4.630381803411861e-06, 'epoch': 0.52}
+{'loss': 1.7963, 'grad_norm': 2.2318761348724365, 'learning_rate': 4.628350934199838e-06, 'epoch': 0.52}
+{'loss': 1.7459, 'grad_norm': 2.456247568130493, 'learning_rate': 4.626320064987816e-06, 'epoch': 0.52}
+{'loss': 1.7348, 'grad_norm': 2.4854443073272705, 'learning_rate': 4.624289195775792e-06, 'epoch': 0.52}
+{'loss': 1.741, 'grad_norm': 2.3212268352508545, 'learning_rate': 4.62225832656377e-06, 'epoch': 0.52}
+{'loss': 1.7434, 'grad_norm': 2.2816162109375, 'learning_rate': 4.620227457351747e-06, 'epoch': 0.52}
+{'loss': 1.717, 'grad_norm': 2.4014363288879395, 'learning_rate': 4.618196588139724e-06, 'epoch': 0.52}
+{'loss': 1.8113, 'grad_norm': 2.289808511734009, 'learning_rate': 4.616165718927701e-06, 'epoch': 0.52}
+{'loss': 1.7831, 'grad_norm': 2.3480029106140137, 'learning_rate': 4.6141348497156786e-06, 'epoch': 0.53}
+{'eval_loss': 1.9315012693405151, 'eval_runtime': 37.5788, 'eval_samples_per_second': 26.611, 'eval_steps_per_second': 1.118, 'epoch': 0.53}
+{'loss': 1.7474, 'grad_norm': 2.2586886882781982, 'learning_rate': 4.612103980503656e-06, 'epoch': 0.53}
+{'loss': 1.7472, 'grad_norm': 2.139040946960449, 'learning_rate': 4.610073111291633e-06, 'epoch': 0.53}
+{'loss': 1.7673, 'grad_norm': 2.1792471408843994, 'learning_rate': 4.60804224207961e-06, 'epoch': 0.53}
+{'loss': 1.7418, 'grad_norm': 2.2667555809020996, 'learning_rate': 4.606011372867588e-06, 'epoch': 0.53}
+{'loss': 1.6708, 'grad_norm': 2.342428207397461, 'learning_rate': 4.603980503655565e-06, 'epoch': 0.53}
+{'loss': 1.6911, 'grad_norm': 2.2595136165618896, 'learning_rate': 4.601949634443542e-06, 'epoch': 0.53}
+{'loss': 1.7417, 'grad_norm': 2.3908562660217285, 'learning_rate': 4.5999187652315195e-06, 'epoch': 0.53}
+{'loss': 1.7457, 'grad_norm': 2.4743196964263916, 'learning_rate': 4.597887896019497e-06, 'epoch': 0.53}
+{'loss': 1.7105, 'grad_norm': 2.2938313484191895, 'learning_rate': 4.595857026807474e-06, 'epoch': 0.54}
+{'loss': 1.7852, 'grad_norm': 2.327360153198242, 'learning_rate': 4.593826157595451e-06, 'epoch': 0.54}
+{'eval_loss': 1.9304111003875732, 'eval_runtime': 37.607, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 0.54}
+{'loss': 1.7627, 'grad_norm': 2.4160709381103516, 'learning_rate': 4.591795288383429e-06, 'epoch': 0.54}
+{'loss': 1.7173, 'grad_norm': 2.4610984325408936, 'learning_rate': 4.589764419171406e-06, 'epoch': 0.54}
+{'loss': 1.7122, 'grad_norm': 2.242408275604248, 'learning_rate': 4.587733549959383e-06, 'epoch': 0.54}
+{'loss': 1.6814, 'grad_norm': 2.4259274005889893, 'learning_rate': 4.5857026807473604e-06, 'epoch': 0.54}
+{'loss': 1.7797, 'grad_norm': 2.490690231323242, 'learning_rate': 4.583671811535338e-06, 'epoch': 0.54}
+{'loss': 1.7884, 'grad_norm': 2.4768126010894775, 'learning_rate': 4.581640942323315e-06, 'epoch': 0.54}
+{'loss': 1.7773, 'grad_norm': 2.3335609436035156, 'learning_rate': 4.579610073111292e-06, 'epoch': 0.54}
+{'loss': 1.7964, 'grad_norm': 2.312302350997925, 'learning_rate': 4.5775792038992695e-06, 'epoch': 0.55}
+{'loss': 1.7045, 'grad_norm': 2.408608913421631, 'learning_rate': 4.575548334687247e-06, 'epoch': 0.55}
+{'loss': 1.7538, 'grad_norm': 2.3241562843322754, 'learning_rate': 4.573517465475224e-06, 'epoch': 0.55}
+{'eval_loss': 1.9310544729232788, 'eval_runtime': 37.5899, 'eval_samples_per_second': 26.603, 'eval_steps_per_second': 1.117, 'epoch': 0.55}
+{'loss': 1.7577, 'grad_norm': 2.4304139614105225, 'learning_rate': 4.571486596263201e-06, 'epoch': 0.55}
+{'loss': 1.7792, 'grad_norm': 2.5611629486083984, 'learning_rate': 4.569455727051178e-06, 'epoch': 0.55}
+{'loss': 1.7874, 'grad_norm': 2.309232473373413, 'learning_rate': 4.567424857839156e-06, 'epoch': 0.55}
+{'loss': 1.7265, 'grad_norm': 2.5353176593780518, 'learning_rate': 4.565393988627132e-06, 'epoch': 0.55}
+{'loss': 1.7603, 'grad_norm': 2.2256014347076416, 'learning_rate': 4.5633631194151105e-06, 'epoch': 0.55}
+{'loss': 1.6992, 'grad_norm': 2.2677125930786133, 'learning_rate': 4.561332250203087e-06, 'epoch': 0.55}
+{'loss': 1.7245, 'grad_norm': 2.333442211151123, 'learning_rate': 4.559301380991065e-06, 'epoch': 0.56}
+{'loss': 1.7825, 'grad_norm': 2.5377535820007324, 'learning_rate': 4.5572705117790414e-06, 'epoch': 0.56}
+{'loss': 1.7043, 'grad_norm': 2.3794286251068115, 'learning_rate': 4.5552396425670196e-06, 'epoch': 0.56}
+{'loss': 1.7983, 'grad_norm': 2.3828320503234863, 'learning_rate': 4.553208773354996e-06, 'epoch': 0.56}
+{'eval_loss': 1.9257844686508179, 'eval_runtime': 37.2005, 'eval_samples_per_second': 26.881, 'eval_steps_per_second': 1.129, 'epoch': 0.56}
+{'loss': 1.713, 'grad_norm': 2.3997552394866943, 'learning_rate': 4.551177904142974e-06, 'epoch': 0.56}
+{'loss': 1.7532, 'grad_norm': 2.4340038299560547, 'learning_rate': 4.5491470349309505e-06, 'epoch': 0.56}
+{'loss': 1.7092, 'grad_norm': 2.1954314708709717, 'learning_rate': 4.547116165718929e-06, 'epoch': 0.56}
+{'loss': 1.7192, 'grad_norm': 2.23396897315979, 'learning_rate': 4.545085296506905e-06, 'epoch': 0.56}
+{'loss': 1.7104, 'grad_norm': 2.426600694656372, 'learning_rate': 4.543054427294882e-06, 'epoch': 0.56}
+{'loss': 1.7454, 'grad_norm': 2.293199062347412, 'learning_rate': 4.54102355808286e-06, 'epoch': 0.57}
+{'loss': 1.7355, 'grad_norm': 2.274942636489868, 'learning_rate': 4.538992688870837e-06, 'epoch': 0.57}
+{'loss': 1.7452, 'grad_norm': 2.361265182495117, 'learning_rate': 4.536961819658814e-06, 'epoch': 0.57}
+{'loss': 1.7137, 'grad_norm': 2.3837153911590576, 'learning_rate': 4.5349309504467915e-06, 'epoch': 0.57}
+{'loss': 1.7402, 'grad_norm': 2.400153160095215, 'learning_rate': 4.532900081234769e-06, 'epoch': 0.57}
+{'eval_loss': 1.9237518310546875, 'eval_runtime': 37.4948, 'eval_samples_per_second': 26.67, 'eval_steps_per_second': 1.12, 'epoch': 0.57}
+{'loss': 1.7294, 'grad_norm': 2.5554184913635254, 'learning_rate': 4.530869212022746e-06, 'epoch': 0.57}
+{'loss': 1.7327, 'grad_norm': 2.2268965244293213, 'learning_rate': 4.528838342810723e-06, 'epoch': 0.57}
+{'loss': 1.7362, 'grad_norm': 2.4109373092651367, 'learning_rate': 4.526807473598701e-06, 'epoch': 0.57}
+{'loss': 1.7883, 'grad_norm': 2.2151663303375244, 'learning_rate': 4.524776604386678e-06, 'epoch': 0.57}
+{'loss': 1.7272, 'grad_norm': 2.4299333095550537, 'learning_rate': 4.522745735174655e-06, 'epoch': 0.58}
+{'loss': 1.765, 'grad_norm': 2.4022951126098633, 'learning_rate': 4.520714865962632e-06, 'epoch': 0.58}
+{'loss': 1.7153, 'grad_norm': 2.3055427074432373, 'learning_rate': 4.51868399675061e-06, 'epoch': 0.58}
+{'loss': 1.6999, 'grad_norm': 2.3563055992126465, 'learning_rate': 4.516653127538587e-06, 'epoch': 0.58}
+{'loss': 1.723, 'grad_norm': 2.4124176502227783, 'learning_rate': 4.514622258326564e-06, 'epoch': 0.58}
+{'loss': 1.7884, 'grad_norm': 2.3081865310668945, 'learning_rate': 4.5125913891145415e-06, 'epoch': 0.58}
+{'eval_loss': 1.922121286392212, 'eval_runtime': 37.5993, 'eval_samples_per_second': 26.596, 'eval_steps_per_second': 1.117, 'epoch': 0.58}
+{'loss': 1.6757, 'grad_norm': 2.4837646484375, 'learning_rate': 4.510560519902519e-06, 'epoch': 0.58}
+{'loss': 1.668, 'grad_norm': 2.3742353916168213, 'learning_rate': 4.508529650690496e-06, 'epoch': 0.58}
+{'loss': 1.7474, 'grad_norm': 2.2644715309143066, 'learning_rate': 4.506498781478473e-06, 'epoch': 0.58}
+{'loss': 1.8146, 'grad_norm': 2.3631978034973145, 'learning_rate': 4.504467912266451e-06, 'epoch': 0.59}
+{'loss': 1.7392, 'grad_norm': 2.5469741821289062, 'learning_rate': 4.502437043054428e-06, 'epoch': 0.59}
+{'loss': 1.7293, 'grad_norm': 2.281785249710083, 'learning_rate': 4.500406173842405e-06, 'epoch': 0.59}
+{'loss': 1.713, 'grad_norm': 2.574636697769165, 'learning_rate': 4.4983753046303824e-06, 'epoch': 0.59}
+{'loss': 1.7964, 'grad_norm': 2.4139251708984375, 'learning_rate': 4.49634443541836e-06, 'epoch': 0.59}
+{'loss': 1.7424, 'grad_norm': 2.194120407104492, 'learning_rate': 4.494313566206336e-06, 'epoch': 0.59}
+{'loss': 1.6853, 'grad_norm': 2.248337984085083, 'learning_rate': 4.492282696994314e-06, 'epoch': 0.59}
+{'eval_loss': 1.9196181297302246, 'eval_runtime': 37.6086, 'eval_samples_per_second': 26.59, 'eval_steps_per_second': 1.117, 'epoch': 0.59}
+{'loss': 1.7052, 'grad_norm': 2.2400758266448975, 'learning_rate': 4.490251827782291e-06, 'epoch': 0.59}
+{'loss': 1.662, 'grad_norm': 2.278296709060669, 'learning_rate': 4.488220958570269e-06, 'epoch': 0.59}
+{'loss': 1.7612, 'grad_norm': 2.352165460586548, 'learning_rate': 4.486190089358245e-06, 'epoch': 0.6}
+{'loss': 1.7407, 'grad_norm': 2.3406429290771484, 'learning_rate': 4.484159220146223e-06, 'epoch': 0.6}
+{'loss': 1.7323, 'grad_norm': 2.292506456375122, 'learning_rate': 4.4821283509342e-06, 'epoch': 0.6}
+{'loss': 1.6935, 'grad_norm': 2.277332067489624, 'learning_rate': 4.480097481722178e-06, 'epoch': 0.6}
+{'loss': 1.7197, 'grad_norm': 2.208042860031128, 'learning_rate': 4.478066612510154e-06, 'epoch': 0.6}
+{'loss': 1.8493, 'grad_norm': 2.6161162853240967, 'learning_rate': 4.4760357432981325e-06, 'epoch': 0.6}
+{'loss': 1.671, 'grad_norm': 2.4076623916625977, 'learning_rate': 4.474004874086109e-06, 'epoch': 0.6}
+{'loss': 1.7911, 'grad_norm': 2.4827046394348145, 'learning_rate': 4.471974004874087e-06, 'epoch': 0.6}
+{'eval_loss': 1.917022466659546, 'eval_runtime': 37.6374, 'eval_samples_per_second': 26.569, 'eval_steps_per_second': 1.116, 'epoch': 0.6}
+{'loss': 1.7462, 'grad_norm': 2.3040671348571777, 'learning_rate': 4.4699431356620635e-06, 'epoch': 0.6}
+{'loss': 1.7061, 'grad_norm': 2.3599960803985596, 'learning_rate': 4.467912266450041e-06, 'epoch': 0.6}
+{'loss': 1.7597, 'grad_norm': 2.467808961868286, 'learning_rate': 4.465881397238018e-06, 'epoch': 0.61}
+{'loss': 1.7707, 'grad_norm': 2.2365829944610596, 'learning_rate': 4.463850528025995e-06, 'epoch': 0.61}
+{'loss': 1.7482, 'grad_norm': 2.4631752967834473, 'learning_rate': 4.4618196588139726e-06, 'epoch': 0.61}
+{'loss': 1.6773, 'grad_norm': 2.339590549468994, 'learning_rate': 4.45978878960195e-06, 'epoch': 0.61}
+{'loss': 1.7131, 'grad_norm': 2.216578483581543, 'learning_rate': 4.457757920389927e-06, 'epoch': 0.61}
+{'loss': 1.7655, 'grad_norm': 2.356428623199463, 'learning_rate': 4.455727051177904e-06, 'epoch': 0.61}
+{'loss': 1.7429, 'grad_norm': 2.3035967350006104, 'learning_rate': 4.453696181965882e-06, 'epoch': 0.61}
+{'loss': 1.7774, 'grad_norm': 2.437593698501587, 'learning_rate': 4.451665312753859e-06, 'epoch': 0.61}
+{'eval_loss': 1.9169787168502808, 'eval_runtime': 37.634, 'eval_samples_per_second': 26.572, 'eval_steps_per_second': 1.116, 'epoch': 0.61}
+{'loss': 1.6976, 'grad_norm': 2.2167177200317383, 'learning_rate': 4.449634443541836e-06, 'epoch': 0.61}
+{'loss': 1.7059, 'grad_norm': 2.195075035095215, 'learning_rate': 4.4476035743298135e-06, 'epoch': 0.62}
+{'loss': 1.7627, 'grad_norm': 2.2774274349212646, 'learning_rate': 4.445572705117791e-06, 'epoch': 0.62}
+{'loss': 1.7038, 'grad_norm': 2.3074471950531006, 'learning_rate': 4.443541835905768e-06, 'epoch': 0.62}
+{'loss': 1.7832, 'grad_norm': 2.1446497440338135, 'learning_rate': 4.441510966693745e-06, 'epoch': 0.62}
+{'loss': 1.6538, 'grad_norm': 2.3250021934509277, 'learning_rate': 4.439480097481723e-06, 'epoch': 0.62}
+{'loss': 1.7387, 'grad_norm': 2.2498629093170166, 'learning_rate': 4.4374492282697e-06, 'epoch': 0.62}
+{'loss': 1.7334, 'grad_norm': 2.1423070430755615, 'learning_rate': 4.435418359057677e-06, 'epoch': 0.62}
+{'loss': 1.7019, 'grad_norm': 2.120309352874756, 'learning_rate': 4.433387489845654e-06, 'epoch': 0.62}
+{'loss': 1.7402, 'grad_norm': 2.309201240539551, 'learning_rate': 4.431356620633632e-06, 'epoch': 0.62}
+{'eval_loss': 1.911016821861267, 'eval_runtime': 37.6509, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 0.62}
+{'loss': 1.7163, 'grad_norm': 2.1629161834716797, 'learning_rate': 4.429325751421609e-06, 'epoch': 0.63}
+{'loss': 1.6511, 'grad_norm': 2.328378915786743, 'learning_rate': 4.427294882209586e-06, 'epoch': 0.63}
+{'loss': 1.7223, 'grad_norm': 2.282273054122925, 'learning_rate': 4.4252640129975635e-06, 'epoch': 0.63}
+{'loss': 1.746, 'grad_norm': 2.2649762630462646, 'learning_rate': 4.423233143785541e-06, 'epoch': 0.63}
+{'loss': 1.6254, 'grad_norm': 2.3332130908966064, 'learning_rate': 4.421202274573518e-06, 'epoch': 0.63}
+{'loss': 1.6772, 'grad_norm': 2.207383394241333, 'learning_rate': 4.4191714053614945e-06, 'epoch': 0.63}
+{'loss': 1.755, 'grad_norm': 2.340656042098999, 'learning_rate': 4.417140536149473e-06, 'epoch': 0.63}
+{'loss': 1.6877, 'grad_norm': 2.290663242340088, 'learning_rate': 4.415109666937449e-06, 'epoch': 0.63}
+{'loss': 1.7235, 'grad_norm': 2.2177207469940186, 'learning_rate': 4.413078797725427e-06, 'epoch': 0.63}
+{'loss': 1.7161, 'grad_norm': 2.2993662357330322, 'learning_rate': 4.411047928513404e-06, 'epoch': 0.64}
+{'eval_loss': 1.9084991216659546, 'eval_runtime': 37.6563, 'eval_samples_per_second': 26.556, 'eval_steps_per_second': 1.115, 'epoch': 0.64}
+{'loss': 1.7483, 'grad_norm': 2.2770562171936035, 'learning_rate': 4.409017059301382e-06, 'epoch': 0.64}
+{'loss': 1.7485, 'grad_norm': 2.3536643981933594, 'learning_rate': 4.406986190089358e-06, 'epoch': 0.64}
+{'loss': 1.6931, 'grad_norm': 2.1881628036499023, 'learning_rate': 4.404955320877336e-06, 'epoch': 0.64}
+{'loss': 1.6812, 'grad_norm': 2.205477237701416, 'learning_rate': 4.402924451665313e-06, 'epoch': 0.64}
+{'loss': 1.713, 'grad_norm': 2.339531421661377, 'learning_rate': 4.400893582453291e-06, 'epoch': 0.64}
+{'loss': 1.73, 'grad_norm': 2.377220630645752, 'learning_rate': 4.398862713241267e-06, 'epoch': 0.64}
+{'loss': 1.7164, 'grad_norm': 2.251297950744629, 'learning_rate': 4.396831844029245e-06, 'epoch': 0.64}
+{'loss': 1.7252, 'grad_norm': 2.4746856689453125, 'learning_rate': 4.394800974817222e-06, 'epoch': 0.64}
+{'loss': 1.739, 'grad_norm': 2.303297519683838, 'learning_rate': 4.392770105605199e-06, 'epoch': 0.65}
+{'loss': 1.7449, 'grad_norm': 2.478163242340088, 'learning_rate': 4.390739236393176e-06, 'epoch': 0.65}
+{'eval_loss': 1.9079035520553589, 'eval_runtime': 37.6144, 'eval_samples_per_second': 26.586, 'eval_steps_per_second': 1.117, 'epoch': 0.65}
+{'loss': 1.7396, 'grad_norm': 2.4198169708251953, 'learning_rate': 4.388708367181154e-06, 'epoch': 0.65}
+{'loss': 1.7727, 'grad_norm': 2.1738007068634033, 'learning_rate': 4.386677497969131e-06, 'epoch': 0.65}
+{'loss': 1.7102, 'grad_norm': 2.167490005493164, 'learning_rate': 4.384646628757108e-06, 'epoch': 0.65}
+{'loss': 1.6851, 'grad_norm': 2.2525765895843506, 'learning_rate': 4.3826157595450855e-06, 'epoch': 0.65}
+{'loss': 1.6219, 'grad_norm': 2.157273530960083, 'learning_rate': 4.380584890333063e-06, 'epoch': 0.65}
+{'loss': 1.7881, 'grad_norm': 2.509439706802368, 'learning_rate': 4.37855402112104e-06, 'epoch': 0.65}
+{'loss': 1.7063, 'grad_norm': 2.1816136837005615, 'learning_rate': 4.376523151909017e-06, 'epoch': 0.65}
+{'loss': 1.7218, 'grad_norm': 2.3608217239379883, 'learning_rate': 4.3744922826969946e-06, 'epoch': 0.66}
+{'loss': 1.7501, 'grad_norm': 2.346850872039795, 'learning_rate': 4.372461413484972e-06, 'epoch': 0.66}
+{'loss': 1.7544, 'grad_norm': 2.346902370452881, 'learning_rate': 4.370430544272949e-06, 'epoch': 0.66}
+{'eval_loss': 1.9051247835159302, 'eval_runtime': 37.6581, 'eval_samples_per_second': 26.555, 'eval_steps_per_second': 1.115, 'epoch': 0.66}
+{'loss': 1.7327, 'grad_norm': 2.323005199432373, 'learning_rate': 4.368399675060926e-06, 'epoch': 0.66}
+{'loss': 1.6659, 'grad_norm': 2.4097647666931152, 'learning_rate': 4.366368805848904e-06, 'epoch': 0.66}
+{'loss': 1.7314, 'grad_norm': 2.370617389678955, 'learning_rate': 4.364337936636881e-06, 'epoch': 0.66}
+{'loss': 1.6891, 'grad_norm': 2.697927236557007, 'learning_rate': 4.362307067424858e-06, 'epoch': 0.66}
+{'loss': 1.7149, 'grad_norm': 2.2968244552612305, 'learning_rate': 4.3602761982128355e-06, 'epoch': 0.66}
+{'loss': 1.7186, 'grad_norm': 2.309382677078247, 'learning_rate': 4.358245329000813e-06, 'epoch': 0.66}
+{'loss': 1.6944, 'grad_norm': 2.4872262477874756, 'learning_rate': 4.35621445978879e-06, 'epoch': 0.67}
+{'loss': 1.6828, 'grad_norm': 2.2814340591430664, 'learning_rate': 4.354183590576767e-06, 'epoch': 0.67}
+{'loss': 1.7256, 'grad_norm': 2.295590400695801, 'learning_rate': 4.352152721364745e-06, 'epoch': 0.67}
+{'loss': 1.7585, 'grad_norm': 2.211075782775879, 'learning_rate': 4.350121852152722e-06, 'epoch': 0.67}
+{'eval_loss': 1.9046825170516968, 'eval_runtime': 37.3701, 'eval_samples_per_second': 26.759, 'eval_steps_per_second': 1.124, 'epoch': 0.67}
+{'loss': 1.7281, 'grad_norm': 2.568331718444824, 'learning_rate': 4.348090982940699e-06, 'epoch': 0.67}
+{'loss': 1.708, 'grad_norm': 2.2506027221679688, 'learning_rate': 4.3460601137286764e-06, 'epoch': 0.67}
+{'loss': 1.777, 'grad_norm': 2.150228977203369, 'learning_rate': 4.344029244516654e-06, 'epoch': 0.67}
+{'loss': 1.7246, 'grad_norm': 2.135185718536377, 'learning_rate': 4.341998375304631e-06, 'epoch': 0.67}
+{'loss': 1.7101, 'grad_norm': 2.454716444015503, 'learning_rate': 4.339967506092607e-06, 'epoch': 0.67}
+{'loss': 1.6892, 'grad_norm': 2.4243133068084717, 'learning_rate': 4.3379366368805855e-06, 'epoch': 0.68}
+{'loss': 1.7406, 'grad_norm': 2.3649749755859375, 'learning_rate': 4.335905767668562e-06, 'epoch': 0.68}
+{'loss': 1.7238, 'grad_norm': 2.269916296005249, 'learning_rate': 4.33387489845654e-06, 'epoch': 0.68}
+{'loss': 1.7007, 'grad_norm': 2.2397871017456055, 'learning_rate': 4.3318440292445165e-06, 'epoch': 0.68}
+{'loss': 1.6644, 'grad_norm': 2.2685039043426514, 'learning_rate': 4.329813160032495e-06, 'epoch': 0.68}
+{'eval_loss': 1.9052354097366333, 'eval_runtime': 37.5335, 'eval_samples_per_second': 26.643, 'eval_steps_per_second': 1.119, 'epoch': 0.68}
+{'loss': 1.7329, 'grad_norm': 2.376465082168579, 'learning_rate': 4.327782290820471e-06, 'epoch': 0.68}
+{'loss': 1.717, 'grad_norm': 2.250431537628174, 'learning_rate': 4.325751421608449e-06, 'epoch': 0.68}
+{'loss': 1.7044, 'grad_norm': 2.274758815765381, 'learning_rate': 4.323720552396426e-06, 'epoch': 0.68}
+{'loss': 1.6961, 'grad_norm': 2.3032920360565186, 'learning_rate': 4.321689683184404e-06, 'epoch': 0.68}
+{'loss': 1.7432, 'grad_norm': 2.4168121814727783, 'learning_rate': 4.31965881397238e-06, 'epoch': 0.68}
+{'loss': 1.7283, 'grad_norm': 2.2730326652526855, 'learning_rate': 4.3176279447603574e-06, 'epoch': 0.69}
+{'loss': 1.7467, 'grad_norm': 2.439396858215332, 'learning_rate': 4.315597075548335e-06, 'epoch': 0.69}
+{'loss': 1.6791, 'grad_norm': 2.2937498092651367, 'learning_rate': 4.313566206336312e-06, 'epoch': 0.69}
+{'loss': 1.7041, 'grad_norm': 2.3790342807769775, 'learning_rate': 4.311535337124289e-06, 'epoch': 0.69}
+{'loss': 1.7236, 'grad_norm': 2.4916834831237793, 'learning_rate': 4.3095044679122665e-06, 'epoch': 0.69}
+{'eval_loss': 1.901221513748169, 'eval_runtime': 37.6548, 'eval_samples_per_second': 26.557, 'eval_steps_per_second': 1.115, 'epoch': 0.69}
+{'loss': 1.663, 'grad_norm': 2.2544569969177246, 'learning_rate': 4.307473598700244e-06, 'epoch': 0.69}
+{'loss': 1.7537, 'grad_norm': 2.483304023742676, 'learning_rate': 4.305442729488221e-06, 'epoch': 0.69}
+{'loss': 1.7486, 'grad_norm': 2.3097894191741943, 'learning_rate': 4.303411860276198e-06, 'epoch': 0.69}
+{'loss': 1.7715, 'grad_norm': 2.288449287414551, 'learning_rate': 4.301380991064176e-06, 'epoch': 0.69}
+{'loss': 1.7474, 'grad_norm': 2.2023582458496094, 'learning_rate': 4.299350121852153e-06, 'epoch': 0.7}
+{'loss': 1.7041, 'grad_norm': 2.3503668308258057, 'learning_rate': 4.29731925264013e-06, 'epoch': 0.7}
+{'loss': 1.6776, 'grad_norm': 2.4149577617645264, 'learning_rate': 4.2952883834281075e-06, 'epoch': 0.7}
+{'loss': 1.7143, 'grad_norm': 2.299644708633423, 'learning_rate': 4.293257514216085e-06, 'epoch': 0.7}
+{'loss': 1.7528, 'grad_norm': 2.412431478500366, 'learning_rate': 4.291226645004062e-06, 'epoch': 0.7}
+{'loss': 1.6951, 'grad_norm': 2.2383744716644287, 'learning_rate': 4.289195775792039e-06, 'epoch': 0.7}
+{'eval_loss': 1.8962560892105103, 'eval_runtime': 37.6799, 'eval_samples_per_second': 26.539, 'eval_steps_per_second': 1.115, 'epoch': 0.7}
+{'loss': 1.6889, 'grad_norm': 2.3342878818511963, 'learning_rate': 4.287164906580017e-06, 'epoch': 0.7}
+{'loss': 1.6773, 'grad_norm': 2.3132870197296143, 'learning_rate': 4.285134037367994e-06, 'epoch': 0.7}
+{'loss': 1.6672, 'grad_norm': 2.150987386703491, 'learning_rate': 4.283103168155971e-06, 'epoch': 0.7}
+{'loss': 1.6801, 'grad_norm': 2.2988533973693848, 'learning_rate': 4.281072298943948e-06, 'epoch': 0.71}
+{'loss': 1.6653, 'grad_norm': 2.547316074371338, 'learning_rate': 4.279041429731926e-06, 'epoch': 0.71}
+{'loss': 1.7165, 'grad_norm': 2.3835396766662598, 'learning_rate': 4.277010560519903e-06, 'epoch': 0.71}
+{'loss': 1.7372, 'grad_norm': 2.27038836479187, 'learning_rate': 4.27497969130788e-06, 'epoch': 0.71}
+{'loss': 1.7375, 'grad_norm': 2.4347198009490967, 'learning_rate': 4.2729488220958575e-06, 'epoch': 0.71}
+{'loss': 1.682, 'grad_norm': 2.2618768215179443, 'learning_rate': 4.270917952883835e-06, 'epoch': 0.71}
+{'loss': 1.7825, 'grad_norm': 2.4243509769439697, 'learning_rate': 4.268887083671812e-06, 'epoch': 0.71}
+{'eval_loss': 1.8945913314819336, 'eval_runtime': 37.6449, 'eval_samples_per_second': 26.564, 'eval_steps_per_second': 1.116, 'epoch': 0.71}
+{'loss': 1.645, 'grad_norm': 2.2775559425354004, 'learning_rate': 4.266856214459789e-06, 'epoch': 0.71}
+{'loss': 1.7051, 'grad_norm': 2.5911104679107666, 'learning_rate': 4.264825345247766e-06, 'epoch': 0.71}
+{'loss': 1.6367, 'grad_norm': 2.653658866882324, 'learning_rate': 4.262794476035744e-06, 'epoch': 0.72}
+{'loss': 1.7003, 'grad_norm': 2.1519863605499268, 'learning_rate': 4.26076360682372e-06, 'epoch': 0.72}
+{'loss': 1.7128, 'grad_norm': 2.3323745727539062, 'learning_rate': 4.2587327376116984e-06, 'epoch': 0.72}
+{'loss': 1.7229, 'grad_norm': 2.5383691787719727, 'learning_rate': 4.256701868399675e-06, 'epoch': 0.72}
+{'loss': 1.7328, 'grad_norm': 2.2897961139678955, 'learning_rate': 4.254670999187653e-06, 'epoch': 0.72}
+{'loss': 1.6869, 'grad_norm': 2.5250160694122314, 'learning_rate': 4.252640129975629e-06, 'epoch': 0.72}
+{'loss': 1.6443, 'grad_norm': 2.339447259902954, 'learning_rate': 4.2506092607636075e-06, 'epoch': 0.72}
+{'loss': 1.6874, 'grad_norm': 2.3168911933898926, 'learning_rate': 4.248578391551584e-06, 'epoch': 0.72}
+{'eval_loss': 1.8909461498260498, 'eval_runtime': 37.6511, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 0.72}
+{'loss': 1.7053, 'grad_norm': 2.393794298171997, 'learning_rate': 4.246547522339562e-06, 'epoch': 0.72}
+{'loss': 1.6343, 'grad_norm': 2.3442773818969727, 'learning_rate': 4.2445166531275385e-06, 'epoch': 0.73}
+{'loss': 1.6409, 'grad_norm': 2.4815938472747803, 'learning_rate': 4.242485783915517e-06, 'epoch': 0.73}
+{'loss': 1.6835, 'grad_norm': 2.224437713623047, 'learning_rate': 4.240454914703493e-06, 'epoch': 0.73}
+{'loss': 1.6361, 'grad_norm': 2.199294090270996, 'learning_rate': 4.23842404549147e-06, 'epoch': 0.73}
+{'loss': 1.726, 'grad_norm': 2.2473907470703125, 'learning_rate': 4.236393176279448e-06, 'epoch': 0.73}
+{'loss': 1.7286, 'grad_norm': 2.369690179824829, 'learning_rate': 4.234362307067425e-06, 'epoch': 0.73}
+{'loss': 1.7311, 'grad_norm': 2.347231864929199, 'learning_rate': 4.232331437855402e-06, 'epoch': 0.73}
+{'loss': 1.7087, 'grad_norm': 2.1775550842285156, 'learning_rate': 4.2303005686433795e-06, 'epoch': 0.73}
+{'loss': 1.6982, 'grad_norm': 2.2669129371643066, 'learning_rate': 4.228269699431357e-06, 'epoch': 0.73}
+{'eval_loss': 1.892727017402649, 'eval_runtime': 37.6116, 'eval_samples_per_second': 26.588, 'eval_steps_per_second': 1.117, 'epoch': 0.73}
+{'loss': 1.7109, 'grad_norm': 2.331033706665039, 'learning_rate': 4.226238830219334e-06, 'epoch': 0.74}
+{'loss': 1.7172, 'grad_norm': 2.4086031913757324, 'learning_rate': 4.224207961007311e-06, 'epoch': 0.74}
+{'loss': 1.7032, 'grad_norm': 2.3671140670776367, 'learning_rate': 4.2221770917952886e-06, 'epoch': 0.74}
+{'loss': 1.6922, 'grad_norm': 2.366544485092163, 'learning_rate': 4.220146222583266e-06, 'epoch': 0.74}
+{'loss': 1.6628, 'grad_norm': 2.1339945793151855, 'learning_rate': 4.218115353371243e-06, 'epoch': 0.74}
+{'loss': 1.7383, 'grad_norm': 2.375011920928955, 'learning_rate': 4.21608448415922e-06, 'epoch': 0.74}
+{'loss': 1.6382, 'grad_norm': 2.143841505050659, 'learning_rate': 4.214053614947198e-06, 'epoch': 0.74}
+{'loss': 1.7197, 'grad_norm': 2.422109842300415, 'learning_rate': 4.212022745735175e-06, 'epoch': 0.74}
+{'loss': 1.6559, 'grad_norm': 2.2916650772094727, 'learning_rate': 4.209991876523152e-06, 'epoch': 0.74}
+{'loss': 1.732, 'grad_norm': 2.4203662872314453, 'learning_rate': 4.2079610073111295e-06, 'epoch': 0.75}
+{'eval_loss': 1.8868751525878906, 'eval_runtime': 37.6196, 'eval_samples_per_second': 26.582, 'eval_steps_per_second': 1.116, 'epoch': 0.75}
+{'loss': 1.7234, 'grad_norm': 2.23504638671875, 'learning_rate': 4.205930138099107e-06, 'epoch': 0.75}
+{'loss': 1.7192, 'grad_norm': 2.298898935317993, 'learning_rate': 4.203899268887084e-06, 'epoch': 0.75}
+{'loss': 1.6267, 'grad_norm': 2.275449514389038, 'learning_rate': 4.201868399675061e-06, 'epoch': 0.75}
+{'loss': 1.7009, 'grad_norm': 2.396043539047241, 'learning_rate': 4.199837530463039e-06, 'epoch': 0.75}
+{'loss': 1.6809, 'grad_norm': 2.2677953243255615, 'learning_rate': 4.197806661251016e-06, 'epoch': 0.75}
+{'loss': 1.6314, 'grad_norm': 2.2157068252563477, 'learning_rate': 4.195775792038993e-06, 'epoch': 0.75}
+{'loss': 1.7204, 'grad_norm': 2.3541743755340576, 'learning_rate': 4.19374492282697e-06, 'epoch': 0.75}
+{'loss': 1.6898, 'grad_norm': 2.296830177307129, 'learning_rate': 4.191714053614948e-06, 'epoch': 0.75}
+{'loss': 1.735, 'grad_norm': 2.2333168983459473, 'learning_rate': 4.189683184402924e-06, 'epoch': 0.76}
+{'loss': 1.6698, 'grad_norm': 2.292821168899536, 'learning_rate': 4.187652315190902e-06, 'epoch': 0.76}
+{'eval_loss': 1.8844345808029175, 'eval_runtime': 37.6652, 'eval_samples_per_second': 26.55, 'eval_steps_per_second': 1.115, 'epoch': 0.76}
+{'loss': 1.7085, 'grad_norm': 2.3127858638763428, 'learning_rate': 4.185621445978879e-06, 'epoch': 0.76}
+{'loss': 1.7458, 'grad_norm': 2.3704352378845215, 'learning_rate': 4.183590576766857e-06, 'epoch': 0.76}
+{'loss': 1.663, 'grad_norm': 2.116457939147949, 'learning_rate': 4.181559707554833e-06, 'epoch': 0.76}
+{'loss': 1.6776, 'grad_norm': 2.4166183471679688, 'learning_rate': 4.179528838342811e-06, 'epoch': 0.76}
+{'loss': 1.7458, 'grad_norm': 2.281625270843506, 'learning_rate': 4.177497969130788e-06, 'epoch': 0.76}
+{'loss': 1.667, 'grad_norm': 2.2653088569641113, 'learning_rate': 4.175467099918766e-06, 'epoch': 0.76}
+{'loss': 1.6908, 'grad_norm': 2.3085122108459473, 'learning_rate': 4.173436230706742e-06, 'epoch': 0.76}
+{'loss': 1.6713, 'grad_norm': 2.271141290664673, 'learning_rate': 4.1714053614947205e-06, 'epoch': 0.76}
+{'loss': 1.7065, 'grad_norm': 2.375300645828247, 'learning_rate': 4.169374492282697e-06, 'epoch': 0.77}
+{'loss': 1.687, 'grad_norm': 2.1418616771698, 'learning_rate': 4.167343623070675e-06, 'epoch': 0.77}
+{'eval_loss': 1.8833866119384766, 'eval_runtime': 37.6245, 'eval_samples_per_second': 26.578, 'eval_steps_per_second': 1.116, 'epoch': 0.77}
+{'loss': 1.6839, 'grad_norm': 2.2422854900360107, 'learning_rate': 4.165312753858652e-06, 'epoch': 0.77}
+{'loss': 1.7199, 'grad_norm': 2.178356409072876, 'learning_rate': 4.163281884646629e-06, 'epoch': 0.77}
+{'loss': 1.6502, 'grad_norm': 2.293678045272827, 'learning_rate': 4.161251015434607e-06, 'epoch': 0.77}
+{'loss': 1.6673, 'grad_norm': 2.177879810333252, 'learning_rate': 4.159220146222583e-06, 'epoch': 0.77}
+{'loss': 1.6986, 'grad_norm': 2.171367883682251, 'learning_rate': 4.157189277010561e-06, 'epoch': 0.77}
+{'loss': 1.6995, 'grad_norm': 2.2476603984832764, 'learning_rate': 4.155158407798538e-06, 'epoch': 0.77}
+{'loss': 1.6848, 'grad_norm': 2.3399322032928467, 'learning_rate': 4.153127538586516e-06, 'epoch': 0.77}
+{'loss': 1.6815, 'grad_norm': 2.4198429584503174, 'learning_rate': 4.151096669374492e-06, 'epoch': 0.78}
+{'loss': 1.6957, 'grad_norm': 2.3318073749542236, 'learning_rate': 4.1490658001624705e-06, 'epoch': 0.78}
+{'loss': 1.681, 'grad_norm': 2.3422772884368896, 'learning_rate': 4.147034930950447e-06, 'epoch': 0.78}
+{'eval_loss': 1.8852239847183228, 'eval_runtime': 37.2761, 'eval_samples_per_second': 26.827, 'eval_steps_per_second': 1.127, 'epoch': 0.78}
+{'loss': 1.6249, 'grad_norm': 2.472334623336792, 'learning_rate': 4.145004061738425e-06, 'epoch': 0.78}
+{'loss': 1.6498, 'grad_norm': 2.1996936798095703, 'learning_rate': 4.1429731925264015e-06, 'epoch': 0.78}
+{'loss': 1.6743, 'grad_norm': 2.1924471855163574, 'learning_rate': 4.140942323314379e-06, 'epoch': 0.78}
+{'loss': 1.7132, 'grad_norm': 2.4013636112213135, 'learning_rate': 4.138911454102356e-06, 'epoch': 0.78}
+{'loss': 1.6977, 'grad_norm': 2.247119188308716, 'learning_rate': 4.136880584890333e-06, 'epoch': 0.78}
+{'loss': 1.6976, 'grad_norm': 2.280106544494629, 'learning_rate': 4.1348497156783106e-06, 'epoch': 0.78}
+{'loss': 1.6972, 'grad_norm': 2.2414095401763916, 'learning_rate': 4.132818846466288e-06, 'epoch': 0.79}
+{'loss': 1.7129, 'grad_norm': 2.2107064723968506, 'learning_rate': 4.130787977254265e-06, 'epoch': 0.79}
+{'loss': 1.7651, 'grad_norm': 2.441148519515991, 'learning_rate': 4.128757108042242e-06, 'epoch': 0.79}
+{'loss': 1.6842, 'grad_norm': 2.2551846504211426, 'learning_rate': 4.12672623883022e-06, 'epoch': 0.79}
+{'eval_loss': 1.879135251045227, 'eval_runtime': 37.4167, 'eval_samples_per_second': 26.726, 'eval_steps_per_second': 1.122, 'epoch': 0.79}
+{'loss': 1.6883, 'grad_norm': 2.242666482925415, 'learning_rate': 4.124695369618197e-06, 'epoch': 0.79}
+{'loss': 1.7077, 'grad_norm': 2.183901071548462, 'learning_rate': 4.122664500406174e-06, 'epoch': 0.79}
+{'loss': 1.6501, 'grad_norm': 2.18656063079834, 'learning_rate': 4.1206336311941515e-06, 'epoch': 0.79}
+{'loss': 1.6251, 'grad_norm': 2.566523313522339, 'learning_rate': 4.118602761982129e-06, 'epoch': 0.79}
+{'loss': 1.7375, 'grad_norm': 2.378641366958618, 'learning_rate': 4.116571892770106e-06, 'epoch': 0.79}
+{'loss': 1.6655, 'grad_norm': 2.4046361446380615, 'learning_rate': 4.114541023558083e-06, 'epoch': 0.8}
+{'loss': 1.6997, 'grad_norm': 2.4670674800872803, 'learning_rate': 4.112510154346061e-06, 'epoch': 0.8}
+{'loss': 1.7279, 'grad_norm': 2.3124334812164307, 'learning_rate': 4.110479285134038e-06, 'epoch': 0.8}
+{'loss': 1.7027, 'grad_norm': 2.3262298107147217, 'learning_rate': 4.108448415922015e-06, 'epoch': 0.8}
+{'loss': 1.5851, 'grad_norm': 2.242640972137451, 'learning_rate': 4.1064175467099924e-06, 'epoch': 0.8}
+{'eval_loss': 1.8769959211349487, 'eval_runtime': 37.5728, 'eval_samples_per_second': 26.615, 'eval_steps_per_second': 1.118, 'epoch': 0.8}
+{'loss': 1.7457, 'grad_norm': 2.516932725906372, 'learning_rate': 4.10438667749797e-06, 'epoch': 0.8}
+{'loss': 1.6693, 'grad_norm': 2.516554832458496, 'learning_rate': 4.102355808285947e-06, 'epoch': 0.8}
+{'loss': 1.6852, 'grad_norm': 2.2953476905822754, 'learning_rate': 4.100324939073924e-06, 'epoch': 0.8}
+{'loss': 1.6892, 'grad_norm': 2.219738483428955, 'learning_rate': 4.0982940698619015e-06, 'epoch': 0.8}
+{'loss': 1.6487, 'grad_norm': 2.2161338329315186, 'learning_rate': 4.096263200649879e-06, 'epoch': 0.81}
+{'loss': 1.6612, 'grad_norm': 2.4096288681030273, 'learning_rate': 4.094232331437856e-06, 'epoch': 0.81}
+{'loss': 1.6809, 'grad_norm': 2.248605728149414, 'learning_rate': 4.092201462225833e-06, 'epoch': 0.81}
+{'loss': 1.6452, 'grad_norm': 2.2382311820983887, 'learning_rate': 4.090170593013811e-06, 'epoch': 0.81}
+{'loss': 1.6568, 'grad_norm': 2.168513774871826, 'learning_rate': 4.088139723801787e-06, 'epoch': 0.81}
+{'loss': 1.6837, 'grad_norm': 2.2533681392669678, 'learning_rate': 4.086108854589765e-06, 'epoch': 0.81}
+{'eval_loss': 1.8750689029693604, 'eval_runtime': 37.6199, 'eval_samples_per_second': 26.582, 'eval_steps_per_second': 1.116, 'epoch': 0.81}
+{'loss': 1.7239, 'grad_norm': 2.4445102214813232, 'learning_rate': 4.084077985377742e-06, 'epoch': 0.81}
+{'loss': 1.6223, 'grad_norm': 2.2937533855438232, 'learning_rate': 4.08204711616572e-06, 'epoch': 0.81}
+{'loss': 1.7169, 'grad_norm': 2.303401470184326, 'learning_rate': 4.080016246953696e-06, 'epoch': 0.81}
+{'loss': 1.7239, 'grad_norm': 2.196648359298706, 'learning_rate': 4.077985377741674e-06, 'epoch': 0.82}
+{'loss': 1.7305, 'grad_norm': 2.2584710121154785, 'learning_rate': 4.075954508529651e-06, 'epoch': 0.82}
+{'loss': 1.6447, 'grad_norm': 2.300210475921631, 'learning_rate': 4.073923639317629e-06, 'epoch': 0.82}
+{'loss': 1.6268, 'grad_norm': 2.2725934982299805, 'learning_rate': 4.071892770105605e-06, 'epoch': 0.82}
+{'loss': 1.654, 'grad_norm': 2.1857035160064697, 'learning_rate': 4.069861900893583e-06, 'epoch': 0.82}
+{'loss': 1.6553, 'grad_norm': 2.470669984817505, 'learning_rate': 4.06783103168156e-06, 'epoch': 0.82}
+{'loss': 1.7021, 'grad_norm': 2.1740753650665283, 'learning_rate': 4.065800162469538e-06, 'epoch': 0.82}
+{'eval_loss': 1.8754934072494507, 'eval_runtime': 37.5847, 'eval_samples_per_second': 26.607, 'eval_steps_per_second': 1.117, 'epoch': 0.82}
+{'loss': 1.6813, 'grad_norm': 2.2164194583892822, 'learning_rate': 4.063769293257514e-06, 'epoch': 0.82}
+{'loss': 1.6892, 'grad_norm': 2.221950054168701, 'learning_rate': 4.061738424045492e-06, 'epoch': 0.82}
+{'loss': 1.7474, 'grad_norm': 2.1557576656341553, 'learning_rate': 4.059707554833469e-06, 'epoch': 0.83}
+{'loss': 1.7004, 'grad_norm': 2.3069772720336914, 'learning_rate': 4.057676685621446e-06, 'epoch': 0.83}
+{'loss': 1.6158, 'grad_norm': 2.1318821907043457, 'learning_rate': 4.0556458164094235e-06, 'epoch': 0.83}
+{'loss': 1.6911, 'grad_norm': 2.1657450199127197, 'learning_rate': 4.053614947197401e-06, 'epoch': 0.83}
+{'loss': 1.7057, 'grad_norm': 2.2884163856506348, 'learning_rate': 4.051584077985378e-06, 'epoch': 0.83}
+{'loss': 1.6707, 'grad_norm': 2.3625853061676025, 'learning_rate': 4.049553208773355e-06, 'epoch': 0.83}
+{'loss': 1.6614, 'grad_norm': 2.2546563148498535, 'learning_rate': 4.047522339561333e-06, 'epoch': 0.83}
+{'loss': 1.7816, 'grad_norm': 2.2677838802337646, 'learning_rate': 4.04549147034931e-06, 'epoch': 0.83}
+{'eval_loss': 1.8759866952896118, 'eval_runtime': 37.5994, 'eval_samples_per_second': 26.596, 'eval_steps_per_second': 1.117, 'epoch': 0.83}
+{'loss': 1.6644, 'grad_norm': 2.2395474910736084, 'learning_rate': 4.043460601137287e-06, 'epoch': 0.83}
+{'loss': 1.6744, 'grad_norm': 2.6351327896118164, 'learning_rate': 4.041429731925264e-06, 'epoch': 0.84}
+{'loss': 1.7616, 'grad_norm': 2.4326539039611816, 'learning_rate': 4.039398862713242e-06, 'epoch': 0.84}
+{'loss': 1.6451, 'grad_norm': 2.551274299621582, 'learning_rate': 4.037367993501219e-06, 'epoch': 0.84}
+{'loss': 1.6358, 'grad_norm': 2.2525930404663086, 'learning_rate': 4.035337124289196e-06, 'epoch': 0.84}
+{'loss': 1.6902, 'grad_norm': 2.2782936096191406, 'learning_rate': 4.0333062550771735e-06, 'epoch': 0.84}
+{'loss': 1.7102, 'grad_norm': 2.4350433349609375, 'learning_rate': 4.031275385865151e-06, 'epoch': 0.84}
+{'loss': 1.63, 'grad_norm': 2.205580234527588, 'learning_rate': 4.029244516653128e-06, 'epoch': 0.84}
+{'loss': 1.6547, 'grad_norm': 2.3071885108947754, 'learning_rate': 4.027213647441105e-06, 'epoch': 0.84}
+{'loss': 1.671, 'grad_norm': 2.2745468616485596, 'learning_rate': 4.025182778229083e-06, 'epoch': 0.84}
+{'eval_loss': 1.8779360055923462, 'eval_runtime': 37.589, 'eval_samples_per_second': 26.604, 'eval_steps_per_second': 1.117, 'epoch': 0.84}
+{'loss': 1.6727, 'grad_norm': 2.3357656002044678, 'learning_rate': 4.02315190901706e-06, 'epoch': 0.84}
+{'loss': 1.7587, 'grad_norm': 2.2227346897125244, 'learning_rate': 4.021121039805037e-06, 'epoch': 0.85}
+{'loss': 1.6526, 'grad_norm': 2.1947028636932373, 'learning_rate': 4.0190901705930144e-06, 'epoch': 0.85}
+{'loss': 1.7306, 'grad_norm': 2.3331241607666016, 'learning_rate': 4.017059301380992e-06, 'epoch': 0.85}
+{'loss': 1.6212, 'grad_norm': 2.324481248855591, 'learning_rate': 4.015028432168969e-06, 'epoch': 0.85}
+{'loss': 1.6704, 'grad_norm': 2.3151419162750244, 'learning_rate': 4.012997562956945e-06, 'epoch': 0.85}
+{'loss': 1.6609, 'grad_norm': 2.367640256881714, 'learning_rate': 4.0109666937449235e-06, 'epoch': 0.85}
+{'loss': 1.6512, 'grad_norm': 2.194453716278076, 'learning_rate': 4.0089358245329e-06, 'epoch': 0.85}
+{'loss': 1.7277, 'grad_norm': 2.1936917304992676, 'learning_rate': 4.006904955320878e-06, 'epoch': 0.85}
+{'loss': 1.7187, 'grad_norm': 2.354254961013794, 'learning_rate': 4.0048740861088545e-06, 'epoch': 0.85}
+{'eval_loss': 1.870963454246521, 'eval_runtime': 37.6263, 'eval_samples_per_second': 26.577, 'eval_steps_per_second': 1.116, 'epoch': 0.85}
+{'loss': 1.6663, 'grad_norm': 2.290553569793701, 'learning_rate': 4.002843216896833e-06, 'epoch': 0.86}
+{'loss': 1.6752, 'grad_norm': 2.215575933456421, 'learning_rate': 4.000812347684809e-06, 'epoch': 0.86}
+{'loss': 1.6147, 'grad_norm': 2.2778234481811523, 'learning_rate': 3.998781478472787e-06, 'epoch': 0.86}
+{'loss': 1.7779, 'grad_norm': 2.6973159313201904, 'learning_rate': 3.996750609260764e-06, 'epoch': 0.86}
+{'loss': 1.6894, 'grad_norm': 2.41398024559021, 'learning_rate': 3.994719740048742e-06, 'epoch': 0.86}
+{'loss': 1.6548, 'grad_norm': 2.4281370639801025, 'learning_rate': 3.992688870836718e-06, 'epoch': 0.86}
+{'loss': 1.7032, 'grad_norm': 2.2756524085998535, 'learning_rate': 3.990658001624696e-06, 'epoch': 0.86}
+{'loss': 1.6546, 'grad_norm': 2.3227243423461914, 'learning_rate': 3.988627132412673e-06, 'epoch': 0.86}
+{'loss': 1.6695, 'grad_norm': 2.4726102352142334, 'learning_rate': 3.98659626320065e-06, 'epoch': 0.86}
+{'loss': 1.6793, 'grad_norm': 2.2631256580352783, 'learning_rate': 3.984565393988627e-06, 'epoch': 0.87}
+{'eval_loss': 1.8742138147354126, 'eval_runtime': 37.6365, 'eval_samples_per_second': 26.57, 'eval_steps_per_second': 1.116, 'epoch': 0.87}
+{'loss': 1.6987, 'grad_norm': 2.284043550491333, 'learning_rate': 3.9825345247766046e-06, 'epoch': 0.87}
+{'loss': 1.6968, 'grad_norm': 2.562352180480957, 'learning_rate': 3.980503655564582e-06, 'epoch': 0.87}
+{'loss': 1.6728, 'grad_norm': 2.2665982246398926, 'learning_rate': 3.978472786352559e-06, 'epoch': 0.87}
+{'loss': 1.7389, 'grad_norm': 2.358469247817993, 'learning_rate': 3.976441917140536e-06, 'epoch': 0.87}
+{'loss': 1.704, 'grad_norm': 2.3413991928100586, 'learning_rate': 3.974411047928514e-06, 'epoch': 0.87}
+{'loss': 1.7013, 'grad_norm': 2.27911376953125, 'learning_rate': 3.972380178716491e-06, 'epoch': 0.87}
+{'loss': 1.624, 'grad_norm': 2.1675865650177, 'learning_rate': 3.970349309504468e-06, 'epoch': 0.87}
+{'loss': 1.6416, 'grad_norm': 2.3618979454040527, 'learning_rate': 3.9683184402924455e-06, 'epoch': 0.87}
+{'loss': 1.6936, 'grad_norm': 2.3092408180236816, 'learning_rate': 3.966287571080423e-06, 'epoch': 0.88}
+{'loss': 1.6886, 'grad_norm': 2.2592453956604004, 'learning_rate': 3.9642567018684e-06, 'epoch': 0.88}
+{'eval_loss': 1.8673349618911743, 'eval_runtime': 37.6098, 'eval_samples_per_second': 26.589, 'eval_steps_per_second': 1.117, 'epoch': 0.88}
+{'loss': 1.6032, 'grad_norm': 2.1652581691741943, 'learning_rate': 3.962225832656377e-06, 'epoch': 0.88}
+{'loss': 1.6686, 'grad_norm': 2.3123538494110107, 'learning_rate': 3.960194963444355e-06, 'epoch': 0.88}
+{'loss': 1.6716, 'grad_norm': 2.2642290592193604, 'learning_rate': 3.958164094232332e-06, 'epoch': 0.88}
+{'loss': 1.673, 'grad_norm': 2.416260004043579, 'learning_rate': 3.956133225020309e-06, 'epoch': 0.88}
+{'loss': 1.6709, 'grad_norm': 2.3879332542419434, 'learning_rate': 3.954102355808286e-06, 'epoch': 0.88}
+{'loss': 1.6746, 'grad_norm': 2.4499008655548096, 'learning_rate': 3.952071486596264e-06, 'epoch': 0.88}
+{'loss': 1.65, 'grad_norm': 2.3457717895507812, 'learning_rate': 3.950040617384241e-06, 'epoch': 0.88}
+{'loss': 1.7186, 'grad_norm': 2.3826797008514404, 'learning_rate': 3.948009748172218e-06, 'epoch': 0.89}
+{'loss': 1.6739, 'grad_norm': 2.2607972621917725, 'learning_rate': 3.9459788789601955e-06, 'epoch': 0.89}
+{'loss': 1.6725, 'grad_norm': 2.245619773864746, 'learning_rate': 3.943948009748173e-06, 'epoch': 0.89}
+{'eval_loss': 1.8675588369369507, 'eval_runtime': 37.3102, 'eval_samples_per_second': 26.802, 'eval_steps_per_second': 1.126, 'epoch': 0.89}
+{'loss': 1.7297, 'grad_norm': 2.2497591972351074, 'learning_rate': 3.94191714053615e-06, 'epoch': 0.89}
+{'loss': 1.6334, 'grad_norm': 2.258052349090576, 'learning_rate': 3.939886271324127e-06, 'epoch': 0.89}
+{'loss': 1.6273, 'grad_norm': 2.3121917247772217, 'learning_rate': 3.937855402112104e-06, 'epoch': 0.89}
+{'loss': 1.688, 'grad_norm': 2.2860376834869385, 'learning_rate': 3.935824532900082e-06, 'epoch': 0.89}
+{'loss': 1.7092, 'grad_norm': 2.3880012035369873, 'learning_rate': 3.933793663688058e-06, 'epoch': 0.89}
+{'loss': 1.6259, 'grad_norm': 2.324755907058716, 'learning_rate': 3.9317627944760365e-06, 'epoch': 0.89}
+{'loss': 1.6477, 'grad_norm': 2.3194503784179688, 'learning_rate': 3.929731925264013e-06, 'epoch': 0.9}
+{'loss': 1.6752, 'grad_norm': 2.1397907733917236, 'learning_rate': 3.927701056051991e-06, 'epoch': 0.9}
+{'loss': 1.6398, 'grad_norm': 2.195132255554199, 'learning_rate': 3.9256701868399674e-06, 'epoch': 0.9}
+{'loss': 1.606, 'grad_norm': 2.221529006958008, 'learning_rate': 3.9236393176279456e-06, 'epoch': 0.9}
+{'eval_loss': 1.865718126296997, 'eval_runtime': 37.4994, 'eval_samples_per_second': 26.667, 'eval_steps_per_second': 1.12, 'epoch': 0.9}
+{'loss': 1.6692, 'grad_norm': 2.2246956825256348, 'learning_rate': 3.921608448415922e-06, 'epoch': 0.9}
+{'loss': 1.6492, 'grad_norm': 2.2192130088806152, 'learning_rate': 3.9195775792039e-06, 'epoch': 0.9}
+{'loss': 1.69, 'grad_norm': 2.3164634704589844, 'learning_rate': 3.9175467099918765e-06, 'epoch': 0.9}
+{'loss': 1.7044, 'grad_norm': 2.1983981132507324, 'learning_rate': 3.915515840779855e-06, 'epoch': 0.9}
+{'loss': 1.6106, 'grad_norm': 2.2029359340667725, 'learning_rate': 3.913484971567831e-06, 'epoch': 0.9}
+{'loss': 1.6809, 'grad_norm': 2.541537284851074, 'learning_rate': 3.911454102355808e-06, 'epoch': 0.91}
+{'loss': 1.6722, 'grad_norm': 2.159372568130493, 'learning_rate': 3.909423233143786e-06, 'epoch': 0.91}
+{'loss': 1.7445, 'grad_norm': 2.4076614379882812, 'learning_rate': 3.907392363931763e-06, 'epoch': 0.91}
+{'loss': 1.7621, 'grad_norm': 2.3259329795837402, 'learning_rate': 3.90536149471974e-06, 'epoch': 0.91}
+{'loss': 1.7973, 'grad_norm': 2.3167037963867188, 'learning_rate': 3.9033306255077175e-06, 'epoch': 0.91}
+{'eval_loss': 1.8619978427886963, 'eval_runtime': 37.5483, 'eval_samples_per_second': 26.632, 'eval_steps_per_second': 1.119, 'epoch': 0.91}
+{'loss': 1.6517, 'grad_norm': 2.1997923851013184, 'learning_rate': 3.901299756295695e-06, 'epoch': 0.91}
+{'loss': 1.666, 'grad_norm': 2.2077934741973877, 'learning_rate': 3.899268887083672e-06, 'epoch': 0.91}
+{'loss': 1.6803, 'grad_norm': 2.381362199783325, 'learning_rate': 3.897238017871649e-06, 'epoch': 0.91}
+{'loss': 1.6407, 'grad_norm': 2.3029696941375732, 'learning_rate': 3.8952071486596266e-06, 'epoch': 0.91}
+{'loss': 1.7358, 'grad_norm': 2.4492971897125244, 'learning_rate': 3.893176279447604e-06, 'epoch': 0.92}
+{'loss': 1.7039, 'grad_norm': 2.2959465980529785, 'learning_rate': 3.891145410235581e-06, 'epoch': 0.92}
+{'loss': 1.6603, 'grad_norm': 2.3179612159729004, 'learning_rate': 3.889114541023558e-06, 'epoch': 0.92}
+{'loss': 1.6048, 'grad_norm': 2.146451711654663, 'learning_rate': 3.887083671811536e-06, 'epoch': 0.92}
+{'loss': 1.7475, 'grad_norm': 2.4630162715911865, 'learning_rate': 3.885052802599513e-06, 'epoch': 0.92}
+{'loss': 1.6815, 'grad_norm': 2.2624716758728027, 'learning_rate': 3.88302193338749e-06, 'epoch': 0.92}
+{'eval_loss': 1.8636605739593506, 'eval_runtime': 37.617, 'eval_samples_per_second': 26.584, 'eval_steps_per_second': 1.117, 'epoch': 0.92}
+{'loss': 1.6526, 'grad_norm': 2.8170273303985596, 'learning_rate': 3.8809910641754675e-06, 'epoch': 0.92}
+{'loss': 1.7086, 'grad_norm': 2.380526542663574, 'learning_rate': 3.878960194963445e-06, 'epoch': 0.92}
+{'loss': 1.6116, 'grad_norm': 2.259199619293213, 'learning_rate': 3.876929325751422e-06, 'epoch': 0.92}
+{'loss': 1.6673, 'grad_norm': 2.267951726913452, 'learning_rate': 3.874898456539399e-06, 'epoch': 0.92}
+{'loss': 1.6409, 'grad_norm': 2.3607630729675293, 'learning_rate': 3.872867587327377e-06, 'epoch': 0.93}
+{'loss': 1.6459, 'grad_norm': 2.2475223541259766, 'learning_rate': 3.870836718115354e-06, 'epoch': 0.93}
+{'loss': 1.6739, 'grad_norm': 2.2908780574798584, 'learning_rate': 3.868805848903331e-06, 'epoch': 0.93}
+{'loss': 1.688, 'grad_norm': 2.6841254234313965, 'learning_rate': 3.8667749796913084e-06, 'epoch': 0.93}
+{'loss': 1.6874, 'grad_norm': 2.4284074306488037, 'learning_rate': 3.864744110479286e-06, 'epoch': 0.93}
+{'loss': 1.7072, 'grad_norm': 2.580435037612915, 'learning_rate': 3.862713241267262e-06, 'epoch': 0.93}
+{'eval_loss': 1.8681576251983643, 'eval_runtime': 37.6276, 'eval_samples_per_second': 26.576, 'eval_steps_per_second': 1.116, 'epoch': 0.93}
+{'loss': 1.6663, 'grad_norm': 2.5213489532470703, 'learning_rate': 3.86068237205524e-06, 'epoch': 0.93}
+{'loss': 1.6149, 'grad_norm': 2.346235513687134, 'learning_rate': 3.858651502843217e-06, 'epoch': 0.93}
+{'loss': 1.6484, 'grad_norm': 2.218234062194824, 'learning_rate': 3.856620633631195e-06, 'epoch': 0.93}
+{'loss': 1.7395, 'grad_norm': 2.3536124229431152, 'learning_rate': 3.854589764419171e-06, 'epoch': 0.94}
+{'loss': 1.6856, 'grad_norm': 2.3162553310394287, 'learning_rate': 3.852558895207149e-06, 'epoch': 0.94}
+{'loss': 1.6378, 'grad_norm': 2.286656379699707, 'learning_rate': 3.850528025995126e-06, 'epoch': 0.94}
+{'loss': 1.6487, 'grad_norm': 2.2397043704986572, 'learning_rate': 3.848497156783104e-06, 'epoch': 0.94}
+{'loss': 1.6584, 'grad_norm': 2.3519465923309326, 'learning_rate': 3.84646628757108e-06, 'epoch': 0.94}
+{'loss': 1.6552, 'grad_norm': 2.444145441055298, 'learning_rate': 3.8444354183590585e-06, 'epoch': 0.94}
+{'loss': 1.6167, 'grad_norm': 2.3528952598571777, 'learning_rate': 3.842404549147035e-06, 'epoch': 0.94}
+{'eval_loss': 1.860885500907898, 'eval_runtime': 37.6145, 'eval_samples_per_second': 26.586, 'eval_steps_per_second': 1.117, 'epoch': 0.94}
+{'loss': 1.6737, 'grad_norm': 2.125335454940796, 'learning_rate': 3.840373679935013e-06, 'epoch': 0.94}
+{'loss': 1.6524, 'grad_norm': 2.147477626800537, 'learning_rate': 3.8383428107229894e-06, 'epoch': 0.94}
+{'loss': 1.6914, 'grad_norm': 2.251481533050537, 'learning_rate': 3.836311941510967e-06, 'epoch': 0.95}
+{'loss': 1.631, 'grad_norm': 2.253399610519409, 'learning_rate': 3.834281072298944e-06, 'epoch': 0.95}
+{'loss': 1.702, 'grad_norm': 2.28114652633667, 'learning_rate': 3.832250203086921e-06, 'epoch': 0.95}
+{'loss': 1.7465, 'grad_norm': 2.304431915283203, 'learning_rate': 3.8302193338748985e-06, 'epoch': 0.95}
+{'loss': 1.6759, 'grad_norm': 2.363009214401245, 'learning_rate': 3.828188464662876e-06, 'epoch': 0.95}
+{'loss': 1.6214, 'grad_norm': 2.3289902210235596, 'learning_rate': 3.826157595450853e-06, 'epoch': 0.95}
+{'loss': 1.6705, 'grad_norm': 2.274113655090332, 'learning_rate': 3.82412672623883e-06, 'epoch': 0.95}
+{'loss': 1.6396, 'grad_norm': 2.223397731781006, 'learning_rate': 3.822095857026808e-06, 'epoch': 0.95}
+{'eval_loss': 1.8599655628204346, 'eval_runtime': 37.6205, 'eval_samples_per_second': 26.581, 'eval_steps_per_second': 1.116, 'epoch': 0.95}
+{'loss': 1.6565, 'grad_norm': 2.292268991470337, 'learning_rate': 3.820064987814785e-06, 'epoch': 0.95}
+{'loss': 1.6577, 'grad_norm': 2.193462610244751, 'learning_rate': 3.818034118602762e-06, 'epoch': 0.96}
+{'loss': 1.6667, 'grad_norm': 2.190351963043213, 'learning_rate': 3.8160032493907395e-06, 'epoch': 0.96}
+{'loss': 1.7021, 'grad_norm': 2.317317247390747, 'learning_rate': 3.813972380178717e-06, 'epoch': 0.96}
+{'loss': 1.6114, 'grad_norm': 2.2162911891937256, 'learning_rate': 3.811941510966694e-06, 'epoch': 0.96}
+{'loss': 1.5729, 'grad_norm': 2.1471550464630127, 'learning_rate': 3.809910641754671e-06, 'epoch': 0.96}
+{'loss': 1.6651, 'grad_norm': 2.288496971130371, 'learning_rate': 3.8078797725426486e-06, 'epoch': 0.96}
+{'loss': 1.6375, 'grad_norm': 2.327258586883545, 'learning_rate': 3.8058489033306254e-06, 'epoch': 0.96}
+{'loss': 1.7108, 'grad_norm': 2.3102569580078125, 'learning_rate': 3.803818034118603e-06, 'epoch': 0.96}
+{'loss': 1.6984, 'grad_norm': 2.422376871109009, 'learning_rate': 3.80178716490658e-06, 'epoch': 0.96}
+{'eval_loss': 1.8572338819503784, 'eval_runtime': 37.6523, 'eval_samples_per_second': 26.559, 'eval_steps_per_second': 1.115, 'epoch': 0.96}
+{'loss': 1.656, 'grad_norm': 2.2281651496887207, 'learning_rate': 3.7997562956945577e-06, 'epoch': 0.97}
+{'loss': 1.6341, 'grad_norm': 2.3340115547180176, 'learning_rate': 3.7977254264825345e-06, 'epoch': 0.97}
+{'loss': 1.74, 'grad_norm': 2.6555778980255127, 'learning_rate': 3.7956945572705122e-06, 'epoch': 0.97}
+{'loss': 1.7169, 'grad_norm': 2.418492555618286, 'learning_rate': 3.793663688058489e-06, 'epoch': 0.97}
+{'loss': 1.7104, 'grad_norm': 2.384767532348633, 'learning_rate': 3.791632818846467e-06, 'epoch': 0.97}
+{'loss': 1.7048, 'grad_norm': 2.3406665325164795, 'learning_rate': 3.7896019496344436e-06, 'epoch': 0.97}
+{'loss': 1.6889, 'grad_norm': 2.3360702991485596, 'learning_rate': 3.787571080422421e-06, 'epoch': 0.97}
+{'loss': 1.6629, 'grad_norm': 2.221855401992798, 'learning_rate': 3.785540211210398e-06, 'epoch': 0.97}
+{'loss': 1.6583, 'grad_norm': 2.3688080310821533, 'learning_rate': 3.7835093419983755e-06, 'epoch': 0.97}
+{'loss': 1.7604, 'grad_norm': 2.405391216278076, 'learning_rate': 3.7814784727863527e-06, 'epoch': 0.98}
+{'eval_loss': 1.856308102607727, 'eval_runtime': 37.6023, 'eval_samples_per_second': 26.594, 'eval_steps_per_second': 1.117, 'epoch': 0.98}
+{'loss': 1.7076, 'grad_norm': 2.440204620361328, 'learning_rate': 3.77944760357433e-06, 'epoch': 0.98}
+{'loss': 1.6423, 'grad_norm': 2.215224266052246, 'learning_rate': 3.7774167343623073e-06, 'epoch': 0.98}
+{'loss': 1.6882, 'grad_norm': 2.330413818359375, 'learning_rate': 3.7753858651502846e-06, 'epoch': 0.98}
+{'loss': 1.6865, 'grad_norm': 2.29192852973938, 'learning_rate': 3.773354995938262e-06, 'epoch': 0.98}
+{'loss': 1.7271, 'grad_norm': 2.2231106758117676, 'learning_rate': 3.771324126726239e-06, 'epoch': 0.98}
+{'loss': 1.6635, 'grad_norm': 2.2481043338775635, 'learning_rate': 3.7692932575142164e-06, 'epoch': 0.98}
+{'loss': 1.5836, 'grad_norm': 2.2140448093414307, 'learning_rate': 3.7672623883021937e-06, 'epoch': 0.98}
+{'loss': 1.6784, 'grad_norm': 2.484950065612793, 'learning_rate': 3.765231519090171e-06, 'epoch': 0.98}
+{'loss': 1.6183, 'grad_norm': 2.2795979976654053, 'learning_rate': 3.7632006498781482e-06, 'epoch': 0.99}
+{'loss': 1.6612, 'grad_norm': 2.223289966583252, 'learning_rate': 3.761169780666125e-06, 'epoch': 0.99}
+{'eval_loss': 1.8531321287155151, 'eval_runtime': 37.6447, 'eval_samples_per_second': 26.564, 'eval_steps_per_second': 1.116, 'epoch': 0.99}
+{'loss': 1.6935, 'grad_norm': 2.3064780235290527, 'learning_rate': 3.7591389114541028e-06, 'epoch': 0.99}
+{'loss': 1.6448, 'grad_norm': 2.287675380706787, 'learning_rate': 3.7571080422420796e-06, 'epoch': 0.99}
+{'loss': 1.7127, 'grad_norm': 2.146740436553955, 'learning_rate': 3.7550771730300573e-06, 'epoch': 0.99}
+{'loss': 1.6961, 'grad_norm': 2.1838247776031494, 'learning_rate': 3.753046303818034e-06, 'epoch': 0.99}
+{'loss': 1.7271, 'grad_norm': 2.3250348567962646, 'learning_rate': 3.751015434606012e-06, 'epoch': 0.99}
+{'loss': 1.6403, 'grad_norm': 2.292318105697632, 'learning_rate': 3.7489845653939887e-06, 'epoch': 0.99}
+{'loss': 1.664, 'grad_norm': 2.1642160415649414, 'learning_rate': 3.7469536961819664e-06, 'epoch': 0.99}
+{'loss': 1.7045, 'grad_norm': 2.3095970153808594, 'learning_rate': 3.7449228269699433e-06, 'epoch': 1.0}
+{'loss': 1.6644, 'grad_norm': 2.374711036682129, 'learning_rate': 3.742891957757921e-06, 'epoch': 1.0}
+{'loss': 1.7084, 'grad_norm': 2.361706256866455, 'learning_rate': 3.740861088545898e-06, 'epoch': 1.0}
+{'eval_loss': 1.852935791015625, 'eval_runtime': 37.3149, 'eval_samples_per_second': 26.799, 'eval_steps_per_second': 1.126, 'epoch': 1.0}
+{'loss': 1.6456, 'grad_norm': 2.2384302616119385, 'learning_rate': 3.7388302193338755e-06, 'epoch': 1.0}
+{'loss': 1.6444, 'grad_norm': 2.1428847312927246, 'learning_rate': 3.7367993501218524e-06, 'epoch': 1.0}
+{'loss': 1.5934, 'grad_norm': 2.436054229736328, 'learning_rate': 3.7347684809098297e-06, 'epoch': 1.0}
+{'loss': 1.5528, 'grad_norm': 2.1924686431884766, 'learning_rate': 3.732737611697807e-06, 'epoch': 1.0}
+{'loss': 1.6166, 'grad_norm': 2.297635316848755, 'learning_rate': 3.7307067424857842e-06, 'epoch': 1.0}
+{'loss': 1.5922, 'grad_norm': 2.4071404933929443, 'learning_rate': 3.7286758732737615e-06, 'epoch': 1.0}
+{'loss': 1.7059, 'grad_norm': 2.6339685916900635, 'learning_rate': 3.7266450040617388e-06, 'epoch': 1.0}
+{'loss': 1.595, 'grad_norm': 2.6376595497131348, 'learning_rate': 3.724614134849716e-06, 'epoch': 1.01}
+{'loss': 1.692, 'grad_norm': 2.522437572479248, 'learning_rate': 3.7225832656376933e-06, 'epoch': 1.01}
+{'loss': 1.655, 'grad_norm': 2.32871675491333, 'learning_rate': 3.7205523964256706e-06, 'epoch': 1.01}
+{'eval_loss': 1.8531478643417358, 'eval_runtime': 37.4966, 'eval_samples_per_second': 26.669, 'eval_steps_per_second': 1.12, 'epoch': 1.01}
+{'loss': 1.637, 'grad_norm': 2.397160053253174, 'learning_rate': 3.718521527213648e-06, 'epoch': 1.01}
+{'loss': 1.5282, 'grad_norm': 2.3996469974517822, 'learning_rate': 3.716490658001625e-06, 'epoch': 1.01}
+{'loss': 1.6346, 'grad_norm': 2.483682632446289, 'learning_rate': 3.7144597887896024e-06, 'epoch': 1.01}
+{'loss': 1.6426, 'grad_norm': 2.685183048248291, 'learning_rate': 3.7124289195775797e-06, 'epoch': 1.01}
+{'loss': 1.6049, 'grad_norm': 2.5810654163360596, 'learning_rate': 3.710398050365557e-06, 'epoch': 1.01}
+{'loss': 1.6427, 'grad_norm': 2.7991509437561035, 'learning_rate': 3.708367181153534e-06, 'epoch': 1.01}
+{'loss': 1.5957, 'grad_norm': 2.3787317276000977, 'learning_rate': 3.7063363119415115e-06, 'epoch': 1.02}
+{'loss': 1.5765, 'grad_norm': 2.390448808670044, 'learning_rate': 3.7043054427294884e-06, 'epoch': 1.02}
+{'loss': 1.6257, 'grad_norm': 2.333242416381836, 'learning_rate': 3.702274573517466e-06, 'epoch': 1.02}
+{'loss': 1.6072, 'grad_norm': 2.299870014190674, 'learning_rate': 3.700243704305443e-06, 'epoch': 1.02}
+{'eval_loss': 1.8586719036102295, 'eval_runtime': 37.6292, 'eval_samples_per_second': 26.575, 'eval_steps_per_second': 1.116, 'epoch': 1.02}
+{'loss': 1.581, 'grad_norm': 2.4434924125671387, 'learning_rate': 3.6982128350934206e-06, 'epoch': 1.02}
+{'loss': 1.7024, 'grad_norm': 2.6050779819488525, 'learning_rate': 3.6961819658813975e-06, 'epoch': 1.02}
+{'loss': 1.6139, 'grad_norm': 2.4196629524230957, 'learning_rate': 3.694151096669375e-06, 'epoch': 1.02}
+{'loss': 1.6274, 'grad_norm': 2.613680362701416, 'learning_rate': 3.692120227457352e-06, 'epoch': 1.02}
+{'loss': 1.5409, 'grad_norm': 2.378708839416504, 'learning_rate': 3.6900893582453297e-06, 'epoch': 1.02}
+{'loss': 1.6156, 'grad_norm': 2.441114664077759, 'learning_rate': 3.6880584890333066e-06, 'epoch': 1.03}
+{'loss': 1.6226, 'grad_norm': 2.3881027698516846, 'learning_rate': 3.6860276198212834e-06, 'epoch': 1.03}
+{'loss': 1.637, 'grad_norm': 2.3544223308563232, 'learning_rate': 3.683996750609261e-06, 'epoch': 1.03}
+{'loss': 1.6514, 'grad_norm': 2.4742300510406494, 'learning_rate': 3.681965881397238e-06, 'epoch': 1.03}
+{'loss': 1.6108, 'grad_norm': 2.453165292739868, 'learning_rate': 3.6799350121852157e-06, 'epoch': 1.03}
+{'eval_loss': 1.8520824909210205, 'eval_runtime': 37.6179, 'eval_samples_per_second': 26.583, 'eval_steps_per_second': 1.116, 'epoch': 1.03}
+{'loss': 1.6105, 'grad_norm': 2.329737424850464, 'learning_rate': 3.6779041429731925e-06, 'epoch': 1.03}
+{'loss': 1.6013, 'grad_norm': 2.3812453746795654, 'learning_rate': 3.6758732737611702e-06, 'epoch': 1.03}
+{'loss': 1.6141, 'grad_norm': 2.446033239364624, 'learning_rate': 3.673842404549147e-06, 'epoch': 1.03}
+{'loss': 1.632, 'grad_norm': 2.5942883491516113, 'learning_rate': 3.671811535337125e-06, 'epoch': 1.03}
+{'loss': 1.7143, 'grad_norm': 2.586822986602783, 'learning_rate': 3.6697806661251016e-06, 'epoch': 1.04}
+{'loss': 1.6309, 'grad_norm': 2.401442289352417, 'learning_rate': 3.6677497969130793e-06, 'epoch': 1.04}
+{'loss': 1.6867, 'grad_norm': 2.7013072967529297, 'learning_rate': 3.665718927701056e-06, 'epoch': 1.04}
+{'loss': 1.6158, 'grad_norm': 2.6335184574127197, 'learning_rate': 3.663688058489034e-06, 'epoch': 1.04}
+{'loss': 1.5645, 'grad_norm': 2.4204041957855225, 'learning_rate': 3.6616571892770107e-06, 'epoch': 1.04}
+{'loss': 1.6391, 'grad_norm': 2.5150389671325684, 'learning_rate': 3.659626320064988e-06, 'epoch': 1.04}
+{'eval_loss': 1.84908127784729, 'eval_runtime': 37.6464, 'eval_samples_per_second': 26.563, 'eval_steps_per_second': 1.116, 'epoch': 1.04}
+{'loss': 1.6172, 'grad_norm': 2.3310885429382324, 'learning_rate': 3.6575954508529653e-06, 'epoch': 1.04}
+{'loss': 1.6437, 'grad_norm': 2.550356388092041, 'learning_rate': 3.6555645816409426e-06, 'epoch': 1.04}
+{'loss': 1.5143, 'grad_norm': 2.404630184173584, 'learning_rate': 3.65353371242892e-06, 'epoch': 1.04}
+{'loss': 1.6453, 'grad_norm': 2.4727578163146973, 'learning_rate': 3.651502843216897e-06, 'epoch': 1.05}
+{'loss': 1.5838, 'grad_norm': 2.4505090713500977, 'learning_rate': 3.6494719740048744e-06, 'epoch': 1.05}
+{'loss': 1.6425, 'grad_norm': 2.658905506134033, 'learning_rate': 3.6474411047928517e-06, 'epoch': 1.05}
+{'loss': 1.6397, 'grad_norm': 2.3289217948913574, 'learning_rate': 3.645410235580829e-06, 'epoch': 1.05}
+{'loss': 1.6055, 'grad_norm': 2.285571575164795, 'learning_rate': 3.6433793663688062e-06, 'epoch': 1.05}
+{'loss': 1.6348, 'grad_norm': 2.759633779525757, 'learning_rate': 3.6413484971567835e-06, 'epoch': 1.05}
+{'loss': 1.6348, 'grad_norm': 2.632030963897705, 'learning_rate': 3.6393176279447608e-06, 'epoch': 1.05}
+{'eval_loss': 1.851065993309021, 'eval_runtime': 37.6328, 'eval_samples_per_second': 26.573, 'eval_steps_per_second': 1.116, 'epoch': 1.05}
+{'loss': 1.6702, 'grad_norm': 2.406635284423828, 'learning_rate': 3.637286758732738e-06, 'epoch': 1.05}
+{'loss': 1.6404, 'grad_norm': 2.5476715564727783, 'learning_rate': 3.6352558895207153e-06, 'epoch': 1.05}
+{'loss': 1.6053, 'grad_norm': 2.4387404918670654, 'learning_rate': 3.633225020308692e-06, 'epoch': 1.06}
+{'loss': 1.6738, 'grad_norm': 2.5793299674987793, 'learning_rate': 3.63119415109667e-06, 'epoch': 1.06}
+{'loss': 1.5681, 'grad_norm': 2.459918260574341, 'learning_rate': 3.6291632818846467e-06, 'epoch': 1.06}
+{'loss': 1.5519, 'grad_norm': 2.311216354370117, 'learning_rate': 3.6271324126726244e-06, 'epoch': 1.06}
+{'loss': 1.6209, 'grad_norm': 2.328580379486084, 'learning_rate': 3.6251015434606013e-06, 'epoch': 1.06}
+{'loss': 1.6046, 'grad_norm': 2.234832763671875, 'learning_rate': 3.623070674248579e-06, 'epoch': 1.06}
+{'loss': 1.6397, 'grad_norm': 2.40209698677063, 'learning_rate': 3.621039805036556e-06, 'epoch': 1.06}
+{'loss': 1.6337, 'grad_norm': 2.4913783073425293, 'learning_rate': 3.6190089358245335e-06, 'epoch': 1.06}
+{'eval_loss': 1.8520405292510986, 'eval_runtime': 37.6262, 'eval_samples_per_second': 26.577, 'eval_steps_per_second': 1.116, 'epoch': 1.06}
+{'loss': 1.6421, 'grad_norm': 2.2618744373321533, 'learning_rate': 3.6169780666125104e-06, 'epoch': 1.06}
+{'loss': 1.5377, 'grad_norm': 2.3266866207122803, 'learning_rate': 3.614947197400488e-06, 'epoch': 1.07}
+{'loss': 1.6434, 'grad_norm': 2.379894256591797, 'learning_rate': 3.612916328188465e-06, 'epoch': 1.07}
+{'loss': 1.6595, 'grad_norm': 2.4847538471221924, 'learning_rate': 3.610885458976442e-06, 'epoch': 1.07}
+{'loss': 1.5847, 'grad_norm': 2.4468724727630615, 'learning_rate': 3.6088545897644195e-06, 'epoch': 1.07}
+{'loss': 1.5853, 'grad_norm': 2.6432249546051025, 'learning_rate': 3.6068237205523963e-06, 'epoch': 1.07}
+{'loss': 1.6635, 'grad_norm': 2.4650626182556152, 'learning_rate': 3.604792851340374e-06, 'epoch': 1.07}
+{'loss': 1.6347, 'grad_norm': 2.437939405441284, 'learning_rate': 3.602761982128351e-06, 'epoch': 1.07}
+{'loss': 1.5637, 'grad_norm': 2.4192442893981934, 'learning_rate': 3.6007311129163286e-06, 'epoch': 1.07}
+{'loss': 1.6065, 'grad_norm': 2.418076515197754, 'learning_rate': 3.5987002437043054e-06, 'epoch': 1.07}
+{'eval_loss': 1.8502905368804932, 'eval_runtime': 37.6526, 'eval_samples_per_second': 26.559, 'eval_steps_per_second': 1.115, 'epoch': 1.07}
+{'loss': 1.6555, 'grad_norm': 2.6004889011383057, 'learning_rate': 3.596669374492283e-06, 'epoch': 1.08}
+{'loss': 1.5698, 'grad_norm': 2.3510732650756836, 'learning_rate': 3.59463850528026e-06, 'epoch': 1.08}
+{'loss': 1.6478, 'grad_norm': 2.492844581604004, 'learning_rate': 3.5926076360682377e-06, 'epoch': 1.08}
+{'loss': 1.6166, 'grad_norm': 2.4689764976501465, 'learning_rate': 3.5905767668562145e-06, 'epoch': 1.08}
+{'loss': 1.6604, 'grad_norm': 2.431847333908081, 'learning_rate': 3.5885458976441922e-06, 'epoch': 1.08}
+{'loss': 1.6715, 'grad_norm': 2.365649938583374, 'learning_rate': 3.586515028432169e-06, 'epoch': 1.08}
+{'loss': 1.5687, 'grad_norm': 2.5960094928741455, 'learning_rate': 3.5844841592201464e-06, 'epoch': 1.08}
+{'loss': 1.6017, 'grad_norm': 2.357590675354004, 'learning_rate': 3.5824532900081237e-06, 'epoch': 1.08}
+{'loss': 1.6527, 'grad_norm': 2.549394130706787, 'learning_rate': 3.580422420796101e-06, 'epoch': 1.08}
+{'loss': 1.5397, 'grad_norm': 2.453943967819214, 'learning_rate': 3.578391551584078e-06, 'epoch': 1.08}
+{'eval_loss': 1.8461735248565674, 'eval_runtime': 37.6249, 'eval_samples_per_second': 26.578, 'eval_steps_per_second': 1.116, 'epoch': 1.08}
+{'loss': 1.6337, 'grad_norm': 2.416750192642212, 'learning_rate': 3.5763606823720555e-06, 'epoch': 1.09}
+{'loss': 1.6629, 'grad_norm': 2.421569347381592, 'learning_rate': 3.5743298131600328e-06, 'epoch': 1.09}
+{'loss': 1.6307, 'grad_norm': 2.4197614192962646, 'learning_rate': 3.57229894394801e-06, 'epoch': 1.09}
+{'loss': 1.5948, 'grad_norm': 2.4408674240112305, 'learning_rate': 3.5702680747359873e-06, 'epoch': 1.09}
+{'loss': 1.6281, 'grad_norm': 2.5348496437072754, 'learning_rate': 3.5682372055239646e-06, 'epoch': 1.09}
+{'loss': 1.5703, 'grad_norm': 2.3410794734954834, 'learning_rate': 3.566206336311942e-06, 'epoch': 1.09}
+{'loss': 1.5572, 'grad_norm': 2.4604711532592773, 'learning_rate': 3.564175467099919e-06, 'epoch': 1.09}
+{'loss': 1.6125, 'grad_norm': 2.5502662658691406, 'learning_rate': 3.5621445978878964e-06, 'epoch': 1.09}
+{'loss': 1.6049, 'grad_norm': 2.5472617149353027, 'learning_rate': 3.5601137286758737e-06, 'epoch': 1.09}
+{'loss': 1.618, 'grad_norm': 2.3800535202026367, 'learning_rate': 3.5580828594638505e-06, 'epoch': 1.1}
+{'eval_loss': 1.841195821762085, 'eval_runtime': 37.6051, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 1.1}
+{'loss': 1.6559, 'grad_norm': 2.391298294067383, 'learning_rate': 3.5560519902518282e-06, 'epoch': 1.1}
+{'loss': 1.6121, 'grad_norm': 2.332451105117798, 'learning_rate': 3.554021121039805e-06, 'epoch': 1.1}
+{'loss': 1.5878, 'grad_norm': 2.390516996383667, 'learning_rate': 3.551990251827783e-06, 'epoch': 1.1}
+{'loss': 1.6114, 'grad_norm': 2.2806203365325928, 'learning_rate': 3.5499593826157596e-06, 'epoch': 1.1}
+{'loss': 1.5944, 'grad_norm': 2.3272573947906494, 'learning_rate': 3.5479285134037373e-06, 'epoch': 1.1}
+{'loss': 1.5717, 'grad_norm': 2.411851644515991, 'learning_rate': 3.545897644191714e-06, 'epoch': 1.1}
+{'loss': 1.6366, 'grad_norm': 2.5334911346435547, 'learning_rate': 3.543866774979692e-06, 'epoch': 1.1}
+{'loss': 1.5796, 'grad_norm': 2.512498140335083, 'learning_rate': 3.5418359057676687e-06, 'epoch': 1.1}
+{'loss': 1.6342, 'grad_norm': 2.624303102493286, 'learning_rate': 3.5398050365556464e-06, 'epoch': 1.11}
+{'loss': 1.6096, 'grad_norm': 2.468324899673462, 'learning_rate': 3.5377741673436233e-06, 'epoch': 1.11}
+{'eval_loss': 1.8414723873138428, 'eval_runtime': 37.2912, 'eval_samples_per_second': 26.816, 'eval_steps_per_second': 1.126, 'epoch': 1.11}
+{'loss': 1.6322, 'grad_norm': 2.5445938110351562, 'learning_rate': 3.535743298131601e-06, 'epoch': 1.11}
+{'loss': 1.6571, 'grad_norm': 2.424166679382324, 'learning_rate': 3.533712428919578e-06, 'epoch': 1.11}
+{'loss': 1.6094, 'grad_norm': 2.2184371948242188, 'learning_rate': 3.5316815597075547e-06, 'epoch': 1.11}
+{'loss': 1.6384, 'grad_norm': 2.31868052482605, 'learning_rate': 3.5296506904955324e-06, 'epoch': 1.11}
+{'loss': 1.6408, 'grad_norm': 2.4033191204071045, 'learning_rate': 3.5276198212835093e-06, 'epoch': 1.11}
+{'loss': 1.6487, 'grad_norm': 2.4166927337646484, 'learning_rate': 3.525588952071487e-06, 'epoch': 1.11}
+{'loss': 1.6498, 'grad_norm': 2.5317635536193848, 'learning_rate': 3.523558082859464e-06, 'epoch': 1.11}
+{'loss': 1.5815, 'grad_norm': 2.4140689373016357, 'learning_rate': 3.5215272136474415e-06, 'epoch': 1.12}
+{'loss': 1.5925, 'grad_norm': 2.41127347946167, 'learning_rate': 3.5194963444354184e-06, 'epoch': 1.12}
+{'loss': 1.5671, 'grad_norm': 2.4729385375976562, 'learning_rate': 3.517465475223396e-06, 'epoch': 1.12}
+{'eval_loss': 1.8433341979980469, 'eval_runtime': 37.5091, 'eval_samples_per_second': 26.66, 'eval_steps_per_second': 1.12, 'epoch': 1.12}
+{'loss': 1.6383, 'grad_norm': 2.4998743534088135, 'learning_rate': 3.515434606011373e-06, 'epoch': 1.12}
+{'loss': 1.6766, 'grad_norm': 2.3632004261016846, 'learning_rate': 3.5134037367993506e-06, 'epoch': 1.12}
+{'loss': 1.6306, 'grad_norm': 2.38740611076355, 'learning_rate': 3.5113728675873275e-06, 'epoch': 1.12}
+{'loss': 1.5953, 'grad_norm': 2.4021427631378174, 'learning_rate': 3.5093419983753047e-06, 'epoch': 1.12}
+{'loss': 1.5515, 'grad_norm': 2.391281843185425, 'learning_rate': 3.507311129163282e-06, 'epoch': 1.12}
+{'loss': 1.6092, 'grad_norm': 2.55279803276062, 'learning_rate': 3.5052802599512593e-06, 'epoch': 1.12}
+{'loss': 1.6211, 'grad_norm': 2.535761594772339, 'learning_rate': 3.5032493907392366e-06, 'epoch': 1.13}
+{'loss': 1.5447, 'grad_norm': 2.429536819458008, 'learning_rate': 3.501218521527214e-06, 'epoch': 1.13}
+{'loss': 1.6277, 'grad_norm': 2.3843963146209717, 'learning_rate': 3.499187652315191e-06, 'epoch': 1.13}
+{'loss': 1.628, 'grad_norm': 2.514617681503296, 'learning_rate': 3.4971567831031684e-06, 'epoch': 1.13}
+{'eval_loss': 1.8409268856048584, 'eval_runtime': 37.612, 'eval_samples_per_second': 26.587, 'eval_steps_per_second': 1.117, 'epoch': 1.13}
+{'loss': 1.5641, 'grad_norm': 2.386265516281128, 'learning_rate': 3.4951259138911457e-06, 'epoch': 1.13}
+{'loss': 1.6895, 'grad_norm': 2.3740968704223633, 'learning_rate': 3.493095044679123e-06, 'epoch': 1.13}
+{'loss': 1.5114, 'grad_norm': 2.3313822746276855, 'learning_rate': 3.4910641754671002e-06, 'epoch': 1.13}
+{'loss': 1.6228, 'grad_norm': 2.448167324066162, 'learning_rate': 3.4890333062550775e-06, 'epoch': 1.13}
+{'loss': 1.5347, 'grad_norm': 2.4590566158294678, 'learning_rate': 3.4870024370430548e-06, 'epoch': 1.13}
+{'loss': 1.6118, 'grad_norm': 2.4080276489257812, 'learning_rate': 3.484971567831032e-06, 'epoch': 1.14}
+{'loss': 1.6455, 'grad_norm': 2.47418212890625, 'learning_rate': 3.482940698619009e-06, 'epoch': 1.14}
+{'loss': 1.6173, 'grad_norm': 2.2757680416107178, 'learning_rate': 3.4809098294069866e-06, 'epoch': 1.14}
+{'loss': 1.6221, 'grad_norm': 2.4792327880859375, 'learning_rate': 3.4788789601949634e-06, 'epoch': 1.14}
+{'loss': 1.5852, 'grad_norm': 2.4199671745300293, 'learning_rate': 3.476848090982941e-06, 'epoch': 1.14}
+{'eval_loss': 1.8396779298782349, 'eval_runtime': 37.6298, 'eval_samples_per_second': 26.575, 'eval_steps_per_second': 1.116, 'epoch': 1.14}
+{'loss': 1.7046, 'grad_norm': 2.4620611667633057, 'learning_rate': 3.474817221770918e-06, 'epoch': 1.14}
+{'loss': 1.644, 'grad_norm': 2.310995101928711, 'learning_rate': 3.4727863525588957e-06, 'epoch': 1.14}
+{'loss': 1.6061, 'grad_norm': 2.3428163528442383, 'learning_rate': 3.4707554833468725e-06, 'epoch': 1.14}
+{'loss': 1.5638, 'grad_norm': 2.502657890319824, 'learning_rate': 3.4687246141348502e-06, 'epoch': 1.14}
+{'loss': 1.594, 'grad_norm': 2.3965468406677246, 'learning_rate': 3.466693744922827e-06, 'epoch': 1.15}
+{'loss': 1.6256, 'grad_norm': 2.456319808959961, 'learning_rate': 3.464662875710805e-06, 'epoch': 1.15}
+{'loss': 1.5943, 'grad_norm': 2.6453397274017334, 'learning_rate': 3.4626320064987817e-06, 'epoch': 1.15}
+{'loss': 1.6439, 'grad_norm': 2.3519792556762695, 'learning_rate': 3.4606011372867594e-06, 'epoch': 1.15}
+{'loss': 1.6109, 'grad_norm': 2.333527088165283, 'learning_rate': 3.458570268074736e-06, 'epoch': 1.15}
+{'loss': 1.5939, 'grad_norm': 2.3793704509735107, 'learning_rate': 3.4565393988627135e-06, 'epoch': 1.15}
+{'eval_loss': 1.8347382545471191, 'eval_runtime': 37.6236, 'eval_samples_per_second': 26.579, 'eval_steps_per_second': 1.116, 'epoch': 1.15}
+{'loss': 1.5621, 'grad_norm': 2.525841474533081, 'learning_rate': 3.4545085296506908e-06, 'epoch': 1.15}
+{'loss': 1.6078, 'grad_norm': 2.407606363296509, 'learning_rate': 3.452477660438668e-06, 'epoch': 1.15}
+{'loss': 1.5632, 'grad_norm': 2.443652629852295, 'learning_rate': 3.4504467912266453e-06, 'epoch': 1.15}
+{'loss': 1.6121, 'grad_norm': 2.666557788848877, 'learning_rate': 3.4484159220146226e-06, 'epoch': 1.16}
+{'loss': 1.5979, 'grad_norm': 2.661820650100708, 'learning_rate': 3.4463850528026e-06, 'epoch': 1.16}
+{'loss': 1.6421, 'grad_norm': 2.5100960731506348, 'learning_rate': 3.444354183590577e-06, 'epoch': 1.16}
+{'loss': 1.5847, 'grad_norm': 2.6149494647979736, 'learning_rate': 3.4423233143785544e-06, 'epoch': 1.16}
+{'loss': 1.5384, 'grad_norm': 2.3105549812316895, 'learning_rate': 3.4402924451665317e-06, 'epoch': 1.16}
+{'loss': 1.6032, 'grad_norm': 2.4928884506225586, 'learning_rate': 3.438261575954509e-06, 'epoch': 1.16}
+{'loss': 1.6615, 'grad_norm': 2.685260057449341, 'learning_rate': 3.4362307067424862e-06, 'epoch': 1.16}
+{'eval_loss': 1.839748740196228, 'eval_runtime': 37.6864, 'eval_samples_per_second': 26.535, 'eval_steps_per_second': 1.114, 'epoch': 1.16}
+{'loss': 1.612, 'grad_norm': 2.515965461730957, 'learning_rate': 3.434199837530463e-06, 'epoch': 1.16}
+{'loss': 1.5615, 'grad_norm': 2.5119946002960205, 'learning_rate': 3.432168968318441e-06, 'epoch': 1.16}
+{'loss': 1.6555, 'grad_norm': 2.643338918685913, 'learning_rate': 3.4301380991064176e-06, 'epoch': 1.16}
+{'loss': 1.656, 'grad_norm': 2.494333505630493, 'learning_rate': 3.4281072298943953e-06, 'epoch': 1.17}
+{'loss': 1.6683, 'grad_norm': 2.4088759422302246, 'learning_rate': 3.426076360682372e-06, 'epoch': 1.17}
+{'loss': 1.6091, 'grad_norm': 2.2655296325683594, 'learning_rate': 3.42404549147035e-06, 'epoch': 1.17}
+{'loss': 1.5337, 'grad_norm': 2.5659916400909424, 'learning_rate': 3.4220146222583267e-06, 'epoch': 1.17}
+{'loss': 1.6221, 'grad_norm': 2.5061511993408203, 'learning_rate': 3.4199837530463044e-06, 'epoch': 1.17}
+{'loss': 1.6776, 'grad_norm': 2.723661184310913, 'learning_rate': 3.4179528838342813e-06, 'epoch': 1.17}
+{'loss': 1.6423, 'grad_norm': 2.5221714973449707, 'learning_rate': 3.415922014622259e-06, 'epoch': 1.17}
+{'eval_loss': 1.8444522619247437, 'eval_runtime': 37.666, 'eval_samples_per_second': 26.549, 'eval_steps_per_second': 1.115, 'epoch': 1.17}
+{'loss': 1.6485, 'grad_norm': 2.4205920696258545, 'learning_rate': 3.413891145410236e-06, 'epoch': 1.17}
+{'loss': 1.6304, 'grad_norm': 2.4757537841796875, 'learning_rate': 3.4118602761982135e-06, 'epoch': 1.17}
+{'loss': 1.6222, 'grad_norm': 2.4711575508117676, 'learning_rate': 3.4098294069861904e-06, 'epoch': 1.18}
+{'loss': 1.5758, 'grad_norm': 2.4191579818725586, 'learning_rate': 3.4077985377741673e-06, 'epoch': 1.18}
+{'loss': 1.6517, 'grad_norm': 2.5864055156707764, 'learning_rate': 3.405767668562145e-06, 'epoch': 1.18}
+{'loss': 1.6256, 'grad_norm': 2.440889596939087, 'learning_rate': 3.403736799350122e-06, 'epoch': 1.18}
+{'loss': 1.5681, 'grad_norm': 2.430316209793091, 'learning_rate': 3.4017059301380995e-06, 'epoch': 1.18}
+{'loss': 1.6914, 'grad_norm': 2.59964919090271, 'learning_rate': 3.3996750609260764e-06, 'epoch': 1.18}
+{'loss': 1.6069, 'grad_norm': 2.5512466430664062, 'learning_rate': 3.397644191714054e-06, 'epoch': 1.18}
+{'loss': 1.6114, 'grad_norm': 2.457883358001709, 'learning_rate': 3.395613322502031e-06, 'epoch': 1.18}
+{'eval_loss': 1.8421767950057983, 'eval_runtime': 37.6372, 'eval_samples_per_second': 26.569, 'eval_steps_per_second': 1.116, 'epoch': 1.18}
+{'loss': 1.5589, 'grad_norm': 2.292019844055176, 'learning_rate': 3.3935824532900086e-06, 'epoch': 1.18}
+{'loss': 1.6148, 'grad_norm': 2.522196054458618, 'learning_rate': 3.3915515840779855e-06, 'epoch': 1.19}
+{'loss': 1.6225, 'grad_norm': 2.353837251663208, 'learning_rate': 3.389520714865963e-06, 'epoch': 1.19}
+{'loss': 1.6271, 'grad_norm': 2.447843313217163, 'learning_rate': 3.38748984565394e-06, 'epoch': 1.19}
+{'loss': 1.5947, 'grad_norm': 2.4102237224578857, 'learning_rate': 3.3854589764419177e-06, 'epoch': 1.19}
+{'loss': 1.5853, 'grad_norm': 2.321927547454834, 'learning_rate': 3.3834281072298946e-06, 'epoch': 1.19}
+{'loss': 1.5762, 'grad_norm': 2.3737566471099854, 'learning_rate': 3.381397238017872e-06, 'epoch': 1.19}
+{'loss': 1.6699, 'grad_norm': 2.7383475303649902, 'learning_rate': 3.379366368805849e-06, 'epoch': 1.19}
+{'loss': 1.6137, 'grad_norm': 2.471622943878174, 'learning_rate': 3.3773354995938264e-06, 'epoch': 1.19}
+{'loss': 1.614, 'grad_norm': 2.4429757595062256, 'learning_rate': 3.3753046303818037e-06, 'epoch': 1.19}
+{'eval_loss': 1.8393288850784302, 'eval_runtime': 37.6262, 'eval_samples_per_second': 26.577, 'eval_steps_per_second': 1.116, 'epoch': 1.19}
+{'loss': 1.5998, 'grad_norm': 2.4647223949432373, 'learning_rate': 3.373273761169781e-06, 'epoch': 1.2}
+{'loss': 1.5885, 'grad_norm': 2.3344714641571045, 'learning_rate': 3.3712428919577582e-06, 'epoch': 1.2}
+{'loss': 1.6222, 'grad_norm': 2.550448417663574, 'learning_rate': 3.3692120227457355e-06, 'epoch': 1.2}
+{'loss': 1.5583, 'grad_norm': 2.5734009742736816, 'learning_rate': 3.3671811535337128e-06, 'epoch': 1.2}
+{'loss': 1.5952, 'grad_norm': 2.443739175796509, 'learning_rate': 3.36515028432169e-06, 'epoch': 1.2}
+{'loss': 1.6093, 'grad_norm': 2.303179979324341, 'learning_rate': 3.3631194151096673e-06, 'epoch': 1.2}
+{'loss': 1.6566, 'grad_norm': 2.3594095706939697, 'learning_rate': 3.3610885458976446e-06, 'epoch': 1.2}
+{'loss': 1.6393, 'grad_norm': 2.3826546669006348, 'learning_rate': 3.359057676685622e-06, 'epoch': 1.2}
+{'loss': 1.5337, 'grad_norm': 2.2865822315216064, 'learning_rate': 3.357026807473599e-06, 'epoch': 1.2}
+{'loss': 1.5897, 'grad_norm': 2.338270425796509, 'learning_rate': 3.354995938261576e-06, 'epoch': 1.21}
+{'eval_loss': 1.8334662914276123, 'eval_runtime': 37.6136, 'eval_samples_per_second': 26.586, 'eval_steps_per_second': 1.117, 'epoch': 1.21}
+{'loss': 1.5425, 'grad_norm': 2.3443257808685303, 'learning_rate': 3.3529650690495537e-06, 'epoch': 1.21}
+{'loss': 1.5814, 'grad_norm': 2.463318347930908, 'learning_rate': 3.3509341998375305e-06, 'epoch': 1.21}
+{'loss': 1.6216, 'grad_norm': 2.592215061187744, 'learning_rate': 3.3489033306255082e-06, 'epoch': 1.21}
+{'loss': 1.5577, 'grad_norm': 2.429705858230591, 'learning_rate': 3.346872461413485e-06, 'epoch': 1.21}
+{'loss': 1.5806, 'grad_norm': 2.4590299129486084, 'learning_rate': 3.344841592201463e-06, 'epoch': 1.21}
+{'loss': 1.5731, 'grad_norm': 2.3216300010681152, 'learning_rate': 3.3428107229894397e-06, 'epoch': 1.21}
+{'loss': 1.6131, 'grad_norm': 2.451798915863037, 'learning_rate': 3.3407798537774174e-06, 'epoch': 1.21}
+{'loss': 1.6346, 'grad_norm': 2.539858341217041, 'learning_rate': 3.338748984565394e-06, 'epoch': 1.21}
+{'loss': 1.6779, 'grad_norm': 2.479015827178955, 'learning_rate': 3.336718115353372e-06, 'epoch': 1.22}
+{'loss': 1.6043, 'grad_norm': 2.377458095550537, 'learning_rate': 3.3346872461413488e-06, 'epoch': 1.22}
+{'eval_loss': 1.8358516693115234, 'eval_runtime': 37.2521, 'eval_samples_per_second': 26.844, 'eval_steps_per_second': 1.127, 'epoch': 1.22}
+{'loss': 1.5853, 'grad_norm': 2.725302219390869, 'learning_rate': 3.3326563769293256e-06, 'epoch': 1.22}
+{'loss': 1.6063, 'grad_norm': 2.4483442306518555, 'learning_rate': 3.3306255077173033e-06, 'epoch': 1.22}
+{'loss': 1.6003, 'grad_norm': 2.339498996734619, 'learning_rate': 3.32859463850528e-06, 'epoch': 1.22}
+{'loss': 1.5522, 'grad_norm': 2.3390936851501465, 'learning_rate': 3.326563769293258e-06, 'epoch': 1.22}
+{'loss': 1.5689, 'grad_norm': 2.4202568531036377, 'learning_rate': 3.3245329000812347e-06, 'epoch': 1.22}
+{'loss': 1.5886, 'grad_norm': 2.3263726234436035, 'learning_rate': 3.3225020308692124e-06, 'epoch': 1.22}
+{'loss': 1.5462, 'grad_norm': 2.3499832153320312, 'learning_rate': 3.3204711616571893e-06, 'epoch': 1.22}
+{'loss': 1.5837, 'grad_norm': 2.5906572341918945, 'learning_rate': 3.318440292445167e-06, 'epoch': 1.23}
+{'loss': 1.5663, 'grad_norm': 2.587444305419922, 'learning_rate': 3.316409423233144e-06, 'epoch': 1.23}
+{'loss': 1.6465, 'grad_norm': 2.470529556274414, 'learning_rate': 3.3143785540211215e-06, 'epoch': 1.23}
+{'eval_loss': 1.833859920501709, 'eval_runtime': 37.3871, 'eval_samples_per_second': 26.747, 'eval_steps_per_second': 1.123, 'epoch': 1.23}
+{'loss': 1.6051, 'grad_norm': 2.4325480461120605, 'learning_rate': 3.3123476848090984e-06, 'epoch': 1.23}
+{'loss': 1.6067, 'grad_norm': 2.3419392108917236, 'learning_rate': 3.310316815597076e-06, 'epoch': 1.23}
+{'loss': 1.6691, 'grad_norm': 2.4887149333953857, 'learning_rate': 3.308285946385053e-06, 'epoch': 1.23}
+{'loss': 1.5399, 'grad_norm': 2.4088878631591797, 'learning_rate': 3.30625507717303e-06, 'epoch': 1.23}
+{'loss': 1.6184, 'grad_norm': 2.639416456222534, 'learning_rate': 3.3042242079610075e-06, 'epoch': 1.23}
+{'loss': 1.641, 'grad_norm': 2.460543632507324, 'learning_rate': 3.3021933387489847e-06, 'epoch': 1.23}
+{'loss': 1.6018, 'grad_norm': 2.3785154819488525, 'learning_rate': 3.300162469536962e-06, 'epoch': 1.24}
+{'loss': 1.6337, 'grad_norm': 2.400277853012085, 'learning_rate': 3.2981316003249393e-06, 'epoch': 1.24}
+{'loss': 1.6096, 'grad_norm': 2.3713910579681396, 'learning_rate': 3.2961007311129166e-06, 'epoch': 1.24}
+{'loss': 1.6723, 'grad_norm': 2.4280848503112793, 'learning_rate': 3.294069861900894e-06, 'epoch': 1.24}
+{'eval_loss': 1.8351894617080688, 'eval_runtime': 37.5108, 'eval_samples_per_second': 26.659, 'eval_steps_per_second': 1.12, 'epoch': 1.24}
+{'loss': 1.61, 'grad_norm': 2.353105306625366, 'learning_rate': 3.292038992688871e-06, 'epoch': 1.24}
+{'loss': 1.6407, 'grad_norm': 2.3768348693847656, 'learning_rate': 3.2900081234768484e-06, 'epoch': 1.24}
+{'loss': 1.6579, 'grad_norm': 2.3918352127075195, 'learning_rate': 3.2879772542648257e-06, 'epoch': 1.24}
+{'loss': 1.5488, 'grad_norm': 2.2658183574676514, 'learning_rate': 3.285946385052803e-06, 'epoch': 1.24}
+{'loss': 1.6184, 'grad_norm': 2.4037623405456543, 'learning_rate': 3.2839155158407802e-06, 'epoch': 1.24}
+{'loss': 1.5186, 'grad_norm': 2.301795482635498, 'learning_rate': 3.2818846466287575e-06, 'epoch': 1.24}
+{'loss': 1.6679, 'grad_norm': 2.473473310470581, 'learning_rate': 3.2798537774167344e-06, 'epoch': 1.25}
+{'loss': 1.5984, 'grad_norm': 2.4211456775665283, 'learning_rate': 3.277822908204712e-06, 'epoch': 1.25}
+{'loss': 1.5526, 'grad_norm': 2.318082809448242, 'learning_rate': 3.275792038992689e-06, 'epoch': 1.25}
+{'loss': 1.6171, 'grad_norm': 2.4484503269195557, 'learning_rate': 3.2737611697806666e-06, 'epoch': 1.25}
+{'eval_loss': 1.8353476524353027, 'eval_runtime': 37.5312, 'eval_samples_per_second': 26.645, 'eval_steps_per_second': 1.119, 'epoch': 1.25}
+{'loss': 1.5695, 'grad_norm': 2.3809781074523926, 'learning_rate': 3.2717303005686435e-06, 'epoch': 1.25}
+{'loss': 1.6075, 'grad_norm': 2.3856000900268555, 'learning_rate': 3.269699431356621e-06, 'epoch': 1.25}
+{'loss': 1.5847, 'grad_norm': 2.286160945892334, 'learning_rate': 3.267668562144598e-06, 'epoch': 1.25}
+{'loss': 1.5647, 'grad_norm': 2.4448606967926025, 'learning_rate': 3.2656376929325757e-06, 'epoch': 1.25}
+{'loss': 1.639, 'grad_norm': 2.413771867752075, 'learning_rate': 3.2636068237205526e-06, 'epoch': 1.25}
+{'loss': 1.6045, 'grad_norm': 2.3023521900177, 'learning_rate': 3.2615759545085303e-06, 'epoch': 1.26}
+{'loss': 1.67, 'grad_norm': 2.5180647373199463, 'learning_rate': 3.259545085296507e-06, 'epoch': 1.26}
+{'loss': 1.5525, 'grad_norm': 2.3213765621185303, 'learning_rate': 3.257514216084484e-06, 'epoch': 1.26}
+{'loss': 1.6597, 'grad_norm': 2.4601573944091797, 'learning_rate': 3.2554833468724617e-06, 'epoch': 1.26}
+{'loss': 1.6159, 'grad_norm': 2.6701090335845947, 'learning_rate': 3.2534524776604385e-06, 'epoch': 1.26}
+{'eval_loss': 1.8363873958587646, 'eval_runtime': 37.5615, 'eval_samples_per_second': 26.623, 'eval_steps_per_second': 1.118, 'epoch': 1.26}
+{'loss': 1.5847, 'grad_norm': 2.3364968299865723, 'learning_rate': 3.2514216084484162e-06, 'epoch': 1.26}
+{'loss': 1.6166, 'grad_norm': 2.4156525135040283, 'learning_rate': 3.249390739236393e-06, 'epoch': 1.26}
+{'loss': 1.577, 'grad_norm': 2.3955981731414795, 'learning_rate': 3.2473598700243708e-06, 'epoch': 1.26}
+{'loss': 1.5976, 'grad_norm': 2.4254910945892334, 'learning_rate': 3.2453290008123476e-06, 'epoch': 1.26}
+{'loss': 1.61, 'grad_norm': 2.353288173675537, 'learning_rate': 3.2432981316003253e-06, 'epoch': 1.27}
+{'loss': 1.5452, 'grad_norm': 2.457395553588867, 'learning_rate': 3.241267262388302e-06, 'epoch': 1.27}
+{'loss': 1.598, 'grad_norm': 2.408437728881836, 'learning_rate': 3.23923639317628e-06, 'epoch': 1.27}
+{'loss': 1.5705, 'grad_norm': 2.3238444328308105, 'learning_rate': 3.2372055239642567e-06, 'epoch': 1.27}
+{'loss': 1.6209, 'grad_norm': 2.4652364253997803, 'learning_rate': 3.2351746547522344e-06, 'epoch': 1.27}
+{'loss': 1.6669, 'grad_norm': 2.4947822093963623, 'learning_rate': 3.2331437855402113e-06, 'epoch': 1.27}
+{'eval_loss': 1.827733039855957, 'eval_runtime': 37.5591, 'eval_samples_per_second': 26.625, 'eval_steps_per_second': 1.118, 'epoch': 1.27}
+{'loss': 1.5704, 'grad_norm': 2.170748472213745, 'learning_rate': 3.2311129163281885e-06, 'epoch': 1.27}
+{'loss': 1.6408, 'grad_norm': 2.4075567722320557, 'learning_rate': 3.229082047116166e-06, 'epoch': 1.27}
+{'loss': 1.5977, 'grad_norm': 2.4436635971069336, 'learning_rate': 3.227051177904143e-06, 'epoch': 1.27}
+{'loss': 1.5953, 'grad_norm': 2.332636833190918, 'learning_rate': 3.2250203086921204e-06, 'epoch': 1.28}
+{'loss': 1.6159, 'grad_norm': 2.3940584659576416, 'learning_rate': 3.2229894394800977e-06, 'epoch': 1.28}
+{'loss': 1.524, 'grad_norm': 2.333111524581909, 'learning_rate': 3.220958570268075e-06, 'epoch': 1.28}
+{'loss': 1.5786, 'grad_norm': 2.6731276512145996, 'learning_rate': 3.218927701056052e-06, 'epoch': 1.28}
+{'loss': 1.5284, 'grad_norm': 2.672449827194214, 'learning_rate': 3.2168968318440295e-06, 'epoch': 1.28}
+{'loss': 1.6638, 'grad_norm': 2.6366796493530273, 'learning_rate': 3.2148659626320068e-06, 'epoch': 1.28}
+{'loss': 1.5662, 'grad_norm': 2.427126884460449, 'learning_rate': 3.212835093419984e-06, 'epoch': 1.28}
+{'eval_loss': 1.8264003992080688, 'eval_runtime': 37.5664, 'eval_samples_per_second': 26.62, 'eval_steps_per_second': 1.118, 'epoch': 1.28}
+{'loss': 1.5952, 'grad_norm': 2.458869457244873, 'learning_rate': 3.2108042242079613e-06, 'epoch': 1.28}
+{'loss': 1.6534, 'grad_norm': 2.414492607116699, 'learning_rate': 3.2087733549959386e-06, 'epoch': 1.28}
+{'loss': 1.554, 'grad_norm': 2.3529975414276123, 'learning_rate': 3.206742485783916e-06, 'epoch': 1.29}
+{'loss': 1.5485, 'grad_norm': 2.3692944049835205, 'learning_rate': 3.2047116165718927e-06, 'epoch': 1.29}
+{'loss': 1.6208, 'grad_norm': 2.605412721633911, 'learning_rate': 3.2026807473598704e-06, 'epoch': 1.29}
+{'loss': 1.6305, 'grad_norm': 2.6080944538116455, 'learning_rate': 3.2006498781478473e-06, 'epoch': 1.29}
+{'loss': 1.527, 'grad_norm': 2.3621809482574463, 'learning_rate': 3.198619008935825e-06, 'epoch': 1.29}
+{'loss': 1.5962, 'grad_norm': 2.3930652141571045, 'learning_rate': 3.196588139723802e-06, 'epoch': 1.29}
+{'loss': 1.6202, 'grad_norm': 2.3328537940979004, 'learning_rate': 3.1945572705117795e-06, 'epoch': 1.29}
+{'loss': 1.6015, 'grad_norm': 2.3389556407928467, 'learning_rate': 3.1925264012997564e-06, 'epoch': 1.29}
+{'eval_loss': 1.826940894126892, 'eval_runtime': 37.5924, 'eval_samples_per_second': 26.601, 'eval_steps_per_second': 1.117, 'epoch': 1.29}
+{'loss': 1.6043, 'grad_norm': 2.35046124458313, 'learning_rate': 3.190495532087734e-06, 'epoch': 1.29}
+{'loss': 1.658, 'grad_norm': 2.3721513748168945, 'learning_rate': 3.188464662875711e-06, 'epoch': 1.3}
+{'loss': 1.5855, 'grad_norm': 2.3240344524383545, 'learning_rate': 3.1864337936636886e-06, 'epoch': 1.3}
+{'loss': 1.5498, 'grad_norm': 2.537976026535034, 'learning_rate': 3.1844029244516655e-06, 'epoch': 1.3}
+{'loss': 1.5424, 'grad_norm': 2.287928581237793, 'learning_rate': 3.182372055239643e-06, 'epoch': 1.3}
+{'loss': 1.6228, 'grad_norm': 2.2837321758270264, 'learning_rate': 3.18034118602762e-06, 'epoch': 1.3}
+{'loss': 1.6107, 'grad_norm': 2.3490073680877686, 'learning_rate': 3.1783103168155973e-06, 'epoch': 1.3}
+{'loss': 1.586, 'grad_norm': 2.3357012271881104, 'learning_rate': 3.1762794476035746e-06, 'epoch': 1.3}
+{'loss': 1.59, 'grad_norm': 2.4093260765075684, 'learning_rate': 3.174248578391552e-06, 'epoch': 1.3}
+{'loss': 1.5763, 'grad_norm': 2.3494958877563477, 'learning_rate': 3.172217709179529e-06, 'epoch': 1.3}
+{'eval_loss': 1.826404333114624, 'eval_runtime': 37.6053, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 1.3}
+{'loss': 1.5909, 'grad_norm': 2.4227795600891113, 'learning_rate': 3.1701868399675064e-06, 'epoch': 1.31}
+{'loss': 1.5499, 'grad_norm': 2.4124245643615723, 'learning_rate': 3.1681559707554837e-06, 'epoch': 1.31}
+{'loss': 1.6086, 'grad_norm': 2.3699193000793457, 'learning_rate': 3.166125101543461e-06, 'epoch': 1.31}
+{'loss': 1.6196, 'grad_norm': 2.514756202697754, 'learning_rate': 3.1640942323314382e-06, 'epoch': 1.31}
+{'loss': 1.5565, 'grad_norm': 2.3694591522216797, 'learning_rate': 3.1620633631194155e-06, 'epoch': 1.31}
+{'loss': 1.6048, 'grad_norm': 2.4299590587615967, 'learning_rate': 3.1600324939073928e-06, 'epoch': 1.31}
+{'loss': 1.6186, 'grad_norm': 2.406179428100586, 'learning_rate': 3.15800162469537e-06, 'epoch': 1.31}
+{'loss': 1.5995, 'grad_norm': 2.4394314289093018, 'learning_rate': 3.155970755483347e-06, 'epoch': 1.31}
+{'loss': 1.6098, 'grad_norm': 2.387725591659546, 'learning_rate': 3.1539398862713246e-06, 'epoch': 1.31}
+{'loss': 1.5997, 'grad_norm': 2.2270965576171875, 'learning_rate': 3.1519090170593015e-06, 'epoch': 1.32}
+{'eval_loss': 1.8235069513320923, 'eval_runtime': 37.5899, 'eval_samples_per_second': 26.603, 'eval_steps_per_second': 1.117, 'epoch': 1.32}
+{'loss': 1.6401, 'grad_norm': 2.445788621902466, 'learning_rate': 3.149878147847279e-06, 'epoch': 1.32}
+{'loss': 1.6938, 'grad_norm': 2.477100372314453, 'learning_rate': 3.147847278635256e-06, 'epoch': 1.32}
+{'loss': 1.5835, 'grad_norm': 2.2862956523895264, 'learning_rate': 3.1458164094232337e-06, 'epoch': 1.32}
+{'loss': 1.5595, 'grad_norm': 2.4182872772216797, 'learning_rate': 3.1437855402112106e-06, 'epoch': 1.32}
+{'loss': 1.5945, 'grad_norm': 2.4389994144439697, 'learning_rate': 3.1417546709991883e-06, 'epoch': 1.32}
+{'loss': 1.5706, 'grad_norm': 2.4026825428009033, 'learning_rate': 3.139723801787165e-06, 'epoch': 1.32}
+{'loss': 1.6217, 'grad_norm': 2.640549421310425, 'learning_rate': 3.137692932575143e-06, 'epoch': 1.32}
+{'loss': 1.5456, 'grad_norm': 2.4194822311401367, 'learning_rate': 3.1356620633631197e-06, 'epoch': 1.32}
+{'loss': 1.6027, 'grad_norm': 2.6475918292999268, 'learning_rate': 3.1336311941510974e-06, 'epoch': 1.32}
+{'loss': 1.6294, 'grad_norm': 2.5338010787963867, 'learning_rate': 3.1316003249390742e-06, 'epoch': 1.33}
+{'eval_loss': 1.8175915479660034, 'eval_runtime': 37.3158, 'eval_samples_per_second': 26.798, 'eval_steps_per_second': 1.126, 'epoch': 1.33}
+{'loss': 1.6426, 'grad_norm': 2.3757331371307373, 'learning_rate': 3.129569455727051e-06, 'epoch': 1.33}
+{'loss': 1.6065, 'grad_norm': 2.3408150672912598, 'learning_rate': 3.1275385865150288e-06, 'epoch': 1.33}
+{'loss': 1.6229, 'grad_norm': 2.3930678367614746, 'learning_rate': 3.1255077173030056e-06, 'epoch': 1.33}
+{'loss': 1.5823, 'grad_norm': 2.2715401649475098, 'learning_rate': 3.1234768480909833e-06, 'epoch': 1.33}
+{'loss': 1.6217, 'grad_norm': 2.3577373027801514, 'learning_rate': 3.12144597887896e-06, 'epoch': 1.33}
+{'loss': 1.6404, 'grad_norm': 2.4648096561431885, 'learning_rate': 3.119415109666938e-06, 'epoch': 1.33}
+{'loss': 1.5976, 'grad_norm': 2.638235092163086, 'learning_rate': 3.1173842404549147e-06, 'epoch': 1.33}
+{'loss': 1.6112, 'grad_norm': 2.4535794258117676, 'learning_rate': 3.1153533712428924e-06, 'epoch': 1.33}
+{'loss': 1.6392, 'grad_norm': 2.381254196166992, 'learning_rate': 3.1133225020308693e-06, 'epoch': 1.34}
+{'loss': 1.6555, 'grad_norm': 2.349544048309326, 'learning_rate': 3.111291632818847e-06, 'epoch': 1.34}
+{'eval_loss': 1.8218716382980347, 'eval_runtime': 37.4473, 'eval_samples_per_second': 26.704, 'eval_steps_per_second': 1.122, 'epoch': 1.34}
+{'loss': 1.6007, 'grad_norm': 2.3658390045166016, 'learning_rate': 3.109260763606824e-06, 'epoch': 1.34}
+{'loss': 1.6183, 'grad_norm': 2.2101235389709473, 'learning_rate': 3.1072298943948015e-06, 'epoch': 1.34}
+{'loss': 1.5887, 'grad_norm': 2.3910868167877197, 'learning_rate': 3.1051990251827784e-06, 'epoch': 1.34}
+{'loss': 1.6307, 'grad_norm': 2.498610019683838, 'learning_rate': 3.1031681559707557e-06, 'epoch': 1.34}
+{'loss': 1.6198, 'grad_norm': 2.3965463638305664, 'learning_rate': 3.101137286758733e-06, 'epoch': 1.34}
+{'loss': 1.6462, 'grad_norm': 2.4919886589050293, 'learning_rate': 3.09910641754671e-06, 'epoch': 1.34}
+{'loss': 1.6057, 'grad_norm': 2.537717342376709, 'learning_rate': 3.0970755483346875e-06, 'epoch': 1.34}
+{'loss': 1.657, 'grad_norm': 2.4837565422058105, 'learning_rate': 3.0950446791226648e-06, 'epoch': 1.35}
+{'loss': 1.6207, 'grad_norm': 2.5265064239501953, 'learning_rate': 3.093013809910642e-06, 'epoch': 1.35}
+{'loss': 1.6568, 'grad_norm': 2.4377918243408203, 'learning_rate': 3.0909829406986193e-06, 'epoch': 1.35}
+{'eval_loss': 1.819478988647461, 'eval_runtime': 37.5751, 'eval_samples_per_second': 26.613, 'eval_steps_per_second': 1.118, 'epoch': 1.35}
+{'loss': 1.6237, 'grad_norm': 2.441420078277588, 'learning_rate': 3.0889520714865966e-06, 'epoch': 1.35}
+{'loss': 1.5897, 'grad_norm': 2.333735227584839, 'learning_rate': 3.086921202274574e-06, 'epoch': 1.35}
+{'loss': 1.5638, 'grad_norm': 2.3991992473602295, 'learning_rate': 3.084890333062551e-06, 'epoch': 1.35}
+{'loss': 1.6099, 'grad_norm': 2.557176351547241, 'learning_rate': 3.0828594638505284e-06, 'epoch': 1.35}
+{'loss': 1.5984, 'grad_norm': 2.4097390174865723, 'learning_rate': 3.0808285946385057e-06, 'epoch': 1.35}
+{'loss': 1.5261, 'grad_norm': 2.3897242546081543, 'learning_rate': 3.078797725426483e-06, 'epoch': 1.35}
+{'loss': 1.6035, 'grad_norm': 2.5950186252593994, 'learning_rate': 3.07676685621446e-06, 'epoch': 1.36}
+{'loss': 1.5676, 'grad_norm': 2.36031174659729, 'learning_rate': 3.0747359870024375e-06, 'epoch': 1.36}
+{'loss': 1.5882, 'grad_norm': 2.301637887954712, 'learning_rate': 3.0727051177904144e-06, 'epoch': 1.36}
+{'loss': 1.5995, 'grad_norm': 2.48077654838562, 'learning_rate': 3.070674248578392e-06, 'epoch': 1.36}
+{'eval_loss': 1.8195040225982666, 'eval_runtime': 37.6126, 'eval_samples_per_second': 26.587, 'eval_steps_per_second': 1.117, 'epoch': 1.36}
+{'loss': 1.6044, 'grad_norm': 2.3407163619995117, 'learning_rate': 3.068643379366369e-06, 'epoch': 1.36}
+{'loss': 1.5525, 'grad_norm': 2.3182590007781982, 'learning_rate': 3.0666125101543466e-06, 'epoch': 1.36}
+{'loss': 1.6127, 'grad_norm': 2.383361577987671, 'learning_rate': 3.0645816409423235e-06, 'epoch': 1.36}
+{'loss': 1.5818, 'grad_norm': 2.4302921295166016, 'learning_rate': 3.062550771730301e-06, 'epoch': 1.36}
+{'loss': 1.5791, 'grad_norm': 2.3547441959381104, 'learning_rate': 3.060519902518278e-06, 'epoch': 1.36}
+{'loss': 1.529, 'grad_norm': 2.412057399749756, 'learning_rate': 3.0584890333062557e-06, 'epoch': 1.37}
+{'loss': 1.6076, 'grad_norm': 2.2157859802246094, 'learning_rate': 3.0564581640942326e-06, 'epoch': 1.37}
+{'loss': 1.5695, 'grad_norm': 2.3688912391662598, 'learning_rate': 3.0544272948822094e-06, 'epoch': 1.37}
+{'loss': 1.6328, 'grad_norm': 2.310056686401367, 'learning_rate': 3.052396425670187e-06, 'epoch': 1.37}
+{'loss': 1.5721, 'grad_norm': 2.348121166229248, 'learning_rate': 3.050365556458164e-06, 'epoch': 1.37}
+{'eval_loss': 1.82112455368042, 'eval_runtime': 37.5846, 'eval_samples_per_second': 26.607, 'eval_steps_per_second': 1.117, 'epoch': 1.37}
+{'loss': 1.5733, 'grad_norm': 2.413440704345703, 'learning_rate': 3.0483346872461417e-06, 'epoch': 1.37}
+{'loss': 1.5994, 'grad_norm': 2.517864942550659, 'learning_rate': 3.0463038180341185e-06, 'epoch': 1.37}
+{'loss': 1.6447, 'grad_norm': 2.4194021224975586, 'learning_rate': 3.0442729488220962e-06, 'epoch': 1.37}
+{'loss': 1.6269, 'grad_norm': 2.3892953395843506, 'learning_rate': 3.042242079610073e-06, 'epoch': 1.37}
+{'loss': 1.5366, 'grad_norm': 2.3168439865112305, 'learning_rate': 3.0402112103980508e-06, 'epoch': 1.38}
+{'loss': 1.574, 'grad_norm': 2.316283941268921, 'learning_rate': 3.0381803411860276e-06, 'epoch': 1.38}
+{'loss': 1.61, 'grad_norm': 2.452910900115967, 'learning_rate': 3.0361494719740053e-06, 'epoch': 1.38}
+{'loss': 1.5833, 'grad_norm': 2.5499870777130127, 'learning_rate': 3.034118602761982e-06, 'epoch': 1.38}
+{'loss': 1.5558, 'grad_norm': 2.4054839611053467, 'learning_rate': 3.03208773354996e-06, 'epoch': 1.38}
+{'loss': 1.6396, 'grad_norm': 2.5002262592315674, 'learning_rate': 3.0300568643379367e-06, 'epoch': 1.38}
+{'eval_loss': 1.8144240379333496, 'eval_runtime': 37.6052, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 1.38}
+{'loss': 1.6225, 'grad_norm': 2.359607696533203, 'learning_rate': 3.028025995125914e-06, 'epoch': 1.38}
+{'loss': 1.5446, 'grad_norm': 2.311431646347046, 'learning_rate': 3.0259951259138913e-06, 'epoch': 1.38}
+{'loss': 1.5926, 'grad_norm': 2.3599748611450195, 'learning_rate': 3.0239642567018686e-06, 'epoch': 1.38}
+{'loss': 1.5321, 'grad_norm': 2.2756574153900146, 'learning_rate': 3.021933387489846e-06, 'epoch': 1.39}
+{'loss': 1.5928, 'grad_norm': 2.3387815952301025, 'learning_rate': 3.019902518277823e-06, 'epoch': 1.39}
+{'loss': 1.6195, 'grad_norm': 2.6187798976898193, 'learning_rate': 3.0178716490658004e-06, 'epoch': 1.39}
+{'loss': 1.559, 'grad_norm': 2.4135942459106445, 'learning_rate': 3.0158407798537777e-06, 'epoch': 1.39}
+{'loss': 1.5645, 'grad_norm': 2.2995336055755615, 'learning_rate': 3.013809910641755e-06, 'epoch': 1.39}
+{'loss': 1.5759, 'grad_norm': 2.2536346912384033, 'learning_rate': 3.0117790414297322e-06, 'epoch': 1.39}
+{'loss': 1.5986, 'grad_norm': 2.532891273498535, 'learning_rate': 3.0097481722177095e-06, 'epoch': 1.39}
+{'eval_loss': 1.81317138671875, 'eval_runtime': 37.6235, 'eval_samples_per_second': 26.579, 'eval_steps_per_second': 1.116, 'epoch': 1.39}
+{'loss': 1.5626, 'grad_norm': 2.3782124519348145, 'learning_rate': 3.0077173030056868e-06, 'epoch': 1.39}
+{'loss': 1.6153, 'grad_norm': 2.3707275390625, 'learning_rate': 3.005686433793664e-06, 'epoch': 1.39}
+{'loss': 1.5658, 'grad_norm': 2.327726364135742, 'learning_rate': 3.0036555645816413e-06, 'epoch': 1.4}
+{'loss': 1.6364, 'grad_norm': 2.3254921436309814, 'learning_rate': 3.001624695369618e-06, 'epoch': 1.4}
+{'loss': 1.5824, 'grad_norm': 2.3958146572113037, 'learning_rate': 2.999593826157596e-06, 'epoch': 1.4}
+{'loss': 1.6049, 'grad_norm': 2.4376585483551025, 'learning_rate': 2.9975629569455727e-06, 'epoch': 1.4}
+{'loss': 1.5818, 'grad_norm': 2.2375054359436035, 'learning_rate': 2.9955320877335504e-06, 'epoch': 1.4}
+{'loss': 1.6251, 'grad_norm': 2.2110700607299805, 'learning_rate': 2.9935012185215273e-06, 'epoch': 1.4}
+{'loss': 1.5904, 'grad_norm': 2.4690802097320557, 'learning_rate': 2.991470349309505e-06, 'epoch': 1.4}
+{'loss': 1.5802, 'grad_norm': 2.3598639965057373, 'learning_rate': 2.989439480097482e-06, 'epoch': 1.4}
+{'eval_loss': 1.814238429069519, 'eval_runtime': 37.6177, 'eval_samples_per_second': 26.583, 'eval_steps_per_second': 1.116, 'epoch': 1.4}
+{'loss': 1.5983, 'grad_norm': 2.3614840507507324, 'learning_rate': 2.9874086108854595e-06, 'epoch': 1.4}
+{'loss': 1.6356, 'grad_norm': 2.5335850715637207, 'learning_rate': 2.9853777416734364e-06, 'epoch': 1.4}
+{'loss': 1.6249, 'grad_norm': 2.4222629070281982, 'learning_rate': 2.983346872461414e-06, 'epoch': 1.41}
+{'loss': 1.6004, 'grad_norm': 2.4099457263946533, 'learning_rate': 2.981316003249391e-06, 'epoch': 1.41}
+{'loss': 1.6022, 'grad_norm': 2.451554775238037, 'learning_rate': 2.9792851340373678e-06, 'epoch': 1.41}
+{'loss': 1.632, 'grad_norm': 2.376922369003296, 'learning_rate': 2.9772542648253455e-06, 'epoch': 1.41}
+{'loss': 1.5667, 'grad_norm': 2.3995089530944824, 'learning_rate': 2.9752233956133223e-06, 'epoch': 1.41}
+{'loss': 1.5815, 'grad_norm': 2.4788384437561035, 'learning_rate': 2.9731925264013e-06, 'epoch': 1.41}
+{'loss': 1.5713, 'grad_norm': 2.4621574878692627, 'learning_rate': 2.971161657189277e-06, 'epoch': 1.41}
+{'loss': 1.5688, 'grad_norm': 2.479893207550049, 'learning_rate': 2.9691307879772546e-06, 'epoch': 1.41}
+{'eval_loss': 1.8170733451843262, 'eval_runtime': 37.6333, 'eval_samples_per_second': 26.572, 'eval_steps_per_second': 1.116, 'epoch': 1.41}
+{'loss': 1.5757, 'grad_norm': 2.8712899684906006, 'learning_rate': 2.9670999187652314e-06, 'epoch': 1.41}
+{'loss': 1.6429, 'grad_norm': 2.335165500640869, 'learning_rate': 2.965069049553209e-06, 'epoch': 1.42}
+{'loss': 1.5539, 'grad_norm': 2.274778366088867, 'learning_rate': 2.963038180341186e-06, 'epoch': 1.42}
+{'loss': 1.6329, 'grad_norm': 2.3374392986297607, 'learning_rate': 2.9610073111291637e-06, 'epoch': 1.42}
+{'loss': 1.6309, 'grad_norm': 2.526172399520874, 'learning_rate': 2.9589764419171405e-06, 'epoch': 1.42}
+{'loss': 1.5604, 'grad_norm': 2.4370977878570557, 'learning_rate': 2.9569455727051182e-06, 'epoch': 1.42}
+{'loss': 1.5841, 'grad_norm': 2.2226128578186035, 'learning_rate': 2.954914703493095e-06, 'epoch': 1.42}
+{'loss': 1.5826, 'grad_norm': 2.378445863723755, 'learning_rate': 2.9528838342810724e-06, 'epoch': 1.42}
+{'loss': 1.5538, 'grad_norm': 2.3838648796081543, 'learning_rate': 2.9508529650690496e-06, 'epoch': 1.42}
+{'loss': 1.586, 'grad_norm': 2.4039344787597656, 'learning_rate': 2.948822095857027e-06, 'epoch': 1.42}
+{'eval_loss': 1.8174314498901367, 'eval_runtime': 37.6062, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 1.42}
+{'loss': 1.5639, 'grad_norm': 2.4526758193969727, 'learning_rate': 2.946791226645004e-06, 'epoch': 1.43}
+{'loss': 1.5508, 'grad_norm': 2.4556503295898438, 'learning_rate': 2.9447603574329815e-06, 'epoch': 1.43}
+{'loss': 1.5854, 'grad_norm': 2.4118683338165283, 'learning_rate': 2.9427294882209587e-06, 'epoch': 1.43}
+{'loss': 1.5829, 'grad_norm': 2.518519639968872, 'learning_rate': 2.940698619008936e-06, 'epoch': 1.43}
+{'loss': 1.5907, 'grad_norm': 2.4189741611480713, 'learning_rate': 2.9386677497969133e-06, 'epoch': 1.43}
+{'loss': 1.6024, 'grad_norm': 2.3702428340911865, 'learning_rate': 2.9366368805848906e-06, 'epoch': 1.43}
+{'loss': 1.6018, 'grad_norm': 2.3641419410705566, 'learning_rate': 2.934606011372868e-06, 'epoch': 1.43}
+{'loss': 1.5948, 'grad_norm': 2.3894128799438477, 'learning_rate': 2.932575142160845e-06, 'epoch': 1.43}
+{'loss': 1.5886, 'grad_norm': 2.4378764629364014, 'learning_rate': 2.9305442729488224e-06, 'epoch': 1.43}
+{'loss': 1.5943, 'grad_norm': 2.4485981464385986, 'learning_rate': 2.9285134037367997e-06, 'epoch': 1.44}
+{'eval_loss': 1.8144195079803467, 'eval_runtime': 37.2856, 'eval_samples_per_second': 26.82, 'eval_steps_per_second': 1.126, 'epoch': 1.44}
+{'loss': 1.6344, 'grad_norm': 2.4892823696136475, 'learning_rate': 2.9264825345247765e-06, 'epoch': 1.44}
+{'loss': 1.592, 'grad_norm': 2.4903030395507812, 'learning_rate': 2.9244516653127542e-06, 'epoch': 1.44}
+{'loss': 1.5155, 'grad_norm': 2.3020098209381104, 'learning_rate': 2.922420796100731e-06, 'epoch': 1.44}
+{'loss': 1.6296, 'grad_norm': 2.3700063228607178, 'learning_rate': 2.9203899268887088e-06, 'epoch': 1.44}
+{'loss': 1.5353, 'grad_norm': 2.281611442565918, 'learning_rate': 2.9183590576766856e-06, 'epoch': 1.44}
+{'loss': 1.5898, 'grad_norm': 2.466027021408081, 'learning_rate': 2.9163281884646633e-06, 'epoch': 1.44}
+{'loss': 1.6313, 'grad_norm': 2.4643330574035645, 'learning_rate': 2.91429731925264e-06, 'epoch': 1.44}
+{'loss': 1.5965, 'grad_norm': 2.397887945175171, 'learning_rate': 2.912266450040618e-06, 'epoch': 1.44}
+{'loss': 1.5921, 'grad_norm': 2.4121334552764893, 'learning_rate': 2.9102355808285947e-06, 'epoch': 1.45}
+{'loss': 1.5823, 'grad_norm': 2.34403657913208, 'learning_rate': 2.9082047116165724e-06, 'epoch': 1.45}
+{'eval_loss': 1.809683084487915, 'eval_runtime': 37.4345, 'eval_samples_per_second': 26.713, 'eval_steps_per_second': 1.122, 'epoch': 1.45}
+{'loss': 1.5496, 'grad_norm': 2.26355242729187, 'learning_rate': 2.9061738424045493e-06, 'epoch': 1.45}
+{'loss': 1.6439, 'grad_norm': 2.5104148387908936, 'learning_rate': 2.904142973192527e-06, 'epoch': 1.45}
+{'loss': 1.5981, 'grad_norm': 2.3047313690185547, 'learning_rate': 2.902112103980504e-06, 'epoch': 1.45}
+{'loss': 1.5935, 'grad_norm': 2.282947063446045, 'learning_rate': 2.900081234768481e-06, 'epoch': 1.45}
+{'loss': 1.5724, 'grad_norm': 2.3597142696380615, 'learning_rate': 2.8980503655564584e-06, 'epoch': 1.45}
+{'loss': 1.5585, 'grad_norm': 2.487795352935791, 'learning_rate': 2.8960194963444357e-06, 'epoch': 1.45}
+{'loss': 1.5735, 'grad_norm': 2.4397571086883545, 'learning_rate': 2.893988627132413e-06, 'epoch': 1.45}
+{'loss': 1.5203, 'grad_norm': 2.3682754039764404, 'learning_rate': 2.8919577579203902e-06, 'epoch': 1.46}
+{'loss': 1.5824, 'grad_norm': 2.3457958698272705, 'learning_rate': 2.8899268887083675e-06, 'epoch': 1.46}
+{'loss': 1.5783, 'grad_norm': 2.342991828918457, 'learning_rate': 2.8878960194963448e-06, 'epoch': 1.46}
+{'eval_loss': 1.8123302459716797, 'eval_runtime': 37.553, 'eval_samples_per_second': 26.629, 'eval_steps_per_second': 1.118, 'epoch': 1.46}
+{'loss': 1.6129, 'grad_norm': 2.3818416595458984, 'learning_rate': 2.885865150284322e-06, 'epoch': 1.46}
+{'loss': 1.5808, 'grad_norm': 2.185725688934326, 'learning_rate': 2.8838342810722993e-06, 'epoch': 1.46}
+{'loss': 1.539, 'grad_norm': 2.437391519546509, 'learning_rate': 2.8818034118602766e-06, 'epoch': 1.46}
+{'loss': 1.591, 'grad_norm': 2.412999391555786, 'learning_rate': 2.879772542648254e-06, 'epoch': 1.46}
+{'loss': 1.5143, 'grad_norm': 2.337240219116211, 'learning_rate': 2.8777416734362307e-06, 'epoch': 1.46}
+{'loss': 1.6387, 'grad_norm': 2.4498984813690186, 'learning_rate': 2.8757108042242084e-06, 'epoch': 1.46}
+{'loss': 1.628, 'grad_norm': 2.4142279624938965, 'learning_rate': 2.8736799350121853e-06, 'epoch': 1.47}
+{'loss': 1.6351, 'grad_norm': 2.395258665084839, 'learning_rate': 2.871649065800163e-06, 'epoch': 1.47}
+{'loss': 1.5708, 'grad_norm': 2.4271457195281982, 'learning_rate': 2.86961819658814e-06, 'epoch': 1.47}
+{'loss': 1.5998, 'grad_norm': 2.4886634349823, 'learning_rate': 2.8675873273761175e-06, 'epoch': 1.47}
+{'eval_loss': 1.8096294403076172, 'eval_runtime': 37.562, 'eval_samples_per_second': 26.623, 'eval_steps_per_second': 1.118, 'epoch': 1.47}
+{'loss': 1.5688, 'grad_norm': 2.4015047550201416, 'learning_rate': 2.8655564581640944e-06, 'epoch': 1.47}
+{'loss': 1.628, 'grad_norm': 2.4636898040771484, 'learning_rate': 2.863525588952072e-06, 'epoch': 1.47}
+{'loss': 1.5046, 'grad_norm': 2.372184991836548, 'learning_rate': 2.861494719740049e-06, 'epoch': 1.47}
+{'loss': 1.5522, 'grad_norm': 2.3524551391601562, 'learning_rate': 2.8594638505280266e-06, 'epoch': 1.47}
+{'loss': 1.5839, 'grad_norm': 2.332045555114746, 'learning_rate': 2.8574329813160035e-06, 'epoch': 1.47}
+{'loss': 1.588, 'grad_norm': 2.3552613258361816, 'learning_rate': 2.855402112103981e-06, 'epoch': 1.48}
+{'loss': 1.5629, 'grad_norm': 2.413459539413452, 'learning_rate': 2.853371242891958e-06, 'epoch': 1.48}
+{'loss': 1.5858, 'grad_norm': 2.5755228996276855, 'learning_rate': 2.851340373679935e-06, 'epoch': 1.48}
+{'loss': 1.6103, 'grad_norm': 2.4686837196350098, 'learning_rate': 2.8493095044679126e-06, 'epoch': 1.48}
+{'loss': 1.5856, 'grad_norm': 2.4146435260772705, 'learning_rate': 2.8472786352558894e-06, 'epoch': 1.48}
+{'eval_loss': 1.8103699684143066, 'eval_runtime': 37.6069, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 1.48}
+{'loss': 1.5649, 'grad_norm': 2.30126953125, 'learning_rate': 2.845247766043867e-06, 'epoch': 1.48}
+{'loss': 1.5267, 'grad_norm': 2.4830105304718018, 'learning_rate': 2.843216896831844e-06, 'epoch': 1.48}
+{'loss': 1.5609, 'grad_norm': 2.2818756103515625, 'learning_rate': 2.8411860276198217e-06, 'epoch': 1.48}
+{'loss': 1.6117, 'grad_norm': 2.40315580368042, 'learning_rate': 2.8391551584077985e-06, 'epoch': 1.48}
+{'loss': 1.6156, 'grad_norm': 2.465379476547241, 'learning_rate': 2.8371242891957762e-06, 'epoch': 1.48}
+{'loss': 1.575, 'grad_norm': 2.2723917961120605, 'learning_rate': 2.835093419983753e-06, 'epoch': 1.49}
+{'loss': 1.5479, 'grad_norm': 2.434025287628174, 'learning_rate': 2.833062550771731e-06, 'epoch': 1.49}
+{'loss': 1.5384, 'grad_norm': 2.2605748176574707, 'learning_rate': 2.8310316815597076e-06, 'epoch': 1.49}
+{'loss': 1.5959, 'grad_norm': 2.526801824569702, 'learning_rate': 2.8290008123476853e-06, 'epoch': 1.49}
+{'loss': 1.5896, 'grad_norm': 2.4591245651245117, 'learning_rate': 2.826969943135662e-06, 'epoch': 1.49}
+{'eval_loss': 1.8092495203018188, 'eval_runtime': 37.605, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 1.49}
+{'loss': 1.5821, 'grad_norm': 2.3243281841278076, 'learning_rate': 2.8249390739236395e-06, 'epoch': 1.49}
+{'loss': 1.5565, 'grad_norm': 2.2917110919952393, 'learning_rate': 2.8229082047116167e-06, 'epoch': 1.49}
+{'loss': 1.5654, 'grad_norm': 2.271738290786743, 'learning_rate': 2.820877335499594e-06, 'epoch': 1.49}
+{'loss': 1.5429, 'grad_norm': 2.2604055404663086, 'learning_rate': 2.8188464662875713e-06, 'epoch': 1.49}
+{'loss': 1.5399, 'grad_norm': 2.2398500442504883, 'learning_rate': 2.8168155970755486e-06, 'epoch': 1.5}
+{'loss': 1.5672, 'grad_norm': 2.339632749557495, 'learning_rate': 2.814784727863526e-06, 'epoch': 1.5}
+{'loss': 1.5843, 'grad_norm': 2.394670248031616, 'learning_rate': 2.812753858651503e-06, 'epoch': 1.5}
+{'loss': 1.556, 'grad_norm': 2.452906370162964, 'learning_rate': 2.8107229894394804e-06, 'epoch': 1.5}
+{'loss': 1.5384, 'grad_norm': 2.5949859619140625, 'learning_rate': 2.8086921202274577e-06, 'epoch': 1.5}
+{'loss': 1.6291, 'grad_norm': 2.8317019939422607, 'learning_rate': 2.806661251015435e-06, 'epoch': 1.5}
+{'eval_loss': 1.8110644817352295, 'eval_runtime': 37.6614, 'eval_samples_per_second': 26.552, 'eval_steps_per_second': 1.115, 'epoch': 1.5}
+{'loss': 1.6268, 'grad_norm': 2.505376100540161, 'learning_rate': 2.8046303818034122e-06, 'epoch': 1.5}
+{'loss': 1.6856, 'grad_norm': 2.627028465270996, 'learning_rate': 2.802599512591389e-06, 'epoch': 1.5}
+{'loss': 1.5938, 'grad_norm': 2.6026813983917236, 'learning_rate': 2.8005686433793668e-06, 'epoch': 1.5}
+{'loss': 1.5289, 'grad_norm': 2.410418748855591, 'learning_rate': 2.7985377741673436e-06, 'epoch': 1.51}
+{'loss': 1.5836, 'grad_norm': 2.534282922744751, 'learning_rate': 2.7965069049553213e-06, 'epoch': 1.51}
+{'loss': 1.6316, 'grad_norm': 2.5755670070648193, 'learning_rate': 2.794476035743298e-06, 'epoch': 1.51}
+{'loss': 1.6015, 'grad_norm': 2.5170834064483643, 'learning_rate': 2.792445166531276e-06, 'epoch': 1.51}
+{'loss': 1.6169, 'grad_norm': 2.398648738861084, 'learning_rate': 2.7904142973192527e-06, 'epoch': 1.51}
+{'loss': 1.5672, 'grad_norm': 2.4064135551452637, 'learning_rate': 2.7883834281072304e-06, 'epoch': 1.51}
+{'loss': 1.5412, 'grad_norm': 2.329282283782959, 'learning_rate': 2.7863525588952073e-06, 'epoch': 1.51}
+{'eval_loss': 1.8095959424972534, 'eval_runtime': 37.6334, 'eval_samples_per_second': 26.572, 'eval_steps_per_second': 1.116, 'epoch': 1.51}
+{'loss': 1.5444, 'grad_norm': 2.192934989929199, 'learning_rate': 2.784321689683185e-06, 'epoch': 1.51}
+{'loss': 1.5494, 'grad_norm': 2.3931620121002197, 'learning_rate': 2.782290820471162e-06, 'epoch': 1.51}
+{'loss': 1.6298, 'grad_norm': 2.37333607673645, 'learning_rate': 2.7802599512591395e-06, 'epoch': 1.52}
+{'loss': 1.6114, 'grad_norm': 2.3197038173675537, 'learning_rate': 2.7782290820471164e-06, 'epoch': 1.52}
+{'loss': 1.6036, 'grad_norm': 2.5618298053741455, 'learning_rate': 2.7761982128350932e-06, 'epoch': 1.52}
+{'loss': 1.65, 'grad_norm': 2.46854567527771, 'learning_rate': 2.774167343623071e-06, 'epoch': 1.52}
+{'loss': 1.5641, 'grad_norm': 2.5525400638580322, 'learning_rate': 2.772136474411048e-06, 'epoch': 1.52}
+{'loss': 1.5033, 'grad_norm': 2.28301739692688, 'learning_rate': 2.7701056051990255e-06, 'epoch': 1.52}
+{'loss': 1.5835, 'grad_norm': 2.2612602710723877, 'learning_rate': 2.7680747359870023e-06, 'epoch': 1.52}
+{'loss': 1.5726, 'grad_norm': 2.375962018966675, 'learning_rate': 2.76604386677498e-06, 'epoch': 1.52}
+{'eval_loss': 1.8100154399871826, 'eval_runtime': 37.6217, 'eval_samples_per_second': 26.58, 'eval_steps_per_second': 1.116, 'epoch': 1.52}
+{'loss': 1.6098, 'grad_norm': 2.4404547214508057, 'learning_rate': 2.764012997562957e-06, 'epoch': 1.52}
+{'loss': 1.5282, 'grad_norm': 2.375605583190918, 'learning_rate': 2.7619821283509346e-06, 'epoch': 1.53}
+{'loss': 1.6262, 'grad_norm': 2.4304752349853516, 'learning_rate': 2.7599512591389114e-06, 'epoch': 1.53}
+{'loss': 1.5589, 'grad_norm': 2.334812641143799, 'learning_rate': 2.757920389926889e-06, 'epoch': 1.53}
+{'loss': 1.5573, 'grad_norm': 2.4258840084075928, 'learning_rate': 2.755889520714866e-06, 'epoch': 1.53}
+{'loss': 1.5288, 'grad_norm': 2.582960844039917, 'learning_rate': 2.7538586515028437e-06, 'epoch': 1.53}
+{'loss': 1.5997, 'grad_norm': 2.3613221645355225, 'learning_rate': 2.7518277822908205e-06, 'epoch': 1.53}
+{'loss': 1.6224, 'grad_norm': 2.3369100093841553, 'learning_rate': 2.749796913078798e-06, 'epoch': 1.53}
+{'loss': 1.5798, 'grad_norm': 2.2170708179473877, 'learning_rate': 2.747766043866775e-06, 'epoch': 1.53}
+{'loss': 1.6373, 'grad_norm': 2.360053062438965, 'learning_rate': 2.7457351746547524e-06, 'epoch': 1.53}
+{'eval_loss': 1.8048090934753418, 'eval_runtime': 37.6186, 'eval_samples_per_second': 26.583, 'eval_steps_per_second': 1.116, 'epoch': 1.53}
+{'loss': 1.6716, 'grad_norm': 2.3194758892059326, 'learning_rate': 2.7437043054427297e-06, 'epoch': 1.54}
+{'loss': 1.5804, 'grad_norm': 2.2615244388580322, 'learning_rate': 2.741673436230707e-06, 'epoch': 1.54}
+{'loss': 1.5675, 'grad_norm': 2.451397657394409, 'learning_rate': 2.739642567018684e-06, 'epoch': 1.54}
+{'loss': 1.5839, 'grad_norm': 2.4464330673217773, 'learning_rate': 2.7376116978066615e-06, 'epoch': 1.54}
+{'loss': 1.5717, 'grad_norm': 2.4840433597564697, 'learning_rate': 2.7355808285946388e-06, 'epoch': 1.54}
+{'loss': 1.569, 'grad_norm': 2.411292791366577, 'learning_rate': 2.733549959382616e-06, 'epoch': 1.54}
+{'loss': 1.629, 'grad_norm': 2.451918363571167, 'learning_rate': 2.7315190901705933e-06, 'epoch': 1.54}
+{'loss': 1.6038, 'grad_norm': 2.4467198848724365, 'learning_rate': 2.7294882209585706e-06, 'epoch': 1.54}
+{'loss': 1.553, 'grad_norm': 2.215299606323242, 'learning_rate': 2.727457351746548e-06, 'epoch': 1.54}
+{'loss': 1.5441, 'grad_norm': 2.456962823867798, 'learning_rate': 2.725426482534525e-06, 'epoch': 1.55}
+{'eval_loss': 1.805689811706543, 'eval_runtime': 37.3206, 'eval_samples_per_second': 26.795, 'eval_steps_per_second': 1.125, 'epoch': 1.55}
+{'loss': 1.5886, 'grad_norm': 2.381948232650757, 'learning_rate': 2.723395613322502e-06, 'epoch': 1.55}
+{'loss': 1.5656, 'grad_norm': 2.404557943344116, 'learning_rate': 2.7213647441104797e-06, 'epoch': 1.55}
+{'loss': 1.5664, 'grad_norm': 2.322181224822998, 'learning_rate': 2.7193338748984565e-06, 'epoch': 1.55}
+{'loss': 1.7188, 'grad_norm': 2.472691535949707, 'learning_rate': 2.7173030056864342e-06, 'epoch': 1.55}
+{'loss': 1.532, 'grad_norm': 2.314202308654785, 'learning_rate': 2.715272136474411e-06, 'epoch': 1.55}
+{'loss': 1.5859, 'grad_norm': 2.391906499862671, 'learning_rate': 2.713241267262389e-06, 'epoch': 1.55}
+{'loss': 1.5605, 'grad_norm': 2.310230255126953, 'learning_rate': 2.7112103980503656e-06, 'epoch': 1.55}
+{'loss': 1.6012, 'grad_norm': 2.2331254482269287, 'learning_rate': 2.7091795288383433e-06, 'epoch': 1.55}
+{'loss': 1.5559, 'grad_norm': 2.443964958190918, 'learning_rate': 2.70714865962632e-06, 'epoch': 1.56}
+{'loss': 1.5838, 'grad_norm': 2.2441608905792236, 'learning_rate': 2.705117790414298e-06, 'epoch': 1.56}
+{'eval_loss': 1.804967999458313, 'eval_runtime': 37.5305, 'eval_samples_per_second': 26.645, 'eval_steps_per_second': 1.119, 'epoch': 1.56}
+{'loss': 1.6288, 'grad_norm': 2.4043188095092773, 'learning_rate': 2.7030869212022747e-06, 'epoch': 1.56}
+{'loss': 1.5546, 'grad_norm': 2.3398056030273438, 'learning_rate': 2.7010560519902516e-06, 'epoch': 1.56}
+{'loss': 1.5917, 'grad_norm': 2.3541066646575928, 'learning_rate': 2.6990251827782293e-06, 'epoch': 1.56}
+{'loss': 1.5591, 'grad_norm': 2.454073190689087, 'learning_rate': 2.696994313566206e-06, 'epoch': 1.56}
+{'loss': 1.6361, 'grad_norm': 2.350755214691162, 'learning_rate': 2.694963444354184e-06, 'epoch': 1.56}
+{'loss': 1.5673, 'grad_norm': 2.238629102706909, 'learning_rate': 2.6929325751421607e-06, 'epoch': 1.56}
+{'loss': 1.5941, 'grad_norm': 2.274380683898926, 'learning_rate': 2.6909017059301384e-06, 'epoch': 1.56}
+{'loss': 1.5266, 'grad_norm': 2.3225724697113037, 'learning_rate': 2.6888708367181153e-06, 'epoch': 1.56}
+{'loss': 1.6016, 'grad_norm': 2.3591322898864746, 'learning_rate': 2.686839967506093e-06, 'epoch': 1.57}
+{'loss': 1.5141, 'grad_norm': 2.324714422225952, 'learning_rate': 2.68480909829407e-06, 'epoch': 1.57}
+{'eval_loss': 1.8034154176712036, 'eval_runtime': 37.6067, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 1.57}
+{'loss': 1.5105, 'grad_norm': 2.7142515182495117, 'learning_rate': 2.6827782290820475e-06, 'epoch': 1.57}
+{'loss': 1.6336, 'grad_norm': 2.568169355392456, 'learning_rate': 2.6807473598700244e-06, 'epoch': 1.57}
+{'loss': 1.5835, 'grad_norm': 2.3236494064331055, 'learning_rate': 2.678716490658002e-06, 'epoch': 1.57}
+{'loss': 1.5887, 'grad_norm': 2.2908999919891357, 'learning_rate': 2.676685621445979e-06, 'epoch': 1.57}
+{'loss': 1.5773, 'grad_norm': 2.3662478923797607, 'learning_rate': 2.674654752233956e-06, 'epoch': 1.57}
+{'loss': 1.579, 'grad_norm': 2.2895522117614746, 'learning_rate': 2.6726238830219335e-06, 'epoch': 1.57}
+{'loss': 1.6159, 'grad_norm': 2.4796924591064453, 'learning_rate': 2.6705930138099107e-06, 'epoch': 1.57}
+{'loss': 1.4884, 'grad_norm': 2.154432773590088, 'learning_rate': 2.668562144597888e-06, 'epoch': 1.58}
+{'loss': 1.5931, 'grad_norm': 2.386683702468872, 'learning_rate': 2.6665312753858653e-06, 'epoch': 1.58}
+{'loss': 1.5818, 'grad_norm': 2.4533839225769043, 'learning_rate': 2.6645004061738426e-06, 'epoch': 1.58}
+{'eval_loss': 1.8055368661880493, 'eval_runtime': 37.6238, 'eval_samples_per_second': 26.579, 'eval_steps_per_second': 1.116, 'epoch': 1.58}
+{'loss': 1.5285, 'grad_norm': 2.5833868980407715, 'learning_rate': 2.66246953696182e-06, 'epoch': 1.58}
+{'loss': 1.5399, 'grad_norm': 2.3304481506347656, 'learning_rate': 2.660438667749797e-06, 'epoch': 1.58}
+{'loss': 1.584, 'grad_norm': 2.4556679725646973, 'learning_rate': 2.6584077985377744e-06, 'epoch': 1.58}
+{'loss': 1.586, 'grad_norm': 2.292039155960083, 'learning_rate': 2.6563769293257517e-06, 'epoch': 1.58}
+{'loss': 1.5474, 'grad_norm': 2.335247755050659, 'learning_rate': 2.654346060113729e-06, 'epoch': 1.58}
+{'loss': 1.5493, 'grad_norm': 2.249704599380493, 'learning_rate': 2.6523151909017062e-06, 'epoch': 1.58}
+{'loss': 1.5444, 'grad_norm': 2.400728225708008, 'learning_rate': 2.6502843216896835e-06, 'epoch': 1.59}
+{'loss': 1.6541, 'grad_norm': 2.369392156600952, 'learning_rate': 2.6482534524776603e-06, 'epoch': 1.59}
+{'loss': 1.6135, 'grad_norm': 2.5002284049987793, 'learning_rate': 2.646222583265638e-06, 'epoch': 1.59}
+{'loss': 1.5856, 'grad_norm': 2.4248580932617188, 'learning_rate': 2.644191714053615e-06, 'epoch': 1.59}
+{'eval_loss': 1.8090615272521973, 'eval_runtime': 37.6331, 'eval_samples_per_second': 26.572, 'eval_steps_per_second': 1.116, 'epoch': 1.59}
+{'loss': 1.5626, 'grad_norm': 2.3474009037017822, 'learning_rate': 2.6421608448415926e-06, 'epoch': 1.59}
+{'loss': 1.5306, 'grad_norm': 2.388119697570801, 'learning_rate': 2.6401299756295694e-06, 'epoch': 1.59}
+{'loss': 1.581, 'grad_norm': 2.419685125350952, 'learning_rate': 2.638099106417547e-06, 'epoch': 1.59}
+{'loss': 1.5674, 'grad_norm': 2.3767285346984863, 'learning_rate': 2.636068237205524e-06, 'epoch': 1.59}
+{'loss': 1.6464, 'grad_norm': 2.58351731300354, 'learning_rate': 2.6340373679935017e-06, 'epoch': 1.59}
+{'loss': 1.4988, 'grad_norm': 2.477379322052002, 'learning_rate': 2.6320064987814785e-06, 'epoch': 1.6}
+{'loss': 1.5825, 'grad_norm': 2.3332712650299072, 'learning_rate': 2.6299756295694562e-06, 'epoch': 1.6}
+{'loss': 1.6323, 'grad_norm': 2.521047830581665, 'learning_rate': 2.627944760357433e-06, 'epoch': 1.6}
+{'loss': 1.6447, 'grad_norm': 2.321887254714966, 'learning_rate': 2.6259138911454104e-06, 'epoch': 1.6}
+{'loss': 1.6142, 'grad_norm': 2.6367568969726562, 'learning_rate': 2.6238830219333877e-06, 'epoch': 1.6}
+{'eval_loss': 1.8028103113174438, 'eval_runtime': 37.638, 'eval_samples_per_second': 26.569, 'eval_steps_per_second': 1.116, 'epoch': 1.6}
+{'loss': 1.5385, 'grad_norm': 2.535698175430298, 'learning_rate': 2.621852152721365e-06, 'epoch': 1.6}
+{'loss': 1.5942, 'grad_norm': 2.449306011199951, 'learning_rate': 2.619821283509342e-06, 'epoch': 1.6}
+{'loss': 1.532, 'grad_norm': 2.413640260696411, 'learning_rate': 2.6177904142973195e-06, 'epoch': 1.6}
+{'loss': 1.6043, 'grad_norm': 2.6141676902770996, 'learning_rate': 2.6157595450852968e-06, 'epoch': 1.6}
+{'loss': 1.6197, 'grad_norm': 2.5060036182403564, 'learning_rate': 2.613728675873274e-06, 'epoch': 1.61}
+{'loss': 1.6336, 'grad_norm': 2.412973165512085, 'learning_rate': 2.6116978066612513e-06, 'epoch': 1.61}
+{'loss': 1.5744, 'grad_norm': 2.323206663131714, 'learning_rate': 2.6096669374492286e-06, 'epoch': 1.61}
+{'loss': 1.5413, 'grad_norm': 2.971121311187744, 'learning_rate': 2.607636068237206e-06, 'epoch': 1.61}
+{'loss': 1.5986, 'grad_norm': 2.4231197834014893, 'learning_rate': 2.605605199025183e-06, 'epoch': 1.61}
+{'loss': 1.5823, 'grad_norm': 2.2993555068969727, 'learning_rate': 2.6035743298131604e-06, 'epoch': 1.61}
+{'eval_loss': 1.8041924238204956, 'eval_runtime': 37.6509, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 1.61}
+{'loss': 1.6175, 'grad_norm': 2.5302796363830566, 'learning_rate': 2.6015434606011377e-06, 'epoch': 1.61}
+{'loss': 1.614, 'grad_norm': 2.5933337211608887, 'learning_rate': 2.5995125913891145e-06, 'epoch': 1.61}
+{'loss': 1.5864, 'grad_norm': 2.3810081481933594, 'learning_rate': 2.5974817221770922e-06, 'epoch': 1.61}
+{'loss': 1.6211, 'grad_norm': 2.300083637237549, 'learning_rate': 2.595450852965069e-06, 'epoch': 1.62}
+{'loss': 1.6228, 'grad_norm': 2.450017213821411, 'learning_rate': 2.593419983753047e-06, 'epoch': 1.62}
+{'loss': 1.5674, 'grad_norm': 2.3550314903259277, 'learning_rate': 2.5913891145410236e-06, 'epoch': 1.62}
+{'loss': 1.6132, 'grad_norm': 2.2032628059387207, 'learning_rate': 2.5893582453290013e-06, 'epoch': 1.62}
+{'loss': 1.5576, 'grad_norm': 2.392601728439331, 'learning_rate': 2.587327376116978e-06, 'epoch': 1.62}
+{'loss': 1.5739, 'grad_norm': 2.4485340118408203, 'learning_rate': 2.585296506904956e-06, 'epoch': 1.62}
+{'loss': 1.5613, 'grad_norm': 2.3412182331085205, 'learning_rate': 2.5832656376929327e-06, 'epoch': 1.62}
+{'eval_loss': 1.799009084701538, 'eval_runtime': 37.6376, 'eval_samples_per_second': 26.569, 'eval_steps_per_second': 1.116, 'epoch': 1.62}
+{'loss': 1.5006, 'grad_norm': 2.4357550144195557, 'learning_rate': 2.5812347684809104e-06, 'epoch': 1.62}
+{'loss': 1.6647, 'grad_norm': 2.3217360973358154, 'learning_rate': 2.5792038992688873e-06, 'epoch': 1.62}
+{'loss': 1.5094, 'grad_norm': 2.4417922496795654, 'learning_rate': 2.577173030056865e-06, 'epoch': 1.63}
+{'loss': 1.5985, 'grad_norm': 2.435678482055664, 'learning_rate': 2.575142160844842e-06, 'epoch': 1.63}
+{'loss': 1.6057, 'grad_norm': 2.407944679260254, 'learning_rate': 2.5731112916328187e-06, 'epoch': 1.63}
+{'loss': 1.5414, 'grad_norm': 2.340838670730591, 'learning_rate': 2.5710804224207964e-06, 'epoch': 1.63}
+{'loss': 1.5118, 'grad_norm': 2.4111931324005127, 'learning_rate': 2.5690495532087733e-06, 'epoch': 1.63}
+{'loss': 1.5965, 'grad_norm': 2.4581844806671143, 'learning_rate': 2.567018683996751e-06, 'epoch': 1.63}
+{'loss': 1.5444, 'grad_norm': 2.35160493850708, 'learning_rate': 2.564987814784728e-06, 'epoch': 1.63}
+{'loss': 1.5726, 'grad_norm': 2.547128438949585, 'learning_rate': 2.5629569455727055e-06, 'epoch': 1.63}
+{'eval_loss': 1.7976791858673096, 'eval_runtime': 37.6098, 'eval_samples_per_second': 26.589, 'eval_steps_per_second': 1.117, 'epoch': 1.63}
+{'loss': 1.5814, 'grad_norm': 2.412235975265503, 'learning_rate': 2.5609260763606824e-06, 'epoch': 1.63}
+{'loss': 1.6861, 'grad_norm': 2.4084978103637695, 'learning_rate': 2.55889520714866e-06, 'epoch': 1.64}
+{'loss': 1.5519, 'grad_norm': 2.2634105682373047, 'learning_rate': 2.556864337936637e-06, 'epoch': 1.64}
+{'loss': 1.5719, 'grad_norm': 2.3531241416931152, 'learning_rate': 2.5548334687246146e-06, 'epoch': 1.64}
+{'loss': 1.6247, 'grad_norm': 2.5693578720092773, 'learning_rate': 2.5528025995125915e-06, 'epoch': 1.64}
+{'loss': 1.57, 'grad_norm': 2.358668565750122, 'learning_rate': 2.550771730300569e-06, 'epoch': 1.64}
+{'loss': 1.6111, 'grad_norm': 2.4575681686401367, 'learning_rate': 2.548740861088546e-06, 'epoch': 1.64}
+{'loss': 1.5061, 'grad_norm': 2.3352010250091553, 'learning_rate': 2.5467099918765233e-06, 'epoch': 1.64}
+{'loss': 1.4903, 'grad_norm': 2.334024667739868, 'learning_rate': 2.5446791226645006e-06, 'epoch': 1.64}
+{'loss': 1.6113, 'grad_norm': 2.198202610015869, 'learning_rate': 2.542648253452478e-06, 'epoch': 1.64}
+{'eval_loss': 1.7970777750015259, 'eval_runtime': 37.6253, 'eval_samples_per_second': 26.578, 'eval_steps_per_second': 1.116, 'epoch': 1.64}
+{'loss': 1.5845, 'grad_norm': 2.198202610015869, 'learning_rate': 2.542648253452478e-06, 'epoch': 1.64}
+{'loss': 1.5374, 'grad_norm': 2.3985469341278076, 'learning_rate': 2.540617384240455e-06, 'epoch': 1.65}
+{'loss': 1.5626, 'grad_norm': 2.565624475479126, 'learning_rate': 2.5385865150284324e-06, 'epoch': 1.65}
+{'loss': 1.574, 'grad_norm': 2.5793867111206055, 'learning_rate': 2.5365556458164097e-06, 'epoch': 1.65}
+{'loss': 1.4698, 'grad_norm': 2.3158912658691406, 'learning_rate': 2.534524776604387e-06, 'epoch': 1.65}
+{'loss': 1.557, 'grad_norm': 2.3239588737487793, 'learning_rate': 2.5324939073923642e-06, 'epoch': 1.65}
+{'loss': 1.5693, 'grad_norm': 2.2096805572509766, 'learning_rate': 2.5304630381803415e-06, 'epoch': 1.65}
+{'loss': 1.577, 'grad_norm': 2.2404050827026367, 'learning_rate': 2.5284321689683188e-06, 'epoch': 1.65}
+{'loss': 1.5558, 'grad_norm': 2.5129640102386475, 'learning_rate': 2.526401299756296e-06, 'epoch': 1.65}
+{'loss': 1.5447, 'grad_norm': 2.3683228492736816, 'learning_rate': 2.524370430544273e-06, 'epoch': 1.65}
+{'eval_loss': 1.7990535497665405, 'eval_runtime': 37.3482, 'eval_samples_per_second': 26.775, 'eval_steps_per_second': 1.125, 'epoch': 1.65}
+{'loss': 1.5777, 'grad_norm': 2.51452374458313, 'learning_rate': 2.5223395613322506e-06, 'epoch': 1.66}
+{'loss': 1.5552, 'grad_norm': 2.4421117305755615, 'learning_rate': 2.5203086921202274e-06, 'epoch': 1.66}
+{'loss': 1.5714, 'grad_norm': 2.4131712913513184, 'learning_rate': 2.518277822908205e-06, 'epoch': 1.66}
+{'loss': 1.5761, 'grad_norm': 2.504995346069336, 'learning_rate': 2.516246953696182e-06, 'epoch': 1.66}
+{'loss': 1.5927, 'grad_norm': 2.5756747722625732, 'learning_rate': 2.5142160844841597e-06, 'epoch': 1.66}
+{'loss': 1.5809, 'grad_norm': 2.427797794342041, 'learning_rate': 2.5121852152721365e-06, 'epoch': 1.66}
+{'loss': 1.5189, 'grad_norm': 2.5764248371124268, 'learning_rate': 2.5101543460601142e-06, 'epoch': 1.66}
+{'loss': 1.6039, 'grad_norm': 2.465426445007324, 'learning_rate': 2.508123476848091e-06, 'epoch': 1.66}
+{'loss': 1.5688, 'grad_norm': 2.64825439453125, 'learning_rate': 2.506092607636069e-06, 'epoch': 1.66}
+{'loss': 1.5529, 'grad_norm': 2.257735252380371, 'learning_rate': 2.5040617384240457e-06, 'epoch': 1.67}
+{'eval_loss': 1.7958415746688843, 'eval_runtime': 37.4739, 'eval_samples_per_second': 26.685, 'eval_steps_per_second': 1.121, 'epoch': 1.67}
+{'loss': 1.6225, 'grad_norm': 2.420476198196411, 'learning_rate': 2.5020308692120234e-06, 'epoch': 1.67}
+{'loss': 1.5509, 'grad_norm': 2.382314682006836, 'learning_rate': 2.5e-06, 'epoch': 1.67}
+{'loss': 1.5654, 'grad_norm': 2.294778823852539, 'learning_rate': 2.4979691307879775e-06, 'epoch': 1.67}
+{'loss': 1.627, 'grad_norm': 2.4542129039764404, 'learning_rate': 2.4959382615759548e-06, 'epoch': 1.67}
+{'loss': 1.5715, 'grad_norm': 2.509376287460327, 'learning_rate': 2.493907392363932e-06, 'epoch': 1.67}
+{'loss': 1.5722, 'grad_norm': 2.4794631004333496, 'learning_rate': 2.4918765231519093e-06, 'epoch': 1.67}
+{'loss': 1.6287, 'grad_norm': 2.3949625492095947, 'learning_rate': 2.4898456539398866e-06, 'epoch': 1.67}
+{'loss': 1.5661, 'grad_norm': 2.550445556640625, 'learning_rate': 2.487814784727864e-06, 'epoch': 1.67}
+{'loss': 1.5625, 'grad_norm': 2.355271816253662, 'learning_rate': 2.4857839155158407e-06, 'epoch': 1.68}
+{'loss': 1.5628, 'grad_norm': 2.276538610458374, 'learning_rate': 2.483753046303818e-06, 'epoch': 1.68}
+{'eval_loss': 1.7968149185180664, 'eval_runtime': 37.5901, 'eval_samples_per_second': 26.603, 'eval_steps_per_second': 1.117, 'epoch': 1.68}
+{'loss': 1.6025, 'grad_norm': 2.3278684616088867, 'learning_rate': 2.4817221770917953e-06, 'epoch': 1.68}
+{'loss': 1.5973, 'grad_norm': 2.349140167236328, 'learning_rate': 2.4796913078797725e-06, 'epoch': 1.68}
+{'loss': 1.6102, 'grad_norm': 2.3641819953918457, 'learning_rate': 2.47766043866775e-06, 'epoch': 1.68}
+{'loss': 1.5403, 'grad_norm': 2.269913673400879, 'learning_rate': 2.475629569455727e-06, 'epoch': 1.68}
+{'loss': 1.5343, 'grad_norm': 2.336559295654297, 'learning_rate': 2.4735987002437044e-06, 'epoch': 1.68}
+{'loss': 1.564, 'grad_norm': 2.4903688430786133, 'learning_rate': 2.4715678310316816e-06, 'epoch': 1.68}
+{'loss': 1.5751, 'grad_norm': 2.3272690773010254, 'learning_rate': 2.469536961819659e-06, 'epoch': 1.68}
+{'loss': 1.5361, 'grad_norm': 2.2802906036376953, 'learning_rate': 2.467506092607636e-06, 'epoch': 1.69}
+{'loss': 1.6314, 'grad_norm': 2.55120849609375, 'learning_rate': 2.4654752233956135e-06, 'epoch': 1.69}
+{'loss': 1.5698, 'grad_norm': 2.383953809738159, 'learning_rate': 2.4634443541835907e-06, 'epoch': 1.69}
+{'eval_loss': 1.7970131635665894, 'eval_runtime': 37.6037, 'eval_samples_per_second': 26.593, 'eval_steps_per_second': 1.117, 'epoch': 1.69}
+{'loss': 1.6459, 'grad_norm': 2.3814003467559814, 'learning_rate': 2.461413484971568e-06, 'epoch': 1.69}
+{'loss': 1.5187, 'grad_norm': 2.221702814102173, 'learning_rate': 2.4593826157595453e-06, 'epoch': 1.69}
+{'loss': 1.5434, 'grad_norm': 2.3011937141418457, 'learning_rate': 2.4573517465475226e-06, 'epoch': 1.69}
+{'loss': 1.5779, 'grad_norm': 2.3771092891693115, 'learning_rate': 2.4553208773355e-06, 'epoch': 1.69}
+{'loss': 1.5964, 'grad_norm': 2.5056796073913574, 'learning_rate': 2.453290008123477e-06, 'epoch': 1.69}
+{'loss': 1.5757, 'grad_norm': 2.2562448978424072, 'learning_rate': 2.4512591389114544e-06, 'epoch': 1.69}
+{'loss': 1.5615, 'grad_norm': 2.3408446311950684, 'learning_rate': 2.4492282696994317e-06, 'epoch': 1.7}
+{'loss': 1.5823, 'grad_norm': 2.7364330291748047, 'learning_rate': 2.447197400487409e-06, 'epoch': 1.7}
+{'loss': 1.6147, 'grad_norm': 2.2994930744171143, 'learning_rate': 2.4451665312753862e-06, 'epoch': 1.7}
+{'loss': 1.5742, 'grad_norm': 2.3095133304595947, 'learning_rate': 2.4431356620633635e-06, 'epoch': 1.7}
+{'eval_loss': 1.7963119745254517, 'eval_runtime': 37.6293, 'eval_samples_per_second': 26.575, 'eval_steps_per_second': 1.116, 'epoch': 1.7}
+{'loss': 1.5806, 'grad_norm': 2.611403465270996, 'learning_rate': 2.4411047928513408e-06, 'epoch': 1.7}
+{'loss': 1.5143, 'grad_norm': 2.426737070083618, 'learning_rate': 2.439073923639318e-06, 'epoch': 1.7}
+{'loss': 1.5174, 'grad_norm': 2.383354663848877, 'learning_rate': 2.4370430544272953e-06, 'epoch': 1.7}
+{'loss': 1.5441, 'grad_norm': 2.38839054107666, 'learning_rate': 2.435012185215272e-06, 'epoch': 1.7}
+{'loss': 1.5655, 'grad_norm': 2.4023711681365967, 'learning_rate': 2.4329813160032495e-06, 'epoch': 1.7}
+{'loss': 1.561, 'grad_norm': 2.3603522777557373, 'learning_rate': 2.4309504467912267e-06, 'epoch': 1.71}
+{'loss': 1.6433, 'grad_norm': 2.5506274700164795, 'learning_rate': 2.428919577579204e-06, 'epoch': 1.71}
+{'loss': 1.5545, 'grad_norm': 2.36458420753479, 'learning_rate': 2.4268887083671813e-06, 'epoch': 1.71}
+{'loss': 1.5441, 'grad_norm': 2.4482178688049316, 'learning_rate': 2.4248578391551586e-06, 'epoch': 1.71}
+{'loss': 1.516, 'grad_norm': 2.3345770835876465, 'learning_rate': 2.422826969943136e-06, 'epoch': 1.71}
+{'eval_loss': 1.7948458194732666, 'eval_runtime': 37.6118, 'eval_samples_per_second': 26.587, 'eval_steps_per_second': 1.117, 'epoch': 1.71}
+{'loss': 1.5789, 'grad_norm': 2.3789288997650146, 'learning_rate': 2.420796100731113e-06, 'epoch': 1.71}
+{'loss': 1.5783, 'grad_norm': 2.2523891925811768, 'learning_rate': 2.4187652315190904e-06, 'epoch': 1.71}
+{'loss': 1.5638, 'grad_norm': 2.3722074031829834, 'learning_rate': 2.4167343623070677e-06, 'epoch': 1.71}
+{'loss': 1.5632, 'grad_norm': 2.3163652420043945, 'learning_rate': 2.414703493095045e-06, 'epoch': 1.71}
+{'loss': 1.5474, 'grad_norm': 2.4408388137817383, 'learning_rate': 2.4126726238830222e-06, 'epoch': 1.72}
+{'loss': 1.6113, 'grad_norm': 2.6128807067871094, 'learning_rate': 2.410641754670999e-06, 'epoch': 1.72}
+{'loss': 1.5506, 'grad_norm': 2.3560540676116943, 'learning_rate': 2.4086108854589763e-06, 'epoch': 1.72}
+{'loss': 1.5673, 'grad_norm': 2.5161283016204834, 'learning_rate': 2.4065800162469536e-06, 'epoch': 1.72}
+{'loss': 1.6014, 'grad_norm': 2.3413305282592773, 'learning_rate': 2.404549147034931e-06, 'epoch': 1.72}
+{'loss': 1.5449, 'grad_norm': 2.3420467376708984, 'learning_rate': 2.402518277822908e-06, 'epoch': 1.72}
+{'eval_loss': 1.7886322736740112, 'eval_runtime': 37.6121, 'eval_samples_per_second': 26.587, 'eval_steps_per_second': 1.117, 'epoch': 1.72}
+{'loss': 1.5798, 'grad_norm': 2.4713375568389893, 'learning_rate': 2.4004874086108854e-06, 'epoch': 1.72}
+{'loss': 1.5408, 'grad_norm': 2.4258673191070557, 'learning_rate': 2.3984565393988627e-06, 'epoch': 1.72}
+{'loss': 1.5569, 'grad_norm': 2.347198963165283, 'learning_rate': 2.39642567018684e-06, 'epoch': 1.72}
+{'loss': 1.5939, 'grad_norm': 2.566559076309204, 'learning_rate': 2.3943948009748173e-06, 'epoch': 1.72}
+{'loss': 1.5326, 'grad_norm': 2.558551788330078, 'learning_rate': 2.3923639317627945e-06, 'epoch': 1.73}
+{'loss': 1.4657, 'grad_norm': 2.3423054218292236, 'learning_rate': 2.390333062550772e-06, 'epoch': 1.73}
+{'loss': 1.6428, 'grad_norm': 2.486992120742798, 'learning_rate': 2.388302193338749e-06, 'epoch': 1.73}
+{'loss': 1.5699, 'grad_norm': 2.4557418823242188, 'learning_rate': 2.3862713241267264e-06, 'epoch': 1.73}
+{'loss': 1.5306, 'grad_norm': 2.300880193710327, 'learning_rate': 2.3842404549147037e-06, 'epoch': 1.73}
+{'loss': 1.607, 'grad_norm': 2.526754379272461, 'learning_rate': 2.382209585702681e-06, 'epoch': 1.73}
+{'eval_loss': 1.7899311780929565, 'eval_runtime': 37.6168, 'eval_samples_per_second': 26.584, 'eval_steps_per_second': 1.117, 'epoch': 1.73}
+{'loss': 1.5603, 'grad_norm': 2.3019120693206787, 'learning_rate': 2.380178716490658e-06, 'epoch': 1.73}
+{'loss': 1.6053, 'grad_norm': 2.5999555587768555, 'learning_rate': 2.3781478472786355e-06, 'epoch': 1.73}
+{'loss': 1.6198, 'grad_norm': 2.512310028076172, 'learning_rate': 2.3761169780666128e-06, 'epoch': 1.73}
+{'loss': 1.5522, 'grad_norm': 2.4594054222106934, 'learning_rate': 2.37408610885459e-06, 'epoch': 1.74}
+{'loss': 1.6373, 'grad_norm': 2.3576929569244385, 'learning_rate': 2.3720552396425673e-06, 'epoch': 1.74}
+{'loss': 1.5748, 'grad_norm': 2.3708410263061523, 'learning_rate': 2.3700243704305446e-06, 'epoch': 1.74}
+{'loss': 1.5615, 'grad_norm': 2.335543632507324, 'learning_rate': 2.367993501218522e-06, 'epoch': 1.74}
+{'loss': 1.6037, 'grad_norm': 2.40956711769104, 'learning_rate': 2.365962632006499e-06, 'epoch': 1.74}
+{'loss': 1.5988, 'grad_norm': 2.318018913269043, 'learning_rate': 2.3639317627944764e-06, 'epoch': 1.74}
+{'loss': 1.5932, 'grad_norm': 2.3354878425598145, 'learning_rate': 2.3619008935824537e-06, 'epoch': 1.74}
+{'eval_loss': 1.7885290384292603, 'eval_runtime': 37.5842, 'eval_samples_per_second': 26.607, 'eval_steps_per_second': 1.117, 'epoch': 1.74}
+{'loss': 1.5902, 'grad_norm': 2.3061752319335938, 'learning_rate': 2.3598700243704305e-06, 'epoch': 1.74}
+{'loss': 1.5876, 'grad_norm': 2.2652318477630615, 'learning_rate': 2.357839155158408e-06, 'epoch': 1.74}
+{'loss': 1.6007, 'grad_norm': 2.2754554748535156, 'learning_rate': 2.355808285946385e-06, 'epoch': 1.75}
+{'loss': 1.5943, 'grad_norm': 2.2978153228759766, 'learning_rate': 2.3537774167343624e-06, 'epoch': 1.75}
+{'loss': 1.5845, 'grad_norm': 2.410731792449951, 'learning_rate': 2.3517465475223396e-06, 'epoch': 1.75}
+{'loss': 1.5603, 'grad_norm': 2.359095573425293, 'learning_rate': 2.349715678310317e-06, 'epoch': 1.75}
+{'loss': 1.6074, 'grad_norm': 2.3611576557159424, 'learning_rate': 2.347684809098294e-06, 'epoch': 1.75}
+{'loss': 1.5353, 'grad_norm': 2.2483246326446533, 'learning_rate': 2.3456539398862715e-06, 'epoch': 1.75}
+{'loss': 1.5466, 'grad_norm': 2.4918525218963623, 'learning_rate': 2.3436230706742487e-06, 'epoch': 1.75}
+{'loss': 1.5578, 'grad_norm': 2.2586283683776855, 'learning_rate': 2.341592201462226e-06, 'epoch': 1.75}
+{'eval_loss': 1.785380244255066, 'eval_runtime': 37.5623, 'eval_samples_per_second': 26.622, 'eval_steps_per_second': 1.118, 'epoch': 1.75}
+{'loss': 1.5229, 'grad_norm': 2.2933599948883057, 'learning_rate': 2.3395613322502033e-06, 'epoch': 1.75}
+{'loss': 1.5352, 'grad_norm': 2.2764604091644287, 'learning_rate': 2.3375304630381806e-06, 'epoch': 1.76}
+{'loss': 1.594, 'grad_norm': 2.5276317596435547, 'learning_rate': 2.335499593826158e-06, 'epoch': 1.76}
+{'loss': 1.598, 'grad_norm': 2.3735804557800293, 'learning_rate': 2.333468724614135e-06, 'epoch': 1.76}
+{'loss': 1.5311, 'grad_norm': 2.3157973289489746, 'learning_rate': 2.3314378554021124e-06, 'epoch': 1.76}
+{'loss': 1.534, 'grad_norm': 2.279554605484009, 'learning_rate': 2.3294069861900897e-06, 'epoch': 1.76}
+{'loss': 1.5909, 'grad_norm': 2.3842287063598633, 'learning_rate': 2.327376116978067e-06, 'epoch': 1.76}
+{'loss': 1.54, 'grad_norm': 2.310911178588867, 'learning_rate': 2.3253452477660442e-06, 'epoch': 1.76}
+{'loss': 1.5841, 'grad_norm': 2.378826141357422, 'learning_rate': 2.3233143785540215e-06, 'epoch': 1.76}
+{'loss': 1.5294, 'grad_norm': 2.2920854091644287, 'learning_rate': 2.3212835093419988e-06, 'epoch': 1.76}
+{'eval_loss': 1.7865288257598877, 'eval_runtime': 37.304, 'eval_samples_per_second': 26.807, 'eval_steps_per_second': 1.126, 'epoch': 1.76}
+{'loss': 1.646, 'grad_norm': 2.3448681831359863, 'learning_rate': 2.319252640129976e-06, 'epoch': 1.77}
+{'loss': 1.6013, 'grad_norm': 2.2847609519958496, 'learning_rate': 2.3172217709179533e-06, 'epoch': 1.77}
+{'loss': 1.5145, 'grad_norm': 2.1902801990509033, 'learning_rate': 2.3151909017059306e-06, 'epoch': 1.77}
+{'loss': 1.5974, 'grad_norm': 2.2521376609802246, 'learning_rate': 2.313160032493908e-06, 'epoch': 1.77}
+{'loss': 1.5556, 'grad_norm': 2.2616031169891357, 'learning_rate': 2.311129163281885e-06, 'epoch': 1.77}
+{'loss': 1.5312, 'grad_norm': 2.4504055976867676, 'learning_rate': 2.309098294069862e-06, 'epoch': 1.77}
+{'loss': 1.5775, 'grad_norm': 2.3687944412231445, 'learning_rate': 2.3070674248578393e-06, 'epoch': 1.77}
+{'loss': 1.5944, 'grad_norm': 2.3850226402282715, 'learning_rate': 2.3050365556458166e-06, 'epoch': 1.77}
+{'loss': 1.5708, 'grad_norm': 2.3226959705352783, 'learning_rate': 2.303005686433794e-06, 'epoch': 1.77}
+{'loss': 1.5252, 'grad_norm': 2.297395944595337, 'learning_rate': 2.300974817221771e-06, 'epoch': 1.78}
+{'eval_loss': 1.7863850593566895, 'eval_runtime': 37.4111, 'eval_samples_per_second': 26.73, 'eval_steps_per_second': 1.123, 'epoch': 1.78}
+{'loss': 1.5803, 'grad_norm': 2.348844051361084, 'learning_rate': 2.2989439480097484e-06, 'epoch': 1.78}
+{'loss': 1.6061, 'grad_norm': 2.400225877761841, 'learning_rate': 2.2969130787977257e-06, 'epoch': 1.78}
+{'loss': 1.5449, 'grad_norm': 2.2621638774871826, 'learning_rate': 2.294882209585703e-06, 'epoch': 1.78}
+{'loss': 1.5705, 'grad_norm': 2.413447618484497, 'learning_rate': 2.2928513403736802e-06, 'epoch': 1.78}
+{'loss': 1.6066, 'grad_norm': 2.3496644496917725, 'learning_rate': 2.2908204711616575e-06, 'epoch': 1.78}
+{'loss': 1.5463, 'grad_norm': 2.192983388900757, 'learning_rate': 2.2887896019496348e-06, 'epoch': 1.78}
+{'loss': 1.5625, 'grad_norm': 2.4367282390594482, 'learning_rate': 2.286758732737612e-06, 'epoch': 1.78}
+{'loss': 1.5811, 'grad_norm': 2.244849681854248, 'learning_rate': 2.284727863525589e-06, 'epoch': 1.78}
+{'loss': 1.5735, 'grad_norm': 2.330404758453369, 'learning_rate': 2.282696994313566e-06, 'epoch': 1.79}
+{'loss': 1.5469, 'grad_norm': 2.2662882804870605, 'learning_rate': 2.2806661251015434e-06, 'epoch': 1.79}
+{'eval_loss': 1.7885574102401733, 'eval_runtime': 37.5423, 'eval_samples_per_second': 26.637, 'eval_steps_per_second': 1.119, 'epoch': 1.79}
+{'loss': 1.5203, 'grad_norm': 2.296560525894165, 'learning_rate': 2.2786352558895207e-06, 'epoch': 1.79}
+{'loss': 1.5494, 'grad_norm': 2.4273126125335693, 'learning_rate': 2.276604386677498e-06, 'epoch': 1.79}
+{'loss': 1.6282, 'grad_norm': 2.3543357849121094, 'learning_rate': 2.2745735174654753e-06, 'epoch': 1.79}
+{'loss': 1.5698, 'grad_norm': 2.3277454376220703, 'learning_rate': 2.2725426482534526e-06, 'epoch': 1.79}
+{'loss': 1.5533, 'grad_norm': 2.3332977294921875, 'learning_rate': 2.27051177904143e-06, 'epoch': 1.79}
+{'loss': 1.5762, 'grad_norm': 2.2950737476348877, 'learning_rate': 2.268480909829407e-06, 'epoch': 1.79}
+{'loss': 1.5989, 'grad_norm': 2.3075945377349854, 'learning_rate': 2.2664500406173844e-06, 'epoch': 1.79}
+{'loss': 1.5646, 'grad_norm': 2.5398688316345215, 'learning_rate': 2.2644191714053617e-06, 'epoch': 1.8}
+{'loss': 1.5445, 'grad_norm': 2.415179491043091, 'learning_rate': 2.262388302193339e-06, 'epoch': 1.8}
+{'loss': 1.5641, 'grad_norm': 2.5503602027893066, 'learning_rate': 2.260357432981316e-06, 'epoch': 1.8}
+{'eval_loss': 1.7872141599655151, 'eval_runtime': 37.5729, 'eval_samples_per_second': 26.615, 'eval_steps_per_second': 1.118, 'epoch': 1.8}
+{'loss': 1.5698, 'grad_norm': 2.3088791370391846, 'learning_rate': 2.2583265637692935e-06, 'epoch': 1.8}
+{'loss': 1.5645, 'grad_norm': 2.568406343460083, 'learning_rate': 2.2562956945572708e-06, 'epoch': 1.8}
+{'loss': 1.572, 'grad_norm': 2.445880174636841, 'learning_rate': 2.254264825345248e-06, 'epoch': 1.8}
+{'loss': 1.5767, 'grad_norm': 2.4191532135009766, 'learning_rate': 2.2522339561332253e-06, 'epoch': 1.8}
+{'loss': 1.6118, 'grad_norm': 2.3917829990386963, 'learning_rate': 2.2502030869212026e-06, 'epoch': 1.8}
+{'loss': 1.592, 'grad_norm': 2.3489878177642822, 'learning_rate': 2.24817221770918e-06, 'epoch': 1.8}
+{'loss': 1.5411, 'grad_norm': 2.3367228507995605, 'learning_rate': 2.246141348497157e-06, 'epoch': 1.8}
+{'loss': 1.5591, 'grad_norm': 2.344665050506592, 'learning_rate': 2.2441104792851344e-06, 'epoch': 1.81}
+{'loss': 1.5798, 'grad_norm': 2.4511358737945557, 'learning_rate': 2.2420796100731117e-06, 'epoch': 1.81}
+{'loss': 1.4739, 'grad_norm': 2.331444025039673, 'learning_rate': 2.240048740861089e-06, 'epoch': 1.81}
+{'eval_loss': 1.7889851331710815, 'eval_runtime': 37.5776, 'eval_samples_per_second': 26.612, 'eval_steps_per_second': 1.118, 'epoch': 1.81}
+{'loss': 1.5902, 'grad_norm': 2.3761370182037354, 'learning_rate': 2.2380178716490662e-06, 'epoch': 1.81}
+{'loss': 1.5727, 'grad_norm': 2.5612430572509766, 'learning_rate': 2.2359870024370435e-06, 'epoch': 1.81}
+{'loss': 1.5692, 'grad_norm': 2.4716763496398926, 'learning_rate': 2.2339561332250204e-06, 'epoch': 1.81}
+{'loss': 1.5062, 'grad_norm': 2.3467376232147217, 'learning_rate': 2.2319252640129976e-06, 'epoch': 1.81}
+{'loss': 1.4997, 'grad_norm': 2.4389781951904297, 'learning_rate': 2.229894394800975e-06, 'epoch': 1.81}
+{'loss': 1.5246, 'grad_norm': 2.300154209136963, 'learning_rate': 2.227863525588952e-06, 'epoch': 1.81}
+{'loss': 1.5244, 'grad_norm': 2.3453617095947266, 'learning_rate': 2.2258326563769295e-06, 'epoch': 1.82}
+{'loss': 1.5645, 'grad_norm': 2.2968592643737793, 'learning_rate': 2.2238017871649067e-06, 'epoch': 1.82}
+{'loss': 1.6083, 'grad_norm': 2.7832043170928955, 'learning_rate': 2.221770917952884e-06, 'epoch': 1.82}
+{'loss': 1.5286, 'grad_norm': 2.3501007556915283, 'learning_rate': 2.2197400487408613e-06, 'epoch': 1.82}
+{'eval_loss': 1.7868127822875977, 'eval_runtime': 37.571, 'eval_samples_per_second': 26.616, 'eval_steps_per_second': 1.118, 'epoch': 1.82}
+{'loss': 1.5384, 'grad_norm': 2.400301694869995, 'learning_rate': 2.2177091795288386e-06, 'epoch': 1.82}
+{'loss': 1.5725, 'grad_norm': 2.313013792037964, 'learning_rate': 2.215678310316816e-06, 'epoch': 1.82}
+{'loss': 1.5423, 'grad_norm': 2.2732956409454346, 'learning_rate': 2.213647441104793e-06, 'epoch': 1.82}
+{'loss': 1.5632, 'grad_norm': 2.4389452934265137, 'learning_rate': 2.2116165718927704e-06, 'epoch': 1.82}
+{'loss': 1.5253, 'grad_norm': 2.3862178325653076, 'learning_rate': 2.2095857026807473e-06, 'epoch': 1.82}
+{'loss': 1.5434, 'grad_norm': 2.3277549743652344, 'learning_rate': 2.2075548334687245e-06, 'epoch': 1.83}
+{'loss': 1.5737, 'grad_norm': 2.273167133331299, 'learning_rate': 2.205523964256702e-06, 'epoch': 1.83}
+{'loss': 1.5815, 'grad_norm': 2.3149003982543945, 'learning_rate': 2.203493095044679e-06, 'epoch': 1.83}
+{'loss': 1.5951, 'grad_norm': 2.445786952972412, 'learning_rate': 2.2014622258326564e-06, 'epoch': 1.83}
+{'loss': 1.5552, 'grad_norm': 2.2022483348846436, 'learning_rate': 2.1994313566206336e-06, 'epoch': 1.83}
+{'eval_loss': 1.784936547279358, 'eval_runtime': 37.5958, 'eval_samples_per_second': 26.599, 'eval_steps_per_second': 1.117, 'epoch': 1.83}
+{'loss': 1.5267, 'grad_norm': 2.3435351848602295, 'learning_rate': 2.197400487408611e-06, 'epoch': 1.83}
+{'loss': 1.5598, 'grad_norm': 2.3791732788085938, 'learning_rate': 2.195369618196588e-06, 'epoch': 1.83}
+{'loss': 1.5814, 'grad_norm': 2.2887489795684814, 'learning_rate': 2.1933387489845655e-06, 'epoch': 1.83}
+{'loss': 1.6434, 'grad_norm': 2.295968532562256, 'learning_rate': 2.1913078797725427e-06, 'epoch': 1.83}
+{'loss': 1.5753, 'grad_norm': 2.2124664783477783, 'learning_rate': 2.18927701056052e-06, 'epoch': 1.84}
+{'loss': 1.5608, 'grad_norm': 2.3175227642059326, 'learning_rate': 2.1872461413484973e-06, 'epoch': 1.84}
+{'loss': 1.5426, 'grad_norm': 2.2853755950927734, 'learning_rate': 2.1852152721364746e-06, 'epoch': 1.84}
+{'loss': 1.5824, 'grad_norm': 2.2243459224700928, 'learning_rate': 2.183184402924452e-06, 'epoch': 1.84}
+{'loss': 1.5645, 'grad_norm': 2.4423606395721436, 'learning_rate': 2.181153533712429e-06, 'epoch': 1.84}
+{'loss': 1.5508, 'grad_norm': 2.2581162452697754, 'learning_rate': 2.1791226645004064e-06, 'epoch': 1.84}
+{'eval_loss': 1.7880563735961914, 'eval_runtime': 37.5793, 'eval_samples_per_second': 26.61, 'eval_steps_per_second': 1.118, 'epoch': 1.84}
+{'loss': 1.6235, 'grad_norm': 2.3554697036743164, 'learning_rate': 2.1770917952883837e-06, 'epoch': 1.84}
+{'loss': 1.6333, 'grad_norm': 2.273360013961792, 'learning_rate': 2.175060926076361e-06, 'epoch': 1.84}
+{'loss': 1.5518, 'grad_norm': 2.4241690635681152, 'learning_rate': 2.1730300568643382e-06, 'epoch': 1.84}
+{'loss': 1.5033, 'grad_norm': 2.3324687480926514, 'learning_rate': 2.1709991876523155e-06, 'epoch': 1.85}
+{'loss': 1.5875, 'grad_norm': 2.3504691123962402, 'learning_rate': 2.1689683184402928e-06, 'epoch': 1.85}
+{'loss': 1.5447, 'grad_norm': 2.473466157913208, 'learning_rate': 2.16693744922827e-06, 'epoch': 1.85}
+{'loss': 1.5488, 'grad_norm': 2.6014187335968018, 'learning_rate': 2.1649065800162473e-06, 'epoch': 1.85}
+{'loss': 1.5374, 'grad_norm': 2.342543125152588, 'learning_rate': 2.1628757108042246e-06, 'epoch': 1.85}
+{'loss': 1.5336, 'grad_norm': 2.416377067565918, 'learning_rate': 2.160844841592202e-06, 'epoch': 1.85}
+{'loss': 1.5408, 'grad_norm': 2.368523359298706, 'learning_rate': 2.1588139723801787e-06, 'epoch': 1.85}
+{'eval_loss': 1.7859917879104614, 'eval_runtime': 37.5878, 'eval_samples_per_second': 26.604, 'eval_steps_per_second': 1.117, 'epoch': 1.85}
+{'loss': 1.515, 'grad_norm': 2.350260019302368, 'learning_rate': 2.156783103168156e-06, 'epoch': 1.85}
+{'loss': 1.5862, 'grad_norm': 2.4649417400360107, 'learning_rate': 2.1547522339561333e-06, 'epoch': 1.85}
+{'loss': 1.6126, 'grad_norm': 2.4575324058532715, 'learning_rate': 2.1527213647441106e-06, 'epoch': 1.86}
+{'loss': 1.5875, 'grad_norm': 2.3545114994049072, 'learning_rate': 2.150690495532088e-06, 'epoch': 1.86}
+{'loss': 1.5892, 'grad_norm': 2.2443292140960693, 'learning_rate': 2.148659626320065e-06, 'epoch': 1.86}
+{'loss': 1.54, 'grad_norm': 2.320058584213257, 'learning_rate': 2.1466287571080424e-06, 'epoch': 1.86}
+{'loss': 1.5538, 'grad_norm': 2.177865505218506, 'learning_rate': 2.1445978878960197e-06, 'epoch': 1.86}
+{'loss': 1.6171, 'grad_norm': 2.4200990200042725, 'learning_rate': 2.142567018683997e-06, 'epoch': 1.86}
+{'loss': 1.5339, 'grad_norm': 2.3355329036712646, 'learning_rate': 2.140536149471974e-06, 'epoch': 1.86}
+{'loss': 1.5348, 'grad_norm': 2.259158134460449, 'learning_rate': 2.1385052802599515e-06, 'epoch': 1.86}
+{'eval_loss': 1.788784384727478, 'eval_runtime': 37.604, 'eval_samples_per_second': 26.593, 'eval_steps_per_second': 1.117, 'epoch': 1.86}
+{'loss': 1.6017, 'grad_norm': 2.5295984745025635, 'learning_rate': 2.1364744110479288e-06, 'epoch': 1.86}
+{'loss': 1.5572, 'grad_norm': 2.321892499923706, 'learning_rate': 2.134443541835906e-06, 'epoch': 1.87}
+{'loss': 1.5344, 'grad_norm': 2.3221750259399414, 'learning_rate': 2.132412672623883e-06, 'epoch': 1.87}
+{'loss': 1.5656, 'grad_norm': 2.5233988761901855, 'learning_rate': 2.13038180341186e-06, 'epoch': 1.87}
+{'loss': 1.6077, 'grad_norm': 2.5457382202148438, 'learning_rate': 2.1283509341998374e-06, 'epoch': 1.87}
+{'loss': 1.5499, 'grad_norm': 2.1768014430999756, 'learning_rate': 2.1263200649878147e-06, 'epoch': 1.87}
+{'loss': 1.5692, 'grad_norm': 2.3469903469085693, 'learning_rate': 2.124289195775792e-06, 'epoch': 1.87}
+{'loss': 1.4857, 'grad_norm': 2.376650094985962, 'learning_rate': 2.1222583265637693e-06, 'epoch': 1.87}
+{'loss': 1.5263, 'grad_norm': 2.3024160861968994, 'learning_rate': 2.1202274573517465e-06, 'epoch': 1.87}
+{'loss': 1.5414, 'grad_norm': 2.2541558742523193, 'learning_rate': 2.118196588139724e-06, 'epoch': 1.87}
+{'eval_loss': 1.786326289176941, 'eval_runtime': 37.3224, 'eval_samples_per_second': 26.794, 'eval_steps_per_second': 1.125, 'epoch': 1.87}
+{'loss': 1.5548, 'grad_norm': 2.4061591625213623, 'learning_rate': 2.116165718927701e-06, 'epoch': 1.88}
+{'loss': 1.5145, 'grad_norm': 2.5201210975646973, 'learning_rate': 2.1141348497156784e-06, 'epoch': 1.88}
+{'loss': 1.5384, 'grad_norm': 2.4948818683624268, 'learning_rate': 2.1121039805036556e-06, 'epoch': 1.88}
+{'loss': 1.5514, 'grad_norm': 2.327730178833008, 'learning_rate': 2.110073111291633e-06, 'epoch': 1.88}
+{'loss': 1.5868, 'grad_norm': 2.3425021171569824, 'learning_rate': 2.10804224207961e-06, 'epoch': 1.88}
+{'loss': 1.5937, 'grad_norm': 2.3042984008789062, 'learning_rate': 2.1060113728675875e-06, 'epoch': 1.88}
+{'loss': 1.466, 'grad_norm': 2.3127756118774414, 'learning_rate': 2.1039805036555647e-06, 'epoch': 1.88}
+{'loss': 1.5599, 'grad_norm': 2.517197847366333, 'learning_rate': 2.101949634443542e-06, 'epoch': 1.88}
+{'loss': 1.5322, 'grad_norm': 2.3388001918792725, 'learning_rate': 2.0999187652315193e-06, 'epoch': 1.88}
+{'loss': 1.5629, 'grad_norm': 2.258573055267334, 'learning_rate': 2.0978878960194966e-06, 'epoch': 1.88}
+{'eval_loss': 1.7817023992538452, 'eval_runtime': 37.4928, 'eval_samples_per_second': 26.672, 'eval_steps_per_second': 1.12, 'epoch': 1.88}
+{'loss': 1.557, 'grad_norm': 2.303595542907715, 'learning_rate': 2.095857026807474e-06, 'epoch': 1.89}
+{'loss': 1.5456, 'grad_norm': 2.462378740310669, 'learning_rate': 2.093826157595451e-06, 'epoch': 1.89}
+{'loss': 1.5643, 'grad_norm': 2.3042562007904053, 'learning_rate': 2.0917952883834284e-06, 'epoch': 1.89}
+{'loss': 1.6018, 'grad_norm': 2.3645806312561035, 'learning_rate': 2.0897644191714057e-06, 'epoch': 1.89}
+{'loss': 1.528, 'grad_norm': 2.3900790214538574, 'learning_rate': 2.087733549959383e-06, 'epoch': 1.89}
+{'loss': 1.5072, 'grad_norm': 2.1901228427886963, 'learning_rate': 2.0857026807473602e-06, 'epoch': 1.89}
+{'loss': 1.5906, 'grad_norm': 2.3039655685424805, 'learning_rate': 2.0836718115353375e-06, 'epoch': 1.89}
+{'loss': 1.5415, 'grad_norm': 2.233931303024292, 'learning_rate': 2.0816409423233144e-06, 'epoch': 1.89}
+{'loss': 1.5522, 'grad_norm': 2.4338362216949463, 'learning_rate': 2.0796100731112916e-06, 'epoch': 1.89}
+{'loss': 1.5034, 'grad_norm': 2.329571485519409, 'learning_rate': 2.077579203899269e-06, 'epoch': 1.9}
+{'eval_loss': 1.7758296728134155, 'eval_runtime': 37.5854, 'eval_samples_per_second': 26.606, 'eval_steps_per_second': 1.117, 'epoch': 1.9}
+{'loss': 1.562, 'grad_norm': 2.2575740814208984, 'learning_rate': 2.075548334687246e-06, 'epoch': 1.9}
+{'loss': 1.4925, 'grad_norm': 2.2633140087127686, 'learning_rate': 2.0735174654752235e-06, 'epoch': 1.9}
+{'loss': 1.5462, 'grad_norm': 2.45108699798584, 'learning_rate': 2.0714865962632007e-06, 'epoch': 1.9}
+{'loss': 1.5181, 'grad_norm': 2.2624056339263916, 'learning_rate': 2.069455727051178e-06, 'epoch': 1.9}
+{'loss': 1.5146, 'grad_norm': 2.380288600921631, 'learning_rate': 2.0674248578391553e-06, 'epoch': 1.9}
+{'loss': 1.5973, 'grad_norm': 2.322175979614258, 'learning_rate': 2.0653939886271326e-06, 'epoch': 1.9}
+{'loss': 1.5399, 'grad_norm': 2.330106258392334, 'learning_rate': 2.06336311941511e-06, 'epoch': 1.9}
+{'loss': 1.5015, 'grad_norm': 2.245948314666748, 'learning_rate': 2.061332250203087e-06, 'epoch': 1.9}
+{'loss': 1.565, 'grad_norm': 2.4200971126556396, 'learning_rate': 2.0593013809910644e-06, 'epoch': 1.91}
+{'loss': 1.584, 'grad_norm': 2.2917861938476562, 'learning_rate': 2.0572705117790417e-06, 'epoch': 1.91}
+{'eval_loss': 1.780641794204712, 'eval_runtime': 37.595, 'eval_samples_per_second': 26.599, 'eval_steps_per_second': 1.117, 'epoch': 1.91}
+{'loss': 1.5528, 'grad_norm': 2.1964595317840576, 'learning_rate': 2.055239642567019e-06, 'epoch': 1.91}
+{'loss': 1.5928, 'grad_norm': 2.2538673877716064, 'learning_rate': 2.0532087733549962e-06, 'epoch': 1.91}
+{'loss': 1.5208, 'grad_norm': 2.561274766921997, 'learning_rate': 2.0511779041429735e-06, 'epoch': 1.91}
+{'loss': 1.5751, 'grad_norm': 2.457758665084839, 'learning_rate': 2.0491470349309508e-06, 'epoch': 1.91}
+{'loss': 1.5323, 'grad_norm': 2.4340195655822754, 'learning_rate': 2.047116165718928e-06, 'epoch': 1.91}
+{'loss': 1.5928, 'grad_norm': 2.2908833026885986, 'learning_rate': 2.0450852965069053e-06, 'epoch': 1.91}
+{'loss': 1.5379, 'grad_norm': 2.4164202213287354, 'learning_rate': 2.0430544272948826e-06, 'epoch': 1.91}
+{'loss': 1.5, 'grad_norm': 2.4305191040039062, 'learning_rate': 2.04102355808286e-06, 'epoch': 1.92}
+{'loss': 1.5303, 'grad_norm': 2.2860770225524902, 'learning_rate': 2.038992688870837e-06, 'epoch': 1.92}
+{'loss': 1.5338, 'grad_norm': 2.4705724716186523, 'learning_rate': 2.0369618196588144e-06, 'epoch': 1.92}
+{'eval_loss': 1.7820688486099243, 'eval_runtime': 37.6239, 'eval_samples_per_second': 26.579, 'eval_steps_per_second': 1.116, 'epoch': 1.92}
+{'loss': 1.582, 'grad_norm': 2.5429165363311768, 'learning_rate': 2.0349309504467917e-06, 'epoch': 1.92}
+{'loss': 1.5848, 'grad_norm': 2.494330644607544, 'learning_rate': 2.032900081234769e-06, 'epoch': 1.92}
+{'loss': 1.523, 'grad_norm': 2.3377091884613037, 'learning_rate': 2.030869212022746e-06, 'epoch': 1.92}
+{'loss': 1.5432, 'grad_norm': 2.29722261428833, 'learning_rate': 2.028838342810723e-06, 'epoch': 1.92}
+{'loss': 1.5279, 'grad_norm': 2.1949071884155273, 'learning_rate': 2.0268074735987004e-06, 'epoch': 1.92}
+{'loss': 1.5821, 'grad_norm': 2.4071497917175293, 'learning_rate': 2.0247766043866777e-06, 'epoch': 1.92}
+{'loss': 1.5576, 'grad_norm': 2.2086288928985596, 'learning_rate': 2.022745735174655e-06, 'epoch': 1.93}
+{'loss': 1.5912, 'grad_norm': 2.3647804260253906, 'learning_rate': 2.020714865962632e-06, 'epoch': 1.93}
+{'loss': 1.5522, 'grad_norm': 2.4883434772491455, 'learning_rate': 2.0186839967506095e-06, 'epoch': 1.93}
+{'loss': 1.5124, 'grad_norm': 2.342475652694702, 'learning_rate': 2.0166531275385868e-06, 'epoch': 1.93}
+{'eval_loss': 1.7736821174621582, 'eval_runtime': 37.6235, 'eval_samples_per_second': 26.579, 'eval_steps_per_second': 1.116, 'epoch': 1.93}
+{'loss': 1.5751, 'grad_norm': 2.4128119945526123, 'learning_rate': 2.014622258326564e-06, 'epoch': 1.93}
+{'loss': 1.5436, 'grad_norm': 2.2928385734558105, 'learning_rate': 2.0125913891145413e-06, 'epoch': 1.93}
+{'loss': 1.5336, 'grad_norm': 2.307124137878418, 'learning_rate': 2.0105605199025186e-06, 'epoch': 1.93}
+{'loss': 1.5821, 'grad_norm': 2.2953977584838867, 'learning_rate': 2.008529650690496e-06, 'epoch': 1.93}
+{'loss': 1.5285, 'grad_norm': 2.3083994388580322, 'learning_rate': 2.0064987814784727e-06, 'epoch': 1.93}
+{'loss': 1.5103, 'grad_norm': 2.2659947872161865, 'learning_rate': 2.00446791226645e-06, 'epoch': 1.94}
+{'loss': 1.5666, 'grad_norm': 2.2220869064331055, 'learning_rate': 2.0024370430544273e-06, 'epoch': 1.94}
+{'loss': 1.5976, 'grad_norm': 2.3226444721221924, 'learning_rate': 2.0004061738424045e-06, 'epoch': 1.94}
+{'loss': 1.5624, 'grad_norm': 2.806459903717041, 'learning_rate': 1.998375304630382e-06, 'epoch': 1.94}
+{'loss': 1.5657, 'grad_norm': 2.426614761352539, 'learning_rate': 1.996344435418359e-06, 'epoch': 1.94}
+{'eval_loss': 1.7753962278366089, 'eval_runtime': 37.62, 'eval_samples_per_second': 26.582, 'eval_steps_per_second': 1.116, 'epoch': 1.94}
+{'loss': 1.5811, 'grad_norm': 2.3170249462127686, 'learning_rate': 1.9943135662063364e-06, 'epoch': 1.94}
+{'loss': 1.5876, 'grad_norm': 2.3604977130889893, 'learning_rate': 1.9922826969943136e-06, 'epoch': 1.94}
+{'loss': 1.5769, 'grad_norm': 2.301079511642456, 'learning_rate': 1.990251827782291e-06, 'epoch': 1.94}
+{'loss': 1.5623, 'grad_norm': 2.242455244064331, 'learning_rate': 1.988220958570268e-06, 'epoch': 1.94}
+{'loss': 1.5596, 'grad_norm': 2.383114814758301, 'learning_rate': 1.9861900893582455e-06, 'epoch': 1.95}
+{'loss': 1.5172, 'grad_norm': 2.308845281600952, 'learning_rate': 1.9841592201462227e-06, 'epoch': 1.95}
+{'loss': 1.5169, 'grad_norm': 2.421830654144287, 'learning_rate': 1.9821283509342e-06, 'epoch': 1.95}
+{'loss': 1.5728, 'grad_norm': 2.426212787628174, 'learning_rate': 1.9800974817221773e-06, 'epoch': 1.95}
+{'loss': 1.5345, 'grad_norm': 2.275017738342285, 'learning_rate': 1.9780666125101546e-06, 'epoch': 1.95}
+{'loss': 1.6074, 'grad_norm': 2.3327078819274902, 'learning_rate': 1.976035743298132e-06, 'epoch': 1.95}
+{'eval_loss': 1.778463363647461, 'eval_runtime': 37.6245, 'eval_samples_per_second': 26.578, 'eval_steps_per_second': 1.116, 'epoch': 1.95}
+{'loss': 1.5161, 'grad_norm': 2.5739567279815674, 'learning_rate': 1.974004874086109e-06, 'epoch': 1.95}
+{'loss': 1.5533, 'grad_norm': 2.3596560955047607, 'learning_rate': 1.9719740048740864e-06, 'epoch': 1.95}
+{'loss': 1.536, 'grad_norm': 2.351815938949585, 'learning_rate': 1.9699431356620637e-06, 'epoch': 1.95}
+{'loss': 1.5105, 'grad_norm': 2.4699654579162598, 'learning_rate': 1.967912266450041e-06, 'epoch': 1.96}
+{'loss': 1.645, 'grad_norm': 2.4401028156280518, 'learning_rate': 1.9658813972380182e-06, 'epoch': 1.96}
+{'loss': 1.5178, 'grad_norm': 2.440295457839966, 'learning_rate': 1.9638505280259955e-06, 'epoch': 1.96}
+{'loss': 1.557, 'grad_norm': 2.533872127532959, 'learning_rate': 1.9618196588139728e-06, 'epoch': 1.96}
+{'loss': 1.621, 'grad_norm': 2.430032730102539, 'learning_rate': 1.95978878960195e-06, 'epoch': 1.96}
+{'loss': 1.5812, 'grad_norm': 2.6288273334503174, 'learning_rate': 1.9577579203899273e-06, 'epoch': 1.96}
+{'loss': 1.5341, 'grad_norm': 2.453590154647827, 'learning_rate': 1.955727051177904e-06, 'epoch': 1.96}
+{'eval_loss': 1.7817976474761963, 'eval_runtime': 37.6287, 'eval_samples_per_second': 26.575, 'eval_steps_per_second': 1.116, 'epoch': 1.96}
+{'loss': 1.5183, 'grad_norm': 2.3132882118225098, 'learning_rate': 1.9536961819658815e-06, 'epoch': 1.96}
+{'loss': 1.5183, 'grad_norm': 2.329214096069336, 'learning_rate': 1.9516653127538587e-06, 'epoch': 1.96}
+{'loss': 1.5143, 'grad_norm': 2.3317067623138428, 'learning_rate': 1.949634443541836e-06, 'epoch': 1.96}
+{'loss': 1.5772, 'grad_norm': 2.3040804862976074, 'learning_rate': 1.9476035743298133e-06, 'epoch': 1.97}
+{'loss': 1.5384, 'grad_norm': 2.3894519805908203, 'learning_rate': 1.9455727051177906e-06, 'epoch': 1.97}
+{'loss': 1.5989, 'grad_norm': 2.4103939533233643, 'learning_rate': 1.943541835905768e-06, 'epoch': 1.97}
+{'loss': 1.5134, 'grad_norm': 2.46791934967041, 'learning_rate': 1.941510966693745e-06, 'epoch': 1.97}
+{'loss': 1.5816, 'grad_norm': 2.398679494857788, 'learning_rate': 1.9394800974817224e-06, 'epoch': 1.97}
+{'loss': 1.6081, 'grad_norm': 2.425269842147827, 'learning_rate': 1.9374492282696997e-06, 'epoch': 1.97}
+{'loss': 1.5782, 'grad_norm': 2.2318599224090576, 'learning_rate': 1.935418359057677e-06, 'epoch': 1.97}
+{'eval_loss': 1.7813228368759155, 'eval_runtime': 37.5977, 'eval_samples_per_second': 26.597, 'eval_steps_per_second': 1.117, 'epoch': 1.97}
+{'loss': 1.6009, 'grad_norm': 2.4963226318359375, 'learning_rate': 1.9333874898456542e-06, 'epoch': 1.97}
+{'loss': 1.4894, 'grad_norm': 2.4548683166503906, 'learning_rate': 1.931356620633631e-06, 'epoch': 1.97}
+{'loss': 1.565, 'grad_norm': 2.4785518646240234, 'learning_rate': 1.9293257514216083e-06, 'epoch': 1.98}
+{'loss': 1.5089, 'grad_norm': 2.3024344444274902, 'learning_rate': 1.9272948822095856e-06, 'epoch': 1.98}
+{'loss': 1.5506, 'grad_norm': 2.2913448810577393, 'learning_rate': 1.925264012997563e-06, 'epoch': 1.98}
+{'loss': 1.5822, 'grad_norm': 2.569486379623413, 'learning_rate': 1.92323314378554e-06, 'epoch': 1.98}
+{'loss': 1.5257, 'grad_norm': 2.3201546669006348, 'learning_rate': 1.9212022745735174e-06, 'epoch': 1.98}
+{'loss': 1.5195, 'grad_norm': 2.4948999881744385, 'learning_rate': 1.9191714053614947e-06, 'epoch': 1.98}
+{'loss': 1.4987, 'grad_norm': 2.1334517002105713, 'learning_rate': 1.917140536149472e-06, 'epoch': 1.98}
+{'loss': 1.5711, 'grad_norm': 2.4439406394958496, 'learning_rate': 1.9151096669374493e-06, 'epoch': 1.98}
+{'eval_loss': 1.7776540517807007, 'eval_runtime': 37.3038, 'eval_samples_per_second': 26.807, 'eval_steps_per_second': 1.126, 'epoch': 1.98}
+{'loss': 1.5676, 'grad_norm': 2.4037840366363525, 'learning_rate': 1.9130787977254266e-06, 'epoch': 1.98}
+{'loss': 1.5268, 'grad_norm': 2.2272162437438965, 'learning_rate': 1.911047928513404e-06, 'epoch': 1.99}
+{'loss': 1.5216, 'grad_norm': 2.2282180786132812, 'learning_rate': 1.909017059301381e-06, 'epoch': 1.99}
+{'loss': 1.5729, 'grad_norm': 2.4523661136627197, 'learning_rate': 1.9069861900893586e-06, 'epoch': 1.99}
+{'loss': 1.532, 'grad_norm': 2.290562152862549, 'learning_rate': 1.9049553208773354e-06, 'epoch': 1.99}
+{'loss': 1.4947, 'grad_norm': 2.3908586502075195, 'learning_rate': 1.9029244516653127e-06, 'epoch': 1.99}
+{'loss': 1.5351, 'grad_norm': 2.335439920425415, 'learning_rate': 1.90089358245329e-06, 'epoch': 1.99}
+{'loss': 1.5769, 'grad_norm': 2.4423348903656006, 'learning_rate': 1.8988627132412673e-06, 'epoch': 1.99}
+{'loss': 1.5116, 'grad_norm': 2.1886374950408936, 'learning_rate': 1.8968318440292445e-06, 'epoch': 1.99}
+{'loss': 1.5598, 'grad_norm': 2.552243709564209, 'learning_rate': 1.8948009748172218e-06, 'epoch': 1.99}
+{'eval_loss': 1.7760554552078247, 'eval_runtime': 37.507, 'eval_samples_per_second': 26.662, 'eval_steps_per_second': 1.12, 'epoch': 1.99}
+{'loss': 1.5855, 'grad_norm': 2.2543959617614746, 'learning_rate': 1.892770105605199e-06, 'epoch': 2.0}
+{'loss': 1.5368, 'grad_norm': 2.1935787200927734, 'learning_rate': 1.8907392363931764e-06, 'epoch': 2.0}
+{'loss': 1.5666, 'grad_norm': 2.331730842590332, 'learning_rate': 1.8887083671811536e-06, 'epoch': 2.0}
+{'loss': 1.4562, 'grad_norm': 2.307284355163574, 'learning_rate': 1.886677497969131e-06, 'epoch': 2.0}
+{'loss': 1.5616, 'grad_norm': 2.51385498046875, 'learning_rate': 1.8846466287571082e-06, 'epoch': 2.0}
+{'loss': 1.4684, 'grad_norm': 2.485046863555908, 'learning_rate': 1.8826157595450855e-06, 'epoch': 2.0}
+{'loss': 1.6152, 'grad_norm': 2.706254005432129, 'learning_rate': 1.8805848903330625e-06, 'epoch': 2.0}
+{'loss': 1.5141, 'grad_norm': 2.4549295902252197, 'learning_rate': 1.8785540211210398e-06, 'epoch': 2.0}
+{'loss': 1.4914, 'grad_norm': 2.8116226196289062, 'learning_rate': 1.876523151909017e-06, 'epoch': 2.0}
+{'loss': 1.4803, 'grad_norm': 2.7768023014068604, 'learning_rate': 1.8744922826969944e-06, 'epoch': 2.01}
+{'eval_loss': 1.790903091430664, 'eval_runtime': 37.5989, 'eval_samples_per_second': 26.597, 'eval_steps_per_second': 1.117, 'epoch': 2.01}
+{'loss': 1.4957, 'grad_norm': 2.7914493083953857, 'learning_rate': 1.8724614134849716e-06, 'epoch': 2.01}
+{'loss': 1.5963, 'grad_norm': 2.7554807662963867, 'learning_rate': 1.870430544272949e-06, 'epoch': 2.01}
+{'loss': 1.4702, 'grad_norm': 2.6123452186584473, 'learning_rate': 1.8683996750609262e-06, 'epoch': 2.01}
+{'loss': 1.5001, 'grad_norm': 2.7500226497650146, 'learning_rate': 1.8663688058489035e-06, 'epoch': 2.01}
+{'loss': 1.5039, 'grad_norm': 2.578979969024658, 'learning_rate': 1.8643379366368807e-06, 'epoch': 2.01}
+{'loss': 1.5047, 'grad_norm': 2.6361773014068604, 'learning_rate': 1.862307067424858e-06, 'epoch': 2.01}
+{'loss': 1.5539, 'grad_norm': 2.6564955711364746, 'learning_rate': 1.8602761982128353e-06, 'epoch': 2.01}
+{'loss': 1.4785, 'grad_norm': 2.665524959564209, 'learning_rate': 1.8582453290008126e-06, 'epoch': 2.01}
+{'loss': 1.4938, 'grad_norm': 2.608644962310791, 'learning_rate': 1.8562144597887898e-06, 'epoch': 2.02}
+{'loss': 1.5388, 'grad_norm': 2.7492353916168213, 'learning_rate': 1.854183590576767e-06, 'epoch': 2.02}
+{'eval_loss': 1.7869961261749268, 'eval_runtime': 37.6268, 'eval_samples_per_second': 26.577, 'eval_steps_per_second': 1.116, 'epoch': 2.02}
+{'loss': 1.4595, 'grad_norm': 2.571502923965454, 'learning_rate': 1.8521527213647442e-06, 'epoch': 2.02}
+{'loss': 1.4195, 'grad_norm': 2.444936513900757, 'learning_rate': 1.8501218521527215e-06, 'epoch': 2.02}
+{'loss': 1.4642, 'grad_norm': 2.5664470195770264, 'learning_rate': 1.8480909829406987e-06, 'epoch': 2.02}
+{'loss': 1.515, 'grad_norm': 2.4087367057800293, 'learning_rate': 1.846060113728676e-06, 'epoch': 2.02}
+{'loss': 1.4393, 'grad_norm': 2.511884927749634, 'learning_rate': 1.8440292445166533e-06, 'epoch': 2.02}
+{'loss': 1.5449, 'grad_norm': 2.542192220687866, 'learning_rate': 1.8419983753046306e-06, 'epoch': 2.02}
+{'loss': 1.5025, 'grad_norm': 2.6763875484466553, 'learning_rate': 1.8399675060926078e-06, 'epoch': 2.02}
+{'loss': 1.4865, 'grad_norm': 2.5896098613739014, 'learning_rate': 1.8379366368805851e-06, 'epoch': 2.03}
+{'loss': 1.4672, 'grad_norm': 2.5712625980377197, 'learning_rate': 1.8359057676685624e-06, 'epoch': 2.03}
+{'loss': 1.4939, 'grad_norm': 2.7151401042938232, 'learning_rate': 1.8338748984565397e-06, 'epoch': 2.03}
+{'eval_loss': 1.7830196619033813, 'eval_runtime': 37.6424, 'eval_samples_per_second': 26.566, 'eval_steps_per_second': 1.116, 'epoch': 2.03}
+{'loss': 1.4655, 'grad_norm': 2.555208683013916, 'learning_rate': 1.831844029244517e-06, 'epoch': 2.03}
+{'loss': 1.482, 'grad_norm': 2.442591905593872, 'learning_rate': 1.829813160032494e-06, 'epoch': 2.03}
+{'loss': 1.5223, 'grad_norm': 2.574038505554199, 'learning_rate': 1.8277822908204713e-06, 'epoch': 2.03}
+{'loss': 1.4983, 'grad_norm': 2.507723569869995, 'learning_rate': 1.8257514216084486e-06, 'epoch': 2.03}
+{'loss': 1.5053, 'grad_norm': 2.532855749130249, 'learning_rate': 1.8237205523964258e-06, 'epoch': 2.03}
+{'loss': 1.5341, 'grad_norm': 2.696993112564087, 'learning_rate': 1.8216896831844031e-06, 'epoch': 2.03}
+{'loss': 1.4654, 'grad_norm': 2.445138692855835, 'learning_rate': 1.8196588139723804e-06, 'epoch': 2.04}
+{'loss': 1.4592, 'grad_norm': 2.565359354019165, 'learning_rate': 1.8176279447603577e-06, 'epoch': 2.04}
+{'loss': 1.5034, 'grad_norm': 2.7951669692993164, 'learning_rate': 1.815597075548335e-06, 'epoch': 2.04}
+{'loss': 1.544, 'grad_norm': 2.9499340057373047, 'learning_rate': 1.8135662063363122e-06, 'epoch': 2.04}
+{'eval_loss': 1.786832571029663, 'eval_runtime': 37.6464, 'eval_samples_per_second': 26.563, 'eval_steps_per_second': 1.116, 'epoch': 2.04}
+{'loss': 1.4412, 'grad_norm': 2.6006839275360107, 'learning_rate': 1.8115353371242895e-06, 'epoch': 2.04}
+{'loss': 1.4747, 'grad_norm': 2.5035526752471924, 'learning_rate': 1.8095044679122668e-06, 'epoch': 2.04}
+{'loss': 1.4561, 'grad_norm': 2.5666491985321045, 'learning_rate': 1.807473598700244e-06, 'epoch': 2.04}
+{'loss': 1.4772, 'grad_norm': 2.499264717102051, 'learning_rate': 1.805442729488221e-06, 'epoch': 2.04}
+{'loss': 1.4847, 'grad_norm': 2.536015272140503, 'learning_rate': 1.8034118602761982e-06, 'epoch': 2.04}
+{'loss': 1.4917, 'grad_norm': 2.7105355262756348, 'learning_rate': 1.8013809910641754e-06, 'epoch': 2.04}
+{'loss': 1.4642, 'grad_norm': 2.526165008544922, 'learning_rate': 1.7993501218521527e-06, 'epoch': 2.05}
+{'loss': 1.5104, 'grad_norm': 2.5609824657440186, 'learning_rate': 1.79731925264013e-06, 'epoch': 2.05}
+{'loss': 1.4729, 'grad_norm': 2.57429575920105, 'learning_rate': 1.7952883834281073e-06, 'epoch': 2.05}
+{'loss': 1.5121, 'grad_norm': 2.6221258640289307, 'learning_rate': 1.7932575142160846e-06, 'epoch': 2.05}
+{'eval_loss': 1.7845540046691895, 'eval_runtime': 37.6253, 'eval_samples_per_second': 26.578, 'eval_steps_per_second': 1.116, 'epoch': 2.05}
+{'loss': 1.5246, 'grad_norm': 2.6437723636627197, 'learning_rate': 1.7912266450040618e-06, 'epoch': 2.05}
+{'loss': 1.4346, 'grad_norm': 2.503779411315918, 'learning_rate': 1.789195775792039e-06, 'epoch': 2.05}
+{'loss': 1.5575, 'grad_norm': 2.5936107635498047, 'learning_rate': 1.7871649065800164e-06, 'epoch': 2.05}
+{'loss': 1.4605, 'grad_norm': 2.557468891143799, 'learning_rate': 1.7851340373679937e-06, 'epoch': 2.05}
+{'loss': 1.4775, 'grad_norm': 2.5453882217407227, 'learning_rate': 1.783103168155971e-06, 'epoch': 2.05}
+{'loss': 1.4859, 'grad_norm': 2.6188814640045166, 'learning_rate': 1.7810722989439482e-06, 'epoch': 2.06}
+{'loss': 1.4689, 'grad_norm': 2.6726021766662598, 'learning_rate': 1.7790414297319253e-06, 'epoch': 2.06}
+{'loss': 1.4596, 'grad_norm': 2.575652599334717, 'learning_rate': 1.7770105605199025e-06, 'epoch': 2.06}
+{'loss': 1.499, 'grad_norm': 2.6591720581054688, 'learning_rate': 1.7749796913078798e-06, 'epoch': 2.06}
+{'loss': 1.5391, 'grad_norm': 2.932788133621216, 'learning_rate': 1.772948822095857e-06, 'epoch': 2.06}
+{'eval_loss': 1.7901451587677002, 'eval_runtime': 37.6148, 'eval_samples_per_second': 26.585, 'eval_steps_per_second': 1.117, 'epoch': 2.06}
+{'loss': 1.5247, 'grad_norm': 2.606287717819214, 'learning_rate': 1.7709179528838344e-06, 'epoch': 2.06}
+{'loss': 1.4881, 'grad_norm': 2.647739887237549, 'learning_rate': 1.7688870836718116e-06, 'epoch': 2.06}
+{'loss': 1.4876, 'grad_norm': 2.6130926609039307, 'learning_rate': 1.766856214459789e-06, 'epoch': 2.06}
+{'loss': 1.4591, 'grad_norm': 2.56868314743042, 'learning_rate': 1.7648253452477662e-06, 'epoch': 2.06}
+{'loss': 1.5517, 'grad_norm': 2.607980489730835, 'learning_rate': 1.7627944760357435e-06, 'epoch': 2.07}
+{'loss': 1.5062, 'grad_norm': 2.5391197204589844, 'learning_rate': 1.7607636068237208e-06, 'epoch': 2.07}
+{'loss': 1.4981, 'grad_norm': 2.673151731491089, 'learning_rate': 1.758732737611698e-06, 'epoch': 2.07}
+{'loss': 1.4809, 'grad_norm': 2.5992014408111572, 'learning_rate': 1.7567018683996753e-06, 'epoch': 2.07}
+{'loss': 1.4776, 'grad_norm': 2.54526948928833, 'learning_rate': 1.7546709991876524e-06, 'epoch': 2.07}
+{'loss': 1.4857, 'grad_norm': 2.56424617767334, 'learning_rate': 1.7526401299756296e-06, 'epoch': 2.07}
+{'eval_loss': 1.7873893976211548, 'eval_runtime': 37.6028, 'eval_samples_per_second': 26.594, 'eval_steps_per_second': 1.117, 'epoch': 2.07}
+{'loss': 1.4896, 'grad_norm': 2.527660369873047, 'learning_rate': 1.750609260763607e-06, 'epoch': 2.07}
+{'loss': 1.4853, 'grad_norm': 2.5973007678985596, 'learning_rate': 1.7485783915515842e-06, 'epoch': 2.07}
+{'loss': 1.4434, 'grad_norm': 2.5340445041656494, 'learning_rate': 1.7465475223395615e-06, 'epoch': 2.07}
+{'loss': 1.5748, 'grad_norm': 2.8032822608947754, 'learning_rate': 1.7445166531275387e-06, 'epoch': 2.08}
+{'loss': 1.559, 'grad_norm': 2.754373788833618, 'learning_rate': 1.742485783915516e-06, 'epoch': 2.08}
+{'loss': 1.4151, 'grad_norm': 2.548902988433838, 'learning_rate': 1.7404549147034933e-06, 'epoch': 2.08}
+{'loss': 1.5014, 'grad_norm': 2.6536645889282227, 'learning_rate': 1.7384240454914706e-06, 'epoch': 2.08}
+{'loss': 1.5238, 'grad_norm': 2.8070075511932373, 'learning_rate': 1.7363931762794478e-06, 'epoch': 2.08}
+{'loss': 1.474, 'grad_norm': 2.578611135482788, 'learning_rate': 1.7343623070674251e-06, 'epoch': 2.08}
+{'loss': 1.5069, 'grad_norm': 2.74288272857666, 'learning_rate': 1.7323314378554024e-06, 'epoch': 2.08}
+{'eval_loss': 1.7854382991790771, 'eval_runtime': 37.5984, 'eval_samples_per_second': 26.597, 'eval_steps_per_second': 1.117, 'epoch': 2.08}
+{'loss': 1.4934, 'grad_norm': 2.549548864364624, 'learning_rate': 1.7303005686433797e-06, 'epoch': 2.08}
+{'loss': 1.4797, 'grad_norm': 2.5651702880859375, 'learning_rate': 1.7282696994313567e-06, 'epoch': 2.08}
+{'loss': 1.4849, 'grad_norm': 2.4375627040863037, 'learning_rate': 1.726238830219334e-06, 'epoch': 2.09}
+{'loss': 1.5412, 'grad_norm': 2.7159311771392822, 'learning_rate': 1.7242079610073113e-06, 'epoch': 2.09}
+{'loss': 1.4963, 'grad_norm': 2.6354782581329346, 'learning_rate': 1.7221770917952886e-06, 'epoch': 2.09}
+{'loss': 1.512, 'grad_norm': 2.594938039779663, 'learning_rate': 1.7201462225832658e-06, 'epoch': 2.09}
+{'loss': 1.4171, 'grad_norm': 2.523603916168213, 'learning_rate': 1.7181153533712431e-06, 'epoch': 2.09}
+{'loss': 1.4228, 'grad_norm': 2.6459009647369385, 'learning_rate': 1.7160844841592204e-06, 'epoch': 2.09}
+{'loss': 1.4792, 'grad_norm': 2.4237382411956787, 'learning_rate': 1.7140536149471977e-06, 'epoch': 2.09}
+{'loss': 1.4928, 'grad_norm': 2.5421581268310547, 'learning_rate': 1.712022745735175e-06, 'epoch': 2.09}
+{'eval_loss': 1.783092737197876, 'eval_runtime': 37.3238, 'eval_samples_per_second': 26.793, 'eval_steps_per_second': 1.125, 'epoch': 2.09}
+{'loss': 1.4878, 'grad_norm': 2.483919858932495, 'learning_rate': 1.7099918765231522e-06, 'epoch': 2.09}
+{'loss': 1.4368, 'grad_norm': 2.4966423511505127, 'learning_rate': 1.7079610073111295e-06, 'epoch': 2.1}
+{'loss': 1.4924, 'grad_norm': 3.0599207878112793, 'learning_rate': 1.7059301380991068e-06, 'epoch': 2.1}
+{'loss': 1.4983, 'grad_norm': 2.6409764289855957, 'learning_rate': 1.7038992688870836e-06, 'epoch': 2.1}
+{'loss': 1.5111, 'grad_norm': 2.684887647628784, 'learning_rate': 1.701868399675061e-06, 'epoch': 2.1}
+{'loss': 1.5531, 'grad_norm': 2.6323225498199463, 'learning_rate': 1.6998375304630382e-06, 'epoch': 2.1}
+{'loss': 1.5138, 'grad_norm': 2.575340747833252, 'learning_rate': 1.6978066612510155e-06, 'epoch': 2.1}
+{'loss': 1.4814, 'grad_norm': 2.5958094596862793, 'learning_rate': 1.6957757920389927e-06, 'epoch': 2.1}
+{'loss': 1.4667, 'grad_norm': 2.6042449474334717, 'learning_rate': 1.69374492282697e-06, 'epoch': 2.1}
+{'loss': 1.561, 'grad_norm': 2.6373727321624756, 'learning_rate': 1.6917140536149473e-06, 'epoch': 2.1}
+{'eval_loss': 1.781925916671753, 'eval_runtime': 37.4845, 'eval_samples_per_second': 26.678, 'eval_steps_per_second': 1.12, 'epoch': 2.1}
+{'loss': 1.4819, 'grad_norm': 2.595848798751831, 'learning_rate': 1.6896831844029246e-06, 'epoch': 2.11}
+{'loss': 1.5025, 'grad_norm': 2.5501580238342285, 'learning_rate': 1.6876523151909018e-06, 'epoch': 2.11}
+{'loss': 1.4688, 'grad_norm': 2.5525386333465576, 'learning_rate': 1.6856214459788791e-06, 'epoch': 2.11}
+{'loss': 1.478, 'grad_norm': 2.6577653884887695, 'learning_rate': 1.6835905767668564e-06, 'epoch': 2.11}
+{'loss': 1.5299, 'grad_norm': 2.6389877796173096, 'learning_rate': 1.6815597075548337e-06, 'epoch': 2.11}
+{'loss': 1.4757, 'grad_norm': 2.617180585861206, 'learning_rate': 1.679528838342811e-06, 'epoch': 2.11}
+{'loss': 1.4759, 'grad_norm': 2.48149037361145, 'learning_rate': 1.677497969130788e-06, 'epoch': 2.11}
+{'loss': 1.4905, 'grad_norm': 2.5677549839019775, 'learning_rate': 1.6754670999187653e-06, 'epoch': 2.11}
+{'loss': 1.4424, 'grad_norm': 2.510082483291626, 'learning_rate': 1.6734362307067426e-06, 'epoch': 2.11}
+{'loss': 1.4257, 'grad_norm': 2.531893014907837, 'learning_rate': 1.6714053614947198e-06, 'epoch': 2.12}
+{'eval_loss': 1.78094482421875, 'eval_runtime': 37.5914, 'eval_samples_per_second': 26.602, 'eval_steps_per_second': 1.117, 'epoch': 2.12}
+{'loss': 1.5278, 'grad_norm': 2.6505985260009766, 'learning_rate': 1.669374492282697e-06, 'epoch': 2.12}
+{'loss': 1.5187, 'grad_norm': 2.8051860332489014, 'learning_rate': 1.6673436230706744e-06, 'epoch': 2.12}
+{'loss': 1.4909, 'grad_norm': 2.623286485671997, 'learning_rate': 1.6653127538586517e-06, 'epoch': 2.12}
+{'loss': 1.4871, 'grad_norm': 2.533738374710083, 'learning_rate': 1.663281884646629e-06, 'epoch': 2.12}
+{'loss': 1.5429, 'grad_norm': 2.6555750370025635, 'learning_rate': 1.6612510154346062e-06, 'epoch': 2.12}
+{'loss': 1.5194, 'grad_norm': 2.624955415725708, 'learning_rate': 1.6592201462225835e-06, 'epoch': 2.12}
+{'loss': 1.5513, 'grad_norm': 2.7351903915405273, 'learning_rate': 1.6571892770105608e-06, 'epoch': 2.12}
+{'loss': 1.484, 'grad_norm': 2.6751370429992676, 'learning_rate': 1.655158407798538e-06, 'epoch': 2.12}
+{'loss': 1.5077, 'grad_norm': 2.6331746578216553, 'learning_rate': 1.653127538586515e-06, 'epoch': 2.12}
+{'loss': 1.5301, 'grad_norm': 2.757633686065674, 'learning_rate': 1.6510966693744924e-06, 'epoch': 2.13}
+{'eval_loss': 1.78493070602417, 'eval_runtime': 37.6222, 'eval_samples_per_second': 26.58, 'eval_steps_per_second': 1.116, 'epoch': 2.13}
+{'loss': 1.5205, 'grad_norm': 2.6782171726226807, 'learning_rate': 1.6490658001624696e-06, 'epoch': 2.13}
+{'loss': 1.4655, 'grad_norm': 2.745025396347046, 'learning_rate': 1.647034930950447e-06, 'epoch': 2.13}
+{'loss': 1.4931, 'grad_norm': 2.483323335647583, 'learning_rate': 1.6450040617384242e-06, 'epoch': 2.13}
+{'loss': 1.5167, 'grad_norm': 2.6067142486572266, 'learning_rate': 1.6429731925264015e-06, 'epoch': 2.13}
+{'loss': 1.4801, 'grad_norm': 2.507744312286377, 'learning_rate': 1.6409423233143788e-06, 'epoch': 2.13}
+{'loss': 1.4673, 'grad_norm': 2.471898317337036, 'learning_rate': 1.638911454102356e-06, 'epoch': 2.13}
+{'loss': 1.5277, 'grad_norm': 2.438523292541504, 'learning_rate': 1.6368805848903333e-06, 'epoch': 2.13}
+{'loss': 1.4666, 'grad_norm': 2.4375083446502686, 'learning_rate': 1.6348497156783106e-06, 'epoch': 2.13}
+{'loss': 1.483, 'grad_norm': 2.4873242378234863, 'learning_rate': 1.6328188464662879e-06, 'epoch': 2.14}
+{'loss': 1.4971, 'grad_norm': 2.6087307929992676, 'learning_rate': 1.6307879772542651e-06, 'epoch': 2.14}
+{'eval_loss': 1.7867764234542847, 'eval_runtime': 37.6189, 'eval_samples_per_second': 26.582, 'eval_steps_per_second': 1.116, 'epoch': 2.14}
+{'loss': 1.5264, 'grad_norm': 2.7552194595336914, 'learning_rate': 1.628757108042242e-06, 'epoch': 2.14}
+{'loss': 1.4771, 'grad_norm': 2.563798666000366, 'learning_rate': 1.6267262388302193e-06, 'epoch': 2.14}
+{'loss': 1.4967, 'grad_norm': 2.676928997039795, 'learning_rate': 1.6246953696181965e-06, 'epoch': 2.14}
+{'loss': 1.5743, 'grad_norm': 2.62003493309021, 'learning_rate': 1.6226645004061738e-06, 'epoch': 2.14}
+{'loss': 1.5246, 'grad_norm': 2.510009288787842, 'learning_rate': 1.620633631194151e-06, 'epoch': 2.14}
+{'loss': 1.4718, 'grad_norm': 2.4294228553771973, 'learning_rate': 1.6186027619821284e-06, 'epoch': 2.14}
+{'loss': 1.518, 'grad_norm': 2.5348730087280273, 'learning_rate': 1.6165718927701056e-06, 'epoch': 2.14}
+{'loss': 1.5028, 'grad_norm': 2.552884101867676, 'learning_rate': 1.614541023558083e-06, 'epoch': 2.15}
+{'loss': 1.4931, 'grad_norm': 2.591294288635254, 'learning_rate': 1.6125101543460602e-06, 'epoch': 2.15}
+{'loss': 1.5113, 'grad_norm': 2.680232048034668, 'learning_rate': 1.6104792851340375e-06, 'epoch': 2.15}
+{'eval_loss': 1.7835261821746826, 'eval_runtime': 37.6052, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 2.15}
+{'loss': 1.4703, 'grad_norm': 2.561227560043335, 'learning_rate': 1.6084484159220147e-06, 'epoch': 2.15}
+{'loss': 1.4972, 'grad_norm': 2.740396738052368, 'learning_rate': 1.606417546709992e-06, 'epoch': 2.15}
+{'loss': 1.4876, 'grad_norm': 2.5561165809631348, 'learning_rate': 1.6043866774979693e-06, 'epoch': 2.15}
+{'loss': 1.4562, 'grad_norm': 2.546818256378174, 'learning_rate': 1.6023558082859464e-06, 'epoch': 2.15}
+{'loss': 1.494, 'grad_norm': 2.5586764812469482, 'learning_rate': 1.6003249390739236e-06, 'epoch': 2.15}
+{'loss': 1.4781, 'grad_norm': 2.5913779735565186, 'learning_rate': 1.598294069861901e-06, 'epoch': 2.15}
+{'loss': 1.5475, 'grad_norm': 2.5598275661468506, 'learning_rate': 1.5962632006498782e-06, 'epoch': 2.16}
+{'loss': 1.4738, 'grad_norm': 2.5741987228393555, 'learning_rate': 1.5942323314378555e-06, 'epoch': 2.16}
+{'loss': 1.4623, 'grad_norm': 2.478189706802368, 'learning_rate': 1.5922014622258327e-06, 'epoch': 2.16}
+{'loss': 1.5085, 'grad_norm': 2.5473434925079346, 'learning_rate': 1.59017059301381e-06, 'epoch': 2.16}
+{'eval_loss': 1.783682942390442, 'eval_runtime': 37.609, 'eval_samples_per_second': 26.589, 'eval_steps_per_second': 1.117, 'epoch': 2.16}
+{'loss': 1.5004, 'grad_norm': 2.7034685611724854, 'learning_rate': 1.5881397238017873e-06, 'epoch': 2.16}
+{'loss': 1.4501, 'grad_norm': 2.499852180480957, 'learning_rate': 1.5861088545897646e-06, 'epoch': 2.16}
+{'loss': 1.4948, 'grad_norm': 2.5737485885620117, 'learning_rate': 1.5840779853777418e-06, 'epoch': 2.16}
+{'loss': 1.4725, 'grad_norm': 2.495600700378418, 'learning_rate': 1.5820471161657191e-06, 'epoch': 2.16}
+{'loss': 1.522, 'grad_norm': 2.606013298034668, 'learning_rate': 1.5800162469536964e-06, 'epoch': 2.16}
+{'loss': 1.5235, 'grad_norm': 2.6662399768829346, 'learning_rate': 1.5779853777416735e-06, 'epoch': 2.17}
+{'loss': 1.5015, 'grad_norm': 2.6767067909240723, 'learning_rate': 1.5759545085296507e-06, 'epoch': 2.17}
+{'loss': 1.5082, 'grad_norm': 2.5144565105438232, 'learning_rate': 1.573923639317628e-06, 'epoch': 2.17}
+{'loss': 1.5207, 'grad_norm': 2.522493362426758, 'learning_rate': 1.5718927701056053e-06, 'epoch': 2.17}
+{'loss': 1.5174, 'grad_norm': 2.671536684036255, 'learning_rate': 1.5698619008935826e-06, 'epoch': 2.17}
+{'eval_loss': 1.7812632322311401, 'eval_runtime': 37.5951, 'eval_samples_per_second': 26.599, 'eval_steps_per_second': 1.117, 'epoch': 2.17}
+{'loss': 1.4656, 'grad_norm': 2.7055070400238037, 'learning_rate': 1.5678310316815598e-06, 'epoch': 2.17}
+{'loss': 1.5177, 'grad_norm': 2.7217190265655518, 'learning_rate': 1.5658001624695371e-06, 'epoch': 2.17}
+{'loss': 1.4829, 'grad_norm': 2.6636576652526855, 'learning_rate': 1.5637692932575144e-06, 'epoch': 2.17}
+{'loss': 1.4986, 'grad_norm': 2.598898410797119, 'learning_rate': 1.5617384240454917e-06, 'epoch': 2.17}
+{'loss': 1.53, 'grad_norm': 2.674276351928711, 'learning_rate': 1.559707554833469e-06, 'epoch': 2.18}
+{'loss': 1.4325, 'grad_norm': 2.6182987689971924, 'learning_rate': 1.5576766856214462e-06, 'epoch': 2.18}
+{'loss': 1.4735, 'grad_norm': 2.5121872425079346, 'learning_rate': 1.5556458164094235e-06, 'epoch': 2.18}
+{'loss': 1.4495, 'grad_norm': 2.496026039123535, 'learning_rate': 1.5536149471974008e-06, 'epoch': 2.18}
+{'loss': 1.4904, 'grad_norm': 2.627302646636963, 'learning_rate': 1.5515840779853778e-06, 'epoch': 2.18}
+{'loss': 1.4749, 'grad_norm': 2.535459518432617, 'learning_rate': 1.549553208773355e-06, 'epoch': 2.18}
+{'eval_loss': 1.7863065004348755, 'eval_runtime': 37.5667, 'eval_samples_per_second': 26.619, 'eval_steps_per_second': 1.118, 'epoch': 2.18}
+{'loss': 1.4784, 'grad_norm': 2.7278425693511963, 'learning_rate': 1.5475223395613324e-06, 'epoch': 2.18}
+{'loss': 1.5348, 'grad_norm': 2.698131799697876, 'learning_rate': 1.5454914703493097e-06, 'epoch': 2.18}
+{'loss': 1.498, 'grad_norm': 2.5647671222686768, 'learning_rate': 1.543460601137287e-06, 'epoch': 2.18}
+{'loss': 1.5058, 'grad_norm': 2.569624185562134, 'learning_rate': 1.5414297319252642e-06, 'epoch': 2.19}
+{'loss': 1.4928, 'grad_norm': 2.4305083751678467, 'learning_rate': 1.5393988627132415e-06, 'epoch': 2.19}
+{'loss': 1.4177, 'grad_norm': 2.5156924724578857, 'learning_rate': 1.5373679935012188e-06, 'epoch': 2.19}
+{'loss': 1.4835, 'grad_norm': 2.6587612628936768, 'learning_rate': 1.535337124289196e-06, 'epoch': 2.19}
+{'loss': 1.5582, 'grad_norm': 2.6971049308776855, 'learning_rate': 1.5333062550771733e-06, 'epoch': 2.19}
+{'loss': 1.5122, 'grad_norm': 2.7424821853637695, 'learning_rate': 1.5312753858651506e-06, 'epoch': 2.19}
+{'loss': 1.4955, 'grad_norm': 2.755723476409912, 'learning_rate': 1.5292445166531279e-06, 'epoch': 2.19}
+{'eval_loss': 1.785550594329834, 'eval_runtime': 37.5648, 'eval_samples_per_second': 26.621, 'eval_steps_per_second': 1.118, 'epoch': 2.19}
+{'loss': 1.5407, 'grad_norm': 2.7294907569885254, 'learning_rate': 1.5272136474411047e-06, 'epoch': 2.19}
+{'loss': 1.5179, 'grad_norm': 2.560988187789917, 'learning_rate': 1.525182778229082e-06, 'epoch': 2.19}
+{'loss': 1.4904, 'grad_norm': 2.6423935890197754, 'learning_rate': 1.5231519090170593e-06, 'epoch': 2.2}
+{'loss': 1.4679, 'grad_norm': 2.47896409034729, 'learning_rate': 1.5211210398050365e-06, 'epoch': 2.2}
+{'loss': 1.5167, 'grad_norm': 2.5513906478881836, 'learning_rate': 1.5190901705930138e-06, 'epoch': 2.2}
+{'loss': 1.4855, 'grad_norm': 2.627309560775757, 'learning_rate': 1.517059301380991e-06, 'epoch': 2.2}
+{'loss': 1.4826, 'grad_norm': 2.6553008556365967, 'learning_rate': 1.5150284321689684e-06, 'epoch': 2.2}
+{'loss': 1.4883, 'grad_norm': 2.652329683303833, 'learning_rate': 1.5129975629569456e-06, 'epoch': 2.2}
+{'loss': 1.5043, 'grad_norm': 2.7259182929992676, 'learning_rate': 1.510966693744923e-06, 'epoch': 2.2}
+{'loss': 1.4483, 'grad_norm': 2.577206611633301, 'learning_rate': 1.5089358245329002e-06, 'epoch': 2.2}
+{'eval_loss': 1.7813442945480347, 'eval_runtime': 37.2651, 'eval_samples_per_second': 26.835, 'eval_steps_per_second': 1.127, 'epoch': 2.2}
+{'loss': 1.508, 'grad_norm': 2.5566422939300537, 'learning_rate': 1.5069049553208775e-06, 'epoch': 2.2}
+{'loss': 1.5223, 'grad_norm': 2.497302770614624, 'learning_rate': 1.5048740861088547e-06, 'epoch': 2.2}
+{'loss': 1.4321, 'grad_norm': 2.4804420471191406, 'learning_rate': 1.502843216896832e-06, 'epoch': 2.21}
+{'loss': 1.4913, 'grad_norm': 2.4934897422790527, 'learning_rate': 1.500812347684809e-06, 'epoch': 2.21}
+{'loss': 1.4864, 'grad_norm': 2.574909210205078, 'learning_rate': 1.4987814784727864e-06, 'epoch': 2.21}
+{'loss': 1.4705, 'grad_norm': 2.363921880722046, 'learning_rate': 1.4967506092607636e-06, 'epoch': 2.21}
+{'loss': 1.504, 'grad_norm': 2.7674472332000732, 'learning_rate': 1.494719740048741e-06, 'epoch': 2.21}
+{'loss': 1.5224, 'grad_norm': 2.6155641078948975, 'learning_rate': 1.4926888708367182e-06, 'epoch': 2.21}
+{'loss': 1.5372, 'grad_norm': 2.7025818824768066, 'learning_rate': 1.4906580016246955e-06, 'epoch': 2.21}
+{'loss': 1.5269, 'grad_norm': 2.723592758178711, 'learning_rate': 1.4886271324126727e-06, 'epoch': 2.21}
+{'eval_loss': 1.7793511152267456, 'eval_runtime': 37.4246, 'eval_samples_per_second': 26.72, 'eval_steps_per_second': 1.122, 'epoch': 2.21}
+{'loss': 1.414, 'grad_norm': 2.502224922180176, 'learning_rate': 1.48659626320065e-06, 'epoch': 2.21}
+{'loss': 1.4232, 'grad_norm': 2.5012035369873047, 'learning_rate': 1.4845653939886273e-06, 'epoch': 2.22}
+{'loss': 1.4454, 'grad_norm': 2.4927306175231934, 'learning_rate': 1.4825345247766046e-06, 'epoch': 2.22}
+{'loss': 1.4772, 'grad_norm': 2.588224411010742, 'learning_rate': 1.4805036555645818e-06, 'epoch': 2.22}
+{'loss': 1.4544, 'grad_norm': 2.541450262069702, 'learning_rate': 1.4784727863525591e-06, 'epoch': 2.22}
+{'loss': 1.5157, 'grad_norm': 2.5818042755126953, 'learning_rate': 1.4764419171405362e-06, 'epoch': 2.22}
+{'loss': 1.5221, 'grad_norm': 2.7029995918273926, 'learning_rate': 1.4744110479285135e-06, 'epoch': 2.22}
+{'loss': 1.5218, 'grad_norm': 2.53218674659729, 'learning_rate': 1.4723801787164907e-06, 'epoch': 2.22}
+{'loss': 1.4927, 'grad_norm': 2.5941295623779297, 'learning_rate': 1.470349309504468e-06, 'epoch': 2.22}
+{'loss': 1.5271, 'grad_norm': 2.6495494842529297, 'learning_rate': 1.4683184402924453e-06, 'epoch': 2.22}
+{'eval_loss': 1.7757155895233154, 'eval_runtime': 37.4915, 'eval_samples_per_second': 26.673, 'eval_steps_per_second': 1.12, 'epoch': 2.22}
+{'loss': 1.572, 'grad_norm': 2.501560926437378, 'learning_rate': 1.4662875710804226e-06, 'epoch': 2.23}
+{'loss': 1.4901, 'grad_norm': 2.5135374069213867, 'learning_rate': 1.4642567018683998e-06, 'epoch': 2.23}
+{'loss': 1.4709, 'grad_norm': 2.4914116859436035, 'learning_rate': 1.4622258326563771e-06, 'epoch': 2.23}
+{'loss': 1.4748, 'grad_norm': 2.6011126041412354, 'learning_rate': 1.4601949634443544e-06, 'epoch': 2.23}
+{'loss': 1.5824, 'grad_norm': 2.58898663520813, 'learning_rate': 1.4581640942323317e-06, 'epoch': 2.23}
+{'loss': 1.4977, 'grad_norm': 2.6047980785369873, 'learning_rate': 1.456133225020309e-06, 'epoch': 2.23}
+{'loss': 1.4791, 'grad_norm': 2.6246345043182373, 'learning_rate': 1.4541023558082862e-06, 'epoch': 2.23}
+{'loss': 1.5297, 'grad_norm': 2.7813916206359863, 'learning_rate': 1.4520714865962635e-06, 'epoch': 2.23}
+{'loss': 1.4932, 'grad_norm': 2.5310866832733154, 'learning_rate': 1.4500406173842406e-06, 'epoch': 2.23}
+{'loss': 1.4975, 'grad_norm': 2.545830726623535, 'learning_rate': 1.4480097481722178e-06, 'epoch': 2.24}
+{'eval_loss': 1.7764681577682495, 'eval_runtime': 37.5799, 'eval_samples_per_second': 26.61, 'eval_steps_per_second': 1.118, 'epoch': 2.24}
+{'loss': 1.4623, 'grad_norm': 2.491880416870117, 'learning_rate': 1.4459788789601951e-06, 'epoch': 2.24}
+{'loss': 1.4509, 'grad_norm': 2.4424097537994385, 'learning_rate': 1.4439480097481724e-06, 'epoch': 2.24}
+{'loss': 1.5033, 'grad_norm': 2.517930507659912, 'learning_rate': 1.4419171405361497e-06, 'epoch': 2.24}
+{'loss': 1.4974, 'grad_norm': 2.49196457862854, 'learning_rate': 1.439886271324127e-06, 'epoch': 2.24}
+{'loss': 1.4947, 'grad_norm': 2.490847587585449, 'learning_rate': 1.4378554021121042e-06, 'epoch': 2.24}
+{'loss': 1.5201, 'grad_norm': 2.6714260578155518, 'learning_rate': 1.4358245329000815e-06, 'epoch': 2.24}
+{'loss': 1.5075, 'grad_norm': 2.5403313636779785, 'learning_rate': 1.4337936636880588e-06, 'epoch': 2.24}
+{'loss': 1.4567, 'grad_norm': 2.5475969314575195, 'learning_rate': 1.431762794476036e-06, 'epoch': 2.24}
+{'loss': 1.4922, 'grad_norm': 2.557133674621582, 'learning_rate': 1.4297319252640133e-06, 'epoch': 2.25}
+{'loss': 1.4648, 'grad_norm': 2.4913103580474854, 'learning_rate': 1.4277010560519906e-06, 'epoch': 2.25}
+{'eval_loss': 1.7772834300994873, 'eval_runtime': 37.5304, 'eval_samples_per_second': 26.645, 'eval_steps_per_second': 1.119, 'epoch': 2.25}
+{'loss': 1.5344, 'grad_norm': 2.6405646800994873, 'learning_rate': 1.4256701868399674e-06, 'epoch': 2.25}
+{'loss': 1.4996, 'grad_norm': 2.6286044120788574, 'learning_rate': 1.4236393176279447e-06, 'epoch': 2.25}
+{'loss': 1.588, 'grad_norm': 2.7945332527160645, 'learning_rate': 1.421608448415922e-06, 'epoch': 2.25}
+{'loss': 1.4827, 'grad_norm': 2.683817148208618, 'learning_rate': 1.4195775792038993e-06, 'epoch': 2.25}
+{'loss': 1.5075, 'grad_norm': 2.7049648761749268, 'learning_rate': 1.4175467099918765e-06, 'epoch': 2.25}
+{'loss': 1.5111, 'grad_norm': 2.4935741424560547, 'learning_rate': 1.4155158407798538e-06, 'epoch': 2.25}
+{'loss': 1.4384, 'grad_norm': 2.5683720111846924, 'learning_rate': 1.413484971567831e-06, 'epoch': 2.25}
+{'loss': 1.4787, 'grad_norm': 2.605163812637329, 'learning_rate': 1.4114541023558084e-06, 'epoch': 2.26}
+{'loss': 1.5254, 'grad_norm': 2.714125394821167, 'learning_rate': 1.4094232331437856e-06, 'epoch': 2.26}
+{'loss': 1.5829, 'grad_norm': 2.651425838470459, 'learning_rate': 1.407392363931763e-06, 'epoch': 2.26}
+{'eval_loss': 1.7781381607055664, 'eval_runtime': 37.5185, 'eval_samples_per_second': 26.654, 'eval_steps_per_second': 1.119, 'epoch': 2.26}
+{'loss': 1.4945, 'grad_norm': 2.6841766834259033, 'learning_rate': 1.4053614947197402e-06, 'epoch': 2.26}
+{'loss': 1.4311, 'grad_norm': 2.5279343128204346, 'learning_rate': 1.4033306255077175e-06, 'epoch': 2.26}
+{'loss': 1.5452, 'grad_norm': 2.63512921333313, 'learning_rate': 1.4012997562956945e-06, 'epoch': 2.26}
+{'loss': 1.5157, 'grad_norm': 2.8109090328216553, 'learning_rate': 1.3992688870836718e-06, 'epoch': 2.26}
+{'loss': 1.5052, 'grad_norm': 2.8604094982147217, 'learning_rate': 1.397238017871649e-06, 'epoch': 2.26}
+{'loss': 1.4532, 'grad_norm': 2.551485776901245, 'learning_rate': 1.3952071486596264e-06, 'epoch': 2.26}
+{'loss': 1.5335, 'grad_norm': 2.886702537536621, 'learning_rate': 1.3931762794476036e-06, 'epoch': 2.27}
+{'loss': 1.4864, 'grad_norm': 2.6498847007751465, 'learning_rate': 1.391145410235581e-06, 'epoch': 2.27}
+{'loss': 1.4139, 'grad_norm': 2.7236084938049316, 'learning_rate': 1.3891145410235582e-06, 'epoch': 2.27}
+{'loss': 1.4937, 'grad_norm': 2.640993118286133, 'learning_rate': 1.3870836718115355e-06, 'epoch': 2.27}
+{'eval_loss': 1.779308795928955, 'eval_runtime': 37.5413, 'eval_samples_per_second': 26.637, 'eval_steps_per_second': 1.119, 'epoch': 2.27}
+{'loss': 1.4826, 'grad_norm': 2.579420804977417, 'learning_rate': 1.3850528025995127e-06, 'epoch': 2.27}
+{'loss': 1.4099, 'grad_norm': 2.4851279258728027, 'learning_rate': 1.38302193338749e-06, 'epoch': 2.27}
+{'loss': 1.5094, 'grad_norm': 2.5795373916625977, 'learning_rate': 1.3809910641754673e-06, 'epoch': 2.27}
+{'loss': 1.4499, 'grad_norm': 2.5139920711517334, 'learning_rate': 1.3789601949634446e-06, 'epoch': 2.27}
+{'loss': 1.511, 'grad_norm': 2.6894431114196777, 'learning_rate': 1.3769293257514218e-06, 'epoch': 2.27}
+{'loss': 1.4513, 'grad_norm': 2.5702779293060303, 'learning_rate': 1.374898456539399e-06, 'epoch': 2.28}
+{'loss': 1.5412, 'grad_norm': 2.6622722148895264, 'learning_rate': 1.3728675873273762e-06, 'epoch': 2.28}
+{'loss': 1.5005, 'grad_norm': 2.783125400543213, 'learning_rate': 1.3708367181153535e-06, 'epoch': 2.28}
+{'loss': 1.5104, 'grad_norm': 2.7684009075164795, 'learning_rate': 1.3688058489033307e-06, 'epoch': 2.28}
+{'loss': 1.5149, 'grad_norm': 2.9005043506622314, 'learning_rate': 1.366774979691308e-06, 'epoch': 2.28}
+{'eval_loss': 1.781901478767395, 'eval_runtime': 37.5684, 'eval_samples_per_second': 26.618, 'eval_steps_per_second': 1.118, 'epoch': 2.28}
+{'loss': 1.4976, 'grad_norm': 2.7663087844848633, 'learning_rate': 1.3647441104792853e-06, 'epoch': 2.28}
+{'loss': 1.4608, 'grad_norm': 2.721250295639038, 'learning_rate': 1.3627132412672626e-06, 'epoch': 2.28}
+{'loss': 1.506, 'grad_norm': 2.533816337585449, 'learning_rate': 1.3606823720552398e-06, 'epoch': 2.28}
+{'loss': 1.4371, 'grad_norm': 2.445573329925537, 'learning_rate': 1.3586515028432171e-06, 'epoch': 2.28}
+{'loss': 1.5012, 'grad_norm': 2.48687481880188, 'learning_rate': 1.3566206336311944e-06, 'epoch': 2.28}
+{'loss': 1.4753, 'grad_norm': 2.4520957469940186, 'learning_rate': 1.3545897644191717e-06, 'epoch': 2.29}
+{'loss': 1.5368, 'grad_norm': 2.515031099319458, 'learning_rate': 1.352558895207149e-06, 'epoch': 2.29}
+{'loss': 1.4974, 'grad_norm': 2.651374578475952, 'learning_rate': 1.3505280259951258e-06, 'epoch': 2.29}
+{'loss': 1.5274, 'grad_norm': 2.6167263984680176, 'learning_rate': 1.348497156783103e-06, 'epoch': 2.29}
+{'loss': 1.4523, 'grad_norm': 2.53167724609375, 'learning_rate': 1.3464662875710804e-06, 'epoch': 2.29}
+{'eval_loss': 1.7796297073364258, 'eval_runtime': 37.5899, 'eval_samples_per_second': 26.603, 'eval_steps_per_second': 1.117, 'epoch': 2.29}
+{'loss': 1.53, 'grad_norm': 2.765723466873169, 'learning_rate': 1.3444354183590576e-06, 'epoch': 2.29}
+{'loss': 1.4785, 'grad_norm': 2.5227372646331787, 'learning_rate': 1.342404549147035e-06, 'epoch': 2.29}
+{'loss': 1.5099, 'grad_norm': 2.5739147663116455, 'learning_rate': 1.3403736799350122e-06, 'epoch': 2.29}
+{'loss': 1.5194, 'grad_norm': 2.699249744415283, 'learning_rate': 1.3383428107229895e-06, 'epoch': 2.29}
+{'loss': 1.5208, 'grad_norm': 2.5153913497924805, 'learning_rate': 1.3363119415109667e-06, 'epoch': 2.3}
+{'loss': 1.5094, 'grad_norm': 2.5154635906219482, 'learning_rate': 1.334281072298944e-06, 'epoch': 2.3}
+{'loss': 1.5034, 'grad_norm': 2.610104560852051, 'learning_rate': 1.3322502030869213e-06, 'epoch': 2.3}
+{'loss': 1.5244, 'grad_norm': 2.533595561981201, 'learning_rate': 1.3302193338748986e-06, 'epoch': 2.3}
+{'loss': 1.5256, 'grad_norm': 2.6001715660095215, 'learning_rate': 1.3281884646628758e-06, 'epoch': 2.3}
+{'loss': 1.5091, 'grad_norm': 2.8065478801727295, 'learning_rate': 1.3261575954508531e-06, 'epoch': 2.3}
+{'eval_loss': 1.7769869565963745, 'eval_runtime': 37.5465, 'eval_samples_per_second': 26.634, 'eval_steps_per_second': 1.119, 'epoch': 2.3}
+{'loss': 1.4947, 'grad_norm': 2.5055646896362305, 'learning_rate': 1.3241267262388302e-06, 'epoch': 2.3}
+{'loss': 1.4332, 'grad_norm': 2.5130999088287354, 'learning_rate': 1.3220958570268074e-06, 'epoch': 2.3}
+{'loss': 1.479, 'grad_norm': 2.7495014667510986, 'learning_rate': 1.3200649878147847e-06, 'epoch': 2.3}
+{'loss': 1.5217, 'grad_norm': 2.755481719970703, 'learning_rate': 1.318034118602762e-06, 'epoch': 2.31}
+{'loss': 1.5249, 'grad_norm': 2.7643027305603027, 'learning_rate': 1.3160032493907393e-06, 'epoch': 2.31}
+{'loss': 1.5379, 'grad_norm': 2.7520089149475098, 'learning_rate': 1.3139723801787166e-06, 'epoch': 2.31}
+{'loss': 1.4906, 'grad_norm': 2.7150073051452637, 'learning_rate': 1.3119415109666938e-06, 'epoch': 2.31}
+{'loss': 1.451, 'grad_norm': 2.5830376148223877, 'learning_rate': 1.309910641754671e-06, 'epoch': 2.31}
+{'loss': 1.4724, 'grad_norm': 2.533912181854248, 'learning_rate': 1.3078797725426484e-06, 'epoch': 2.31}
+{'loss': 1.476, 'grad_norm': 2.866075277328491, 'learning_rate': 1.3058489033306257e-06, 'epoch': 2.31}
+{'eval_loss': 1.7754607200622559, 'eval_runtime': 37.2813, 'eval_samples_per_second': 26.823, 'eval_steps_per_second': 1.127, 'epoch': 2.31}
+{'loss': 1.4849, 'grad_norm': 2.6119651794433594, 'learning_rate': 1.303818034118603e-06, 'epoch': 2.31}
+{'loss': 1.492, 'grad_norm': 2.401456832885742, 'learning_rate': 1.3017871649065802e-06, 'epoch': 2.31}
+{'loss': 1.451, 'grad_norm': 2.4578442573547363, 'learning_rate': 1.2997562956945573e-06, 'epoch': 2.32}
+{'loss': 1.4683, 'grad_norm': 2.5102651119232178, 'learning_rate': 1.2977254264825345e-06, 'epoch': 2.32}
+{'loss': 1.491, 'grad_norm': 2.568138360977173, 'learning_rate': 1.2956945572705118e-06, 'epoch': 2.32}
+{'loss': 1.4706, 'grad_norm': 2.4967546463012695, 'learning_rate': 1.293663688058489e-06, 'epoch': 2.32}
+{'loss': 1.4261, 'grad_norm': 2.4752767086029053, 'learning_rate': 1.2916328188464664e-06, 'epoch': 2.32}
+{'loss': 1.4659, 'grad_norm': 2.8848423957824707, 'learning_rate': 1.2896019496344436e-06, 'epoch': 2.32}
+{'loss': 1.5237, 'grad_norm': 2.7002758979797363, 'learning_rate': 1.287571080422421e-06, 'epoch': 2.32}
+{'loss': 1.4516, 'grad_norm': 2.5721945762634277, 'learning_rate': 1.2855402112103982e-06, 'epoch': 2.32}
+{'eval_loss': 1.7772468328475952, 'eval_runtime': 37.449, 'eval_samples_per_second': 26.703, 'eval_steps_per_second': 1.122, 'epoch': 2.32}
+{'loss': 1.4528, 'grad_norm': 2.576235771179199, 'learning_rate': 1.2835093419983755e-06, 'epoch': 2.32}
+{'loss': 1.4704, 'grad_norm': 2.5846738815307617, 'learning_rate': 1.2814784727863528e-06, 'epoch': 2.33}
+{'loss': 1.539, 'grad_norm': 2.7001359462738037, 'learning_rate': 1.27944760357433e-06, 'epoch': 2.33}
+{'loss': 1.5244, 'grad_norm': 2.723080635070801, 'learning_rate': 1.2774167343623073e-06, 'epoch': 2.33}
+{'loss': 1.4566, 'grad_norm': 2.665961980819702, 'learning_rate': 1.2753858651502846e-06, 'epoch': 2.33}
+{'loss': 1.4831, 'grad_norm': 2.7340586185455322, 'learning_rate': 1.2733549959382616e-06, 'epoch': 2.33}
+{'loss': 1.4984, 'grad_norm': 2.6281630992889404, 'learning_rate': 1.271324126726239e-06, 'epoch': 2.33}
+{'loss': 1.4348, 'grad_norm': 2.591244697570801, 'learning_rate': 1.2692932575142162e-06, 'epoch': 2.33}
+{'loss': 1.4373, 'grad_norm': 2.6026177406311035, 'learning_rate': 1.2672623883021935e-06, 'epoch': 2.33}
+{'loss': 1.5466, 'grad_norm': 2.7184207439422607, 'learning_rate': 1.2652315190901707e-06, 'epoch': 2.33}
+{'eval_loss': 1.7730857133865356, 'eval_runtime': 37.5708, 'eval_samples_per_second': 26.616, 'eval_steps_per_second': 1.118, 'epoch': 2.33}
+{'loss': 1.4854, 'grad_norm': 2.5615932941436768, 'learning_rate': 1.263200649878148e-06, 'epoch': 2.34}
+{'loss': 1.5146, 'grad_norm': 2.6053833961486816, 'learning_rate': 1.2611697806661253e-06, 'epoch': 2.34}
+{'loss': 1.5078, 'grad_norm': 2.449700117111206, 'learning_rate': 1.2591389114541026e-06, 'epoch': 2.34}
+{'loss': 1.4604, 'grad_norm': 2.4675965309143066, 'learning_rate': 1.2571080422420798e-06, 'epoch': 2.34}
+{'loss': 1.5391, 'grad_norm': 2.6846489906311035, 'learning_rate': 1.2550771730300571e-06, 'epoch': 2.34}
+{'loss': 1.4976, 'grad_norm': 2.5259411334991455, 'learning_rate': 1.2530463038180344e-06, 'epoch': 2.34}
+{'loss': 1.4906, 'grad_norm': 2.4966108798980713, 'learning_rate': 1.2510154346060117e-06, 'epoch': 2.34}
+{'loss': 1.5094, 'grad_norm': 2.5853240489959717, 'learning_rate': 1.2489845653939887e-06, 'epoch': 2.34}
+{'loss': 1.5654, 'grad_norm': 2.749039649963379, 'learning_rate': 1.246953696181966e-06, 'epoch': 2.34}
+{'loss': 1.4969, 'grad_norm': 2.61110782623291, 'learning_rate': 1.2449228269699433e-06, 'epoch': 2.35}
+{'eval_loss': 1.7760288715362549, 'eval_runtime': 37.6368, 'eval_samples_per_second': 26.57, 'eval_steps_per_second': 1.116, 'epoch': 2.35}
+{'loss': 1.4612, 'grad_norm': 2.5675301551818848, 'learning_rate': 1.2428919577579204e-06, 'epoch': 2.35}
+{'loss': 1.4931, 'grad_norm': 2.5951149463653564, 'learning_rate': 1.2408610885458976e-06, 'epoch': 2.35}
+{'loss': 1.4556, 'grad_norm': 2.528965473175049, 'learning_rate': 1.238830219333875e-06, 'epoch': 2.35}
+{'loss': 1.527, 'grad_norm': 2.7451562881469727, 'learning_rate': 1.2367993501218522e-06, 'epoch': 2.35}
+{'loss': 1.5161, 'grad_norm': 2.603996753692627, 'learning_rate': 1.2347684809098295e-06, 'epoch': 2.35}
+{'loss': 1.4407, 'grad_norm': 2.517784833908081, 'learning_rate': 1.2327376116978067e-06, 'epoch': 2.35}
+{'loss': 1.45, 'grad_norm': 2.5026562213897705, 'learning_rate': 1.230706742485784e-06, 'epoch': 2.35}
+{'loss': 1.5832, 'grad_norm': 2.7055883407592773, 'learning_rate': 1.2286758732737613e-06, 'epoch': 2.35}
+{'loss': 1.5532, 'grad_norm': 2.7330543994903564, 'learning_rate': 1.2266450040617386e-06, 'epoch': 2.36}
+{'loss': 1.4867, 'grad_norm': 2.5769529342651367, 'learning_rate': 1.2246141348497158e-06, 'epoch': 2.36}
+{'eval_loss': 1.7744137048721313, 'eval_runtime': 37.6059, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 2.36}
+{'loss': 1.5035, 'grad_norm': 2.43402099609375, 'learning_rate': 1.2225832656376931e-06, 'epoch': 2.36}
+{'loss': 1.481, 'grad_norm': 2.496337413787842, 'learning_rate': 1.2205523964256704e-06, 'epoch': 2.36}
+{'loss': 1.5069, 'grad_norm': 2.507699728012085, 'learning_rate': 1.2185215272136477e-06, 'epoch': 2.36}
+{'loss': 1.5123, 'grad_norm': 2.636641263961792, 'learning_rate': 1.2164906580016247e-06, 'epoch': 2.36}
+{'loss': 1.4089, 'grad_norm': 2.6619229316711426, 'learning_rate': 1.214459788789602e-06, 'epoch': 2.36}
+{'loss': 1.4561, 'grad_norm': 2.548736810684204, 'learning_rate': 1.2124289195775793e-06, 'epoch': 2.36}
+{'loss': 1.4685, 'grad_norm': 2.872684955596924, 'learning_rate': 1.2103980503655566e-06, 'epoch': 2.36}
+{'loss': 1.4824, 'grad_norm': 2.5884475708007812, 'learning_rate': 1.2083671811535338e-06, 'epoch': 2.36}
+{'loss': 1.4813, 'grad_norm': 2.594850778579712, 'learning_rate': 1.2063363119415111e-06, 'epoch': 2.37}
+{'loss': 1.473, 'grad_norm': 2.6511104106903076, 'learning_rate': 1.2043054427294882e-06, 'epoch': 2.37}
+{'eval_loss': 1.7770642042160034, 'eval_runtime': 37.5956, 'eval_samples_per_second': 26.599, 'eval_steps_per_second': 1.117, 'epoch': 2.37}
+{'loss': 1.4985, 'grad_norm': 2.531195640563965, 'learning_rate': 1.2022745735174654e-06, 'epoch': 2.37}
+{'loss': 1.536, 'grad_norm': 2.5500054359436035, 'learning_rate': 1.2002437043054427e-06, 'epoch': 2.37}
+{'loss': 1.5276, 'grad_norm': 2.7173655033111572, 'learning_rate': 1.19821283509342e-06, 'epoch': 2.37}
+{'loss': 1.5026, 'grad_norm': 2.590067148208618, 'learning_rate': 1.1961819658813973e-06, 'epoch': 2.37}
+{'loss': 1.4684, 'grad_norm': 2.5336248874664307, 'learning_rate': 1.1941510966693746e-06, 'epoch': 2.37}
+{'loss': 1.4955, 'grad_norm': 2.573521614074707, 'learning_rate': 1.1921202274573518e-06, 'epoch': 2.37}
+{'loss': 1.5462, 'grad_norm': 2.736194372177124, 'learning_rate': 1.190089358245329e-06, 'epoch': 2.37}
+{'loss': 1.4724, 'grad_norm': 2.608128309249878, 'learning_rate': 1.1880584890333064e-06, 'epoch': 2.38}
+{'loss': 1.5097, 'grad_norm': 2.558652400970459, 'learning_rate': 1.1860276198212837e-06, 'epoch': 2.38}
+{'loss': 1.4943, 'grad_norm': 2.725158929824829, 'learning_rate': 1.183996750609261e-06, 'epoch': 2.38}
+{'eval_loss': 1.7742817401885986, 'eval_runtime': 37.5907, 'eval_samples_per_second': 26.602, 'eval_steps_per_second': 1.117, 'epoch': 2.38}
+{'loss': 1.483, 'grad_norm': 2.575540542602539, 'learning_rate': 1.1819658813972382e-06, 'epoch': 2.38}
+{'loss': 1.5274, 'grad_norm': 2.5286686420440674, 'learning_rate': 1.1799350121852153e-06, 'epoch': 2.38}
+{'loss': 1.5212, 'grad_norm': 2.463226795196533, 'learning_rate': 1.1779041429731925e-06, 'epoch': 2.38}
+{'loss': 1.4421, 'grad_norm': 2.6432979106903076, 'learning_rate': 1.1758732737611698e-06, 'epoch': 2.38}
+{'loss': 1.543, 'grad_norm': 2.842674732208252, 'learning_rate': 1.173842404549147e-06, 'epoch': 2.38}
+{'loss': 1.474, 'grad_norm': 2.630509376525879, 'learning_rate': 1.1718115353371244e-06, 'epoch': 2.38}
+{'loss': 1.5425, 'grad_norm': 2.715155601501465, 'learning_rate': 1.1697806661251016e-06, 'epoch': 2.39}
+{'loss': 1.52, 'grad_norm': 2.7176525592803955, 'learning_rate': 1.167749796913079e-06, 'epoch': 2.39}
+{'loss': 1.5046, 'grad_norm': 2.7564210891723633, 'learning_rate': 1.1657189277010562e-06, 'epoch': 2.39}
+{'loss': 1.4906, 'grad_norm': 2.653085231781006, 'learning_rate': 1.1636880584890335e-06, 'epoch': 2.39}
+{'eval_loss': 1.7710638046264648, 'eval_runtime': 37.5926, 'eval_samples_per_second': 26.601, 'eval_steps_per_second': 1.117, 'epoch': 2.39}
+{'loss': 1.5117, 'grad_norm': 2.700800895690918, 'learning_rate': 1.1616571892770108e-06, 'epoch': 2.39}
+{'loss': 1.5001, 'grad_norm': 2.616075038909912, 'learning_rate': 1.159626320064988e-06, 'epoch': 2.39}
+{'loss': 1.5173, 'grad_norm': 2.6750874519348145, 'learning_rate': 1.1575954508529653e-06, 'epoch': 2.39}
+{'loss': 1.5116, 'grad_norm': 2.489999532699585, 'learning_rate': 1.1555645816409426e-06, 'epoch': 2.39}
+{'loss': 1.468, 'grad_norm': 2.617074966430664, 'learning_rate': 1.1535337124289196e-06, 'epoch': 2.39}
+{'loss': 1.4359, 'grad_norm': 2.5152740478515625, 'learning_rate': 1.151502843216897e-06, 'epoch': 2.4}
+{'loss': 1.5198, 'grad_norm': 2.738752841949463, 'learning_rate': 1.1494719740048742e-06, 'epoch': 2.4}
+{'loss': 1.4966, 'grad_norm': 2.5762579441070557, 'learning_rate': 1.1474411047928515e-06, 'epoch': 2.4}
+{'loss': 1.4699, 'grad_norm': 2.729084014892578, 'learning_rate': 1.1454102355808287e-06, 'epoch': 2.4}
+{'loss': 1.4587, 'grad_norm': 2.590988874435425, 'learning_rate': 1.143379366368806e-06, 'epoch': 2.4}
+{'eval_loss': 1.7770642042160034, 'eval_runtime': 37.6042, 'eval_samples_per_second': 26.593, 'eval_steps_per_second': 1.117, 'epoch': 2.4}
+{'loss': 1.581, 'grad_norm': 2.6431353092193604, 'learning_rate': 1.141348497156783e-06, 'epoch': 2.4}
+{'loss': 1.5477, 'grad_norm': 2.6007394790649414, 'learning_rate': 1.1393176279447604e-06, 'epoch': 2.4}
+{'loss': 1.4182, 'grad_norm': 2.550649881362915, 'learning_rate': 1.1372867587327376e-06, 'epoch': 2.4}
+{'loss': 1.5069, 'grad_norm': 2.66624116897583, 'learning_rate': 1.135255889520715e-06, 'epoch': 2.4}
+{'loss': 1.502, 'grad_norm': 2.70050311088562, 'learning_rate': 1.1332250203086922e-06, 'epoch': 2.41}
+{'loss': 1.4921, 'grad_norm': 2.860762119293213, 'learning_rate': 1.1311941510966695e-06, 'epoch': 2.41}
+{'loss': 1.4599, 'grad_norm': 2.6615469455718994, 'learning_rate': 1.1291632818846467e-06, 'epoch': 2.41}
+{'loss': 1.4641, 'grad_norm': 2.4451019763946533, 'learning_rate': 1.127132412672624e-06, 'epoch': 2.41}
+{'loss': 1.5182, 'grad_norm': 2.5714046955108643, 'learning_rate': 1.1251015434606013e-06, 'epoch': 2.41}
+{'loss': 1.5326, 'grad_norm': 2.7039942741394043, 'learning_rate': 1.1230706742485786e-06, 'epoch': 2.41}
+{'eval_loss': 1.7783381938934326, 'eval_runtime': 37.6559, 'eval_samples_per_second': 26.556, 'eval_steps_per_second': 1.115, 'epoch': 2.41}
+{'loss': 1.4653, 'grad_norm': 2.4798216819763184, 'learning_rate': 1.1210398050365558e-06, 'epoch': 2.41}
+{'loss': 1.4424, 'grad_norm': 2.349231719970703, 'learning_rate': 1.1190089358245331e-06, 'epoch': 2.41}
+{'loss': 1.5026, 'grad_norm': 2.6802573204040527, 'learning_rate': 1.1169780666125102e-06, 'epoch': 2.41}
+{'loss': 1.4635, 'grad_norm': 2.7390408515930176, 'learning_rate': 1.1149471974004875e-06, 'epoch': 2.42}
+{'loss': 1.5539, 'grad_norm': 2.633185863494873, 'learning_rate': 1.1129163281884647e-06, 'epoch': 2.42}
+{'loss': 1.4588, 'grad_norm': 2.5872292518615723, 'learning_rate': 1.110885458976442e-06, 'epoch': 2.42}
+{'loss': 1.5277, 'grad_norm': 2.6094326972961426, 'learning_rate': 1.1088545897644193e-06, 'epoch': 2.42}
+{'loss': 1.5298, 'grad_norm': 2.636237144470215, 'learning_rate': 1.1068237205523966e-06, 'epoch': 2.42}
+{'loss': 1.5143, 'grad_norm': 2.7329561710357666, 'learning_rate': 1.1047928513403736e-06, 'epoch': 2.42}
+{'loss': 1.4366, 'grad_norm': 2.4749226570129395, 'learning_rate': 1.102761982128351e-06, 'epoch': 2.42}
+{'eval_loss': 1.7725019454956055, 'eval_runtime': 37.3252, 'eval_samples_per_second': 26.792, 'eval_steps_per_second': 1.125, 'epoch': 2.42}
+{'loss': 1.4732, 'grad_norm': 2.583282470703125, 'learning_rate': 1.1007311129163282e-06, 'epoch': 2.42}
+{'loss': 1.4826, 'grad_norm': 2.5710854530334473, 'learning_rate': 1.0987002437043055e-06, 'epoch': 2.42}
+{'loss': 1.4327, 'grad_norm': 2.556229829788208, 'learning_rate': 1.0966693744922827e-06, 'epoch': 2.43}
+{'loss': 1.468, 'grad_norm': 2.549471139907837, 'learning_rate': 1.09463850528026e-06, 'epoch': 2.43}
+{'loss': 1.4625, 'grad_norm': 2.5858771800994873, 'learning_rate': 1.0926076360682373e-06, 'epoch': 2.43}
+{'loss': 1.4707, 'grad_norm': 2.6928305625915527, 'learning_rate': 1.0905767668562146e-06, 'epoch': 2.43}
+{'loss': 1.5663, 'grad_norm': 2.757168769836426, 'learning_rate': 1.0885458976441918e-06, 'epoch': 2.43}
+{'loss': 1.508, 'grad_norm': 2.554654836654663, 'learning_rate': 1.0865150284321691e-06, 'epoch': 2.43}
+{'loss': 1.5268, 'grad_norm': 2.590242862701416, 'learning_rate': 1.0844841592201464e-06, 'epoch': 2.43}
+{'loss': 1.5094, 'grad_norm': 2.492490768432617, 'learning_rate': 1.0824532900081237e-06, 'epoch': 2.43}
+{'eval_loss': 1.7784792184829712, 'eval_runtime': 37.464, 'eval_samples_per_second': 26.692, 'eval_steps_per_second': 1.121, 'epoch': 2.43}
+{'loss': 1.4934, 'grad_norm': 2.720334529876709, 'learning_rate': 1.080422420796101e-06, 'epoch': 2.43}
+{'loss': 1.5286, 'grad_norm': 2.5985162258148193, 'learning_rate': 1.078391551584078e-06, 'epoch': 2.44}
+{'loss': 1.5625, 'grad_norm': 2.5260860919952393, 'learning_rate': 1.0763606823720553e-06, 'epoch': 2.44}
+{'loss': 1.5269, 'grad_norm': 2.609539270401001, 'learning_rate': 1.0743298131600326e-06, 'epoch': 2.44}
+{'loss': 1.4729, 'grad_norm': 2.8991456031799316, 'learning_rate': 1.0722989439480098e-06, 'epoch': 2.44}
+{'loss': 1.4724, 'grad_norm': 2.6600146293640137, 'learning_rate': 1.070268074735987e-06, 'epoch': 2.44}
+{'loss': 1.4868, 'grad_norm': 2.661776304244995, 'learning_rate': 1.0682372055239644e-06, 'epoch': 2.44}
+{'loss': 1.4657, 'grad_norm': 2.640878438949585, 'learning_rate': 1.0662063363119414e-06, 'epoch': 2.44}
+{'loss': 1.507, 'grad_norm': 2.5745697021484375, 'learning_rate': 1.0641754670999187e-06, 'epoch': 2.44}
+{'loss': 1.4952, 'grad_norm': 2.6363043785095215, 'learning_rate': 1.062144597887896e-06, 'epoch': 2.44}
+{'eval_loss': 1.7777022123336792, 'eval_runtime': 37.5776, 'eval_samples_per_second': 26.612, 'eval_steps_per_second': 1.118, 'epoch': 2.44}
+{'loss': 1.5465, 'grad_norm': 2.5958235263824463, 'learning_rate': 1.0601137286758733e-06, 'epoch': 2.44}
+{'loss': 1.4253, 'grad_norm': 2.33434796333313, 'learning_rate': 1.0580828594638505e-06, 'epoch': 2.45}
+{'loss': 1.5095, 'grad_norm': 2.5039985179901123, 'learning_rate': 1.0560519902518278e-06, 'epoch': 2.45}
+{'loss': 1.4192, 'grad_norm': 2.5108892917633057, 'learning_rate': 1.054021121039805e-06, 'epoch': 2.45}
+{'loss': 1.4286, 'grad_norm': 2.565993309020996, 'learning_rate': 1.0519902518277824e-06, 'epoch': 2.45}
+{'loss': 1.5037, 'grad_norm': 2.636476993560791, 'learning_rate': 1.0499593826157596e-06, 'epoch': 2.45}
+{'loss': 1.4862, 'grad_norm': 2.7501118183135986, 'learning_rate': 1.047928513403737e-06, 'epoch': 2.45}
+{'loss': 1.4166, 'grad_norm': 2.5240707397460938, 'learning_rate': 1.0458976441917142e-06, 'epoch': 2.45}
+{'loss': 1.4261, 'grad_norm': 2.484369993209839, 'learning_rate': 1.0438667749796915e-06, 'epoch': 2.45}
+{'loss': 1.4805, 'grad_norm': 2.4624698162078857, 'learning_rate': 1.0418359057676688e-06, 'epoch': 2.45}
+{'eval_loss': 1.7758415937423706, 'eval_runtime': 37.5996, 'eval_samples_per_second': 26.596, 'eval_steps_per_second': 1.117, 'epoch': 2.45}
+{'loss': 1.5236, 'grad_norm': 2.5151262283325195, 'learning_rate': 1.0398050365556458e-06, 'epoch': 2.46}
+{'loss': 1.4734, 'grad_norm': 2.4117770195007324, 'learning_rate': 1.037774167343623e-06, 'epoch': 2.46}
+{'loss': 1.5025, 'grad_norm': 2.6130545139312744, 'learning_rate': 1.0357432981316004e-06, 'epoch': 2.46}
+{'loss': 1.5131, 'grad_norm': 2.6055305004119873, 'learning_rate': 1.0337124289195776e-06, 'epoch': 2.46}
+{'loss': 1.53, 'grad_norm': 2.518465995788574, 'learning_rate': 1.031681559707555e-06, 'epoch': 2.46}
+{'loss': 1.4706, 'grad_norm': 2.5733041763305664, 'learning_rate': 1.0296506904955322e-06, 'epoch': 2.46}
+{'loss': 1.4901, 'grad_norm': 2.686802864074707, 'learning_rate': 1.0276198212835095e-06, 'epoch': 2.46}
+{'loss': 1.4756, 'grad_norm': 2.5984301567077637, 'learning_rate': 1.0255889520714867e-06, 'epoch': 2.46}
+{'loss': 1.4317, 'grad_norm': 2.6232683658599854, 'learning_rate': 1.023558082859464e-06, 'epoch': 2.46}
+{'loss': 1.5258, 'grad_norm': 2.867863893508911, 'learning_rate': 1.0215272136474413e-06, 'epoch': 2.47}
+{'eval_loss': 1.7737622261047363, 'eval_runtime': 37.6109, 'eval_samples_per_second': 26.588, 'eval_steps_per_second': 1.117, 'epoch': 2.47}
+{'loss': 1.4402, 'grad_norm': 2.5668396949768066, 'learning_rate': 1.0194963444354186e-06, 'epoch': 2.47}
+{'loss': 1.5002, 'grad_norm': 2.592683792114258, 'learning_rate': 1.0174654752233958e-06, 'epoch': 2.47}
+{'loss': 1.4752, 'grad_norm': 2.5729739665985107, 'learning_rate': 1.015434606011373e-06, 'epoch': 2.47}
+{'loss': 1.4882, 'grad_norm': 2.447591543197632, 'learning_rate': 1.0134037367993502e-06, 'epoch': 2.47}
+{'loss': 1.4806, 'grad_norm': 2.6608738899230957, 'learning_rate': 1.0113728675873275e-06, 'epoch': 2.47}
+{'loss': 1.4992, 'grad_norm': 2.5278854370117188, 'learning_rate': 1.0093419983753047e-06, 'epoch': 2.47}
+{'loss': 1.4329, 'grad_norm': 2.4741246700286865, 'learning_rate': 1.007311129163282e-06, 'epoch': 2.47}
+{'loss': 1.4509, 'grad_norm': 2.6780080795288086, 'learning_rate': 1.0052802599512593e-06, 'epoch': 2.47}
+{'loss': 1.4905, 'grad_norm': 2.611229658126831, 'learning_rate': 1.0032493907392364e-06, 'epoch': 2.48}
+{'loss': 1.4417, 'grad_norm': 2.6046154499053955, 'learning_rate': 1.0012185215272136e-06, 'epoch': 2.48}
+{'eval_loss': 1.7739043235778809, 'eval_runtime': 37.606, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 2.48}
+{'loss': 1.5358, 'grad_norm': 2.657369375228882, 'learning_rate': 9.99187652315191e-07, 'epoch': 2.48}
+{'loss': 1.4935, 'grad_norm': 2.501783847808838, 'learning_rate': 9.971567831031682e-07, 'epoch': 2.48}
+{'loss': 1.4282, 'grad_norm': 2.434161901473999, 'learning_rate': 9.951259138911455e-07, 'epoch': 2.48}
+{'loss': 1.5245, 'grad_norm': 2.4410362243652344, 'learning_rate': 9.930950446791227e-07, 'epoch': 2.48}
+{'loss': 1.5677, 'grad_norm': 2.5411148071289062, 'learning_rate': 9.910641754671e-07, 'epoch': 2.48}
+{'loss': 1.4916, 'grad_norm': 2.5859320163726807, 'learning_rate': 9.890333062550773e-07, 'epoch': 2.48}
+{'loss': 1.5031, 'grad_norm': 2.666705846786499, 'learning_rate': 9.870024370430546e-07, 'epoch': 2.48}
+{'loss': 1.4816, 'grad_norm': 2.555137872695923, 'learning_rate': 9.849715678310318e-07, 'epoch': 2.49}
+{'loss': 1.4961, 'grad_norm': 2.71543550491333, 'learning_rate': 9.829406986190091e-07, 'epoch': 2.49}
+{'loss': 1.4388, 'grad_norm': 2.5915377140045166, 'learning_rate': 9.809098294069864e-07, 'epoch': 2.49}
+{'eval_loss': 1.7733699083328247, 'eval_runtime': 37.6225, 'eval_samples_per_second': 26.58, 'eval_steps_per_second': 1.116, 'epoch': 2.49}
+{'loss': 1.4827, 'grad_norm': 2.586662769317627, 'learning_rate': 9.788789601949637e-07, 'epoch': 2.49}
+{'loss': 1.5464, 'grad_norm': 2.6616365909576416, 'learning_rate': 9.768480909829407e-07, 'epoch': 2.49}
+{'loss': 1.4782, 'grad_norm': 2.558450937271118, 'learning_rate': 9.74817221770918e-07, 'epoch': 2.49}
+{'loss': 1.4907, 'grad_norm': 2.6285300254821777, 'learning_rate': 9.727863525588953e-07, 'epoch': 2.49}
+{'loss': 1.4538, 'grad_norm': 2.772726058959961, 'learning_rate': 9.707554833468726e-07, 'epoch': 2.49}
+{'loss': 1.4603, 'grad_norm': 2.741194009780884, 'learning_rate': 9.687246141348498e-07, 'epoch': 2.49}
+{'loss': 1.4778, 'grad_norm': 2.537729024887085, 'learning_rate': 9.666937449228271e-07, 'epoch': 2.5}
+{'loss': 1.4596, 'grad_norm': 2.5729482173919678, 'learning_rate': 9.646628757108042e-07, 'epoch': 2.5}
+{'loss': 1.4955, 'grad_norm': 2.517575740814209, 'learning_rate': 9.626320064987814e-07, 'epoch': 2.5}
+{'loss': 1.4653, 'grad_norm': 2.542645215988159, 'learning_rate': 9.606011372867587e-07, 'epoch': 2.5}
+{'eval_loss': 1.7715389728546143, 'eval_runtime': 37.5941, 'eval_samples_per_second': 26.6, 'eval_steps_per_second': 1.117, 'epoch': 2.5}
+{'loss': 1.4803, 'grad_norm': 2.590278148651123, 'learning_rate': 9.58570268074736e-07, 'epoch': 2.5}
+{'loss': 1.4852, 'grad_norm': 2.535000801086426, 'learning_rate': 9.565393988627133e-07, 'epoch': 2.5}
+{'loss': 1.51, 'grad_norm': 2.541736602783203, 'learning_rate': 9.545085296506906e-07, 'epoch': 2.5}
+{'loss': 1.4904, 'grad_norm': 2.613891124725342, 'learning_rate': 9.524776604386677e-07, 'epoch': 2.5}
+{'loss': 1.4243, 'grad_norm': 2.4939239025115967, 'learning_rate': 9.50446791226645e-07, 'epoch': 2.5}
+{'loss': 1.5391, 'grad_norm': 2.51965594291687, 'learning_rate': 9.484159220146223e-07, 'epoch': 2.51}
+{'loss': 1.4947, 'grad_norm': 2.6967597007751465, 'learning_rate': 9.463850528025995e-07, 'epoch': 2.51}
+{'loss': 1.5596, 'grad_norm': 2.613455295562744, 'learning_rate': 9.443541835905768e-07, 'epoch': 2.51}
+{'loss': 1.564, 'grad_norm': 2.79257869720459, 'learning_rate': 9.423233143785541e-07, 'epoch': 2.51}
+{'loss': 1.4623, 'grad_norm': 2.507598638534546, 'learning_rate': 9.402924451665313e-07, 'epoch': 2.51}
+{'eval_loss': 1.7693504095077515, 'eval_runtime': 37.6061, 'eval_samples_per_second': 26.591, 'eval_steps_per_second': 1.117, 'epoch': 2.51}
+{'loss': 1.4984, 'grad_norm': 2.8255298137664795, 'learning_rate': 9.382615759545085e-07, 'epoch': 2.51}
+{'loss': 1.4702, 'grad_norm': 2.6141419410705566, 'learning_rate': 9.362307067424858e-07, 'epoch': 2.51}
+{'loss': 1.5256, 'grad_norm': 2.620081901550293, 'learning_rate': 9.341998375304631e-07, 'epoch': 2.51}
+{'loss': 1.4493, 'grad_norm': 2.6156632900238037, 'learning_rate': 9.321689683184404e-07, 'epoch': 2.51}
+{'loss': 1.4371, 'grad_norm': 2.5798747539520264, 'learning_rate': 9.301380991064176e-07, 'epoch': 2.52}
+{'loss': 1.4751, 'grad_norm': 2.670095682144165, 'learning_rate': 9.281072298943949e-07, 'epoch': 2.52}
+{'loss': 1.5007, 'grad_norm': 2.627460479736328, 'learning_rate': 9.260763606823721e-07, 'epoch': 2.52}
+{'loss': 1.5079, 'grad_norm': 2.6581382751464844, 'learning_rate': 9.240454914703494e-07, 'epoch': 2.52}
+{'loss': 1.452, 'grad_norm': 2.5051796436309814, 'learning_rate': 9.220146222583266e-07, 'epoch': 2.52}
+{'loss': 1.4951, 'grad_norm': 2.6314501762390137, 'learning_rate': 9.199837530463039e-07, 'epoch': 2.52}
+{'eval_loss': 1.7663401365280151, 'eval_runtime': 37.5924, 'eval_samples_per_second': 26.601, 'eval_steps_per_second': 1.117, 'epoch': 2.52}
+{'loss': 1.4865, 'grad_norm': 2.6108481884002686, 'learning_rate': 9.179528838342812e-07, 'epoch': 2.52}
+{'loss': 1.5021, 'grad_norm': 2.557359457015991, 'learning_rate': 9.159220146222585e-07, 'epoch': 2.52}
+{'loss': 1.417, 'grad_norm': 2.4766592979431152, 'learning_rate': 9.138911454102356e-07, 'epoch': 2.52}
+{'loss': 1.4888, 'grad_norm': 2.674060106277466, 'learning_rate': 9.118602761982129e-07, 'epoch': 2.52}
+{'loss': 1.4878, 'grad_norm': 2.6415762901306152, 'learning_rate': 9.098294069861902e-07, 'epoch': 2.53}
+{'loss': 1.4653, 'grad_norm': 2.5784928798675537, 'learning_rate': 9.077985377741675e-07, 'epoch': 2.53}
+{'loss': 1.4261, 'grad_norm': 2.4816854000091553, 'learning_rate': 9.057676685621447e-07, 'epoch': 2.53}
+{'loss': 1.5428, 'grad_norm': 2.592188596725464, 'learning_rate': 9.03736799350122e-07, 'epoch': 2.53}
+{'loss': 1.5117, 'grad_norm': 2.6835689544677734, 'learning_rate': 9.017059301380991e-07, 'epoch': 2.53}
+{'loss': 1.5408, 'grad_norm': 2.4906930923461914, 'learning_rate': 8.996750609260764e-07, 'epoch': 2.53}
+{'eval_loss': 1.7645384073257446, 'eval_runtime': 37.3267, 'eval_samples_per_second': 26.79, 'eval_steps_per_second': 1.125, 'epoch': 2.53}
+{'loss': 1.4799, 'grad_norm': 2.456149101257324, 'learning_rate': 8.976441917140536e-07, 'epoch': 2.53}
+{'loss': 1.5563, 'grad_norm': 2.6042637825012207, 'learning_rate': 8.956133225020309e-07, 'epoch': 2.53}
+{'loss': 1.4748, 'grad_norm': 2.560431718826294, 'learning_rate': 8.935824532900082e-07, 'epoch': 2.53}
+{'loss': 1.4566, 'grad_norm': 2.4026708602905273, 'learning_rate': 8.915515840779855e-07, 'epoch': 2.54}
+{'loss': 1.5254, 'grad_norm': 2.758453130722046, 'learning_rate': 8.895207148659626e-07, 'epoch': 2.54}
+{'loss': 1.497, 'grad_norm': 2.5733437538146973, 'learning_rate': 8.874898456539399e-07, 'epoch': 2.54}
+{'loss': 1.4882, 'grad_norm': 2.8317158222198486, 'learning_rate': 8.854589764419172e-07, 'epoch': 2.54}
+{'loss': 1.4441, 'grad_norm': 2.5640199184417725, 'learning_rate': 8.834281072298945e-07, 'epoch': 2.54}
+{'loss': 1.4829, 'grad_norm': 2.571972608566284, 'learning_rate': 8.813972380178717e-07, 'epoch': 2.54}
+{'loss': 1.5156, 'grad_norm': 2.732537031173706, 'learning_rate': 8.79366368805849e-07, 'epoch': 2.54}
+{'eval_loss': 1.7645573616027832, 'eval_runtime': 37.5157, 'eval_samples_per_second': 26.656, 'eval_steps_per_second': 1.12, 'epoch': 2.54}
+{'loss': 1.4597, 'grad_norm': 2.521221876144409, 'learning_rate': 8.773354995938262e-07, 'epoch': 2.54}
+{'loss': 1.4606, 'grad_norm': 2.5135157108306885, 'learning_rate': 8.753046303818035e-07, 'epoch': 2.54}
+{'loss': 1.4627, 'grad_norm': 2.5194175243377686, 'learning_rate': 8.732737611697807e-07, 'epoch': 2.55}
+{'loss': 1.5266, 'grad_norm': 2.525526285171509, 'learning_rate': 8.71242891957758e-07, 'epoch': 2.55}
+{'loss': 1.5174, 'grad_norm': 2.6757795810699463, 'learning_rate': 8.692120227457353e-07, 'epoch': 2.55}
+{'loss': 1.4827, 'grad_norm': 2.4794270992279053, 'learning_rate': 8.671811535337126e-07, 'epoch': 2.55}
+{'loss': 1.5547, 'grad_norm': 2.501737594604492, 'learning_rate': 8.651502843216898e-07, 'epoch': 2.55}
+{'loss': 1.5006, 'grad_norm': 2.578601598739624, 'learning_rate': 8.63119415109667e-07, 'epoch': 2.55}
+{'loss': 1.5038, 'grad_norm': 2.4631295204162598, 'learning_rate': 8.610885458976443e-07, 'epoch': 2.55}
+{'loss': 1.4496, 'grad_norm': 2.587179183959961, 'learning_rate': 8.590576766856216e-07, 'epoch': 2.55}
+{'eval_loss': 1.7660542726516724, 'eval_runtime': 37.6001, 'eval_samples_per_second': 26.596, 'eval_steps_per_second': 1.117, 'epoch': 2.55}
+{'loss': 1.4581, 'grad_norm': 2.6639227867126465, 'learning_rate': 8.570268074735988e-07, 'epoch': 2.55}
+{'loss': 1.4559, 'grad_norm': 2.4601638317108154, 'learning_rate': 8.549959382615761e-07, 'epoch': 2.56}
+{'loss': 1.4993, 'grad_norm': 2.6833622455596924, 'learning_rate': 8.529650690495534e-07, 'epoch': 2.56}
+{'loss': 1.4302, 'grad_norm': 2.4238531589508057, 'learning_rate': 8.509341998375305e-07, 'epoch': 2.56}
+{'loss': 1.41, 'grad_norm': 2.3558974266052246, 'learning_rate': 8.489033306255077e-07, 'epoch': 2.56}
+{'loss': 1.4532, 'grad_norm': 2.5760388374328613, 'learning_rate': 8.46872461413485e-07, 'epoch': 2.56}
+{'loss': 1.4725, 'grad_norm': 2.5578901767730713, 'learning_rate': 8.448415922014623e-07, 'epoch': 2.56}
+{'loss': 1.4993, 'grad_norm': 2.6446754932403564, 'learning_rate': 8.428107229894396e-07, 'epoch': 2.56}
+{'loss': 1.4915, 'grad_norm': 2.6514179706573486, 'learning_rate': 8.407798537774168e-07, 'epoch': 2.56}
+{'loss': 1.4694, 'grad_norm': 2.589505434036255, 'learning_rate': 8.38748984565394e-07, 'epoch': 2.56}
+{'eval_loss': 1.7689530849456787, 'eval_runtime': 37.6089, 'eval_samples_per_second': 26.589, 'eval_steps_per_second': 1.117, 'epoch': 2.56}
+{'loss': 1.4757, 'grad_norm': 2.617788076400757, 'learning_rate': 8.367181153533713e-07, 'epoch': 2.57}
+{'loss': 1.4829, 'grad_norm': 2.4989137649536133, 'learning_rate': 8.346872461413486e-07, 'epoch': 2.57}
+{'loss': 1.4746, 'grad_norm': 2.5836520195007324, 'learning_rate': 8.326563769293258e-07, 'epoch': 2.57}
+{'loss': 1.5514, 'grad_norm': 2.6515579223632812, 'learning_rate': 8.306255077173031e-07, 'epoch': 2.57}
+{'loss': 1.4357, 'grad_norm': 2.4873640537261963, 'learning_rate': 8.285946385052804e-07, 'epoch': 2.57}
+{'loss': 1.5101, 'grad_norm': 2.5865695476531982, 'learning_rate': 8.265637692932575e-07, 'epoch': 2.57}
+{'loss': 1.5114, 'grad_norm': 2.645359992980957, 'learning_rate': 8.245329000812348e-07, 'epoch': 2.57}
+{'loss': 1.4428, 'grad_norm': 2.6578879356384277, 'learning_rate': 8.225020308692121e-07, 'epoch': 2.57}
+{'loss': 1.491, 'grad_norm': 2.4878787994384766, 'learning_rate': 8.204711616571894e-07, 'epoch': 2.57}
+{'loss': 1.4386, 'grad_norm': 2.566009283065796, 'learning_rate': 8.184402924451667e-07, 'epoch': 2.58}
+{'eval_loss': 1.7673354148864746, 'eval_runtime': 37.6171, 'eval_samples_per_second': 26.584, 'eval_steps_per_second': 1.117, 'epoch': 2.58}
+{'loss': 1.5049, 'grad_norm': 2.476010322570801, 'learning_rate': 8.164094232331439e-07, 'epoch': 2.58}
+{'loss': 1.4918, 'grad_norm': 2.5245635509490967, 'learning_rate': 8.14378554021121e-07, 'epoch': 2.58}
+{'loss': 1.4509, 'grad_norm': 2.508124589920044, 'learning_rate': 8.123476848090983e-07, 'epoch': 2.58}
+{'loss': 1.4597, 'grad_norm': 2.645293712615967, 'learning_rate': 8.103168155970755e-07, 'epoch': 2.58}
+{'loss': 1.4888, 'grad_norm': 2.494882345199585, 'learning_rate': 8.082859463850528e-07, 'epoch': 2.58}
+{'loss': 1.4907, 'grad_norm': 2.606693744659424, 'learning_rate': 8.062550771730301e-07, 'epoch': 2.58}
+{'loss': 1.4759, 'grad_norm': 2.5590996742248535, 'learning_rate': 8.042242079610074e-07, 'epoch': 2.58}
+{'loss': 1.4699, 'grad_norm': 2.580002784729004, 'learning_rate': 8.021933387489846e-07, 'epoch': 2.58}
+{'loss': 1.4826, 'grad_norm': 2.565580368041992, 'learning_rate': 8.001624695369618e-07, 'epoch': 2.59}
+{'loss': 1.5193, 'grad_norm': 2.6600120067596436, 'learning_rate': 7.981316003249391e-07, 'epoch': 2.59}
+{'eval_loss': 1.7731493711471558, 'eval_runtime': 37.6045, 'eval_samples_per_second': 26.593, 'eval_steps_per_second': 1.117, 'epoch': 2.59}
+{'loss': 1.4431, 'grad_norm': 2.5314793586730957, 'learning_rate': 7.961007311129164e-07, 'epoch': 2.59}
+{'loss': 1.4741, 'grad_norm': 2.5954794883728027, 'learning_rate': 7.940698619008936e-07, 'epoch': 2.59}
+{'loss': 1.5833, 'grad_norm': 2.7608327865600586, 'learning_rate': 7.920389926888709e-07, 'epoch': 2.59}
+{'loss': 1.4302, 'grad_norm': 2.431414842605591, 'learning_rate': 7.900081234768482e-07, 'epoch': 2.59}
+{'loss': 1.5098, 'grad_norm': 2.667339563369751, 'learning_rate': 7.879772542648254e-07, 'epoch': 2.59}
+{'loss': 1.4918, 'grad_norm': 2.542881488800049, 'learning_rate': 7.859463850528026e-07, 'epoch': 2.59}
+{'loss': 1.479, 'grad_norm': 2.6274540424346924, 'learning_rate': 7.839155158407799e-07, 'epoch': 2.59}
+{'loss': 1.5093, 'grad_norm': 2.523768901824951, 'learning_rate': 7.818846466287572e-07, 'epoch': 2.6}
+{'loss': 1.4963, 'grad_norm': 2.852476119995117, 'learning_rate': 7.798537774167345e-07, 'epoch': 2.6}
+{'loss': 1.4576, 'grad_norm': 2.591073751449585, 'learning_rate': 7.778229082047117e-07, 'epoch': 2.6}
+{'eval_loss': 1.7724025249481201, 'eval_runtime': 37.6055, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 2.6}
+{'loss': 1.5027, 'grad_norm': 2.649921417236328, 'learning_rate': 7.757920389926889e-07, 'epoch': 2.6}
+{'loss': 1.4492, 'grad_norm': 2.6620678901672363, 'learning_rate': 7.737611697806662e-07, 'epoch': 2.6}
+{'loss': 1.5119, 'grad_norm': 2.637911319732666, 'learning_rate': 7.717303005686435e-07, 'epoch': 2.6}
+{'loss': 1.565, 'grad_norm': 2.810514450073242, 'learning_rate': 7.696994313566207e-07, 'epoch': 2.6}
+{'loss': 1.4381, 'grad_norm': 2.5301687717437744, 'learning_rate': 7.67668562144598e-07, 'epoch': 2.6}
+{'loss': 1.4388, 'grad_norm': 2.459158420562744, 'learning_rate': 7.656376929325753e-07, 'epoch': 2.6}
+{'loss': 1.5051, 'grad_norm': 2.6397852897644043, 'learning_rate': 7.636068237205524e-07, 'epoch': 2.6}
+{'loss': 1.464, 'grad_norm': 2.463318347930908, 'learning_rate': 7.615759545085296e-07, 'epoch': 2.61}
+{'loss': 1.4694, 'grad_norm': 2.5530385971069336, 'learning_rate': 7.595450852965069e-07, 'epoch': 2.61}
+{'loss': 1.516, 'grad_norm': 2.6136600971221924, 'learning_rate': 7.575142160844842e-07, 'epoch': 2.61}
+{'eval_loss': 1.7679411172866821, 'eval_runtime': 37.6165, 'eval_samples_per_second': 26.584, 'eval_steps_per_second': 1.117, 'epoch': 2.61}
+{'loss': 1.4552, 'grad_norm': 2.5040383338928223, 'learning_rate': 7.554833468724615e-07, 'epoch': 2.61}
+{'loss': 1.4391, 'grad_norm': 2.6156773567199707, 'learning_rate': 7.534524776604387e-07, 'epoch': 2.61}
+{'loss': 1.489, 'grad_norm': 2.696563959121704, 'learning_rate': 7.51421608448416e-07, 'epoch': 2.61}
+{'loss': 1.4579, 'grad_norm': 2.5234475135803223, 'learning_rate': 7.493907392363932e-07, 'epoch': 2.61}
+{'loss': 1.429, 'grad_norm': 2.5561680793762207, 'learning_rate': 7.473598700243705e-07, 'epoch': 2.61}
+{'loss': 1.4796, 'grad_norm': 2.6475632190704346, 'learning_rate': 7.453290008123477e-07, 'epoch': 2.61}
+{'loss': 1.4814, 'grad_norm': 2.5885376930236816, 'learning_rate': 7.43298131600325e-07, 'epoch': 2.62}
+{'loss': 1.4689, 'grad_norm': 2.510930061340332, 'learning_rate': 7.412672623883023e-07, 'epoch': 2.62}
+{'loss': 1.4336, 'grad_norm': 2.475267171859741, 'learning_rate': 7.392363931762796e-07, 'epoch': 2.62}
+{'loss': 1.4753, 'grad_norm': 2.6850392818450928, 'learning_rate': 7.372055239642567e-07, 'epoch': 2.62}
+{'eval_loss': 1.7733769416809082, 'eval_runtime': 37.6177, 'eval_samples_per_second': 26.583, 'eval_steps_per_second': 1.116, 'epoch': 2.62}
+{'loss': 1.507, 'grad_norm': 2.6839253902435303, 'learning_rate': 7.35174654752234e-07, 'epoch': 2.62}
+{'loss': 1.523, 'grad_norm': 2.520854949951172, 'learning_rate': 7.331437855402113e-07, 'epoch': 2.62}
+{'loss': 1.4316, 'grad_norm': 2.526787757873535, 'learning_rate': 7.311129163281886e-07, 'epoch': 2.62}
+{'loss': 1.5124, 'grad_norm': 2.50209641456604, 'learning_rate': 7.290820471161658e-07, 'epoch': 2.62}
+{'loss': 1.5227, 'grad_norm': 2.5157909393310547, 'learning_rate': 7.270511779041431e-07, 'epoch': 2.62}
+{'loss': 1.445, 'grad_norm': 2.4521825313568115, 'learning_rate': 7.250203086921203e-07, 'epoch': 2.63}
+{'loss': 1.4696, 'grad_norm': 2.440307855606079, 'learning_rate': 7.229894394800976e-07, 'epoch': 2.63}
+{'loss': 1.507, 'grad_norm': 2.5737977027893066, 'learning_rate': 7.209585702680748e-07, 'epoch': 2.63}
+{'loss': 1.4203, 'grad_norm': 2.4552292823791504, 'learning_rate': 7.189277010560521e-07, 'epoch': 2.63}
+{'loss': 1.4757, 'grad_norm': 2.5780582427978516, 'learning_rate': 7.168968318440294e-07, 'epoch': 2.63}
+{'eval_loss': 1.7702176570892334, 'eval_runtime': 37.5904, 'eval_samples_per_second': 26.603, 'eval_steps_per_second': 1.117, 'epoch': 2.63}
+{'loss': 1.4413, 'grad_norm': 2.5657103061676025, 'learning_rate': 7.148659626320067e-07, 'epoch': 2.63}
+{'loss': 1.523, 'grad_norm': 2.7050297260284424, 'learning_rate': 7.128350934199837e-07, 'epoch': 2.63}
+{'loss': 1.5195, 'grad_norm': 2.674870014190674, 'learning_rate': 7.10804224207961e-07, 'epoch': 2.63}
+{'loss': 1.4674, 'grad_norm': 2.424041509628296, 'learning_rate': 7.087733549959383e-07, 'epoch': 2.63}
+{'loss': 1.4679, 'grad_norm': 2.5773723125457764, 'learning_rate': 7.067424857839155e-07, 'epoch': 2.64}
+{'loss': 1.4859, 'grad_norm': 2.5511670112609863, 'learning_rate': 7.047116165718928e-07, 'epoch': 2.64}
+{'loss': 1.468, 'grad_norm': 2.5463123321533203, 'learning_rate': 7.026807473598701e-07, 'epoch': 2.64}
+{'loss': 1.5254, 'grad_norm': 2.6498475074768066, 'learning_rate': 7.006498781478473e-07, 'epoch': 2.64}
+{'loss': 1.4477, 'grad_norm': 2.5696051120758057, 'learning_rate': 6.986190089358245e-07, 'epoch': 2.64}
+{'loss': 1.4844, 'grad_norm': 2.5144293308258057, 'learning_rate': 6.965881397238018e-07, 'epoch': 2.64}
+{'eval_loss': 1.7631843090057373, 'eval_runtime': 37.3711, 'eval_samples_per_second': 26.759, 'eval_steps_per_second': 1.124, 'epoch': 2.64}
+{'loss': 1.5091, 'grad_norm': 2.5681722164154053, 'learning_rate': 6.945572705117791e-07, 'epoch': 2.64}
+{'loss': 1.4971, 'grad_norm': 2.537210702896118, 'learning_rate': 6.925264012997564e-07, 'epoch': 2.64}
+{'loss': 1.5, 'grad_norm': 2.5930898189544678, 'learning_rate': 6.904955320877336e-07, 'epoch': 2.64}
+{'loss': 1.4909, 'grad_norm': 2.6033098697662354, 'learning_rate': 6.884646628757109e-07, 'epoch': 2.65}
+{'loss': 1.5352, 'grad_norm': 2.484525203704834, 'learning_rate': 6.864337936636881e-07, 'epoch': 2.65}
+{'loss': 1.5421, 'grad_norm': 2.7137813568115234, 'learning_rate': 6.844029244516654e-07, 'epoch': 2.65}
+{'loss': 1.4275, 'grad_norm': 2.506417751312256, 'learning_rate': 6.823720552396426e-07, 'epoch': 2.65}
+{'loss': 1.5102, 'grad_norm': 2.643073797225952, 'learning_rate': 6.803411860276199e-07, 'epoch': 2.65}
+{'loss': 1.493, 'grad_norm': 2.498469591140747, 'learning_rate': 6.783103168155972e-07, 'epoch': 2.65}
+{'loss': 1.4791, 'grad_norm': 2.63459849357605, 'learning_rate': 6.762794476035745e-07, 'epoch': 2.65}
+{'eval_loss': 1.7658052444458008, 'eval_runtime': 37.5265, 'eval_samples_per_second': 26.648, 'eval_steps_per_second': 1.119, 'epoch': 2.65}
+{'loss': 1.5179, 'grad_norm': 2.612508535385132, 'learning_rate': 6.742485783915515e-07, 'epoch': 2.65}
+{'loss': 1.5076, 'grad_norm': 2.7565011978149414, 'learning_rate': 6.722177091795288e-07, 'epoch': 2.65}
+{'loss': 1.5003, 'grad_norm': 2.5214428901672363, 'learning_rate': 6.701868399675061e-07, 'epoch': 2.66}
+{'loss': 1.4683, 'grad_norm': 2.5867536067962646, 'learning_rate': 6.681559707554834e-07, 'epoch': 2.66}
+{'loss': 1.4522, 'grad_norm': 2.5757007598876953, 'learning_rate': 6.661251015434606e-07, 'epoch': 2.66}
+{'loss': 1.4602, 'grad_norm': 2.4448447227478027, 'learning_rate': 6.640942323314379e-07, 'epoch': 2.66}
+{'loss': 1.4873, 'grad_norm': 2.4056968688964844, 'learning_rate': 6.620633631194151e-07, 'epoch': 2.66}
+{'loss': 1.5008, 'grad_norm': 2.4837095737457275, 'learning_rate': 6.600324939073924e-07, 'epoch': 2.66}
+{'loss': 1.4517, 'grad_norm': 2.6299784183502197, 'learning_rate': 6.580016246953696e-07, 'epoch': 2.66}
+{'loss': 1.5448, 'grad_norm': 2.652453899383545, 'learning_rate': 6.559707554833469e-07, 'epoch': 2.66}
+{'eval_loss': 1.7631577253341675, 'eval_runtime': 37.6052, 'eval_samples_per_second': 26.592, 'eval_steps_per_second': 1.117, 'epoch': 2.66}
+{'loss': 1.4682, 'grad_norm': 2.4892115592956543, 'learning_rate': 6.539398862713242e-07, 'epoch': 2.66}
+{'loss': 1.5293, 'grad_norm': 2.5798583030700684, 'learning_rate': 6.519090170593015e-07, 'epoch': 2.67}
+{'loss': 1.4985, 'grad_norm': 2.757673740386963, 'learning_rate': 6.498781478472786e-07, 'epoch': 2.67}
+{'loss': 1.513, 'grad_norm': 2.6724886894226074, 'learning_rate': 6.478472786352559e-07, 'epoch': 2.67}
+{'loss': 1.4861, 'grad_norm': 2.557147979736328, 'learning_rate': 6.458164094232332e-07, 'epoch': 2.67}
+{'loss': 1.4319, 'grad_norm': 2.5102055072784424, 'learning_rate': 6.437855402112105e-07, 'epoch': 2.67}
+{'loss': 1.4553, 'grad_norm': 2.56146502494812, 'learning_rate': 6.417546709991877e-07, 'epoch': 2.67}
+{'loss': 1.5133, 'grad_norm': 2.678138017654419, 'learning_rate': 6.39723801787165e-07, 'epoch': 2.67}
+{'loss': 1.4761, 'grad_norm': 2.5724921226501465, 'learning_rate': 6.376929325751423e-07, 'epoch': 2.67}
+{'loss': 1.4697, 'grad_norm': 2.4635443687438965, 'learning_rate': 6.356620633631195e-07, 'epoch': 2.67}
+{'eval_loss': 1.7649935483932495, 'eval_runtime': 37.6641, 'eval_samples_per_second': 26.55, 'eval_steps_per_second': 1.115, 'epoch': 2.67}
+{'loss': 1.4516, 'grad_norm': 2.609632730484009, 'learning_rate': 6.336311941510967e-07, 'epoch': 2.68}
+{'loss': 1.4887, 'grad_norm': 2.5923399925231934, 'learning_rate': 6.31600324939074e-07, 'epoch': 2.68}
+{'loss': 1.5261, 'grad_norm': 2.6317384243011475, 'learning_rate': 6.295694557270513e-07, 'epoch': 2.68}
+{'loss': 1.5009, 'grad_norm': 2.4962029457092285, 'learning_rate': 6.275385865150286e-07, 'epoch': 2.68}
+{'loss': 1.478, 'grad_norm': 2.4953014850616455, 'learning_rate': 6.255077173030058e-07, 'epoch': 2.68}
+{'loss': 1.4771, 'grad_norm': 2.5346789360046387, 'learning_rate': 6.23476848090983e-07, 'epoch': 2.68}
+{'loss': 1.4838, 'grad_norm': 2.418365478515625, 'learning_rate': 6.214459788789602e-07, 'epoch': 2.68}
+{'loss': 1.5237, 'grad_norm': 2.57509446144104, 'learning_rate': 6.194151096669375e-07, 'epoch': 2.68}
+{'loss': 1.469, 'grad_norm': 2.384779930114746, 'learning_rate': 6.173842404549147e-07, 'epoch': 2.68}
+{'loss': 1.4744, 'grad_norm': 2.495954990386963, 'learning_rate': 6.15353371242892e-07, 'epoch': 2.68}
+{'eval_loss': 1.7645422220230103, 'eval_runtime': 37.6516, 'eval_samples_per_second': 26.559, 'eval_steps_per_second': 1.115, 'epoch': 2.68}
+{'loss': 1.4164, 'grad_norm': 2.575540542602539, 'learning_rate': 6.133225020308693e-07, 'epoch': 2.69}
+{'loss': 1.4743, 'grad_norm': 2.479641914367676, 'learning_rate': 6.112916328188466e-07, 'epoch': 2.69}
+{'loss': 1.555, 'grad_norm': 2.6829540729522705, 'learning_rate': 6.092607636068238e-07, 'epoch': 2.69}
+{'loss': 1.4596, 'grad_norm': 2.474205493927002, 'learning_rate': 6.07229894394801e-07, 'epoch': 2.69}
+{'loss': 1.4709, 'grad_norm': 2.4809861183166504, 'learning_rate': 6.051990251827783e-07, 'epoch': 2.69}
+{'loss': 1.511, 'grad_norm': 2.510962963104248, 'learning_rate': 6.031681559707556e-07, 'epoch': 2.69}
+{'loss': 1.4829, 'grad_norm': 2.5456554889678955, 'learning_rate': 6.011372867587327e-07, 'epoch': 2.69}
+{'loss': 1.4596, 'grad_norm': 2.478609800338745, 'learning_rate': 5.9910641754671e-07, 'epoch': 2.69}
+{'loss': 1.4709, 'grad_norm': 2.644237518310547, 'learning_rate': 5.970755483346873e-07, 'epoch': 2.69}
+{'loss': 1.4693, 'grad_norm': 2.5284528732299805, 'learning_rate': 5.950446791226646e-07, 'epoch': 2.7}
+{'eval_loss': 1.7669274806976318, 'eval_runtime': 37.6902, 'eval_samples_per_second': 26.532, 'eval_steps_per_second': 1.114, 'epoch': 2.7}
+{'loss': 1.4685, 'grad_norm': 2.7937605381011963, 'learning_rate': 5.930138099106418e-07, 'epoch': 2.7}
+{'loss': 1.4702, 'grad_norm': 2.5958359241485596, 'learning_rate': 5.909829406986191e-07, 'epoch': 2.7}
+{'loss': 1.4899, 'grad_norm': 2.5613129138946533, 'learning_rate': 5.889520714865963e-07, 'epoch': 2.7}
+{'loss': 1.4495, 'grad_norm': 2.3981735706329346, 'learning_rate': 5.869212022745735e-07, 'epoch': 2.7}
+{'loss': 1.4894, 'grad_norm': 2.4286561012268066, 'learning_rate': 5.848903330625508e-07, 'epoch': 2.7}
+{'loss': 1.4768, 'grad_norm': 2.598222017288208, 'learning_rate': 5.828594638505281e-07, 'epoch': 2.7}
+{'loss': 1.468, 'grad_norm': 2.4174466133117676, 'learning_rate': 5.808285946385054e-07, 'epoch': 2.7}
+{'loss': 1.4819, 'grad_norm': 2.635659694671631, 'learning_rate': 5.787977254264827e-07, 'epoch': 2.7}
+{'loss': 1.5354, 'grad_norm': 2.7275218963623047, 'learning_rate': 5.767668562144598e-07, 'epoch': 2.71}
+{'loss': 1.4741, 'grad_norm': 2.6463255882263184, 'learning_rate': 5.747359870024371e-07, 'epoch': 2.71}
+{'eval_loss': 1.7626008987426758, 'eval_runtime': 37.6465, 'eval_samples_per_second': 26.563, 'eval_steps_per_second': 1.116, 'epoch': 2.71}
+{'loss': 1.4781, 'grad_norm': 2.437201738357544, 'learning_rate': 5.727051177904144e-07, 'epoch': 2.71}
+{'loss': 1.5129, 'grad_norm': 2.5520195960998535, 'learning_rate': 5.706742485783915e-07, 'epoch': 2.71}
+{'loss': 1.4424, 'grad_norm': 2.599719762802124, 'learning_rate': 5.686433793663688e-07, 'epoch': 2.71}
+{'loss': 1.4256, 'grad_norm': 2.477269172668457, 'learning_rate': 5.666125101543461e-07, 'epoch': 2.71}
+{'loss': 1.54, 'grad_norm': 2.7373673915863037, 'learning_rate': 5.645816409423234e-07, 'epoch': 2.71}
+{'loss': 1.4789, 'grad_norm': 2.508174419403076, 'learning_rate': 5.625507717303006e-07, 'epoch': 2.71}
+{'loss': 1.4623, 'grad_norm': 2.4938137531280518, 'learning_rate': 5.605199025182779e-07, 'epoch': 2.71}
+{'loss': 1.4598, 'grad_norm': 2.561419725418091, 'learning_rate': 5.584890333062551e-07, 'epoch': 2.72}
+{'loss': 1.519, 'grad_norm': 2.5607926845550537, 'learning_rate': 5.564581640942324e-07, 'epoch': 2.72}
+{'loss': 1.4618, 'grad_norm': 2.6222221851348877, 'learning_rate': 5.544272948822096e-07, 'epoch': 2.72}
+{'eval_loss': 1.7608782052993774, 'eval_runtime': 37.65, 'eval_samples_per_second': 26.56, 'eval_steps_per_second': 1.116, 'epoch': 2.72}
+{'loss': 1.4843, 'grad_norm': 2.6199145317077637, 'learning_rate': 5.523964256701868e-07, 'epoch': 2.72}
+{'loss': 1.5058, 'grad_norm': 2.5390827655792236, 'learning_rate': 5.503655564581641e-07, 'epoch': 2.72}
+{'loss': 1.4665, 'grad_norm': 2.4717562198638916, 'learning_rate': 5.483346872461414e-07, 'epoch': 2.72}
+{'loss': 1.4919, 'grad_norm': 2.630014181137085, 'learning_rate': 5.463038180341186e-07, 'epoch': 2.72}
+{'loss': 1.4351, 'grad_norm': 2.5668723583221436, 'learning_rate': 5.442729488220959e-07, 'epoch': 2.72}
+{'loss': 1.4796, 'grad_norm': 2.7037582397460938, 'learning_rate': 5.422420796100732e-07, 'epoch': 2.72}
+{'loss': 1.4693, 'grad_norm': 2.5875706672668457, 'learning_rate': 5.402112103980505e-07, 'epoch': 2.73}
+{'loss': 1.5175, 'grad_norm': 2.5782968997955322, 'learning_rate': 5.381803411860276e-07, 'epoch': 2.73}
+{'loss': 1.5399, 'grad_norm': 2.582031011581421, 'learning_rate': 5.361494719740049e-07, 'epoch': 2.73}
+{'loss': 1.4449, 'grad_norm': 2.515411376953125, 'learning_rate': 5.341186027619822e-07, 'epoch': 2.73}
+{'eval_loss': 1.760023832321167, 'eval_runtime': 37.6457, 'eval_samples_per_second': 26.563, 'eval_steps_per_second': 1.116, 'epoch': 2.73}
+{'loss': 1.4607, 'grad_norm': 2.6096251010894775, 'learning_rate': 5.320877335499594e-07, 'epoch': 2.73}
+{'loss': 1.5416, 'grad_norm': 2.6674976348876953, 'learning_rate': 5.300568643379366e-07, 'epoch': 2.73}
+{'loss': 1.4951, 'grad_norm': 2.5803849697113037, 'learning_rate': 5.280259951259139e-07, 'epoch': 2.73}
+{'loss': 1.4636, 'grad_norm': 2.731733798980713, 'learning_rate': 5.259951259138912e-07, 'epoch': 2.73}
+{'loss': 1.4526, 'grad_norm': 2.6192286014556885, 'learning_rate': 5.239642567018685e-07, 'epoch': 2.73}
+{'loss': 1.4584, 'grad_norm': 2.471378803253174, 'learning_rate': 5.219333874898457e-07, 'epoch': 2.74}
+{'loss': 1.4877, 'grad_norm': 2.584012985229492, 'learning_rate': 5.199025182778229e-07, 'epoch': 2.74}
+{'loss': 1.4745, 'grad_norm': 2.526921033859253, 'learning_rate': 5.178716490658002e-07, 'epoch': 2.74}
+{'loss': 1.4473, 'grad_norm': 2.52868914604187, 'learning_rate': 5.158407798537775e-07, 'epoch': 2.74}
+{'loss': 1.4117, 'grad_norm': 2.463660955429077, 'learning_rate': 5.138099106417547e-07, 'epoch': 2.74}
+{'eval_loss': 1.7648687362670898, 'eval_runtime': 37.6447, 'eval_samples_per_second': 26.564, 'eval_steps_per_second': 1.116, 'epoch': 2.74}
+{'loss': 1.4683, 'grad_norm': 2.591747283935547, 'learning_rate': 5.11779041429732e-07, 'epoch': 2.74}
+{'loss': 1.4584, 'grad_norm': 2.771358013153076, 'learning_rate': 5.097481722177093e-07, 'epoch': 2.74}
+{'loss': 1.5297, 'grad_norm': 2.6172196865081787, 'learning_rate': 5.077173030056865e-07, 'epoch': 2.74}
+{'loss': 1.5155, 'grad_norm': 2.5801854133605957, 'learning_rate': 5.056864337936637e-07, 'epoch': 2.74}
+{'loss': 1.5006, 'grad_norm': 2.6566977500915527, 'learning_rate': 5.03655564581641e-07, 'epoch': 2.75}
+{'loss': 1.5851, 'grad_norm': 2.6324048042297363, 'learning_rate': 5.016246953696182e-07, 'epoch': 2.75}
+{'loss': 1.447, 'grad_norm': 2.708425998687744, 'learning_rate': 4.995938261575955e-07, 'epoch': 2.75}
+{'loss': 1.4933, 'grad_norm': 2.463560104370117, 'learning_rate': 4.975629569455727e-07, 'epoch': 2.75}
+{'loss': 1.5494, 'grad_norm': 2.592965841293335, 'learning_rate': 4.9553208773355e-07, 'epoch': 2.75}
+{'loss': 1.4828, 'grad_norm': 2.5816056728363037, 'learning_rate': 4.935012185215273e-07, 'epoch': 2.75}
+{'eval_loss': 1.7616801261901855, 'eval_runtime': 37.3686, 'eval_samples_per_second': 26.76, 'eval_steps_per_second': 1.124, 'epoch': 2.75}
+{'loss': 1.4446, 'grad_norm': 2.569239616394043, 'learning_rate': 4.914703493095046e-07, 'epoch': 2.75}
+{'loss': 1.4473, 'grad_norm': 2.6132609844207764, 'learning_rate': 4.894394800974818e-07, 'epoch': 2.75}
+{'loss': 1.5595, 'grad_norm': 2.6003644466400146, 'learning_rate': 4.87408610885459e-07, 'epoch': 2.75}
+{'loss': 1.5117, 'grad_norm': 2.5007355213165283, 'learning_rate': 4.853777416734363e-07, 'epoch': 2.76}
+{'loss': 1.4808, 'grad_norm': 2.567237138748169, 'learning_rate': 4.833468724614136e-07, 'epoch': 2.76}
+{'loss': 1.4655, 'grad_norm': 2.617581844329834, 'learning_rate': 4.813160032493907e-07, 'epoch': 2.76}
+{'loss': 1.4452, 'grad_norm': 2.4674789905548096, 'learning_rate': 4.79285134037368e-07, 'epoch': 2.76}
+{'loss': 1.4532, 'grad_norm': 2.564610481262207, 'learning_rate': 4.772542648253453e-07, 'epoch': 2.76}
+{'loss': 1.482, 'grad_norm': 2.564610481262207, 'learning_rate': 4.772542648253453e-07, 'epoch': 2.76}
+{'loss': 1.5312, 'grad_norm': 2.662473201751709, 'learning_rate': 4.752233956133225e-07, 'epoch': 2.76}
+{'eval_loss': 1.7610468864440918, 'eval_runtime': 37.5685, 'eval_samples_per_second': 26.618, 'eval_steps_per_second': 1.118, 'epoch': 2.76}
+{'loss': 1.4887, 'grad_norm': 2.649744987487793, 'learning_rate': 4.731925264012998e-07, 'epoch': 2.76}
+{'loss': 1.494, 'grad_norm': 2.650099515914917, 'learning_rate': 4.7116165718927705e-07, 'epoch': 2.76}
+{'loss': 1.4655, 'grad_norm': 2.5400662422180176, 'learning_rate': 4.6913078797725427e-07, 'epoch': 2.76}
+{'loss': 1.5591, 'grad_norm': 2.5873372554779053, 'learning_rate': 4.6709991876523155e-07, 'epoch': 2.77}
+{'loss': 1.4879, 'grad_norm': 2.623462200164795, 'learning_rate': 4.650690495532088e-07, 'epoch': 2.77}
+{'loss': 1.4279, 'grad_norm': 2.440586805343628, 'learning_rate': 4.6303818034118605e-07, 'epoch': 2.77}
+{'loss': 1.4704, 'grad_norm': 2.5456149578094482, 'learning_rate': 4.610073111291633e-07, 'epoch': 2.77}
+{'loss': 1.4512, 'grad_norm': 2.3754491806030273, 'learning_rate': 4.589764419171406e-07, 'epoch': 2.77}
+{'loss': 1.5117, 'grad_norm': 2.7144532203674316, 'learning_rate': 4.569455727051178e-07, 'epoch': 2.77}
+{'loss': 1.4903, 'grad_norm': 2.747358560562134, 'learning_rate': 4.549147034930951e-07, 'epoch': 2.77}
+{'eval_loss': 1.7604209184646606, 'eval_runtime': 37.6454, 'eval_samples_per_second': 26.564, 'eval_steps_per_second': 1.116, 'epoch': 2.77}
+{'loss': 1.4676, 'grad_norm': 2.607607126235962, 'learning_rate': 4.5288383428107237e-07, 'epoch': 2.77}
+{'loss': 1.4415, 'grad_norm': 2.4407613277435303, 'learning_rate': 4.5085296506904954e-07, 'epoch': 2.77}
+{'loss': 1.4481, 'grad_norm': 2.517108201980591, 'learning_rate': 4.488220958570268e-07, 'epoch': 2.78}
+{'loss': 1.4971, 'grad_norm': 2.5154755115509033, 'learning_rate': 4.467912266450041e-07, 'epoch': 2.78}
+{'loss': 1.4567, 'grad_norm': 2.6101481914520264, 'learning_rate': 4.447603574329813e-07, 'epoch': 2.78}
+{'loss': 1.4798, 'grad_norm': 2.686267852783203, 'learning_rate': 4.427294882209586e-07, 'epoch': 2.78}
+{'loss': 1.5649, 'grad_norm': 2.602445125579834, 'learning_rate': 4.4069861900893587e-07, 'epoch': 2.78}
+{'loss': 1.4937, 'grad_norm': 2.545145273208618, 'learning_rate': 4.386677497969131e-07, 'epoch': 2.78}
+{'loss': 1.5021, 'grad_norm': 2.8490688800811768, 'learning_rate': 4.3663688058489037e-07, 'epoch': 2.78}
+{'loss': 1.4852, 'grad_norm': 2.4867513179779053, 'learning_rate': 4.3460601137286764e-07, 'epoch': 2.78}
+{'eval_loss': 1.760381817817688, 'eval_runtime': 37.6857, 'eval_samples_per_second': 26.535, 'eval_steps_per_second': 1.114, 'epoch': 2.78}
+{'loss': 1.5145, 'grad_norm': 2.4896881580352783, 'learning_rate': 4.325751421608449e-07, 'epoch': 2.78}
+{'loss': 1.4682, 'grad_norm': 2.642174482345581, 'learning_rate': 4.3054427294882214e-07, 'epoch': 2.79}
+{'loss': 1.4182, 'grad_norm': 2.3175876140594482, 'learning_rate': 4.285134037367994e-07, 'epoch': 2.79}
+{'loss': 1.4256, 'grad_norm': 2.502211809158325, 'learning_rate': 4.264825345247767e-07, 'epoch': 2.79}
+{'loss': 1.4237, 'grad_norm': 2.3189563751220703, 'learning_rate': 4.2445166531275386e-07, 'epoch': 2.79}
+{'loss': 1.5407, 'grad_norm': 2.646489143371582, 'learning_rate': 4.2242079610073114e-07, 'epoch': 2.79}
+{'loss': 1.5511, 'grad_norm': 2.680454969406128, 'learning_rate': 4.203899268887084e-07, 'epoch': 2.79}
+{'loss': 1.4859, 'grad_norm': 2.469858407974243, 'learning_rate': 4.1835905767668564e-07, 'epoch': 2.79}
+{'loss': 1.4936, 'grad_norm': 2.6152491569519043, 'learning_rate': 4.163281884646629e-07, 'epoch': 2.79}
+{'loss': 1.4879, 'grad_norm': 2.5262954235076904, 'learning_rate': 4.142973192526402e-07, 'epoch': 2.79}
+{'eval_loss': 1.7573161125183105, 'eval_runtime': 37.7213, 'eval_samples_per_second': 26.51, 'eval_steps_per_second': 1.113, 'epoch': 2.79}
+{'loss': 1.4384, 'grad_norm': 2.8124475479125977, 'learning_rate': 4.122664500406174e-07, 'epoch': 2.8}
+{'loss': 1.482, 'grad_norm': 2.6443822383880615, 'learning_rate': 4.102355808285947e-07, 'epoch': 2.8}
+{'loss': 1.5124, 'grad_norm': 2.660597085952759, 'learning_rate': 4.0820471161657196e-07, 'epoch': 2.8}
+{'loss': 1.4268, 'grad_norm': 2.3909618854522705, 'learning_rate': 4.0617384240454913e-07, 'epoch': 2.8}
+{'loss': 1.4439, 'grad_norm': 2.538372755050659, 'learning_rate': 4.041429731925264e-07, 'epoch': 2.8}
+{'loss': 1.458, 'grad_norm': 2.4802255630493164, 'learning_rate': 4.021121039805037e-07, 'epoch': 2.8}
+{'loss': 1.4791, 'grad_norm': 2.5243120193481445, 'learning_rate': 4.000812347684809e-07, 'epoch': 2.8}
+{'loss': 1.5085, 'grad_norm': 2.456643581390381, 'learning_rate': 3.980503655564582e-07, 'epoch': 2.8}
+{'loss': 1.4593, 'grad_norm': 2.4738895893096924, 'learning_rate': 3.9601949634443546e-07, 'epoch': 2.8}
+{'loss': 1.516, 'grad_norm': 2.4162979125976562, 'learning_rate': 3.939886271324127e-07, 'epoch': 2.81}
+{'eval_loss': 1.7570390701293945, 'eval_runtime': 37.7354, 'eval_samples_per_second': 26.5, 'eval_steps_per_second': 1.113, 'epoch': 2.81}
+{'loss': 1.5062, 'grad_norm': 2.574765205383301, 'learning_rate': 3.9195775792038996e-07, 'epoch': 2.81}
+{'loss': 1.4701, 'grad_norm': 2.436518430709839, 'learning_rate': 3.8992688870836723e-07, 'epoch': 2.81}
+{'loss': 1.3977, 'grad_norm': 2.4726879596710205, 'learning_rate': 3.8789601949634446e-07, 'epoch': 2.81}
+{'loss': 1.4627, 'grad_norm': 2.498046875, 'learning_rate': 3.8586515028432173e-07, 'epoch': 2.81}
+{'loss': 1.4437, 'grad_norm': 2.458226203918457, 'learning_rate': 3.83834281072299e-07, 'epoch': 2.81}
+{'loss': 1.4702, 'grad_norm': 2.7196688652038574, 'learning_rate': 3.818034118602762e-07, 'epoch': 2.81}
+{'loss': 1.4865, 'grad_norm': 2.5739779472351074, 'learning_rate': 3.7977254264825345e-07, 'epoch': 2.81}
+{'loss': 1.5236, 'grad_norm': 2.7860794067382812, 'learning_rate': 3.7774167343623073e-07, 'epoch': 2.81}
+{'loss': 1.4581, 'grad_norm': 2.717015266418457, 'learning_rate': 3.75710804224208e-07, 'epoch': 2.82}
+{'loss': 1.4585, 'grad_norm': 2.384920835494995, 'learning_rate': 3.7367993501218523e-07, 'epoch': 2.82}
+{'eval_loss': 1.758495569229126, 'eval_runtime': 37.7198, 'eval_samples_per_second': 26.511, 'eval_steps_per_second': 1.113, 'epoch': 2.82}
+{'loss': 1.433, 'grad_norm': 2.4380412101745605, 'learning_rate': 3.716490658001625e-07, 'epoch': 2.82}
+{'loss': 1.4865, 'grad_norm': 2.5318763256073, 'learning_rate': 3.696181965881398e-07, 'epoch': 2.82}
+{'loss': 1.4841, 'grad_norm': 2.453859806060791, 'learning_rate': 3.67587327376117e-07, 'epoch': 2.82}
+{'loss': 1.4423, 'grad_norm': 2.485440254211426, 'learning_rate': 3.655564581640943e-07, 'epoch': 2.82}
+{'loss': 1.4912, 'grad_norm': 2.4849774837493896, 'learning_rate': 3.6352558895207155e-07, 'epoch': 2.82}
+{'loss': 1.4954, 'grad_norm': 2.4696226119995117, 'learning_rate': 3.614947197400488e-07, 'epoch': 2.82}
+{'loss': 1.4568, 'grad_norm': 2.5011825561523438, 'learning_rate': 3.5946385052802605e-07, 'epoch': 2.82}
+{'loss': 1.516, 'grad_norm': 2.6500396728515625, 'learning_rate': 3.5743298131600333e-07, 'epoch': 2.83}
+{'loss': 1.4785, 'grad_norm': 2.6265909671783447, 'learning_rate': 3.554021121039805e-07, 'epoch': 2.83}
+{'loss': 1.4768, 'grad_norm': 2.585811138153076, 'learning_rate': 3.533712428919578e-07, 'epoch': 2.83}
+{'eval_loss': 1.756937026977539, 'eval_runtime': 37.7136, 'eval_samples_per_second': 26.516, 'eval_steps_per_second': 1.114, 'epoch': 2.83}
+{'loss': 1.4401, 'grad_norm': 2.5015268325805664, 'learning_rate': 3.5134037367993505e-07, 'epoch': 2.83}
+{'loss': 1.47, 'grad_norm': 2.4453351497650146, 'learning_rate': 3.4930950446791227e-07, 'epoch': 2.83}
+{'loss': 1.5188, 'grad_norm': 2.4671990871429443, 'learning_rate': 3.4727863525588955e-07, 'epoch': 2.83}
+{'loss': 1.4824, 'grad_norm': 2.42610502243042, 'learning_rate': 3.452477660438668e-07, 'epoch': 2.83}
+{'loss': 1.4344, 'grad_norm': 2.5470309257507324, 'learning_rate': 3.4321689683184405e-07, 'epoch': 2.83}
+{'loss': 1.4822, 'grad_norm': 2.38942813873291, 'learning_rate': 3.411860276198213e-07, 'epoch': 2.83}
+{'loss': 1.4778, 'grad_norm': 2.405794858932495, 'learning_rate': 3.391551584077986e-07, 'epoch': 2.84}
+{'loss': 1.4484, 'grad_norm': 2.5741047859191895, 'learning_rate': 3.3712428919577577e-07, 'epoch': 2.84}
+{'loss': 1.4703, 'grad_norm': 2.5372536182403564, 'learning_rate': 3.3509341998375304e-07, 'epoch': 2.84}
+{'loss': 1.5208, 'grad_norm': 2.580955743789673, 'learning_rate': 3.330625507717303e-07, 'epoch': 2.84}
+{'eval_loss': 1.7577269077301025, 'eval_runtime': 37.7049, 'eval_samples_per_second': 26.522, 'eval_steps_per_second': 1.114, 'epoch': 2.84}
+{'loss': 1.551, 'grad_norm': 2.889277219772339, 'learning_rate': 3.3103168155970754e-07, 'epoch': 2.84}
+{'loss': 1.4826, 'grad_norm': 2.524900197982788, 'learning_rate': 3.290008123476848e-07, 'epoch': 2.84}
+{'loss': 1.4153, 'grad_norm': 2.403402805328369, 'learning_rate': 3.269699431356621e-07, 'epoch': 2.84}
+{'loss': 1.5265, 'grad_norm': 2.469451665878296, 'learning_rate': 3.249390739236393e-07, 'epoch': 2.84}
+{'loss': 1.5285, 'grad_norm': 2.6333789825439453, 'learning_rate': 3.229082047116166e-07, 'epoch': 2.84}
+{'loss': 1.5095, 'grad_norm': 2.6433093547821045, 'learning_rate': 3.2087733549959387e-07, 'epoch': 2.84}
+{'loss': 1.5172, 'grad_norm': 2.506256580352783, 'learning_rate': 3.1884646628757114e-07, 'epoch': 2.85}
+{'loss': 1.4621, 'grad_norm': 2.5813992023468018, 'learning_rate': 3.1681559707554837e-07, 'epoch': 2.85}
+{'loss': 1.4868, 'grad_norm': 2.586965560913086, 'learning_rate': 3.1478472786352564e-07, 'epoch': 2.85}
+{'loss': 1.476, 'grad_norm': 2.520632266998291, 'learning_rate': 3.127538586515029e-07, 'epoch': 2.85}
+{'eval_loss': 1.7549660205841064, 'eval_runtime': 37.6888, 'eval_samples_per_second': 26.533, 'eval_steps_per_second': 1.114, 'epoch': 2.85}
+{'loss': 1.4213, 'grad_norm': 2.4896976947784424, 'learning_rate': 3.107229894394801e-07, 'epoch': 2.85}
+{'loss': 1.4805, 'grad_norm': 2.5692496299743652, 'learning_rate': 3.0869212022745736e-07, 'epoch': 2.85}
+{'loss': 1.5365, 'grad_norm': 2.655449867248535, 'learning_rate': 3.0666125101543464e-07, 'epoch': 2.85}
+{'loss': 1.4863, 'grad_norm': 2.5829265117645264, 'learning_rate': 3.046303818034119e-07, 'epoch': 2.85}
+{'loss': 1.3759, 'grad_norm': 2.3873660564422607, 'learning_rate': 3.0259951259138914e-07, 'epoch': 2.85}
+{'loss': 1.4662, 'grad_norm': 2.6008927822113037, 'learning_rate': 3.0056864337936636e-07, 'epoch': 2.86}
+{'loss': 1.4933, 'grad_norm': 2.459508180618286, 'learning_rate': 2.9853777416734364e-07, 'epoch': 2.86}
+{'loss': 1.4426, 'grad_norm': 2.6592800617218018, 'learning_rate': 2.965069049553209e-07, 'epoch': 2.86}
+{'loss': 1.4474, 'grad_norm': 2.510655164718628, 'learning_rate': 2.9447603574329814e-07, 'epoch': 2.86}
+{'loss': 1.3858, 'grad_norm': 2.437218189239502, 'learning_rate': 2.924451665312754e-07, 'epoch': 2.86}
+{'eval_loss': 1.7561789751052856, 'eval_runtime': 37.312, 'eval_samples_per_second': 26.801, 'eval_steps_per_second': 1.126, 'epoch': 2.86}
+{'loss': 1.4601, 'grad_norm': 2.526031017303467, 'learning_rate': 2.904142973192527e-07, 'epoch': 2.86}
+{'loss': 1.4699, 'grad_norm': 2.587799072265625, 'learning_rate': 2.883834281072299e-07, 'epoch': 2.86}
+{'loss': 1.4064, 'grad_norm': 2.404371738433838, 'learning_rate': 2.863525588952072e-07, 'epoch': 2.86}
+{'loss': 1.4915, 'grad_norm': 2.390719413757324, 'learning_rate': 2.843216896831844e-07, 'epoch': 2.86}
+{'loss': 1.4615, 'grad_norm': 2.4398462772369385, 'learning_rate': 2.822908204711617e-07, 'epoch': 2.87}
+{'loss': 1.5091, 'grad_norm': 2.5778915882110596, 'learning_rate': 2.8025995125913896e-07, 'epoch': 2.87}
+{'loss': 1.4769, 'grad_norm': 2.41282320022583, 'learning_rate': 2.782290820471162e-07, 'epoch': 2.87}
+{'loss': 1.4961, 'grad_norm': 2.5774948596954346, 'learning_rate': 2.761982128350934e-07, 'epoch': 2.87}
+{'loss': 1.4859, 'grad_norm': 2.3444149494171143, 'learning_rate': 2.741673436230707e-07, 'epoch': 2.87}
+{'loss': 1.4113, 'grad_norm': 2.3520047664642334, 'learning_rate': 2.7213647441104796e-07, 'epoch': 2.87}
+{'eval_loss': 1.75510835647583, 'eval_runtime': 37.4986, 'eval_samples_per_second': 26.668, 'eval_steps_per_second': 1.12, 'epoch': 2.87}
+{'loss': 1.4684, 'grad_norm': 2.600649833679199, 'learning_rate': 2.7010560519902523e-07, 'epoch': 2.87}
+{'loss': 1.434, 'grad_norm': 2.4840540885925293, 'learning_rate': 2.6807473598700246e-07, 'epoch': 2.87}
+{'loss': 1.4592, 'grad_norm': 2.3999266624450684, 'learning_rate': 2.660438667749797e-07, 'epoch': 2.87}
+{'loss': 1.4664, 'grad_norm': 2.4694485664367676, 'learning_rate': 2.6401299756295696e-07, 'epoch': 2.88}
+{'loss': 1.424, 'grad_norm': 2.4871623516082764, 'learning_rate': 2.6198212835093423e-07, 'epoch': 2.88}
+{'loss': 1.446, 'grad_norm': 2.4710566997528076, 'learning_rate': 2.5995125913891145e-07, 'epoch': 2.88}
+{'loss': 1.4871, 'grad_norm': 2.467316150665283, 'learning_rate': 2.5792038992688873e-07, 'epoch': 2.88}
+{'loss': 1.4756, 'grad_norm': 2.542356014251709, 'learning_rate': 2.55889520714866e-07, 'epoch': 2.88}
+{'loss': 1.4823, 'grad_norm': 2.4192306995391846, 'learning_rate': 2.5385865150284323e-07, 'epoch': 2.88}
+{'loss': 1.4958, 'grad_norm': 2.4710187911987305, 'learning_rate': 2.518277822908205e-07, 'epoch': 2.88}
+{'eval_loss': 1.7556113004684448, 'eval_runtime': 37.6003, 'eval_samples_per_second': 26.596, 'eval_steps_per_second': 1.117, 'epoch': 2.88}
+{'loss': 1.4317, 'grad_norm': 2.497774839401245, 'learning_rate': 2.4979691307879773e-07, 'epoch': 2.88}
+{'loss': 1.4234, 'grad_norm': 2.5158870220184326, 'learning_rate': 2.47766043866775e-07, 'epoch': 2.88}
+{'loss': 1.4938, 'grad_norm': 2.5345382690429688, 'learning_rate': 2.457351746547523e-07, 'epoch': 2.89}
+{'loss': 1.4865, 'grad_norm': 2.631269931793213, 'learning_rate': 2.437043054427295e-07, 'epoch': 2.89}
+{'loss': 1.4078, 'grad_norm': 2.591371536254883, 'learning_rate': 2.416734362307068e-07, 'epoch': 2.89}
+{'loss': 1.4875, 'grad_norm': 2.501225471496582, 'learning_rate': 2.39642567018684e-07, 'epoch': 2.89}
+{'loss': 1.4527, 'grad_norm': 2.4871745109558105, 'learning_rate': 2.3761169780666125e-07, 'epoch': 2.89}
+{'loss': 1.4069, 'grad_norm': 2.415954351425171, 'learning_rate': 2.3558082859463852e-07, 'epoch': 2.89}
+{'loss': 1.515, 'grad_norm': 2.418102264404297, 'learning_rate': 2.3354995938261577e-07, 'epoch': 2.89}
+{'loss': 1.479, 'grad_norm': 2.564100742340088, 'learning_rate': 2.3151909017059302e-07, 'epoch': 2.89}
+{'eval_loss': 1.756821870803833, 'eval_runtime': 37.5901, 'eval_samples_per_second': 26.603, 'eval_steps_per_second': 1.117, 'epoch': 2.89}
+{'loss': 1.4355, 'grad_norm': 2.5123181343078613, 'learning_rate': 2.294882209585703e-07, 'epoch': 2.89}
+{'loss': 1.4751, 'grad_norm': 2.5587167739868164, 'learning_rate': 2.2745735174654755e-07, 'epoch': 2.9}
+{'loss': 1.5058, 'grad_norm': 2.659717559814453, 'learning_rate': 2.2542648253452477e-07, 'epoch': 2.9}
+{'loss': 1.4995, 'grad_norm': 2.679939031600952, 'learning_rate': 2.2339561332250205e-07, 'epoch': 2.9}
+{'loss': 1.4624, 'grad_norm': 2.4760844707489014, 'learning_rate': 2.213647441104793e-07, 'epoch': 2.9}
+{'loss': 1.4556, 'grad_norm': 2.6954996585845947, 'learning_rate': 2.1933387489845655e-07, 'epoch': 2.9}
+{'loss': 1.4998, 'grad_norm': 2.5184528827667236, 'learning_rate': 2.1730300568643382e-07, 'epoch': 2.9}
+{'loss': 1.465, 'grad_norm': 2.5288169384002686, 'learning_rate': 2.1527213647441107e-07, 'epoch': 2.9}
+{'loss': 1.4863, 'grad_norm': 2.5039658546447754, 'learning_rate': 2.1324126726238835e-07, 'epoch': 2.9}
+{'loss': 1.5198, 'grad_norm': 2.572702646255493, 'learning_rate': 2.1121039805036557e-07, 'epoch': 2.9}
+{'eval_loss': 1.7564728260040283, 'eval_runtime': 37.6038, 'eval_samples_per_second': 26.593, 'eval_steps_per_second': 1.117, 'epoch': 2.9}
+{'loss': 1.4434, 'grad_norm': 2.4858720302581787, 'learning_rate': 2.0917952883834282e-07, 'epoch': 2.91}
+{'loss': 1.436, 'grad_norm': 2.838589906692505, 'learning_rate': 2.071486596263201e-07, 'epoch': 2.91}
+{'loss': 1.5047, 'grad_norm': 2.677274703979492, 'learning_rate': 2.0511779041429734e-07, 'epoch': 2.91}
+{'loss': 1.5039, 'grad_norm': 2.521758556365967, 'learning_rate': 2.0308692120227457e-07, 'epoch': 2.91}
+{'loss': 1.5386, 'grad_norm': 2.6235134601593018, 'learning_rate': 2.0105605199025184e-07, 'epoch': 2.91}
+{'loss': 1.4242, 'grad_norm': 2.504297971725464, 'learning_rate': 1.990251827782291e-07, 'epoch': 2.91}
+{'loss': 1.4701, 'grad_norm': 2.608226776123047, 'learning_rate': 1.9699431356620634e-07, 'epoch': 2.91}
+{'loss': 1.4604, 'grad_norm': 2.4893200397491455, 'learning_rate': 1.9496344435418362e-07, 'epoch': 2.91}
+{'loss': 1.4621, 'grad_norm': 2.371659755706787, 'learning_rate': 1.9293257514216087e-07, 'epoch': 2.91}
+{'loss': 1.4538, 'grad_norm': 2.3916192054748535, 'learning_rate': 1.909017059301381e-07, 'epoch': 2.92}
+{'eval_loss': 1.757574439048767, 'eval_runtime': 37.6144, 'eval_samples_per_second': 26.586, 'eval_steps_per_second': 1.117, 'epoch': 2.92}
+{'loss': 1.486, 'grad_norm': 2.624852418899536, 'learning_rate': 1.8887083671811536e-07, 'epoch': 2.92}
+{'loss': 1.5467, 'grad_norm': 2.65087890625, 'learning_rate': 1.8683996750609261e-07, 'epoch': 2.92}
+{'loss': 1.4619, 'grad_norm': 2.522213935852051, 'learning_rate': 1.848090982940699e-07, 'epoch': 2.92}
+{'loss': 1.489, 'grad_norm': 2.5217299461364746, 'learning_rate': 1.8277822908204714e-07, 'epoch': 2.92}
+{'loss': 1.5778, 'grad_norm': 2.5933945178985596, 'learning_rate': 1.807473598700244e-07, 'epoch': 2.92}
+{'loss': 1.4916, 'grad_norm': 2.533925771713257, 'learning_rate': 1.7871649065800166e-07, 'epoch': 2.92}
+{'loss': 1.4827, 'grad_norm': 2.595357894897461, 'learning_rate': 1.766856214459789e-07, 'epoch': 2.92}
+{'loss': 1.4688, 'grad_norm': 2.4979615211486816, 'learning_rate': 1.7465475223395614e-07, 'epoch': 2.92}
+{'loss': 1.4555, 'grad_norm': 2.4219233989715576, 'learning_rate': 1.726238830219334e-07, 'epoch': 2.92}
+{'loss': 1.4243, 'grad_norm': 2.447871208190918, 'learning_rate': 1.7059301380991066e-07, 'epoch': 2.93}
+{'eval_loss': 1.755138635635376, 'eval_runtime': 37.5955, 'eval_samples_per_second': 26.599, 'eval_steps_per_second': 1.117, 'epoch': 2.93}
+{'loss': 1.4982, 'grad_norm': 2.547088384628296, 'learning_rate': 1.6856214459788788e-07, 'epoch': 2.93}
+{'loss': 1.4269, 'grad_norm': 2.450535535812378, 'learning_rate': 1.6653127538586516e-07, 'epoch': 2.93}
+{'loss': 1.4776, 'grad_norm': 2.4179506301879883, 'learning_rate': 1.645004061738424e-07, 'epoch': 2.93}
+{'loss': 1.5147, 'grad_norm': 2.5389745235443115, 'learning_rate': 1.6246953696181966e-07, 'epoch': 2.93}
+{'loss': 1.4787, 'grad_norm': 2.5165224075317383, 'learning_rate': 1.6043866774979693e-07, 'epoch': 2.93}
+{'loss': 1.4632, 'grad_norm': 2.614436626434326, 'learning_rate': 1.5840779853777418e-07, 'epoch': 2.93}
+{'loss': 1.5126, 'grad_norm': 2.5019233226776123, 'learning_rate': 1.5637692932575146e-07, 'epoch': 2.93}
+{'loss': 1.5026, 'grad_norm': 2.4704155921936035, 'learning_rate': 1.5434606011372868e-07, 'epoch': 2.93}
+{'loss': 1.4926, 'grad_norm': 2.4649817943573, 'learning_rate': 1.5231519090170596e-07, 'epoch': 2.94}
+{'loss': 1.5226, 'grad_norm': 2.564509391784668, 'learning_rate': 1.5028432168968318e-07, 'epoch': 2.94}
+{'eval_loss': 1.7554523944854736, 'eval_runtime': 37.5888, 'eval_samples_per_second': 26.604, 'eval_steps_per_second': 1.117, 'epoch': 2.94}
+{'loss': 1.4592, 'grad_norm': 2.4155430793762207, 'learning_rate': 1.4825345247766046e-07, 'epoch': 2.94}
+{'loss': 1.4512, 'grad_norm': 2.612090587615967, 'learning_rate': 1.462225832656377e-07, 'epoch': 2.94}
+{'loss': 1.4943, 'grad_norm': 2.541945695877075, 'learning_rate': 1.4419171405361496e-07, 'epoch': 2.94}
+{'loss': 1.4937, 'grad_norm': 2.613189697265625, 'learning_rate': 1.421608448415922e-07, 'epoch': 2.94}
+{'loss': 1.5159, 'grad_norm': 2.4405603408813477, 'learning_rate': 1.4012997562956948e-07, 'epoch': 2.94}
+{'loss': 1.5108, 'grad_norm': 2.567662477493286, 'learning_rate': 1.380991064175467e-07, 'epoch': 2.94}
+{'loss': 1.4675, 'grad_norm': 2.520508050918579, 'learning_rate': 1.3606823720552398e-07, 'epoch': 2.94}
+{'loss': 1.4882, 'grad_norm': 2.5929958820343018, 'learning_rate': 1.3403736799350123e-07, 'epoch': 2.95}
+{'loss': 1.519, 'grad_norm': 2.711888551712036, 'learning_rate': 1.3200649878147848e-07, 'epoch': 2.95}
+{'loss': 1.4933, 'grad_norm': 2.6347458362579346, 'learning_rate': 1.2997562956945573e-07, 'epoch': 2.95}
+{'eval_loss': 1.7568355798721313, 'eval_runtime': 37.541, 'eval_samples_per_second': 26.638, 'eval_steps_per_second': 1.119, 'epoch': 2.95}
+{'loss': 1.4528, 'grad_norm': 2.7601516246795654, 'learning_rate': 1.27944760357433e-07, 'epoch': 2.95}
+{'loss': 1.4309, 'grad_norm': 2.379666328430176, 'learning_rate': 1.2591389114541025e-07, 'epoch': 2.95}
+{'loss': 1.4324, 'grad_norm': 2.4886715412139893, 'learning_rate': 1.238830219333875e-07, 'epoch': 2.95}
+{'loss': 1.4997, 'grad_norm': 2.5974278450012207, 'learning_rate': 1.2185215272136475e-07, 'epoch': 2.95}
+{'loss': 1.5117, 'grad_norm': 2.626699447631836, 'learning_rate': 1.19821283509342e-07, 'epoch': 2.95}
+{'loss': 1.4501, 'grad_norm': 2.417567014694214, 'learning_rate': 1.1779041429731926e-07, 'epoch': 2.95}
+{'loss': 1.4682, 'grad_norm': 2.475234270095825, 'learning_rate': 1.1575954508529651e-07, 'epoch': 2.96}
+{'loss': 1.5207, 'grad_norm': 2.5720300674438477, 'learning_rate': 1.1372867587327377e-07, 'epoch': 2.96}
+{'loss': 1.4541, 'grad_norm': 2.484419584274292, 'learning_rate': 1.1169780666125102e-07, 'epoch': 2.96}
+{'loss': 1.4647, 'grad_norm': 2.594545602798462, 'learning_rate': 1.0966693744922827e-07, 'epoch': 2.96}
+{'eval_loss': 1.7571444511413574, 'eval_runtime': 37.53, 'eval_samples_per_second': 26.645, 'eval_steps_per_second': 1.119, 'epoch': 2.96}
+{'loss': 1.4887, 'grad_norm': 2.528614044189453, 'learning_rate': 1.0763606823720554e-07, 'epoch': 2.96}
+{'loss': 1.4883, 'grad_norm': 2.588796377182007, 'learning_rate': 1.0560519902518278e-07, 'epoch': 2.96}
+{'loss': 1.5398, 'grad_norm': 2.734463930130005, 'learning_rate': 1.0357432981316005e-07, 'epoch': 2.96}
+{'loss': 1.4532, 'grad_norm': 2.482905387878418, 'learning_rate': 1.0154346060113728e-07, 'epoch': 2.96}
+{'loss': 1.4803, 'grad_norm': 2.5101163387298584, 'learning_rate': 9.951259138911455e-08, 'epoch': 2.96}
+{'loss': 1.4713, 'grad_norm': 2.4551336765289307, 'learning_rate': 9.748172217709181e-08, 'epoch': 2.97}
+{'loss': 1.4691, 'grad_norm': 2.4423375129699707, 'learning_rate': 9.545085296506904e-08, 'epoch': 2.97}
+{'loss': 1.458, 'grad_norm': 2.3837788105010986, 'learning_rate': 9.341998375304631e-08, 'epoch': 2.97}
+{'loss': 1.5064, 'grad_norm': 2.4290149211883545, 'learning_rate': 9.138911454102357e-08, 'epoch': 2.97}
+{'loss': 1.452, 'grad_norm': 2.444812059402466, 'learning_rate': 8.935824532900083e-08, 'epoch': 2.97}
+{'eval_loss': 1.7514458894729614, 'eval_runtime': 37.3022, 'eval_samples_per_second': 26.808, 'eval_steps_per_second': 1.126, 'epoch': 2.97}
+{'loss': 1.4153, 'grad_norm': 2.387338638305664, 'learning_rate': 8.732737611697807e-08, 'epoch': 2.97}
+{'loss': 1.4849, 'grad_norm': 2.5606470108032227, 'learning_rate': 8.529650690495533e-08, 'epoch': 2.97}
+{'loss': 1.5202, 'grad_norm': 2.569808006286621, 'learning_rate': 8.326563769293258e-08, 'epoch': 2.97}
+{'loss': 1.4797, 'grad_norm': 2.632575273513794, 'learning_rate': 8.123476848090983e-08, 'epoch': 2.97}
+{'loss': 1.4986, 'grad_norm': 2.6097748279571533, 'learning_rate': 7.920389926888709e-08, 'epoch': 2.98}
+{'loss': 1.536, 'grad_norm': 2.5638246536254883, 'learning_rate': 7.717303005686434e-08, 'epoch': 2.98}
+{'loss': 1.4649, 'grad_norm': 2.5555429458618164, 'learning_rate': 7.514216084484159e-08, 'epoch': 2.98}
+{'loss': 1.5019, 'grad_norm': 2.513848304748535, 'learning_rate': 7.311129163281885e-08, 'epoch': 2.98}
+{'loss': 1.4587, 'grad_norm': 2.520888328552246, 'learning_rate': 7.10804224207961e-08, 'epoch': 2.98}
+{'loss': 1.4952, 'grad_norm': 2.559746026992798, 'learning_rate': 6.904955320877335e-08, 'epoch': 2.98}
+{'eval_loss': 1.7529022693634033, 'eval_runtime': 37.4839, 'eval_samples_per_second': 26.678, 'eval_steps_per_second': 1.12, 'epoch': 2.98}
+{'loss': 1.4775, 'grad_norm': 2.5069644451141357, 'learning_rate': 6.701868399675061e-08, 'epoch': 2.98}
+{'loss': 1.5241, 'grad_norm': 2.563426971435547, 'learning_rate': 6.498781478472786e-08, 'epoch': 2.98}
+{'loss': 1.4984, 'grad_norm': 2.663285732269287, 'learning_rate': 6.295694557270513e-08, 'epoch': 2.98}
+{'loss': 1.4843, 'grad_norm': 2.5691983699798584, 'learning_rate': 6.092607636068238e-08, 'epoch': 2.99}
+{'loss': 1.4673, 'grad_norm': 2.423488140106201, 'learning_rate': 5.889520714865963e-08, 'epoch': 2.99}
+{'loss': 1.5603, 'grad_norm': 2.666794776916504, 'learning_rate': 5.686433793663689e-08, 'epoch': 2.99}
+{'loss': 1.485, 'grad_norm': 2.4962499141693115, 'learning_rate': 5.4833468724614136e-08, 'epoch': 2.99}
+{'loss': 1.4213, 'grad_norm': 2.520948648452759, 'learning_rate': 5.280259951259139e-08, 'epoch': 2.99}
+{'loss': 1.4236, 'grad_norm': 2.58780837059021, 'learning_rate': 5.077173030056864e-08, 'epoch': 2.99}
+{'loss': 1.5261, 'grad_norm': 2.7202913761138916, 'learning_rate': 4.8740861088545904e-08, 'epoch': 2.99}
+{'eval_loss': 1.7563401460647583, 'eval_runtime': 37.5815, 'eval_samples_per_second': 26.609, 'eval_steps_per_second': 1.118, 'epoch': 2.99}
+{'loss': 1.5484, 'grad_norm': 2.7922751903533936, 'learning_rate': 4.6709991876523154e-08, 'epoch': 2.99}
+{'loss': 1.4763, 'grad_norm': 2.4539175033569336, 'learning_rate': 4.4679122664500416e-08, 'epoch': 2.99}
+{'loss': 1.5313, 'grad_norm': 2.4568703174591064, 'learning_rate': 4.2648253452477665e-08, 'epoch': 3.0}
+{'loss': 1.4818, 'grad_norm': 2.506694793701172, 'learning_rate': 4.0617384240454915e-08, 'epoch': 3.0}
+{'loss': 1.4803, 'grad_norm': 2.5013206005096436, 'learning_rate': 3.858651502843217e-08, 'epoch': 3.0}
+{'loss': 1.5222, 'grad_norm': 2.450589656829834, 'learning_rate': 3.6555645816409427e-08, 'epoch': 3.0}
+{'train_runtime': 42499.368, 'train_samples_per_second': 1.159, 'train_steps_per_second': 0.064, 'train_loss': 1.6363253857482944, 'epoch': 3.0}
diff --git a/wandb/run-20241118_234414-lnbdfbec/files/wandb-metadata.json b/wandb/run-20241118_234414-lnbdfbec/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..98dcce0138111263642236a69e19cff0d2655aec
--- /dev/null
+++ b/wandb/run-20241118_234414-lnbdfbec/files/wandb-metadata.json
@@ -0,0 +1,97 @@
+{
+  "os":  "Linux-5.4.0-162-generic-x86_64-with-glibc2.31",
+  "python":  "3.9.19",
+  "startedAt":  "2024-11-19T04:44:14.053003Z",
+  "args":  [
+    "--perturbation",
+    "shuffle_even_odd",
+    "--train_set",
+    "10M",
+    "--batch_size",
+    "3",
+    "--epoch",
+    "3",
+    "--seed",
+    "0"
+  ],
+  "program":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py",
+  "codePath":  "train/train_ftp.py",
+  "git":  {
+    "remote":  "git@hf.co:Yaning1001/Impossible_llm.git",
+    "commit":  "ed716cdcfcdea02b67f7ed0f3504c2b1c8b737c4"
+  },
+  "email":  "yaning1001@gmail.com",
+  "root":  "/mnt/ssd3/chunhui/yaning/project/impossible_llm/train",
+  "host":  "mms-large-2",
+  "username":  "chunhui",
+  "executable":  "/mnt/ssd3/chunhui/miniconda/envs/impossible_llm/bin/python",
+  "codePathLocal":  "train_ftp.py",
+  "cpu_count":  32,
+  "cpu_count_logical":  64,
+  "gpu":  "NVIDIA RTX A6000",
+  "gpu_count":  8,
+  "disk":  {
+    "/":  {
+      "total":  "1888559353856",
+      "used":  "1758621077504"
+    }
+  },
+  "memory":  {
+    "total":  "202617098240"
+  },
+  "cpu":  {
+    "count":  32,
+    "countLogical":  64
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    },
+    {
+      "name":  "NVIDIA RTX A6000",
+      "memoryTotal":  "51527024640",
+      "cudaCores":  10752,
+      "architecture":  "Ampere"
+    }
+  ],
+  "cudaVersion":  "11.8"
+}
\ No newline at end of file
diff --git a/wandb/run-20241118_234414-lnbdfbec/files/wandb-summary.json b/wandb/run-20241118_234414-lnbdfbec/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..df9edaa6472ee4dc53ba025bad9889a3f3c72258
--- /dev/null
+++ b/wandb/run-20241118_234414-lnbdfbec/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_timestamp":1.7320342526100469e+09,"train_steps_per_second":0.064,"train/grad_norm":2.450589656829834,"_wandb":{"runtime":42798},"train/epoch":2.9983561643835617,"eval/samples_per_second":26.609,"eval/steps_per_second":1.118,"eval/loss":1.7563401460647583,"total_flos":8.528958544014213e+17,"eval/runtime":37.5815,"_step":3009,"train/learning_rate":3.6555645816409427e-08,"train_loss":1.6363253857482944,"train_samples_per_second":1.159,"train_runtime":42499.368,"train/loss":1.5222,"train/global_step":2736,"_runtime":42798.599893736}
\ No newline at end of file
diff --git a/wandb/run-20241118_234414-lnbdfbec/logs/debug-internal.log b/wandb/run-20241118_234414-lnbdfbec/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..404823a9e3a4cd0a153190ffa0f34a2eb84084a3
--- /dev/null
+++ b/wandb/run-20241118_234414-lnbdfbec/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2024-11-18T23:44:14.055742965-05:00","level":"INFO","msg":"using version","core version":"0.18.5"}
+{"time":"2024-11-18T23:44:14.055764205-05:00","level":"INFO","msg":"created symlink","path":"/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241118_234414-lnbdfbec/logs/debug-core.log"}
+{"time":"2024-11-18T23:44:14.162394634-05:00","level":"INFO","msg":"created new stream","id":"lnbdfbec"}
+{"time":"2024-11-18T23:44:14.162426924-05:00","level":"INFO","msg":"stream: started","id":"lnbdfbec"}
+{"time":"2024-11-18T23:44:14.162527385-05:00","level":"INFO","msg":"sender: started","stream_id":"lnbdfbec"}
+{"time":"2024-11-18T23:44:14.162509755-05:00","level":"INFO","msg":"handler: started","stream_id":{"value":"lnbdfbec"}}
+{"time":"2024-11-18T23:44:14.162499145-05:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"lnbdfbec"}}
+{"time":"2024-11-18T23:44:14.363458954-05:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-11-19T00:11:05.027386418-05:00","level":"INFO","msg":"api: retrying HTTP error","status":500,"url":"https://api.wandb.ai/files/yaning1001-dartmouth-college/exp-impo-shuffle/lnbdfbec/file_stream"}
+{"time":"2024-11-19T11:37:32.746971427-05:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2024-11-19T11:37:32.770254149-05:00","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2024-11-19T11:37:33.626922185-05:00","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2024-11-19T11:37:33.756438806-05:00","level":"INFO","msg":"handler: operation stats","stats":{}}
+{"time":"2024-11-19T11:37:34.784208415-05:00","level":"INFO","msg":"stream: closing","id":"lnbdfbec"}
+{"time":"2024-11-19T11:37:34.784251155-05:00","level":"INFO","msg":"handler: closed","stream_id":{"value":"lnbdfbec"}}
+{"time":"2024-11-19T11:37:34.784268965-05:00","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"lnbdfbec"}}
+{"time":"2024-11-19T11:37:34.784316836-05:00","level":"INFO","msg":"sender: closed","stream_id":"lnbdfbec"}
+{"time":"2024-11-19T11:37:34.784386066-05:00","level":"INFO","msg":"stream: closed","id":"lnbdfbec"}
diff --git a/wandb/run-20241118_234414-lnbdfbec/logs/debug.log b/wandb/run-20241118_234414-lnbdfbec/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..96051746969a27997b9d952d2d3afd6f9b9a9649
--- /dev/null
+++ b/wandb/run-20241118_234414-lnbdfbec/logs/debug.log
@@ -0,0 +1,36 @@
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Current SDK version is 0.18.5
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Configure stats pid to 2716343
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Loading settings from /home/chunhui/.config/wandb/settings
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Loading settings from /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/settings
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': None, '_disable_service': None}
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train/train_ftp.py', 'program_abspath': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py', 'program': '/mnt/ssd3/chunhui/yaning/project/impossible_llm/train/train_ftp.py'}
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_init.py:_log_setup():534] Logging user logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241118_234414-lnbdfbec/logs/debug.log
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_init.py:_log_setup():535] Logging internal logs to /mnt/ssd3/chunhui/yaning/project/impossible_llm/train/wandb/run-20241118_234414-lnbdfbec/logs/debug-internal.log
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_init.py:init():621] calling init triggers
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_init.py:init():628] wandb.init called with sweep_config: {}
+config: {}
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_init.py:init():671] starting backend
+2024-11-18 23:44:14,051 INFO    MainThread:2716343 [wandb_init.py:init():675] sending inform_init request
+2024-11-18 23:44:14,052 INFO    MainThread:2716343 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-11-18 23:44:14,052 INFO    MainThread:2716343 [wandb_init.py:init():688] backend started and connected
+2024-11-18 23:44:14,055 INFO    MainThread:2716343 [wandb_init.py:init():783] updated telemetry
+2024-11-18 23:44:14,081 INFO    MainThread:2716343 [wandb_init.py:init():816] communicating run to backend with 90.0 second timeout
+2024-11-18 23:44:14,359 INFO    MainThread:2716343 [wandb_init.py:init():867] starting run threads in backend
+2024-11-18 23:44:14,471 INFO    MainThread:2716343 [wandb_run.py:_console_start():2463] atexit reg
+2024-11-18 23:44:14,471 INFO    MainThread:2716343 [wandb_run.py:_redirect():2311] redirect: wrap_raw
+2024-11-18 23:44:14,472 INFO    MainThread:2716343 [wandb_run.py:_redirect():2376] Wrapping output streams.
+2024-11-18 23:44:14,472 INFO    MainThread:2716343 [wandb_run.py:_redirect():2401] Redirects installed.
+2024-11-18 23:44:14,473 INFO    MainThread:2716343 [wandb_init.py:init():911] run started, returning control to user process
+2024-11-18 23:44:14,474 INFO    MainThread:2716343 [wandb_run.py:_config_callback():1390] config_cb None None {'perturbation': 'shuffle_even_odd', 'train_set': '10M', 'batch_size': 3, 'epoch': 3, 'seed': 0, 'lr': 5e-06}
+2024-11-18 23:49:13,244 INFO    MainThread:2716343 [wandb_run.py:_config_callback():1390] config_cb None None {'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'bfloat16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': None, 'eos_token_id': 128001, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'meta-llama/Llama-3.2-3B', 'transformers_version': '4.45.1', 'model_type': 'llama', 'output_dir': './checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_even_odd_10M_seed0/runs', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'steps', 'prediction_loss_only': False, 'per_device_train_batch_size': 3, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 2, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 5e-06, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 3, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.1, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': './logs', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 100, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 0, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': 10, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': './checkpoints/Llama-3.2-3B-FTP/babylm_shuffle_even_odd_10M_seed0/runs', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': 'deepspeed_config/train_dp_config.json', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'steps', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False}
+2024-11-18 23:49:13,246 INFO    MainThread:2716343 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3212749824 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7fd47404b370>>
+2024-11-18 23:49:13,246 INFO    MainThread:2716343 [wandb_run.py:_config_callback():1390] config_cb model/num_parameters 3212749824 None
+2024-11-19 11:37:32,740 INFO    MainThread:2716343 [wandb_run.py:_finish():2158] finishing run yaning1001-dartmouth-college/exp-impo-shuffle/lnbdfbec
+2024-11-19 11:37:32,746 INFO    MainThread:2716343 [wandb_run.py:_atexit_cleanup():2426] got exitcode: 0
+2024-11-19 11:37:32,746 INFO    MainThread:2716343 [wandb_run.py:_restore():2408] restore
+2024-11-19 11:37:32,746 INFO    MainThread:2716343 [wandb_run.py:_restore():2414] restore done
+2024-11-19 11:37:34,760 INFO    MainThread:2716343 [wandb_run.py:_footer_history_summary_info():3975] rendering history
+2024-11-19 11:37:34,762 INFO    MainThread:2716343 [wandb_run.py:_footer_history_summary_info():4007] rendering summary
+2024-11-19 11:37:34,783 INFO    MainThread:2716343 [wandb_run.py:_footer_sync_info():3934] logging synced files
diff --git a/wandb/run-20241130_000215-17dv9j80/run-17dv9j80.wandb b/wandb/run-20241130_000215-17dv9j80/run-17dv9j80.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..4bab2b57459c493e8e8cc8cf77daab3c598e01d2
--- /dev/null
+++ b/wandb/run-20241130_000215-17dv9j80/run-17dv9j80.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a6644a9763ad14665d26fa7e16ecd856e1bd910405c894486734b16ee5f0a28e
+size 16065797