1.5

Browse files

Files changed (13) hide show

README.md +14 -2
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +10 -10
eval_results.json +5 -5
experiment.config +25 -0
model.bin +0 -0
train_results.json +6 -6
trainer_log.jsonl +261 -11
trainer_state.json +1804 -44
training_args.bin +1 -1
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Llama-3.2-3B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) on the Klystroglobal dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0481
 ## Model description
@@ -45,10 +45,22 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 1
 ### Training results
 ### Framework versions

 This model is a fine-tuned version of [meta-llama/Llama-3.2-3B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) on the Klystroglobal dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0174
 ## Model description
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 35
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.0437        | 2.5   | 25   | 0.0340          |
+| 0.0098        | 5.0   | 50   | 0.0166          |
+| 0.0039        | 7.5   | 75   | 0.0165          |
+| 0.0021        | 10.0  | 100  | 0.0174          |
+| 0.0031        | 12.5  | 125  | 0.0145          |
+| 0.0022        | 15.0  | 150  | 0.0235          |
+| 0.0013        | 17.5  | 175  | 0.0187          |
+| 0.0012        | 20.0  | 200  | 0.0246          |
+| 0.0013        | 22.5  | 225  | 0.0264          |
+| 0.0013        | 25.0  | 250  | 0.0277          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "q_proj",
     "k_proj",
-    "gate_proj",
     "up_proj",
     "v_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "up_proj",
+    "gate_proj",
+    "down_proj",
     "v_proj",
+    "q_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c880d7f07bed6bd1deafc70a6cbafec879332cdd0d2b72d6d47889e9d417069
 size 1556140392

 version https://git-lfs.github.com/spec/v1
+oid sha256:e80bf440e224538c0d7fdaa085ba987418951442628ee238b39a518393c3690b
 size 1556140392

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 0.04813718795776367,
-    "eval_runtime": 8.1182,
-    "eval_samples_per_second": 12.318,
-    "eval_steps_per_second": 0.37,
-    "total_flos": 1.5338473968402432e+16,
-    "train_loss": 0.09183733761310578,
-    "train_runtime": 197.912,
-    "train_samples_per_second": 2.289,
-    "train_steps_per_second": 0.051
 }

 {
+    "epoch": 25.0,
+    "eval_loss": 0.017384245991706848,
+    "eval_runtime": 7.0041,
+    "eval_samples_per_second": 14.277,
+    "eval_steps_per_second": 0.428,
+    "total_flos": 3.832789293855867e+17,
+    "train_loss": 0.011958676076494158,
+    "train_runtime": 2822.6775,
+    "train_samples_per_second": 5.617,
+    "train_steps_per_second": 0.124
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 1.0,
-    "eval_loss": 0.04813718795776367,
-    "eval_runtime": 8.1182,
-    "eval_samples_per_second": 12.318,
-    "eval_steps_per_second": 0.37
 }

 {
+    "epoch": 25.0,
+    "eval_loss": 0.017384245991706848,
+    "eval_runtime": 7.0041,
+    "eval_samples_per_second": 14.277,
+    "eval_steps_per_second": 0.428
 }

experiment.config ADDED Viewed

	@@ -0,0 +1,25 @@

+vision_config {
+  vision_api: TEXT_DETECTION
+  feature_element: WORD
+  word_confidence_threshold: -0.1
+  return_raw_response: true
+}
+preprocess_config {
+  label_overlap_threshold: 0.4
+  num_processes: 4
+  rotation_fixer: VISION_BASED_FAST
+}
+train_config {
+  num_epochs: 1
+}
+version: "3.0.2"
+field_extraction {
+  sub_exp_config {
+    model_config {
+      architecture {
+        nova {
+        }
+      }
+    }
+  }
+}

model.bin ADDED Viewed

File without changes

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "total_flos": 1.5338473968402432e+16,
-    "train_loss": 0.09183733761310578,
-    "train_runtime": 197.912,
-    "train_samples_per_second": 2.289,
-    "train_steps_per_second": 0.051
 }

 {
+    "epoch": 25.0,
+    "total_flos": 3.832789293855867e+17,
+    "train_loss": 0.011958676076494158,
+    "train_runtime": 2822.6775,
+    "train_samples_per_second": 5.617,
+    "train_steps_per_second": 0.124
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,11 +1,261 @@
-{"current_steps": 1, "total_steps": 10, "loss": 0.1531, "lr": 0.0001, "epoch": 0.1, "percentage": 10.0, "elapsed_time": "0:00:30", "remaining_time": "0:04:34"}
-{"current_steps": 2, "total_steps": 10, "loss": 0.1308, "lr": 9.698463103929542e-05, "epoch": 0.2, "percentage": 20.0, "elapsed_time": "0:00:47", "remaining_time": "0:03:09"}
-{"current_steps": 3, "total_steps": 10, "loss": 0.1702, "lr": 8.83022221559489e-05, "epoch": 0.3, "percentage": 30.0, "elapsed_time": "0:01:05", "remaining_time": "0:02:33"}
-{"current_steps": 4, "total_steps": 10, "loss": 0.0813, "lr": 7.500000000000001e-05, "epoch": 0.4, "percentage": 40.0, "elapsed_time": "0:01:24", "remaining_time": "0:02:06"}
-{"current_steps": 5, "total_steps": 10, "loss": 0.0786, "lr": 5.868240888334653e-05, "epoch": 0.5, "percentage": 50.0, "elapsed_time": "0:01:43", "remaining_time": "0:01:43"}
-{"current_steps": 6, "total_steps": 10, "loss": 0.0576, "lr": 4.131759111665349e-05, "epoch": 0.6, "percentage": 60.0, "elapsed_time": "0:01:53", "remaining_time": "0:01:15"}
-{"current_steps": 7, "total_steps": 10, "loss": 0.0715, "lr": 2.500000000000001e-05, "epoch": 0.7, "percentage": 70.0, "elapsed_time": "0:02:31", "remaining_time": "0:01:05"}
-{"current_steps": 8, "total_steps": 10, "loss": 0.0518, "lr": 1.1697777844051105e-05, "epoch": 0.8, "percentage": 80.0, "elapsed_time": "0:02:42", "remaining_time": "0:00:40"}
-{"current_steps": 9, "total_steps": 10, "loss": 0.0697, "lr": 3.0153689607045845e-06, "epoch": 0.9, "percentage": 90.0, "elapsed_time": "0:02:52", "remaining_time": "0:00:19"}
-{"current_steps": 10, "total_steps": 10, "loss": 0.0538, "lr": 0.0, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "0:02:59", "remaining_time": "0:00:00"}
-{"current_steps": 10, "total_steps": 10, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "0:03:16", "remaining_time": "0:00:00"}

+{"current_steps": 1, "total_steps": 350, "loss": 0.1531, "lr": 2.8571428571428573e-06, "epoch": 0.1, "percentage": 0.29, "elapsed_time": "0:00:27", "remaining_time": "2:38:08"}
+{"current_steps": 2, "total_steps": 350, "loss": 0.1308, "lr": 5.7142857142857145e-06, "epoch": 0.2, "percentage": 0.57, "elapsed_time": "0:00:45", "remaining_time": "2:11:52"}
+{"current_steps": 3, "total_steps": 350, "loss": 0.1619, "lr": 8.571428571428573e-06, "epoch": 0.3, "percentage": 0.86, "elapsed_time": "0:01:04", "remaining_time": "2:04:36"}
+{"current_steps": 4, "total_steps": 350, "loss": 0.1325, "lr": 1.1428571428571429e-05, "epoch": 0.4, "percentage": 1.14, "elapsed_time": "0:01:17", "remaining_time": "1:51:35"}
+{"current_steps": 5, "total_steps": 350, "loss": 0.1206, "lr": 1.4285714285714285e-05, "epoch": 0.5, "percentage": 1.43, "elapsed_time": "0:01:27", "remaining_time": "1:40:58"}
+{"current_steps": 6, "total_steps": 350, "loss": 0.0875, "lr": 1.7142857142857145e-05, "epoch": 0.6, "percentage": 1.71, "elapsed_time": "0:01:38", "remaining_time": "1:33:50"}
+{"current_steps": 7, "total_steps": 350, "loss": 0.1067, "lr": 2e-05, "epoch": 0.7, "percentage": 2.0, "elapsed_time": "0:02:04", "remaining_time": "1:41:17"}
+{"current_steps": 8, "total_steps": 350, "loss": 0.0966, "lr": 2.2857142857142858e-05, "epoch": 0.8, "percentage": 2.29, "elapsed_time": "0:02:14", "remaining_time": "1:35:49"}
+{"current_steps": 9, "total_steps": 350, "loss": 0.1088, "lr": 2.5714285714285714e-05, "epoch": 0.9, "percentage": 2.57, "elapsed_time": "0:02:24", "remaining_time": "1:31:24"}
+{"current_steps": 10, "total_steps": 350, "loss": 0.0839, "lr": 2.857142857142857e-05, "epoch": 1.0, "percentage": 2.86, "elapsed_time": "0:02:37", "remaining_time": "1:29:20"}
+{"current_steps": 11, "total_steps": 350, "loss": 0.0713, "lr": 3.142857142857143e-05, "epoch": 1.1, "percentage": 3.14, "elapsed_time": "0:02:50", "remaining_time": "1:27:31"}
+{"current_steps": 12, "total_steps": 350, "loss": 0.0688, "lr": 3.428571428571429e-05, "epoch": 1.2, "percentage": 3.43, "elapsed_time": "0:03:00", "remaining_time": "1:24:44"}
+{"current_steps": 13, "total_steps": 350, "loss": 0.0688, "lr": 3.7142857142857143e-05, "epoch": 1.3, "percentage": 3.71, "elapsed_time": "0:03:12", "remaining_time": "1:23:01"}
+{"current_steps": 14, "total_steps": 350, "loss": 0.0668, "lr": 4e-05, "epoch": 1.4, "percentage": 4.0, "elapsed_time": "0:03:26", "remaining_time": "1:22:39"}
+{"current_steps": 15, "total_steps": 350, "loss": 0.0613, "lr": 4.2857142857142856e-05, "epoch": 1.5, "percentage": 4.29, "elapsed_time": "0:03:40", "remaining_time": "1:22:10"}
+{"current_steps": 16, "total_steps": 350, "loss": 0.052, "lr": 4.5714285714285716e-05, "epoch": 1.6, "percentage": 4.57, "elapsed_time": "0:03:53", "remaining_time": "1:21:24"}
+{"current_steps": 17, "total_steps": 350, "loss": 0.0581, "lr": 4.8571428571428576e-05, "epoch": 1.7, "percentage": 4.86, "elapsed_time": "0:04:07", "remaining_time": "1:20:46"}
+{"current_steps": 18, "total_steps": 350, "loss": 0.0482, "lr": 5.142857142857143e-05, "epoch": 1.8, "percentage": 5.14, "elapsed_time": "0:04:19", "remaining_time": "1:19:48"}
+{"current_steps": 19, "total_steps": 350, "loss": 0.0533, "lr": 5.428571428571428e-05, "epoch": 1.9, "percentage": 5.43, "elapsed_time": "0:04:30", "remaining_time": "1:18:32"}
+{"current_steps": 20, "total_steps": 350, "loss": 0.0513, "lr": 5.714285714285714e-05, "epoch": 2.0, "percentage": 5.71, "elapsed_time": "0:04:35", "remaining_time": "1:15:50"}
+{"current_steps": 21, "total_steps": 350, "loss": 0.042, "lr": 6e-05, "epoch": 2.1, "percentage": 6.0, "elapsed_time": "0:04:51", "remaining_time": "1:16:05"}
+{"current_steps": 22, "total_steps": 350, "loss": 0.0401, "lr": 6.285714285714286e-05, "epoch": 2.2, "percentage": 6.29, "elapsed_time": "0:05:05", "remaining_time": "1:15:51"}
+{"current_steps": 23, "total_steps": 350, "loss": 0.0382, "lr": 6.571428571428571e-05, "epoch": 2.3, "percentage": 6.57, "elapsed_time": "0:05:16", "remaining_time": "1:14:57"}
+{"current_steps": 24, "total_steps": 350, "loss": 0.034, "lr": 6.857142857142858e-05, "epoch": 2.4, "percentage": 6.86, "elapsed_time": "0:05:30", "remaining_time": "1:14:49"}
+{"current_steps": 25, "total_steps": 350, "loss": 0.0437, "lr": 7.142857142857143e-05, "epoch": 2.5, "percentage": 7.14, "elapsed_time": "0:05:44", "remaining_time": "1:14:38"}
+{"current_steps": 25, "total_steps": 350, "eval_loss": 0.03402441740036011, "epoch": 2.5, "percentage": 7.14, "elapsed_time": "0:06:03", "remaining_time": "1:18:51"}
+{"current_steps": 26, "total_steps": 350, "loss": 0.0422, "lr": 7.428571428571429e-05, "epoch": 2.6, "percentage": 7.43, "elapsed_time": "0:06:16", "remaining_time": "1:18:17"}
+{"current_steps": 27, "total_steps": 350, "loss": 0.0264, "lr": 7.714285714285715e-05, "epoch": 2.7, "percentage": 7.71, "elapsed_time": "0:06:30", "remaining_time": "1:17:48"}
+{"current_steps": 28, "total_steps": 350, "loss": 0.0377, "lr": 8e-05, "epoch": 2.8, "percentage": 8.0, "elapsed_time": "0:06:41", "remaining_time": "1:16:57"}
+{"current_steps": 29, "total_steps": 350, "loss": 0.0289, "lr": 8.285714285714287e-05, "epoch": 2.9, "percentage": 8.29, "elapsed_time": "0:06:54", "remaining_time": "1:16:23"}
+{"current_steps": 30, "total_steps": 350, "loss": 0.0299, "lr": 8.571428571428571e-05, "epoch": 3.0, "percentage": 8.57, "elapsed_time": "0:06:59", "remaining_time": "1:14:35"}
+{"current_steps": 31, "total_steps": 350, "loss": 0.0216, "lr": 8.857142857142857e-05, "epoch": 3.1, "percentage": 8.86, "elapsed_time": "0:07:15", "remaining_time": "1:14:40"}
+{"current_steps": 32, "total_steps": 350, "loss": 0.0359, "lr": 9.142857142857143e-05, "epoch": 3.2, "percentage": 9.14, "elapsed_time": "0:07:26", "remaining_time": "1:13:56"}
+{"current_steps": 33, "total_steps": 350, "loss": 0.0233, "lr": 9.428571428571429e-05, "epoch": 3.3, "percentage": 9.43, "elapsed_time": "0:07:39", "remaining_time": "1:13:36"}
+{"current_steps": 34, "total_steps": 350, "loss": 0.0254, "lr": 9.714285714285715e-05, "epoch": 3.4, "percentage": 9.71, "elapsed_time": "0:07:52", "remaining_time": "1:13:14"}
+{"current_steps": 35, "total_steps": 350, "loss": 0.0202, "lr": 0.0001, "epoch": 3.5, "percentage": 10.0, "elapsed_time": "0:08:07", "remaining_time": "1:13:07"}
+{"current_steps": 36, "total_steps": 350, "loss": 0.0197, "lr": 9.999751334779716e-05, "epoch": 3.6, "percentage": 10.29, "elapsed_time": "0:08:23", "remaining_time": "1:13:13"}
+{"current_steps": 37, "total_steps": 350, "loss": 0.0206, "lr": 9.999005363852618e-05, "epoch": 3.7, "percentage": 10.57, "elapsed_time": "0:08:38", "remaining_time": "1:13:05"}
+{"current_steps": 38, "total_steps": 350, "loss": 0.0197, "lr": 9.997762161417517e-05, "epoch": 3.8, "percentage": 10.86, "elapsed_time": "0:08:51", "remaining_time": "1:12:44"}
+{"current_steps": 39, "total_steps": 350, "loss": 0.0178, "lr": 9.996021851130897e-05, "epoch": 3.9, "percentage": 11.14, "elapsed_time": "0:09:03", "remaining_time": "1:12:14"}
+{"current_steps": 40, "total_steps": 350, "loss": 0.0141, "lr": 9.993784606094612e-05, "epoch": 4.0, "percentage": 11.43, "elapsed_time": "0:09:10", "remaining_time": "1:11:03"}
+{"current_steps": 41, "total_steps": 350, "loss": 0.012, "lr": 9.991050648838675e-05, "epoch": 4.1, "percentage": 11.71, "elapsed_time": "0:09:24", "remaining_time": "1:10:51"}
+{"current_steps": 42, "total_steps": 350, "loss": 0.0124, "lr": 9.987820251299122e-05, "epoch": 4.2, "percentage": 12.0, "elapsed_time": "0:09:34", "remaining_time": "1:10:13"}
+{"current_steps": 43, "total_steps": 350, "loss": 0.017, "lr": 9.984093734790956e-05, "epoch": 4.3, "percentage": 12.29, "elapsed_time": "0:09:47", "remaining_time": "1:09:55"}
+{"current_steps": 44, "total_steps": 350, "loss": 0.0132, "lr": 9.979871469976196e-05, "epoch": 4.4, "percentage": 12.57, "elapsed_time": "0:10:01", "remaining_time": "1:09:40"}
+{"current_steps": 45, "total_steps": 350, "loss": 0.0169, "lr": 9.975153876827008e-05, "epoch": 4.5, "percentage": 12.86, "elapsed_time": "0:10:14", "remaining_time": "1:09:23"}
+{"current_steps": 46, "total_steps": 350, "loss": 0.0145, "lr": 9.969941424583926e-05, "epoch": 4.6, "percentage": 13.14, "elapsed_time": "0:10:26", "remaining_time": "1:09:01"}
+{"current_steps": 47, "total_steps": 350, "loss": 0.0151, "lr": 9.964234631709187e-05, "epoch": 4.7, "percentage": 13.43, "elapsed_time": "0:10:40", "remaining_time": "1:08:51"}
+{"current_steps": 48, "total_steps": 350, "loss": 0.011, "lr": 9.958034065835151e-05, "epoch": 4.8, "percentage": 13.71, "elapsed_time": "0:10:54", "remaining_time": "1:08:38"}
+{"current_steps": 49, "total_steps": 350, "loss": 0.012, "lr": 9.951340343707852e-05, "epoch": 4.9, "percentage": 14.0, "elapsed_time": "0:11:08", "remaining_time": "1:08:24"}
+{"current_steps": 50, "total_steps": 350, "loss": 0.0098, "lr": 9.944154131125642e-05, "epoch": 5.0, "percentage": 14.29, "elapsed_time": "0:11:13", "remaining_time": "1:07:21"}
+{"current_steps": 50, "total_steps": 350, "eval_loss": 0.016623547300696373, "epoch": 5.0, "percentage": 14.29, "elapsed_time": "0:11:29", "remaining_time": "1:08:54"}
+{"current_steps": 51, "total_steps": 350, "loss": 0.011, "lr": 9.936476142872979e-05, "epoch": 5.1, "percentage": 14.57, "elapsed_time": "0:11:46", "remaining_time": "1:09:03"}
+{"current_steps": 52, "total_steps": 350, "loss": 0.0082, "lr": 9.928307142649316e-05, "epoch": 5.2, "percentage": 14.86, "elapsed_time": "0:12:00", "remaining_time": "1:08:49"}
+{"current_steps": 53, "total_steps": 350, "loss": 0.0069, "lr": 9.919647942993148e-05, "epoch": 5.3, "percentage": 15.14, "elapsed_time": "0:12:15", "remaining_time": "1:08:40"}
+{"current_steps": 54, "total_steps": 350, "loss": 0.0091, "lr": 9.910499405201195e-05, "epoch": 5.4, "percentage": 15.43, "elapsed_time": "0:12:28", "remaining_time": "1:08:23"}
+{"current_steps": 55, "total_steps": 350, "loss": 0.0062, "lr": 9.900862439242719e-05, "epoch": 5.5, "percentage": 15.71, "elapsed_time": "0:13:06", "remaining_time": "1:10:19"}
+{"current_steps": 56, "total_steps": 350, "loss": 0.0052, "lr": 9.890738003669029e-05, "epoch": 5.6, "percentage": 16.0, "elapsed_time": "0:13:19", "remaining_time": "1:09:59"}
+{"current_steps": 57, "total_steps": 350, "loss": 0.0076, "lr": 9.880127105518122e-05, "epoch": 5.7, "percentage": 16.29, "elapsed_time": "0:13:34", "remaining_time": "1:09:44"}
+{"current_steps": 58, "total_steps": 350, "loss": 0.0107, "lr": 9.869030800214532e-05, "epoch": 5.8, "percentage": 16.57, "elapsed_time": "0:13:44", "remaining_time": "1:09:11"}
+{"current_steps": 59, "total_steps": 350, "loss": 0.0081, "lr": 9.857450191464337e-05, "epoch": 5.9, "percentage": 16.86, "elapsed_time": "0:13:56", "remaining_time": "1:08:46"}
+{"current_steps": 60, "total_steps": 350, "loss": 0.0063, "lr": 9.84538643114539e-05, "epoch": 6.0, "percentage": 17.14, "elapsed_time": "0:14:01", "remaining_time": "1:07:49"}
+{"current_steps": 61, "total_steps": 350, "loss": 0.0037, "lr": 9.832840719192736e-05, "epoch": 6.1, "percentage": 17.43, "elapsed_time": "0:14:17", "remaining_time": "1:07:42"}
+{"current_steps": 62, "total_steps": 350, "loss": 0.0049, "lr": 9.819814303479267e-05, "epoch": 6.2, "percentage": 17.71, "elapsed_time": "0:14:31", "remaining_time": "1:07:28"}
+{"current_steps": 63, "total_steps": 350, "loss": 0.0051, "lr": 9.806308479691595e-05, "epoch": 6.3, "percentage": 18.0, "elapsed_time": "0:14:45", "remaining_time": "1:07:15"}
+{"current_steps": 64, "total_steps": 350, "loss": 0.0052, "lr": 9.792324591201179e-05, "epoch": 6.4, "percentage": 18.29, "elapsed_time": "0:15:02", "remaining_time": "1:07:14"}
+{"current_steps": 65, "total_steps": 350, "loss": 0.0046, "lr": 9.777864028930705e-05, "epoch": 6.5, "percentage": 18.57, "elapsed_time": "0:15:18", "remaining_time": "1:07:06"}
+{"current_steps": 66, "total_steps": 350, "loss": 0.0064, "lr": 9.76292823121573e-05, "epoch": 6.6, "percentage": 18.86, "elapsed_time": "0:15:30", "remaining_time": "1:06:45"}
+{"current_steps": 67, "total_steps": 350, "loss": 0.0044, "lr": 9.747518683661631e-05, "epoch": 6.7, "percentage": 19.14, "elapsed_time": "0:15:41", "remaining_time": "1:06:15"}
+{"current_steps": 68, "total_steps": 350, "loss": 0.0064, "lr": 9.731636918995821e-05, "epoch": 6.8, "percentage": 19.43, "elapsed_time": "0:15:51", "remaining_time": "1:05:46"}
+{"current_steps": 69, "total_steps": 350, "loss": 0.0045, "lr": 9.715284516915303e-05, "epoch": 6.9, "percentage": 19.71, "elapsed_time": "0:16:01", "remaining_time": "1:05:17"}
+{"current_steps": 70, "total_steps": 350, "loss": 0.0067, "lr": 9.698463103929542e-05, "epoch": 7.0, "percentage": 20.0, "elapsed_time": "0:16:06", "remaining_time": "1:04:26"}
+{"current_steps": 71, "total_steps": 350, "loss": 0.0037, "lr": 9.681174353198687e-05, "epoch": 7.1, "percentage": 20.29, "elapsed_time": "0:16:17", "remaining_time": "1:03:59"}
+{"current_steps": 72, "total_steps": 350, "loss": 0.0027, "lr": 9.663419984367139e-05, "epoch": 7.2, "percentage": 20.57, "elapsed_time": "0:16:29", "remaining_time": "1:03:41"}
+{"current_steps": 73, "total_steps": 350, "loss": 0.0046, "lr": 9.645201763392513e-05, "epoch": 7.3, "percentage": 20.86, "elapsed_time": "0:16:40", "remaining_time": "1:03:16"}
+{"current_steps": 74, "total_steps": 350, "loss": 0.0054, "lr": 9.626521502369984e-05, "epoch": 7.4, "percentage": 21.14, "elapsed_time": "0:16:50", "remaining_time": "1:02:49"}
+{"current_steps": 75, "total_steps": 350, "loss": 0.0039, "lr": 9.607381059352038e-05, "epoch": 7.5, "percentage": 21.43, "elapsed_time": "0:17:01", "remaining_time": "1:02:24"}
+{"current_steps": 75, "total_steps": 350, "eval_loss": 0.016471313312649727, "epoch": 7.5, "percentage": 21.43, "elapsed_time": "0:17:08", "remaining_time": "1:02:49"}
+{"current_steps": 76, "total_steps": 350, "loss": 0.0035, "lr": 9.587782338163669e-05, "epoch": 7.6, "percentage": 21.71, "elapsed_time": "0:17:18", "remaining_time": "1:02:23"}
+{"current_steps": 77, "total_steps": 350, "loss": 0.0047, "lr": 9.567727288213005e-05, "epoch": 7.7, "percentage": 22.0, "elapsed_time": "0:17:28", "remaining_time": "1:01:58"}
+{"current_steps": 78, "total_steps": 350, "loss": 0.0028, "lr": 9.547217904297411e-05, "epoch": 7.8, "percentage": 22.29, "elapsed_time": "0:17:39", "remaining_time": "1:01:33"}
+{"current_steps": 79, "total_steps": 350, "loss": 0.0054, "lr": 9.526256226405075e-05, "epoch": 7.9, "percentage": 22.57, "elapsed_time": "0:17:50", "remaining_time": "1:01:10"}
+{"current_steps": 80, "total_steps": 350, "loss": 0.0025, "lr": 9.504844339512095e-05, "epoch": 8.0, "percentage": 22.86, "elapsed_time": "0:17:54", "remaining_time": "1:00:26"}
+{"current_steps": 81, "total_steps": 350, "loss": 0.0037, "lr": 9.482984373375105e-05, "epoch": 8.1, "percentage": 23.14, "elapsed_time": "0:18:05", "remaining_time": "1:00:04"}
+{"current_steps": 82, "total_steps": 350, "loss": 0.0026, "lr": 9.460678502319418e-05, "epoch": 8.2, "percentage": 23.43, "elapsed_time": "0:18:16", "remaining_time": "0:59:42"}
+{"current_steps": 83, "total_steps": 350, "loss": 0.0049, "lr": 9.437928945022771e-05, "epoch": 8.3, "percentage": 23.71, "elapsed_time": "0:18:26", "remaining_time": "0:59:20"}
+{"current_steps": 84, "total_steps": 350, "loss": 0.0037, "lr": 9.414737964294636e-05, "epoch": 8.4, "percentage": 24.0, "elapsed_time": "0:18:37", "remaining_time": "0:58:58"}
+{"current_steps": 85, "total_steps": 350, "loss": 0.0025, "lr": 9.391107866851143e-05, "epoch": 8.5, "percentage": 24.29, "elapsed_time": "0:18:48", "remaining_time": "0:58:36"}
+{"current_steps": 86, "total_steps": 350, "loss": 0.0032, "lr": 9.367041003085649e-05, "epoch": 8.6, "percentage": 24.57, "elapsed_time": "0:18:58", "remaining_time": "0:58:14"}
+{"current_steps": 87, "total_steps": 350, "loss": 0.0028, "lr": 9.342539766834946e-05, "epoch": 8.7, "percentage": 24.86, "elapsed_time": "0:19:09", "remaining_time": "0:57:53"}
+{"current_steps": 88, "total_steps": 350, "loss": 0.0027, "lr": 9.317606595141154e-05, "epoch": 8.8, "percentage": 25.14, "elapsed_time": "0:19:19", "remaining_time": "0:57:32"}
+{"current_steps": 89, "total_steps": 350, "loss": 0.0029, "lr": 9.292243968009331e-05, "epoch": 8.9, "percentage": 25.43, "elapsed_time": "0:19:30", "remaining_time": "0:57:12"}
+{"current_steps": 90, "total_steps": 350, "loss": 0.0034, "lr": 9.266454408160779e-05, "epoch": 9.0, "percentage": 25.71, "elapsed_time": "0:19:35", "remaining_time": "0:56:34"}
+{"current_steps": 91, "total_steps": 350, "loss": 0.0023, "lr": 9.24024048078213e-05, "epoch": 9.1, "percentage": 26.0, "elapsed_time": "0:19:46", "remaining_time": "0:56:15"}
+{"current_steps": 92, "total_steps": 350, "loss": 0.0024, "lr": 9.213604793270196e-05, "epoch": 9.2, "percentage": 26.29, "elapsed_time": "0:19:57", "remaining_time": "0:55:56"}
+{"current_steps": 93, "total_steps": 350, "loss": 0.0031, "lr": 9.186549994972618e-05, "epoch": 9.3, "percentage": 26.57, "elapsed_time": "0:20:07", "remaining_time": "0:55:37"}
+{"current_steps": 94, "total_steps": 350, "loss": 0.0029, "lr": 9.159078776924346e-05, "epoch": 9.4, "percentage": 26.86, "elapsed_time": "0:20:18", "remaining_time": "0:55:17"}
+{"current_steps": 95, "total_steps": 350, "loss": 0.0017, "lr": 9.131193871579975e-05, "epoch": 9.5, "percentage": 27.14, "elapsed_time": "0:20:28", "remaining_time": "0:54:57"}
+{"current_steps": 96, "total_steps": 350, "loss": 0.0022, "lr": 9.102898052541958e-05, "epoch": 9.6, "percentage": 27.43, "elapsed_time": "0:20:39", "remaining_time": "0:54:38"}
+{"current_steps": 97, "total_steps": 350, "loss": 0.0025, "lr": 9.074194134284726e-05, "epoch": 9.7, "percentage": 27.71, "elapsed_time": "0:20:49", "remaining_time": "0:54:19"}
+{"current_steps": 98, "total_steps": 350, "loss": 0.002, "lr": 9.045084971874738e-05, "epoch": 9.8, "percentage": 28.0, "elapsed_time": "0:21:00", "remaining_time": "0:54:00"}
+{"current_steps": 99, "total_steps": 350, "loss": 0.0026, "lr": 9.015573460686509e-05, "epoch": 9.9, "percentage": 28.29, "elapsed_time": "0:21:10", "remaining_time": "0:53:41"}
+{"current_steps": 100, "total_steps": 350, "loss": 0.0021, "lr": 8.985662536114613e-05, "epoch": 10.0, "percentage": 28.57, "elapsed_time": "0:21:15", "remaining_time": "0:53:08"}
+{"current_steps": 100, "total_steps": 350, "eval_loss": 0.017384279519319534, "epoch": 10.0, "percentage": 28.57, "elapsed_time": "0:21:22", "remaining_time": "0:53:26"}
+{"current_steps": 101, "total_steps": 350, "loss": 0.0017, "lr": 8.955355173281708e-05, "epoch": 10.1, "percentage": 28.86, "elapsed_time": "0:21:51", "remaining_time": "0:53:54"}
+{"current_steps": 102, "total_steps": 350, "loss": 0.0018, "lr": 8.924654386742613e-05, "epoch": 10.2, "percentage": 29.14, "elapsed_time": "0:22:02", "remaining_time": "0:53:34"}
+{"current_steps": 103, "total_steps": 350, "loss": 0.0025, "lr": 8.89356323018447e-05, "epoch": 10.3, "percentage": 29.43, "elapsed_time": "0:22:12", "remaining_time": "0:53:15"}
+{"current_steps": 104, "total_steps": 350, "loss": 0.0017, "lr": 8.862084796122998e-05, "epoch": 10.4, "percentage": 29.71, "elapsed_time": "0:22:22", "remaining_time": "0:52:56"}
+{"current_steps": 105, "total_steps": 350, "loss": 0.0029, "lr": 8.83022221559489e-05, "epoch": 10.5, "percentage": 30.0, "elapsed_time": "0:22:33", "remaining_time": "0:52:37"}
+{"current_steps": 106, "total_steps": 350, "loss": 0.0022, "lr": 8.797978657846391e-05, "epoch": 10.6, "percentage": 30.29, "elapsed_time": "0:22:43", "remaining_time": "0:52:18"}
+{"current_steps": 107, "total_steps": 350, "loss": 0.0024, "lr": 8.765357330018056e-05, "epoch": 10.7, "percentage": 30.57, "elapsed_time": "0:22:54", "remaining_time": "0:52:00"}
+{"current_steps": 108, "total_steps": 350, "loss": 0.0028, "lr": 8.732361476825752e-05, "epoch": 10.8, "percentage": 30.86, "elapsed_time": "0:23:04", "remaining_time": "0:51:42"}
+{"current_steps": 109, "total_steps": 350, "loss": 0.0018, "lr": 8.69899438023792e-05, "epoch": 10.9, "percentage": 31.14, "elapsed_time": "0:23:15", "remaining_time": "0:51:24"}
+{"current_steps": 110, "total_steps": 350, "loss": 0.0018, "lr": 8.665259359149132e-05, "epoch": 11.0, "percentage": 31.43, "elapsed_time": "0:23:19", "remaining_time": "0:50:53"}
+{"current_steps": 111, "total_steps": 350, "loss": 0.0028, "lr": 8.631159769049965e-05, "epoch": 11.1, "percentage": 31.71, "elapsed_time": "0:23:30", "remaining_time": "0:50:36"}
+{"current_steps": 112, "total_steps": 350, "loss": 0.0018, "lr": 8.596699001693255e-05, "epoch": 11.2, "percentage": 32.0, "elapsed_time": "0:23:40", "remaining_time": "0:50:18"}
+{"current_steps": 113, "total_steps": 350, "loss": 0.0018, "lr": 8.561880484756725e-05, "epoch": 11.3, "percentage": 32.29, "elapsed_time": "0:23:50", "remaining_time": "0:50:00"}
+{"current_steps": 114, "total_steps": 350, "loss": 0.0036, "lr": 8.526707681502044e-05, "epoch": 11.4, "percentage": 32.57, "elapsed_time": "0:24:01", "remaining_time": "0:49:43"}
+{"current_steps": 115, "total_steps": 350, "loss": 0.0019, "lr": 8.491184090430364e-05, "epoch": 11.5, "percentage": 32.86, "elapsed_time": "0:24:12", "remaining_time": "0:49:27"}
+{"current_steps": 116, "total_steps": 350, "loss": 0.0024, "lr": 8.455313244934324e-05, "epoch": 11.6, "percentage": 33.14, "elapsed_time": "0:24:22", "remaining_time": "0:49:10"}
+{"current_steps": 117, "total_steps": 350, "loss": 0.0033, "lr": 8.419098712946601e-05, "epoch": 11.7, "percentage": 33.43, "elapsed_time": "0:24:32", "remaining_time": "0:48:53"}
+{"current_steps": 118, "total_steps": 350, "loss": 0.0032, "lr": 8.382544096585027e-05, "epoch": 11.8, "percentage": 33.71, "elapsed_time": "0:24:43", "remaining_time": "0:48:36"}
+{"current_steps": 119, "total_steps": 350, "loss": 0.0032, "lr": 8.345653031794292e-05, "epoch": 11.9, "percentage": 34.0, "elapsed_time": "0:24:53", "remaining_time": "0:48:19"}
+{"current_steps": 120, "total_steps": 350, "loss": 0.0044, "lr": 8.308429187984297e-05, "epoch": 12.0, "percentage": 34.29, "elapsed_time": "0:24:58", "remaining_time": "0:47:51"}
+{"current_steps": 121, "total_steps": 350, "loss": 0.0025, "lr": 8.270876267665173e-05, "epoch": 12.1, "percentage": 34.57, "elapsed_time": "0:25:08", "remaining_time": "0:47:35"}
+{"current_steps": 122, "total_steps": 350, "loss": 0.002, "lr": 8.232998006078997e-05, "epoch": 12.2, "percentage": 34.86, "elapsed_time": "0:25:19", "remaining_time": "0:47:19"}
+{"current_steps": 123, "total_steps": 350, "loss": 0.0023, "lr": 8.19479817082828e-05, "epoch": 12.3, "percentage": 35.14, "elapsed_time": "0:25:29", "remaining_time": "0:47:03"}
+{"current_steps": 124, "total_steps": 350, "loss": 0.0025, "lr": 8.156280561501195e-05, "epoch": 12.4, "percentage": 35.43, "elapsed_time": "0:25:40", "remaining_time": "0:46:47"}
+{"current_steps": 125, "total_steps": 350, "loss": 0.0031, "lr": 8.117449009293668e-05, "epoch": 12.5, "percentage": 35.71, "elapsed_time": "0:25:50", "remaining_time": "0:46:30"}
+{"current_steps": 125, "total_steps": 350, "eval_loss": 0.014472348615527153, "epoch": 12.5, "percentage": 35.71, "elapsed_time": "0:25:57", "remaining_time": "0:46:43"}
+{"current_steps": 126, "total_steps": 350, "loss": 0.0023, "lr": 8.07830737662829e-05, "epoch": 12.6, "percentage": 36.0, "elapsed_time": "0:26:07", "remaining_time": "0:46:27"}
+{"current_steps": 127, "total_steps": 350, "loss": 0.0027, "lr": 8.038859556770151e-05, "epoch": 12.7, "percentage": 36.29, "elapsed_time": "0:26:18", "remaining_time": "0:46:11"}
+{"current_steps": 128, "total_steps": 350, "loss": 0.0019, "lr": 7.999109473439569e-05, "epoch": 12.8, "percentage": 36.57, "elapsed_time": "0:26:28", "remaining_time": "0:45:55"}
+{"current_steps": 129, "total_steps": 350, "loss": 0.0026, "lr": 7.959061080421839e-05, "epoch": 12.9, "percentage": 36.86, "elapsed_time": "0:26:39", "remaining_time": "0:45:39"}
+{"current_steps": 130, "total_steps": 350, "loss": 0.0016, "lr": 7.91871836117395e-05, "epoch": 13.0, "percentage": 37.14, "elapsed_time": "0:26:43", "remaining_time": "0:45:14"}
+{"current_steps": 131, "total_steps": 350, "loss": 0.0018, "lr": 7.878085328428369e-05, "epoch": 13.1, "percentage": 37.43, "elapsed_time": "0:26:54", "remaining_time": "0:44:58"}
+{"current_steps": 132, "total_steps": 350, "loss": 0.0037, "lr": 7.83716602379391e-05, "epoch": 13.2, "percentage": 37.71, "elapsed_time": "0:27:04", "remaining_time": "0:44:43"}
+{"current_steps": 133, "total_steps": 350, "loss": 0.0021, "lr": 7.795964517353735e-05, "epoch": 13.3, "percentage": 38.0, "elapsed_time": "0:27:14", "remaining_time": "0:44:27"}
+{"current_steps": 134, "total_steps": 350, "loss": 0.0023, "lr": 7.754484907260513e-05, "epoch": 13.4, "percentage": 38.29, "elapsed_time": "0:27:25", "remaining_time": "0:44:11"}
+{"current_steps": 135, "total_steps": 350, "loss": 0.0022, "lr": 7.712731319328798e-05, "epoch": 13.5, "percentage": 38.57, "elapsed_time": "0:27:35", "remaining_time": "0:43:56"}
+{"current_steps": 136, "total_steps": 350, "loss": 0.0016, "lr": 7.670707906624644e-05, "epoch": 13.6, "percentage": 38.86, "elapsed_time": "0:27:45", "remaining_time": "0:43:41"}
+{"current_steps": 137, "total_steps": 350, "loss": 0.0024, "lr": 7.628418849052523e-05, "epoch": 13.7, "percentage": 39.14, "elapsed_time": "0:27:56", "remaining_time": "0:43:26"}
+{"current_steps": 138, "total_steps": 350, "loss": 0.0016, "lr": 7.585868352939563e-05, "epoch": 13.8, "percentage": 39.43, "elapsed_time": "0:28:06", "remaining_time": "0:43:10"}
+{"current_steps": 139, "total_steps": 350, "loss": 0.0018, "lr": 7.543060650617158e-05, "epoch": 13.9, "percentage": 39.71, "elapsed_time": "0:28:16", "remaining_time": "0:42:55"}
+{"current_steps": 140, "total_steps": 350, "loss": 0.0025, "lr": 7.500000000000001e-05, "epoch": 14.0, "percentage": 40.0, "elapsed_time": "0:28:21", "remaining_time": "0:42:32"}
+{"current_steps": 141, "total_steps": 350, "loss": 0.0026, "lr": 7.456690684162557e-05, "epoch": 14.1, "percentage": 40.29, "elapsed_time": "0:28:32", "remaining_time": "0:42:17"}
+{"current_steps": 142, "total_steps": 350, "loss": 0.0019, "lr": 7.413137010913054e-05, "epoch": 14.2, "percentage": 40.57, "elapsed_time": "0:28:42", "remaining_time": "0:42:02"}
+{"current_steps": 143, "total_steps": 350, "loss": 0.002, "lr": 7.369343312364993e-05, "epoch": 14.3, "percentage": 40.86, "elapsed_time": "0:28:52", "remaining_time": "0:41:48"}
+{"current_steps": 144, "total_steps": 350, "loss": 0.0015, "lr": 7.325313944506254e-05, "epoch": 14.4, "percentage": 41.14, "elapsed_time": "0:29:03", "remaining_time": "0:41:33"}
+{"current_steps": 145, "total_steps": 350, "loss": 0.0018, "lr": 7.281053286765815e-05, "epoch": 14.5, "percentage": 41.43, "elapsed_time": "0:29:13", "remaining_time": "0:41:18"}
+{"current_steps": 146, "total_steps": 350, "loss": 0.0024, "lr": 7.236565741578163e-05, "epoch": 14.6, "percentage": 41.71, "elapsed_time": "0:29:24", "remaining_time": "0:41:04"}
+{"current_steps": 147, "total_steps": 350, "loss": 0.0049, "lr": 7.191855733945387e-05, "epoch": 14.7, "percentage": 42.0, "elapsed_time": "0:29:34", "remaining_time": "0:40:50"}
+{"current_steps": 148, "total_steps": 350, "loss": 0.0024, "lr": 7.146927710997047e-05, "epoch": 14.8, "percentage": 42.29, "elapsed_time": "0:29:44", "remaining_time": "0:40:36"}
+{"current_steps": 149, "total_steps": 350, "loss": 0.0018, "lr": 7.101786141547828e-05, "epoch": 14.9, "percentage": 42.57, "elapsed_time": "0:29:55", "remaining_time": "0:40:21"}
+{"current_steps": 150, "total_steps": 350, "loss": 0.0022, "lr": 7.056435515653059e-05, "epoch": 15.0, "percentage": 42.86, "elapsed_time": "0:29:59", "remaining_time": "0:39:59"}
+{"current_steps": 150, "total_steps": 350, "eval_loss": 0.023497436195611954, "epoch": 15.0, "percentage": 42.86, "elapsed_time": "0:30:06", "remaining_time": "0:40:09"}
+{"current_steps": 151, "total_steps": 350, "loss": 0.0015, "lr": 7.010880344162088e-05, "epoch": 15.1, "percentage": 43.14, "elapsed_time": "0:30:17", "remaining_time": "0:39:54"}
+{"current_steps": 152, "total_steps": 350, "loss": 0.0022, "lr": 6.965125158269619e-05, "epoch": 15.2, "percentage": 43.43, "elapsed_time": "0:30:27", "remaining_time": "0:39:40"}
+{"current_steps": 153, "total_steps": 350, "loss": 0.0029, "lr": 6.919174509065004e-05, "epoch": 15.3, "percentage": 43.71, "elapsed_time": "0:30:37", "remaining_time": "0:39:26"}
+{"current_steps": 154, "total_steps": 350, "loss": 0.0022, "lr": 6.873032967079561e-05, "epoch": 15.4, "percentage": 44.0, "elapsed_time": "0:30:47", "remaining_time": "0:39:11"}
+{"current_steps": 155, "total_steps": 350, "loss": 0.0033, "lr": 6.826705121831976e-05, "epoch": 15.5, "percentage": 44.29, "elapsed_time": "0:30:57", "remaining_time": "0:38:57"}
+{"current_steps": 156, "total_steps": 350, "loss": 0.0022, "lr": 6.780195581371784e-05, "epoch": 15.6, "percentage": 44.57, "elapsed_time": "0:31:08", "remaining_time": "0:38:43"}
+{"current_steps": 157, "total_steps": 350, "loss": 0.0021, "lr": 6.733508971821036e-05, "epoch": 15.7, "percentage": 44.86, "elapsed_time": "0:31:19", "remaining_time": "0:38:30"}
+{"current_steps": 158, "total_steps": 350, "loss": 0.0019, "lr": 6.686649936914152e-05, "epoch": 15.8, "percentage": 45.14, "elapsed_time": "0:31:29", "remaining_time": "0:38:16"}
+{"current_steps": 159, "total_steps": 350, "loss": 0.002, "lr": 6.639623137536023e-05, "epoch": 15.9, "percentage": 45.43, "elapsed_time": "0:31:39", "remaining_time": "0:38:02"}
+{"current_steps": 160, "total_steps": 350, "loss": 0.0014, "lr": 6.592433251258423e-05, "epoch": 16.0, "percentage": 45.71, "elapsed_time": "0:31:44", "remaining_time": "0:37:41"}
+{"current_steps": 161, "total_steps": 350, "loss": 0.0017, "lr": 6.545084971874738e-05, "epoch": 16.1, "percentage": 46.0, "elapsed_time": "0:31:54", "remaining_time": "0:37:27"}
+{"current_steps": 162, "total_steps": 350, "loss": 0.0014, "lr": 6.497583008933097e-05, "epoch": 16.2, "percentage": 46.29, "elapsed_time": "0:32:05", "remaining_time": "0:37:13"}
+{"current_steps": 163, "total_steps": 350, "loss": 0.0016, "lr": 6.449932087267932e-05, "epoch": 16.3, "percentage": 46.57, "elapsed_time": "0:32:15", "remaining_time": "0:37:00"}
+{"current_steps": 164, "total_steps": 350, "loss": 0.0013, "lr": 6.402136946530014e-05, "epoch": 16.4, "percentage": 46.86, "elapsed_time": "0:32:26", "remaining_time": "0:36:47"}
+{"current_steps": 165, "total_steps": 350, "loss": 0.0016, "lr": 6.354202340715026e-05, "epoch": 16.5, "percentage": 47.14, "elapsed_time": "0:32:36", "remaining_time": "0:36:33"}
+{"current_steps": 166, "total_steps": 350, "loss": 0.0019, "lr": 6.306133037690693e-05, "epoch": 16.6, "percentage": 47.43, "elapsed_time": "0:32:46", "remaining_time": "0:36:20"}
+{"current_steps": 167, "total_steps": 350, "loss": 0.0016, "lr": 6.257933818722543e-05, "epoch": 16.7, "percentage": 47.71, "elapsed_time": "0:32:56", "remaining_time": "0:36:06"}
+{"current_steps": 168, "total_steps": 350, "loss": 0.0025, "lr": 6.209609477998338e-05, "epoch": 16.8, "percentage": 48.0, "elapsed_time": "0:33:07", "remaining_time": "0:35:52"}
+{"current_steps": 169, "total_steps": 350, "loss": 0.0018, "lr": 6.161164822151213e-05, "epoch": 16.9, "percentage": 48.29, "elapsed_time": "0:33:17", "remaining_time": "0:35:39"}
+{"current_steps": 170, "total_steps": 350, "loss": 0.0017, "lr": 6.112604669781572e-05, "epoch": 17.0, "percentage": 48.57, "elapsed_time": "0:33:22", "remaining_time": "0:35:19"}
+{"current_steps": 171, "total_steps": 350, "loss": 0.0012, "lr": 6.063933850977811e-05, "epoch": 17.1, "percentage": 48.86, "elapsed_time": "0:33:32", "remaining_time": "0:35:06"}
+{"current_steps": 172, "total_steps": 350, "loss": 0.0014, "lr": 6.015157206835881e-05, "epoch": 17.2, "percentage": 49.14, "elapsed_time": "0:33:43", "remaining_time": "0:34:53"}
+{"current_steps": 173, "total_steps": 350, "loss": 0.0013, "lr": 5.9662795889777666e-05, "epoch": 17.3, "percentage": 49.43, "elapsed_time": "0:33:53", "remaining_time": "0:34:40"}
+{"current_steps": 174, "total_steps": 350, "loss": 0.0013, "lr": 5.917305859068912e-05, "epoch": 17.4, "percentage": 49.71, "elapsed_time": "0:34:03", "remaining_time": "0:34:27"}
+{"current_steps": 175, "total_steps": 350, "loss": 0.0013, "lr": 5.868240888334653e-05, "epoch": 17.5, "percentage": 50.0, "elapsed_time": "0:34:14", "remaining_time": "0:34:14"}
+{"current_steps": 175, "total_steps": 350, "eval_loss": 0.01870564930140972, "epoch": 17.5, "percentage": 50.0, "elapsed_time": "0:34:21", "remaining_time": "0:34:21"}
+{"current_steps": 176, "total_steps": 350, "loss": 0.0018, "lr": 5.819089557075689e-05, "epoch": 17.6, "percentage": 50.29, "elapsed_time": "0:34:31", "remaining_time": "0:34:08"}
+{"current_steps": 177, "total_steps": 350, "loss": 0.0014, "lr": 5.7698567541826675e-05, "epoch": 17.7, "percentage": 50.57, "elapsed_time": "0:34:42", "remaining_time": "0:33:55"}
+{"current_steps": 178, "total_steps": 350, "loss": 0.0025, "lr": 5.7205473766499005e-05, "epoch": 17.8, "percentage": 50.86, "elapsed_time": "0:34:52", "remaining_time": "0:33:42"}
+{"current_steps": 179, "total_steps": 350, "loss": 0.0024, "lr": 5.6711663290882776e-05, "epoch": 17.9, "percentage": 51.14, "elapsed_time": "0:35:02", "remaining_time": "0:33:28"}
+{"current_steps": 180, "total_steps": 350, "loss": 0.0014, "lr": 5.621718523237427e-05, "epoch": 18.0, "percentage": 51.43, "elapsed_time": "0:35:07", "remaining_time": "0:33:10"}
+{"current_steps": 181, "total_steps": 350, "loss": 0.0016, "lr": 5.57220887747716e-05, "epoch": 18.1, "percentage": 51.71, "elapsed_time": "0:35:17", "remaining_time": "0:32:57"}
+{"current_steps": 182, "total_steps": 350, "loss": 0.0013, "lr": 5.522642316338268e-05, "epoch": 18.2, "percentage": 52.0, "elapsed_time": "0:35:28", "remaining_time": "0:32:45"}
+{"current_steps": 183, "total_steps": 350, "loss": 0.0017, "lr": 5.473023770012686e-05, "epoch": 18.3, "percentage": 52.29, "elapsed_time": "0:35:39", "remaining_time": "0:32:32"}
+{"current_steps": 184, "total_steps": 350, "loss": 0.0013, "lr": 5.4233581738631165e-05, "epoch": 18.4, "percentage": 52.57, "elapsed_time": "0:35:49", "remaining_time": "0:32:19"}
+{"current_steps": 185, "total_steps": 350, "loss": 0.0016, "lr": 5.373650467932122e-05, "epoch": 18.5, "percentage": 52.86, "elapsed_time": "0:35:59", "remaining_time": "0:32:06"}
+{"current_steps": 186, "total_steps": 350, "loss": 0.0015, "lr": 5.323905596450759e-05, "epoch": 18.6, "percentage": 53.14, "elapsed_time": "0:36:09", "remaining_time": "0:31:53"}
+{"current_steps": 187, "total_steps": 350, "loss": 0.0013, "lr": 5.274128507346801e-05, "epoch": 18.7, "percentage": 53.43, "elapsed_time": "0:36:20", "remaining_time": "0:31:40"}
+{"current_steps": 188, "total_steps": 350, "loss": 0.0013, "lr": 5.2243241517525754e-05, "epoch": 18.8, "percentage": 53.71, "elapsed_time": "0:36:30", "remaining_time": "0:31:27"}
+{"current_steps": 189, "total_steps": 350, "loss": 0.0013, "lr": 5.174497483512506e-05, "epoch": 18.9, "percentage": 54.0, "elapsed_time": "0:36:41", "remaining_time": "0:31:14"}
+{"current_steps": 190, "total_steps": 350, "loss": 0.0013, "lr": 5.124653458690365e-05, "epoch": 19.0, "percentage": 54.29, "elapsed_time": "0:36:45", "remaining_time": "0:30:57"}
+{"current_steps": 191, "total_steps": 350, "loss": 0.0013, "lr": 5.074797035076319e-05, "epoch": 19.1, "percentage": 54.57, "elapsed_time": "0:36:56", "remaining_time": "0:30:45"}
+{"current_steps": 192, "total_steps": 350, "loss": 0.0013, "lr": 5.024933171693791e-05, "epoch": 19.2, "percentage": 54.86, "elapsed_time": "0:37:07", "remaining_time": "0:30:32"}
+{"current_steps": 193, "total_steps": 350, "loss": 0.0012, "lr": 4.9750668283062104e-05, "epoch": 19.3, "percentage": 55.14, "elapsed_time": "0:37:17", "remaining_time": "0:30:20"}
+{"current_steps": 194, "total_steps": 350, "loss": 0.0013, "lr": 4.925202964923683e-05, "epoch": 19.4, "percentage": 55.43, "elapsed_time": "0:37:27", "remaining_time": "0:30:07"}
+{"current_steps": 195, "total_steps": 350, "loss": 0.0017, "lr": 4.875346541309637e-05, "epoch": 19.5, "percentage": 55.71, "elapsed_time": "0:37:38", "remaining_time": "0:29:54"}
+{"current_steps": 196, "total_steps": 350, "loss": 0.0013, "lr": 4.825502516487497e-05, "epoch": 19.6, "percentage": 56.0, "elapsed_time": "0:37:48", "remaining_time": "0:29:42"}
+{"current_steps": 197, "total_steps": 350, "loss": 0.0013, "lr": 4.775675848247427e-05, "epoch": 19.7, "percentage": 56.29, "elapsed_time": "0:37:58", "remaining_time": "0:29:29"}
+{"current_steps": 198, "total_steps": 350, "loss": 0.0013, "lr": 4.725871492653199e-05, "epoch": 19.8, "percentage": 56.57, "elapsed_time": "0:38:08", "remaining_time": "0:29:17"}
+{"current_steps": 199, "total_steps": 350, "loss": 0.0014, "lr": 4.6760944035492404e-05, "epoch": 19.9, "percentage": 56.86, "elapsed_time": "0:38:19", "remaining_time": "0:29:04"}
+{"current_steps": 200, "total_steps": 350, "loss": 0.0012, "lr": 4.626349532067879e-05, "epoch": 20.0, "percentage": 57.14, "elapsed_time": "0:38:23", "remaining_time": "0:28:47"}
+{"current_steps": 200, "total_steps": 350, "eval_loss": 0.02464105747640133, "epoch": 20.0, "percentage": 57.14, "elapsed_time": "0:38:30", "remaining_time": "0:28:53"}
+{"current_steps": 201, "total_steps": 350, "loss": 0.0013, "lr": 4.576641826136884e-05, "epoch": 20.1, "percentage": 57.43, "elapsed_time": "0:38:47", "remaining_time": "0:28:45"}
+{"current_steps": 202, "total_steps": 350, "loss": 0.0015, "lr": 4.526976229987315e-05, "epoch": 20.2, "percentage": 57.71, "elapsed_time": "0:38:58", "remaining_time": "0:28:33"}
+{"current_steps": 203, "total_steps": 350, "loss": 0.0013, "lr": 4.477357683661734e-05, "epoch": 20.3, "percentage": 58.0, "elapsed_time": "0:39:08", "remaining_time": "0:28:20"}
+{"current_steps": 204, "total_steps": 350, "loss": 0.0014, "lr": 4.4277911225228414e-05, "epoch": 20.4, "percentage": 58.29, "elapsed_time": "0:39:18", "remaining_time": "0:28:08"}
+{"current_steps": 205, "total_steps": 350, "loss": 0.0013, "lr": 4.378281476762576e-05, "epoch": 20.5, "percentage": 58.57, "elapsed_time": "0:39:29", "remaining_time": "0:27:55"}
+{"current_steps": 206, "total_steps": 350, "loss": 0.0012, "lr": 4.328833670911724e-05, "epoch": 20.6, "percentage": 58.86, "elapsed_time": "0:39:39", "remaining_time": "0:27:43"}
+{"current_steps": 207, "total_steps": 350, "loss": 0.0012, "lr": 4.2794526233501006e-05, "epoch": 20.7, "percentage": 59.14, "elapsed_time": "0:39:49", "remaining_time": "0:27:30"}
+{"current_steps": 208, "total_steps": 350, "loss": 0.0012, "lr": 4.230143245817332e-05, "epoch": 20.8, "percentage": 59.43, "elapsed_time": "0:40:00", "remaining_time": "0:27:18"}
+{"current_steps": 209, "total_steps": 350, "loss": 0.0013, "lr": 4.180910442924312e-05, "epoch": 20.9, "percentage": 59.71, "elapsed_time": "0:40:10", "remaining_time": "0:27:06"}
+{"current_steps": 210, "total_steps": 350, "loss": 0.0012, "lr": 4.131759111665349e-05, "epoch": 21.0, "percentage": 60.0, "elapsed_time": "0:40:15", "remaining_time": "0:26:50"}
+{"current_steps": 211, "total_steps": 350, "loss": 0.0013, "lr": 4.082694140931089e-05, "epoch": 21.1, "percentage": 60.29, "elapsed_time": "0:40:25", "remaining_time": "0:26:37"}
+{"current_steps": 212, "total_steps": 350, "loss": 0.0012, "lr": 4.0337204110222346e-05, "epoch": 21.2, "percentage": 60.57, "elapsed_time": "0:40:36", "remaining_time": "0:26:25"}
+{"current_steps": 213, "total_steps": 350, "loss": 0.0013, "lr": 3.98484279316412e-05, "epoch": 21.3, "percentage": 60.86, "elapsed_time": "0:40:46", "remaining_time": "0:26:13"}
+{"current_steps": 214, "total_steps": 350, "loss": 0.0013, "lr": 3.936066149022191e-05, "epoch": 21.4, "percentage": 61.14, "elapsed_time": "0:40:57", "remaining_time": "0:26:01"}
+{"current_steps": 215, "total_steps": 350, "loss": 0.0012, "lr": 3.887395330218429e-05, "epoch": 21.5, "percentage": 61.43, "elapsed_time": "0:41:07", "remaining_time": "0:25:49"}
+{"current_steps": 216, "total_steps": 350, "loss": 0.0013, "lr": 3.838835177848788e-05, "epoch": 21.6, "percentage": 61.71, "elapsed_time": "0:41:17", "remaining_time": "0:25:37"}
+{"current_steps": 217, "total_steps": 350, "loss": 0.0013, "lr": 3.790390522001662e-05, "epoch": 21.7, "percentage": 62.0, "elapsed_time": "0:41:28", "remaining_time": "0:25:25"}
+{"current_steps": 218, "total_steps": 350, "loss": 0.0013, "lr": 3.742066181277458e-05, "epoch": 21.8, "percentage": 62.29, "elapsed_time": "0:41:38", "remaining_time": "0:25:13"}
+{"current_steps": 219, "total_steps": 350, "loss": 0.0018, "lr": 3.6938669623093084e-05, "epoch": 21.9, "percentage": 62.57, "elapsed_time": "0:41:49", "remaining_time": "0:25:00"}
+{"current_steps": 220, "total_steps": 350, "loss": 0.0013, "lr": 3.6457976592849754e-05, "epoch": 22.0, "percentage": 62.86, "elapsed_time": "0:41:53", "remaining_time": "0:24:45"}
+{"current_steps": 221, "total_steps": 350, "loss": 0.0012, "lr": 3.597863053469987e-05, "epoch": 22.1, "percentage": 63.14, "elapsed_time": "0:42:04", "remaining_time": "0:24:33"}
+{"current_steps": 222, "total_steps": 350, "loss": 0.0012, "lr": 3.550067912732069e-05, "epoch": 22.2, "percentage": 63.43, "elapsed_time": "0:42:14", "remaining_time": "0:24:21"}
+{"current_steps": 223, "total_steps": 350, "loss": 0.0012, "lr": 3.502416991066904e-05, "epoch": 22.3, "percentage": 63.71, "elapsed_time": "0:42:25", "remaining_time": "0:24:09"}
+{"current_steps": 224, "total_steps": 350, "loss": 0.0013, "lr": 3.4549150281252636e-05, "epoch": 22.4, "percentage": 64.0, "elapsed_time": "0:42:35", "remaining_time": "0:23:57"}
+{"current_steps": 225, "total_steps": 350, "loss": 0.0013, "lr": 3.4075667487415785e-05, "epoch": 22.5, "percentage": 64.29, "elapsed_time": "0:42:45", "remaining_time": "0:23:45"}
+{"current_steps": 225, "total_steps": 350, "eval_loss": 0.02635515108704567, "epoch": 22.5, "percentage": 64.29, "elapsed_time": "0:42:52", "remaining_time": "0:23:49"}
+{"current_steps": 226, "total_steps": 350, "loss": 0.0012, "lr": 3.360376862463979e-05, "epoch": 22.6, "percentage": 64.57, "elapsed_time": "0:43:02", "remaining_time": "0:23:37"}
+{"current_steps": 227, "total_steps": 350, "loss": 0.0012, "lr": 3.313350063085851e-05, "epoch": 22.7, "percentage": 64.86, "elapsed_time": "0:43:12", "remaining_time": "0:23:24"}
+{"current_steps": 228, "total_steps": 350, "loss": 0.0013, "lr": 3.266491028178964e-05, "epoch": 22.8, "percentage": 65.14, "elapsed_time": "0:43:23", "remaining_time": "0:23:12"}
+{"current_steps": 229, "total_steps": 350, "loss": 0.0012, "lr": 3.219804418628216e-05, "epoch": 22.9, "percentage": 65.43, "elapsed_time": "0:43:33", "remaining_time": "0:23:01"}
+{"current_steps": 230, "total_steps": 350, "loss": 0.0013, "lr": 3.173294878168025e-05, "epoch": 23.0, "percentage": 65.71, "elapsed_time": "0:43:38", "remaining_time": "0:22:46"}
+{"current_steps": 231, "total_steps": 350, "loss": 0.0013, "lr": 3.12696703292044e-05, "epoch": 23.1, "percentage": 66.0, "elapsed_time": "0:43:48", "remaining_time": "0:22:34"}
+{"current_steps": 232, "total_steps": 350, "loss": 0.0013, "lr": 3.080825490934999e-05, "epoch": 23.2, "percentage": 66.29, "elapsed_time": "0:43:59", "remaining_time": "0:22:22"}
+{"current_steps": 233, "total_steps": 350, "loss": 0.0012, "lr": 3.0348748417303823e-05, "epoch": 23.3, "percentage": 66.57, "elapsed_time": "0:44:09", "remaining_time": "0:22:10"}
+{"current_steps": 234, "total_steps": 350, "loss": 0.0013, "lr": 2.989119655837913e-05, "epoch": 23.4, "percentage": 66.86, "elapsed_time": "0:44:20", "remaining_time": "0:21:58"}
+{"current_steps": 235, "total_steps": 350, "loss": 0.0013, "lr": 2.9435644843469436e-05, "epoch": 23.5, "percentage": 67.14, "elapsed_time": "0:44:30", "remaining_time": "0:21:46"}
+{"current_steps": 236, "total_steps": 350, "loss": 0.0013, "lr": 2.8982138584521735e-05, "epoch": 23.6, "percentage": 67.43, "elapsed_time": "0:44:40", "remaining_time": "0:21:34"}
+{"current_steps": 237, "total_steps": 350, "loss": 0.0013, "lr": 2.8530722890029537e-05, "epoch": 23.7, "percentage": 67.71, "elapsed_time": "0:44:50", "remaining_time": "0:21:23"}
+{"current_steps": 238, "total_steps": 350, "loss": 0.0013, "lr": 2.8081442660546125e-05, "epoch": 23.8, "percentage": 68.0, "elapsed_time": "0:45:01", "remaining_time": "0:21:11"}
+{"current_steps": 239, "total_steps": 350, "loss": 0.0013, "lr": 2.7634342584218365e-05, "epoch": 23.9, "percentage": 68.29, "elapsed_time": "0:45:11", "remaining_time": "0:20:59"}
+{"current_steps": 240, "total_steps": 350, "loss": 0.0013, "lr": 2.718946713234185e-05, "epoch": 24.0, "percentage": 68.57, "elapsed_time": "0:45:16", "remaining_time": "0:20:44"}
+{"current_steps": 241, "total_steps": 350, "loss": 0.0012, "lr": 2.674686055493748e-05, "epoch": 24.1, "percentage": 68.86, "elapsed_time": "0:45:26", "remaining_time": "0:20:33"}
+{"current_steps": 242, "total_steps": 350, "loss": 0.0013, "lr": 2.630656687635007e-05, "epoch": 24.2, "percentage": 69.14, "elapsed_time": "0:45:36", "remaining_time": "0:20:21"}
+{"current_steps": 243, "total_steps": 350, "loss": 0.0012, "lr": 2.5868629890869468e-05, "epoch": 24.3, "percentage": 69.43, "elapsed_time": "0:45:47", "remaining_time": "0:20:09"}
+{"current_steps": 244, "total_steps": 350, "loss": 0.0013, "lr": 2.543309315837444e-05, "epoch": 24.4, "percentage": 69.71, "elapsed_time": "0:45:57", "remaining_time": "0:19:58"}
+{"current_steps": 245, "total_steps": 350, "loss": 0.0012, "lr": 2.500000000000001e-05, "epoch": 24.5, "percentage": 70.0, "elapsed_time": "0:46:08", "remaining_time": "0:19:46"}
+{"current_steps": 246, "total_steps": 350, "loss": 0.0012, "lr": 2.456939349382843e-05, "epoch": 24.6, "percentage": 70.29, "elapsed_time": "0:46:18", "remaining_time": "0:19:34"}
+{"current_steps": 247, "total_steps": 350, "loss": 0.0013, "lr": 2.4141316470604362e-05, "epoch": 24.7, "percentage": 70.57, "elapsed_time": "0:46:28", "remaining_time": "0:19:22"}
+{"current_steps": 248, "total_steps": 350, "loss": 0.0012, "lr": 2.371581150947476e-05, "epoch": 24.8, "percentage": 70.86, "elapsed_time": "0:46:39", "remaining_time": "0:19:11"}
+{"current_steps": 249, "total_steps": 350, "loss": 0.0013, "lr": 2.3292920933753566e-05, "epoch": 24.9, "percentage": 71.14, "elapsed_time": "0:46:49", "remaining_time": "0:18:59"}
+{"current_steps": 250, "total_steps": 350, "loss": 0.0013, "lr": 2.2872686806712035e-05, "epoch": 25.0, "percentage": 71.43, "elapsed_time": "0:46:54", "remaining_time": "0:18:45"}
+{"current_steps": 250, "total_steps": 350, "eval_loss": 0.027748363092541695, "epoch": 25.0, "percentage": 71.43, "elapsed_time": "0:47:01", "remaining_time": "0:18:48"}
+{"current_steps": 250, "total_steps": 350, "epoch": 25.0, "percentage": 71.43, "elapsed_time": "0:47:01", "remaining_time": "0:18:48"}

trainer_state.json CHANGED Viewed

@@ -1,97 +1,1857 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 25,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
-      "grad_norm": 1.222133755683899,
-      "learning_rate": 0.0001,
       "loss": 0.1531,
       "step": 1
     },
     {
       "epoch": 0.2,
-      "grad_norm": 1.2098262310028076,
-      "learning_rate": 9.698463103929542e-05,
       "loss": 0.1308,
       "step": 2
     },
     {
       "epoch": 0.3,
-      "grad_norm": 0.9002367258071899,
-      "learning_rate": 8.83022221559489e-05,
-      "loss": 0.1702,
       "step": 3
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.20591969788074493,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 0.0813,
       "step": 4
     },
     {
       "epoch": 0.5,
-      "grad_norm": 0.2272542268037796,
-      "learning_rate": 5.868240888334653e-05,
-      "loss": 0.0786,
       "step": 5
     },
     {
       "epoch": 0.6,
-      "grad_norm": 0.20280824601650238,
-      "learning_rate": 4.131759111665349e-05,
-      "loss": 0.0576,
       "step": 6
     },
     {
       "epoch": 0.7,
-      "grad_norm": 0.16879288852214813,
-      "learning_rate": 2.500000000000001e-05,
-      "loss": 0.0715,
       "step": 7
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.14683185517787933,
-      "learning_rate": 1.1697777844051105e-05,
-      "loss": 0.0518,
       "step": 8
     },
     {
       "epoch": 0.9,
-      "grad_norm": 0.13245084881782532,
-      "learning_rate": 3.0153689607045845e-06,
-      "loss": 0.0697,
       "step": 9
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.12347117066383362,
-      "learning_rate": 0.0,
-      "loss": 0.0538,
       "step": 10
     },
     {
-      "epoch": 1.0,
-      "step": 10,
-      "total_flos": 1.5338473968402432e+16,
-      "train_loss": 0.09183733761310578,
-      "train_runtime": 197.912,
-      "train_samples_per_second": 2.289,
-      "train_steps_per_second": 0.051
     }
   ],
   "logging_steps": 1,
-  "max_steps": 10,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 100,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -100,7 +1860,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -109,12 +1869,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.5338473968402432e+16,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.017384279519319534,
+  "best_model_checkpoint": "/home/paperspace/Data/models/Klystroglobal/llm3br256-v1.5/checkpoint-100",
+  "epoch": 25.0,
   "eval_steps": 25,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
+      "grad_norm": 1.2220871448516846,
+      "learning_rate": 2.8571428571428573e-06,
       "loss": 0.1531,
       "step": 1
     },
     {
       "epoch": 0.2,
+      "grad_norm": 1.2097222805023193,
+      "learning_rate": 5.7142857142857145e-06,
       "loss": 0.1308,
       "step": 2
     },
     {
       "epoch": 0.3,
+      "grad_norm": 1.2176955938339233,
+      "learning_rate": 8.571428571428573e-06,
+      "loss": 0.1619,
       "step": 3
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.7081905007362366,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.1325,
       "step": 4
     },
     {
       "epoch": 0.5,
+      "grad_norm": 0.529013991355896,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.1206,
       "step": 5
     },
     {
       "epoch": 0.6,
+      "grad_norm": 0.32227373123168945,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.0875,
       "step": 6
     },
     {
       "epoch": 0.7,
+      "grad_norm": 0.34188932180404663,
+      "learning_rate": 2e-05,
+      "loss": 0.1067,
       "step": 7
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.513898491859436,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.0966,
       "step": 8
     },
     {
       "epoch": 0.9,
+      "grad_norm": 0.47207334637641907,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.1088,
       "step": 9
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.32782670855522156,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.0839,
       "step": 10
     },
     {
+      "epoch": 1.1,
+      "grad_norm": 0.17063647508621216,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.0713,
+      "step": 11
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.15981265902519226,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.0688,
+      "step": 12
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 0.16717936098575592,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.0688,
+      "step": 13
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.22196544706821442,
+      "learning_rate": 4e-05,
+      "loss": 0.0668,
+      "step": 14
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.20881694555282593,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.0613,
+      "step": 15
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.14273549616336823,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.052,
+      "step": 16
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 0.12841083109378815,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.0581,
+      "step": 17
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 0.1572558879852295,
+      "learning_rate": 5.142857142857143e-05,
+      "loss": 0.0482,
+      "step": 18
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.19301706552505493,
+      "learning_rate": 5.428571428571428e-05,
+      "loss": 0.0533,
+      "step": 19
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.1539728194475174,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.0513,
+      "step": 20
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 0.11170095205307007,
+      "learning_rate": 6e-05,
+      "loss": 0.042,
+      "step": 21
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 0.09418804198503494,
+      "learning_rate": 6.285714285714286e-05,
+      "loss": 0.0401,
+      "step": 22
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 0.11917826533317566,
+      "learning_rate": 6.571428571428571e-05,
+      "loss": 0.0382,
+      "step": 23
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.10801587998867035,
+      "learning_rate": 6.857142857142858e-05,
+      "loss": 0.034,
+      "step": 24
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.11365531384944916,
+      "learning_rate": 7.142857142857143e-05,
+      "loss": 0.0437,
+      "step": 25
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.03402441740036011,
+      "eval_runtime": 19.4202,
+      "eval_samples_per_second": 5.149,
+      "eval_steps_per_second": 0.154,
+      "step": 25
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 0.1079014241695404,
+      "learning_rate": 7.428571428571429e-05,
+      "loss": 0.0422,
+      "step": 26
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 0.08936240524053574,
+      "learning_rate": 7.714285714285715e-05,
+      "loss": 0.0264,
+      "step": 27
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.12060200423002243,
+      "learning_rate": 8e-05,
+      "loss": 0.0377,
+      "step": 28
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 0.08112004399299622,
+      "learning_rate": 8.285714285714287e-05,
+      "loss": 0.0289,
+      "step": 29
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.12806135416030884,
+      "learning_rate": 8.571428571428571e-05,
+      "loss": 0.0299,
+      "step": 30
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 0.06607820093631744,
+      "learning_rate": 8.857142857142857e-05,
+      "loss": 0.0216,
+      "step": 31
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.08246105909347534,
+      "learning_rate": 9.142857142857143e-05,
+      "loss": 0.0359,
+      "step": 32
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 0.07171958684921265,
+      "learning_rate": 9.428571428571429e-05,
+      "loss": 0.0233,
+      "step": 33
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 0.07688147574663162,
+      "learning_rate": 9.714285714285715e-05,
+      "loss": 0.0254,
+      "step": 34
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 0.07434146851301193,
+      "learning_rate": 0.0001,
+      "loss": 0.0202,
+      "step": 35
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 0.06925389170646667,
+      "learning_rate": 9.999751334779716e-05,
+      "loss": 0.0197,
+      "step": 36
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 0.06520260870456696,
+      "learning_rate": 9.999005363852618e-05,
+      "loss": 0.0206,
+      "step": 37
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 0.07232938706874847,
+      "learning_rate": 9.997762161417517e-05,
+      "loss": 0.0197,
+      "step": 38
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 0.08089913427829742,
+      "learning_rate": 9.996021851130897e-05,
+      "loss": 0.0178,
+      "step": 39
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.12080717831850052,
+      "learning_rate": 9.993784606094612e-05,
+      "loss": 0.0141,
+      "step": 40
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 0.05649913102388382,
+      "learning_rate": 9.991050648838675e-05,
+      "loss": 0.012,
+      "step": 41
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 0.09042762964963913,
+      "learning_rate": 9.987820251299122e-05,
+      "loss": 0.0124,
+      "step": 42
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 0.07907257974147797,
+      "learning_rate": 9.984093734790956e-05,
+      "loss": 0.017,
+      "step": 43
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.07241521775722504,
+      "learning_rate": 9.979871469976196e-05,
+      "loss": 0.0132,
+      "step": 44
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.10079007595777512,
+      "learning_rate": 9.975153876827008e-05,
+      "loss": 0.0169,
+      "step": 45
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 0.09246091544628143,
+      "learning_rate": 9.969941424583926e-05,
+      "loss": 0.0145,
+      "step": 46
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 0.0651487484574318,
+      "learning_rate": 9.964234631709187e-05,
+      "loss": 0.0151,
+      "step": 47
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.06992605328559875,
+      "learning_rate": 9.958034065835151e-05,
+      "loss": 0.011,
+      "step": 48
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 0.06309088319540024,
+      "learning_rate": 9.951340343707852e-05,
+      "loss": 0.012,
+      "step": 49
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.06862813979387283,
+      "learning_rate": 9.944154131125642e-05,
+      "loss": 0.0098,
+      "step": 50
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.016623547300696373,
+      "eval_runtime": 15.4785,
+      "eval_samples_per_second": 6.461,
+      "eval_steps_per_second": 0.194,
+      "step": 50
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.06234560161828995,
+      "learning_rate": 9.936476142872979e-05,
+      "loss": 0.011,
+      "step": 51
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.05178332328796387,
+      "learning_rate": 9.928307142649316e-05,
+      "loss": 0.0082,
+      "step": 52
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 0.0584288015961647,
+      "learning_rate": 9.919647942993148e-05,
+      "loss": 0.0069,
+      "step": 53
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 0.05619216337800026,
+      "learning_rate": 9.910499405201195e-05,
+      "loss": 0.0091,
+      "step": 54
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.052176207304000854,
+      "learning_rate": 9.900862439242719e-05,
+      "loss": 0.0062,
+      "step": 55
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.058783914893865585,
+      "learning_rate": 9.890738003669029e-05,
+      "loss": 0.0052,
+      "step": 56
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 0.08193694055080414,
+      "learning_rate": 9.880127105518122e-05,
+      "loss": 0.0076,
+      "step": 57
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 0.09745576977729797,
+      "learning_rate": 9.869030800214532e-05,
+      "loss": 0.0107,
+      "step": 58
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 0.07822689414024353,
+      "learning_rate": 9.857450191464337e-05,
+      "loss": 0.0081,
+      "step": 59
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.06525323539972305,
+      "learning_rate": 9.84538643114539e-05,
+      "loss": 0.0063,
+      "step": 60
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 0.03879164531826973,
+      "learning_rate": 9.832840719192736e-05,
+      "loss": 0.0037,
+      "step": 61
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 0.05432894080877304,
+      "learning_rate": 9.819814303479267e-05,
+      "loss": 0.0049,
+      "step": 62
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 0.04752165079116821,
+      "learning_rate": 9.806308479691595e-05,
+      "loss": 0.0051,
+      "step": 63
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.0588836595416069,
+      "learning_rate": 9.792324591201179e-05,
+      "loss": 0.0052,
+      "step": 64
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 0.07457052916288376,
+      "learning_rate": 9.777864028930705e-05,
+      "loss": 0.0046,
+      "step": 65
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 0.06699630618095398,
+      "learning_rate": 9.76292823121573e-05,
+      "loss": 0.0064,
+      "step": 66
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 0.05367649346590042,
+      "learning_rate": 9.747518683661631e-05,
+      "loss": 0.0044,
+      "step": 67
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.06585957109928131,
+      "learning_rate": 9.731636918995821e-05,
+      "loss": 0.0064,
+      "step": 68
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 0.05559472367167473,
+      "learning_rate": 9.715284516915303e-05,
+      "loss": 0.0045,
+      "step": 69
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.1440582275390625,
+      "learning_rate": 9.698463103929542e-05,
+      "loss": 0.0067,
+      "step": 70
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 0.04040021821856499,
+      "learning_rate": 9.681174353198687e-05,
+      "loss": 0.0037,
+      "step": 71
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.06325013935565948,
+      "learning_rate": 9.663419984367139e-05,
+      "loss": 0.0027,
+      "step": 72
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 0.11049168556928635,
+      "learning_rate": 9.645201763392513e-05,
+      "loss": 0.0046,
+      "step": 73
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 0.0775715634226799,
+      "learning_rate": 9.626521502369984e-05,
+      "loss": 0.0054,
+      "step": 74
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.08004690706729889,
+      "learning_rate": 9.607381059352038e-05,
+      "loss": 0.0039,
+      "step": 75
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 0.016471313312649727,
+      "eval_runtime": 7.0024,
+      "eval_samples_per_second": 14.281,
+      "eval_steps_per_second": 0.428,
+      "step": 75
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 0.12311126291751862,
+      "learning_rate": 9.587782338163669e-05,
+      "loss": 0.0035,
+      "step": 76
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 0.05487671494483948,
+      "learning_rate": 9.567727288213005e-05,
+      "loss": 0.0047,
+      "step": 77
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 0.03079923987388611,
+      "learning_rate": 9.547217904297411e-05,
+      "loss": 0.0028,
+      "step": 78
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 0.09893915802240372,
+      "learning_rate": 9.526256226405075e-05,
+      "loss": 0.0054,
+      "step": 79
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.06392358988523483,
+      "learning_rate": 9.504844339512095e-05,
+      "loss": 0.0025,
+      "step": 80
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 0.04920504242181778,
+      "learning_rate": 9.482984373375105e-05,
+      "loss": 0.0037,
+      "step": 81
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 0.044106096029281616,
+      "learning_rate": 9.460678502319418e-05,
+      "loss": 0.0026,
+      "step": 82
+    },
+    {
+      "epoch": 8.3,
+      "grad_norm": 0.07550745457410812,
+      "learning_rate": 9.437928945022771e-05,
+      "loss": 0.0049,
+      "step": 83
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 0.06214550510048866,
+      "learning_rate": 9.414737964294636e-05,
+      "loss": 0.0037,
+      "step": 84
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 0.057385075837373734,
+      "learning_rate": 9.391107866851143e-05,
+      "loss": 0.0025,
+      "step": 85
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 0.0968804582953453,
+      "learning_rate": 9.367041003085649e-05,
+      "loss": 0.0032,
+      "step": 86
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.03738746419548988,
+      "learning_rate": 9.342539766834946e-05,
+      "loss": 0.0028,
+      "step": 87
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.04243948310613632,
+      "learning_rate": 9.317606595141154e-05,
+      "loss": 0.0027,
+      "step": 88
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 0.034692391753196716,
+      "learning_rate": 9.292243968009331e-05,
+      "loss": 0.0029,
+      "step": 89
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.06521083414554596,
+      "learning_rate": 9.266454408160779e-05,
+      "loss": 0.0034,
+      "step": 90
+    },
+    {
+      "epoch": 9.1,
+      "grad_norm": 0.04499003291130066,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.0023,
+      "step": 91
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 0.03955000266432762,
+      "learning_rate": 9.213604793270196e-05,
+      "loss": 0.0024,
+      "step": 92
+    },
+    {
+      "epoch": 9.3,
+      "grad_norm": 0.03790497034788132,
+      "learning_rate": 9.186549994972618e-05,
+      "loss": 0.0031,
+      "step": 93
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 0.053670890629291534,
+      "learning_rate": 9.159078776924346e-05,
+      "loss": 0.0029,
+      "step": 94
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.016972996294498444,
+      "learning_rate": 9.131193871579975e-05,
+      "loss": 0.0017,
+      "step": 95
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.12130908668041229,
+      "learning_rate": 9.102898052541958e-05,
+      "loss": 0.0022,
+      "step": 96
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 0.04438166692852974,
+      "learning_rate": 9.074194134284726e-05,
+      "loss": 0.0025,
+      "step": 97
+    },
+    {
+      "epoch": 9.8,
+      "grad_norm": 0.05157145857810974,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.002,
+      "step": 98
+    },
+    {
+      "epoch": 9.9,
+      "grad_norm": 0.03810460492968559,
+      "learning_rate": 9.015573460686509e-05,
+      "loss": 0.0026,
+      "step": 99
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.06720886379480362,
+      "learning_rate": 8.985662536114613e-05,
+      "loss": 0.0021,
+      "step": 100
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.017384279519319534,
+      "eval_runtime": 7.4008,
+      "eval_samples_per_second": 13.512,
+      "eval_steps_per_second": 0.405,
+      "step": 100
+    },
+    {
+      "epoch": 10.1,
+      "grad_norm": 0.017021650448441505,
+      "learning_rate": 8.955355173281708e-05,
+      "loss": 0.0017,
+      "step": 101
+    },
+    {
+      "epoch": 10.2,
+      "grad_norm": 0.03386203572154045,
+      "learning_rate": 8.924654386742613e-05,
+      "loss": 0.0018,
+      "step": 102
+    },
+    {
+      "epoch": 10.3,
+      "grad_norm": 0.06196419894695282,
+      "learning_rate": 8.89356323018447e-05,
+      "loss": 0.0025,
+      "step": 103
+    },
+    {
+      "epoch": 10.4,
+      "grad_norm": 0.02523985505104065,
+      "learning_rate": 8.862084796122998e-05,
+      "loss": 0.0017,
+      "step": 104
+    },
+    {
+      "epoch": 10.5,
+      "grad_norm": 0.05176355317234993,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.0029,
+      "step": 105
+    },
+    {
+      "epoch": 10.6,
+      "grad_norm": 0.05031086131930351,
+      "learning_rate": 8.797978657846391e-05,
+      "loss": 0.0022,
+      "step": 106
+    },
+    {
+      "epoch": 10.7,
+      "grad_norm": 0.06354419887065887,
+      "learning_rate": 8.765357330018056e-05,
+      "loss": 0.0024,
+      "step": 107
+    },
+    {
+      "epoch": 10.8,
+      "grad_norm": 0.06342065334320068,
+      "learning_rate": 8.732361476825752e-05,
+      "loss": 0.0028,
+      "step": 108
+    },
+    {
+      "epoch": 10.9,
+      "grad_norm": 0.03949422389268875,
+      "learning_rate": 8.69899438023792e-05,
+      "loss": 0.0018,
+      "step": 109
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.02962133288383484,
+      "learning_rate": 8.665259359149132e-05,
+      "loss": 0.0018,
+      "step": 110
+    },
+    {
+      "epoch": 11.1,
+      "grad_norm": 0.10264372825622559,
+      "learning_rate": 8.631159769049965e-05,
+      "loss": 0.0028,
+      "step": 111
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 0.021233167499303818,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.0018,
+      "step": 112
+    },
+    {
+      "epoch": 11.3,
+      "grad_norm": 0.06390991806983948,
+      "learning_rate": 8.561880484756725e-05,
+      "loss": 0.0018,
+      "step": 113
+    },
+    {
+      "epoch": 11.4,
+      "grad_norm": 0.1139807403087616,
+      "learning_rate": 8.526707681502044e-05,
+      "loss": 0.0036,
+      "step": 114
+    },
+    {
+      "epoch": 11.5,
+      "grad_norm": 0.018219145014882088,
+      "learning_rate": 8.491184090430364e-05,
+      "loss": 0.0019,
+      "step": 115
+    },
+    {
+      "epoch": 11.6,
+      "grad_norm": 0.03801802918314934,
+      "learning_rate": 8.455313244934324e-05,
+      "loss": 0.0024,
+      "step": 116
+    },
+    {
+      "epoch": 11.7,
+      "grad_norm": 0.052779678255319595,
+      "learning_rate": 8.419098712946601e-05,
+      "loss": 0.0033,
+      "step": 117
+    },
+    {
+      "epoch": 11.8,
+      "grad_norm": 0.15576517581939697,
+      "learning_rate": 8.382544096585027e-05,
+      "loss": 0.0032,
+      "step": 118
+    },
+    {
+      "epoch": 11.9,
+      "grad_norm": 0.050439249724149704,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.0032,
+      "step": 119
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.13610731065273285,
+      "learning_rate": 8.308429187984297e-05,
+      "loss": 0.0044,
+      "step": 120
+    },
+    {
+      "epoch": 12.1,
+      "grad_norm": 0.03380730748176575,
+      "learning_rate": 8.270876267665173e-05,
+      "loss": 0.0025,
+      "step": 121
+    },
+    {
+      "epoch": 12.2,
+      "grad_norm": 0.032273851335048676,
+      "learning_rate": 8.232998006078997e-05,
+      "loss": 0.002,
+      "step": 122
+    },
+    {
+      "epoch": 12.3,
+      "grad_norm": 0.021625736728310585,
+      "learning_rate": 8.19479817082828e-05,
+      "loss": 0.0023,
+      "step": 123
+    },
+    {
+      "epoch": 12.4,
+      "grad_norm": 0.050165340304374695,
+      "learning_rate": 8.156280561501195e-05,
+      "loss": 0.0025,
+      "step": 124
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 0.052705712616443634,
+      "learning_rate": 8.117449009293668e-05,
+      "loss": 0.0031,
+      "step": 125
+    },
+    {
+      "epoch": 12.5,
+      "eval_loss": 0.014472348615527153,
+      "eval_runtime": 7.0196,
+      "eval_samples_per_second": 14.246,
+      "eval_steps_per_second": 0.427,
+      "step": 125
+    },
+    {
+      "epoch": 12.6,
+      "grad_norm": 0.05300145596265793,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.0023,
+      "step": 126
+    },
+    {
+      "epoch": 12.7,
+      "grad_norm": 0.06016397848725319,
+      "learning_rate": 8.038859556770151e-05,
+      "loss": 0.0027,
+      "step": 127
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 0.06083128601312637,
+      "learning_rate": 7.999109473439569e-05,
+      "loss": 0.0019,
+      "step": 128
+    },
+    {
+      "epoch": 12.9,
+      "grad_norm": 0.036125779151916504,
+      "learning_rate": 7.959061080421839e-05,
+      "loss": 0.0026,
+      "step": 129
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.03736874461174011,
+      "learning_rate": 7.91871836117395e-05,
+      "loss": 0.0016,
+      "step": 130
+    },
+    {
+      "epoch": 13.1,
+      "grad_norm": 0.0378425307571888,
+      "learning_rate": 7.878085328428369e-05,
+      "loss": 0.0018,
+      "step": 131
+    },
+    {
+      "epoch": 13.2,
+      "grad_norm": 0.06520125269889832,
+      "learning_rate": 7.83716602379391e-05,
+      "loss": 0.0037,
+      "step": 132
+    },
+    {
+      "epoch": 13.3,
+      "grad_norm": 0.06993651390075684,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.0021,
+      "step": 133
+    },
+    {
+      "epoch": 13.4,
+      "grad_norm": 0.0514182485640049,
+      "learning_rate": 7.754484907260513e-05,
+      "loss": 0.0023,
+      "step": 134
+    },
+    {
+      "epoch": 13.5,
+      "grad_norm": 0.0771847516298294,
+      "learning_rate": 7.712731319328798e-05,
+      "loss": 0.0022,
+      "step": 135
+    },
+    {
+      "epoch": 13.6,
+      "grad_norm": 0.02829659916460514,
+      "learning_rate": 7.670707906624644e-05,
+      "loss": 0.0016,
+      "step": 136
+    },
+    {
+      "epoch": 13.7,
+      "grad_norm": 0.08551648259162903,
+      "learning_rate": 7.628418849052523e-05,
+      "loss": 0.0024,
+      "step": 137
+    },
+    {
+      "epoch": 13.8,
+      "grad_norm": 0.09427579492330551,
+      "learning_rate": 7.585868352939563e-05,
+      "loss": 0.0016,
+      "step": 138
+    },
+    {
+      "epoch": 13.9,
+      "grad_norm": 0.04036640748381615,
+      "learning_rate": 7.543060650617158e-05,
+      "loss": 0.0018,
+      "step": 139
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.19952990114688873,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0025,
+      "step": 140
+    },
+    {
+      "epoch": 14.1,
+      "grad_norm": 0.11951940506696701,
+      "learning_rate": 7.456690684162557e-05,
+      "loss": 0.0026,
+      "step": 141
+    },
+    {
+      "epoch": 14.2,
+      "grad_norm": 0.043521635234355927,
+      "learning_rate": 7.413137010913054e-05,
+      "loss": 0.0019,
+      "step": 142
+    },
+    {
+      "epoch": 14.3,
+      "grad_norm": 0.07670493423938751,
+      "learning_rate": 7.369343312364993e-05,
+      "loss": 0.002,
+      "step": 143
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 0.027879884466528893,
+      "learning_rate": 7.325313944506254e-05,
+      "loss": 0.0015,
+      "step": 144
+    },
+    {
+      "epoch": 14.5,
+      "grad_norm": 0.05514749884605408,
+      "learning_rate": 7.281053286765815e-05,
+      "loss": 0.0018,
+      "step": 145
+    },
+    {
+      "epoch": 14.6,
+      "grad_norm": 0.06391794979572296,
+      "learning_rate": 7.236565741578163e-05,
+      "loss": 0.0024,
+      "step": 146
+    },
+    {
+      "epoch": 14.7,
+      "grad_norm": 0.08744440227746964,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.0049,
+      "step": 147
+    },
+    {
+      "epoch": 14.8,
+      "grad_norm": 0.056523509323596954,
+      "learning_rate": 7.146927710997047e-05,
+      "loss": 0.0024,
+      "step": 148
+    },
+    {
+      "epoch": 14.9,
+      "grad_norm": 0.028166329488158226,
+      "learning_rate": 7.101786141547828e-05,
+      "loss": 0.0018,
+      "step": 149
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.09874721616506577,
+      "learning_rate": 7.056435515653059e-05,
+      "loss": 0.0022,
+      "step": 150
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.023497436195611954,
+      "eval_runtime": 7.0483,
+      "eval_samples_per_second": 14.188,
+      "eval_steps_per_second": 0.426,
+      "step": 150
+    },
+    {
+      "epoch": 15.1,
+      "grad_norm": 0.020559396594762802,
+      "learning_rate": 7.010880344162088e-05,
+      "loss": 0.0015,
+      "step": 151
+    },
+    {
+      "epoch": 15.2,
+      "grad_norm": 0.06717398762702942,
+      "learning_rate": 6.965125158269619e-05,
+      "loss": 0.0022,
+      "step": 152
+    },
+    {
+      "epoch": 15.3,
+      "grad_norm": 0.052798088639974594,
+      "learning_rate": 6.919174509065004e-05,
+      "loss": 0.0029,
+      "step": 153
+    },
+    {
+      "epoch": 15.4,
+      "grad_norm": 0.04526599869132042,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.0022,
+      "step": 154
+    },
+    {
+      "epoch": 15.5,
+      "grad_norm": 0.045334987342357635,
+      "learning_rate": 6.826705121831976e-05,
+      "loss": 0.0033,
+      "step": 155
+    },
+    {
+      "epoch": 15.6,
+      "grad_norm": 0.02370765618979931,
+      "learning_rate": 6.780195581371784e-05,
+      "loss": 0.0022,
+      "step": 156
+    },
+    {
+      "epoch": 15.7,
+      "grad_norm": 0.034078944474458694,
+      "learning_rate": 6.733508971821036e-05,
+      "loss": 0.0021,
+      "step": 157
+    },
+    {
+      "epoch": 15.8,
+      "grad_norm": 0.04473605379462242,
+      "learning_rate": 6.686649936914152e-05,
+      "loss": 0.0019,
+      "step": 158
+    },
+    {
+      "epoch": 15.9,
+      "grad_norm": 0.03901509568095207,
+      "learning_rate": 6.639623137536023e-05,
+      "loss": 0.002,
+      "step": 159
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.027788842096924782,
+      "learning_rate": 6.592433251258423e-05,
+      "loss": 0.0014,
+      "step": 160
+    },
+    {
+      "epoch": 16.1,
+      "grad_norm": 0.02930135279893875,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0017,
+      "step": 161
+    },
+    {
+      "epoch": 16.2,
+      "grad_norm": 0.010466442443430424,
+      "learning_rate": 6.497583008933097e-05,
+      "loss": 0.0014,
+      "step": 162
+    },
+    {
+      "epoch": 16.3,
+      "grad_norm": 0.021891970187425613,
+      "learning_rate": 6.449932087267932e-05,
+      "loss": 0.0016,
+      "step": 163
+    },
+    {
+      "epoch": 16.4,
+      "grad_norm": 0.012705606408417225,
+      "learning_rate": 6.402136946530014e-05,
+      "loss": 0.0013,
+      "step": 164
+    },
+    {
+      "epoch": 16.5,
+      "grad_norm": 0.019639883190393448,
+      "learning_rate": 6.354202340715026e-05,
+      "loss": 0.0016,
+      "step": 165
+    },
+    {
+      "epoch": 16.6,
+      "grad_norm": 0.03136239945888519,
+      "learning_rate": 6.306133037690693e-05,
+      "loss": 0.0019,
+      "step": 166
+    },
+    {
+      "epoch": 16.7,
+      "grad_norm": 0.04432203993201256,
+      "learning_rate": 6.257933818722543e-05,
+      "loss": 0.0016,
+      "step": 167
+    },
+    {
+      "epoch": 16.8,
+      "grad_norm": 0.06362082064151764,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.0025,
+      "step": 168
+    },
+    {
+      "epoch": 16.9,
+      "grad_norm": 0.03577618673443794,
+      "learning_rate": 6.161164822151213e-05,
+      "loss": 0.0018,
+      "step": 169
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.033404137939214706,
+      "learning_rate": 6.112604669781572e-05,
+      "loss": 0.0017,
+      "step": 170
+    },
+    {
+      "epoch": 17.1,
+      "grad_norm": 0.0031848133075982332,
+      "learning_rate": 6.063933850977811e-05,
+      "loss": 0.0012,
+      "step": 171
+    },
+    {
+      "epoch": 17.2,
+      "grad_norm": 0.02553616650402546,
+      "learning_rate": 6.015157206835881e-05,
+      "loss": 0.0014,
+      "step": 172
+    },
+    {
+      "epoch": 17.3,
+      "grad_norm": 0.019564760848879814,
+      "learning_rate": 5.9662795889777666e-05,
+      "loss": 0.0013,
+      "step": 173
+    },
+    {
+      "epoch": 17.4,
+      "grad_norm": 0.00845835916697979,
+      "learning_rate": 5.917305859068912e-05,
+      "loss": 0.0013,
+      "step": 174
+    },
+    {
+      "epoch": 17.5,
+      "grad_norm": 0.008497758768498898,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0013,
+      "step": 175
+    },
+    {
+      "epoch": 17.5,
+      "eval_loss": 0.01870564930140972,
+      "eval_runtime": 7.0134,
+      "eval_samples_per_second": 14.258,
+      "eval_steps_per_second": 0.428,
+      "step": 175
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 0.04741276800632477,
+      "learning_rate": 5.819089557075689e-05,
+      "loss": 0.0018,
+      "step": 176
+    },
+    {
+      "epoch": 17.7,
+      "grad_norm": 0.014859266579151154,
+      "learning_rate": 5.7698567541826675e-05,
+      "loss": 0.0014,
+      "step": 177
+    },
+    {
+      "epoch": 17.8,
+      "grad_norm": 0.05082236975431442,
+      "learning_rate": 5.7205473766499005e-05,
+      "loss": 0.0025,
+      "step": 178
+    },
+    {
+      "epoch": 17.9,
+      "grad_norm": 0.05401023477315903,
+      "learning_rate": 5.6711663290882776e-05,
+      "loss": 0.0024,
+      "step": 179
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.010000503621995449,
+      "learning_rate": 5.621718523237427e-05,
+      "loss": 0.0014,
+      "step": 180
+    },
+    {
+      "epoch": 18.1,
+      "grad_norm": 0.020556163042783737,
+      "learning_rate": 5.57220887747716e-05,
+      "loss": 0.0016,
+      "step": 181
+    },
+    {
+      "epoch": 18.2,
+      "grad_norm": 0.004740948788821697,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0013,
+      "step": 182
+    },
+    {
+      "epoch": 18.3,
+      "grad_norm": 0.014636721462011337,
+      "learning_rate": 5.473023770012686e-05,
+      "loss": 0.0017,
+      "step": 183
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 0.004370884504169226,
+      "learning_rate": 5.4233581738631165e-05,
+      "loss": 0.0013,
+      "step": 184
+    },
+    {
+      "epoch": 18.5,
+      "grad_norm": 0.03240854665637016,
+      "learning_rate": 5.373650467932122e-05,
+      "loss": 0.0016,
+      "step": 185
+    },
+    {
+      "epoch": 18.6,
+      "grad_norm": 0.04714665934443474,
+      "learning_rate": 5.323905596450759e-05,
+      "loss": 0.0015,
+      "step": 186
+    },
+    {
+      "epoch": 18.7,
+      "grad_norm": 0.018981872126460075,
+      "learning_rate": 5.274128507346801e-05,
+      "loss": 0.0013,
+      "step": 187
+    },
+    {
+      "epoch": 18.8,
+      "grad_norm": 0.013816704973578453,
+      "learning_rate": 5.2243241517525754e-05,
+      "loss": 0.0013,
+      "step": 188
+    },
+    {
+      "epoch": 18.9,
+      "grad_norm": 0.01641033962368965,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.0013,
+      "step": 189
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.01083611510694027,
+      "learning_rate": 5.124653458690365e-05,
+      "loss": 0.0013,
+      "step": 190
+    },
+    {
+      "epoch": 19.1,
+      "grad_norm": 0.0032175600063055754,
+      "learning_rate": 5.074797035076319e-05,
+      "loss": 0.0013,
+      "step": 191
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 0.0029091965407133102,
+      "learning_rate": 5.024933171693791e-05,
+      "loss": 0.0013,
+      "step": 192
+    },
+    {
+      "epoch": 19.3,
+      "grad_norm": 0.0017372623551636934,
+      "learning_rate": 4.9750668283062104e-05,
+      "loss": 0.0012,
+      "step": 193
+    },
+    {
+      "epoch": 19.4,
+      "grad_norm": 0.018875645473599434,
+      "learning_rate": 4.925202964923683e-05,
+      "loss": 0.0013,
+      "step": 194
+    },
+    {
+      "epoch": 19.5,
+      "grad_norm": 0.08334866166114807,
+      "learning_rate": 4.875346541309637e-05,
+      "loss": 0.0017,
+      "step": 195
+    },
+    {
+      "epoch": 19.6,
+      "grad_norm": 0.02136778086423874,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0013,
+      "step": 196
+    },
+    {
+      "epoch": 19.7,
+      "grad_norm": 0.015435784123837948,
+      "learning_rate": 4.775675848247427e-05,
+      "loss": 0.0013,
+      "step": 197
+    },
+    {
+      "epoch": 19.8,
+      "grad_norm": 0.0207098126411438,
+      "learning_rate": 4.725871492653199e-05,
+      "loss": 0.0013,
+      "step": 198
+    },
+    {
+      "epoch": 19.9,
+      "grad_norm": 0.02912098728120327,
+      "learning_rate": 4.6760944035492404e-05,
+      "loss": 0.0014,
+      "step": 199
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0012635978637263179,
+      "learning_rate": 4.626349532067879e-05,
+      "loss": 0.0012,
+      "step": 200
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.02464105747640133,
+      "eval_runtime": 7.0042,
+      "eval_samples_per_second": 14.277,
+      "eval_steps_per_second": 0.428,
+      "step": 200
+    },
+    {
+      "epoch": 20.1,
+      "grad_norm": 0.024539776146411896,
+      "learning_rate": 4.576641826136884e-05,
+      "loss": 0.0013,
+      "step": 201
+    },
+    {
+      "epoch": 20.2,
+      "grad_norm": 0.04463370889425278,
+      "learning_rate": 4.526976229987315e-05,
+      "loss": 0.0015,
+      "step": 202
+    },
+    {
+      "epoch": 20.3,
+      "grad_norm": 0.002574489451944828,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0013,
+      "step": 203
+    },
+    {
+      "epoch": 20.4,
+      "grad_norm": 0.022832421585917473,
+      "learning_rate": 4.4277911225228414e-05,
+      "loss": 0.0014,
+      "step": 204
+    },
+    {
+      "epoch": 20.5,
+      "grad_norm": 0.011037301272153854,
+      "learning_rate": 4.378281476762576e-05,
+      "loss": 0.0013,
+      "step": 205
+    },
+    {
+      "epoch": 20.6,
+      "grad_norm": 0.0005778741906397045,
+      "learning_rate": 4.328833670911724e-05,
+      "loss": 0.0012,
+      "step": 206
+    },
+    {
+      "epoch": 20.7,
+      "grad_norm": 0.0034062073100358248,
+      "learning_rate": 4.2794526233501006e-05,
+      "loss": 0.0012,
+      "step": 207
+    },
+    {
+      "epoch": 20.8,
+      "grad_norm": 0.00416824035346508,
+      "learning_rate": 4.230143245817332e-05,
+      "loss": 0.0012,
+      "step": 208
+    },
+    {
+      "epoch": 20.9,
+      "grad_norm": 0.0014664290938526392,
+      "learning_rate": 4.180910442924312e-05,
+      "loss": 0.0013,
+      "step": 209
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 0.0013818548759445548,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0012,
+      "step": 210
+    },
+    {
+      "epoch": 21.1,
+      "grad_norm": 0.014141053892672062,
+      "learning_rate": 4.082694140931089e-05,
+      "loss": 0.0013,
+      "step": 211
+    },
+    {
+      "epoch": 21.2,
+      "grad_norm": 0.0033045061863958836,
+      "learning_rate": 4.0337204110222346e-05,
+      "loss": 0.0012,
+      "step": 212
+    },
+    {
+      "epoch": 21.3,
+      "grad_norm": 0.01347325835376978,
+      "learning_rate": 3.98484279316412e-05,
+      "loss": 0.0013,
+      "step": 213
+    },
+    {
+      "epoch": 21.4,
+      "grad_norm": 0.0014377759071066976,
+      "learning_rate": 3.936066149022191e-05,
+      "loss": 0.0013,
+      "step": 214
+    },
+    {
+      "epoch": 21.5,
+      "grad_norm": 0.004647238180041313,
+      "learning_rate": 3.887395330218429e-05,
+      "loss": 0.0012,
+      "step": 215
+    },
+    {
+      "epoch": 21.6,
+      "grad_norm": 0.00935914646834135,
+      "learning_rate": 3.838835177848788e-05,
+      "loss": 0.0013,
+      "step": 216
+    },
+    {
+      "epoch": 21.7,
+      "grad_norm": 0.0008201024029403925,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0013,
+      "step": 217
+    },
+    {
+      "epoch": 21.8,
+      "grad_norm": 0.0038301898166537285,
+      "learning_rate": 3.742066181277458e-05,
+      "loss": 0.0013,
+      "step": 218
+    },
+    {
+      "epoch": 21.9,
+      "grad_norm": 0.023225074633955956,
+      "learning_rate": 3.6938669623093084e-05,
+      "loss": 0.0018,
+      "step": 219
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 0.0008843315881676972,
+      "learning_rate": 3.6457976592849754e-05,
+      "loss": 0.0013,
+      "step": 220
+    },
+    {
+      "epoch": 22.1,
+      "grad_norm": 0.0008087409660220146,
+      "learning_rate": 3.597863053469987e-05,
+      "loss": 0.0012,
+      "step": 221
+    },
+    {
+      "epoch": 22.2,
+      "grad_norm": 0.0007809096714481711,
+      "learning_rate": 3.550067912732069e-05,
+      "loss": 0.0012,
+      "step": 222
+    },
+    {
+      "epoch": 22.3,
+      "grad_norm": 0.0003785623121075332,
+      "learning_rate": 3.502416991066904e-05,
+      "loss": 0.0012,
+      "step": 223
+    },
+    {
+      "epoch": 22.4,
+      "grad_norm": 0.0011643291218206286,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0013,
+      "step": 224
+    },
+    {
+      "epoch": 22.5,
+      "grad_norm": 0.00037547224201261997,
+      "learning_rate": 3.4075667487415785e-05,
+      "loss": 0.0013,
+      "step": 225
+    },
+    {
+      "epoch": 22.5,
+      "eval_loss": 0.02635515108704567,
+      "eval_runtime": 7.0286,
+      "eval_samples_per_second": 14.228,
+      "eval_steps_per_second": 0.427,
+      "step": 225
+    },
+    {
+      "epoch": 22.6,
+      "grad_norm": 0.002436364535242319,
+      "learning_rate": 3.360376862463979e-05,
+      "loss": 0.0012,
+      "step": 226
+    },
+    {
+      "epoch": 22.7,
+      "grad_norm": 0.000468397862277925,
+      "learning_rate": 3.313350063085851e-05,
+      "loss": 0.0012,
+      "step": 227
+    },
+    {
+      "epoch": 22.8,
+      "grad_norm": 0.0013973162276670337,
+      "learning_rate": 3.266491028178964e-05,
+      "loss": 0.0013,
+      "step": 228
+    },
+    {
+      "epoch": 22.9,
+      "grad_norm": 0.000565136200748384,
+      "learning_rate": 3.219804418628216e-05,
+      "loss": 0.0012,
+      "step": 229
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 0.0004575321509037167,
+      "learning_rate": 3.173294878168025e-05,
+      "loss": 0.0013,
+      "step": 230
+    },
+    {
+      "epoch": 23.1,
+      "grad_norm": 0.0003873241657856852,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0013,
+      "step": 231
+    },
+    {
+      "epoch": 23.2,
+      "grad_norm": 0.00041245773900300264,
+      "learning_rate": 3.080825490934999e-05,
+      "loss": 0.0013,
+      "step": 232
+    },
+    {
+      "epoch": 23.3,
+      "grad_norm": 0.0005566985928453505,
+      "learning_rate": 3.0348748417303823e-05,
+      "loss": 0.0012,
+      "step": 233
+    },
+    {
+      "epoch": 23.4,
+      "grad_norm": 0.002370474860072136,
+      "learning_rate": 2.989119655837913e-05,
+      "loss": 0.0013,
+      "step": 234
+    },
+    {
+      "epoch": 23.5,
+      "grad_norm": 0.0008109980844892561,
+      "learning_rate": 2.9435644843469436e-05,
+      "loss": 0.0013,
+      "step": 235
+    },
+    {
+      "epoch": 23.6,
+      "grad_norm": 0.0003989999822806567,
+      "learning_rate": 2.8982138584521735e-05,
+      "loss": 0.0013,
+      "step": 236
+    },
+    {
+      "epoch": 23.7,
+      "grad_norm": 0.0007184173446148634,
+      "learning_rate": 2.8530722890029537e-05,
+      "loss": 0.0013,
+      "step": 237
+    },
+    {
+      "epoch": 23.8,
+      "grad_norm": 0.0005140411667525768,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0013,
+      "step": 238
+    },
+    {
+      "epoch": 23.9,
+      "grad_norm": 0.000472583866212517,
+      "learning_rate": 2.7634342584218365e-05,
+      "loss": 0.0013,
+      "step": 239
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 0.0009467861382290721,
+      "learning_rate": 2.718946713234185e-05,
+      "loss": 0.0013,
+      "step": 240
+    },
+    {
+      "epoch": 24.1,
+      "grad_norm": 0.0005134555394761264,
+      "learning_rate": 2.674686055493748e-05,
+      "loss": 0.0012,
+      "step": 241
+    },
+    {
+      "epoch": 24.2,
+      "grad_norm": 0.0004058448248542845,
+      "learning_rate": 2.630656687635007e-05,
+      "loss": 0.0013,
+      "step": 242
+    },
+    {
+      "epoch": 24.3,
+      "grad_norm": 0.0005244086496531963,
+      "learning_rate": 2.5868629890869468e-05,
+      "loss": 0.0012,
+      "step": 243
+    },
+    {
+      "epoch": 24.4,
+      "grad_norm": 0.0005328291445039213,
+      "learning_rate": 2.543309315837444e-05,
+      "loss": 0.0013,
+      "step": 244
+    },
+    {
+      "epoch": 24.5,
+      "grad_norm": 0.0020896121859550476,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0012,
+      "step": 245
+    },
+    {
+      "epoch": 24.6,
+      "grad_norm": 0.000433528795838356,
+      "learning_rate": 2.456939349382843e-05,
+      "loss": 0.0012,
+      "step": 246
+    },
+    {
+      "epoch": 24.7,
+      "grad_norm": 0.00044738021097145975,
+      "learning_rate": 2.4141316470604362e-05,
+      "loss": 0.0013,
+      "step": 247
+    },
+    {
+      "epoch": 24.8,
+      "grad_norm": 0.0004753637476824224,
+      "learning_rate": 2.371581150947476e-05,
+      "loss": 0.0012,
+      "step": 248
+    },
+    {
+      "epoch": 24.9,
+      "grad_norm": 0.0004613220226019621,
+      "learning_rate": 2.3292920933753566e-05,
+      "loss": 0.0013,
+      "step": 249
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.0004400379257276654,
+      "learning_rate": 2.2872686806712035e-05,
+      "loss": 0.0013,
+      "step": 250
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.027748363092541695,
+      "eval_runtime": 7.0062,
+      "eval_samples_per_second": 14.273,
+      "eval_steps_per_second": 0.428,
+      "step": 250
+    },
+    {
+      "epoch": 25.0,
+      "step": 250,
+      "total_flos": 3.832789293855867e+17,
+      "train_loss": 0.011958676076494158,
+      "train_runtime": 2822.6775,
+      "train_samples_per_second": 5.617,
+      "train_steps_per_second": 0.124
     }
   ],
   "logging_steps": 1,
+  "max_steps": 350,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 35,
   "save_steps": 100,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.832789293855867e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ece316075c71a6297cb5cb7ca7f0cec745f9fc41e42b47318297a2a973691a8
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:eff46ab602c60d8c5d1c8d5d90dd3e078e4d5b0c7f9bfc0ed5d7c21920a4d63a
 size 5432

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed