Upload 10 files

Browse files

Files changed (10) hide show

adapter_config.json +28 -0
adapter_model.safetensors +3 -0
all_results.json +11 -0
eval_results.json +7 -0
train_results.json +7 -0
trainer_log.jsonl +51 -0
trainer_state.json +1447 -0
training_args.bin +3 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "baichuan-inc/Baichuan2-7B-Chat",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 512,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 256,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "W_pack"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f5c1e1ee625ef1ed02b92e803cb8b3e8870ca71fbaed94ce5aaf1d5786d3ca0
+size 536879768

all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.24519601464271545,
+    "eval_runtime": 16.144,
+    "eval_samples_per_second": 0.681,
+    "eval_steps_per_second": 0.681,
+    "train_loss": 0.32009275511924523,
+    "train_runtime": 49821.5539,
+    "train_samples_per_second": 6.399,
+    "train_steps_per_second": 0.04
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.24519601464271545,
+    "eval_runtime": 16.144,
+    "eval_samples_per_second": 0.681,
+    "eval_steps_per_second": 0.681
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.32009275511924523,
+    "train_runtime": 49821.5539,
+    "train_samples_per_second": 6.399,
+    "train_steps_per_second": 0.04
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,51 @@

+{"current_steps": 10, "total_steps": 1992, "loss": 0.6539, "learning_rate": 9.999384369486675e-05, "epoch": 0.02, "percentage": 0.5, "elapsed_time": "0:04:10", "remaining_time": "13:45:52"}
+{"current_steps": 20, "total_steps": 1992, "loss": 0.4242, "learning_rate": 9.997525241303441e-05, "epoch": 0.03, "percentage": 1.0, "elapsed_time": "0:08:23", "remaining_time": "13:47:34"}
+{"current_steps": 30, "total_steps": 1992, "loss": 0.4085, "learning_rate": 9.994423062331178e-05, "epoch": 0.05, "percentage": 1.51, "elapsed_time": "0:12:34", "remaining_time": "13:41:53"}
+{"current_steps": 40, "total_steps": 1992, "loss": 0.3843, "learning_rate": 9.990078604185e-05, "epoch": 0.06, "percentage": 2.01, "elapsed_time": "0:16:47", "remaining_time": "13:39:45"}
+{"current_steps": 50, "total_steps": 1992, "loss": 0.3814, "learning_rate": 9.984492947476183e-05, "epoch": 0.08, "percentage": 2.51, "elapsed_time": "0:20:59", "remaining_time": "13:35:01"}
+{"current_steps": 60, "total_steps": 1992, "loss": 0.3806, "learning_rate": 9.977667481543383e-05, "epoch": 0.09, "percentage": 3.01, "elapsed_time": "0:25:12", "remaining_time": "13:31:46"}
+{"current_steps": 70, "total_steps": 1992, "loss": 0.3823, "learning_rate": 9.969603904107045e-05, "epoch": 0.11, "percentage": 3.51, "elapsed_time": "0:29:23", "remaining_time": "13:26:56"}
+{"current_steps": 80, "total_steps": 1992, "loss": 0.3717, "learning_rate": 9.960304220847147e-05, "epoch": 0.12, "percentage": 4.02, "elapsed_time": "0:33:44", "remaining_time": "13:26:31"}
+{"current_steps": 90, "total_steps": 1992, "loss": 0.3761, "learning_rate": 9.949770744904306e-05, "epoch": 0.14, "percentage": 4.52, "elapsed_time": "0:37:47", "remaining_time": "13:18:44"}
+{"current_steps": 100, "total_steps": 1992, "loss": 0.3766, "learning_rate": 9.938006096304422e-05, "epoch": 0.15, "percentage": 5.02, "elapsed_time": "0:42:02", "remaining_time": "13:15:27"}
+{"current_steps": 110, "total_steps": 1992, "loss": 0.3815, "learning_rate": 9.925013201306999e-05, "epoch": 0.17, "percentage": 5.52, "elapsed_time": "0:46:16", "remaining_time": "13:11:50"}
+{"current_steps": 120, "total_steps": 1992, "loss": 0.3793, "learning_rate": 9.910795291677279e-05, "epoch": 0.18, "percentage": 6.02, "elapsed_time": "0:50:31", "remaining_time": "13:08:16"}
+{"current_steps": 130, "total_steps": 1992, "loss": 0.3746, "learning_rate": 9.8953559038824e-05, "epoch": 0.2, "percentage": 6.53, "elapsed_time": "0:54:25", "remaining_time": "12:59:27"}
+{"current_steps": 140, "total_steps": 1992, "loss": 0.3627, "learning_rate": 9.878698878211756e-05, "epoch": 0.21, "percentage": 7.03, "elapsed_time": "0:58:35", "remaining_time": "12:55:02"}
+{"current_steps": 150, "total_steps": 1992, "loss": 0.3585, "learning_rate": 9.86082835782179e-05, "epoch": 0.23, "percentage": 7.53, "elapsed_time": "1:02:30", "remaining_time": "12:47:40"}
+{"current_steps": 160, "total_steps": 1992, "loss": 0.3648, "learning_rate": 9.841748787705453e-05, "epoch": 0.24, "percentage": 8.03, "elapsed_time": "1:06:36", "remaining_time": "12:42:39"}
+{"current_steps": 170, "total_steps": 1992, "loss": 0.3714, "learning_rate": 9.821464913586586e-05, "epoch": 0.26, "percentage": 8.53, "elapsed_time": "1:10:43", "remaining_time": "12:38:04"}
+{"current_steps": 180, "total_steps": 1992, "loss": 0.3691, "learning_rate": 9.799981780739504e-05, "epoch": 0.27, "percentage": 9.04, "elapsed_time": "1:14:50", "remaining_time": "12:33:22"}
+{"current_steps": 190, "total_steps": 1992, "loss": 0.3621, "learning_rate": 9.777304732734063e-05, "epoch": 0.29, "percentage": 9.54, "elapsed_time": "1:19:07", "remaining_time": "12:30:27"}
+{"current_steps": 200, "total_steps": 1992, "loss": 0.3627, "learning_rate": 9.753439410106537e-05, "epoch": 0.3, "percentage": 10.04, "elapsed_time": "1:23:15", "remaining_time": "12:25:57"}
+{"current_steps": 210, "total_steps": 1992, "loss": 0.358, "learning_rate": 9.728391748956637e-05, "epoch": 0.32, "percentage": 10.54, "elapsed_time": "1:27:26", "remaining_time": "12:22:00"}
+{"current_steps": 220, "total_steps": 1992, "loss": 0.3587, "learning_rate": 9.702167979470994e-05, "epoch": 0.33, "percentage": 11.04, "elapsed_time": "1:31:18", "remaining_time": "12:15:28"}
+{"current_steps": 230, "total_steps": 1992, "loss": 0.3593, "learning_rate": 9.67477462437351e-05, "epoch": 0.35, "percentage": 11.55, "elapsed_time": "1:35:42", "remaining_time": "12:13:11"}
+{"current_steps": 240, "total_steps": 1992, "loss": 0.3619, "learning_rate": 9.646218497302945e-05, "epoch": 0.36, "percentage": 12.05, "elapsed_time": "1:39:45", "remaining_time": "12:08:12"}
+{"current_steps": 250, "total_steps": 1992, "loss": 0.3592, "learning_rate": 9.616506701118124e-05, "epoch": 0.38, "percentage": 12.55, "elapsed_time": "1:43:50", "remaining_time": "12:03:31"}
+{"current_steps": 260, "total_steps": 1992, "loss": 0.3572, "learning_rate": 9.585646626131237e-05, "epoch": 0.39, "percentage": 13.05, "elapsed_time": "1:48:01", "remaining_time": "11:59:35"}
+{"current_steps": 270, "total_steps": 1992, "loss": 0.3584, "learning_rate": 9.553645948269607e-05, "epoch": 0.41, "percentage": 13.55, "elapsed_time": "1:52:11", "remaining_time": "11:55:31"}
+{"current_steps": 280, "total_steps": 1992, "loss": 0.3569, "learning_rate": 9.520512627166445e-05, "epoch": 0.42, "percentage": 14.06, "elapsed_time": "1:56:19", "remaining_time": "11:51:13"}
+{"current_steps": 290, "total_steps": 1992, "loss": 0.353, "learning_rate": 9.48625490418101e-05, "epoch": 0.44, "percentage": 14.56, "elapsed_time": "2:00:34", "remaining_time": "11:47:38"}
+{"current_steps": 300, "total_steps": 1992, "loss": 0.3492, "learning_rate": 9.450881300348724e-05, "epoch": 0.45, "percentage": 15.06, "elapsed_time": "2:04:44", "remaining_time": "11:43:32"}
+{"current_steps": 310, "total_steps": 1992, "loss": 0.3618, "learning_rate": 9.414400614261693e-05, "epoch": 0.47, "percentage": 15.56, "elapsed_time": "2:08:54", "remaining_time": "11:39:23"}
+{"current_steps": 320, "total_steps": 1992, "loss": 0.3668, "learning_rate": 9.376821919880219e-05, "epoch": 0.48, "percentage": 16.06, "elapsed_time": "2:12:56", "remaining_time": "11:34:36"}
+{"current_steps": 330, "total_steps": 1992, "loss": 0.3445, "learning_rate": 9.338154564275788e-05, "epoch": 0.5, "percentage": 16.57, "elapsed_time": "2:17:08", "remaining_time": "11:30:42"}
+{"current_steps": 340, "total_steps": 1992, "loss": 0.3459, "learning_rate": 9.298408165306157e-05, "epoch": 0.51, "percentage": 17.07, "elapsed_time": "2:21:16", "remaining_time": "11:26:24"}
+{"current_steps": 350, "total_steps": 1992, "loss": 0.3532, "learning_rate": 9.257592609223059e-05, "epoch": 0.53, "percentage": 17.57, "elapsed_time": "2:25:26", "remaining_time": "11:22:18"}
+{"current_steps": 360, "total_steps": 1992, "loss": 0.3542, "learning_rate": 9.21571804821318e-05, "epoch": 0.54, "percentage": 18.07, "elapsed_time": "2:29:41", "remaining_time": "11:18:33"}
+{"current_steps": 370, "total_steps": 1992, "loss": 0.3424, "learning_rate": 9.172794897872957e-05, "epoch": 0.56, "percentage": 18.57, "elapsed_time": "2:33:52", "remaining_time": "11:14:33"}
+{"current_steps": 380, "total_steps": 1992, "loss": 0.35, "learning_rate": 9.128833834617876e-05, "epoch": 0.57, "percentage": 19.08, "elapsed_time": "2:38:04", "remaining_time": "11:10:35"}
+{"current_steps": 390, "total_steps": 1992, "loss": 0.3461, "learning_rate": 9.083845793026905e-05, "epoch": 0.59, "percentage": 19.58, "elapsed_time": "2:42:14", "remaining_time": "11:06:25"}
+{"current_steps": 400, "total_steps": 1992, "loss": 0.3367, "learning_rate": 9.037841963122682e-05, "epoch": 0.6, "percentage": 20.08, "elapsed_time": "2:46:19", "remaining_time": "11:01:57"}
+{"current_steps": 410, "total_steps": 1992, "loss": 0.3504, "learning_rate": 8.990833787588194e-05, "epoch": 0.62, "percentage": 20.58, "elapsed_time": "2:50:42", "remaining_time": "10:58:42"}
+{"current_steps": 420, "total_steps": 1992, "loss": 0.3496, "learning_rate": 8.942832958920602e-05, "epoch": 0.63, "percentage": 21.08, "elapsed_time": "2:55:02", "remaining_time": "10:55:11"}
+{"current_steps": 430, "total_steps": 1992, "loss": 0.3513, "learning_rate": 8.893851416522925e-05, "epoch": 0.65, "percentage": 21.59, "elapsed_time": "2:59:27", "remaining_time": "10:51:54"}
+{"current_steps": 440, "total_steps": 1992, "loss": 0.3409, "learning_rate": 8.843901343734309e-05, "epoch": 0.66, "percentage": 22.09, "elapsed_time": "3:03:43", "remaining_time": "10:48:01"}
+{"current_steps": 450, "total_steps": 1992, "loss": 0.3446, "learning_rate": 8.792995164799637e-05, "epoch": 0.68, "percentage": 22.59, "elapsed_time": "3:08:05", "remaining_time": "10:44:30"}
+{"current_steps": 460, "total_steps": 1992, "loss": 0.3442, "learning_rate": 8.741145541779199e-05, "epoch": 0.69, "percentage": 23.09, "elapsed_time": "3:12:05", "remaining_time": "10:39:44"}
+{"current_steps": 470, "total_steps": 1992, "loss": 0.3444, "learning_rate": 8.688365371399208e-05, "epoch": 0.71, "percentage": 23.59, "elapsed_time": "3:16:16", "remaining_time": "10:35:36"}
+{"current_steps": 480, "total_steps": 1992, "loss": 0.3402, "learning_rate": 8.63466778184397e-05, "epoch": 0.72, "percentage": 24.1, "elapsed_time": "3:20:26", "remaining_time": "10:31:23"}
+{"current_steps": 490, "total_steps": 1992, "loss": 0.3424, "learning_rate": 8.580066129490462e-05, "epoch": 0.74, "percentage": 24.6, "elapsed_time": "3:24:38", "remaining_time": "10:27:18"}
+{"current_steps": 500, "total_steps": 1992, "loss": 0.358, "learning_rate": 8.524573995586153e-05, "epoch": 0.75, "percentage": 25.1, "elapsed_time": "3:29:03", "remaining_time": "10:23:48"}
+{"current_steps": 500, "total_steps": 1992, "eval_loss": 0.26840201020240784, "epoch": 0.75, "percentage": 25.1, "elapsed_time": "3:29:24", "remaining_time": "10:24:51"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1447 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.998870907038013,
+  "eval_steps": 500,
+  "global_step": 1992,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.2066432386636734,
+      "learning_rate": 9.999384369486675e-05,
+      "loss": 0.6539,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.1350802630186081,
+      "learning_rate": 9.997525241303441e-05,
+      "loss": 0.4242,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.12290512770414352,
+      "learning_rate": 9.994423062331178e-05,
+      "loss": 0.4085,
+      "step": 30
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.10319065302610397,
+      "learning_rate": 9.990078604185e-05,
+      "loss": 0.3843,
+      "step": 40
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.1067107692360878,
+      "learning_rate": 9.984492947476183e-05,
+      "loss": 0.3814,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.10464764386415482,
+      "learning_rate": 9.977667481543383e-05,
+      "loss": 0.3806,
+      "step": 60
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.10096515715122223,
+      "learning_rate": 9.969603904107045e-05,
+      "loss": 0.3823,
+      "step": 70
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.10181506723165512,
+      "learning_rate": 9.960304220847147e-05,
+      "loss": 0.3717,
+      "step": 80
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.10328900068998337,
+      "learning_rate": 9.949770744904306e-05,
+      "loss": 0.3761,
+      "step": 90
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.10094640403985977,
+      "learning_rate": 9.938006096304422e-05,
+      "loss": 0.3766,
+      "step": 100
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.10436520725488663,
+      "learning_rate": 9.925013201306999e-05,
+      "loss": 0.3815,
+      "step": 110
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 0.09791135042905807,
+      "learning_rate": 9.910795291677279e-05,
+      "loss": 0.3793,
+      "step": 120
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.10530658811330795,
+      "learning_rate": 9.8953559038824e-05,
+      "loss": 0.3746,
+      "step": 130
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.10106656700372696,
+      "learning_rate": 9.878698878211756e-05,
+      "loss": 0.3627,
+      "step": 140
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.10589198768138885,
+      "learning_rate": 9.86082835782179e-05,
+      "loss": 0.3585,
+      "step": 150
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.09950920939445496,
+      "learning_rate": 9.841748787705453e-05,
+      "loss": 0.3648,
+      "step": 160
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.09534649550914764,
+      "learning_rate": 9.821464913586586e-05,
+      "loss": 0.3714,
+      "step": 170
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.1069357767701149,
+      "learning_rate": 9.799981780739504e-05,
+      "loss": 0.3691,
+      "step": 180
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.0956304594874382,
+      "learning_rate": 9.777304732734063e-05,
+      "loss": 0.3621,
+      "step": 190
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.1080741360783577,
+      "learning_rate": 9.753439410106537e-05,
+      "loss": 0.3627,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.11919151246547699,
+      "learning_rate": 9.728391748956637e-05,
+      "loss": 0.358,
+      "step": 210
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.09667570888996124,
+      "learning_rate": 9.702167979470994e-05,
+      "loss": 0.3587,
+      "step": 220
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.09914813190698624,
+      "learning_rate": 9.67477462437351e-05,
+      "loss": 0.3593,
+      "step": 230
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.09963402152061462,
+      "learning_rate": 9.646218497302945e-05,
+      "loss": 0.3619,
+      "step": 240
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.0956585481762886,
+      "learning_rate": 9.616506701118124e-05,
+      "loss": 0.3592,
+      "step": 250
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 0.08918160200119019,
+      "learning_rate": 9.585646626131237e-05,
+      "loss": 0.3572,
+      "step": 260
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.10680545121431351,
+      "learning_rate": 9.553645948269607e-05,
+      "loss": 0.3584,
+      "step": 270
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.09338073432445526,
+      "learning_rate": 9.520512627166445e-05,
+      "loss": 0.3569,
+      "step": 280
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.09849222749471664,
+      "learning_rate": 9.48625490418101e-05,
+      "loss": 0.353,
+      "step": 290
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.09319322556257248,
+      "learning_rate": 9.450881300348724e-05,
+      "loss": 0.3492,
+      "step": 300
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.09313003718852997,
+      "learning_rate": 9.414400614261693e-05,
+      "loss": 0.3618,
+      "step": 310
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.09641731530427933,
+      "learning_rate": 9.376821919880219e-05,
+      "loss": 0.3668,
+      "step": 320
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.10052476078271866,
+      "learning_rate": 9.338154564275788e-05,
+      "loss": 0.3445,
+      "step": 330
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.09882521629333496,
+      "learning_rate": 9.298408165306157e-05,
+      "loss": 0.3459,
+      "step": 340
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.0998958945274353,
+      "learning_rate": 9.257592609223059e-05,
+      "loss": 0.3532,
+      "step": 350
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.0996759906411171,
+      "learning_rate": 9.21571804821318e-05,
+      "loss": 0.3542,
+      "step": 360
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.09207039326429367,
+      "learning_rate": 9.172794897872957e-05,
+      "loss": 0.3424,
+      "step": 370
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.09934650361537933,
+      "learning_rate": 9.128833834617876e-05,
+      "loss": 0.35,
+      "step": 380
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 0.09678385406732559,
+      "learning_rate": 9.083845793026905e-05,
+      "loss": 0.3461,
+      "step": 390
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.09645042568445206,
+      "learning_rate": 9.037841963122682e-05,
+      "loss": 0.3367,
+      "step": 400
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.09238140285015106,
+      "learning_rate": 8.990833787588194e-05,
+      "loss": 0.3504,
+      "step": 410
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.09661918878555298,
+      "learning_rate": 8.942832958920602e-05,
+      "loss": 0.3496,
+      "step": 420
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.09576547890901566,
+      "learning_rate": 8.893851416522925e-05,
+      "loss": 0.3513,
+      "step": 430
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.091176837682724,
+      "learning_rate": 8.843901343734309e-05,
+      "loss": 0.3409,
+      "step": 440
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.09654372185468674,
+      "learning_rate": 8.792995164799637e-05,
+      "loss": 0.3446,
+      "step": 450
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.08725057542324066,
+      "learning_rate": 8.741145541779199e-05,
+      "loss": 0.3442,
+      "step": 460
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.09062401205301285,
+      "learning_rate": 8.688365371399208e-05,
+      "loss": 0.3444,
+      "step": 470
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.09887181222438812,
+      "learning_rate": 8.63466778184397e-05,
+      "loss": 0.3402,
+      "step": 480
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.09595289826393127,
+      "learning_rate": 8.580066129490462e-05,
+      "loss": 0.3424,
+      "step": 490
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.0977388396859169,
+      "learning_rate": 8.524573995586153e-05,
+      "loss": 0.358,
+      "step": 500
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.26840201020240784,
+      "eval_runtime": 20.7882,
+      "eval_samples_per_second": 0.529,
+      "eval_steps_per_second": 0.529,
+      "step": 500
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.08854895085096359,
+      "learning_rate": 8.468205182870901e-05,
+      "loss": 0.3328,
+      "step": 510
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.09385243058204651,
+      "learning_rate": 8.410973712143747e-05,
+      "loss": 0.3441,
+      "step": 520
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.09778619557619095,
+      "learning_rate": 8.352893818775484e-05,
+      "loss": 0.3451,
+      "step": 530
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.09615397453308105,
+      "learning_rate": 8.293979949167839e-05,
+      "loss": 0.3441,
+      "step": 540
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.10019069164991379,
+      "learning_rate": 8.234246757160174e-05,
+      "loss": 0.3309,
+      "step": 550
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.09099920839071274,
+      "learning_rate": 8.17370910038459e-05,
+      "loss": 0.3319,
+      "step": 560
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.10040932148694992,
+      "learning_rate": 8.112382036570344e-05,
+      "loss": 0.342,
+      "step": 570
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.09268151968717575,
+      "learning_rate": 8.050280819798481e-05,
+      "loss": 0.334,
+      "step": 580
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.09127725660800934,
+      "learning_rate": 7.987420896707645e-05,
+      "loss": 0.3476,
+      "step": 590
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.09117837995290756,
+      "learning_rate": 7.923817902651978e-05,
+      "loss": 0.3351,
+      "step": 600
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.09493087977170944,
+      "learning_rate": 7.859487657812095e-05,
+      "loss": 0.3408,
+      "step": 610
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.09857796877622604,
+      "learning_rate": 7.794446163260077e-05,
+      "loss": 0.3416,
+      "step": 620
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.09530830383300781,
+      "learning_rate": 7.728709596979471e-05,
+      "loss": 0.3403,
+      "step": 630
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.10255115479230881,
+      "learning_rate": 7.662294309841283e-05,
+      "loss": 0.3349,
+      "step": 640
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.09442761540412903,
+      "learning_rate": 7.595216821536981e-05,
+      "loss": 0.3469,
+      "step": 650
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.09131593257188797,
+      "learning_rate": 7.527493816469492e-05,
+      "loss": 0.3232,
+      "step": 660
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 0.10782450437545776,
+      "learning_rate": 7.459142139603236e-05,
+      "loss": 0.3275,
+      "step": 670
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.10051246732473373,
+      "learning_rate": 7.390178792274227e-05,
+      "loss": 0.3168,
+      "step": 680
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.09489897638559341,
+      "learning_rate": 7.32062092796127e-05,
+      "loss": 0.3205,
+      "step": 690
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 0.10021229833364487,
+      "learning_rate": 7.250485848019326e-05,
+      "loss": 0.314,
+      "step": 700
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 0.09837724268436432,
+      "learning_rate": 7.179790997376083e-05,
+      "loss": 0.3131,
+      "step": 710
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 0.11071084439754486,
+      "learning_rate": 7.108553960192827e-05,
+      "loss": 0.3141,
+      "step": 720
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.09489303082227707,
+      "learning_rate": 7.036792455490675e-05,
+      "loss": 0.3124,
+      "step": 730
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 0.10039713978767395,
+      "learning_rate": 6.964524332743263e-05,
+      "loss": 0.3258,
+      "step": 740
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 0.09435191005468369,
+      "learning_rate": 6.891767567436988e-05,
+      "loss": 0.318,
+      "step": 750
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 0.10240574926137924,
+      "learning_rate": 6.818540256599913e-05,
+      "loss": 0.3286,
+      "step": 760
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.10050353407859802,
+      "learning_rate": 6.744860614300426e-05,
+      "loss": 0.3096,
+      "step": 770
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 0.09765986353158951,
+      "learning_rate": 6.670746967116793e-05,
+      "loss": 0.318,
+      "step": 780
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 0.10131178051233292,
+      "learning_rate": 6.596217749578743e-05,
+      "loss": 0.3199,
+      "step": 790
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.0985412448644638,
+      "learning_rate": 6.521291499582172e-05,
+      "loss": 0.3173,
+      "step": 800
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 0.10045495629310608,
+      "learning_rate": 6.445986853778156e-05,
+      "loss": 0.304,
+      "step": 810
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 0.10255653411149979,
+      "learning_rate": 6.370322542937403e-05,
+      "loss": 0.3215,
+      "step": 820
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.10014262050390244,
+      "learning_rate": 6.294317387291276e-05,
+      "loss": 0.3185,
+      "step": 830
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 0.10973095148801804,
+      "learning_rate": 6.217990291850581e-05,
+      "loss": 0.3128,
+      "step": 840
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.1075139194726944,
+      "learning_rate": 6.141360241703264e-05,
+      "loss": 0.3117,
+      "step": 850
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 0.10679470747709274,
+      "learning_rate": 6.0644462972921845e-05,
+      "loss": 0.314,
+      "step": 860
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 0.10646017640829086,
+      "learning_rate": 5.98726758967415e-05,
+      "loss": 0.3166,
+      "step": 870
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.10854795575141907,
+      "learning_rate": 5.909843315761385e-05,
+      "loss": 0.3104,
+      "step": 880
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 0.09923075139522552,
+      "learning_rate": 5.832192733546621e-05,
+      "loss": 0.3085,
+      "step": 890
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 0.10540423542261124,
+      "learning_rate": 5.7543351573129964e-05,
+      "loss": 0.3035,
+      "step": 900
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 0.10513672232627869,
+      "learning_rate": 5.676289952829945e-05,
+      "loss": 0.3069,
+      "step": 910
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 0.10602447390556335,
+      "learning_rate": 5.598076532536291e-05,
+      "loss": 0.3126,
+      "step": 920
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.10258585214614868,
+      "learning_rate": 5.5197143507117234e-05,
+      "loss": 0.3148,
+      "step": 930
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 0.10304014384746552,
+      "learning_rate": 5.441222898637877e-05,
+      "loss": 0.3138,
+      "step": 940
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 0.10201530903577805,
+      "learning_rate": 5.362621699750196e-05,
+      "loss": 0.3104,
+      "step": 950
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 0.10214639455080032,
+      "learning_rate": 5.28393030478181e-05,
+      "loss": 0.3081,
+      "step": 960
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 0.09911152720451355,
+      "learning_rate": 5.2051682869006126e-05,
+      "loss": 0.3081,
+      "step": 970
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 0.10031607747077942,
+      "learning_rate": 5.126355236840764e-05,
+      "loss": 0.3134,
+      "step": 980
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 0.1077575534582138,
+      "learning_rate": 5.047510758029832e-05,
+      "loss": 0.3272,
+      "step": 990
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 0.11312615871429443,
+      "learning_rate": 4.968654461712753e-05,
+      "loss": 0.3167,
+      "step": 1000
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.2502507269382477,
+      "eval_runtime": 14.5906,
+      "eval_samples_per_second": 0.754,
+      "eval_steps_per_second": 0.754,
+      "step": 1000
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.10545619577169418,
+      "learning_rate": 4.889805962073874e-05,
+      "loss": 0.3142,
+      "step": 1010
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 0.11502473056316376,
+      "learning_rate": 4.8109848713582475e-05,
+      "loss": 0.3164,
+      "step": 1020
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 0.11116404086351395,
+      "learning_rate": 4.7322107949934146e-05,
+      "loss": 0.3191,
+      "step": 1030
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 0.11101904511451721,
+      "learning_rate": 4.653503326712886e-05,
+      "loss": 0.3223,
+      "step": 1040
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 0.10275658220052719,
+      "learning_rate": 4.5748820436825204e-05,
+      "loss": 0.3127,
+      "step": 1050
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.10536840558052063,
+      "learning_rate": 4.496366501631043e-05,
+      "loss": 0.3104,
+      "step": 1060
+    },
+    {
+      "epoch": 1.61,
+      "grad_norm": 0.11228681355714798,
+      "learning_rate": 4.417976229985876e-05,
+      "loss": 0.3181,
+      "step": 1070
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 0.10409337282180786,
+      "learning_rate": 4.339730727015527e-05,
+      "loss": 0.3085,
+      "step": 1080
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 0.11756953597068787,
+      "learning_rate": 4.261649454979714e-05,
+      "loss": 0.3105,
+      "step": 1090
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 0.10340123623609543,
+      "learning_rate": 4.183751835288463e-05,
+      "loss": 0.3168,
+      "step": 1100
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 0.11595764011144638,
+      "learning_rate": 4.10605724367135e-05,
+      "loss": 0.3172,
+      "step": 1110
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 0.1063317060470581,
+      "learning_rate": 4.0285850053581105e-05,
+      "loss": 0.319,
+      "step": 1120
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 0.10760544240474701,
+      "learning_rate": 3.9513543902718206e-05,
+      "loss": 0.3096,
+      "step": 1130
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 0.11430344730615616,
+      "learning_rate": 3.87438460823582e-05,
+      "loss": 0.3119,
+      "step": 1140
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 0.10582321882247925,
+      "learning_rate": 3.7976948041955904e-05,
+      "loss": 0.3179,
+      "step": 1150
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 0.11124568432569504,
+      "learning_rate": 3.7213040534567725e-05,
+      "loss": 0.3099,
+      "step": 1160
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 0.10317942500114441,
+      "learning_rate": 3.645231356940501e-05,
+      "loss": 0.3081,
+      "step": 1170
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 0.10943736135959625,
+      "learning_rate": 3.569495636457244e-05,
+      "loss": 0.3103,
+      "step": 1180
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 0.10795300453901291,
+      "learning_rate": 3.494115730000321e-05,
+      "loss": 0.3123,
+      "step": 1190
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 0.1120479553937912,
+      "learning_rate": 3.4191103870602656e-05,
+      "loss": 0.3072,
+      "step": 1200
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 0.10475881397724152,
+      "learning_rate": 3.344498263961201e-05,
+      "loss": 0.3107,
+      "step": 1210
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 0.10638121515512466,
+      "learning_rate": 3.270297919220395e-05,
+      "loss": 0.3101,
+      "step": 1220
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 0.10646604746580124,
+      "learning_rate": 3.1965278089321396e-05,
+      "loss": 0.3201,
+      "step": 1230
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 0.10810079425573349,
+      "learning_rate": 3.123206282177105e-05,
+      "loss": 0.3129,
+      "step": 1240
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.10837584733963013,
+      "learning_rate": 3.05035157645831e-05,
+      "loss": 0.3138,
+      "step": 1250
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.11282283812761307,
+      "learning_rate": 2.9779818131648563e-05,
+      "loss": 0.3048,
+      "step": 1260
+    },
+    {
+      "epoch": 1.91,
+      "grad_norm": 0.10869032144546509,
+      "learning_rate": 2.9061149930645243e-05,
+      "loss": 0.3163,
+      "step": 1270
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 0.11098149418830872,
+      "learning_rate": 2.8347689918263976e-05,
+      "loss": 0.3083,
+      "step": 1280
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 0.10902676731348038,
+      "learning_rate": 2.763961555574575e-05,
+      "loss": 0.3008,
+      "step": 1290
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.10680384933948517,
+      "learning_rate": 2.69371029647413e-05,
+      "loss": 0.3022,
+      "step": 1300
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 0.10289633274078369,
+      "learning_rate": 2.624032688350374e-05,
+      "loss": 0.3045,
+      "step": 1310
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 0.11078934371471405,
+      "learning_rate": 2.5549460623425354e-05,
+      "loss": 0.3065,
+      "step": 1320
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.10170484334230423,
+      "learning_rate": 2.486467602592929e-05,
+      "loss": 0.2956,
+      "step": 1330
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 0.1094578206539154,
+      "learning_rate": 2.4186143419726885e-05,
+      "loss": 0.2938,
+      "step": 1340
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 0.10822325944900513,
+      "learning_rate": 2.351403157845125e-05,
+      "loss": 0.2863,
+      "step": 1350
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 0.11142423003911972,
+      "learning_rate": 2.2848507678677633e-05,
+      "loss": 0.2846,
+      "step": 1360
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 0.11497773230075836,
+      "learning_rate": 2.218973725834109e-05,
+      "loss": 0.2936,
+      "step": 1370
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.10550795495510101,
+      "learning_rate": 2.153788417556164e-05,
+      "loss": 0.2888,
+      "step": 1380
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 0.10813359171152115,
+      "learning_rate": 2.089311056788731e-05,
+      "loss": 0.2889,
+      "step": 1390
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 0.10650567710399628,
+      "learning_rate": 2.0255576811965154e-05,
+      "loss": 0.2925,
+      "step": 1400
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 0.11273263394832611,
+      "learning_rate": 1.9625441483650235e-05,
+      "loss": 0.2856,
+      "step": 1410
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 0.11437318474054337,
+      "learning_rate": 1.9002861318562536e-05,
+      "loss": 0.2845,
+      "step": 1420
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 0.11178340762853622,
+      "learning_rate": 1.8387991173101587e-05,
+      "loss": 0.2904,
+      "step": 1430
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 0.11630496382713318,
+      "learning_rate": 1.7780983985928534e-05,
+      "loss": 0.2851,
+      "step": 1440
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 0.11532077938318253,
+      "learning_rate": 1.7181990739925213e-05,
+      "loss": 0.2797,
+      "step": 1450
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 0.11311406642198563,
+      "learning_rate": 1.6591160424639675e-05,
+      "loss": 0.288,
+      "step": 1460
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 0.11721379309892654,
+      "learning_rate": 1.6008639999227527e-05,
+      "loss": 0.2926,
+      "step": 1470
+    },
+    {
+      "epoch": 2.23,
+      "grad_norm": 0.11629457771778107,
+      "learning_rate": 1.5434574355898306e-05,
+      "loss": 0.2883,
+      "step": 1480
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.11253120750188828,
+      "learning_rate": 1.4869106283875972e-05,
+      "loss": 0.2878,
+      "step": 1490
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 0.1093481034040451,
+      "learning_rate": 1.4312376433882457e-05,
+      "loss": 0.2893,
+      "step": 1500
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.24623431265354156,
+      "eval_runtime": 15.3708,
+      "eval_samples_per_second": 0.716,
+      "eval_steps_per_second": 0.716,
+      "step": 1500
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 0.114622101187706,
+      "learning_rate": 1.376452328315318e-05,
+      "loss": 0.2905,
+      "step": 1510
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 0.11465822905302048,
+      "learning_rate": 1.3225683100993113e-05,
+      "loss": 0.2886,
+      "step": 1520
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 0.11255551874637604,
+      "learning_rate": 1.2695989914882128e-05,
+      "loss": 0.2873,
+      "step": 1530
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 0.11598910391330719,
+      "learning_rate": 1.2175575477137824e-05,
+      "loss": 0.2853,
+      "step": 1540
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 0.11426587402820587,
+      "learning_rate": 1.1664569232144445e-05,
+      "loss": 0.2934,
+      "step": 1550
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 0.11229728907346725,
+      "learning_rate": 1.1163098284155665e-05,
+      "loss": 0.2878,
+      "step": 1560
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 0.10811661183834076,
+      "learning_rate": 1.0671287365679567e-05,
+      "loss": 0.2818,
+      "step": 1570
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 0.109583280980587,
+      "learning_rate": 1.018925880645351e-05,
+      "loss": 0.2915,
+      "step": 1580
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 0.1194503903388977,
+      "learning_rate": 9.717132503016685e-06,
+      "loss": 0.2922,
+      "step": 1590
+    },
+    {
+      "epoch": 2.41,
+      "grad_norm": 0.11107660830020905,
+      "learning_rate": 9.255025888887814e-06,
+      "loss": 0.2843,
+      "step": 1600
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 0.12213042378425598,
+      "learning_rate": 8.80305390535554e-06,
+      "loss": 0.2867,
+      "step": 1610
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 0.11774149537086487,
+      "learning_rate": 8.361328972888732e-06,
+      "loss": 0.2838,
+      "step": 1620
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 0.11726924777030945,
+      "learning_rate": 7.929960963173727e-06,
+      "loss": 0.288,
+      "step": 1630
+    },
+    {
+      "epoch": 2.47,
+      "grad_norm": 0.12220928817987442,
+      "learning_rate": 7.509057171785639e-06,
+      "loss": 0.2844,
+      "step": 1640
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 0.11534737050533295,
+      "learning_rate": 7.098722291500331e-06,
+      "loss": 0.2842,
+      "step": 1650
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.11947780847549438,
+      "learning_rate": 6.699058386253865e-06,
+      "loss": 0.2827,
+      "step": 1660
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 0.1192295104265213,
+      "learning_rate": 6.310164865755808e-06,
+      "loss": 0.2907,
+      "step": 1670
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 0.11454175412654877,
+      "learning_rate": 5.93213846076271e-06,
+      "loss": 0.2833,
+      "step": 1680
+    },
+    {
+      "epoch": 2.54,
+      "grad_norm": 0.11072956025600433,
+      "learning_rate": 5.5650731990179674e-06,
+      "loss": 0.2869,
+      "step": 1690
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.10620978474617004,
+      "learning_rate": 5.20906038186399e-06,
+      "loss": 0.2775,
+      "step": 1700
+    },
+    {
+      "epoch": 2.57,
+      "grad_norm": 0.1189485564827919,
+      "learning_rate": 4.864188561532507e-06,
+      "loss": 0.2842,
+      "step": 1710
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 0.1264795958995819,
+      "learning_rate": 4.530543519118702e-06,
+      "loss": 0.2944,
+      "step": 1720
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 0.10882660746574402,
+      "learning_rate": 4.208208243244577e-06,
+      "loss": 0.2903,
+      "step": 1730
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 0.1184026375412941,
+      "learning_rate": 3.8972629094169485e-06,
+      "loss": 0.2934,
+      "step": 1740
+    },
+    {
+      "epoch": 2.63,
+      "grad_norm": 0.115041583776474,
+      "learning_rate": 3.5977848600851016e-06,
+      "loss": 0.2831,
+      "step": 1750
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 0.1151689738035202,
+      "learning_rate": 3.309848585403169e-06,
+      "loss": 0.2828,
+      "step": 1760
+    },
+    {
+      "epoch": 2.66,
+      "grad_norm": 0.11265784502029419,
+      "learning_rate": 3.033525704701956e-06,
+      "loss": 0.2868,
+      "step": 1770
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 0.10989955067634583,
+      "learning_rate": 2.768884948674816e-06,
+      "loss": 0.2798,
+      "step": 1780
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 0.12034480273723602,
+      "learning_rate": 2.515992142282042e-06,
+      "loss": 0.2932,
+      "step": 1790
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.11389750242233276,
+      "learning_rate": 2.2749101883780157e-06,
+      "loss": 0.2877,
+      "step": 1800
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 0.12224046885967255,
+      "learning_rate": 2.0456990520651696e-06,
+      "loss": 0.29,
+      "step": 1810
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 0.11018862575292587,
+      "learning_rate": 1.8284157457786833e-06,
+      "loss": 0.2903,
+      "step": 1820
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 0.11373750865459442,
+      "learning_rate": 1.6231143151055838e-06,
+      "loss": 0.2823,
+      "step": 1830
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 0.11346758902072906,
+      "learning_rate": 1.4298458253417968e-06,
+      "loss": 0.2918,
+      "step": 1840
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 0.12030266970396042,
+      "learning_rate": 1.2486583487905324e-06,
+      "loss": 0.2793,
+      "step": 1850
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.11971867829561234,
+      "learning_rate": 1.079596952805101e-06,
+      "loss": 0.2835,
+      "step": 1860
+    },
+    {
+      "epoch": 2.82,
+      "grad_norm": 0.11345378309488297,
+      "learning_rate": 9.227036885791352e-07,
+      "loss": 0.287,
+      "step": 1870
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 0.12087972462177277,
+      "learning_rate": 7.78017580687107e-07,
+      "loss": 0.2834,
+      "step": 1880
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 0.11702313274145126,
+      "learning_rate": 6.455746173775701e-07,
+      "loss": 0.2828,
+      "step": 1890
+    },
+    {
+      "epoch": 2.86,
+      "grad_norm": 0.11680703610181808,
+      "learning_rate": 5.25407741621714e-07,
+      "loss": 0.2821,
+      "step": 1900
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 0.11461573839187622,
+      "learning_rate": 4.1754684291934744e-07,
+      "loss": 0.2784,
+      "step": 1910
+    },
+    {
+      "epoch": 2.89,
+      "grad_norm": 0.12143554538488388,
+      "learning_rate": 3.2201874986437784e-07,
+      "loss": 0.278,
+      "step": 1920
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 0.11503802239894867,
+      "learning_rate": 2.3884722347164434e-07,
+      "loss": 0.2881,
+      "step": 1930
+    },
+    {
+      "epoch": 2.92,
+      "grad_norm": 0.11443481594324112,
+      "learning_rate": 1.6805295126677833e-07,
+      "loss": 0.2952,
+      "step": 1940
+    },
+    {
+      "epoch": 2.94,
+      "grad_norm": 0.1119546890258789,
+      "learning_rate": 1.0965354214051982e-07,
+      "loss": 0.2833,
+      "step": 1950
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 0.11658598482608795,
+      "learning_rate": 6.366352196878756e-08,
+      "loss": 0.2954,
+      "step": 1960
+    },
+    {
+      "epoch": 2.97,
+      "grad_norm": 0.11841295659542084,
+      "learning_rate": 3.0094329999635906e-08,
+      "loss": 0.2792,
+      "step": 1970
+    },
+    {
+      "epoch": 2.98,
+      "grad_norm": 0.11211774498224258,
+      "learning_rate": 8.954316007908636e-09,
+      "loss": 0.2914,
+      "step": 1980
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.12004334479570389,
+      "learning_rate": 2.4873821838911073e-10,
+      "loss": 0.2895,
+      "step": 1990
+    },
+    {
+      "epoch": 3.0,
+      "step": 1992,
+      "total_flos": 7.377073297607885e+18,
+      "train_loss": 0.32009275511924523,
+      "train_runtime": 49821.5539,
+      "train_samples_per_second": 6.399,
+      "train_steps_per_second": 0.04
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1992,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 250,
+  "total_flos": 7.377073297607885e+18,
+  "train_batch_size": 20,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85f10b5751a98b3548e4b442f055cd1873b10a4262d8c0879383d6791fb9e828
+size 5112

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed