update

Browse files

Files changed (10) hide show

README.md +0 -3
all_results.json +4 -4
config.json +1 -1
pytorch_model-00001-of-00002.bin +1 -1
pytorch_model-00002-of-00002.bin +1 -1
train_results.json +4 -4
trainer_log.jsonl +61 -91
trainer_state.json +188 -368
training_args.bin +3 -0
training_loss.png +0 -0

README.md DELETED Viewed

@@ -1,3 +0,0 @@
----
-license: mit
----

all_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.19669926248992042,
-    "train_runtime": 618.138,
-    "train_samples_per_second": 14.531,
-    "train_steps_per_second": 1.456
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.05660845875740051,
+    "train_runtime": 609.6094,
+    "train_samples_per_second": 19.685,
+    "train_steps_per_second": 0.984
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/home/huangziyang/ckpt-after-ft/pretrain2-1epoch",
   "architectures": [
     "LlamaForCausalLM"
   ],

 {
+  "_name_or_path": "/home/huangziyang/ckpt-after-ft/pretrain3-2epoch",
   "architectures": [
     "LlamaForCausalLM"
   ],

pytorch_model-00001-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d638e58828f469036c052849059619068edb57ea522920c41b5d6ad2fd7b2137
 size 9976620122

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ed9454157368d7b01a4f3aa00404d7727133aa35ae090d750f5fbb813446d20
 size 9976620122

pytorch_model-00002-of-00002.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78f504d9b3c6f31483cf457d40324bf0f8227b6c61c2d0f4cc0bdc5580c9663a
 size 3500310787

 version https://git-lfs.github.com/spec/v1
+oid sha256:7255670b2c1c9b0cd67c4e1a69f74818655475c4a006383c89a13c7aab494daf
 size 3500310787

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.19669926248992042,
-    "train_runtime": 618.138,
-    "train_samples_per_second": 14.531,
-    "train_steps_per_second": 1.456
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.05660845875740051,
+    "train_runtime": 609.6094,
+    "train_samples_per_second": 19.685,
+    "train_steps_per_second": 0.984
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,91 +1,61 @@
-{"current_steps": 10, "total_steps": 900, "loss": 6.3978, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0, "epoch": 0.02, "percentage": 1.11, "elapsed_time": "0:00:03", "remaining_time": "0:05:45"}
-{"current_steps": 20, "total_steps": 900, "loss": 6.4106, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0, "epoch": 0.04, "percentage": 2.22, "elapsed_time": "0:00:07", "remaining_time": "0:05:48"}
-{"current_steps": 30, "total_steps": 900, "loss": 4.0676, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.555555555555556e-06, "epoch": 0.07, "percentage": 3.33, "elapsed_time": "0:00:14", "remaining_time": "0:06:52"}
-{"current_steps": 40, "total_steps": 900, "loss": 0.0992, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1111111111111112e-05, "epoch": 0.09, "percentage": 4.44, "elapsed_time": "0:00:20", "remaining_time": "0:07:22"}
-{"current_steps": 50, "total_steps": 900, "loss": 0.0295, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.6666666666666667e-05, "epoch": 0.11, "percentage": 5.56, "elapsed_time": "0:00:26", "remaining_time": "0:07:34"}
-{"current_steps": 60, "total_steps": 900, "loss": 0.0452, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.2222222222222223e-05, "epoch": 0.13, "percentage": 6.67, "elapsed_time": "0:00:33", "remaining_time": "0:07:43"}
-{"current_steps": 70, "total_steps": 900, "loss": 0.026, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.777777777777778e-05, "epoch": 0.16, "percentage": 7.78, "elapsed_time": "0:00:39", "remaining_time": "0:07:46"}
-{"current_steps": 80, "total_steps": 900, "loss": 0.024, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.3333333333333335e-05, "epoch": 0.18, "percentage": 8.89, "elapsed_time": "0:00:45", "remaining_time": "0:07:48"}
-{"current_steps": 90, "total_steps": 900, "loss": 0.0235, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.888888888888889e-05, "epoch": 0.2, "percentage": 10.0, "elapsed_time": "0:00:51", "remaining_time": "0:07:47"}
-{"current_steps": 100, "total_steps": 900, "loss": 0.0151, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.4444444444444447e-05, "epoch": 0.22, "percentage": 11.11, "elapsed_time": "0:00:58", "remaining_time": "0:07:46"}
-{"current_steps": 110, "total_steps": 900, "loss": 0.0188, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5e-05, "epoch": 0.24, "percentage": 12.22, "elapsed_time": "0:01:04", "remaining_time": "0:07:41"}
-{"current_steps": 120, "total_steps": 900, "loss": 0.0109, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.938271604938271e-05, "epoch": 0.27, "percentage": 13.33, "elapsed_time": "0:01:10", "remaining_time": "0:07:40"}
-{"current_steps": 130, "total_steps": 900, "loss": 0.0223, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.876543209876544e-05, "epoch": 0.29, "percentage": 14.44, "elapsed_time": "0:01:17", "remaining_time": "0:07:36"}
-{"current_steps": 140, "total_steps": 900, "loss": 0.0157, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.814814814814815e-05, "epoch": 0.31, "percentage": 15.56, "elapsed_time": "0:01:23", "remaining_time": "0:07:32"}
-{"current_steps": 150, "total_steps": 900, "loss": 0.0186, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.7530864197530866e-05, "epoch": 0.33, "percentage": 16.67, "elapsed_time": "0:01:29", "remaining_time": "0:07:27"}
-{"current_steps": 160, "total_steps": 900, "loss": 0.0182, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.691358024691358e-05, "epoch": 0.36, "percentage": 17.78, "elapsed_time": "0:01:35", "remaining_time": "0:07:21"}
-{"current_steps": 170, "total_steps": 900, "loss": 0.0287, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.62962962962963e-05, "epoch": 0.38, "percentage": 18.89, "elapsed_time": "0:01:41", "remaining_time": "0:07:17"}
-{"current_steps": 180, "total_steps": 900, "loss": 0.0103, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.567901234567901e-05, "epoch": 0.4, "percentage": 20.0, "elapsed_time": "0:01:48", "remaining_time": "0:07:12"}
-{"current_steps": 190, "total_steps": 900, "loss": 0.0114, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.506172839506173e-05, "epoch": 0.42, "percentage": 21.11, "elapsed_time": "0:01:54", "remaining_time": "0:07:06"}
-{"current_steps": 200, "total_steps": 900, "loss": 0.0009, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.4444444444444447e-05, "epoch": 0.44, "percentage": 22.22, "elapsed_time": "0:02:00", "remaining_time": "0:07:01"}
-{"current_steps": 210, "total_steps": 900, "loss": 0.0164, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.3827160493827164e-05, "epoch": 0.47, "percentage": 23.33, "elapsed_time": "0:02:06", "remaining_time": "0:06:55"}
-{"current_steps": 220, "total_steps": 900, "loss": 0.0227, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.3209876543209875e-05, "epoch": 0.49, "percentage": 24.44, "elapsed_time": "0:02:12", "remaining_time": "0:06:50"}
-{"current_steps": 230, "total_steps": 900, "loss": 0.0225, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.259259259259259e-05, "epoch": 0.51, "percentage": 25.56, "elapsed_time": "0:02:19", "remaining_time": "0:06:45"}
-{"current_steps": 240, "total_steps": 900, "loss": 0.0069, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.197530864197531e-05, "epoch": 0.53, "percentage": 26.67, "elapsed_time": "0:02:25", "remaining_time": "0:06:39"}
-{"current_steps": 250, "total_steps": 900, "loss": 0.017, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.135802469135803e-05, "epoch": 0.56, "percentage": 27.78, "elapsed_time": "0:02:31", "remaining_time": "0:06:33"}
-{"current_steps": 260, "total_steps": 900, "loss": 0.008, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.074074074074074e-05, "epoch": 0.58, "percentage": 28.89, "elapsed_time": "0:02:38", "remaining_time": "0:06:29"}
-{"current_steps": 270, "total_steps": 900, "loss": 0.0403, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.012345679012346e-05, "epoch": 0.6, "percentage": 30.0, "elapsed_time": "0:02:44", "remaining_time": "0:06:23"}
-{"current_steps": 280, "total_steps": 900, "loss": 0.0105, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.950617283950617e-05, "epoch": 0.62, "percentage": 31.11, "elapsed_time": "0:02:50", "remaining_time": "0:06:18"}
-{"current_steps": 290, "total_steps": 900, "loss": 0.0105, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.888888888888889e-05, "epoch": 0.64, "percentage": 32.22, "elapsed_time": "0:02:56", "remaining_time": "0:06:11"}
-{"current_steps": 300, "total_steps": 900, "loss": 0.0284, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.82716049382716e-05, "epoch": 0.67, "percentage": 33.33, "elapsed_time": "0:03:03", "remaining_time": "0:06:06"}
-{"current_steps": 310, "total_steps": 900, "loss": 0.0129, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7654320987654326e-05, "epoch": 0.69, "percentage": 34.44, "elapsed_time": "0:03:09", "remaining_time": "0:06:00"}
-{"current_steps": 320, "total_steps": 900, "loss": 0.0105, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7037037037037037e-05, "epoch": 0.71, "percentage": 35.56, "elapsed_time": "0:03:15", "remaining_time": "0:05:54"}
-{"current_steps": 330, "total_steps": 900, "loss": 0.027, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.6419753086419754e-05, "epoch": 0.73, "percentage": 36.67, "elapsed_time": "0:03:21", "remaining_time": "0:05:48"}
-{"current_steps": 340, "total_steps": 900, "loss": 0.0017, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.580246913580247e-05, "epoch": 0.76, "percentage": 37.78, "elapsed_time": "0:03:28", "remaining_time": "0:05:42"}
-{"current_steps": 350, "total_steps": 900, "loss": 0.0032, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.518518518518519e-05, "epoch": 0.78, "percentage": 38.89, "elapsed_time": "0:03:34", "remaining_time": "0:05:36"}
-{"current_steps": 360, "total_steps": 900, "loss": 0.0167, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.45679012345679e-05, "epoch": 0.8, "percentage": 40.0, "elapsed_time": "0:03:40", "remaining_time": "0:05:30"}
-{"current_steps": 370, "total_steps": 900, "loss": 0.006, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.395061728395062e-05, "epoch": 0.82, "percentage": 41.11, "elapsed_time": "0:03:46", "remaining_time": "0:05:24"}
-{"current_steps": 380, "total_steps": 900, "loss": 0.0057, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.3333333333333335e-05, "epoch": 0.84, "percentage": 42.22, "elapsed_time": "0:03:53", "remaining_time": "0:05:18"}
-{"current_steps": 390, "total_steps": 900, "loss": 0.0037, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.271604938271605e-05, "epoch": 0.87, "percentage": 43.33, "elapsed_time": "0:03:59", "remaining_time": "0:05:12"}
-{"current_steps": 400, "total_steps": 900, "loss": 0.0044, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.209876543209876e-05, "epoch": 0.89, "percentage": 44.44, "elapsed_time": "0:04:05", "remaining_time": "0:05:06"}
-{"current_steps": 410, "total_steps": 900, "loss": 0.0045, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.148148148148148e-05, "epoch": 0.91, "percentage": 45.56, "elapsed_time": "0:04:11", "remaining_time": "0:05:00"}
-{"current_steps": 420, "total_steps": 900, "loss": 0.0197, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.08641975308642e-05, "epoch": 0.93, "percentage": 46.67, "elapsed_time": "0:04:18", "remaining_time": "0:04:55"}
-{"current_steps": 430, "total_steps": 900, "loss": 0.0057, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.0246913580246916e-05, "epoch": 0.96, "percentage": 47.78, "elapsed_time": "0:04:24", "remaining_time": "0:04:49"}
-{"current_steps": 440, "total_steps": 900, "loss": 0.0047, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.962962962962963e-05, "epoch": 0.98, "percentage": 48.89, "elapsed_time": "0:04:30", "remaining_time": "0:04:43"}
-{"current_steps": 450, "total_steps": 900, "loss": 0.0067, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.9012345679012347e-05, "epoch": 1.0, "percentage": 50.0, "elapsed_time": "0:04:37", "remaining_time": "0:04:37"}
-{"current_steps": 460, "total_steps": 900, "loss": 0.0048, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.839506172839506e-05, "epoch": 1.02, "percentage": 51.11, "elapsed_time": "0:04:43", "remaining_time": "0:04:30"}
-{"current_steps": 470, "total_steps": 900, "loss": 0.0042, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.777777777777778e-05, "epoch": 1.04, "percentage": 52.22, "elapsed_time": "0:04:49", "remaining_time": "0:04:25"}
-{"current_steps": 480, "total_steps": 900, "loss": 0.0054, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.7160493827160493e-05, "epoch": 1.07, "percentage": 53.33, "elapsed_time": "0:04:56", "remaining_time": "0:04:19"}
-{"current_steps": 490, "total_steps": 900, "loss": 0.0003, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.654320987654321e-05, "epoch": 1.09, "percentage": 54.44, "elapsed_time": "0:05:02", "remaining_time": "0:04:13"}
-{"current_steps": 500, "total_steps": 900, "loss": 0.0003, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.5925925925925925e-05, "epoch": 1.11, "percentage": 55.56, "elapsed_time": "0:05:08", "remaining_time": "0:04:07"}
-{"current_steps": 510, "total_steps": 900, "loss": 0.0024, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.5308641975308646e-05, "epoch": 1.13, "percentage": 56.67, "elapsed_time": "0:06:15", "remaining_time": "0:04:46"}
-{"current_steps": 520, "total_steps": 900, "loss": 0.0055, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.4691358024691357e-05, "epoch": 1.16, "percentage": 57.78, "elapsed_time": "0:06:21", "remaining_time": "0:04:38"}
-{"current_steps": 530, "total_steps": 900, "loss": 0.0009, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.4074074074074074e-05, "epoch": 1.18, "percentage": 58.89, "elapsed_time": "0:06:27", "remaining_time": "0:04:30"}
-{"current_steps": 540, "total_steps": 900, "loss": 0.0006, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.345679012345679e-05, "epoch": 1.2, "percentage": 60.0, "elapsed_time": "0:06:34", "remaining_time": "0:04:22"}
-{"current_steps": 550, "total_steps": 900, "loss": 0.0008, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.2839506172839506e-05, "epoch": 1.22, "percentage": 61.11, "elapsed_time": "0:06:40", "remaining_time": "0:04:14"}
-{"current_steps": 560, "total_steps": 900, "loss": 0.0051, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.2222222222222223e-05, "epoch": 1.24, "percentage": 62.22, "elapsed_time": "0:06:46", "remaining_time": "0:04:06"}
-{"current_steps": 570, "total_steps": 900, "loss": 0.0129, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.1604938271604937e-05, "epoch": 1.27, "percentage": 63.33, "elapsed_time": "0:06:53", "remaining_time": "0:03:59"}
-{"current_steps": 580, "total_steps": 900, "loss": 0.0008, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.0987654320987655e-05, "epoch": 1.29, "percentage": 64.44, "elapsed_time": "0:06:59", "remaining_time": "0:03:51"}
-{"current_steps": 590, "total_steps": 900, "loss": 0.0042, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.037037037037037e-05, "epoch": 1.31, "percentage": 65.56, "elapsed_time": "0:07:05", "remaining_time": "0:03:43"}
-{"current_steps": 600, "total_steps": 900, "loss": 0.0003, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.9753086419753087e-05, "epoch": 1.33, "percentage": 66.67, "elapsed_time": "0:07:11", "remaining_time": "0:03:35"}
-{"current_steps": 610, "total_steps": 900, "loss": 0.0049, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.91358024691358e-05, "epoch": 1.36, "percentage": 67.78, "elapsed_time": "0:07:17", "remaining_time": "0:03:27"}
-{"current_steps": 620, "total_steps": 900, "loss": 0.0032, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.8518518518518518e-05, "epoch": 1.38, "percentage": 68.89, "elapsed_time": "0:07:23", "remaining_time": "0:03:20"}
-{"current_steps": 630, "total_steps": 900, "loss": 0.0019, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.7901234567901236e-05, "epoch": 1.4, "percentage": 70.0, "elapsed_time": "0:07:30", "remaining_time": "0:03:12"}
-{"current_steps": 640, "total_steps": 900, "loss": 0.002, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.728395061728395e-05, "epoch": 1.42, "percentage": 71.11, "elapsed_time": "0:07:36", "remaining_time": "0:03:05"}
-{"current_steps": 650, "total_steps": 900, "loss": 0.0015, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.6666666666666667e-05, "epoch": 1.44, "percentage": 72.22, "elapsed_time": "0:07:42", "remaining_time": "0:02:57"}
-{"current_steps": 660, "total_steps": 900, "loss": 0.0021, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.604938271604938e-05, "epoch": 1.47, "percentage": 73.33, "elapsed_time": "0:07:48", "remaining_time": "0:02:50"}
-{"current_steps": 670, "total_steps": 900, "loss": 0.0028, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.54320987654321e-05, "epoch": 1.49, "percentage": 74.44, "elapsed_time": "0:07:54", "remaining_time": "0:02:42"}
-{"current_steps": 680, "total_steps": 900, "loss": 0.0004, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.4814814814814815e-05, "epoch": 1.51, "percentage": 75.56, "elapsed_time": "0:08:01", "remaining_time": "0:02:35"}
-{"current_steps": 690, "total_steps": 900, "loss": 0.0001, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.419753086419753e-05, "epoch": 1.53, "percentage": 76.67, "elapsed_time": "0:08:07", "remaining_time": "0:02:28"}
-{"current_steps": 700, "total_steps": 900, "loss": 0.0003, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.3580246913580247e-05, "epoch": 1.56, "percentage": 77.78, "elapsed_time": "0:08:13", "remaining_time": "0:02:20"}
-{"current_steps": 710, "total_steps": 900, "loss": 0.0007, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.2962962962962962e-05, "epoch": 1.58, "percentage": 78.89, "elapsed_time": "0:08:19", "remaining_time": "0:02:13"}
-{"current_steps": 720, "total_steps": 900, "loss": 0.0017, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.2345679012345678e-05, "epoch": 1.6, "percentage": 80.0, "elapsed_time": "0:08:25", "remaining_time": "0:02:06"}
-{"current_steps": 730, "total_steps": 900, "loss": 0.0002, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1728395061728396e-05, "epoch": 1.62, "percentage": 81.11, "elapsed_time": "0:08:31", "remaining_time": "0:01:59"}
-{"current_steps": 740, "total_steps": 900, "loss": 0.0001, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1111111111111112e-05, "epoch": 1.64, "percentage": 82.22, "elapsed_time": "0:08:38", "remaining_time": "0:01:52"}
-{"current_steps": 750, "total_steps": 900, "loss": 0.0009, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.0493827160493827e-05, "epoch": 1.67, "percentage": 83.33, "elapsed_time": "0:08:44", "remaining_time": "0:01:44"}
-{"current_steps": 760, "total_steps": 900, "loss": 0.0001, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.876543209876543e-06, "epoch": 1.69, "percentage": 84.44, "elapsed_time": "0:08:50", "remaining_time": "0:01:37"}
-{"current_steps": 770, "total_steps": 900, "loss": 0.0005, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.259259259259259e-06, "epoch": 1.71, "percentage": 85.56, "elapsed_time": "0:08:56", "remaining_time": "0:01:30"}
-{"current_steps": 780, "total_steps": 900, "loss": 0.0001, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.641975308641975e-06, "epoch": 1.73, "percentage": 86.67, "elapsed_time": "0:09:03", "remaining_time": "0:01:23"}
-{"current_steps": 790, "total_steps": 900, "loss": 0.0004, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.02469135802469e-06, "epoch": 1.76, "percentage": 87.78, "elapsed_time": "0:09:09", "remaining_time": "0:01:16"}
-{"current_steps": 800, "total_steps": 900, "loss": 0.0006, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 7.4074074074074075e-06, "epoch": 1.78, "percentage": 88.89, "elapsed_time": "0:09:15", "remaining_time": "0:01:09"}
-{"current_steps": 810, "total_steps": 900, "loss": 0.0018, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.790123456790123e-06, "epoch": 1.8, "percentage": 90.0, "elapsed_time": "0:09:21", "remaining_time": "0:01:02"}
-{"current_steps": 820, "total_steps": 900, "loss": 0.0022, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.172839506172839e-06, "epoch": 1.82, "percentage": 91.11, "elapsed_time": "0:09:28", "remaining_time": "0:00:55"}
-{"current_steps": 830, "total_steps": 900, "loss": 0.0017, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.555555555555556e-06, "epoch": 1.84, "percentage": 92.22, "elapsed_time": "0:09:34", "remaining_time": "0:00:48"}
-{"current_steps": 840, "total_steps": 900, "loss": 0.0052, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.938271604938272e-06, "epoch": 1.87, "percentage": 93.33, "elapsed_time": "0:09:40", "remaining_time": "0:00:41"}
-{"current_steps": 850, "total_steps": 900, "loss": 0.0011, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.3209876543209875e-06, "epoch": 1.89, "percentage": 94.44, "elapsed_time": "0:09:46", "remaining_time": "0:00:34"}
-{"current_steps": 860, "total_steps": 900, "loss": 0.0014, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7037037037037037e-06, "epoch": 1.91, "percentage": 95.56, "elapsed_time": "0:09:53", "remaining_time": "0:00:27"}
-{"current_steps": 870, "total_steps": 900, "loss": 0.0056, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.0864197530864196e-06, "epoch": 1.93, "percentage": 96.67, "elapsed_time": "0:09:59", "remaining_time": "0:00:20"}
-{"current_steps": 880, "total_steps": 900, "loss": 0.0, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.469135802469136e-06, "epoch": 1.96, "percentage": 97.78, "elapsed_time": "0:10:05", "remaining_time": "0:00:13"}
-{"current_steps": 890, "total_steps": 900, "loss": 0.0001, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.8518518518518519e-06, "epoch": 1.98, "percentage": 98.89, "elapsed_time": "0:10:12", "remaining_time": "0:00:06"}
-{"current_steps": 900, "total_steps": 900, "loss": 0.0002, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.234567901234568e-06, "epoch": 2.0, "percentage": 100.0, "elapsed_time": "0:10:18", "remaining_time": "0:00:00"}
-{"current_steps": 900, "total_steps": 900, "loss": null, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.0, "percentage": 100.0, "elapsed_time": "0:10:18", "remaining_time": "0:00:00"}

+{"current_steps": 10, "total_steps": 600, "loss": 0.7227, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0, "epoch": 0.03, "percentage": 1.67, "elapsed_time": "0:00:06", "remaining_time": "0:06:09"}
+{"current_steps": 20, "total_steps": 600, "loss": 0.7667, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.6666666666666667e-06, "epoch": 0.07, "percentage": 3.33, "elapsed_time": "0:00:14", "remaining_time": "0:06:58"}
+{"current_steps": 30, "total_steps": 600, "loss": 0.2428, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1e-05, "epoch": 0.1, "percentage": 5.0, "elapsed_time": "0:00:23", "remaining_time": "0:07:17"}
+{"current_steps": 40, "total_steps": 600, "loss": 0.0194, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.8333333333333333e-05, "epoch": 0.13, "percentage": 6.67, "elapsed_time": "0:00:32", "remaining_time": "0:07:33"}
+{"current_steps": 50, "total_steps": 600, "loss": 0.0071, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.6666666666666667e-05, "epoch": 0.17, "percentage": 8.33, "elapsed_time": "0:00:41", "remaining_time": "0:07:37"}
+{"current_steps": 60, "total_steps": 600, "loss": 0.0131, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.5e-05, "epoch": 0.2, "percentage": 10.0, "elapsed_time": "0:00:50", "remaining_time": "0:07:36"}
+{"current_steps": 70, "total_steps": 600, "loss": 0.0079, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.3333333333333334e-05, "epoch": 0.23, "percentage": 11.67, "elapsed_time": "0:01:00", "remaining_time": "0:07:39"}
+{"current_steps": 80, "total_steps": 600, "loss": 0.0094, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.981481481481482e-05, "epoch": 0.27, "percentage": 13.33, "elapsed_time": "0:01:10", "remaining_time": "0:07:40"}
+{"current_steps": 90, "total_steps": 600, "loss": 0.0177, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.888888888888889e-05, "epoch": 0.3, "percentage": 15.0, "elapsed_time": "0:01:20", "remaining_time": "0:07:35"}
+{"current_steps": 100, "total_steps": 600, "loss": 0.0083, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.796296296296296e-05, "epoch": 0.33, "percentage": 16.67, "elapsed_time": "0:01:30", "remaining_time": "0:07:30"}
+{"current_steps": 110, "total_steps": 600, "loss": 0.0226, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.703703703703704e-05, "epoch": 0.37, "percentage": 18.33, "elapsed_time": "0:01:39", "remaining_time": "0:07:21"}
+{"current_steps": 120, "total_steps": 600, "loss": 0.0102, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.6111111111111115e-05, "epoch": 0.4, "percentage": 20.0, "elapsed_time": "0:01:48", "remaining_time": "0:07:14"}
+{"current_steps": 130, "total_steps": 600, "loss": 0.0197, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.518518518518519e-05, "epoch": 0.43, "percentage": 21.67, "elapsed_time": "0:01:57", "remaining_time": "0:07:05"}
+{"current_steps": 140, "total_steps": 600, "loss": 0.0312, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.425925925925926e-05, "epoch": 0.47, "percentage": 23.33, "elapsed_time": "0:02:06", "remaining_time": "0:06:56"}
+{"current_steps": 150, "total_steps": 600, "loss": 0.0282, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.3333333333333334e-05, "epoch": 0.5, "percentage": 25.0, "elapsed_time": "0:02:16", "remaining_time": "0:06:48"}
+{"current_steps": 160, "total_steps": 600, "loss": 0.0231, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.240740740740741e-05, "epoch": 0.53, "percentage": 26.67, "elapsed_time": "0:02:25", "remaining_time": "0:06:39"}
+{"current_steps": 170, "total_steps": 600, "loss": 0.0376, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.148148148148148e-05, "epoch": 0.57, "percentage": 28.33, "elapsed_time": "0:02:34", "remaining_time": "0:06:31"}
+{"current_steps": 180, "total_steps": 600, "loss": 0.0209, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.055555555555556e-05, "epoch": 0.6, "percentage": 30.0, "elapsed_time": "0:02:44", "remaining_time": "0:06:22"}
+{"current_steps": 190, "total_steps": 600, "loss": 0.058, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.981481481481482e-05, "epoch": 0.63, "percentage": 31.67, "elapsed_time": "0:02:53", "remaining_time": "0:06:13"}
+{"current_steps": 200, "total_steps": 600, "loss": 0.0302, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.888888888888889e-05, "epoch": 0.67, "percentage": 33.33, "elapsed_time": "0:03:02", "remaining_time": "0:06:04"}
+{"current_steps": 210, "total_steps": 600, "loss": 0.0434, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7962962962962964e-05, "epoch": 0.7, "percentage": 35.0, "elapsed_time": "0:03:12", "remaining_time": "0:05:56"}
+{"current_steps": 220, "total_steps": 600, "loss": 0.0432, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7037037037037037e-05, "epoch": 0.73, "percentage": 36.67, "elapsed_time": "0:03:21", "remaining_time": "0:05:47"}
+{"current_steps": 230, "total_steps": 600, "loss": 0.0493, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.611111111111111e-05, "epoch": 0.77, "percentage": 38.33, "elapsed_time": "0:03:30", "remaining_time": "0:05:37"}
+{"current_steps": 240, "total_steps": 600, "loss": 0.0588, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.527777777777778e-05, "epoch": 0.8, "percentage": 40.0, "elapsed_time": "0:03:39", "remaining_time": "0:05:28"}
+{"current_steps": 250, "total_steps": 600, "loss": 0.0725, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.435185185185185e-05, "epoch": 0.83, "percentage": 41.67, "elapsed_time": "0:03:48", "remaining_time": "0:05:20"}
+{"current_steps": 260, "total_steps": 600, "loss": 0.0859, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.3425925925925924e-05, "epoch": 0.87, "percentage": 43.33, "elapsed_time": "0:03:57", "remaining_time": "0:05:10"}
+{"current_steps": 270, "total_steps": 600, "loss": 0.0535, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.2500000000000004e-05, "epoch": 0.9, "percentage": 45.0, "elapsed_time": "0:04:06", "remaining_time": "0:05:01"}
+{"current_steps": 280, "total_steps": 600, "loss": 0.0475, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.157407407407408e-05, "epoch": 0.93, "percentage": 46.67, "elapsed_time": "0:04:15", "remaining_time": "0:04:51"}
+{"current_steps": 290, "total_steps": 600, "loss": 0.0291, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.064814814814815e-05, "epoch": 0.97, "percentage": 48.33, "elapsed_time": "0:04:25", "remaining_time": "0:04:43"}
+{"current_steps": 300, "total_steps": 600, "loss": 0.0327, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.9722222222222223e-05, "epoch": 1.0, "percentage": 50.0, "elapsed_time": "0:04:34", "remaining_time": "0:04:34"}
+{"current_steps": 310, "total_steps": 600, "loss": 0.0254, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.87962962962963e-05, "epoch": 1.03, "percentage": 51.67, "elapsed_time": "0:04:43", "remaining_time": "0:04:24"}
+{"current_steps": 320, "total_steps": 600, "loss": 0.0486, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.7870370370370375e-05, "epoch": 1.07, "percentage": 53.33, "elapsed_time": "0:04:52", "remaining_time": "0:04:15"}
+{"current_steps": 330, "total_steps": 600, "loss": 0.0413, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.6944444444444445e-05, "epoch": 1.1, "percentage": 55.0, "elapsed_time": "0:05:01", "remaining_time": "0:04:06"}
+{"current_steps": 340, "total_steps": 600, "loss": 0.0229, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.601851851851852e-05, "epoch": 1.13, "percentage": 56.67, "elapsed_time": "0:05:11", "remaining_time": "0:03:57"}
+{"current_steps": 350, "total_steps": 600, "loss": 0.0191, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.5092592592592594e-05, "epoch": 1.17, "percentage": 58.33, "elapsed_time": "0:05:21", "remaining_time": "0:03:49"}
+{"current_steps": 360, "total_steps": 600, "loss": 0.0378, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.4166666666666667e-05, "epoch": 1.2, "percentage": 60.0, "elapsed_time": "0:05:29", "remaining_time": "0:03:39"}
+{"current_steps": 370, "total_steps": 600, "loss": 0.0244, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.324074074074074e-05, "epoch": 1.23, "percentage": 61.67, "elapsed_time": "0:05:38", "remaining_time": "0:03:30"}
+{"current_steps": 380, "total_steps": 600, "loss": 0.014, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.2314814814814816e-05, "epoch": 1.27, "percentage": 63.33, "elapsed_time": "0:05:50", "remaining_time": "0:03:23"}
+{"current_steps": 390, "total_steps": 600, "loss": 0.0264, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.138888888888889e-05, "epoch": 1.3, "percentage": 65.0, "elapsed_time": "0:05:59", "remaining_time": "0:03:13"}
+{"current_steps": 400, "total_steps": 600, "loss": 0.043, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.0462962962962965e-05, "epoch": 1.33, "percentage": 66.67, "elapsed_time": "0:06:08", "remaining_time": "0:03:04"}
+{"current_steps": 410, "total_steps": 600, "loss": 0.0356, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.9537037037037038e-05, "epoch": 1.37, "percentage": 68.33, "elapsed_time": "0:06:16", "remaining_time": "0:02:54"}
+{"current_steps": 420, "total_steps": 600, "loss": 0.023, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.861111111111111e-05, "epoch": 1.4, "percentage": 70.0, "elapsed_time": "0:06:26", "remaining_time": "0:02:45"}
+{"current_steps": 430, "total_steps": 600, "loss": 0.0285, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.7685185185185184e-05, "epoch": 1.43, "percentage": 71.67, "elapsed_time": "0:06:36", "remaining_time": "0:02:36"}
+{"current_steps": 440, "total_steps": 600, "loss": 0.0189, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.675925925925926e-05, "epoch": 1.47, "percentage": 73.33, "elapsed_time": "0:06:46", "remaining_time": "0:02:27"}
+{"current_steps": 450, "total_steps": 600, "loss": 0.0296, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.5833333333333333e-05, "epoch": 1.5, "percentage": 75.0, "elapsed_time": "0:06:55", "remaining_time": "0:02:18"}
+{"current_steps": 460, "total_steps": 600, "loss": 0.0189, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.490740740740741e-05, "epoch": 1.53, "percentage": 76.67, "elapsed_time": "0:07:05", "remaining_time": "0:02:09"}
+{"current_steps": 470, "total_steps": 600, "loss": 0.0357, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.3981481481481482e-05, "epoch": 1.57, "percentage": 78.33, "elapsed_time": "0:07:14", "remaining_time": "0:02:00"}
+{"current_steps": 480, "total_steps": 600, "loss": 0.0235, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.3055555555555557e-05, "epoch": 1.6, "percentage": 80.0, "elapsed_time": "0:07:23", "remaining_time": "0:01:50"}
+{"current_steps": 490, "total_steps": 600, "loss": 0.0396, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.212962962962963e-05, "epoch": 1.63, "percentage": 81.67, "elapsed_time": "0:07:33", "remaining_time": "0:01:41"}
+{"current_steps": 500, "total_steps": 600, "loss": 0.0236, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.1203703703703704e-05, "epoch": 1.67, "percentage": 83.33, "elapsed_time": "0:07:42", "remaining_time": "0:01:32"}
+{"current_steps": 510, "total_steps": 600, "loss": 0.0147, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.0277777777777777e-05, "epoch": 1.7, "percentage": 85.0, "elapsed_time": "0:08:47", "remaining_time": "0:01:33"}
+{"current_steps": 520, "total_steps": 600, "loss": 0.0135, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 9.351851851851852e-06, "epoch": 1.73, "percentage": 86.67, "elapsed_time": "0:08:56", "remaining_time": "0:01:22"}
+{"current_steps": 530, "total_steps": 600, "loss": 0.0138, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 8.425925925925926e-06, "epoch": 1.77, "percentage": 88.33, "elapsed_time": "0:09:05", "remaining_time": "0:01:12"}
+{"current_steps": 540, "total_steps": 600, "loss": 0.024, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 7.5e-06, "epoch": 1.8, "percentage": 90.0, "elapsed_time": "0:09:14", "remaining_time": "0:01:01"}
+{"current_steps": 550, "total_steps": 600, "loss": 0.0181, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 6.574074074074074e-06, "epoch": 1.83, "percentage": 91.67, "elapsed_time": "0:09:23", "remaining_time": "0:00:51"}
+{"current_steps": 560, "total_steps": 600, "loss": 0.0201, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 5.6481481481481485e-06, "epoch": 1.87, "percentage": 93.33, "elapsed_time": "0:09:32", "remaining_time": "0:00:40"}
+{"current_steps": 570, "total_steps": 600, "loss": 0.0276, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 4.722222222222222e-06, "epoch": 1.9, "percentage": 95.0, "elapsed_time": "0:09:41", "remaining_time": "0:00:30"}
+{"current_steps": 580, "total_steps": 600, "loss": 0.0287, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 3.7962962962962964e-06, "epoch": 1.93, "percentage": 96.67, "elapsed_time": "0:09:50", "remaining_time": "0:00:20"}
+{"current_steps": 590, "total_steps": 600, "loss": 0.0256, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 2.8703703703703706e-06, "epoch": 1.97, "percentage": 98.33, "elapsed_time": "0:09:59", "remaining_time": "0:00:10"}
+{"current_steps": 600, "total_steps": 600, "loss": 0.018, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 1.9444444444444444e-06, "epoch": 2.0, "percentage": 100.0, "elapsed_time": "0:10:09", "remaining_time": "0:00:00"}
+{"current_steps": 600, "total_steps": 600, "loss": null, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.0, "percentage": 100.0, "elapsed_time": "0:10:09", "remaining_time": "0:00:00"}

trainer_state.json CHANGED Viewed

@@ -3,566 +3,386 @@
   "best_model_checkpoint": null,
   "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
       "learning_rate": 0.0,
-      "loss": 6.3978,
       "step": 10
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 0.0,
-      "loss": 6.4106,
       "step": 20
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 4.0676,
       "step": 30
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.0992,
       "step": 40
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.0295,
       "step": 50
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.0452,
       "step": 60
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.026,
       "step": 70
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.024,
       "step": 80
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 3.888888888888889e-05,
-      "loss": 0.0235,
       "step": 90
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.0151,
       "step": 100
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 5e-05,
-      "loss": 0.0188,
       "step": 110
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.938271604938271e-05,
-      "loss": 0.0109,
       "step": 120
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 4.876543209876544e-05,
-      "loss": 0.0223,
       "step": 130
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.814814814814815e-05,
-      "loss": 0.0157,
       "step": 140
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 4.7530864197530866e-05,
-      "loss": 0.0186,
       "step": 150
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 4.691358024691358e-05,
-      "loss": 0.0182,
       "step": 160
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 0.0287,
       "step": 170
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 4.567901234567901e-05,
-      "loss": 0.0103,
       "step": 180
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 4.506172839506173e-05,
-      "loss": 0.0114,
       "step": 190
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.0009,
       "step": 200
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 4.3827160493827164e-05,
-      "loss": 0.0164,
       "step": 210
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 4.3209876543209875e-05,
-      "loss": 0.0227,
       "step": 220
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 4.259259259259259e-05,
-      "loss": 0.0225,
       "step": 230
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 4.197530864197531e-05,
-      "loss": 0.0069,
       "step": 240
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 4.135802469135803e-05,
-      "loss": 0.017,
       "step": 250
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 4.074074074074074e-05,
-      "loss": 0.008,
       "step": 260
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 4.012345679012346e-05,
-      "loss": 0.0403,
       "step": 270
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 3.950617283950617e-05,
-      "loss": 0.0105,
       "step": 280
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 3.888888888888889e-05,
-      "loss": 0.0105,
       "step": 290
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 3.82716049382716e-05,
-      "loss": 0.0284,
       "step": 300
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 3.7654320987654326e-05,
-      "loss": 0.0129,
       "step": 310
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.0105,
       "step": 320
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 3.6419753086419754e-05,
-      "loss": 0.027,
       "step": 330
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 3.580246913580247e-05,
-      "loss": 0.0017,
       "step": 340
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 3.518518518518519e-05,
-      "loss": 0.0032,
       "step": 350
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 3.45679012345679e-05,
-      "loss": 0.0167,
       "step": 360
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 3.395061728395062e-05,
-      "loss": 0.006,
       "step": 370
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.0057,
       "step": 380
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 3.271604938271605e-05,
-      "loss": 0.0037,
       "step": 390
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 3.209876543209876e-05,
-      "loss": 0.0044,
       "step": 400
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 3.148148148148148e-05,
-      "loss": 0.0045,
       "step": 410
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 3.08641975308642e-05,
-      "loss": 0.0197,
       "step": 420
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 3.0246913580246916e-05,
-      "loss": 0.0057,
       "step": 430
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 2.962962962962963e-05,
-      "loss": 0.0047,
       "step": 440
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 2.9012345679012347e-05,
-      "loss": 0.0067,
       "step": 450
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 2.839506172839506e-05,
-      "loss": 0.0048,
       "step": 460
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.0042,
       "step": 470
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 2.7160493827160493e-05,
-      "loss": 0.0054,
       "step": 480
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 2.654320987654321e-05,
-      "loss": 0.0003,
       "step": 490
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 2.5925925925925925e-05,
-      "loss": 0.0003,
       "step": 500
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 2.5308641975308646e-05,
-      "loss": 0.0024,
       "step": 510
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 2.4691358024691357e-05,
-      "loss": 0.0055,
       "step": 520
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 2.4074074074074074e-05,
-      "loss": 0.0009,
       "step": 530
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 2.345679012345679e-05,
-      "loss": 0.0006,
       "step": 540
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 2.2839506172839506e-05,
-      "loss": 0.0008,
       "step": 550
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.0051,
       "step": 560
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 2.1604938271604937e-05,
-      "loss": 0.0129,
       "step": 570
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 2.0987654320987655e-05,
-      "loss": 0.0008,
       "step": 580
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 2.037037037037037e-05,
-      "loss": 0.0042,
       "step": 590
     },
-    {
-      "epoch": 1.33,
-      "learning_rate": 1.9753086419753087e-05,
-      "loss": 0.0003,
-      "step": 600
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 1.91358024691358e-05,
-      "loss": 0.0049,
-      "step": 610
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.0032,
-      "step": 620
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 1.7901234567901236e-05,
-      "loss": 0.0019,
-      "step": 630
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 1.728395061728395e-05,
-      "loss": 0.002,
-      "step": 640
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.0015,
-      "step": 650
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 1.604938271604938e-05,
-      "loss": 0.0021,
-      "step": 660
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 1.54320987654321e-05,
-      "loss": 0.0028,
-      "step": 670
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.0004,
-      "step": 680
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 1.419753086419753e-05,
-      "loss": 0.0001,
-      "step": 690
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 1.3580246913580247e-05,
-      "loss": 0.0003,
-      "step": 700
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 1.2962962962962962e-05,
-      "loss": 0.0007,
-      "step": 710
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 1.2345679012345678e-05,
-      "loss": 0.0017,
-      "step": 720
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 1.1728395061728396e-05,
-      "loss": 0.0002,
-      "step": 730
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.0001,
-      "step": 740
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 1.0493827160493827e-05,
-      "loss": 0.0009,
-      "step": 750
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 9.876543209876543e-06,
-      "loss": 0.0001,
-      "step": 760
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.0005,
-      "step": 770
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 8.641975308641975e-06,
-      "loss": 0.0001,
-      "step": 780
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 8.02469135802469e-06,
-      "loss": 0.0004,
-      "step": 790
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.0006,
-      "step": 800
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 6.790123456790123e-06,
-      "loss": 0.0018,
-      "step": 810
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 6.172839506172839e-06,
-      "loss": 0.0022,
-      "step": 820
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 0.0017,
-      "step": 830
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 4.938271604938272e-06,
-      "loss": 0.0052,
-      "step": 840
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 4.3209876543209875e-06,
-      "loss": 0.0011,
-      "step": 850
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.0014,
-      "step": 860
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 3.0864197530864196e-06,
-      "loss": 0.0056,
-      "step": 870
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 2.469135802469136e-06,
-      "loss": 0.0,
-      "step": 880
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 1.8518518518518519e-06,
-      "loss": 0.0001,
-      "step": 890
-    },
     {
       "epoch": 2.0,
-      "learning_rate": 1.234567901234568e-06,
-      "loss": 0.0002,
-      "step": 900
     },
     {
       "epoch": 2.0,
-      "step": 900,
-      "total_flos": 1.0906858404236493e+17,
-      "train_loss": 0.19669926248992042,
-      "train_runtime": 618.138,
-      "train_samples_per_second": 14.531,
-      "train_steps_per_second": 1.456
     }
   ],
   "logging_steps": 10,
-  "max_steps": 900,
   "num_train_epochs": 2,
   "save_steps": 500,
-  "total_flos": 1.0906858404236493e+17,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
       "learning_rate": 0.0,
+      "loss": 0.7227,
       "step": 10
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.7667,
       "step": 20
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 1e-05,
+      "loss": 0.2428,
       "step": 30
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.0194,
       "step": 40
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.0071,
       "step": 50
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0131,
       "step": 60
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 0.0079,
       "step": 70
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.981481481481482e-05,
+      "loss": 0.0094,
       "step": 80
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 4.888888888888889e-05,
+      "loss": 0.0177,
       "step": 90
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 4.796296296296296e-05,
+      "loss": 0.0083,
       "step": 100
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 4.703703703703704e-05,
+      "loss": 0.0226,
       "step": 110
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 4.6111111111111115e-05,
+      "loss": 0.0102,
       "step": 120
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 4.518518518518519e-05,
+      "loss": 0.0197,
       "step": 130
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 4.425925925925926e-05,
+      "loss": 0.0312,
       "step": 140
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 0.0282,
       "step": 150
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 4.240740740740741e-05,
+      "loss": 0.0231,
       "step": 160
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 4.148148148148148e-05,
+      "loss": 0.0376,
       "step": 170
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 4.055555555555556e-05,
+      "loss": 0.0209,
       "step": 180
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 3.981481481481482e-05,
+      "loss": 0.058,
       "step": 190
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.0302,
       "step": 200
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 3.7962962962962964e-05,
+      "loss": 0.0434,
       "step": 210
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0432,
       "step": 220
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.0493,
       "step": 230
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 3.527777777777778e-05,
+      "loss": 0.0588,
       "step": 240
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 3.435185185185185e-05,
+      "loss": 0.0725,
       "step": 250
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 3.3425925925925924e-05,
+      "loss": 0.0859,
       "step": 260
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.0535,
       "step": 270
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 3.157407407407408e-05,
+      "loss": 0.0475,
       "step": 280
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 3.064814814814815e-05,
+      "loss": 0.0291,
       "step": 290
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 2.9722222222222223e-05,
+      "loss": 0.0327,
       "step": 300
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 2.87962962962963e-05,
+      "loss": 0.0254,
       "step": 310
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 2.7870370370370375e-05,
+      "loss": 0.0486,
       "step": 320
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 2.6944444444444445e-05,
+      "loss": 0.0413,
       "step": 330
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 2.601851851851852e-05,
+      "loss": 0.0229,
       "step": 340
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 2.5092592592592594e-05,
+      "loss": 0.0191,
       "step": 350
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 2.4166666666666667e-05,
+      "loss": 0.0378,
       "step": 360
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 2.324074074074074e-05,
+      "loss": 0.0244,
       "step": 370
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 2.2314814814814816e-05,
+      "loss": 0.014,
       "step": 380
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 2.138888888888889e-05,
+      "loss": 0.0264,
       "step": 390
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 2.0462962962962965e-05,
+      "loss": 0.043,
       "step": 400
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 1.9537037037037038e-05,
+      "loss": 0.0356,
       "step": 410
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 1.861111111111111e-05,
+      "loss": 0.023,
       "step": 420
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 1.7685185185185184e-05,
+      "loss": 0.0285,
       "step": 430
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 1.675925925925926e-05,
+      "loss": 0.0189,
       "step": 440
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 1.5833333333333333e-05,
+      "loss": 0.0296,
       "step": 450
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 1.490740740740741e-05,
+      "loss": 0.0189,
       "step": 460
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 1.3981481481481482e-05,
+      "loss": 0.0357,
       "step": 470
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 1.3055555555555557e-05,
+      "loss": 0.0235,
       "step": 480
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 1.212962962962963e-05,
+      "loss": 0.0396,
       "step": 490
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 1.1203703703703704e-05,
+      "loss": 0.0236,
       "step": 500
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 1.0277777777777777e-05,
+      "loss": 0.0147,
       "step": 510
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 9.351851851851852e-06,
+      "loss": 0.0135,
       "step": 520
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 8.425925925925926e-06,
+      "loss": 0.0138,
       "step": 530
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 7.5e-06,
+      "loss": 0.024,
       "step": 540
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 6.574074074074074e-06,
+      "loss": 0.0181,
       "step": 550
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 5.6481481481481485e-06,
+      "loss": 0.0201,
       "step": 560
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 4.722222222222222e-06,
+      "loss": 0.0276,
       "step": 570
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 3.7962962962962964e-06,
+      "loss": 0.0287,
       "step": 580
     },
     {
+      "epoch": 1.97,
+      "learning_rate": 2.8703703703703706e-06,
+      "loss": 0.0256,
       "step": 590
     },
     {
       "epoch": 2.0,
+      "learning_rate": 1.9444444444444444e-06,
+      "loss": 0.018,
+      "step": 600
     },
     {
       "epoch": 2.0,
+      "step": 600,
+      "total_flos": 1.5734632955772928e+17,
+      "train_loss": 0.05660845875740051,
+      "train_runtime": 609.6094,
+      "train_samples_per_second": 19.685,
+      "train_steps_per_second": 0.984
     }
   ],
   "logging_steps": 10,
+  "max_steps": 600,
   "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 1.5734632955772928e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2517f3e3366d7fcfe464be71f2274d49b5ae7bc0ee93635cc4846116f60c5a8
+size 5179

training_loss.png CHANGED Viewed